英伟达开源3400亿巨兽Nemotron-4 340B
2024-06-17
来源:新智元
刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练 LLM 的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 掰手腕!
就在刚刚,英伟达再一次证明了自己的 AI 创新领域的领导地位。
它全新发布的 Nemotron-4 340B,是一系列具有开创意义的开源模型,有可能彻底改变训练 LLM 的合成数据生成方式!
这一突破性进展,标志着 AI 行业的一个重要里程碑 ——
从此,各行各业都无需依赖大量昂贵的真实世界数据集了,用合成数据,就可以创建性能强大的特定领域大语言模型!
现在,Nemotron-4 340B 已经取得了辉煌战绩,直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 一较高下!
具体来说,Nemotron-4 340B 包括基础模型 Base、指令模型 Instruct 和奖励模型 Reward,并构建了一个高质量合成数据生成的完整流程。
模型支持 4K 上下文窗口、50 多种自然语言和 40 多种编程语言,训练数据截止到 2023 年 6 月。
训练数据方面,英伟达采用了高达 9 万亿个 token。其中,8 万亿用于预训练,1 万亿用于继续训练以提高质量。
值得一提的是,指令模型的训练是在 98% 的合成数据上完成的。
结果显示,Nemotron-4-340B-Base 在常识推理任务,如 ARC-Challenge、MMLU 和 BigBench Hard 基准测试中,可以和 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 模型媲美。
而 Nemotron-4-340B-Instruct,在指令跟随和聊天能力方面也超越了相应的指令模型。
Nemotron-4-340B-Reward 在发表时,在 RewardBench 上实现了最高准确性,甚至超过了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 这样的专有模型。
在 BF16 精度下,模型的推理需要 8 块 H200,或 16 块 H100 / A100 80GB。如果是在 FP8 精度下,则只需 8 块 H100。
除此之外,Nemotron-4 340B 还有一个非常显著的特点 —— 对商用十分友好的许可。
高级深度学习研究工程师 Somshubra Majumdar 对此表示大赞:「是的,你可以用它生成你想要的所有数据」
无与伦比的合成数据生成
LLM 无法获得大规模、多样化标注数据集,怎么破?
Nemotron-4 340B 指令模型,可以帮助开发者生成合成训练数据。
这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制 LLM 的性能和稳定性。
而且,为了进一步提高 AI 生成数据的质量,开发者还可以用 Nemotron-4 340B 奖励模型,来筛选高质量的响应。
它会根据有用性、正确性、一致性、复杂性和冗长性这 5 个属性,对响应评分。
另外,研究者可以使用自己的专用数据,再结合 HelpSteer2 数据集,定制 Nemotron-4 340B 基础模型,以创建自己的指令或奖励模型。