国内首个开源千亿参数MoE大模型来了
2024-04-03
来源:智东西
全球移动互联网公司APUS与大模型创企新旦智能宣布,联手开源国内首个千亿参数的MoE(混合专家模型)APUS-xDAN大模型4.0,这也是国内首个可以在消费级显卡上运行的千亿MoE中英文大模型。
APUS-xDAN-4.0(MoE)参数规模为1360亿,可在消费级显卡4090上运行,据APUS实测,其综合性能超过GPT-3.5,达到GPT-4的90%。
数学能力上,测评基准GSM8K的测评得分为79,理解能力MMLU达到73分。
GitHub界面显示,APUS-xDAN-4.0(MoE)模型文件链接即将发布。
一、数学、推理能力碾压,推理成本下降400%
APUS-xDAN-4.0(MoE)在GitHub的页面显示了基准测评结果,其与Mixtral-8x7B(MoE)、Llama2-70B、Grok-1(MoE)进行了对比。
其中衡量模型语言理解、知识和推理能力的基准测试MMLU中,APUS-xDAN-4.0(MoE)排名第一,超过了Grok-1(MoE)。
在测试多步骤数学推理能力的单词问题集合测试GSM-9K以及MATH中,该模型得分均远高于其他三大模型。
四项测试中,APUS-xDAN-4.0(MoE)在多学科任务的BIG-Bench-Hard测试中,得分为66.4,接近Mixtral-8x7B(MoE),低于Grok-1(MoE)的71.7分。
其中,Mixtral-8x7B(MoE)由大模型创企Mistral AI于去年年底发布,并在多项基准测试中性能都基本达到GPT-3.5;Llama2-70B是去年7月Meta开源的Llama 2大模型系列中,参数规模最大的版本;Grok-1(MoE)为马斯克旗下AI创企xAI本月初开源的大模型,参数规模为3140亿参数,是目前开源大模型中参数规模之最。
此外,在GitHub页面显示,APUS-xDAN-4.0(MOE)开源模型在“IQ-Quantized Tech”上量化为1.5位、2位和4位,可以在消费级显卡4090上运行。
具体来说,APUS-xDAN 大模型4.0(MoE)采用GPT-4类似的MoE架构,特点是多专家模型组合,同时激活使用只有2个子模块,实际运行效率对比传统Dense同尺寸模型效率提升200%,推理成本下降400%。在实际部署中,研究人员通过进一步高精度微调量化技术,使得模型尺寸缩小500%。
二、32个MoE Transformer块组成,可处理多线程复杂需求
在实际的效果中,APUS-xDAN-4.0(MoE)可以理解复杂需求,如撰写广告文案时,要求涵盖“火焰人”、固定口号、摇滚乐歌词等。
该模型还可以找出段落中的实时性错误,并给出修改版本,包括品牌所属地区、语病等。
APUS-xDAN-4.0(MOE)模型的架构特点为,主要由32个相同的MoE Transformer块组成,与普通Transformer块相比,MoE Transformer块的FFN层被MoE FFN层替换。
张量经过门层计算每个专家模型的分数,根据专家分数从8个专家模型中选择Top-K专家。张量通过Top-K专家的输出进行聚合,从而得到MoE FFN层的最终输出。
每个专家由3个线性层(Linear Layers)组成。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,与开源大模型Llama的方式一致。
在注意力层中,APUS-xDAN-4.0(MoE)中的QKV矩阵的Q矩阵形状为(4096,4096),K和V矩阵形状为(4096,1024)。
▲APUS-xDAN-4.0(MoE)模型架构图
三、APUS是投资方,7B模型表现超GPT-4
APUS-xDAN-4.0(MoE)背后的两家公司均来自国内,且APUS于今年3月投资了新旦智能。
新旦智能成立于2023年5月,此前该公司发布的xDAN-7B-Global在用于衡量大模型在机器翻译任务性能的综合性评估指标MT-Bench中,性能表现仅次于GPT-4。
▲MT-Bench排名
今年3月,新旦智能完成千万级别天使轮融资,投资方包括APUS和AI投资人周弘扬。
据了解,新旦智能的创始团队汇集了清华、伯克利等顶尖学府以及腾讯、Meta等头部科技玩家的员工,包括全球开源AI社区知名开发者、腾讯云架构师等。
与此同时,这也是APUS在开源大模型领域的最新进展。今年2月初,APUS与深圳大学国家工程实验室联合开源了APUS大模型3.0伶荔。
结语:更强开源MoE模型,或加速AI开发及应用创新
开源大模型对于全球大模型产业的技术进步与应用落地的重要性与日俱增,并逐渐显现出对标当下大模型顶流GPT-4的潜力。
在这个趋势下,APUS与新旦智能联手,既开源了目前国内参数规模最大的MoE模型,同时降低了其部署成本,为更多开发者提供了应用大模型能力的可能性,这或许将进一步加速AI开发及应用创新。