阿里巴巴开源1100亿参数Qwen1.5-110B 模型-AET-电子技术应用

阿里巴巴开源1100亿参数Qwen1.5-110B 模型

日期：2024-04-28

来源：IT之家

关键词： 阿里巴巴 Qwen1.5-110B 千亿参数模型

阿里巴巴日前宣布，开源 Qwen1.5 系列首个千亿参数模型 Qwen1.5-110B，该模型在基础能力评估中与 Meta-Llama3-70B 相媲美，在 Chat 评估中表现出色，包括 MT-Bench 和 AlpacaEval 2.0。

汇总主要内容：

据介绍，Qwen1.5-110B 与其他 Qwen1.5 模型相似，采用了相同的 Transformer 解码器架构。它包含了分组查询注意力（GQA），在模型推理时更加高效。该模型支持 32K tokens 的上下文长度，同时它仍然是多语言的，支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

阿里 Qwen1.5-110B 模型与最近的 SOTA 语言模型 Meta-Llama3-70B 以及 Mixtral-8x22B 进行了比较，结果如下：

上述结果显示，新的 110B 模型在基础能力方面至少与 Llama-3-70B 模型相媲美。在这个模型中，阿里巴巴没有对预训练的方法进行大幅改变，因此他们认为与 72B 相比的性能提升主要来自于增加模型规模。

阿里还在 MT-Bench 和 AlpacaEval 2.0 上进行了 Chat 评估，结果如下：

阿里巴巴表示，与之前发布的 72B 模型相比，在两个 Chat 模型的基准评估中，110B 表现显著更好。评估结果的持续改善表明，即使在没有大幅改变后训练方法的情况下，更强大、更大规模的基础语言模型也可以带来更好的 Chat 模型。

最后，阿里方面表示，Qwen1.5-110B 是 Qwen1.5 系列中规模最大的模型，也是该系列中首个拥有超过 1000 亿参数的模型。它在与最近发布的 SOTA 模型 Llama-3-70B 的性能上表现出色，并且明显优于 72B 模型。

Magazine.Subscription.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

阿里巴巴开源1100亿参数Qwen1.5-110B 模型

日期：2024-04-28

来源：IT之家

相关内容