从“大炼模型”到“炼大模型”，AI告别单打独斗-AET-电子技术应用

从“大炼模型”到“炼大模型”，AI告别单打独斗

日期：2022-09-30

作者：张慧娟

来源：与非网eefocus

关键词： 人工智能 AI大模型

AI大模型可能是走向强人工智能的必经之路，也或许只是过渡手段，但不管怎么说，它已经越来越清晰地呈现出了魅力。

　　AI落地初期，为了提升传统行业的应用体验，提高机器学习算法的效率，面向海量的、碎片化的应用场景，行业拼命“大炼模型”。

　　这从一定程度上确实助推了AI的落地，不过，为了进一步优化效果、提高精度，模型变得越来越复杂，数据越来越庞大，进一步提高了行业的应用门槛，特别是对小公司带来挑战。由于模型越复杂，所需的投入越大，训练成本越高，很多企业不足以应对这种状况，导致落地效率越来越低。

　　最“卷”的AI模型在语言领域。2020年夏天，OpenAI推出了GPT-3，它在自然语言处理方面展示出惊人的能力，能写文章、做翻译、生成代码，甚至可以学习一个人的语言模式，并遵循这个模式与人进行谈话。GPT-3的面市也使得全球范围内AI大模型迎来大爆发，参与企业越来越多，参数级别越来越大，成为新一轮AI竞赛的赛场。2021年，谷歌发布了万亿级模型Switch Transformer，微软和英伟达也推出了包含5300亿个参数的自然语言生成模型。国内的企业也不甘落后，华为、浪潮、百度、阿里巴巴等企业都竞相推出了自己的大模型。

　　AI进入“炼大模型”时代。

　　AI“剧本杀”玩家

　　能解行业之痛吗？

　　国内AI大模型的代表之一是“源1.0”，是浪潮在2021年9月发布的单体巨量自然语言处理模型。“源1.0”一发布就问鼎全球最大规模的中文AI模型，其参数规模高达2457亿，训练采用的中文数据集达5000GB，相比GPT-3模型1750亿参数量和570GB训练数据集，“源1.0”参数规模领先40%，训练数据集规模领先近10倍。

　　一个有趣的应用是，源开发者社区的开发者基于“源1.0”开发出了“剧本杀”AI玩家。在游戏中，AI所扮演的角色不仅可以与其他玩家流畅对话，甚至会为了达成任务说谎去“套路”人类玩家。

　　它所凭借的，正是“源1.0”零样本（Zero-Shot）和小样本（Few-Shot）学习的优势，AI模型可以很好地理解并实现交互式叙事的“对话策略”，能够运用“举一反三”的对话能力，让剧本杀成为一部由玩家和AI在不知不觉中共同创造的全新故事。

　　开源社区产生的其他基于“源1.0”开发的应用也是五花八门，包括数字演员、正能量陪伴机器人、抬杠机器人、游戏NPC对话、文案写作、金融文本分析等……并且，浪潮的源1.0大模型已落地智算中心、金融等多个企业，实现了智算中心模型即服务（MaaS）的产品模式创新，助力金融大模型的研发。

　　我们该如何看待这些应用？它们反映出了AI的哪些发展趋势？

　　浪潮信息AI软件研发总监吴韶华介绍，在大模型出现之前，如果要做一个类似剧本杀的游戏，需要很强大的模型和复杂的流程。首先，这个模型既要有对话能力，也要有逻辑推理能力，这对于模型算法、数据研发的门槛很高。其次，用户要有自己的算法人员，需要从头开始收集数据、标注数据，然后做模型等，经过复杂的研发流程，最后才能走到最核心的业务逻辑上。

　　而有了大模型，这些问题都可以得到解决或缓解，并对AI模型的构建及应用产生极大影响。在算法基础设施层面，开源开放的大模型，使得开发者不需要关心底层搭建的技术，就能直接调用大模型的能力。这相当于把AI应用的开发向上推了一大步，让开发者聚焦应用最核心的业务逻辑，把跟模型相关的内容放在模型层面或算法基础设施的层面。基于源1.0搭建的“剧本杀”游戏，可以直接复用源1.0的开源代码，开发过程基本不需要写代码和调试代码，就完成了整个应用的构建，从而可以把更多精力放在剧情内容等创意的创作上。

　　从“三要素”到“大模型”

　　AI变了吗？

　　人工智能从前几年强调“算力、算法、数据”，到现在大模型越来越受推崇。这反映了AI的哪些发展规律？AI的核心要素是否发生了变化？

　　吴韶华认为，AI的核心要素并没有发生变化，大模型训练更需要在“算力、算法、数据”三个层面开展创新。以“源1.0”大模型为例，在算法层面，面向效率和精度优化的大模型结构协同设计方法，针对Attention层进行结构优化，改进注意力机制聚焦文章内部联系的学习；创新小样本学习精度改进方法，在业界权威数据集上取得精度领先。

　　在算力层面，围绕深度学习框架、训练集群I/O、通信开展了深入优化，在仅采用2x200G互联的情况下，“源1.0”在2128颗异构加速器集群上的算力效率达到45%，超出MT-NLG与GPT-3等国际知名模型。面向多元异构芯片，研发了大模型推理软件框架，并在400颗国产芯片集群上实现了大模型弹性部署，将模型推理性能提高了数10倍，形成大模型+大算力的算法基础设施建设的实践成果。

　　在数据层面，当前主要存在中文训练海量数据难获取、难清洗等问题，浪潮海量数据过滤系统（MDFS）建立了从数据采集、粗滤、质量分类、精滤的全自动化的端到端数据工作流程，通过清洗866TB海量数据获得5TB大规模高质量中文数据集。该数据集已经开源，并已广泛应用于产业用户的模型训练中。

　　解“困”AI大规模产业化难题

　　业界普遍认为AI大模型当前面临的主要瓶颈包括：算力资源受限、训练成本高昂、人力投入巨大等。

　　在燧原科技产品市场部总经理高平看来，算力资源不足和成本昂贵的根本问题，其实是AI算力市场竞争不充分，目前国内AI训练算力市场基本被海外大厂独家垄断，成本与资源受限问题是垄断下的必然结果；其次，AI算力的技术发展在逐渐迈向成熟，面向AI计算的DSA架构在AI大模型如火如荼的发展趋势下，将会具备很好的规模经济效益，进而随着技术发展取得更好的成本优势；第三，人力投入大的问题主要是缺乏相应的标准规范，将会在产业发展到某个程度的时候得到解决，减少重复投入。

　　吴韶华认为，应用的碎片化、尤其是长尾场景应用的碎片化，仍是AI落地的难题。碎片化就意味着不同场景需要有针对性地建模，每个小场景都要从数据到模型、应用整个流程走一遍。此外，随着数据的更新，模型也要更新。设想对于一家维护着上百个模型的企业，要同时更新上百个模型及应用，投入无疑是巨大的。

　　而大模型的出现可以说是生逢其时，它能够将传统烟囱式的、碎片化的AI应用开发转向集中式开发。一方面，AI大模型具备很好的泛化能力，一个模型可以支撑各类不同应用，有效缓解碎片化开发反复建模的困境；另一方面，围绕AI大模型构建的算法基础设施，比如开放的API、开源的应用代码等，使开发者无需关心底层技术，设置无需配置编程环境，就可以直接将应用构建于AI大模型的能力之上，在降低开发门槛的同时，让开发人员将更多的精力聚焦在核心业务逻辑上。

　AI大模型有望重塑产业格局

　　高平认为，训练大模型所需要的海量算力必须依靠AI算力集群来支撑，能否充分发挥集群的整体效能，让成本昂贵的AI算力能算尽其用，是降低大模型训练成本的关键。燧原科技打造了基于液冷技术的AI集群训练产品“云燧智算机CloudBlazer POD”，通过软件层面（模型和框架）与硬件基础设施（计算、存储、网络）的协同优化，能最大化算力利用率，在实际部署的千卡训练集群上实现了0.95的线性加速比。同时，使数据中心PUE可以达到1.1，从而大大降低了电力消耗，进一步降低了成本。

　　“AI大模型的投入是AI技术迈向新台阶的必经之路，是解决产业碎片化的一种很好的方式，AI大模型的技术发展与商业落地，也将会重塑目前的AI算力市场格局与AI应用市场格局”，高平表示，“未来，大模型的数量将远远少于目前的模型数量，这也有利于AI芯片针对性的设计开发与优化，是AI算力企业生态建立的新机会，也可以预期，基于DSA架构的AI芯片会在大模型的发展下大放异彩。”

　　此外，他认为大模型应用会形成新的上下游产业链，同时掌握大规模算力与数据的大型企业会把握产业链的上游；下游小企业利用大模型的能力，结合对行业理解的优势，能低成本地把AI技术应用到社会的各个方面。这将会是成熟的、进入良性循环的AI落地模式。

　　写在最后

　　一直以来，AI的研发多数都依赖于模型：一是用数据训练模型；二是基于数据得到更好的模型结果。这就离不开各个环节的分工，找数据、标注数据，AI专业人士调参……通过多个环节劳动成果的聚合，最终实现AI的落地。也正是这样高度分散且具有壁垒的分工，对AI的大规模产业化带来挑战。从目前各大企业、研究机构对AI大模型的愿景，它将能够很好地解决这些难题。

　　不过，也有人认为AI大模型本质上不过是深度学习的“加强版”，通过给模型“填喂”大数据提高其自学习能力，进而实现更强的智能程度。

　　但正如本文受访者所介绍，通过在算法、数据等层面的创新，它可以通过零样本、小样本学习精度的提升、高质量数据集的优化等，进一步提升泛化能力和效率，这是AI产业全链条的创新，而不仅仅只是追求更大的模型。

　　它可能是走向强人工智能的必经之路，也或许只是过渡手段，但不管怎么说，它已经越来越清晰地呈现出了魅力。

　更多信息可以来这里获取==>>电子技术应用-AET<<

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306116；邮箱：aet@chinaaet.com。

从“大炼模型”到“炼大模型”，AI告别单打独斗

日期：2022-09-30

作者： 张慧娟

来源：与非网eefocus

相关内容

作者：张慧娟