随着数据规模的指数级增长,大模型已经逐渐成深度学习认知智能的桥梁
2022-09-15
来源:潜力变实力
算法、算力和数据是人工智能三大核心要素,也是人工智能的三大基石。AI 算法持续突破创新,模型复杂度指数级提升的同时,准确率和效率也在不断提高,在各个细分领域应用加速落地。随着芯片处理能力提升、硬件价格下降、神经网络模型优化,AI 算力也在大幅提升。与此同时,AI 产业级应用已经进入大数据、大模型时代。
当前,全球主流 AI 框架和模型的技术演进及创新进展如何?如何提升算法模型的准确率和效率?如何将 AI 框架和模型应用于实际场景中,实现产业创新?在 AICON 2022 “AI 框架与模型” 分论坛上,众多 AI 领域专家将共同探讨这些问题。
AICON 2022 由 LF AI & DATA 基金会主办,将于 9 月 8 日在杭州举行。大会由一个主论坛以及 “AI 框架与模型”“AI + 数据”“AI 工程化”“昇思生态论坛” 四个分论坛组成,聚焦 AI 前沿技术、产业化和商业化的动态。
届时,来自全球的人工智能领域顶尖科学家、行业专家及著名企业家将齐聚一堂,重点关注人工智能技术领域的行业变革与技术创新,共同围绕核心技术、行业落地、产业赋能、发展要素、治理机制等热门话题进行深入探讨和交流,分享全球人工智能行业新趋势、新动向,探索人工智能发展新模式新路径。
近年来,大模型已经成为整个 AI (人工智能)产学界追逐的技术“宠儿”,“炼大模型”如火如荼,包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中,各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间,“炼大模型”成为了当下AI产业发展的一个主旋律。
方融科技高级工程师、科技部国家科技专家周迪在接受《中国经营报》记者采访时表示,Al大模型历经了前几年的探索期、突破期,部分技术已经逐渐成熟,现在在一定程度上达到推广期了。各大企业纷纷发布AI大模型,就是抢抓这个时间节点,在这方面先取得入场门票。大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。
据中国信息通信研究院测算,2021年,算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,IDC(互联网数据中心)服务市场规模超过1500亿元,人工智能核心产业规模超过4000亿元。
在过去,绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式,即以一定的算力和数据为基础,使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段,面对各类行业的下游应用,AI 逐渐展现出碎片化、多样化的特点,也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战,也限制了AI的产业化进程。
“从各类电商平台的智能推荐到日常生活中的刷脸支付,现在我们生活的方方面面都离不开AI。为了满足这些需求,我们需要为每种特定场景收集大量的数据,再从中设计出专用于特定任务的模型,”周迪对记者说道,“AI大模型希望做到的就是能够基于这个模型整合各类需求,从而适应多种差异化的业务场景,解决AI在赋能千行百业中面临的碎片化、多样化问题。”
AI大模型提供了一种通用化的解决方案,通过“预训练大模型+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。
华为昇腾计算业务总裁张迪煊对记者表示,过去在一个单一的AI应用场景里面,其实是由很多模型组成的,通过多模型支撑一个场景来完成多个任务。而大模型是AI发展的趋势,也就是通过大模型能解决人工智能很多的问题,因为大模型具备很好的泛化性,可以通过大模型实现多个任务,原来场景需要多个小模型,现在大模型可以服务多个场景,这是生产效率的提升。现在国家相关部门也在牵头制定大模型的沙盘,避免科研机构、企业重复研发,通过各个领域的大模型与行业场景结合,可以更好地加速人工智能技术产业落地。
阿里巴巴资深副总裁、达摩院副院长周靖人则认为:“大模型模仿了人类构建认知的过程,这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系,我们期望多模态大模型能成为下一代人工智能算法的基石,让AI从只能使用‘单一感官’到‘五官全开’,且能调用储备丰富知识的大脑来理解世界和进行思考,最终实现接近人类水平的认知智能。”
从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突破了GPT-3参数记录;
4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:
有开发者给GPT-3 做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”
深度学习发展至今,语言、视觉、推荐、代码生成等多个领域相继出现一些“大模型”成果,不断刷新着人们对 AI 的认知与想象。深度学习依赖对大量数据的训练,而“大模型”的参数更多、函数更复杂,这样的特征使得模型所演算出来的结果更精准。随着万物互联世界的进一步发展,数据量的扩展与数据收集已不再是难题,随之而来的新命题是如何处理海量数据,并且做出更好地训练。
早在 2017 年,Transformer 结构被提出,使得深度学习模型参数突破了1亿;2018 年,BERT 网络模型的提出,使得参数量首次超过 3 亿规模;2020 年,拥有 1750 亿个参数的 GPT-3 横空出世;2021 年推出的 ZionEX 系统,其所支持的推荐模型大小已超过 10 万亿规模……
随着数据规模的指数级增长,大模型已经逐渐被认为是通过深度学习认知智能的桥梁。
然而,数据量的暴增提出了新的命题——如何跨越通信等瓶颈,提升大模型的训练效率?为了支持大模型的训练,往往需要一套大规模分布式训练框架来训练大模型。
对此,华为交出的答卷便是昇思 MindSpore AI 框架,原生支持大模型训练。昇思 MindSpore 拥有业界领先的全自动并行能力,提供 6 维混合并行算法,即数据并行、模型并行、流水并行、优化器并行等能力;极致的全局内存复用能力,在开发者无感知的情况下,自动实现 NPU 内存 / CPU 内存 / NVMe 硬盘存储的多级存储优化,极大降低模型训练成本;极简的断点续训能力,可解决大集群训练故障导致的任务中断问题……通过这些特性,可以很好地解决大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题。
近年来,大模型表现出前所未有的理解与创造能力,且打破了传统AI(人工智能)只能处理单一任务的限制,让人类离通用人工智能的目标近了一步。但大模型仍存在许多技术难点,同时受算力资源限制,其训练与落地应用颇具挑战。
据周靖人介绍,为了让大模型更加“融会贯通”,达摩院在中国国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。
在不引入新增结构的情况下,通义统一底座中M6-OFA模型,可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,且效果达到国际领先水平。
“大模型模仿了人类构建认知的过程,这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系,我们期望多模态大模型能成为下一代人工智能算法的基石,让AI从只能使用‘单一感官’到‘五官全开’,且能调用储备丰富知识的大脑来理解世界和思考,最终实现接近人类水平的认知智能。”周靖人表示。
同时,达摩院构建了层次化的模型体系,其中通用模型层覆盖自然语言处理、多模态、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。
通过部署超大模型及轻量化版本,阿里巴巴“”通义”大模型系列已在超过200个场景中提供服务,实现了2%-10%的应用效果提升。典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。
更多信息可以来这里获取==>>电子技术应用-AET<<