美国限制高端GPU出口,中国将如何应对?
2022-09-05
来源:我的极刻
来了,新一轮的出口禁令又来了。美国当地时间 8 月 31 日,GPU巨头英伟达在一份监管文件中披露,美国政府已推出一项新的出口许可管制,将影响英伟达向中国出口两款高性能 GPU 产品。
高性能 GPU 是什么?
谈及 GPU,数码爱好者都不陌生。GPU 中文全称为图形处理器,也叫显示核心、视觉处理器、显示芯片,一般用于个人电脑、游戏机等电子设备。在中文语境中,很多人喜欢用“显卡”一词来代替 GPU。市场中常见的 GPU 有英伟达 GTX 3090、英伟达 GTX 3080Ti、AMD 6900 XT 等。
然而,这次涉及的 GPU 并非上述型号,而是消费电子市场中并不常见的英伟达 A100、H100 两款芯片。
事实上,GPU 分为很多种,对于玩游戏、做设计的普通用户来说,个人电脑需要配备一个 GPU,然后将显示器的接口插到 GPU 板的接口上,就能让游戏拥有更高画质,让 PS、PR 等软件运行更加流畅。这些主要用于个人用户的 GPU,也是大众最为熟知的产品形式。
不过,在 GPU 领域,还有一类产品叫计算卡,用于大型的计算工作,比如深度学习、地球天气模拟等等。这些工作涉及大量图形计算运输,GTX 3090 等显卡难以满足要求。因此,英伟达先后推出了 A100 和 H100 系列计算卡。
其中, A100 由 540 亿个晶体管组成,针对稀疏矩阵运算的加速功能,对于 AI 推理和训练来说特别有用。此外,采用英伟达 NVLink 互连技术可以让多个 A100 GPU 连起来用于更大规模的 AI 推理工作。简而言之,这是一款针对 AI 领域专门优化过的 GPU,特别适合机器学习工作站、超级计算机等一系列产品。
A100 性能强悍,可在 H100 面前就有点小巫见大巫。H100 专门针对面向高性能计算(HPC)和数据中心打造,拥有 800 亿晶体管,采用目前最为先进的台积电 4nm 制程工艺。英伟达表示,H100 GPU 在 FP16、FP32 和 FP64 计算方面比其上一代 A100 快三倍,在 8 位浮点数学方面快六倍。
价格上,英伟达 H100 于今年 8 月登陆日本供应商 GDEP 的网站上,其售价为 4313000 日元(不含消费税配送费,约合人民币 21.6 万元)。
哪些行业受到影响?
售价几十万的计算卡,自然不会影响普通消费者。在国内市场,A100 与 H100 的消费群体主要是企业用户与政府机构。在英伟达官网上可以发现,蔚来、上海市磁共振实验室、腾讯 PCG、阿里云、火山引擎等等。
以蔚来汽车为例,通过 A100 构建综合全面的数据中心基础设施,并在此基础上开发 AI 驱动的软件定义汽车。凭借 A100 高性能计算,蔚来可以在复杂的深度学习模型上不断迭代,在闭环环境下构建自动驾驶算法。
通俗地说,蔚来采集车队每年产生海量数据,这些数据传输到数据中心,在采集、整理、标记之后,通过 A100 高性能计算卡进行深度神经网络计算,从而对已有的自动驾驶算法进行优化。
至于腾讯 PCG,主要使用 A100 进行用户推荐。日常生活中,我们使用腾讯看点、腾讯新闻、腾讯视频等产品,系统会自动推荐内容,而这套推荐系统叫无量推荐系统。
腾讯无量推荐系统支持日活跃用户达数亿级别,日均调用服务达千亿级别,在这背后,也离不开 A100。在传统推荐系统架构,无量推荐系统使用大量 CPU 资源,通过分布式架构实现模型训练与部署。而通过使用 A100 GPU 训练和推理,单机多卡的 GPU 算力可以达到数十台 CPU 机器的算力。
说到推荐算法,肯定离不开字节跳动,毕竟今日头条与抖音第一次让世界认识到个性化推荐的魅力。字节跳动旗下火山引擎有一项火山拍照识别功能,为用户提供以手机拍照作为输入的搜索功能。
该功能包含 10 万+ 事物识别,涉及大规模细粒度图像识别,实现难度非常大。为了获得更高的推理速度,火山引擎选用了 100 GPU 作为计算平台,成功将百万级别图片训练的每次迭代训练周期从 5 天缩短至 3 天左右,大幅度提高了火山引擎线上服务速度。
从智能汽车、算法推荐到医学实验室,英伟达 A100 计算卡凭借其强大快速的计算能力为国内众多行业赋能。在计算速度、效率与能耗领域,确实有不可替代的优势。至于更加强大的 H100 计算卡,因为尚未在国内发售,所以暂时不会对国内企业造成多大影响。
国内企业如何应对?
A100 非常强、H100 无敌强,可这毕竟是人家的产品,出口许可管制生效之后,国内企业很难及时获得产品。那么,在此背景下国产企业又该如何应对呢?
首先来看蔚来、腾讯、字节跳动等下游企业,A100 计算卡最大的优势在于计算速度快、效率高、能耗低。
GPU 行业人士表示,互联网企业在计算数据中心整体成本支出时,高端产品一次性购买成本、机架占位/人工服务费(运维)、电费三者所占比重大约为 3:3:4。如果英伟达 A100、H100 被禁用,那么只能采用 12nm 的 V100 产品,考虑到电费、机架费用带来的费用,整体成本支出将超过 3 倍。
成本支出提高意味着企业需要承担更大的财务压力,不过这也说明 A100、H100 并非不可替代,通过尚未禁售的中低端计算卡组合,同样可以实现目前的效果。
接下来再看 GPU 厂商,目前英伟达主要竞争对手为 AMD,同样也是一家美国公司。据报道,AMD 旗下高端计算卡同样面临出口许可管制,因此使用 AMD 产品替代英伟达产品并不现实。
国外 GPU 企业靠不住,那么只有从国内企业中寻找。近几年,国内大量芯片初创公司都瞄准了 GPU 领域,他们与老牌企业龙芯、海光一起,构成了 GPU 领域国产替代的主力军。
今年 7 月,龙芯中科发布 7A2000 桥片,集成了龙芯自研统一渲染架构的 GPU 模块,这款产品支持 OpenGL2.1,搭配 32 位 DDR4 显存接口,最大支持 16GB 显存容量。据推测,这款产品性能相当于 AMD 十多年前的核显。
十年前的核显显然满足不了人们的需求,今年上半年,另一家芯片公司摩尔线程发布 MTT S60 多功能智能显卡。这款产品采用 12nm 制程,包含 2048 个 MUSA 核心,单精度算力最高可达 6TFlops,配置 8GB 显存。据介绍,性能堪比英伟达 GTX1070。只可惜,这款产品依然是消费级 GPU,并不能替代 A100、H100 这类企业级 GPU。
在高端 GPU 领域,国产企业同样在进步。海光的 DCU Z100 加速卡,专门针对深度计算开发。去年,百度飞桨深度学习框架与海光人工智能加速卡DCU 系列进行了安装部署测试、基本功能测试和稳定性兼容性测试。联合测试结果显示百度飞桨深度学习框架在海光 DCU 系列以及海光 3000、5000、7000 系列 CPU 环境上均能顺利安装。
性能上,海光 Z100 对标 AMD MI100 系列,同时兼容 AMD 的 ROCM 生态,虽然不如英伟达生态丰富,但是可以实现国产替代。
此外,上个月 9 号,国产初创企业壁仞科技发布 BR100 计算卡。据介绍,这款产品是国内算力最大的通用 GPU 芯片,采用成熟的 7nm 工艺,并结合了 Chiplet 技术。在发布会上,壁仞科技表示,BR100 拥有全球最高算力,峰值算力达到了市场在售旗舰产品的三倍以上,16 位浮点算力达到 1000T 以上、8 位定点算力达到 2000T 以上,单芯片峰值算力达到PFLOPS级别。
通过已知数据不难发现,壁仞科技所说的市场在售旗舰产品正是英伟达 A100 GPU。如果壁仞科技这款产品真的可以超越英伟达 A100,部分性能甚至超越 H100,那么美国所谓的出口许可管制将会成为一个笑话。当然,BR100 目前尚未量产,还处在 PPT 阶段,具体性能如何还需市场检验。
从龙芯中科、摩尔线程到海光、壁仞科技,可以看出国产企业正在 GPU 领域奋起直追。出口许可管制并不会打垮中国超算中心、深度学习行业,反而有可能促进中国独立自主的 GPU 产业走向成熟。
更多信息可以来这里获取==>>电子技术应用-AET<<