kaiyun官方注册
您所在的位置: 首页> 电子元件> 业界动态> 如果没有英伟达,Arm在数据中心市场能混出头吗?

如果没有英伟达,Arm在数据中心市场能混出头吗?

2021-04-22
来源: 电子工程专辑
关键词: 英伟达 ARM 数据中心

  前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构。这在数据中心/服务器/基础设施行业是个大新闻。

  虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影——比如亚马逊自研的Graviton2处理器基于Arm,富士通面向HPC的A64FX处理器基于Arm——这些在《Arm的十年PC征程,和微软的“暧昧”》一文中就有所提及。

2.png

  但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。有关英伟达的Grace,很快我们会发表另一篇文章做单独评论,即便个人认为Grace着力的市场具有相当强的针对性。本文尝试呈现,抛开Grace不谈,Arm如今在服务器市场,究竟已经发展到了何种程度。

Arm第一次认真对待服务器市场

  Arm一直以来就有突破移动与嵌入式市场的野心,只不过就像Arm在PC之上的10年征程那样,这个过程是需要不断试错的。英伟达探索高性能CPU/SoC也不是今天才开始的,在10多年前英伟达就曾宣布过一个叫做Project Denver的项目,旨在与Arm合作面向HPC(高性能计算)市场推CPU产品。

  不止是英伟达,高通也曾推出基于Arm架构的Centriq处理器,面向企业和服务器市场;Cavium的ThunderX此前也算是知名的Arm服务器芯片;还有博通的Vulcan,AMD的Opteron A1100……虽然它们中的大部分都失败了。感觉从这些项目初期展示的PPT来看,Intel早就应该缩在墙角颤抖了。但事实上,Arm在这一领域始终没能真正走入主流视野(虽然Arm一直宣称自己是“基础设施(infrastructure)”设备中市场份额最高的,包含路由器、交换机、基站、服务器等)。

3.png

  到近代鲲鹏920这类服务器芯片面世,以及如今相当活跃的Ampere Computing也在推基于Arm的服务器处理器,Arm才真正在这一领域逐渐像样起来。今年的GTC主题演讲上,黄仁勋也宣布,英伟达的GPU开始和Ampere Computing、亚马逊、联发科等合作伙伴的CPU/SoC搭配,从云到边缘到消费终端。虽然在接受采访时,黄仁勋说Grace并不会多大程度影响到现有客户,但这明摆着就有拆AMD/Intel墙角的意思。

  Arm在服务器、基础设施,或者说数据中心产品的试错历史就不多做回顾了。事实上,Arm过去虽然也一直有试探服务器市场的意思,但他们始终都没有面向这些数据中心的基础设施,推过专门的IP——Arm在该市场的IP,基本与面向消费市场的IP共享。

  这一点其实是无可厚非的,大部分芯片制造商的同代核心IP,面向不同市场都会做较大程度的共享。但这也表现出Arm此前针对基础设施设备并没有明晰、像样的市场规划,这对生态构建本来就是不利的。

4.png

  转机出现在2018年,这一年10月份的TechCon上,Arm正式宣布推出Neoverse系列IP,面向服务器市场,从云到边缘。与此同时还公开了未来3年的产品路线图,如上图所示。Arm Neoverse可以理解为服务器版的Arm Cortex。

  这张图列出了一年一迭代的Neoverse版本,比如2019年代号为Ares的处理器核心IP,也就是Neoverse N1。Arm最早的时候宣布,未来每年迭代都将实现30%的性能提升——听起来比旁边的Cortex系列平均增速要快些,也比竞争对手更快。后来的发布会上,Arm又宣布N1性能提升,实际相比2018年的Cosmos高出了60%(不过Cosmos据说并不指代一个专门的架构),是原目标的2倍提升——基于SPEC2017整形测试(SPECspeed2017_int_base)。到今年发布的N2,提升速度似乎又超预期了,后文还将探讨更具体的微架构变化。

5.png

  2019年2月份,Arm正式宣布推出Neoverse N1与E1平台——这应该是Arm对服务器市场改朝换代的开始。

  当然光换个名字肯定是没用的,此前多篇探讨Arm发展史的文章中,我们都谈到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的芯片制造商无法做到苹果M1那种程度,高通骁龙8cx也已经有了应用于PC的可行性。起码如今这个时代,和10年前英伟达Project Denver时代(Cortex-A15时代)还是有根本差别的。

  2018年这一年,Arm向市场推出Cortex A76核心IP,这应该是众所周知的了——高通面向PC所推的骁龙8cx就应用了Cortex A76微架构。次年问世的Neoverse N1实际上就属于Cortex A76微架构的变体,或者说基于Cortex A76。

Austin家族微架构(选读)

  这两者都来自Arm奥斯汀设计中心,都属于Austin家族微架构,基于ARMv8指令集。事实上Cortex与Neoverse后续更新版本,包括Cortex A78、Neoverse V1应当都属于Austin家族,今年预计要推向市场的新一代Neoverse Poseidon才会采用全新的微架构。

6.png

  Neoverse V1和Cortex A76一样都采用4-wide取指/解码,11级管线深度,可在需要时缩减至9级。前端、后端的区别都不大。

  两者区别比较大的部分主要在存储、连接方面——作为服务器处理器,这也是必然的。L1-I cache做到硬件级别的完全一致性(coherency),这属于面向虚拟环境性能的改进。L2新增1MB可选大小(A76是512KB),针对存储敏感型应用。

7.png

  存储层级结构发生了比较大的变化。N1 CPU是连接到mesh网络之上的,即CMN-600(CMN-600是Arm最早于2016年发布的SoC互联IP,全称叫coherent mesh network;如上图所示,连接中间经过了CAL以及mesh网络的XP交叉点;每个CAL层至多连接2个N1——即两核为一簇)。在Arm的参考设计中,后续再连接到系统级缓存——SLC(system level cache)slice,每簇2MB,参考设计64核N1总共64MB SLC。

8.png

这张图来自Wikichip,结构描绘上更为清晰

  N1去掉了L3和DSU(DynamIQ Shared Unit)的监听过滤(snoop-filter)逻辑,CPU核心直接连接到CMN的CHI接口。这样一来内存控制器和CPU核心之间的通讯,只需要经过mesh网络。这好像也属于服务器CPU的标配。

  7nm工艺也是与上述设计内容配套的,核心面积整体上还是很小。另外,Neoverse N1一个比较大的变化是最高频率往上提了,发布时是说达到3.1GHz,电压也需相应提高,提供更高的单线程性能——频率提高19%,实际上需要44%的功耗为代价,这也很能表现Arm在频率与功耗的关系上,并没有什么魔法。亚马逊Graviton2就是基于Neoverse N1的芯片,CPU核心频率只选择了2.5GHz。

  基于消费级产品提升频率,和Intel、AMD这种传统服务器CPU供应商的思路就不同了:x86市场的这两名玩家,其服务器CPU微架构也与消费CPU共享,但服务器CPU却是拉低核心频率的。这与双方在消费市场的定位还是有很大关系的。

  不过即便是这样,功耗还是有优势,Arm此前宣称64核的N1参考设计总功耗大约为105W;Arm公开其64核参考设计SPECint_rate2006吞吐测试得分1310分,整数延迟得分(SPECint2006)37分,还是能够表现Arm能效方面的优势的。

  对于networking和存储服务器,Arm推荐8-32核N1设计,TDP 25-65W;类似5G基站边缘端侧设备,16-64核目标设计,TDP 35-105W;对于超大规模数据中心而言,N1目标设计64-128核,TDP >150W。

  Arm的Neoverse N1平台参考设计64核心,外加前面提到的CMN-600 mesh网络和64MB SLC缓存。台积电7nm工艺制造64核N1参考设计的die size已经快要接近400mm?了,Arm也因此推荐chiplet那样的设计,chiplet die之间通过CCIX互联来通讯。

  另外Neoverse N1平台设计中,可集成SmartNIC——加速网络连接还是如今实现数据中心高吞吐的重要因素(看看英伟达现在都在宣传些啥)。CMN-600可连一些固定功能加速IP。通过CCIX连接第三方IP,可实现存储一致性。更多特性不再列举,属于服务器RAS、安全等相关的。

Arm服务器CPU的效率现在怎么样?

  早前的Arm服务器处理器IP核心不够主流,很大程度上在于性能和效率都不怎么样。硬件层面的性能和功耗表现,是争夺这块市场的基本要求。

  能了解服务器CPU性能的渠道不多,像亚马逊Graviton2这种芯片都还是亚马逊自用的。不过随Arm这两年在服务器市场的活跃,像AnandTech这样的外媒也开始把性能测试触及到了服务器、基础设施处理器产品之上。

  事实上,2018年Cavium的ThunderX2被AnandTech认为是这一领域,Arm平台首次可与Intel、AMD相提并论的处理器产品。此后亚马逊Graviton处理器的出现也表明,Arm处理器是可以成为服务器领域的主流的。

9.png

  除了亚马逊Graviton2,在Neoverse N1实施方案中,比较具有代表性的应该是Ampere Computing最新的 Altra产品线。去年的Altra Q80-33就是用来对标Intel、AMD在服务器市场的高端产品的。

  Altra Q80-33主频最高3.3GHz,80核心;CMN-600 mesh互联,每核心L2选配1MB,以及32MB SLC——每核心分配到的SLC可能少了点。I/O以及更高的系统层面就不做介绍了,Ampere打造的Mount Jade,2-socket 2U机架服务器,有兴趣的可以去查一查外围的配置。

  值得一提的是,这颗处理器的TDP标250W,实际上它并不是指常规负载的平均功耗,而是峰值状态下的平均功耗。其实际功耗大部分情况下低于250W,AnandTech认为按照Intel、AMD的标法,Altra Q80-33的TDP应该在200W左右。

  与之对应,Intel前不久刚刚发布的Ice Lake-SP至强处理器,高配型号的TDP 270W(最高配8380为40核心,十代酷睿的Sunny Cove架构);AMD上个月推代号Milan的EPYC处理器,TDP 280W(最高配64核心,Zen 3架构)。如果光从高配版处理器的售价来看,Ampere Altra的性价比还是高出了一大截的。

10.png

11.png

  AnandTech最近刚刚测试了Ice Lake-SP,参测的还包括AMD Milan、Ampere Altra,以及亚马逊Graviton2。测试项分成多线程性能(SPECint2017/SPECfp2017 Base Rate-N)、单线程性能(SPEC2017 Rate-1)、每核心性能(针对per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM编译、NAMD性能。有兴趣的可前往了解,这里就不列出具体的成绩了(因为篇幅原因,上图只列出了整数多线程性能/单线程性能)。

  单看x86平台,自从AMD Zen 2问世以来,Intel至强处理器在性能上表现出了全方位的乏力。上一代AMD EPYC和Intel至强,在性能上拉开了比较大的差距。这一代Intel稍稍赶上了一些,但在旗舰产品上,整体仍然存在差距。Intel现在愈发强调系统性能,从自身包括存储、软件优化等方面的优势,弥补CPU本身的弱势,所以AnandTech的测试可能仍然是比较片面的。而且今年下半年规划中的Sapphire Rapids会很快上线。这是题外话了。

  基于Arm Neoverse N1的Ampere Altra是能够和AMD上一代Rome架构64核的EPYC打得有来有回的。Neoverse在每核性能上还是与x86平台有差距;此外Altra在存储敏感型测试中的表现并不怎么样,与其cache配置相关(以及可能与mesh互联有关);另外Ampere在整体系统方案上,双socket扩展还是不能和Intel/AMD比。不过偏算力的负载场景下,Altra更多的核心则有优势;能效方面,如前所述相比x86平台有功耗方面的显著优势。

  特别值得一提的是,Arm平台的服务器处理器还存在价格上的显著优势。与此同时,Ampere今年还计划推一款Altra-Max,采用128个Neoverse-N1核心,属于Arm设计目标顶配。

12.png

  虽说以Ampere Altra为代表的Arm处理器仍在性能表现的某些方面不及x86(主要是AMD),但已经真正意义上对x86的服务器市场构成相当严肃的威胁了。

  需要指出的是,加强生态构建是Arm的当务之急,不管是与软硬件合作伙伴加强合作,还是制定规范。在前两年发布Neoverse之时,Arm还发布了ServerReady合规认证计划,帮助用户做Arm服务器系统的安全、合规部署。

 Neoverse N2与V1的发布

  GTC大会上,英伟达表示Grace CPU会采用新一代的Neoverse架构,但没说具体是什么架构。按照计划表,去年9月份,Arm发布了新一代的Neoverse架构。除了N1迭代N2,这次新加了一个V系列:代号Zeus的Neoverse V1。

13.png

  Neoverse V1是基于Cortex X1的性能向微架构。和Cortex X1一样,在PPA三者的指针上,Neoverse V1也更偏向性能,部分牺牲了功耗和面积。所以其设计方向和N系列是存在差别的。因此V1有着更大的cache、核心结构。Arm的数据提到,V1相比N1有着50%的IPC提升,在这个时代下还是相当巨量的,实际产品提频过后要在每核性能上击败x86应该已经不是问题了。

  另外V1会成为首个支持SVE(Scalable Vector Extension)的Arm核心。此前富士通的A64FX已经率先做出这方面的支持,V1的SIMD单元宽度是A64FX的一半。除此之外,V1也引入了Bfloat16格式支持。

  而N1迭代款的N2则持续专注于PPA均衡发展,与Neoverse N2对应的Cortex家族微架构还未发布,N2代号为Perseus。据说去年年底Arm就开始做N2架构的授权了。N2的目标设计最高摄心术已经达到了192W,且TDP增至350W。这应该是也是堆料的突破,英伟达的Grace CPU是极有可能应用N2这个方案的。

  AnandTech猜测,Neoverse N2可能会应用ARMv9指令集+SVE2支持。另外,原本规划中今年要推出的代号为Poseidon的5nm芯片预计会延后至明年。如今Neoverse的规划已经在有序推进了。即便没有英伟达,Arm玩转数据中心市场似乎也是早有预谋的,而英伟达显然会成为这一行动的助推器。



本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306116;邮箱:aet@chinaaet.com。
Baidu
map