英特尔、高通和华为等的芯片新计划
2019-02-12
全球最具科技指标性意义的展览之一的美国拉斯维加斯进行的国际消费电子展(Consumer Electronics Show)CES 2019是科技开年秀也是朝圣周,才刚刚落幕。除了Apple (苹果) 这种独树一帜的企业自办新品发表会之外,其他行业巨擘及初创公司无不卯足全力,前往赌城发布重磅产品及技术,其展出的内容常为新兴产业发展的风向球,因此格外受到市场重视。
接下来就是即将于 2 月份举办的西班牙巴塞罗那世界移动通信大会 (Mobile World Congress,MWC 2019),还有 5 月底的台北国际电脑展 (COMPUTEX TAIPEI) 和 9 月份的柏林国际电子消费品展览会 (IFA)。
此次 CES 有来自 150 个国家或地区的厂商达 4,500 家参展,超过 250 場研讨会,参与总人数达 18 万人。根据网友依参展名单统计,其中来自中国的参展厂商约有 1,166 家 (未计入港澳台),仅次于美国的 1,548 家,随着中国企业拓展海外市场以及技术实力的提升,在 CES 的创新份量逐年提高。若以科技领域分类来看,AI 相关的参展商估计接近 1,400 家,机器人及汽车相关则分别超过 160 家和 150 家。
整体来说,CES 2019 值得关注的有「三力」,第一是算力竞赛:包括人工智慧 (AI)、自动驾驶、机器人、综合现实 (Synthetic Realities) VR/AR/MR,以及区块链。第二是曲力竞赛:可折叠 (Foldable)/可卷曲 (Rollable) 面板。第三是政治角力下的 5G。
算力是驱动创新的重要元素之一,而 2019 年在个人计算机(PC) 的中央处理器(CPU)是 x86 架构与 ARM 架构共存与变革的开始 (详细内容请参考:非凡创芯力 "2019 CPU 芯战元年 (上),(下)")。在此让我们聚焦在 CES 2019 上,芯片巨头们 Intel、AMD、Qualcomm、NVIDIA 及华为所诉说的不寻常「芯情」故事。
小语一、因「速」分解 SoC,SiP 领航摩尔创新
2018 年底 AMD 与 Intel 相继发表 7nm 及 10nm 的新一代 PC 和 Server (服务器) CPU 芯片,不约而同地都选择将逻辑计算内核 (CPU/GPU core) 独立出来,继续微缩尺寸与提高能效,并将 I/O (Input/Output,输入/输出) 接口及大容量的 SRAM cache (缓存) 独立成另一芯片,且使用对超高速传输最有利的 14nm 或 22nm 工艺加以制作,再将两个独立芯片以 2.5 D 或 3D SiP (System in a Package) 的方式封装在一起。(详细内容请参考:非凡创芯力 "反封锁的封装技术")
AMD 的 Zen 架构可以说是一款 x86 SiP (System in a Package) 的创举,也是 AMD 新一代的利器。它是由左右侧各 4 个 7nm 的 CPU chiplets (将之翻译为核芯元:内核芯片以有机方式组合成一单元) 组成。每个 CPU chiplets 最多可以容纳 16 个内核 (Core),而内核间是利用 2.5D SiP 技术互相交连,并通过 Infinity Fabric 2.0 高速互连网路,与中间一个 14nm 的 I/O DIE 接口互连。此一 I/O 符合新一代数据中心走向的超高速 PCI Express 4.0 传输应用,并可提供最多 8 通道 DDR4 内存扩充,及支援最大 4TB 硬盘。
因速分解的 SOC (Source:AMD)
相较于 AMD 将 CPU chiplets 与 I/O DIE 以 2D SiP 交织的方式集成,Intel 发表技高一筹的全新堆叠式黑科技平台:Foveros 3D SiP 封装技术。这项业界首创的逻辑芯片封装技术,利用 3D 堆叠的优势,"混搭" 不同的 IP 模块与各种存储芯片和 I/O 配置,除了实现极大的灵活性外,更可创造出新的产品形态或平台如 Lakefield。
延续摩尔创新的 Intel Foveros 3D SiP(Source:Intel)
Intel Foveros 3D SiP 中,将其中的 I/O、SRAM Cache 和传输电路集成为底层的基础芯片 (Base Die) 中,而高性能 "Sunny Cove" 微架构内核与低功耗的 Atom 内核 "混搭" 的 CPU 及 GPU 逻辑计算内核集成的 chiplets (为了与 AMD 区别,在此将之称为混核芯元) 则堆叠在基础芯片上部,最后以内存 DRAM POP (Package on Package) 盖在上部完成整个 Foveros 三明治 SiP。选用内存 PoP 层叠封装方式,除可占用更少的印制电路板 (PCB) 空间并简化电路板设计j外,还可透过内存与逻辑电路的直接连线,提高频率的效能表现。
更值得注意的是,若能以低延迟 (Latency) 设计及特制 DRAM PoP (可扮演第四级缓存 L4 的角色),则可将原本三级的 SRAM Cache 缓存架构重新优化,大幅提高混核芯元的算力。这个猜测也完全符合 Sunny Cove 微架构的设计特征:CPU + GPU 混核芯元可并行执行更多与更快的操作;可降低延迟的新算法;增加关键缓冲区和缓存的大小。
Foveros SiP 的长宽尺寸 12×12 毫米,高度 1 毫米,基底之上是 P1222 22FFL ( 22nm 工艺) 的 I/O 芯片。之上是 P1274 10nm 工艺计算芯片,最上方就是 PoP 整合封装的内存芯片。待机功耗 2mW,最高功耗也不超过 7W,很显然是针对移动平台的,而且不需要风扇。(Source:Intel)
Intel 表示:"未来,将通过先进的封装和系统集成技术,把多样化的标量 (Scalar)、向量 (Vector)、矩阵 (Matrix) 和空间 (Spatial) 计算架构组合部署到 CPU 、GPU、加速器和 FPGA 芯片中,并通过可扩展的软件堆栈释放强大的能力。"
小语二、CPU 博弈中 AMD 对标的是以前的 Intel 及 NVIDIA;Intel 对标的却是明天的 ARM 阵营
Intel 发表会中三项引人注意的平台:基于全新 Sunny Cove 微架构设计的 10nm Ice Lake CPU 平台;Project Athena 新一代轻薄高级笔记本电脑项目;Lakefield 全新客户端平台,其中运用到了混合 CPU 架构和 Foveros 3D 封装技术。直白的讲,就是 Intel 面向 5G + AI + 全时连网 (Always Connected PC,ACPC) 的移动装置市场的杀手锏。而最早推出这类产品的是 ARM 阵营的 Qualcomm Snapdragon 8cx。(详细说明这场博奕可参考:”非凡创芯力 霸王 intel 所面临的十面埋伏 (上),(下)" )
故事的开端要从 Lakefield 平台说起。Lakefield 平台采用了 1 个 10nm 高性能 Sunny Cove 内核 (BIG) 和 4 个 Atom 处理器 (little) 内核,混合组成的 Ice Lake CPU,并与 GPU 集成混核芯元。并将先前采用分离设计的不同 IP 如高效的显卡、I/O 和内存,利用 Foveros 3D 封装技术集成于一体。Intel 宣称,Lakefield 平台,集成低功耗、大幅度减小主板尺寸外,它的待机功耗只有区区 2mW,最高功耗也不超过 7W。
而 Project Athena 是一种充分利用 5G、人工智能等新一代技术的一款全时连网新型高级笔记本电脑,不仅有 Windows 平台,还纳入了 Chrome 系统。而这也正面对撞 ARM 阵营抢入 PC 市场的竞争区块 CAWOA (Chrome App for Windows on ARM) PC。
Qualcomm 第一代 Snapdragon 835 笔电的主板面积 ~50.4 平方公分,而 Intel Lakefield 主板的面积却只有 ~19 平方公分。这是一个由 SiP 技术驱动出来的摩尔创新。x86 与 ARM 架构的 PC CPU 赛局,方兴未艾。(Source:Intel)
Intel 除了展示多项下一代 PC 新技术外,更加发力于 AI 并扩展至 5G,将 10nm 工艺用于更多平台。可以明显的看出 Intel 对标的是大趋势,更是直捣 ARM 的大本营。Intel 宣称 2019 年将量产的产品有:Nervana 神经网络推理处理器(NNP-I)及一款研发代号为 "Spring Crest" 的神经网络训练处理器,将运用到那些有高负载需求的企业加快推理速度。研发代号为 Snow Ridge 的 10nm 5G 无线接入和边缘计算的网络芯片 SoC,主要运用于网络基础设施领域。
反观 AMD 在 CES 2019 的主题演讲则是一场教科书等级的行销代表作。AMD 新产品所诉求的客户对象非常的清楚:游戏玩家、游戏创作家与未来游戏生态链的厂家。按照这个行销战略思路来看,AMD 2019 年的产品,如第二代 Ryzen Mobil CPU 用于超轻薄游戏笔电、第三代 Ryzen CPU 用于台式计算机、Radeon 7 图显卡与 EPYC ROME 服务器用于云游戏的边缘计算,就再清晰不过的了。以先进的 7nm 工艺,夹带 CPU、GPU、FPGA 加速器与 Fabric 交连的异质计算与封装技术,AMD 期许自己成为线上与线下游戏产业的领头羊。
Intel 以 Lakefield 微型 PC 抢进 AI、5G 领域,以扩大营收。AMD 则以抢占 Intel 与 NVIDIA 的高端游戏机市场,来增加营收。(Source:非凡创芯力)
一直以来,Intel 在游戏产业中所扮演的只是平台的提供者,而价值的提供者反倒是 GPU 显卡的供应商 NVIDIA 与 AMD。AMD 虽同时拥有 CPU 与 GPU 的 IC 设计技术,但却苦于 GLOBALFOUNDRIES (格芯) 代工技术落后于 Intel,而无法创造差异化的市场优势。在改与台积电的合作之后,AMD 的第三代 Ryzen CPU 在 CINEBENCH R15 多核性能测试跑分上,小胜 Intel 目前桌面平台最强的 Core (酷睿) i9-9900K,但在功耗上 AMD 的新处理器则远低于 Core i9-9900K 30% 以上。
AMD 的全新高端 7nm GPU 光线追踪显卡 "Radeon VII",性能也能对标 NVIDIA 最高端光线追踪显卡 RTX 2080。AMD 新一代 64 核心 EPYC 服务器处理器,运算效能翻倍,优于竞争对手英特尔的 Xeon Scalable 系列处理器。在进行高效能 HPC 基准测试时,采用一台单路 EPYC Rome 服务器原型,比采用 2 颗并联的 Xeon Scalable 8180M 服务器运算速度还更快。
AMD EPYC ROME CPU (Source:AMD)
目前 Intel 在 PC 和服务器 (Server ) 芯片两大市场依然占据着超过 80% 的市场份额,但是全球 PC 出货量已经从高峰时期的 3 亿 5,000 万台下降到了 2 亿 6,000 万台。CPU 芯片市场主要的推动力来自三个方面:数据中心的服务器需求大幅成长、企业升级到 Windows 10 的商业 PC 市场的换机潮,与超轻薄笔电需求不断。AMD 在拥有高性能 PC 与服务器 CPU 平台,及高速显卡 GPU 的芯片,准备大举进军笔电及台式机的游戏市场,而最关键的莫过于新产品的上市时间与客户对价格的接受度。
NVIDIA 則一反往年,在今年 CES 将近两小时的发表会中,不是先谈自驾车,而是将镁光灯全都聚焦在游戏、游戏、游戏,重磅推出游戏史上最高性价比的 RTX 2060 显卡,相信这是来自 AMD 的直接压力,双方较劲的意味浓厚。
小语三、因「华」必「为」的鲲鹏 920 芯片与泰山服务器
华为选择在 CES 2019 开幕前夕,一举发布了 ARM - based 处理器-鲲鹏 920 (Kunpeng 920) 和基于鲲鹏 920 的泰山 (TaiShan) 服务器,主要应用场景包括大数据、分布式存储及 ARM 原生应用等,正式宣示进入云服务器市场的竞争行列。鲲鹏 920 (Kunpeng 920) 是一款由华为自主研发设计的 64 位元 ARMv8.2 处理器,基于台积电 SiP 与 7nm 工艺打造,号称是地表最强的服务器处理器。
然而,它们的出现,却引来鲲鹏能否展翅,泰山真能压顶,毁誉两极的各种评价。究其原因主要是前车之鉴,高通、AMD、三星等芯片巨头对 ARM 架构的服务器 CPU 芯片,均已选择战略性放弃或心灰意冷时,华为在 2019 年初竟打响了有意经营手机数据云 ARM CPU 芯片及服务器市场的第一枪。
华为这一切的努力和探索,都是希望借助海思在 ARM 芯片上的技术积累和实践经验,尽量避开 x86 芯片及其生态链已经存在的专利壁垒,能够让自己在企业级领域的云服务器核心关键技术不受制于人。有几个趋势让 ARM 服务器 CPU 的竞争力前景审慎而乐观:
1. 「云芯一体」+「分芯专攻」已是世界云企业的趋势
随着 AI 训练对云计算的需求不断加大,Apple、Microsoft 与 Google 早已推出自家的 AI 芯片的情形下,全球最大的在线零售商和最大的云计算公司 Amazon,于 2018 年 11 月 Amazon Web Service (AWS) 全球网路会议中发表,能够提供全球数据中心内的数百万台服务器所使用的服务器 ARM 架构的 CPU 芯片 2.3 GHz 64-bit Graviton 及 AI 芯片 Inferentia。
「云芯一体」+「分芯专攻」为云企业本身的服务器机群「造芯」,已成世界潮流,华为加入这场「造芯」运动不足为奇外,反而还要在赛道上超越领跑者们。华为基于全新自研 Da Vinci 架构的升腾 310 AI 芯片获颁第五届世界互联网领先科技成果,也算是走出云企业的服务器机群「分芯专攻」的第一步。
2. Intel 也走向 big.LITTLE 混核芯元 + SiP 升性能、降功耗与低成本的行列
Intel 10nm Ice Lake 架构就是模仿 ARM 的 BIG.little 内核丛,包括高性能 Sunny Cove 内核 (big) 和 Atom 内核 (LITTLE) 组成的混核芯元,并且将用于 10nm Xeon 服务器 CPU。值得一提的是,与 AMD 同样采用台积电 7nm 的鲲鹏 920 芯片,集成了传统计算芯片的四大结构,包含网络、存储、主控芯片以及 CPU 于单一 SiP 封装当中。这是服务器产业的一大创举外,也符合 CPU 芯片大厂升性能、降功耗与低成本的产业趋势。
3. ARM CPU 进入分布式数据中心只是一小步,进入边缘计算才是一大步
鲲鹏 920 芯片及泰山服务器将主要市场锁定于 ARM 原生应用的大数据与分布式存储等场景。换句话说,就是智能物联网 (AIoT) 的数据中心,而其中以解决手机云服务器的高负载为首要。手机数据云的运营关键主要是:高吞吐、低时延与低功耗。手机数据云服务器的 CPU 所管理的主体是巨大的存储器与硬盘间的使用效能与数据安全,及正确与快速反馈给客户所要求的数据。
CPU 的浮点计算力其实不需要非常强大,而是需要有处理高通量的数据上行压缩后的分布式存储,与快速下行数据时的解压缩即可。而这里面还有一项核心技术,那便是服务器机群的操作系统 (OS) 效率与正确性。华为卖的应该不只是集成网络、存储、主控芯片以及 CPU 四大计算芯片结构的鲲鹏 920 或泰山服务器,而是包含操作系统在内的手机数据云高效管理与运营的完整解决方案。
打个比方来说明手机云数据中心使用 x86 (复杂指令集,CISC) 与 ARM (精简指令集,RISC) CPU 的区别。数据中心可以想像为一座由巨大的存储器与硬盘组成的图书馆,x86 就像是一位俄国数学教授,而 ARM 则像是美国中学的毕业生,两个人的数学能力是天差地别的。但是,两个人如果是在图书馆只做整理英文书目,取书与放书的工作,则俄国数学教授 (x86) 与美国中学生 (ARM) 效率上不会差太多,差异的发生取决于整理书目区的语言,而非计算能力。
当数据中心要的是体力活多于脑力活时,算力的高低无法评判两者的价值。但是,如果图书馆推出一项服务是协助大学生课后辅导高等微积分及线性代数这类专业数学时,美国中学生就做不来了。这就像在线游戏的边缘计算,算力成为关键指标。泰山服务器发表会上宣称,当执行程序的指令集差异时,使用 ARM 的原生应用程序 (RISC) 比转译 x86 (CISC) 指令,缩短了 3 倍的时间且正确率提高。
ARM 原生应用的利基正是以 ARM 架构所生产的手机产生的数据 (Android 阵营与 Apple iOS 阵营) 为核心的数据中心,提供手机客户正确且快速反应的重要价值,这才是 Apple、Google、Amazon 与华为等数据中心自己「造芯」的理由。
鲲鹏 920 的浮点算力不足并不是数据中心运营的短版,缩短客户从终端发送到接收数据的延滞时间与降低功耗,才是数据中心运营真正的挑战。(Source:华为)
随着 ARM 生态逐渐发展,越来越多的应用已向 ARM 架构迁移。更重要的是,对于多样化的计算任务,找到适合的架构才是更重要的。对于手机普遍适用的 ARM 芯片,当开发者在云端进行游戏应用开发时,ARM 架构比 x86架构更好。针对浮点算力不足的问题,ARM 于 2019 年推出基于 7nm 工艺,代号为 Ares 的服務器处理器架构,并在 2020 年发布 7+nm 工艺,代号为 Zeus 的处理器架构,在 2021 年发布 5nm 工艺,代号为 Poseidon 的处理器架构。
根据 ARM 公布的资料显示,每一代在计算性能上比上一代提升超过 30%。这对 5G 布建后,因应线上手游与 AI 的市场扩大,实时计算与传输成为边缘云服务器 (云边) 关键的第一步。ARM 架构的 GPU 原就具有市场优势的情况下,如果手机云的高算力 CPU 芯片也能被 ARM 架构攻克,这将是对 ARM 架构的云边服务器 CPU 与 GPU 芯片市场的一大福音。
4. 「云基一体」在线 VR/AR 手机游戏的游戏规则制定者
虽然市场主流意见认为,主宰集中式云计算市场的那些公司:Amazon、Google 和 Microsoft 正在成为边缘计算领域的领先者。还有许多著名的公司也在投资布局边缘计算,包括 Apple、GE (通用电气)、Intel、Dell (戴尔)、IBM、Cisco (思科)、HP (惠普企业)、NVIDIA、Samsung、SAP SE 和 AT&T。简单来看,无线智能物联网 (AIoT) 中距离智能终端最边缘的,不就是基站 ? 谁掌控了有算力的基站,谁才是边缘计算领域的领先者 ! 依此标准来看,以上的这些厂家都不具备 5G 基站的制造能力,与 AIoT 全产业链的集成产品。
相较而言,华为在「数据云基站」领域已驶入超车道,有后来居上之势。更加值得注意的是,华为若能在未来拥有自主的高算力 CPU 与 GPU 微架构和内核,除了可为无线手游、VR/AR 与无人驾驶提供所需的 5G 云到端的基础设施外,还提供完整的「云边基站」与操作系统,将可为运营商与终端用户创造更高的附加价值。华为下的是一盘大棋局 !
华为在边缘计算最强大的武器就是「云边基站」(红框内),麒麟 980、昇腾 301、巴龙 5G01、CPE 到鲲鹏 920 这一系列的智能物联网 (AIoT) 布局,是全球独家且具有自主可控技术的厂商。
由疑神疑鬼且患有被害妄想症的美国所发起的贸易战,让通信与信息产业成为重灾区,因「华」不得不「为」的国产芯片自力更生的脚步也就越走越快。
小语四、失速的 5G 遇上龟速的「芯擎」驾驶
涂抹厚厚政治浓妆的 5G 在 CES 2019 粉墨登场,华为与 Qualcomm (高通) 两家通信大厂的展场位置虽是面对面,但却充斥着一股莫名的氛围。其一是 Qualcomm 对 Apple 的专利诉讼,在福州市中级人民法院批准 iPhone 禁售令后,让 Qualcomm、Apple 与 Intel 的关系变得更加暧昧不明。前阵子新款 iPhone「信号门」频发,据推测可能就是 Intel 的通信基带芯片欠佳。这也造成 Apple 的 5G iPhone 已打算弃用 Intel 产品,转而考虑采用三星或是联发科的通信基带芯片。5G 版本的 iPhone 可能是在 2020 年以后才会推出!
其二是近来在美国搅局之下,不少国家的电信运营商陆续宣布不向华为采购 5G 设备,受到直接影响的不只是华为,而是整体 5G 的生态链。在 CES 的场合上,Qualcomm 失去了一起造势与互相叫阵的对手,而显得形单影只。
Qualcomm 表示来自全球 OEM 的 30 余款 5G 终端设备搭载了骁龙 855 动平台和骁龙 X50 5G 调制解调器。此外,所有 OEM 客户和几乎所有这些 5G 终端设计都采用了 Qualcomm 射频前端 RFFE 解决方案。关于 5G 的那些事,Qualcomm 在全球发布会上就只说了这么一小段,大部分的时间则是大谈 AI 加持的第三代骁龙汽车数字座舱平台。
曾几何时,CES 变成一场大型车展,其实更确切地说,CES 已经可以称之为大型的无人驾驶车展。CES 2019 的会场上,除了原有的「汽」车厂商外,更多的是新进车厂的展台处,都会摆上几台自己的「芯擎」驾驶「车」- 自驾车、飞天车还有爬墙车。未来的汽车不仅肯定是「芯擎」驾驶的,它们也不一定还需要轮子。Automobile 一词都快改为 "AItomobile"。CES 2019「芯擎」厂商的动态主要有三家:Qualcomm、NVIDIA、Horizon Robotics,除了噱头不够外,看头更是不足。
Qualcomm 新一代 Snapdragon Automotive Cockpit Platforms (骁龙汽车数字座舱系列平台),这个平台包含 Snapdragon 820A 芯片、一系列无线连接功能 (4G/5G、Wi-Fi、蓝牙等等) 及一部分软件功能。
AI 芯片龙头 NVIDIA 推出的是全球首款商用 L2+ 自动驾驶系统 NVIDIA DRIVE AutoPilot,据悉 DRIVE AutoPilot 首次集成了 NVIDIA Xavier 系统级芯片 (SoC) 处理器和最新的 NVIDIA DRIVE 软件,能对大量深度神经网络进行处理以获取感知,整合来自车身内外环绕摄像头传感器的数据。然而,CES 2019 自驾车创新奖的桂冠得主是 Horizon Robotics (HR) 的 Matrix 自动驾驶计算平台 (Matrix Autonomous Driving Computing Platform)。结合深度学习感知技术,具备强大的计算能力,号称能够为 L3 和 L4 级别自动驾驶提供高性能的解决方案。
结语
CES 2019 中的「芯情」进行式有:SiP 延续摩尔创新之路;AMD 与 Intel / NVIDIA 在游戏的世界里厮杀;Intel 又与 ARM 阵营展开 ACPC CPU 的大决战;华为的「云基站」站在全球通信产业的最「边缘」;5G 消音与「芯擎」走在慢车道上。往后还有 3 场科技大展,2 月举办的世界移动通信大会 (Mobile World Congress,MWC 2019),还有 5 月底的台北国际电脑展 (COMPUTEX TAIPEI) 和 9 月份的柏林国际电子消费品展览会 (IFA),非常值得拭目以待。