AMD推最强GPU,叫板英伟达
2021-11-12
来源:开云棋牌官网在线客服行业观察
AMD本周出人意料地公布了其 Instinct MI250 加速器与英伟达 A100 计算GPU相比的详细性能数据。可以预见,AMD 的显卡在所有情况下都比 Nvidia 的主板高出两到三倍。
但是,尽管硬件公司展示其优势的情况并不少见,但很少在官方网站上公布与竞争对手的详细性能数据。当他们这样做时,通常意味着一件事:他们对其产品非常有信心。
性能提升三倍
由于 AMD 的 Instinct MI200 主要针对 HPC 和 AI 工作负载(显然 AMD 为 HPC 和超级计算机而不是 AI 定制了更多的 CDNA 2),因此 AMD 在处理代数、物理学、宇宙学、分子动力学和粒子相互作用。
有许多物理和分子动力学 HPC 应用程序被广泛使用并具有行业认可的测试,例如 LAMMPS 和 OpenMM。这些可以被视为现实世界的工作负载,在这里 AMD 的 MI250X 拥有超过 Nvidia A100 1.4 到 2.4 倍的性能。
还有许多 HPC 基准测试可以模拟真实世界的代数、宇宙学和粒子交互工作负载。在这些情况下,AMD 的顶级计算加速器比 Nvidia 的旗舰加速器快 1.9 – 3.05 倍。
请记住,与 Nvidia 的 A100 相比,AMD 的 MI250X 在高时钟下运行的 ALU 数量要多得多,新卡显著优于其竞争对手也就不足为奇了。同时,值得注意的是,AMD 没有运行任何 AI 基准测试。
新架构,更多 ALU
AMD 的 Instinct MI200 加速器由该公司最新的 CDNA 2 架构提供支持,该架构针对高性能计算 (HPC) 进行了优化,将为即将推出的 Frontier 超级计算机提供动力,该超级计算机有望提供约 1.5 FP64 TFLOPS 的持续性能 。MI200 系列 OAM 板使用由两个图形计算芯片 (GCD) 组成的AMD Aldebaran 计算 GPU ,每个芯片包含 291 亿个晶体管,与 Navi 21 内部的 268 亿个晶体管相比略多。GCD 是使用台积电的 N6 制造工艺制造的,这使 AMD 能够通过封装或者在更多层上使用极紫外光刻技术增加更多晶体管,并简化生产过程。
AMD 的旗舰 Instinct MI250X 加速器具有 14,080 个流处理器(220 个计算单元),并配备 128GB 的 HBM2E 内存。MI250X 计算 GPU 的额定性能为 95.7 FP32/FP64 TFLOPS(矩阵运算性能相同)以及 383 BF16/INT8/INT4 TFLOPS/TOPS 性能。
相比之下,英伟达的 A100 GPU 由 542 亿个晶体管组成,拥有 6,912 个活动 CUDA 核心,并搭配 80GB 的 HBM2E 内存。在性能方面,加速器提供 19.5 FP32 TFLOPS、9.7 FP64 TFLOPS、19.5 FP64 Tensor TFLOPS、312 FP16/BF16 TFLOPS,以及高达 624 INT8 TOPS(或 1248 TOPS 稀疏)。
即使在纸面上,AMD 的 Instinct MI200 系列在传统 HPC 和矩阵工作负载中也能提供更高的性能,但 Nvidia 在 AI 案例中具有优势。在 AMD MI200 系列的情况下,这些峰值性能数字可以用相当高的 ALU 数量来解释
为了展示其旗舰计算加速器 Instinct MI250X 128GB HBM2E 的性能,AMD 使用了基于 1P 或 2P 64 核 AMD EPYC 7742 的系统,配备了一个或四个 AMD Instinct MI250X 128GB HBM2E 计算 GPU 或一个或四个 Nvidia A100 80GB HBM2E。该公司使用了 AMD 优化和 CUDA 优化的软件。
总结
根据其自己的数据,目前,AMD 的 Instinct MI250X 是世界上性能最高的 HPC 加速器。考虑到 Aldebaran 拥有高达 14,080 个 ALU 并且额定为 95.7 FP32/FP64 TFLOPS 性能,它确实是最快的计算 GPU。
与此同时,AMD 推出了 Instinct MI250X,比 Nvidia 的 A100 晚了大约 1.5 年,比英特尔的 Ponte Vecchio 早了几个月。2021 年的计算加速器的性能超过一年多前推出的竞争对手是很自然的,但我们很好奇的是,这款 GPU 将如何与英特尔的超级计算机绑定计算 Ponte Vecchio GPU 相抗衡。