kaiyun官方注册
您所在的位置: 首页> 可编程逻辑> 业界动态> 抓住AI带来的3倍飙升,这家公司拼力打造“FPGA+”实现突破

抓住AI带来的3倍飙升,这家公司拼力打造“FPGA+”实现突破

2019-06-09
关键词: AI FPGA

  近几年,FPGA由于具有可编程的灵活性,大受AI设计公司的青睐。目前,FPGA在AI芯片行业呈现出两种发展趋势,一个是在FPGA的基础上推出优化架构,二个是最大化程度挖掘FPGA的使用范围,甚至从FPGA转向专用定制芯片ASIC。Semico Research数据显示,FPGA在过去几年的CAGR保持在8-10%左右,未来五年随着FPGA在AI应用中的扩张,CAGR将高达38.4%。为了保持自身竞争力,全球有25%的企业使用了人工智能或机器学习,两年内这一比例将增长到72%,Semico Research预计在4年内,应用于人工智能的FPGA市场规模将增长3倍,达到52亿美元。

  但是人工智能算法仍在不断演进,数值精度选择呈多样性,计算引擎要具有可编程性、更高效;内存层次结构需要更高带宽,实现内部和外部记忆;数据移动需要消除拥堵点,实现FPGA架构中的ASIC性能。设计者需要利用FPGA架构实现最佳功耗、性能和灵活性,打破降低效率的历史瓶颈。

5cefb3067c681-thumb.JPG

  Achronix公司董事长兼首席执行官Robert Blake

  为了满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求,Achronix推出了Speedster7t FPGA系列产品。Achronix公司董事长兼首席执行官Robert Blake介绍,“AI处理的数据量非常大,要让数据高效地传输到不同的部分,需要考虑三个因素:高效计算力、高效大宽带的数据运算能力、高效丰富存储缓存能力。Speedster7t系列是基于一种高度优化的全新架构,以其所具有的如同ASIC一样的性能、可简化设计的FPGA灵活性和增强功能,从而远远超越传统的FPGA解决方案。通过将FPGA的可编程性与ASIC的布线结构和计算引擎完美地结合在一起,Speedster7t系列产品创造了一类全新的‘FPGA +’技术”

2.png

  一种新型技术FPGA+:FPGA与ASIC技术的融合

  重新设计整个FPGA架构

  在开发Speedster7t系列FPGA的产品过程中,Achronix的工程团队完全重新构想了整个FPGA架构,以平衡片上处理、互连和外部输入输出接口(I / O),以实现数据密集型应用吞吐量的最大化,可以应用于基于边缘和基于服务器的AI / ML应用、网络处理和存储。

  在制造工艺方面,Speedster7t器件采用了TSMC的7nm FinFET工艺制造,是专为接收来自多个高速来源的大量数据而设计,同时还需要将那些数据分发到可编程片上算法性和处理性单元中,然后以尽可能低的延迟来提供那些结果。

  Speedster7t系列产品包括高带宽GDDR6接口、400G以太网端口和PCI Express Gen5等接口,所有这一切单元都互相连接以提供ASIC级带宽,同时保留FPGA的完全可编程性。Robert Blake强调,“我们是唯一一家支持GDDR6的模块高带宽存储方案的FPGA公司。每个GDDR6存储控制器都能够支持512 Gbps的带宽,Speedster7t器件中有多达8个GDDR6控制器,可以支持4 Tbps的GDDR6累加带宽,并且以很小的成本就可提供与基于HBM的FPGA等效存储带宽。”

  Achronix为什么选择GDDR6?Robert Blake解释,“目前只有两个方案:HBM2和GDDR6。现在HBM2和GDDR6性能差不多,HBM2成本太贵,而且灵活性差,我们采用GDDR6比采用HBM2成本降低一半。”

  Speedster7t系列产品可以打破FPGA的瓶颈问题,提供最高的FPGA计算密度、最高带宽数据传输、高带宽和低成本的存储器接口,主要得益于两点创新:二维片上网络(2D NoC)和机器学习处理器(MLP)模块阵列。


  二维片上网络(2D NoC)

3.png


  传统FPGA加速数据会将数据传输到外面,需要布线单元来做,性能受到限制,而Speedster7t建设了很多高速通道,即二维片上网络(NOC),其可以横跨和垂直跨越FPGA逻辑阵列,连接到所有FPGA的高速数据和存储器接口,利用这些高速通道将数据从一端传输到另外一端。

4.png

  高带宽片上网络

  Robert Blake解释,“它们就像叠加在FPGA互连这个城市街道系统上的空中高速公路网络一样,Speedster7t的NoC支持片上处理引擎之间所需的高带宽通信。NoC中的每一行或每一列都可作为两个256位实现,单向的、行业标准的AXI通道,工作频率为2Ghz,同时可为每个方向提供512 Gbps的数据流量。”

  通过在Speedster中实现专用二维 NoC, 极大地简化了高速数据移动,并确保数据流可以轻松地定向到整个FPGA结构中的任何自定义处理引擎。最重要的是,NOC消除了传统FPGA使用可编程路由和逻辑查找表资源在整个FPGA中移动数据流中出现的拥塞和性能瓶颈。这种高性能网络不仅可以提高Speedster7t FPGA的总带宽容量,还可以在降低功耗的同时提高有效LUT容量。

  Robert Blake也表示,“二维NOC都是用ASIC来做的,客户采用我们的FPGA,如果后期需要做ASIC,不需要花费更多的时间,可以将小部分可编程IP集成到ASIC中。现在最流行的AI技术硬件方法有GPU、CPU和ASIC,如果算法固定有可能用AISC实现,这一市场一直在增长,三种技术各自都有自己的优势。”

  机器学习处理器(MLP)模块阵列

  传统上,使用DSP模块进行AI / ML训练,所支持的精度不够,构建AI/ML应用程序,需要消耗额外逻辑和存储资源,性能收到限制。Speedster7t FPGA的核心是其全新机器学习处理器(MLP)中大规模的可编程计算单元平行阵列,它们可提供业界最高的、基于FPGA的计算密度。MLP是高度可配置的、计算密集型的单元模块,可支持4到24位的整点格式和高效的浮点模式,包括对TensorFlow的16位格式的支持,以及可使每个MLP的计算引擎加倍的增压块浮点格式的直接支持。

5.png

  MLP与嵌入式存储器模块紧密相邻,通过消除传统设计中与FPGA布线相关的延迟,来确保以750 MHz的最高性能将数据传送到MLP。这种高密度计算和高性能数据传输的结合使得处理器逻辑阵列能够提供基于FPGA的最高可用计算能力以每秒万亿次运算数量为单位(TOPS,Tera-Operations Per Second)。

  Robert Blake表示,“Achronix除了为客户提供FPGA产品,还可以进行eFPGA IP授权,支持从Speedster7t FPGA到ASIC的无缝转换。FPGA应用通常具有必须保持可编程性的功能,而其他固定功能则是专用于特定的系统应用。对于ASIC的转换而言,固定功能可以被固化进ASIC结构中,从而减小芯片面积、成本和功耗。当使用Speedcore eFPGA IP将Speedster7t FPGA转换为ASIC时,客户有望节省高达50%的功耗并降低90%的成本。”


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。
Baidu
map