kaiyun官方注册
您所在的位置: 首页> 其他> 业界动态> 如何解决高吞吐量和低延迟?这款加速方案可助力同时处理4000个语音通道

如何解决高吞吐量和低延迟?这款加速方案可助力同时处理4000个语音通道

2019-10-28

  最近几年,FPGA加速应用在金融、网络安全、存储、AI等领域都有较多应用空间。随之而来的,则是利用FPGA开发智能加速卡的火爆。在很多场景下,由于FPGA的自定义逻辑,相比于GPU能够有更高的加速能力。而即将于11月6日在北京举办的英特尔?FPGA技术大会上,将会有海量基于FPGA加速的应用展示哦~

  英特尔? FPGA可编程加速卡 (PAC) D5005是目前英特尔? FPGA的高端FPGA加速卡。自发布以来,经过英特尔? FPGA及众多合作伙伴的努力,PAC D5005加速卡已经可以实现对较多工作负载的加速,如视频编解码、AI领域的语音到文本转换、图像处理、网络安全等。

  在 Myrtle 的可扩展推理引擎上运行的语音到本文 (STT) 转录应用(基于该公司的 MAU 加速器内核)是最近发表的一篇博文中讨论的四个加速工作负载之一。这篇博文指出,HPC 在其 ProLiant DL380 Gen10 服务器中添加了英特尔? FPGA 可编程加速卡 (PAC) D5005选件。通过集成到英特尔? FPGA PAC 卡 D5005 的一个英特尔? FPGA 加速时,这种 STT 工作负载即可实时处理超过 4000 个语音通道。

640.webp (1).jpg

  英特尔? FPGA 可编程加速卡 D5005

  借助在 FPGA 中实例化的 MAU 加速器内核网格,Myrtle 的可扩展推理引擎能够高效处理高性能 STT 工作负载。MAU 加速器内核针对英特尔 FPGA PAC D5005 进行了优化。Myrtle 发布了一篇长达 9 页的论文,题为“利用下一代数据中心硬件的非结构化稀疏性”,文中讨论了 MAU 加速器的细节信息。您还可以在英特尔FPGA 加速中心网页的 AI 选项卡下找到一篇题为“加速数据中心的语音工作负载”的英特尔解决方案文章,这篇文章将为您提供更多详细信息。

  在这里我们就不重复 Myrtle STT 解决方案的诸多技术细节了,直接跳到这篇解决方案简介文章的结论:

  01

  PART

  ONE

  在英特尔? Stratix? 10 FPGA 上运行的 MozillaDeepSpeech 工作负载(使用 Myrtle STT,针对稀疏性和量化进行了优化)达到了 54 TOPS,略高于 NVIDIA Tesla V100 GPU (针对吞吐量进行了代码优化)的性能。同时,基于 FPGA 的 MAU 加速器的每瓦 TOPS 比 GPU 高 6 倍。Myrtle STT 的每秒语音输入延迟为 0.343 毫秒,而相比之下, GPU 的延迟则高达 126 毫秒,相差多达 365 倍。性能提升的代价是精度下降了约0.23%(由于 Myrtle STT 针对稀疏性和量化进行了优化)。

  02

  PART

  TWO

  针对延迟而非吞吐量优化的 GPU 解决方案可将 GPU 的延迟降低至 10.1 毫秒,这比 利用 FPGA 加速的 Myrtle 解决方案所实现的 0.343 毫秒延迟慢 29 倍。然而,GPU 延迟的降低却带来了吞吐量性能的大幅下降:其吞吐量性能从 53.37 降至了 1.12 TOPS。与 FPGA 加速的 Myrtle STT 解决方案相比,性能相差 48 倍。(请注意,FPGA 加速的 Myrtle STT 解决方案同时提供高吞吐量低延迟。)


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306116;邮箱:aet@chinaaet.com。
Baidu
map