什么是FPGA,有什么用处?
2018-06-21
什么是FPGA
FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
FPGA和CPLD的主要区别
早在1980年代中期,FPGA已经在PLD设备中扎根。CPLD和FPGA包括了一些相对大数量的可编辑逻辑单元。CPLD逻辑门的密度在几千到几万个逻辑单元之间,而FPGA通常是在几万到几百万。
CPLD和FPGA的主要区别是他们的系统结构。CPLD是一个有点限制性的结构。这个结构由一个或者多个可编辑的结果之和的逻辑组列和一些相对少量的锁定的寄存器组成。这样的结果是缺乏编辑灵活性,但是却有可以预计的延迟时间和逻辑单元对连接单元高比率的优点。而FPGA却是有很多的连接单元,这样虽然让它可以更加灵活的编辑,但是结构却复杂的多。
CPLD和FPGA另外一个区别是大多数的FPGA含有高层次的内置模块(比如加法器和乘法器)和内置的记忆体。因此一个有关的重要区别是很多新的FPGA支持完全的或者部分的系统内重新配置。允许他们的设计随着系统升级或者动态重新配置而改变。一些FPGA可以让设备的一部分重新编辑而其他部分继续正常运行。
CPLD和FPGA还有一个区别:CPLD下电之后,原有烧入的逻辑结构不会消失;而FPGA下电之后,再次上电时,需要重新加载FLASH里面的逻辑代码,需要一定的加载时间。
FPGA工作原理
FPGA采用了逻辑单元阵列LCA(Logic Cell Array)这样一个概念,内部包括可配置逻辑模块CLB(Configurable Logic Block)、输出输入模块IOB(Input Output Block)和内部连线(Interconnect)三个部分。
与传统逻辑电路和门阵列(如PAL,GAL及CPLD器件)相比,FPGA具有不同的结构,FPGA利用小型查找表(16&TImes;1RAM)来实现组合逻辑,每个查找表连接到一个D触发器的输入端,触发器再来驱动其他逻辑电路或驱动I/O,由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到I/O模块。
FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式,并最终决定了FPGA所能实现的功能,FPGA允许无限次的编程。
FPGA在下一代网络架构中的重要意义
这里将着重讨论FPGA在诸如NFV等虚拟网络架构中的作用和意义。
电信网络是NFV的一个主要应用场景,它出现的最直接的动因之一就是为了支持指数级的带宽增长。据预测,五年后全球的IP流量将较今日增长超过3倍。在万物互联的今天,尤其是5G、物联网、自动驾驶等技术已经成为各大公司争夺的焦点之时,各种设备和服务都需要电信网络及其数据中心进行处理和支持。然而,传统的电信基础架构和数据中心很难进行有效的扩展,其主要原因有以下两点:
硬件层面:传统电信网络基础架构使用的是各类专用硬件设备,如各类接入设备、各层交换机、路由器、防火墙、QoS等。这样做的问题有很多,例如,不同设备之间的兼容性差、维护升级困难、容易造成供应商垄断从而大幅提高成本、若需要加入新功能则要开发新硬件设备等等。
软件层面:不同设备都需要各自对应的软件进行配置和控制,从而难以在管理员层面进行大范围统一部署和配置,且需要学习来自不同供应商和规格的设备的软件配置方法。若某些网络功能通过软件实现,传统的实现方法中对服务器的有效利用率很低,且无法进行服务的动态迁移,等等。
因此,虚拟化技术 - 更具体而言,网络功能虚拟化NFV技术,逐渐成为各大运营商解决上述问题的有效途径。欧洲电信标准协会(ETSI)关于NFV比较有名的示意图如下所示。
总体而言,和传统方法相比,NFV利用通用的服务器(大多是基于英特尔x86处理器)、通用的存储设备、以及通用的高速以太网交换机,实现传统电信网络基础架构的各种网络功能。具体而言,就是将网络功能在通用服务器中用软件实现,数据使用通用的存储设备存储,网络流量通过通用的网卡和高速交换机进行转发。这样理论上能很好的解决上述硬件层面的问题:使用通用设备而非专用设备,提高了数据中心的可扩展能力,不会被某个供应商制约,反而会通过开放竞争减少硬件采购和部署的成本。
另外,借助虚拟化技术,将网络功能在不同虚拟机中实现,这样理论上能解决软件层面的问题:即某个特定应用不会占用服务器的全部资源,反之,一个服务器可以同时运行多个虚拟机或网络服务。同时,虚拟机在数据中心的扩展和迁移也更加方便,不会造成服务下线或中断。
NFV和另外一项技术:软件定义网络(Software Defined Network - SDN)经常一起出现。它们的一个主要的核心思想就是将网络的控制面和转发面进行分离。这样,所有的数据转发面设备都可以同时被控制、配置、管理,从而避免了管理员需要分别配置每个网络设备的低效情形。
引用一下《中国电信CTNet2025网络架构白皮书》的话:
“从更好的适应互联网应用的角度出发,未来网络架构必须要求网络能力接口的开放和标准化,通过软件定义网络技术,能够实现面向业务提供网络资源和能力的调度和定制化,同时为进一步加速网络能力的平台化,还需要提供网络可编程的能力,真正实现网络业务的深度开放。”
请注意,在之前的表述中我使用了很多“理论上”怎样怎样,这是由于上面关于NFV的优点很多都是人们美好的想象和愿景。在实际的工程实践中,设计实现有效的NFV架构面临着很多问题。例如,不同的应用场景中,网络负载的种类五花八门,而很多应用都需要进行线速的处理,如QoS和流量整形(之前的博文介绍过)、VPN、防火墙、网络地址转换、加密解密、实时监控、深度包检测(DPI)等等。即使有DPDK等专用的软件开发库,目前单纯使用软件实现这些网络服务的线速处理,在技术上存在很大困难,且用软件实现的网络功能在性能上很难和专有硬件相比。这样一来,人们会反过来质疑使用NFV的出发点和动机。同时,鉴于NFV仍处于方案探讨和摸索阶段,很多相关的协议和标准还没有确定,这也在一定程度上使很多企业犹豫是否要投入大量资源去进行前期的探究工作。
因此,如何有效的实现这些虚拟化的网络功能(Virtualized Network FuncTIon -VNF),是我们前阶段的主要工作和这篇白皮书主要探讨的问题。
虚拟网络功能(VNF)的有效实现
在这里,实现虚拟网络功能的“有效性”主要体现在以下几个方面:
1.VNF必须非常灵活、便于使用;
2.容易大规模扩展,不局限于某种应用场景或网络;
3.性能方面应该不低于,甚至高于专用硬件。
介于此,白皮书中给出了几个有潜力的发展方向以供参考:
1.控制面和转发面的分离和独立扩展。
2.设计并优化、标准化拥有可编程能力的转发面。
在电信网络的应用场景中,NFV的一个典型应用就是虚拟化的宽带远程接入服务vBRAS,即virtual broadband remote access server,又被称为vBNG,即virtual broadband network gateway。在vBRAS中可能包含很多虚拟网络功能,例如远程用户拨入验证服务(Remote AuthenTIcaTIon Dial-In User Service, RADIUS)、动态主机设置协议(Dynamic Host Configuration Protocol,DHCP),以及之前提过的DPI、防火墙、QoS等。
一个重要的发现是,这些网络应用从计算资源的需求上可以分成两类。一类不需要大量的计算资源,如RADIUS和DHCP。同时这类应用很多属于控制平面。因此这类应用很适合直接放在控制平面,并且有很好的纵向和横向的扩展性,也很适合用通用的计算和存储设备进行实现。
另一类应用往往需要很大的计算能力,如流量管理、路由转发、数据包处理等,且通常需要在线速下(如40Gbps、100Gbps或更高)进行处理。这类应用往往属于数据平面。对于数据平面而言,它还需要支持很多种计算量很大的网络功能,这样才能区别于使用专有硬件,符合NFV技术的初衷。综上而言,数据平面应该具备以下两点主要能力“
1.能线速进行高吞吐量的复杂数据包处理;
2.同时支持多种网络功能,具有很强的可编程能力。
然而,如果直接使用软件方法实现,这两点功能很难同时满足。因此我们采用了FPGA作为智能硬件加速平台,很好的同时解决了处理速度和可编程性两个问题。首先,FPGA相比纯软件方法,在数据包处理上拥有着绝对优势的硬件并行性能,因此被用作硬件加速器使用。其次,相比于传统的专有硬件设备,FPGA拥有灵活的可编程能力,可以支持各种应用的实现。
虚拟宽带远程接入服务:从BRAS到vBRAS的演进
图1:vBRAS的演化
上图为我们展示了传统BRAS逐步演进到vBRAS的三个主要过程:
1.第一阶段,传统的BRAS使用专用设备,且控制面和转发面紧耦合。图中可以看到控制路径和数据路径是相互重合的。
2.第二阶段,采用了虚拟化技术,且采用了服务器取代了专用BRAS设备,使用软件和虚拟机实现多个vBRAS。但同时也可以看到,此时控制面和转发面还是相互耦合实现。由于两者性能差别很大,这种实现方式很容易造成数据通路的性能瓶颈,或因数据通路流量过大而占用了控制面的带宽。反之,控制面的流量会影响数据面的线速包处理的能力。
3.第三阶段,采用虚拟化技术,且控制面和转发面相互分离。从图中可以看到,控制面和转发面由两个服务器分开实现,控制流量和转发流量相互不影响。此外,控制流量能在数据/转发服务器和控制服务器之间双向流动,实现控制面对转发面的控制。
这第三个阶段就是目前英特尔、HPE和中国电信北研院联合研发的最新成果。接下来就详细讲解其技术细节。
高性能vBRAS的设计方法
设计实现上述第三阶段中高性能的vBRAS方案,需要分别实现vBRAS-c (control) 和vBRAS-d (data),即vBRAS控制设备和vBRAS数据设备。这两类设备都应该使用标准化的通用服务器实现。此外,对于vBRAS数据设备而言,需要针对计算量庞大的应用进行专门的优化和加速,使其能进行高吞吐量、低延时的数据包处理。
下图展示了本应用实例中,vBRAS-c和vBRAS-d的设计方法。
图2:vBRAS的转控分离架构
对于vBRAS-c节点,其重要的设计思想就是轻量化和虚拟化,使其方便在数据中心或云端进行扩展和移植,同时可以分布式实现,以控制多个数据平面节点。因此在本例中,vBRAS-c由一个独立的HPE DL380服务器实现。DL380服务器中包含两个CPU插槽(socket),每个插槽中均有一块14核的Xeon处理器。服务器的总内存为128GB。网络接口方面,vBRAS-c可以使用标准的网卡进行网络通信,比如一块或多块英特尔X710 10GbE网卡即可满足控制平面的流量要求。具体的vBRAS控制应用则在虚拟机中实现,多个虚拟机由SDN控制器统一控制。
对于vBRAS-d节点,总体也通过独立的DL380实现。针对上文提到的优化加速的部分,本实例中使用了基于Arria10 FPGA的智能网卡加速网络功能,如线速处理QoS和多级流量整形。在一个DL380中,可以插入多块FPGA智能网卡,实现并行数据处理,成倍提高数据吞吐量。同时,vBRAS-d节点通过OpenFlow与SDN控制器交互,且一台vBRAS-c设备可以控制多个vBRAS-d设备。
基于Arria10 FPGA的智能网卡解析
使用FPGA智能网卡进行网络加速的好处有以下几点:
1.解放了宝贵的CPU内核,将原本在CPU中实现的数据处理卸载到FPGA上进行加速实现。这样CPU可以用来做其他的工作,在虚拟化的基础上进一步实现了资源的有效利用。
2.FPGA拥有低功耗、灵活可编程的特点。在白皮书中提到,在选用的Arria10 GT1150 器件上实现了硬件QoS和多级流量整形后,只占用了FPGA的40%的逻辑资源。换言之,还有60%的资源可以被用来进行其他的网络功能处理和加速。同时,可以随时对FPGA进行编程,因此多种网络功能的加速都可以用一套硬件设备完成,不需要更换加速卡或其他硬件设备。即使是用户自己定义的功能,也可以实现,不需要专有设备完成。这样很好的平衡了高性能和高通用性两者间的矛盾。
3.FPGA能进行高速并行的数据包处理,且本身就广泛应用于网络通信领域,解决方案丰富且成熟。
下图概括介绍了本实例中在FPGA中实现的数据包转发的数据通路设计。
图3:FPGA数据包处理的数据通路
由图中可见,本设计包含多个模块,如Parser、Look-Up、Buffer Manager、Packet Processor,以及内存控制器和DMA等。数据包进入FPGA后,依次通过各个模块进行特征提取、分类、查找,如果需要就通过PCIe和DMA与CPU进行交互。同时,Buffer Manager会对不同来源的数据包进行流量控制、QoS和流量整形等操作。
此外,这款FPGA智能网卡支持多种包处理模式,即可以将数据包完全在FPGA内部处理后转发,不经过CPU;也可以将数据包通过PCIe传送到CPU,使用DPDK进行包处理,再通过FPGA转发;或者二者结合,一部分功能在CPU中实现,另外一部分卸载到FPGA上完成。可见灵活度很高。
虚拟网络功能(VNF)的有效实现
在这里,实现虚拟网络功能的“有效性”主要体现在以下几个方面:
1.VNF必须非常灵活、便于使用;
2.容易大规模扩展,不局限于某种应用场景或网络;
3.性能方面应该不低于,甚至高于专用硬件。
介于此,白皮书中给出了几个有潜力的发展方向以供参考:
1.控制面和转发面的分离和独立扩展。
2.设计并优化、标准化拥有可编程能力的转发面。
在电信网络的应用场景中,NFV的一个典型应用就是虚拟化的宽带远程接入服务vBRAS,即virtual broadband remote access server,又被称为vBNG,即virtual broadband network gateway。在vBRAS中可能包含很多虚拟网络功能,例如远程用户拨入验证服务(Remote AuthenTIcaTIon Dial-In User Service, RADIUS)、动态主机设置协议(Dynamic Host Configuration Protocol,DHCP),以及之前提过的DPI、防火墙、QoS等。
一个重要的发现是,这些网络应用从计算资源的需求上可以分成两类。一类不需要大量的计算资源,如RADIUS和DHCP。同时这类应用很多属于控制平面。因此这类应用很适合直接放在控制平面,并且有很好的纵向和横向的扩展性,也很适合用通用的计算和存储设备进行实现。
另一类应用往往需要很大的计算能力,如流量管理、路由转发、数据包处理等,且通常需要在线速下(如40Gbps、100Gbps或更高)进行处理。这类应用往往属于数据平面。对于数据平面而言,它还需要支持很多种计算量很大的网络功能,这样才能区别于使用专有硬件,符合NFV技术的初衷。综上而言,数据平面应该具备以下两点主要能力“
1.能线速进行高吞吐量的复杂数据包处理;
2.同时支持多种网络功能,具有很强的可编程能力。
然而,如果直接使用软件方法实现,这两点功能很难同时满足。因此我们采用了FPGA作为智能硬件加速平台,很好的同时解决了处理速度和可编程性两个问题。首先,FPGA相比纯软件方法,在数据包处理上拥有着绝对优势的硬件并行性能,因此被用作硬件加速器使用。其次,相比于传统的专有硬件设备,FPGA拥有灵活的可编程能力,可以支持各种应用的实现。
虚拟宽带远程接入服务:从BRAS到vBRAS的演进
图1:vBRAS的演化
上图为我们展示了传统BRAS逐步演进到vBRAS的三个主要过程:
1.第一阶段,传统的BRAS使用专用设备,且控制面和转发面紧耦合。图中可以看到控制路径和数据路径是相互重合的。
2.第二阶段,采用了虚拟化技术,且采用了服务器取代了专用BRAS设备,使用软件和虚拟机实现多个vBRAS。但同时也可以看到,此时控制面和转发面还是相互耦合实现。由于两者性能差别很大,这种实现方式很容易造成数据通路的性能瓶颈,或因数据通路流量过大而占用了控制面的带宽。反之,控制面的流量会影响数据面的线速包处理的能力。
3.第三阶段,采用虚拟化技术,且控制面和转发面相互分离。从图中可以看到,控制面和转发面由两个服务器分开实现,控制流量和转发流量相互不影响。此外,控制流量能在数据/转发服务器和控制服务器之间双向流动,实现控制面对转发面的控制。
这第三个阶段就是目前英特尔、HPE和中国电信北研院联合研发的最新成果。接下来就详细讲解其技术细节。
高性能vBRAS的设计方法
设计实现上述第三阶段中高性能的vBRAS方案,需要分别实现vBRAS-c (control) 和vBRAS-d (data),即vBRAS控制设备和vBRAS数据设备。这两类设备都应该使用标准化的通用服务器实现。此外,对于vBRAS数据设备而言,需要针对计算量庞大的应用进行专门的优化和加速,使其能进行高吞吐量、低延时的数据包处理。
下图展示了本应用实例中,vBRAS-c和vBRAS-d的设计方法。
图2:vBRAS的转控分离架构
对于vBRAS-c节点,其重要的设计思想就是轻量化和虚拟化,使其方便在数据中心或云端进行扩展和移植,同时可以分布式实现,以控制多个数据平面节点。因此在本例中,vBRAS-c由一个独立的HPE DL380服务器实现。DL380服务器中包含两个CPU插槽(socket),每个插槽中均有一块14核的Xeon处理器。服务器的总内存为128GB。网络接口方面,vBRAS-c可以使用标准的网卡进行网络通信,比如一块或多块英特尔X710 10GbE网卡即可满足控制平面的流量要求。具体的vBRAS控制应用则在虚拟机中实现,多个虚拟机由SDN控制器统一控制。
对于vBRAS-d节点,总体也通过独立的DL380实现。针对上文提到的优化加速的部分,本实例中使用了基于Arria10 FPGA的智能网卡加速网络功能,如线速处理QoS和多级流量整形。在一个DL380中,可以插入多块FPGA智能网卡,实现并行数据处理,成倍提高数据吞吐量。同时,vBRAS-d节点通过OpenFlow与SDN控制器交互,且一台vBRAS-c设备可以控制多个vBRAS-d设备。
基于Arria10 FPGA的智能网卡解析
使用FPGA智能网卡进行网络加速的好处有以下几点:
1.解放了宝贵的CPU内核,将原本在CPU中实现的数据处理卸载到FPGA上进行加速实现。这样CPU可以用来做其他的工作,在虚拟化的基础上进一步实现了资源的有效利用。
2.FPGA拥有低功耗、灵活可编程的特点。在白皮书中提到,在选用的Arria10 GT1150 器件上实现了硬件QoS和多级流量整形后,只占用了FPGA的40%的逻辑资源。换言之,还有60%的资源可以被用来进行其他的网络功能处理和加速。同时,可以随时对FPGA进行编程,因此多种网络功能的加速都可以用一套硬件设备完成,不需要更换加速卡或其他硬件设备。即使是用户自己定义的功能,也可以实现,不需要专有设备完成。这样很好的平衡了高性能和高通用性两者间的矛盾。
3.FPGA能进行高速并行的数据包处理,且本身就广泛应用于网络通信领域,解决方案丰富且成熟。
下图概括介绍了本实例中在FPGA中实现的数据包转发的数据通路设计。
图3:FPGA数据包处理的数据通路
由图中可见,本设计包含多个模块,如Parser、Look-Up、Buffer Manager、Packet Processor,以及内存控制器和DMA等。数据包进入FPGA后,依次通过各个模块进行特征提取、分类、查找,如果需要就通过PCIe和DMA与CPU进行交互。同时,Buffer Manager会对不同来源的数据包进行流量控制、QoS和流量整形等操作。
此外,这款FPGA智能网卡支持多种包处理模式,即可以将数据包完全在FPGA内部处理后转发,不经过CPU;也可以将数据包通过PCIe传送到CPU,使用DPDK进行包处理,再通过FPGA转发;或者二者结合,一部分功能在CPU中实现,另外一部分卸载到FPGA上完成。可见灵活度很高。