kaiyun官方注册
您所在的位置: 首页> 可编程逻辑> 设计应用> 基于FPGA实现多DSP系统的数据流高效广播
基于FPGA实现多DSP系统的数据流高效广播
来源:电子技术应用2011年第11期
张建兵,李悦丽,段巧雄
(国防科学技术大学 电子科学与工程学院,湖南 长沙410073)
摘要:以ADSP-TS201构成的多DSP系统中,链路口数目有限会造成数据广播复杂度的提高。为此提出了一种基于FPGA实现DSP间广播通信的方案。设计了基于FPGA的链路口接收和发送模块,采用自定义数据报头,完成了基于令牌和轮询的数据调度状态机的设计,实现了DSP之间的一对一、一对多以及多对多的广播通信。经验证,该广播通信方法的吞吐率单向可达150 MB/s,双向可达300 MB/s,数据传输可靠,具有可扩展性。
中图分类号:TN914.5
文献标识码:A
文章编号: 0258-7998(2011)11-0033-04
Data stream broadcasting efficiently in a multi-DSP system based on FPGA
Zhang Jianbing,Li Yueli,Duan Qiaoxiong
School of Electronic Science and Engineering, NUDT, Changsha 410073,China
Abstract:In a multi-DSP system which uses ADSP-TS201 as a computer node, it is complicated to broadcast a message to each DSP at the same time. A scheme based on FPGA is presented to resolve this problem. At first, the receiving and transmitting modules are designed. Then, by using a custom data header,a poll-token-based state machine is designed to schedule the transmission. As a result, the broadcasting communication from point-to-point, point-to-multipoint and multipoint-to-multipoint are implemented totally. The test results in an FPGA are shown to prove the reliability with a unidirectional throughput of 150 MB/s and a full-duplex throughput of 300 MB/s. The design is scalable and flexible.
Key words :multi-DSP;ADSP-TS201;FPGA;link port


机载超宽带合成孔径雷达(UWB SAR)具有穿透叶簇和浅地表对隐蔽目标探测成像的能力,其军事应用潜力巨大,是未来雷达的一个发展方向。但是UWB SAR回波的数据量达到数百万字节,同时成像所需的运算量达到数GFLOPS[1]。单片DSP的处理能力明显不足,所以采用多片高性能的DSP共同完成任务,而如何实现多片DSP间互联通信又成为一大难点。本文DSP选用的是ADI公司的ADSP-TS201,但由于TS201链路口的数目有限,无法使所有DSP都直接通过链路口相连,所以需要配合其他的方法来解决DSP间的通信问题。参考文献[2]介绍了如何在8片TS201和1片FPGA组成的系统中用FPGA实现8片DSP的互访。该设计中,访问是基于4字命令包,通过读写、设备状态、目的地址和源地址以及优先级等的判断,完成DSP之间的互访;FPGA和DSP通过总线的方式连接;FPGA完成原始回波数据流的转发。其缺点是,通信协议复杂,必须不停地修改命令包;访问有固定的优先级,有时会很慢,效率低;用总线的方式连接容易产生竞争。
针对以上问题,本文提出了一种在8片DSP和2片FPGA构成的系统中通过FPGA实现DSP之间广播通信的方案。由于该系统特殊的拓扑结构,原始回波数据流的转发已确定为通过TS201的链路口完成,而控制数据流和运动测量参数的转发以及对DSP程序运行的监控却成为一大瓶颈。为此,本文设计了在其中的一片FPGA内实现多DSP间有效互联的方案。
1 系统结构
本系统中的信号处理板主要用于UWB SAR的实时成像数据处理,DSP与FPGA的连接示意图如图1所示。DSP2~DSP7主要处理回波数据流,成像数据处理需要两块这样的板子:一块做距离向处理,另一块做方位向处理。FPGA2的主要任务:(1)方便主机通过CPCI总线对DSP进行程序的加载、程序运行的监控、数据的读写和实时运算结果的显示;(2)在飞行过程中,当飞行的速度、天线的姿态、工作模式等参数改变时,可以方便及时地将参数信息广播到DSP中。该处理板的具体结构以及各模块的功能可参见参考文献[3]。本文的关键是如何通过FPGA2实现DSP2~DSP7之间的互联通信。由于DSP2与DSP5、DSP3与DSP6、DSP4与DSP7已经通过链路口两两相连,所以它们之间的通信不再需要经FPGA2的转发,故需要与上述6片DSP中某片DSP通过FPGA2实现通信的DSP只有4片,例如对于DSP2,需要通过FPGA2与其通信的4片DSP为DSP3、DSP4、DSP6、DSP7。

TS201是目前业界公认的高性能DSP处理器之一,有着很高的数据处理速度。FPGA2选择Xilinx公司的XC4VLX25,该类型的FPGA比较适合逻辑控制和做数据接口。TS201共有4个链路口,都采用LVDS(Low Voltage Differential Signaling)技术;每个链路口包含发送和接收两个独立的通道,每个通道都有4对差分数据线、1对差分时钟、2个控制信号,共24根线;链路口在每个通道(发送或接收)都可以通过1 bit或者4 bit模式进行数据通信,本文采用4位通信模式[4]。
2 多DSP数据流高效广播设计
本设计的总体框图如图2所示。对每片DSP,FPGA都有一对完全一样的接收和发送模块,DSP链路口发送来的差分数据依次经过IBUFDS模块和IDDR模块,最后暂存于RAM中。在多个状态机的控制调度下,一次或多次将数据从RAM中读出,然后发送到相应的发送模块。要发送的数据先暂存于FIFO中,然后依次经过ODDR模块和OBUFDS模块发送到对应的DSP中。

设计的最大难点在于如何实现数据的正确调度而不出现错发或漏发现象,特别是当一片DSP向其他所有DSP广播数据和其他所有DSP同时向一片DSP发送数据时,不出现错发或漏发现象。
2.1 数据接收、发送模块的设计
要在FPGA中实现多DSP的互联通信网络,首先必须使FPGA和DSP可以正确地互相收发数据。由于TS201的链路口有自己的通信协议,所以只要在FPGA中编程实现TS201的链路口通信协议,就可以实现FPGA与TS201之间的双向通信。TS201的具体通信协议,可参见参考文献[4]。
2.1.1 接收模块
FPGA接收模块如图3所示。在接收模块中,先将差分数据和差分时钟分别通过IBUFDS模块转换为单端的数据和单端时钟[5];再将该单端数据分别送入到4个IDDR,单端时钟经过BUFG模块后输出的bufg_clkout作为IDDR的驱动时钟;最后将IDDR模块输出的完整8 bit数据存储在输入输出宽度为8 bit的双端口RAM中。块发送完毕,信号bcmpi延迟一个周期后和bufg_clkout一起经过一个时钟选择器后输出时钟mux_clkout作为RAM的写驱动时钟。这样,可以保证写入RAM的数据深度正好是DSP的发送数据长度,而不再需要去考虑数据写入深度控制的问题。

2.1.2 发送模块
FPGA接收模块如图4所示。在发送模块中,要发送的数据先存于输入输出宽度为8 bit的FIFO中,再将FIFO的输出数据依次经过4个ODDR和4个OBUFDS,最后得到差分输出数据。在控制模块CONTROL中,当数据全部写入FIFO、acki有效且FIFO不空时,FIFO读使能rd_en和clkoe信号有效。将clkoe作为ODDR的正极输入(负极始终为低电平)得到发送时钟[5],再经 OBUFDS得到差分输出时钟。在控制模块CONTROL中同时会给出块发送完毕信号bcmpo。
在Virtex4中提供了强大的数字时钟管理器(DCM),它可以实现延迟锁相环、数字频率合成器、数字移相、数字扩频等功能。本文用到两个DCM,其中一个作为倍频器,将FPGA中的系统时钟从60 MHz倍频到150 MHz;另外一个作为移相器,将倍频后的时钟移相90°,从而得到需要的0°时钟clk_0_150 MHz和90°时钟clk_90_150 MHz(见图4)。
2.2 数据调度状态机的设计
若只完成接收模块和发送模块的设计,则只能实现FPGA与DSP的点对点通信,还不能实现多片DSP之间的互联通信,所以还需要有一个数据的合理调度过程。
2.2.1 DSP数据报头
为了使数据调度变得容易,本设计定义了DSP发送数据报头,如图5所示。位0~7表示信宿,位0为1,表示该数据块请求发送到CPCI自定义接口,用于板间通信;位1为1,表示请求发送到9656;位2~7为1,分别表示请求发送到DSP2~DSP7;若为0,则表示不发送到任何器件。位8、9、10表示信源,000表示信源为CPCI自定义接口,001表示信源为9656,010~111分别表示信源为DSP2~DSP7;位11~31暂时保留,为以后扩展功能时使用。

当FPGA接收到来自于DSP的数据时,首先要将该数据块的前8 bit提取出来,用以确定目的DSP,并将该8 bit数据称之为请求发送信号require。
2.2.2 应答请求信号状态机
在2.2.1节中,提取数据报头的前8 bit,得到一个8 bit require信号。在FPGA的程序中,对应每片DSP本文都设计有一个这样的状态机,用于对其他DSP送来的require信号进行判断,然后给出相应的应答信号allow,表示允许发送,其状态转移图如图6(a)所示。该状态机基于令牌和轮询的思想,并遵循以下原则:
(1)按照require1~require4依次轮询,发现满足条件的则给与令牌。
(2)令牌不能同时拥有,令牌被持有后就将令牌信息置为无效。
(3)若令牌被持有则轮询暂停,等待令牌被释放,即重置为有效。
(4)当块发送完毕信号、bcmpo信号为低电平时,释放令牌。
(5)令牌被释放后则继续轮询尚未持有令牌的,如是重复。
需要说明的是,当bcmpo为低时虽然也表示数据块发送完毕,但低电平只维持4个周期,而且当有多片DSP向其中一片DSP发送数据时,bcmpo会被多次拉低来指示某片DSP需要发送的数据已经发送完毕。所以与链路口协议中的bcmpo已经不是一回事了,只是重名而已。本设计的令牌为avail。
2.2.3 RAM读地址状态机
在FPGA的程序中,对应每片DSP本文也有另外一个状态机,用于对送来的allow信号进行判断,给出相对应的RAM的读地址addrb和FIFO准写信号wr_en,其状态转移图如图6(b)所示。所遵循的原则与2.2.2的状态机几乎一样。不同的地方在于:
(1)当对应bcmpi为低电平时,信号ram_rd_en为高(即DSP数据发送完了才能从RAM中读出数据),状态机开始工作。
(2)令牌为flag_tx_achiv信号,addrb等于DSP发送数据深度M时(即在RAM中的数据完全读出后),释放令牌。
(3)只有持有令牌期间,对应的信号addrb开始累加,wr_en为高电平。

2.2.4 FIFO写使能和输入数据
对应每片DSP都有这样一个模块,用于将输入的成对信号wr_en和RAM的输出数据ram_dout作出判断,得到FPGA发送模块中FIFO写使能和输入数据。由于前面状态机控制的结果,这里输入到模块(与某片DSP相对应)的4个wr_en信号不可能同时为高,所以当某个wr_en为高时,FIFO的写使能有效,同时将与其成对的数据ram_dout作为FIFO的输入数据;当wr_en都为低时,FIFO的写使能无效。
3 实验结果
将用Verilog HDL语言编写的设计程序经过综合、布局布线、产生位数据流,最后下载到FPGA芯片(XC4VLX25)中;将TS201链路口的接收和发送程序下载到相应DSP中。在DSP的配合以及在调试工具Xilinx ISE12.2中内嵌的逻辑分析仪ChipScope的帮助下,实现了DSP之间的广播通信(即DSP之间一对一、一对多以及多对多的广播通信),其数据传输都可靠。该设计目前要求发送数据长度固定,数据单向吞吐率可达150 MB/s,双向可达300 MB/s。
本文提出的基于链路口及FPGA实现多DSP系统的数据流高效广播的方法,经过验证是完全可行的,且数据传输可靠。要完成更多DSP间的广播通信,只需增加状态机的状态个数,而且可扩展性好,很容易扩展到更多DSP的高效广播通信中。该类型通信方案经过适当的优化,也可以完成大量的原始回波数据流的转发。在后续的工作中,将完成CPCI自定义接口以及9656与FPGA2之间的通信,并在DSP的配合下,最终达到上位机与各DSP的互访,实现控制数据流和运动测量参数实时地传输到各个DSP,并实现在调试时对各个DSP的实时监控。
参考文献
[1] 李建阳,王亮,常文革,等.机载UWB SAR实时信号处理算法研究[J].国防科技大学学报,2010(1).
[2] 苏军海,王海亮.基于FPGA的多DSP系统通信的实现[J].电子科技,2005(12).
[3] 段巧雄,李悦丽.机载超宽带合成孔径雷达实时信号处理板的设计与实现[C].第十一届雷达学术年会,2010.
[4] 刘书明,罗勇江.ADSP TS201XS系列DSP原理与应用设计[M].北京:电子工业出版社,2007.
[5] 陈春辉,黄俊,陈亚俊.利用FPGA实现与TS201的Link-Port高速数据互联[J].信息技术,2007(3):56-58.

此内容为AET网站原创,未经授权禁止转载。
Baidu
map