两款主流定点DSP芯片的性能比较
2008-12-18
作者:刘长军 顾夏华 林嘉宇
摘 要:TI(Texas Instruments)公司的TMS320C54X系列和ADI(Analog Devices Inc.)公司的ADSP-218X系列是目前应用广泛的两款主流16位定点DSP芯片。以Geffe发生器和MD5算法的实现为例,通过对这两款芯片性能的详细比较,分析研究了它们各自的优缺点。
关键词:DSP芯片 TMS320C54X ADSP-218X 性能比较
从1982年第一片数字信号处理器(Digital Signal Processor,DSP)TMS320C10产生以来,经过二十年的发展,DSP以其卓越的性能、独有的特点,已成为通信、计算机、消费类电子产品等领域的基础器件。业内人士预言,DSP将是未来集成电路中发展最快的电子产品,并成为电子产品更新换代的决定因素,它将彻底变革人们的工作、学习和生活方式。
DSP[6][8][9]具有两种算术结构:定点和浮点。从理论上讲,虽然浮点DSP的动态范围比定点DSP大,且更适合于DSP的应用场合,但定点运算的DSP器件的成本较低,对存储器的要求也较低,而且耗电较省。定点运算的可编程DSP器件仍是市场上的主流产品。据统计,目前销售的DSP器件中的80%以上属于16位定点可编程DSP器件。其中,TI公司的TMS320C54X系列和ADI公司的ADSP-218X系列是目前广泛使用的主流定点DSP芯片。下面就以它们为研究对象,结合Geffe发生器[7]和MD5算法的实现,对其性能进行分析比较。由于TI的TMS320VC5402和ADI的ADSP-2186N是使用较多的两款,硬件性能指标又相近,有很好的可比性,所以编程实现时就选择它们为具体芯片。虽然两款DSP芯片都提供C编译器,但是因为效率都不高,这里我们就不作讨论。下面的论述都是基于直接用汇编语言" title="汇编语言">汇编语言编程的。
1 Geffe发生器与MD5算法
先简单介绍一下两个算法。Geffe发生器是一种密钥序列发生器,它利用线性反馈移位寄存器(Linear Feedback Shift Register,LFSR)产生序列密码。Geffe发生器使用了三个LFSR,它们以非线性方式组合,其中两个LFSR作为复合器的输入,第三个LFSR控制复合器的输出。因为运算量很大,所以LFSR用软件实现起来比较慢,但是用汇编语言实现比用C语言实现快。
MD5(MD,即Message Digest)是一个单向散列函数,它对输入消息产生128位散列值(或消息摘要)。该算法需要进行大量的移位和逻辑操作,用DSP实现比较方便。
2 TMS320C54X系列与ADSP-218X系列性能比较" title="性能比较">性能比较
2.1 硬件结构[1][4][5]
TMS320C54X系列采用改进的Harvard结构体系,有一组程序总线和三组数据总线、高度并行性的算术逻辑单元ALU、乘法/累加器MAC、桶形移位器、缓冲串口、专用硬件逻辑、片内存储器、片内外设和高度专业化的指令集等等。支持32位长操作数指令,支持并行存储和并行装入的算术指令。
ADSP-218X系列借鉴了TMS320X系列的优缺点,重新设计。它也是采用改进的Harvard结构体系。ALU、MAC、桶形移位器这三个独立的运算部件均可以单周期操作。还有丰富的双缓冲串口、中断(分外中断和内中断)等。在TMS320C54X系列中,程序存储区和数据存储区是混在一起的,而ADSP-218X系列从物理上就将两者分开,这就使多功能指令操作显得非常方便。因此,ADSP-218X系列程序实现更有高效性。
两款芯片主要技术指标的比较如表1所示。
可见,两款系列芯片性能指标的选择范围都很大,而TMS320C54X系列的选择空间更大一些。具体到本文选用的TMS320VC5402和ADSP-2186N,主要参数(MIPS/Cycle Time/RAM)为:TMS320VC5402是100/10ns/16kword,ADSP-2186N是80/12.5ns/16Kword。这两种芯片的硬件性能指标相仿,用它们实现相同的算法,具有很好的可比性。
2.2 程序编程[2][3][4][6]
下面分别用TMS320VC5402和ADSP-2186N实现Geffe发生器和MD5算法,以此来比较两款芯片在编程过程中的优劣。其中,Geffe发生器产生96字的序列,MD5处理的消息长63个字。
2.2.1指令系统" title="指令系统">指令系统概述
ADSP-2186N指令系统使用代数符号来表示算术运算和数据传送,源代码具有较高的可读性,且不会损坏运行特性。它的指令系统很精简,程序员可以快速掌握。ADSP-2186N的编程方式" title="编程方式">编程方式和高级语言类似,如果用户有高级语言编程的经验,上手较快。
TMS320VC5402指令系统很丰富,灵活多变,虽然使用时很方便,但是完全掌握却有一定的困难,这对程序员来说是个不小的难题。它的指令系统有传统的助记符和代数符号两种方式,程序员可以根据所好任选一种。助记符方式对于习惯了汇编语言的开发者易于接受,代数符号方式则表达简洁、较为直观、易于理解。但是,合作完成项目时,往往会由于不同的程序员选择不同的格式而造成麻烦。解决的方法有两个,一是使用TI提供的转换工具,另一是只将两者的obj文件链接调试,但调试时有些不方便。
另外,两者的编译环境也有差别。相比较而言,ADSP-2186N的界面要友好一些,它和VC++非常相像,很方便。
2.2.2 指令的“单周期性”
ADSP-2186N的每条程序语言都汇编成仅需一个执行周期的24位指令机器码。它完全在并行处理方式下工作,所有的指令都是真正的单周期指令。除了访问慢速的外部存储设备,或者外部存储器出现控制权竞争而需要附加周期的情况外,任何指令的运行一般仅需一个周期。由于它的指令系统没什么“禁忌”,所以程序员大可像编写高级语言程序一样,只需要考虑算法如何实现,至于编程过程就可以不太注意。
可是,TMS320VC5402的指令系统却不是这样。TMS320VC5402的各个单元是基于流水线方式的结构,指令按流水线方式工作。它的大多数指令在单独执行时并不能在一个周期内完成,只是在流水线方式下工作或重复操作时,才可以做到平均每一个周期执行一条指令。因此,在它的指令系统中,不仅有不少的指令需要多个执行周期,而且由于“时延”的原因,如果处理的不好,还会出现额外的附加周期。因此为了保证每条指令准确执行,有时就不得不把程序打乱,就是说,相关联的几条语句要分散插入别的地方。程序的模块化遭到损害,显得杂乱无章,大大影响了可读性。
如下面语句中的句1、句2、句3、句4(选自Geffe发生器)是我们实际应用的形式(指令用代数符号格式,下面如果不特别指出,均为这样)。
m_seq_l1: ;标号
……
b=a & #1 ;句1
if(aeq)goto m_seq_l2 ;句2,if a=0, goto m_seq_l2
a=a>>1 ;句3
if(beq)goto m_seq_l1 ;句4,if b=0, goto m_seq_l1
……
m_seq_l2:
……
但是,它们正常语序则应该为
m_seq_l1: ;标号
……
a=a>>1 ;句3(若这样,a的初始值随之改变)
if(aeq)goto m_seq_l2 ;句2,if a=0,goto m_seq_l2
b=a & #1 ;句1
if(beq)goto m_seq_l1 ;句4,if b=0,goto m_seq_l1
……
m_seq_l2:
……
不过,若以正常语序执行if语句时,a、b的值会因为时延不够,来不及改变而导致程序出错。为避免这种情况,要么在句3和句2以及句1和句4之间分别加上若干个空操作(nop),这样就会影响速度;要么调整它们的顺序,如实际应用中的句1、句2、句3、句4。有时候,语句顺序实在无法调整,就不得不加上一些空操作。尤其是循环的主体部分,往往一条语句处理的不好,就会导致整个程序多运行成千上万条指令。因此,TMS320C54系列编程对程序员的要求较高,必须非常熟悉指令系统,才可以得到高效的程序。
2.2.3 对数组的循环操作
关于对数组进行循环操作,两者平分秋色。它们都支持寄存器地址自动加减。只不过ADSP-2186N的调试界面看上去更直观些。
2.2.4 对32位长操作数操作
ADSP-2186N不支持32位操作,如果需要的话,必须多条指令共同完成。而TMS320VC5402经过简单的设置,就可以直接进行一些32位操作。
例如,MD5算法中4轮主循环都需要大量的32位逻辑运算及加法操作。
表2示出“与”运算和加法的实例,显然,用TMS320VC-5402实现要方便简洁的多。用ADSP-2186N实现时,必须将32位分为高16位和低16位分别操作,最后再整合。这也是为什么在实现MD5算法时,用ADSP-2186N实现不如TMS320VC5402有效的主要原因。
另外,两者在编程时还有一些不同,例如,TMS320VC5402有标号必须顶格写等要求。总的来说,TMS320VC5402指令系统中有不少的“禁忌”,需要经验积累才可以发现,这就给编程者带来了不便。两款DSP芯片实现Geffe发生器和MD5算法的具体结果如表3所示。
可以看出,实现Geffe发生器时,ADSP-2186N较快,主要是因为其指令系统的单周期性;实现MD5算法时,TMS320VC5402稍快,主要原因是它支持32位操作。
2.3 其它
总而言之,从技术上看,ADSP-218X系列稍占优势。但目前的实际情况是:1999年TI占有全球DSP市场48%的份额,市场排名第一。2000年其市场占有率也是第二名的两倍多。尤其在中国,市场占有率在80%左右。主要原因如下:
第一是价格。性能相近的芯片,TI比ADI要便宜很多。如TMS320VC5402的单片价格为$5.66,ADSP-2186N的单片价格则为$8.50。从性价比看,TI占优势。从产品效益看,如果大批量生产,显然TI的芯片实惠。
第二是服务。这里指的是指生产商提供的服务。TI公司有非常完善的服务体系,从产品宣传到课程培训,非常齐全。ADI公司这方面略有不足。
第三是第三方" title="第三方">第三方服务。市场上支持TI芯片的第三方服务要比支持ADI的多,这也是由于TI芯片的市场占有率高的缘故。反过来,大量支持TI芯片的第三方服务,又保证了TI芯片的市场占有率。两者是相辅相成的关系。
第四是继承性。DSP芯片有其特殊性,不同公司的芯片,其编程方式差异很大。因此,程序员一旦熟悉了一种芯片,就不愿意更换。在我国,TI公司的用户要远远多于ADI公司的用户。为便于交流和学习,新的用户也会倾向于选择TI公司的芯片。
第五是性能。虽然从技术性能看,TI的芯片稍稍逊色一些,但只要程序员付出一定精力,也可以得到高效的程序。
所以,TMS320C54X系列和ADSP-218X系列可以说是各有千秋,互有短长。ADSP-218X系列界面友好、指令简洁、方便新手学习,因此适于教学应用。而TMS320C54X系列性价比高、服务体系完善、产品效益好,故公司企业多选用它。
参考文献
1 TMS320C54x DSP CPU and Peripherals Reference Set,Volume 1. Texas Instruments,2001
2 TMS320C54x DSP Set Volume 3:Algebraic Instruction.Texas Instruments,2001
3 TMS320C54x Assembly Language Tools User’s Guide. Texas Instruments, 2001
4 ADSP-218x DSP Hardware Reference. Analog Devices,2001
5 DSP Selection Guide 2001 Edition. Analog Devices,2001
6 苏 涛. 高性能数字信号处理器与高速实时信号处理.西安:西安电子科技大学出版社,2000
7 (美)Bruce Schneier著,吴世忠,祝世雄,张文政等译.应用密码学——协议、算法与C源程序.北京:机械工业出版社,2001