摘 要:设计了一种基于先进电信计算架构的龙芯服务器刀片并实际应用于一嵌入式计算平台。介绍了系统总体结构并重点论述了服务器刀片设计的系统方案、高可靠设计等关键技术。实际测试表明,设计的服务器刀片能满足可靠性测试要求,在测试中表现出良好的性能,满足主流嵌入式计算任务需求。
关键词:先进电信计算架构;龙芯;刀片服务器;嵌入式
0 引言
随着多核计算技术、向量计算技术、GPU计算技术的发展应用,在单位空间可集成更高的计算能力。因而,传统嵌入式计算架构的嵌入式计算机系统结合高性能计算技术,能较大地提高系统性能并扩展应用范围。
先进电信计算架构[1](Advanced Telecom Computing Architecture,ATCA)是针对CPCI、VME等传统嵌入式[2-3]计算架构在扩展能力、可靠性以及兼容性等方面存在的问题,由PICMG组织制定的最新一代嵌入式计算架构标准。
计算规模在万亿次的低端个人高性能计算机[4](Personal High Performance Computer,PHPC)的主要目标是逐渐把万亿次高性能计算带到“个人”和“桌面”,实现高性能计算的普及化。KD系列PHPC[5]在研制过程中逐步解决了PHPC小型化问题,实现了“三低一高”。最终实现的KD-90系统[6]是一款微波炉大小的、可移动的个人高性能计算机。
本文应用KD系列PHPC的研究成果,结合ATCA嵌入式计算架构,采用龙芯3号处理器[7-8],设计了一款符合ATCA技术规范的嵌入式计算平台。对系统核心部件龙芯服务器刀片设计的关键技术进行了重点阐述,并对刀片的性能进行了测试。测试结果表明,所设计的服务器刀片性能良好。
1 系统设计
1.1 嵌入式计算平台简介
本嵌入式计算平台机械结构遵循ATCA规范进行了定制设计,考虑电源供电在背板的均衡以及模块散热的需求,将3个“1+1+1”冗余的电源模块单元设置在整个机箱的右侧;机箱中部5U高度的空间主要设置8片龙芯服务器计算刀片(服务单元#1→#8)、2个交换和管理单元以及2个KVM单元。
系统的核心部分为8片龙芯服务器刀片,采用龙芯3号处理器进行设计。
1.2 龙芯ATCA服务器刀片设计方案
服务器刀片设计采用了基于双路龙芯3A处理器CC-NUMA(非一致性存储通道)架构的服务器方案,搭配AMD的RS780E+SB710套片组。通过Intel82576设计输出4路千兆网络信号,通过背板采用Serdes信号传输模式实现与交换模块的互联;输出的8路USB、2路VGA和4路千兆以太网信号通过ATCA Zone2连接器与背板连接,其设计框图如图1所示。
服务器刀片主要特点:
(1)系统采用800 MHz、16 bit的HT[7](Hyper Transport Link)总线与I/O桥片互联,系统总带宽达25.6 Gb/s;
(2)系统总线数据传输支持采用CRC数据校验机制,具备传输失效后自动重试功能;
(3)独立的IPMC监控电路可以通过网络远程监控设备工作状态并进行控制;
(4)服务器刀片通过PCIe总线连接高性能以太网驱动器Intel82576网卡。
2 高可靠设计技术
2.1 系统级冗余技术
结合ATCA架构支持的冗余技术,系统进一步采用了全面的冗余体系来支持服务器刀片的高可靠运行。如图1所示,交换刀片、KVM刀片、电源模块、风扇、机箱管理等都采用了冗余设计,采用1+1冗余模式确保无单点故障。
同时,龙芯服务器刀片设计提供4路千兆以太网通道,分成两组,分别连至两个交换刀片,形成2+2的冗余模式,如图2所示。
2.2 远程管理监控技术
系统采用远程管理监控技术对服务器刀片运行的所有状态进行监控,包括:故障预警/告警、机箱环境温度监控、刀片电压/电流监控、功能单元的存在性/健康性监控等。
外部机箱管理为远程管理软件,远程用户可通过网络向机箱管理单元发送命令请求,由机箱管理单元将命令翻译并发送到相应的节点单元的IPMC,实现对各节点单元管理和控制。
2.3 散热计算与热仿真技术
根据服务器单元的功耗以及空气散热技术实践的最高上限推算,每个槽位服务器刀片的最大功耗应该在100 W以内,根据功耗与空气流通速率对应的关系,对应的空气流通速率为0.51 m/min。
根据计算所得相关参数,机箱和刀片的机械尺寸位置,在所有刀片满载持续工作30 min情况下,对整机散热进行了瞬态仿真分析,结果如图3所示。由图3可知,在环境温度45 ℃,相对湿度75%情况下,整个机箱的散热良好。
3 系统测试
3.1 健壮性测试
首先为拷机测试,测试期间系统运行Linpack测试以及Spec cpu2000等大型测试软件至满负荷,实测72小时内运行无故障。其次为IO访问压力测试,测试整机在100 MB、500 MB以及1 GB文件拷贝、创建、压缩、解压、FTP传输时的健壮性,实际测试系统利用脚本完成相应任务操作连续48小时正常无故障。最后测试系统在多用户并发访问特定应用时的稳定性,利用Loadrunner模拟进行100~1 000个用户测试,48小时内访问正常。
3.2 性能测试
对单个龙芯服务器刀片的测试结果参见表1计算子系统基础性能测试结果。测试处理器为龙芯3A,工作主频为825 MHz,单处理器内存为DDR3 8 GB,工作频率为533 MHz。
3.3 功耗测试
在系统满载情况下,对系统总功耗和单个服务器的刀片进行了功耗测试,结果如表2所示。
4 结论
分析计算子系统的整型和浮点性能的测试数据,由于工作主频的差异,龙芯3A处理器与主流的x86处理器性能相比差距较大,处理器单核性能只是相当于同主频的PIII处理器,内存的读写性能也相对偏低。
而对于计算型应用,嵌入式计算平台的优势在于在较小的空间范围内实现了一个由16个处理器,共计64个处理器核组建的SMP集群,通过高密度集成获取较高的计算能力。当系统配置龙芯3B 处理器时,可获得接近2 T的峰值计算能力。
参考文献
[1] 王江.ATCA架构中多网口后板的高效设计[J].电子技术应用,2013,39(1):391-396.
[2] 罗云,陆安江,张正华.基于嵌入式系统的RFID中间件设计[J].电子技术应用,2013,39(1):280-285.
[3] 蔡路亭,徐金甫,丁琦,等.基于地址加扰的嵌入式系统安全防护研究[J].电子技术应用,2014,40(7):191-196.
[4] 孙凝晖,陈国良.PHPC:一种普及型高性能计算机[J].中国科学技术大学学报,2008,38(7):745-752.
[5] 张俊霞,李春生,张焕杰.KD-50-I-E:一台增强型高性能计算机[J].中国科学技术大学学报,2009,39(8):894-896.
[6] 蔡晔,刘刚,毛睿,等.KD-90普及型个人高性能计算机系统设计与性能优化[J].深圳大学学报(理工版),2013,30(2):138-143.
[7] Hu Weiwu, Wang Jian, Gao Xiang, et al. Godson-3: a scalable multicore RISC processor with x86 emulation [J]. IEEE Micro, 2009,29(2):17-29.
[8] 张俊霞,张焕杰,李会民.基于龙芯2F的国产万亿次高性能计算机KD-50-I的研制[J].中国科学技术大学学报,2008,38(1):105-108.