kaiyun官方注册
您所在的位置: 首页> 其他> 解决方案> 单粒子翻转与医疗器件

单粒子翻转与医疗器件

2011-05-18
作者:美高森美公司

摘要

随着集成电路(IC)工艺节点不断缩小,器件更容易受高能粒子的攻击而发生单粒子翻转(single-event upset,SEU)。特别应该关注的是器件中的静态RAM结构。这些风险在太空应用领域已经是早被意识到的问题,如今这种担忧也正在蔓延到其它领域,如网络、航空电子、汽车,以及医疗器件。医疗器件不仅会受到自然环境存在的宇宙射线攻击,而且还得在现代医疗机构中常见的辐射环境中工作。由于这类风险是显然的事实,医疗器件设计人员如今在器件选型时,也必须要考虑器件的SEU影响。本文将就这种风险给出定义,并讨论在可编程逻辑器件内减少和避免这些风险的方法。

引言

CMOS存储结构(如静态RAM单元和触发器)在受到高能粒子轰击时容易发生翻转(即状态改变)。这些高能粒子可能是阿尔法(alpha)粒子、中子、质子或各种重离子,他们是由宇宙射线与大气外层中的粒子碰撞,或宇宙射线释放的粒子与宇宙射线二次碰撞而产生的

宇宙射线的主要成分是中子,其次是占地球表面中子通量的7%至32%的质子。

这些粒子的其它来源是封装和硅基片本身。集成电路的封装材料含有微量的铀和钍(thorium)。这两种元素都会产生高能阿尔法粒子。此外,在多晶硅掺杂、基片掺杂,或硼磷硅玻璃(BPSG)中,要大量使用硼元素。当这些常见的硼同位素(10B)之一被某一低能量(热能)中子击中(即所谓中子捕获),就会产生一个锂离子和一个阿尔法粒子。如果基片中硼元素和宇宙射线中的低能量中子达到一定浓度,这种辐射效应可能会较大。由于这些粒子的源头都在器件内部,因此,再多的外部屏蔽措施也无法阻挡这些粒子。

当这些带电粒子轰击到IC的硅片上,将留下一道电离痕。类似地,当一个高能粒子(如中子) 撞到硅片上,将与硅片内的原子碰撞,释放一群带电粒子,这也会留下一道电离痕。这种电离作用会产生足以使栅极过压,从而改变存储单元状态(位翻转)的电荷。这种存储单元的状态变化即单粒子翻转(SEU)(参见图1)。

存储单元的这种翻转状态是暂时性的,存储器在下次写入或重置(如重新上电)时,翻转就会被清除。目前还未见SEU导致电路永久性损坏的情况。

存储器电路的SEU敏感性正在随器件的更新换代而增加。随着工艺尺寸的缩小,还会出现以下情况:

  • 供电电压减小,发生SEU所需的阈值降低。
  • 栅极面积缩小,造成电容减小,进而减小了能够降低发生翻转所需的临界电荷。
  • 存储单元面积缩小,截面面积减小,因此也减少了粒子轰击的机会。

其后果是存储器组件的SEU敏感性增加。这样,原本仅在太空应用中才需要关注的问题,如今甚至成为地面上的高可靠性设备(如医疗设备)设计人员的心病。

图1:带电粒子造成SEU

FPGA技术与SEU敏感性

所有FPGA都有许多共同的特点:都有一个逻辑阵列(即FPGA基础架构),一组嵌入式存储器,可能还有一些其它特殊构件(如乘法器或DSP),时钟管理电路(如PLL)以及周边的可编程I/O接口电路。不同FPGA产品系列间的关键差异之一是其逻辑阵列。不同供应商之FPGA产品系列的逻辑模块所采用的具体结构和模块互连方式都有所不同。而这种互连方式正是对SEU的关注的重点所在。

FPGA有两种走线方式:金属连接和通孔连接。而FPGA中的这些通孔是可编程的,构成整个可编程逻辑技术的基础。

这些可编程的通孔也用于各逻辑模块和整个器件的配置设定,FPGA行业中采用三种类型的通孔连接技术:反熔丝、快闪和SRAM。

反熔丝技术

反熔丝技术(可编程链路)是一种金属间的可编程互连组件,位于最上面的两个金属层之间。反熔丝一般处于开路状态,且当编程后就形成一个永久性的无源低阻抗连接。由于对反熔丝编程需要多个高压脉冲,因此,高能粒子不可能改变其编程状态。

图2: 反熔丝技术

反熔丝有如下主要特点:

  • 一旦编程后,不可再重新编程;
  • 编程所需能量较高;
  • 编程是在板外完成的,作为OEM制造工艺的一部分;
  • 属静态结构,不涉及任何晶体管,断电后结构状态仍然保持;
  • SEU免疫能力

快闪技术

基于快闪技术的FPGA中采用的互连组件是一种快闪开关。与所有快闪存储器一样,这些快闪开关编程后的状态是非易失性的。对一个快闪开关进行编程/擦除需要的电压和能量远远高于宇宙射线诱发的粒子所产生的电压和能量。

图3:快闪开关

快闪开关有如下主要特点:

  • 可重新编程;
  • 互连快闪开关编程所需能量较高;
  • 属静态结构,断电后结构状态仍然保持;
  • SEU免疫能力

SRAM技术

基于SRAM的FPGA中的基本可编程通孔是一个仅有一个位的SRAM单元。这种SRAM通孔的编程和擦除方式与其它SRAM存储器一样。虽然SRAM通孔比一般SRAM组件更牢靠,但之后的状态也很容易被宇宙射线引发的辐射撞击产生的电荷改写。

SRAM通孔有如下主要特点:

  • 可重新编程;
  • 编程所需能量较小;
  • 编程本质上就是对通孔状态组构存储位的写操作;
  • 由多个晶体管构成的易失性结构,断电后结构状态清除;
  • 易受SEU攻击。

SEU——医疗设备领域不断增大的关注

与FPGA的其它产品领域一样,人们也正在逐渐认识SEU,以及其对医疗设备的影响。例如,1998年Bradley和Normand就报道了可植入心脏除颤器中发生SEU的事件。该报告给出了第一套表明植入医疗设备上发生宇宙射线辐射效应的临床数据。

基于Bradley和Normand的发现,加拿大的St. Jude Medical公司于2005年向医生发出忠告,警告可植入心脏除颤器的存储器如果发生SEU事件,有机会造成设备电池过度耗电。

除了Bradley和Normand曾研究的那些地面水平诱发的错误外,现代医疗设备,如便携输液泵、飞机上使用的心脏除颤器、起搏器,以及可植入心脏除颤器,都必须能在民航飞行环境(中子通量较大的飞行高度)运行。

电路的出错率通常正比于运行环境中的相对中子通量。两极航线附近40000英尺飞行高度的中子通量大约是美国纽约市地面(JESD98A定义的参考点)的600倍,这个通量意味着在飞机上运行的设备的SEU风险大幅度增加。因此,运行在两极附近如此飞行高度的设备的失效率(FIT)大约是低海拔运行设备的600倍。

然而,宇宙射线和器件材料并非医疗设备环境中电离辐射的唯一源头。随着新技术(如利用电离辐射来杀死癌细胞的治疗方法)的兴起,设计人员必须考虑在局部产生的粒子通量。事实上,Guo, et al曾研究过运行在高能模式下的Varian直线加速器(LINAC)产生的通量。研究表明,典型的放射治疗室中的翻转事件率达每天38 SEUs/MB。对现代电子器件的存储内容而言,这个出错率的确相当可观。

SEU的抑制与免疫措施

所有FPGA,无论是基于SRAM,快闪,还是反熔丝技术的,都含有易发SEU的SRAM存储模块和触发器。触发器是最稳健的存储结构,仅在高辐射环境中(如太空)才出现翻转。抑制触发器的固件错误措施是众所周知的;例如可通过三模块冗余(triple-module redundancy,TMR)来实现。SRAM存储构件的翻转也可借助一些用于检测和纠正其它错误的标准技术(如检错纠错电路EDAC)来抑制。这样,这类存储结构的翻转可归类为软故障,且只要有抑制措施,就不会蔓延到系统的其余部分。

基于SRAM的FPGA还有另一个与SEU事件相关的忧虑:FPGA器件的配置存储器部分本质上是一个大容量SRAM。因此,配置存储器一旦发生SEU事件,就会以两种方式之一改变器件的功能性:

  • 改变走线连接状态(使原设计中不连接或断开的线路发生连接或短路);
  • 改变存储配置,因而改变逻辑单元和I/O结构的功能(例如将某一输入变成输出)。

这些错误叫做固件错误(相对于软错误),因为它们会影响器件的功能,且不能实时纠正。由于基于SRAM的FGPA中的配置存储位众多,潜在的SEU风险对系统的稳定性影响极大。

例如,Xilinx公司自行对工作在40,000英尺高度中子通量环境中的小容量Virtex®-5器件(XC5VLX50)的配置存储位出错率估计是570,125 到809,971 FIT,即平均无故障时间(MTBF)相当于1.23到2.61个月。由于许多设备会包含多个FPGA,其在某一处理任务期间发生固件错误的可能性相当高。

图4:基于反熔丝、SRAM和快闪技术的FPGA的系统重置率预测

注:该图给出的是40,000英尺高度的最大中子通量情况下的FIT预测值。AX1000APA1000中未曾观察到固件错误。这里给出的FIT值表示给定样本的统计上限。

配置存储构件FIT

抑制基于SRAM的FPGA中的SEU

由于对SEU的认识逐渐加强,基于SRAM的FPGA制造商提出了各种抑制技术,从强力性技术到更复杂的技术都有。

最简单的方法是直接定期重新配置FPGA,清除积累的任何错误。这种方法要成功,设计人员必须确定潜在错误的影响,以及这些错误蔓延所需的时间。其思路是在这个时间段之内重新配置FPGA。虽然错误仍然会蔓延,但潜在的损害被重新配置所限制。此外,FPGA内的功能仅在重新配置完成之后才可使用。

随着基于SRAM的器件更新换代,用户会利用配置引擎中的内置检测方案。采用配置存储回读(readback)功能,可计算每个组态配置数据的循环冗余校验(CRC)值,并与某一标准CRC比较。如果检测到失配情况,则说明有SEU发生,应用程序就会重新配置FPGA。

另外,应用程序也可尝试纠正错误,以后台方式重写配置数据。同样,虽然错误仍然会蔓延,但其处于未纠正状态的时间大大减小。

抑制不等于免疫

无论采用何种方法,抑制都是事后纠错;换句话说,抑制是试图减少错误的影响。在各种情况下,纠错方案只能应对配置存储器中单个位上的错误。多个位发生错误时就需要重新配置器件。而且,实现抑制方案需要耗费额外的可靠性分析和重建时间。

所以我们绝不能将抑制与免疫视作等同。采用抑制措施后,固件错误仍然会出现,并会在系统内蔓延。这种措施的希望目标是在发生实质性影响前检测和消除任何已经发生的固件错误。

除对医疗设备(甚至采取了抑制措施的设备)中潜在SEU事件引起的可靠性担忧外,潜在的固件错误也产生责任性问题。如果某一厂家采用了众所周知具有SEU敏感性的器件,那么,就可能卷入过失担责的纠纷;直线加速器在治疗过程中突然失效,产生过量辐射就是一个例子。如果控制电路都在一块FGPA中,人们会认为,是某个SEU事件导致该设备失效,而厂家采用具有SEU脆弱性的技术是有过失的。

使用具有SEU免疫能力的FPGA不仅能够简化系统设计,而且还能让设备厂家免除任何潜在的法律纠纷。

正如iRoC Technologies公司的Olmos所演示的,与基于SRAM的FPGA不同,基于快闪和反熔丝的FPGA不会发生配置错误(即不会被SEU影响)。因此,设计人员既不必分析这些固件错误对系统的潜在影响,也不必设计和测试抑制方案。

结论

SEU早就是太空应用领域的所关注的问题,而且,随着对这类问题的报道越来越多,医疗设备领域对这个问题的忧虑也已突显。基于SRAM的FPGA中的配置存储器先天就有SEU脆弱性。这种脆弱性会导致器件设计功能改变,进而影响病人的生命安全。虽然针对基于SRAM的FPGA中的配置存储器有各种错误抑制技术,但错误仍然会发生;要抑制这些固件错误,必须清楚了解它们对系统可靠性的影响。相反,基于快闪和反熔丝的FPGA不会发生配置错误,具有更高的系统可靠性

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。
Baidu
map