IBM二十多年前进行的一项研究表明,高能核粒子会引起电子组件“软”错误。核粒子有两种来源:在所有物质中都存在痕量的衰变放射性原子,以及通过地球大气层级联的地外放射性宇宙射线。当这些粒子撞击硅核时,会爆炸成碎片,产生电荷流,可能会使任何电路瘫痪。由于宇宙射线,任何电路都容易发生软故障。
软错误与硬错误
JEDEC将软错误定义为,“来自锁存器或存储单元的错误输出信号,可以通过执行包含锁存器或存储单元的设备的一个或多个正常功能来纠正”。通常,这个术语是指由辐射或电磁脉冲引起的误差,而不是指制造过程中引入的物理缺陷引起的误差。软错误是随机发生的,不会对存储设备造成永久性的损害。
另一方面,硬错误是那些“由于内存或存储设备上的硬件或物理缺陷而不断重复出现的错误”。硬内存错误通常是由于操作系统超出了内存的速度容量和使系统产生静电引起的。其他原因包括环境因素,如温度、冲击/振动、电/电压应力或物理应力。处理不当、老化或制造缺陷也会影响硬件组件的可靠性。硬错误通常是永久性的,需要更换模块。
软错误产生的原因和影响
软错误,也称为单粒子翻转(SEU),是由宇宙射线和α粒子的电离辐射引起的。宇宙射线,比如中子,是来自太空的高能粒子,它们进入地球的大气层并与空气相互作用,而α粒子则来自存储芯片封装中的痕量污染物或放射性物质。当这些高度带电的粒子穿透存储单元时,位的状态会发生变化(翻转)。如果电荷足够大,则可能导致多个单元或位不正常。
在要求最高可靠性的系统中,可以通过应用屏蔽材料或使用对辐射不敏感的组件来减少α粒子。但是,中子不能被屏蔽–它们甚至可以穿透5英尺的混凝土!
图1 当来自宇宙射线的放射性粒子(如中子)从基质中穿透硅核时,产生的核反应会使硅核碎裂。这些碎片(阿尔法粒子)打乱了敏感区域,导致存储单元“翻转”或改变值。
- 功能中断
- 读/写错误,数据损坏
- 设备挂起或停止工作,但在重新启动后可恢复
- 阻塞,或者即使在重新启动电源后设备也无法工作
- 数据写入错误的位置
- 数据写入需要更长的时间
图2 软错误,也称为单粒子翻转,是指来自环境的高电荷粒子(如中子)和放射性物质(如阿尔法粒子)撞击电子设备的敏感区域,并破坏其正常运行。
SRAM的缺点
英特尔进行的研究表明,高海拔地区宇宙射线引起的电子故障的概率会增加。然而,如今即使是地面设备也面临巨大的风险,特别是对辐射效应具有高敏感性的基于SRAM的设备。处理器使用静态随机存取存储器(SRAM)作为内存缓存。动态随机访问内存(DRAM)需要不断地刷新(充电)以保存数据,而SRAM不需要频繁地刷新就可以存储数据。这意味着处理器不必等待访问SRAM上的数据,从而加快处理速度。SRAM非常快,因此也比DRAM更贵。以下是SRAM易受软错误影响的常见原因。
-
较低的供电电压。SRAM电压随每一代工艺的更新而下降,从而导致较低的单元电容(单元存储电荷的能力)。这使存储单元更容易受到α粒子或宇宙射线的撞击。
-
缩放。使用更多的SRAM位来减少延迟的趋势使SRAM阵列成为芯片上最密集的存储器,并增加了对带电粒子的暴露。
-
包装。集成芯片的包装材料中含有少量的放射性污染物。例如,在模具化合物和装配材料中发现了痕量的铀和钍。如果不能保持理想的材料纯度,则alpha粒子会导致软错误。
ATP e.MMC SRAM软错误检测器和恢复机制
对于一些个人设备,软错误的影响可能是微不足道的。然而,对于金融交易、交通管理、安全/监视等关键任务来说,即使是很小的故障也会造成灾难性的影响。无人值守的软错误会导致功能损失、系统故障和其他不利影响。
ATP e.MMC先进的SRAM软错误检测器和恢复机制通过提供及时的错误检测,日志记录和可配置的操作来解决错误,最大化了数据完整性(配置由客户使用ATP预先确定,不能在现场更改)。如果在评估风险之后,用户选择继续运行设备,则应执行错误日志和系统重新启动,以避免不可预料的事件可能损坏系统,更糟的是在关键的自主应用程序中造成人身安全风险。
下图显示了e.MMC SRAM软错误检测器和恢复机制的工作方式。
(注意:步骤可能会有所不同,具体取决于预定的配置。)
图3 一旦检测到错误,该事件就会记录在闪存中。可以警告系统处理错误,并且固件可以停止。 ATP SRAM软错误检测器和恢复机制尝试通过启动系统重新启动来纠正错误。
图4 如果系统重新引导失败,则该错误被视为“硬错误”,应更换e.MMC。如果系统重新启动成功,则该错误被确认为“软错误”。这意味着重新启动已解决了该错误,并且可以使用正确的数据继续操作。
软错误可能会破坏数据并导致系统故障或出现故障。 SRAM特别容易受到攻击。 因此,重要的是能够检测到内置纠错码可能没有检测到的错误。 数据完整性和高可靠性对于如网络,军事,医疗保健,金融服务等关键任务应用至关重要。 因此,重要的是要确保软错误不会恶化,因为软错误不仅可能会损坏非常重要的数据,而且还可能损坏物理资产。
想要了解更多,请访问ATP网站或联系ATP代表/经销商。