损坏的主内存可能会因性能下降或硬件崩溃而中断业务运营,从而导致代价高昂的停机时间。动态随机存取存储器(DRAM)模块通常具有解决存储器错误的内置机制。这篇文章回答了有关计算机内存错误的最常见问题,以帮助您确保关键任务系统中安装的DRAM的高实用性和最大的可靠性。
什么是内存错误类型?
内存错误分为两大类:
软存储错误是指那些随机破坏存储位并更改存储的数据,但不会对存储模块造成物理损坏的错误。软存储错误会损坏正在处理的数据,而不是系统硬件,但是在关键任务应用中,例如医疗设备,工业控制器,自动驾驶汽车,安全/监视系统和数据中心,未经纠正的软错误可能会导致灾难性的后果。
有两种类型的软存储错误:
- 芯片级软错误通常是由于内存芯片封装中元素的放射性衰变所致。当这些alpha粒子撞击芯片时,它们会导致单元将其状态更改为其他值,从而造成芯片的电性能不平衡,并导致存储的数据被破坏。由于存储器设计和技术的进步,这些类型的错误现在很少见,因为芯片材料的放射性元素衰减大约需要10年。
- 系统级软错误通常发生在数据总线上,当正在处理的数据被错误或噪声击中时产生。噪声是破坏信号完整性的干扰或静态干扰,可能来自电磁干扰(EMI)、无线电波、电线、闪电、不良连接和其他来源。系统可能会将噪声误认为是数据位,并使用或执行错误的数据位或程序代码,从而导致错误。
物理内存错误是由于硬件或内存模块上的物理缺陷而不断重复的错误。硬内存错误通常是由操作系统超出内存的速度容量并导致系统承受静电电荷引起的。其他原因包括环境因素,例如温度,冲击/振动,电气/电压应力或物理应力。违规操作,老化或制造缺陷也可能影响硬件组件的可靠性。硬错误通常是永久性的,需要更换模块。
如何判断内存错误是软错误还是硬错误?
软内存错误通常可以通过重新启动系统来改正。如果系统重新启动并且错误继续发生,则很可能是由硬错误引起的,解决方案是完全更换内存芯片或模块。
内存错误的代价有多大?
好的情况,内存错误会降低性能。最坏的情况下,它们可能导致系统崩溃。除了硬件维修和更换成本外,内存故障还可能导致主要的终端用户服务中断,从而损坏重要数据并因此影响常规操作。
哪些外部因素影响内存性能和可靠性?
通常认为极端温度会影响内存的物理组成,因为它们会导致材料或组件的物理变化,因此公司在散热和制冷解决方案上进行了大量投资。提高利用率和增加DIMM使用寿命也会影响内存性能和可靠性,并加剧内存错误的严重性。
有哪些可用的纠错机制,这些机制如何工作?
在必须避免数据损坏和系统故障的关键任务应用中,使用带错误纠正代码(ECC)的双列直插式内存模块(DIMM)。 ECC DIMM可以执行单位错误纠正(SEC)或SEC和双位错误检测(SECDED)。仅SEC无法检测到双位错误,因此如果有两个错误位,它将报告内存为无错误。另一方面,SECDED可以检测所有单位和双位错误,但只能纠正单位错误。它无法检测三位错误或纠正双位错误。更高级的错误检测和纠正可以通过更复杂的代码来处理,例如ChipKill™或Advanced ECC内存,能够检测和纠正多位错误,标准ECC无法纠正。 ChipKill是专为NASA前往火星的探路者而开发的,其工作原理是在内存子系统的另一部分中以校验和的形式创建一组重复的数据。当发生内存故障时,可以通过从校验和信息中重新计算数据来完成数据恢复,从而使DIMM甚至可以承受整个DRAM芯片的故障,从而提高系统可用性。研究表明,与SECDED相比,ChipKill可以将无法纠正的错误率降低多达4倍。
什么是可纠正和不可纠正错误?
可纠正的错误通常是系统或内置的ECC机制可以纠正的单位错误。这些错误不会导致系统停机或数据损坏。不可纠正的错误通常是多位错误,可能导致系统崩溃或立即关闭。
从物理上讲,ECC DIMM与非ECC DIMM有何区别?
如果模块上的芯片数可被三整除,则该模块为ECC DIMM。标准RAM具有八个存储芯片,用于存储数据,并根据需要将其提供给CPU。 ECC内存模块具有一个额外的内存芯片,用于检测和纠正八个芯片的错误。下表显示了ATP的ECC和非ECC DIMM。
DIMM Type |
ECC |
Non-ECC |
DDR4 |
Registered |
|
DDR3 |
Registered |
|
Unbuffered |
Unbuffered |
|
DDR2 |
Registered
|
|
Unbuffered |
Unbuffered |
|
DDR |
Registered |
|
Unbuffered |
Unbuffered |
表1. ATP DDR / DDR2 / DDR3 / DDR4 ECC和非ECC DIMM
ATP DRAM差异性
ATP DRAM产品用于要求最高可靠性的应用中。内存错误可能会对操作产生重大影响,因此ATP尽力确保其所有DRAM产品都符合最严格的标准。
- 功能测试:自动测试设备(ATE)
ATP DRAM产品中使用的主要集成芯片(IC)来自一级制造商,并经过了严格的测试,以确保出色的可靠性和使用寿命。所有DRAM模块都使用自动测试设备(ATE)进行了严格的功能测试,以检测结构和组件缺陷并筛选出边际时序和信号完整性(SI)。
图1. 使用ATP自动测试设备(ATE)进行功能测试
-
系统测试:老化测试(TDBI)
在量产(MP)级别上,所有模块都经过老化测试(TDBI),该测试结合了温度,负载,速度和时间来对内存模块进行压力测试并筛选出较弱的IC。 ATP的TDBI旨在有效地筛选出有缺陷的DRAM芯片,这些芯片在早期故障(ELF)期间可能会失效。通过确保模块上只有正常的DRAM芯片,TDBI大大降低了故障率并延长了产品使用寿命。
由于在99.99%的有效设备上即使只有0.01%的错误也会增加模块级别的故障率并导致实际使用中的故障,因此TDBI会检测并筛选出0.01%的错误以确保DRAM模块的可靠性。
图2. 在批量生产(MP)水平上,100% DRAM模块在老化(TDBI)过程中的ATP测试会屏蔽掉弱的集成电路
-
ATP 迷你仓
在TDBI期间,经过特殊设计的ATP迷你仓将温度循环隔离到目标区域,因此仅对模块进行老化。 这样可以轻松找到故障的根本原因,并使主板保持稳定运行。
图3. ATP Mini Chamber只对DRAM模块进行温度循环
ATP的工业DRAM产品可在传统SDRAM和完整的DDR1,DDR2,DDR3和DDR4模块范围内使用,包括具有不同密度和外形尺寸的最新DDR4-2666。 有关更多信息,请访问ATP网站或您所在地区的ATP分销商/代表。