关于数据恢复:服务器数据恢复Raid磁盘阵列常见故障原因分析

因为raid的特点和劣势，磁盘阵列技术被广泛应用于服务器和存储等商用畛域。因为用户基数大，呈现故障的状况也不少。通过这篇文章介绍一下常见的raid磁盘阵列数故障类型和起因。

故障类型一、磁盘阵列处于降级状态时未及时rebuild。
RAID磁盘阵列的数据安全冗余是利用局部空余空间实现的，阵列中有成员盘下线便无奈持续提供冗余空间。如果此时未能及时更换新磁盘并rebuild整个卷，一旦raid中有其余成员盘离线将会导致整个raid卷无奈工作。这类故障是北亚企安数据恢复工作中会常常遇到case。

故障类型二、raid控制器故障。
磁盘阵列控制器在充当着操作系统与物理硬盘之间的连贯纽带。磁盘阵列中的硬盘数量、容量大小、raid级别、校验形式等raid信息有的存储于硬盘，有的存储于阵列卡或者在二者中都有存储。如果控制器呈现故障，raid信息就无奈还原，如果呈现这种故障，即便可能还原raid构造并再次重建raid阵列也无奈复原数据。

故障类型三、固件算法缺点。
RAID的创立、重建、降级、爱护等性能的实现依附的raid固件上的一套非常复杂的算法，任何简单的算法都会有BUG，只管厂商不会轻易抵赖自家产品固件算法的BUG（有可能本人也不晓得）。因为固件算法BUG，产生无法解释的故障可能性必定是有的。比方在北亚企安接到的数据恢复case中就遇到过晚期生产的某品牌服务器RAID中一块盘OFFLINE后，故障盘与报警灯不统一的状况。用户在更换故障盘进行REBUILD时被误导拔错盘，导致整个RAID解体。

故障类型四、IO通道碰壁导致RAID掉盘。
RAID控制器在设计时候优先思考的是数据的安全性，RAID会尽可能防止将数据写到不稳固的存储介质上。当控制器与物理盘进行IO时，如果工夫超过某个阈值或校验关系不满足，RAID控制器便会认为对应的存储介质已不具备继续稳固工作的能力并让其强制下线，而后告诉管理员尽快解决问题。这种设计的初衷从技术上和逻辑上来看没有问题，但对于如物理连贯线路松动，硬盘工作反馈超时（硬盘还是完整的）等场景来说，控制器无奈分辨存储介质是否真的呈现物理故障，这种状况下会大概率强制磁盘下线。这类故障产生概率比拟高且无奈防止，很多用户因而类故障质疑服务器厂商。实际上。越是设计平安的RAID控制器，越容易产生此类故障。

故障类型五、控制器的稳定性。
RAID的控制器在ONLINE状态下(无离线盘)工作是最稳固的。当局部硬盘（物理故障或者逻辑故障）离线后控制器便会工作在一个绝对不稳固的状态，这也是好多中低端的RAID控制器在有磁盘离线后就体现出读写性能降落的起因。控制器的不稳固会减少数据吞吐时IO滞留的可能性，从而导致上述第四个类型的故障的产生。中低端的控制器（无高性能解决芯片或者大容量高速缓存）产生这类故障的概率要高得多。

故障类型六、阵列中硬盘故障。
很多人认为磁盘阵列只有在失常工作，阵列中就不会存在有物理故障的硬盘。这个观点的判断根据是一旦raid中有硬盘呈现物理故障，阵列控制器就会将故障硬盘踢下线。然而实际上并非如此。
RAID很少会读取到物理硬盘的所有磁盘空间，同一时间更是不可能。局部状况下，硬盘会在RAID没有读取到的区域或者RAID以前读取过的区域呈现坏道，这类坏道因为没有被RAID读过，所以在控制器来看还是好的。
呈现这种状况后可能会产生的间接结果就是在REBUILD过程中，当一块物理硬盘离线后，在进行REBUILD过程中，如果其余硬盘存在这类没有被RAID读取到的坏道，因为REBUILD是对全盘做全面同步，在REBUILD过程中就肯定会读写到这类之前没有被RAID读取到的坏道。这时REBUILD还没实现，新盘无奈上线，又在旧盘发现了坏道，RAID极有可能将发现坏道的旧盘踢出，这样就会导致RAID故障。

故障类型七、人为误操作。
人为误操作导致的RAID故障，例如：误拔了RAID里的硬盘、更换坏盘不及时、插入硬盘更换或者进行其余操作后遗记硬盘在RAID中的程序、不小心删除了原RAID配置等。

关于数据恢复:服务器数据恢复Raid磁盘阵列常见故障原因分析

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据恢复:服务器数据恢复Raid磁盘阵列常见故障原因分析

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复