关于数据恢复:服务器数据恢复EMC存储RAID5崩溃导致上层lun不可用的数据恢复案例

4次阅读

共计 1254 个字符,预计需要花费 4 分钟才能阅读完成。

服务器数据恢复环境:
北京某单位有一台 EMC 某型号存储,有一组由 10 块 STAT 硬盘组建的 RAID5 阵列,另外 2 块磁盘作为热备盘应用。RAID5 阵列下层只划分了一个 LUN,调配给 SUN 小机应用,下层文件系统为 ZFS。

服务器故障:
存储 RAID5 阵列中有 2 块硬盘损坏离线,只有一块热备盘激活,RAID5 阵列瘫痪,下层 LUN 无奈失常应用。

服务器数据恢复过程:
1、将故障存储中所有磁盘编号后取出,由硬件工程师对所有磁盘做硬件故障检测,通过检测没有发现有硬盘存在物理故障和坏道。

磁盘没有发现物理故障和坏道,初步推断是某些磁盘读写不稳固导致故障产生。EMC 控制器的磁盘检测策略十分严格,一旦检测到某些磁盘性能不稳固,EMC 控制器极有可能会断定这些磁盘为坏盘,将认定为坏盘的磁盘踢出 RAID 阵列。一旦 RAID 阵列中掉线的盘到达到该 RAID 级别容许掉盘的极限值,就会导致 RAID 阵列解体不可用,因为 EMC 存储的 LUN 都是基于 RAID 阵列的,RAID 解体会导致基于该 RAID 阵列的 LUN 不可用。
2、将故障存储中所有磁盘以只读形式做全盘镜像备份,镜像实现后依照编号将所有磁盘还原到原存储中,后续的数据分析和数据恢复操作都基于镜像文件进行,防止对原始磁盘数据造成二次毁坏。镜像实现后发现源磁盘的扇区大小为 520 字节,应用工具将镜像数据做 520 字节 To512 字节的转换。
3、基于镜像文件剖析底层 RAID5 阵列的相干信息。通过剖析发现发现其中有 2 块盘(8 号盘和 11 号盘)齐全没有数据,从治理后台上显示这 2 块盘是 Hot Spare,8 号盘替换了离线的 5 号盘。尽管 8 号盘作为热备盘胜利激活,但该 RAID 级别为 RAID5,因为有 2 块盘离线,所以该 RAID5 阵列还缺失一块硬盘,所以数据没有同步到 8 号盘中。持续剖析其余 10 块硬盘,剖析数据在硬盘中的散布法则、RAID 条带的大小、盘序等相干信息。
4、依据下面步骤剖析进去的 RAID 信息虚构重构原 RAID。因为整个 RAID 阵列中一共掉线两块盘,须要剖析这两块盘掉线的程序。通过剖析发现有一块盘在同一个条带上的数据和其余盘显著不一样,因而初步判断此盘可能是先掉线的。应用北亚企安自主开发的 RAID 校验程序对这个条带做校验后确认先掉线的那块硬盘。
5、因为 LUN 是基于 RAID 阵列的,实现原 RAID 阵列的重组后剖析 LUN 在 RAID 阵列中的调配信息和 LUN 调配的数据块 MAP。依据 LUN 相干信息解释 LUN 的数据 MAP 并导出 LUN 的所有数据。
6、应用北亚企安自主开发的 ZFS 文件系统解释程序对生成的 LUN 做文件系统解释,在解释某些文件系统元文件的过程中程序报错。开发工程师对程序做 debug 调试并分析程序报错起因,通过数小时的剖析与调试,发现无法解释文件系统的的起因是存储瘫痪导致 ZFS 文件系统中某些元文件损坏。人工修复这些损坏的元文件。
7、修复实现后解析 ZFS 文件系统,解析所有文件节点及目录构造。

8、由用户方工程师对复原进去的数据进行验证,验证过程中没有发现问题,确认复原数据残缺无效。本次数据恢复工作实现。

正文完
 0