乐趣区

关于数据恢复:北亚数据恢复服务器raid阵列瘫痪导致ZFS文件系统元文件损坏的数据恢复

服务器数据恢复环境:

emc 服务器;
raid5 磁盘阵列;
两块热备盘。

故障:

服务器上有两块硬盘呈现故障,然而热备盘中只有一块被胜利激活,导致了 raid 阵列瘫痪,服务器的下层利用不可用。管理员分割北亚数据恢复核心进行数据恢复。

服务器数据恢复过程:

1、服务器故障检测。首先对两块掉线的硬盘进行物理故障检测,如果发现物理故障,须要对硬盘进行物理修复,而后能力持续下一步数据恢复操作。通过检测,所有硬盘(包含掉线硬盘)不存在物理故障。

2、备份服务器所有硬盘。在数据恢复开始前须要将所有原始硬盘进行镜像备份。服务器硬盘无物理故障可间接备份,因为源磁盘的扇区大小为 520 字节,因而还须要将所有备份数据做 520 到 512 字节的转换。

3、对服务器底层 raid 组进行数据分析。通过对 raid 阵列的剖析,北亚数据恢复工程师发现原服务器内的两块热备盘内均为空,没有写入任何数据(由此推断:一块热备盘尽管上线,但此时 raid 组依然处于缺盘状态,数据并没有开始同步。)。

4、北亚数据恢复工程师顺次剖析整个 raid5 阵列上的条带大小,磁盘程序等根底信息,开始进行 raid 重组。

5、依据获取到的 RAID 信息,应用北亚自主开发的 RAID 虚构程序将原始的 RAID 组虚构进去。但因为整个 RAID 组中一共掉线两块盘,因而须要搞清楚这两块硬盘掉线的程序。

6、仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其余硬盘显著不一样,因而初步判断此硬盘可能是最先掉线的。通过北亚自主开发的 RAID 校验程序对这个条带做校验,最终确定最先掉线的硬盘。

7、LUN 是基于 RAID 组的。根据上述剖析获取到的信息将 RAID 组重组进去,而后再剖析 LUN 在 RAID 组中的调配信息以及 LUN 调配的数据块 MAP。

8、依据获取到的 LUN 信息,应用北亚自主开发的 raid 恢复程序解释 LUN 的数据 MAP 并导出 LUN 的所有数据。

9、解释 ZFS 文件系统并修复。利用 ZFS 文件系统解释程序对生成的 LUN 做文件系统解释,发现程序在解释某些文件系统元文件的时候报错。北亚数据恢复工程师立刻对程序做 debug 调试,分析程序报错起因,同时剖析 ZFS 文件系统是否因为版本起因导致程序不反对。通过长达 7 小时的剖析与调试,最终发现 ZFS 文件系统因存储瘫痪而导致其中某些元文件损坏,从而导致 ZFS 文件系统解释程序无奈失常解释。

10、对损坏的文件系统元文件做修复能力失常解析 ZFS 文件系统。通过对损坏的元文件剖析,北亚数据恢复工程师发现:因当初 ZFS 文件正在进行 IO 操作的同时存储瘫痪,导致局部文件系统元文件没有更新或者损坏。北亚数据恢复工程师对这些损坏的元文件进行手工修复,保障 ZFS 文件系统可能失常解析。

11、对修复后的文件系统进行解析并验证最新数据。通过服务器管理员的亲自验证,确认服务器内所有数据被胜利复原。

退出移动版