服务器数据恢复环境:
EMC 某型号存储;
8 块硬盘组成 raid5 磁盘阵列。
服务器故障:
raid5 磁盘阵列中 2 块硬盘离线,服务器解体,下层利用不可用。
服务器数据恢复过程:
1、数据恢复工程师将故障存储设备内的所有硬盘镜像备份,在镜像备份过程中没有发现离线硬盘有物理故障,间接镜像故障存储中所有硬盘。备份实现后把硬盘依照原样装回故障存储设备中,后续的数据恢复操作都在镜像文件进行,防止对原始数据造成二次毁坏。
2、数据恢复工程师开始基于镜像文件对底层数据进行剖析,计算出故障存储设备中原 raid5 的硬盘盘序、raid 条带大小等 raid 信息,通过这些信息虚构重组 raid。
3、因为故障存储中的 LUN 是基于 RAID 组的,把 raid 虚构重组进去后,北亚数据恢复工程师开始剖析 LUN 在 RAID 组中的调配信息以及 LUN 调配的数据块 MAP。
4、依据获取到的对于 LUN 的信息,数据恢复工程师应用北亚自研的 raid 恢复程序解释 LUN 的数据 MAP,导出 LUN 的所有数据。
5、应用北亚自研的文件系统解释程序对导出的 lun 进行文件系统解释,在文件系统解释过程中呈现报错,数据恢复工程师剖析报错内容并调试文件系统解释程序,通过剖析与调试确认是因为故障存储中某些元文件损坏导致解释 zfs 文件系统程序报错。
6、数据恢复工程师手动修复损坏的文件,直至 zfs 文件系统能够被失常解析。
7、屡次修复和解析 zfs 文件系统后对最新数据进行验证,验证无误后分割用户亲自对复原进去的数据进行验证,确认数据残缺可用。
Tips:
1、服务器产生故障后,切忌对服务器进行操作;也不要随便取出硬盘,免得弄乱盘序。
2、如果须要取出硬盘,标记好硬盘的程序之后再取出。
3、服务器阵列瘫痪后应该立刻断电,不要做同步或强制上线操作,避免数据进一步毁坏。