服务器数据恢复环境:
EMC 存储;
stat 硬盘组成 raid5,两块热备盘。
故障:
2 块硬盘呈现故障,只有一块热备盘被激活,raid 解体。服务器管理员分割北亚数据恢复核心进行数据恢复。
服务器故障检测:
北亚数据恢复工程师返回现场对服务器设施进行了简略排查,确认 raid5 瘫痪,下层 lun 无奈失常应用,2 块热备盘中的 1 块曾经启动。数据恢复工程师对掉线硬盘进行物理故障排查,两块硬盘均无物理故障。
服务器数据恢复过程:
1、raid5 数据备份。
数据恢复工程师将服务器上的所有数据进行镜像备份,将所有硬盘连贯到数据恢复核心的数据恢复专用存储池中,对所有硬盘进行了扇区级镜像备份。
2、剖析该服务器 raid 组构造。
服务器数据恢复通常都是基于还原 raid 阵列来进行数据恢复的。数据恢复工程师对 raid 阵列根底信息进行剖析,基于获取到的 raid 信息重组 raid 阵列。
通过数据恢复工程师对每块硬盘的剖析发现:原服务器内的两块热备盘内全副没有数据,也就是说即便被激活的热备盘也同样没有同步到任何数据,两块热备盘没有起到任何作用。数据恢复工程师只能通过原 raid5 中的其余硬盘的数据来重组 raid5。
3、剖析 RAID 组掉线盘信息。
基于第 2 步中的数据恢复思路,北亚服务器数据恢复工程师应用自主研发的数据恢复工具解析出这组 raid5 的根底信息,并虚构重组出了 raid5 磁盘阵列。在失常服务器数据恢复流程下,数据恢复工程师会将有多块硬盘掉线的阵列中最早掉线的硬盘从阵列中剔除,比对每块硬盘在同一个条带上的数据是否统一,将显著不同的硬盘剔除后进行条带校验,直至找到数据恢复的最佳状态为止。
4、剖析 RAID 组中的 LUN 信息。
胜利重组出 raid5 阵列后,北亚数据恢复工程师开始对 lun 信息进行剖析,而后应用北亚开发的 raid 数据恢复程序对 lun 数据的 map 进行解析和导出。
5、ZFS 文件系统解析并修复。
应用北亚研发数据恢复工具对下层的文件系统进行解析和复原。本案例故障服务器下层采纳 zfs 文件系统,对文件系统解析时发现局部文件系统元文件报错,于是北亚工程师对现有的数据恢复工具进行 debug 调试让程序适应本次数据恢复的理论状况。
通过调试发现 zfs 文件系统解析报错的起因是:故障服务器忽然瘫痪导致文件系统中某些元文件被损坏。北亚数据恢复工程师针对损坏的元文件进行了人工修复,修复实现后 zfs 文件系统能够被失常解析。
6、导出 raid5 阵列内所有数据。
ZFS 文件系统解析实现后,北亚数据恢复工程师最终将 raid 阵列内的数据残缺导出。由服务器管理员配合搭建数据验证环境,对复原进去的所有数据进行验证。通过验证,原服务器内的所有数据均恢复正常。