服务器数据恢复环境:

emc服务器;
raid5磁盘阵列;
两块热备盘。

故障:

服务器上有两块硬盘呈现故障,然而热备盘中只有一块被胜利激活,导致了raid阵列瘫痪,服务器的下层利用不可用。管理员分割北亚数据恢复核心进行数据恢复。

服务器数据恢复过程:

1、服务器故障检测。首先对两块掉线的硬盘进行物理故障检测,如果发现物理故障,须要对硬盘进行物理修复,而后能力持续下一步数据恢复操作。通过检测,所有硬盘(包含掉线硬盘)不存在物理故障。

2、备份服务器所有硬盘。在数据恢复开始前须要将所有原始硬盘进行镜像备份。服务器硬盘无物理故障可间接备份,因为源磁盘的扇区大小为520字节,因而还须要将所有备份数据做520到512字节的转换。

3、对服务器底层raid组进行数据分析。通过对raid阵列的剖析,北亚数据恢复工程师发现原服务器内的两块热备盘内均为空,没有写入任何数据(由此推断:一块热备盘尽管上线,但此时raid组依然处于缺盘状态,数据并没有开始同步。)。

4、北亚数据恢复工程师顺次剖析整个raid5阵列上的条带大小,磁盘程序等根底信息,开始进行raid重组。

5、依据获取到的RAID信息,应用北亚自主开发的RAID虚构程序将原始的RAID组虚构进去。但因为整个RAID组中一共掉线两块盘,因而须要搞清楚这两块硬盘掉线的程序。

6、仔细分析每一块硬盘中的数据,发现有一块硬盘在同一个条带上的数据和其余硬盘显著不一样,因而初步判断此硬盘可能是最先掉线的。通过北亚自主开发的RAID校验程序对这个条带做校验,最终确定最先掉线的硬盘。

7、LUN是基于RAID组的。根据上述剖析获取到的信息将RAID组重组进去,而后再剖析LUN在RAID组中的调配信息以及LUN调配的数据块MAP。

8、依据获取到的LUN信息,应用北亚自主开发的raid恢复程序解释LUN的数据MAP并导出LUN的所有数据。

9、解释ZFS文件系统并修复。利用ZFS文件系统解释程序对生成的LUN做文件系统解释,发现程序在解释某些文件系统元文件的时候报错。北亚数据恢复工程师立刻对程序做debug调试,分析程序报错起因,同时剖析ZFS文件系统是否因为版本起因导致程序不反对。通过长达7小时的剖析与调试,最终发现ZFS文件系统因存储瘫痪而导致其中某些元文件损坏,从而导致ZFS文件系统解释程序无奈失常解释。

10、对损坏的文件系统元文件做修复能力失常解析ZFS文件系统。通过对损坏的元文件剖析,北亚数据恢复工程师发现:因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致局部文件系统元文件没有更新或者损坏。北亚数据恢复工程师对这些损坏的元文件进行手工修复,保障ZFS文件系统可能失常解析。

11、对修复后的文件系统进行解析并验证最新数据。通过服务器管理员的亲自验证,确认服务器内所有数据被胜利复原。