关于数据恢复:北亚数据恢复服务器raid阵列瘫痪导致ZFS文件系统元文件损坏的数据恢复

服务器数据恢复环境：

emc服务器；
raid5磁盘阵列；
两块热备盘。

故障：

服务器上有两块硬盘呈现故障，然而热备盘中只有一块被胜利激活，导致了raid阵列瘫痪，服务器的下层利用不可用。管理员分割北亚数据恢复核心进行数据恢复。

服务器数据恢复过程：

1、服务器故障检测。首先对两块掉线的硬盘进行物理故障检测，如果发现物理故障，须要对硬盘进行物理修复，而后能力持续下一步数据恢复操作。通过检测，所有硬盘（包含掉线硬盘）不存在物理故障。

2、备份服务器所有硬盘。在数据恢复开始前须要将所有原始硬盘进行镜像备份。服务器硬盘无物理故障可间接备份，因为源磁盘的扇区大小为520字节，因而还须要将所有备份数据做520到512字节的转换。

3、对服务器底层raid组进行数据分析。通过对raid阵列的剖析，北亚数据恢复工程师发现原服务器内的两块热备盘内均为空，没有写入任何数据（由此推断：一块热备盘尽管上线，但此时raid组依然处于缺盘状态，数据并没有开始同步。）。

4、北亚数据恢复工程师顺次剖析整个raid5阵列上的条带大小，磁盘程序等根底信息，开始进行raid重组。

5、依据获取到的RAID信息，应用北亚自主开发的RAID虚构程序将原始的RAID组虚构进去。但因为整个RAID组中一共掉线两块盘，因而须要搞清楚这两块硬盘掉线的程序。

6、仔细分析每一块硬盘中的数据，发现有一块硬盘在同一个条带上的数据和其余硬盘显著不一样，因而初步判断此硬盘可能是最先掉线的。通过北亚自主开发的RAID校验程序对这个条带做校验，最终确定最先掉线的硬盘。

7、LUN是基于RAID组的。根据上述剖析获取到的信息将RAID组重组进去，而后再剖析LUN在RAID组中的调配信息以及LUN调配的数据块MAP。

8、依据获取到的LUN信息，应用北亚自主开发的raid恢复程序解释LUN的数据MAP并导出LUN的所有数据。

9、解释ZFS文件系统并修复。利用ZFS文件系统解释程序对生成的LUN做文件系统解释，发现程序在解释某些文件系统元文件的时候报错。北亚数据恢复工程师立刻对程序做debug调试，分析程序报错起因，同时剖析ZFS文件系统是否因为版本起因导致程序不反对。通过长达7小时的剖析与调试，最终发现ZFS文件系统因存储瘫痪而导致其中某些元文件损坏，从而导致ZFS文件系统解释程序无奈失常解释。

10、对损坏的文件系统元文件做修复能力失常解析ZFS文件系统。通过对损坏的元文件剖析，北亚数据恢复工程师发现：因当初ZFS文件正在进行IO操作的同时存储瘫痪，导致局部文件系统元文件没有更新或者损坏。北亚数据恢复工程师对这些损坏的元文件进行手工修复，保障ZFS文件系统可能失常解析。

11、对修复后的文件系统进行解析并验证最新数据。通过服务器管理员的亲自验证，确认服务器内所有数据被胜利复原。