关于数据恢复:服务器数据恢复ZFS文件系统下raid5崩溃的数据恢复案例

45次阅读

共计 905 个字符,预计需要花费 3 分钟才能阅读完成。

服务器数据恢复环境:
一台 EMC 存储中数块磁盘组建了一组 raid5 磁盘阵列,阵列中有 2 块热备盘;下层采纳 ZFS 文件系统,划分了一个 lun,供 sun 小机应用。

服务器故障 & 检测:
存储在失常运行中忽然解体无奈应用,管理员查看后发现 raid5 阵列中有两块磁盘离线,阵列中有两块热备盘,其中的一块热备盘激活失败,raid5 阵列瘫痪,存储不可用。
硬件工程师对 raid5 阵列中的两块离线的磁盘进行物理故障检测,发现这 2 块离线硬盘不存在物理故障和坏道。

服务器数据恢复过程:
1、将故障存储中所有磁盘编号取出以只读形式做全盘镜像。镜像实现后将所有磁盘依照编号还原到原存储设备中。后续的数据分析和数据恢复操作都基于镜像文件进行,防止对原始磁盘数据造成二次毁坏。
2、镜像实现后将镜像数据的 520 字节扇区转换为 512 字节扇区,不便后续的数据恢复操作。
3、依据 RAID5 磁盘阵列的工作模式,LUN 都是基于 RAID 的。复原数据就须要先剖析 RAID 的底层信息,依据这些信息重构原始 RAID 阵列。数据恢复工程师基于镜像对所有磁盘底层数据进行剖析,发现阵列中 2 块磁盘离线,1 块热备盘胜利激活,另 1 块热备盘却没有胜利激活,数据未同步。
持续剖析数据在硬盘中散布的法则、RAID 条带的大小、每块磁盘的程序等 RAID 相干信息。
4、持续剖析 RAID 信息,发现有一块硬盘在同一个条带上的数据和其余硬盘显著不一样,初步判断此硬盘最先掉线。数据恢复工程师应用北亚自研 RAID 校验程序对这个条带进行校验后,确定最先掉线的硬盘。
5、通过剖析进去的 RAID 信息虚构重构 RAID。通过重构进去的 RAID 剖析 lun 的分配情况和数据块 & 导出 lun 所有数据。
6、对导出的 lun 做 ZFS 文件系统解析,但解析时报错。数据恢复工程师手动查看文件,发现局部元文件损坏。
7、北亚企安数据恢复工程师将这些损坏的文件系统元文件进行修复。通过对损坏的元文件进行剖析发现 ZFS 正在进行 IO 操作时存储瘫痪,局部文件系统元文件没有更新或者损坏。对这些损坏的元文件进行人工修复后,ZFS 文件系统就可能失常解析。
8、对修复好的 ZFS 文件系统做解析,解析所有文件节点及目录构造 & 导出,本次数据恢复工作实现。

正文完
 0