关于数据恢复:服务器数据恢复断电导致存储raid6阵列瘫痪的数据恢复案例

6次阅读

共计 2061 个字符,预计需要花费 6 分钟才能阅读完成。

服务器数据恢复环境:
某品牌存储中 12 块 SAS 硬盘组成 RAID6,分成一个卷,调配给几台 Vmware ESXI 主机做共享存储;
卷中寄存肯定数量的 Windows 虚拟机,数据盘都是精简模式。

服务器存储故障:
机房断电后开机存储不可用。通过管理员检测诊断后初步判断是断电导致的存储阵列瘫痪。服务器管理员分割咱们数据恢复核心进行数据恢复。

服务器存储数据恢复过程:
1、服务器数据恢复工程师将故障存储的所有磁盘连贯到一台 Windows Server 服务器上,故障磁盘都设为脱机(只读)状态,连贯状态如下图所示:(图中 HD1-HD12 为指标备份磁盘,HD13-HD24 为源故障磁盘):

2、应用工具以底层形式读取 HD13-HD24 的扇区时发现了大量扇区损坏,初步判断这种硬盘的读取机制比拟独特。尝试更换操作主机、HBA 卡、扩大柜和操作系统,但均呈现雷同故障。与服务器管理员沟通后得悉此控制器对磁盘其实没有特殊要求。

3、应用业余工具对硬盘损坏扇区的散布法则进行检测,后果发现:
a、损坏扇区散布以 256 个扇区为单位。
b、除损坏扇区片段的起始地位不固定外,前面的损坏扇区都是以 2816 个扇区为距离。所有磁盘的损坏扇区散布如下表(只列出前 3 个损坏扇区):

北亚服务器数据恢复工程师长期编写小程序,跳过每块磁盘的损坏扇区,镜像完所有磁盘的数据。

服务器存储故障剖析:

1、剖析损坏扇区。
剖析损坏扇区发现损坏扇区呈规律性呈现:每段损坏扇区区域大小总为 256;损坏扇区散布为固定区域,每跳过 11 个 256 扇区遇到一个坏的 256 扇区;损坏扇区的地位始终存在于 RAID 的 P 校验或 Q 校验区域;所有硬盘中只有 10 号盘中有一个天然坏道。

2、剖析分区大小。
对 HD13、HD23、HD24 的 0 - 2 扇区做剖析,后果发现分区大小和控制器中保留的 RAID 信息区域大小吻合。依据物理硬盘底层的体现发现原存储并未启用存储中罕用的 DA 技术 (520 字节扇区)。
分区大小如下图(GPT 分区表项底层体现,涂色局部示意分区大小,单位 512 字节扇区,64bit):

3、重组 RAID:

a、剖析 RAID 构造。
存储应用的是规范的 RAID6,只须要获取到 RAID 中硬盘数量以及 RAID 的走向就能够重组 RAID。

b、剖析 RAID 条带大小。
整个存储被分成一个卷调配给几台 ESXI 做共享存储。卷的文件系统是 VMFS 文件系统,而 VMFS 卷中又有寄存了大量的 Windows 虚拟机。Windows 虚拟机中大多应用的是 NTFS 文件系统,因而能够依据 NTFS 中的 MFT 的程序剖析出 RAID 条带的大小以及 RAID 的走向。

c、剖析 RAID 是否存在掉线盘。
镜像完所有磁盘后发现最初一块硬盘中并没有像其余硬盘一样有大量的坏道,其中有大量未损坏扇区,这些未损坏扇区大多是全 0 扇区,因而能够判断这块硬盘是热备盘。

d、重组 RAID
依据剖析获取到的 RAID 信息重组 RAID,重组后能看到目录构造,然而不确定是否为最新状态。服务器数据恢复工程师随机检测了几个虚拟机发现局部虚拟机失常,初步判断 RAID 中存在掉线的磁盘。顺次将 RAID 中的每一块磁盘踢掉,而后查看方才数据异样的中央但并没有发现问题。仔细分析底层数据发现问题不是出在 RAID 层面,而是出在 VMFS 文件系统上。VMFS 文件系统如果大于 16TB 的话会存在一些其余的记录信息,因而在组建 RAID 的时候须要跳过这些记录信息。再次重组 RAID 后针对其中的一台虚拟机做验证,发现将所有磁盘退出 RIAD 后这台虚拟机是能够启动的,但在缺盘的状况下启动就有问题,因而能够判断 RAID 不缺盘的状态为最佳。

4、验证数据:

a、验证虚拟机。
对较为重要的虚拟机做验证,发现虚拟机大多能够开机进入登录界面;局部虚拟机开机蓝屏或开机检测磁盘,应用光盘修复后都能够启动。
局部虚拟机开机如下:

b、验证数据库。
对重要虚拟机中的数据库做验证没有发现问题,除了其中一个数据库短少局部数据。通过认真核查后发现这些数据在数据库中原本就不存在。通过查问 master 数据库中的零碎视图,查出原来的所有数据库信息如下:

c、检测整个 VMFS 卷是否残缺。
因为虚拟机数量很多,如果每台都去做验证所破费工夫太长。咱们对整个 VMFS 卷做检测发现局部虚拟机或虚拟机的文件被毁坏,列表如下:

5、复原数据:

a、服务器数据恢复工程师和管理员沟通了目前数据恢复的状况。管理员对几台重要的虚拟机进行验证后,用户反馈复原进去的数据没有问题。数据恢复工程师立刻着手复原所有数据。

b、筹备好指标阵列,将重组的 RAID 数据镜像到指标阵列上。而后利用工具解析整个 VMFS 文件系统。因为局部虚拟机的数据盘很大但数据很少,能够间接导出数据而后新建一个虚构磁盘,最初将导出的数据拷贝至新建的虚构磁盘中即可。

c、通过上述办法将复原进去的虚拟机一台一台的复原到用户的 ESXI 中。后续的数据迁徙过程中由北亚数据恢复工程师和用户方工程师配合实现,这里就不赘述了。

数据恢复后果:

本案例存储故障是由坏道引起的,最终复原进去的数据也有局部损坏,但不影响整体数据,最终的后果也在承受范畴内。

正文完
 0