关于数据恢复:服务器数据恢复断电导致存储raid6阵列瘫痪的数据恢复案例

服务器数据恢复环境：
某品牌存储中12块SAS硬盘组成RAID6，分成一个卷，调配给几台Vmware ESXI主机做共享存储；
卷中寄存肯定数量的Windows虚拟机，数据盘都是精简模式。

服务器存储故障：
机房断电后开机存储不可用。通过管理员检测诊断后初步判断是断电导致的存储阵列瘫痪。服务器管理员分割咱们数据恢复核心进行数据恢复。

服务器存储数据恢复过程：
1、服务器数据恢复工程师将故障存储的所有磁盘连贯到一台Windows Server服务器上，故障磁盘都设为脱机（只读）状态，连贯状态如下图所示：(图中HD1-HD12为指标备份磁盘，HD13-HD24为源故障磁盘)：

2、应用工具以底层形式读取HD13-HD24的扇区时发现了大量扇区损坏，初步判断这种硬盘的读取机制比拟独特。尝试更换操作主机、HBA卡、扩大柜和操作系统，但均呈现雷同故障。与服务器管理员沟通后得悉此控制器对磁盘其实没有特殊要求。

3、应用业余工具对硬盘损坏扇区的散布法则进行检测，后果发现：
a、损坏扇区散布以256个扇区为单位。
b、除损坏扇区片段的起始地位不固定外，前面的损坏扇区都是以2816个扇区为距离。所有磁盘的损坏扇区散布如下表（只列出前3个损坏扇区）：

北亚服务器数据恢复工程师长期编写小程序，跳过每块磁盘的损坏扇区，镜像完所有磁盘的数据。

服务器存储故障剖析：

1、剖析损坏扇区。
剖析损坏扇区发现损坏扇区呈规律性呈现：每段损坏扇区区域大小总为256；损坏扇区散布为固定区域，每跳过11个256扇区遇到一个坏的256扇区；损坏扇区的地位始终存在于RAID的P校验或Q校验区域；所有硬盘中只有10号盘中有一个天然坏道。

2、剖析分区大小。
对HD13、HD23、HD24的0-2扇区做剖析，后果发现分区大小和控制器中保留的RAID信息区域大小吻合。依据物理硬盘底层的体现发现原存储并未启用存储中罕用的DA技术(520字节扇区）。
分区大小如下图(GPT分区表项底层体现，涂色局部示意分区大小，单位512字节扇区，64bit)：

3、重组RAID：

a、剖析RAID构造。
存储应用的是规范的RAID6，只须要获取到RAID中硬盘数量以及RAID的走向就能够重组RAID。

b、剖析RAID条带大小。
整个存储被分成一个卷调配给几台ESXI做共享存储。卷的文件系统是VMFS文件系统，而VMFS卷中又有寄存了大量的Windows虚拟机。Windows虚拟机中大多应用的是NTFS文件系统，因而能够依据NTFS中的MFT的程序剖析出RAID条带的大小以及RAID的走向。

c、剖析RAID是否存在掉线盘。
镜像完所有磁盘后发现最初一块硬盘中并没有像其余硬盘一样有大量的坏道，其中有大量未损坏扇区，这些未损坏扇区大多是全0扇区，因而能够判断这块硬盘是热备盘。

d、重组RAID
依据剖析获取到的RAID信息重组RAID，重组后能看到目录构造，然而不确定是否为最新状态。服务器数据恢复工程师随机检测了几个虚拟机发现局部虚拟机失常，初步判断RAID中存在掉线的磁盘。顺次将RAID中的每一块磁盘踢掉，而后查看方才数据异样的中央但并没有发现问题。仔细分析底层数据发现问题不是出在RAID层面，而是出在VMFS文件系统上。VMFS文件系统如果大于16TB的话会存在一些其余的记录信息，因而在组建RAID的时候须要跳过这些记录信息。再次重组RAID后针对其中的一台虚拟机做验证，发现将所有磁盘退出RIAD后这台虚拟机是能够启动的，但在缺盘的状况下启动就有问题，因而能够判断RAID不缺盘的状态为最佳。

4、验证数据：

a、验证虚拟机。
对较为重要的虚拟机做验证，发现虚拟机大多能够开机进入登录界面；局部虚拟机开机蓝屏或开机检测磁盘，应用光盘修复后都能够启动。
局部虚拟机开机如下：

b、验证数据库。
对重要虚拟机中的数据库做验证没有发现问题，除了其中一个数据库短少局部数据。通过认真核查后发现这些数据在数据库中原本就不存在。通过查问master数据库中的零碎视图，查出原来的所有数据库信息如下：

c、检测整个VMFS卷是否残缺。
因为虚拟机数量很多，如果每台都去做验证所破费工夫太长。咱们对整个VMFS卷做检测发现局部虚拟机或虚拟机的文件被毁坏，列表如下：

5、复原数据：

a、服务器数据恢复工程师和管理员沟通了目前数据恢复的状况。管理员对几台重要的虚拟机进行验证后，用户反馈复原进去的数据没有问题。数据恢复工程师立刻着手复原所有数据。

b、筹备好指标阵列，将重组的RAID数据镜像到指标阵列上。而后利用工具解析整个VMFS文件系统。因为局部虚拟机的数据盘很大但数据很少，能够间接导出数据而后新建一个虚构磁盘，最初将导出的数据拷贝至新建的虚构磁盘中即可。

c、通过上述办法将复原进去的虚拟机一台一台的复原到用户的ESXI中。后续的数据迁徙过程中由北亚数据恢复工程师和用户方工程师配合实现，这里就不赘述了。

数据恢复后果：

本案例存储故障是由坏道引起的，最终复原进去的数据也有局部损坏，但不影响整体数据，最终的后果也在承受范畴内。

关于数据恢复:服务器数据恢复断电导致存储raid6阵列瘫痪的数据恢复案例

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据恢复:服务器数据恢复断电导致存储raid6阵列瘫痪的数据恢复案例

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复