关于数据恢复:服务器数据恢复EVA存储硬盘故障导致上层应用不可用的数据恢复案例

5次阅读

共计 1722 个字符,预计需要花费 5 分钟才能阅读完成。

EVA 系列存储是一款以虚拟化存储为实现目标的中高端存储设备。EVA 存储中的数据在 EVA 存储设备工作过程中会一直进行迁徙,如果运行的工作比较复杂,EVA 存储磁盘负载减轻,很容易呈现故障的。EVA 存储通过大量磁盘的冗余空间和故障后 rss 冗余磁盘动静迁徙来爱护存储中的数据安全,但如果掉线磁盘越来越多,这种爱护数据安全的能力会超过阈值,直至存储解体。上面分享一个 EVA 存储的数据恢复案例。

EVA 存储故障 & 检测:
硬件架构:EVA 某型号控制器 +EVA 扩大柜 + 若干 FC 磁盘。磁盘故障导致 EVA 存储中的 LUN 不可用,下层利用无奈失常应用。
北亚企安数据恢复工程师拿到故障存储后,将所有磁盘编号后取出,对所有磁盘做物理故障检测,通过检测发现所有磁盘不存在物理故障,也没有在磁盘中发现大量的坏道。
将所有磁盘以只读形式做全盘镜像备份,镜像实现后依照编号将所有磁盘还原到原存储设备中,后续的数据分析和数据恢复操作在镜像文件上进行,防止对原始磁盘数据造成二次毁坏。

EVA 存储故障剖析:
磁盘没有发现物理故障或者大量坏道,服务器数据恢复工程师初步判断故障的起因是某些磁盘读写不稳固。EVA 控制器针对磁盘的检测策略十分严格,EVA 控制器通常状况下会认定性能不稳固商务磁盘为坏盘并踢出磁盘组。一旦某个 LUN 的同一个条带中掉线的盘达到极限,这个 LUN 将不可用。也就是说如果 EVA 中所有的 LUN 都蕴含这些掉线的盘,这些 LUN 都会受影响。所以局部磁盘故障掉线也可能会导致存储无奈失常应用。
EVA 存储中的 LUN 是以 RAID 条目标模式来存储数据的。EVA 存储将每个磁盘的不同块组成一个 RAID 条目,RAID 条目有数种类型。如果要复原数据就须要剖析出组成 LUN 的 RAID 条目类型以及 RAID 条目是由哪些盘的哪些块组成的。这些信息都寄存在 LUN_MAP 中,每个 LUN 都有一份 LUN_MAP。EVA 将 LUN_MAP 别离寄存在不同的磁盘中并应用一个索引来指定其地位。因而在磁盘中找到这个指向 LUN_MAP 的索引就能够找到现存 LUN 的信息了。
因为 EVA 存储中掉线的磁盘存在古老的数据,在复原数据的时候须要将这些磁盘都排除掉。因为 LUN 中的阵列是 RAID5,将一个 LUN 的 RAID 条目通过 RAID5 的校验算法算出校验值,再和原有的校验值作比拟就能够判断这个条目中是否有掉线盘。而将一个 LUN 的所有 LUN_MAP 都校验一遍就能够晓得这个 LUN 中哪些 RAID 条目中有掉线硬盘。这些 RAID 条目中都存在的那个盘就肯定是掉线盘。排除掉线盘后通过 LUN_MAP 复原出所有 LUN 数据即可。

EVA 存储数据恢复过程:
1、北亚企安数据恢复工程师编写扫描 LUN_MAP 的程序扫描全副 LUN_MAP,而后通过人工剖析确定 LUN_MAP。
2、编写检测 RAID 条目标程序检测所有 LUN 中掉线的磁盘,而后通过人工剖析排除掉线的磁盘。
3、编写 LUN 数据恢复程序,联合 LUN_MAP 复原所有 LUN 数据。人工核查每个 LUN,确认是否和用户方形容的统一。
局部 LUN 的数据:

4、剖析复原进去的 LUN,重组 & 解析 ASM 磁盘组。
剖析每个 LUN 前端的构造数据,依据 ASM 磁盘头构造来辨别哪些 LUN 是属于 ASM 磁盘组的。通过剖析共发现有 2 套 ASM 磁盘组。每个 ASM 磁盘组蕴含的 LUN 中的分区状况如下:

应用 ASM 构造解析工具解析和修复 ASM 磁盘组,解析出此 ASM 中存储的所有数据库文件。

将解析进去的数据库文件依照文件类型分组导出并对导出数据进行检测。

应用 ASM 解析工具复原出所有的数据库文件。
5、依据用户方的形容,所有 LUN 的数据分成两大部分:Vmware 的虚拟机和 ORACLE 上的 ASM 磁盘组数据。ASM 磁盘组中寄存的是 Oracle 的 dbf 数据库文件。因为通过复原进去的 LUN 无奈间接看到外面的文件,人工核查哪些 LUN 寄存 Vmware 的数据,哪些 LUN 寄存 ASM 设施,而后将 LUN 挂载到不同的验证环境中验证复原的数据的完整性(验证过程就不赘述了)。
6、验证没有问题后,将 vmware 虚拟机文件和 Oracle 数据库文件移交给用户方。用户方将移交的数据上传至后盾,程序可失常运行,没有发现问题,用户认可复原后果。运行状况如下。

运行规定:

运行变更摘要:

正文完
 0