关于数据恢复:服务器数据恢复某品牌MSA-SAN存储数据恢复案例

53次阅读

共计 2003 个字符,预计需要花费 6 分钟才能阅读完成。

服务器数据恢复环境:
某品牌 MSA SAN Storage 存储;
共 8 块 SAS 硬盘:7 块硬盘组成 RAID5,1 块热备盘;
基于 RAID5 的 LUN 有 6 个,均调配给 HP-Unix 小机应用,下层做的 LVM 逻辑卷,重要数据为 Oracle 数据库及 OA 服务端。

服务器故障:
RAID5 有 2 块硬盘损坏,只有一块热备盘激活,RAID5 瘫痪,下层 LUN 无奈应用。服务器管理员分割咱们数据恢复核心进行数据恢复。

服务器数据恢复过程:
1、北亚服务器数据恢复工程师收到硬盘当前检测所有硬盘没有发现物理故障,应用硬盘坏道检测工具检测也没有发现坏道。

2、备份数据。应用工具将所有硬盘都镜像成文件。

3、故障剖析:
因为硬盘没有发现坏道和其余物理故障,服务器数据恢复工程师初步判断 RAID 故障的起因是某些磁盘读写不稳固。因为该型号存储控制器的磁盘检测策略严格,会把性能不稳固磁盘认定为坏盘并踢出 RAID 组。一旦掉线的盘超过该 RAID 容许掉盘的极限,该 RAID 将不可用,下层基于 RAID 的 LUN 也会不可用。

4、剖析 RAID 构造:
该存储的 LUN 都是基于 RAID 的,因而须要先剖析底层 RAID 信息,而后依据剖析获取到的信息重构原始 RAID。服务器数据恢复工程师通过剖析发现 4 号盘的数据同其余盘不太一样,初步判断该盘是 hot Spare 盘。接着剖析其余盘,剖析 Oracle 数据库页在每个磁盘中散布的状况,并依据数据分布的状况剖析出 RAID 条带大小、磁盘程序、数据走向等
RAID 信息。

5、剖析 RAID 掉线盘:
依据剖析获取到的 RAID 信息应用北亚自主开发的 RAID 虚构程序将原始的 RAID 虚构重构。但因为该 RAID 一共掉线两块盘,因而须要剖析这两块硬盘掉线的程序。服务器数据恢复工程师剖析每一块硬盘中的数据后发现有一块硬盘在同一个条带上的数据和其余硬盘显著不一样,初步判断此盘是最先掉线的。通过北亚自主开发的 RAID 校验程序对这个条带做校验,最终确定最先掉线的硬盘了。

6、剖析 RAID 中的 LUN 信息:
因为 LUN 是基于 RAID 的,将 RAID 虚构重构进去当前剖析 LUN 在 RAID 中的分配情况和 LUN 调配的数据块 MAP。只须要将每一个 LUN 的数据块散布 MAP 提取进去,而后针对这些信息编写相应的程序对所有 LUN 的数据 MAP 做解析,而后依据数据 MAP 导出所有 LUN 的数据即可。

7、解析 LVM 逻辑卷:
对导出来的 LUN 数据做剖析发现所有 LUN 中均蕴含 HP-Unix 的 LVM 逻辑卷信息。通过解析每个 LUN 中的 LVM 信息发现一共有三个 LVM,一个 LVM 中划分了一个 LV,寄存 OA 服务器端的数据;另外一个 LVM 中划分了一个 LV,寄存长期备份数据;残余 4 个 LUN 组成一个 LVM,划分了一个 LV,寄存 Oracle 数据库文件。北亚服务器数据恢复工程师编写 LVM 解释程序将每个 LVM 中的 LV 卷解释进去,但解释程序出错。

8、修复 LVM 逻辑卷:
分析程序报错的起因,开发工程师 debug 程序出错的地位。文件系统工程师对复原进去的 LUN 做检测,检测存储瘫痪是否会导致 LMV 逻辑卷的信息损坏。通过检测发现存储瘫痪的确导致 LVM 信息损坏。人工对损坏的区域进行修复,并同步批改程序,从新解析 LVM 逻辑卷。

9、解析 VXFS 文件系统:
搭建 HP-Unix 环境,将解释进去的 LV 卷映射到 HP-Unix,并尝试 Mount 文件系统。后果 Mount 文件系统出错,尝试应用“fsck –F vxfs”命令修复 vxfs 文件系统,但修复后还是不能挂载。剖析可能是底层 vxfs 文件系统的局部元数据可能被毁坏,须要进行手工修复。

10、修复 VXFS 文件系统:
服务器数据恢复工程师对解析进去的 LV 进行剖析,依据 VXFS 文件系统的底层构造校验此文件系统是否残缺。通过剖析发现底层 VXFS 文件系统有问题,存储瘫痪的同时文件系统正在执行 IO 操作,局部文件系统元文件损坏。手工修复这些损坏的元文件保障 VXFS 文件系统可能失常解析。将修复好的 LV 卷挂载到 HP-Unix 小机上尝试 Mount 文件系统,文件系统没有报错,胜利挂载。

11、复原所有用户文件:
在 HP-Unix 机器上 mount 文件系统后将所有数据均备份至指定磁盘空间。

12、检测数据库文件是否残缺:
应用 Oracle 数据库文件检测工具检测每个数据库文件是否残缺,没有发现错误。应用北亚自主研发的 Oracle 数据库检测工具检测,发现有局部数据库文件和日志文件校验不统一,安顿数据库工程师对此类文件进行修复并再次校验,直到所有文件通过校验。

13、启动 Oracle 数据库:
将复原进去的 Oracle 数据库附加到原始生产环境的 HP-Unix 服务器中尝试启动 Oracle 数据库,Oracle 数据库启动胜利。

数据验证:
启动 Oracle 数据库和 OA 服务端,在本地电脑装置 OA 客户端,通过 OA 客户端对最新的数据记录以及历史数据记录进行验证,并且安顿不同部门人员进行近程验证。通过验证确认数据残缺无误,数据恢复胜利。

正文完
 0