关于数据恢复:服务器数据恢复raid5崩溃导致lvm信息和VXFS文件系统损坏的数据恢复案例

37次阅读

共计 1852 个字符,预计需要花费 5 分钟才能阅读完成。

服务器数据恢复环境:
8 块 SAS 硬盘中的 7 块硬盘组成 RAID5 阵列,1 块作为热备盘。

服务器故障:
故障服务器存储中的 RAID5 阵列有 2 块硬盘损坏离线,RAID5 阵列瘫痪,影响下层 LUN 无奈失常应用。管理员分割咱们数据恢复核心进行数据恢复,硬件工程师检测硬盘没有发现物理故障和坏道。

服务器数据恢复过程:
1、备份数据。应用数据恢复工具将所有磁盘镜像备份。

2、剖析 RAID 构造。
故障服务器的 LUN 都是基于 RAID 的,须要先剖析底层 RAID 的信息,再根据剖析获取到的 raid 相干信息重构原始 RAID。通过剖析获知 4 号盘为 hot Spare 盘。剖析 Oracle 数据库页在每个磁盘中的散布状况得出 RAID 组的条带大小,磁盘程序及数据走向等 RAID 组的重
要信息。

3、剖析 RAID 掉线盘。
利用剖析获取到的 RAID 信息,通过北亚自主开发的 RAID 虚构程序将原始的 RAID 拟进去。仔细分析每一块硬盘中的数据,通过北亚自主开发的 RAID 校验程序对条带做校验,将最先掉线的硬盘剔除出 raid。

4、剖析 RAID 组中的 LUN 信息。
将 RAID 最新的状态虚构进去当前剖析 LUN 在 RAID 中的分配情况和 LUN 调配的数据块 MAP。只须要将底层 6 个 LUN 的数据块散布 MAP 提取进去,而后针对这些信息编写相应的程序对所有 LUN 的数据 MAP 做解析,依据数据 MAP 导出所有 LUN 的数据。

5、解析 LVM 逻辑卷。
剖析生成进去的所有 LUN,发现所有 LUN 中均蕴含 HP-Unix 的 LVM 逻辑卷信息。尝试解析每个 LUN 中的 LVM 信息,发现一共有三套 LVM:其中一套 LVM 中划分了一个 LV,寄存 OA 服务器端的数据,另外一套 LVM 中划分了一个 LV,寄存长期备份数据
。其余 4 个 LUN 组成一套 LVM 并划分了一个 LV,寄存 Oracle 数据库文件。北亚数据恢复工程师编写解释 LVM 的程序尝试将每套 LVM 中的 LV 卷解释进去,但解释程序出错。

6、修复 LVM 逻辑卷。
仔细分析报错的起因,由开发工程师 debug 程序出错的地位并由高级文件系统工程师检测复原进去的 LUN,检测存储瘫痪是否导致 LMV 逻辑卷的信息损坏。通过认真检测,发现存储瘫痪的确导致了 LVM 信息损坏。尝试人工对损坏的区域进行修复,并批改 LVM 解释程序从新解析 LVM 逻辑卷。

7、解析 VXFS 文件系统。
搭建 HP-Unix 环境并将解释进去的 LV 卷映射到 HP-Unix,尝试 Mount 文件系统。后果 Mount 文件系统出错,尝试应用“fsck –F vxfs”命令修复 vxfs 文件系统,修复实现后还是不能挂载,狐疑底层 vxfs 文件系统的局部元数据被毁坏,须要进行手工修复。

8、修复 VXFS 文件系统。
仔细分析解析进去的 LV,并依据 VXFS 文件系统的底层构造校验此文件系统是否残缺。通过剖析发现底层 VXFS 文件系统有问题,起因是存储瘫痪的时候文件系统正在执行 IO 操作,因而局部文件系统元文件没有更新导致损坏。对这些损坏的元文件进行手工修复让 VXFS 文件系统可能失常解析。再次将修复好的 LV 卷挂载到 HP-Unix 小机上,尝试 Mount 文件系统没有报错,胜利挂载。

9、复原所有用户文件。
在 HP-Unix 机器上 mount 文件系统后将所有用户数据均备份至指定磁盘空间。局部文件目录截图如下:

10、检测数据库文件是否残缺。
应用 Oracle 数据库文件检测工具“dbv”检测每个数据库文件是否残缺,没有发现错误。应用北亚自主研发的 Oracle 数据库检测工具检测发现有局部数据库文件和日志文件校验不统一,数据库工程师对此类文件进行修复并再次校验,直到所有文件校验齐全通过。

11、启动 Oracle 数据库。
因为咱们数据恢复核心提供的 HP-Unix 环境没有此版本的 Oracle 数据库,和用户协调将原始环境带至北亚数据恢复核心,而后将复原进去的 Oracle 数据库附加到原始生产环境的 HP-Unix 服务器中并尝试启动 Oracle 数据库,启动胜利。局部截图如下:

12、数据验证。
由用户方配合启动 Oracle 数据库,启动 OA 服务端,在本地电脑端装置 OA 客户端。通过 OA 客户端对最新的数据记录以及历史数据记录进行验证,并且安顿不同部门人员进行近程验证。最终数据验证无误,数据残缺,数据恢复胜利。

数据恢复论断:
因为故障产生后保留现场环境良好,没有做相干危险的操作,对前期的数据恢复有很大的帮忙。整个数据恢复过程中尽管遇到好多技术瓶颈,但也都一一解决。最终在预期的工夫内实现整个数据恢复,复原的数据用户方也相当称心,Oracle 数据库服务,OA 服务端等所有服务可能失常启动。

正文完
 0