服务器故障环境:
HP MSA 某型号存储,8 块 SAS 的硬盘组建 RAID5 磁盘阵列,其中包含 1 块热备盘。故障存储中基于该 RAID 组的 LUN 均调配给 HP-Unix 小机应用,下层做的 LVM 逻辑卷,存储的数据为 Oracle 数据库及 OA 服务端。
服务器故障:
RAID5 磁盘阵列中 2 块磁盘未知起因离线,阵列中的热备盘尽管胜利激活,RAID5 磁盘阵列瘫痪,下层 LUN 不可用。
服务器数据恢复过程:
1、因为存储中 RAID 阵列解体是因为磁盘掉线导致的,拿到磁盘后先由硬件工程师对故障存储中的所有磁盘做物理故障检测,检测后没有发现硬盘存在物理故障。应用坏道检测工具检测磁盘坏道,也没有发现坏道。
2、将故障存储中所有硬盘以只读形式做残缺的镜像备份,后续的数据分析和数据恢复操作都基于镜像文件进行,防止数据恢复操作可能对原始数据造成二次毁坏。
局部备份数据:
3、因为故障存储中所有磁盘不存在物理故障,也没有发现坏道,所以磁盘离线起因就是某些磁盘读写不稳固。因为该品牌存储的 RAID 控制器针对磁盘的检测策略比拟严格,极大可能性把性能不稳固的磁盘认定为坏盘并踢出 RAID 组。一旦 RAID 组中掉线的磁盘数量超过该 RAID 级别容许掉盘的最大数量,这个 RAID 组就会解体,下层基于 RAID 组的 LUN 也将不可用。
4、剖析 RAID 组的信息如条带大小,磁盘程序及数据走向等,而后依据剖析获取到的 raid 信息重构 RAID 组。通过剖析发现其中一块盘的数据和其它盘不太一样,初步判断这块盘就是热备盘。剖析其余数据盘(除了热备盘)的底层,搞清楚 Oracle 数据库页在每个磁盘中散布的状况。
5、剖析数据盘中的数据发现有一块硬盘在同一个条带上的数据和其余硬盘不一样,初步判断此盘是先掉线的,通过北亚企安自主开发的 RAID 校验程序对这个条带做校验,最终确定这块盘就是先掉线的那块硬盘。
6、因为 LUN 是基于 RAID 组的,将 RAID 组重构进去之后就开始剖析 LUN 在 RAID 组中的分配情况以及 LUN 调配的数据块 MAP。将每一个 LUN 的数据块散布 MAP 提取进去,而后针对这些信息编写程序解析所有 LUN 的数据 MAP,而后依据数据 MAP 导出所有 LUN 的数据。
7、剖析生成进去的所有 LUN,发现所有 LUN 中均蕴含 HP-Unix 的 LVM 逻辑卷信息。尝试解析每个 LUN 中的 LVM 信息后发现一共有 3 个 LVM:其中 1 个 LVM 中划分了一个 LV,外面寄存 OA 服务器端的数据;另外 1 个 LVM 中也划分了一个 LV,外面寄存长期备份数据;最初 1 个 LVM 也只划分了一个 LV,外面寄存 Oracle 数据库文件。北亚企安数据恢复工程师编写 LVM 解释程序解释每个 LVM 中的 LV 卷,但在解释过程中程序出错。
8、仔细分析程序报错的起因,由开发工程师 debug 程序出错的地位,并同时检测复原进去的 LUN,检测 LMV 逻辑卷的信息是否损坏。通过检测发现 LVM 信息曾经损坏。尝试人工修复损坏的区域,并同步批改 LVM 解释程序从新解析 LVM 逻辑卷。
9、搭建 HP-Unix 环境,将解释进去的 LV 卷映射到 HP-Unix 并尝试挂载文件系统,后果挂载文件系统出错。尝试应用“fsck –F vxfs”命令修复 vxfs 文件系统,修复实现后发现还是不能胜利挂载。狐疑是底层 vxfs 文件系统的局部元数据曾经毁坏。
10、剖析解析进去的 LV 并依据 VXFS 文件系统的底层构造校验此文件系统是否残缺。剖析后果发现底层 VXFS 文件系统有问题,存储设备瘫痪的时候文件系统正在执行 IO 操作,局部文件系统元文件损坏。北亚企安数据恢复工程师手工修复这些损坏的元文件,直至 VXFS 文件系统可能被失常解析。
11、再次将修复好的 LV 卷挂载到 HP-Unix 小机上,尝试 Mount 文件系统,文件系统胜利挂载。
12、在 HP-Unix 小机上 mount 文件系统后,将所有用户数据均备份至指定的磁盘空间。
局部文件目录:
13、应用工具检测每个 Oracle 数据库文件的完整性,没有发现问题。应用北亚企安自主开发的 Oracle 数据库检测工具(测验更严格)进行检测,发现有局部 Oracle 数据库文件和日志文件校验不统一。数据库工程师对这部分文件进行修复并再次校验,直到所有 Oracle 数据库文件校验通过。
14、将复原进去的 Oracle 数据库附加到原始生产环境的 HP-Unix 服务器中,启动 Oracle 数据库胜利。
数据验证:
在用户方工程师的配合下,启动 Oracle 数据库和 OA 服务端。通过笔记本电脑上装置的 OA 客户端对最新的数据记录以及历史数据记录进行重复验证,并且安顿用户方公司不同部门人员进行近程验证。最终确认数据无误,残缺可用。本次数据恢复工作实现。