关于数据恢复:raid5热备盘同步失败的数据恢复案例

11次阅读

共计 1046 个字符,预计需要花费 3 分钟才能阅读完成。

服务器数据恢复环境:
华为 s 系列服务器;
24 块硬盘组成一组 raid5 磁盘阵列,其中蕴含 1 块热备盘。

服务器故障 & 检测:
服务器工作状态下 raid5 中有一块硬盘离线,热备盘激活替换离线硬盘并开始进行数据同步,在同步的过程中该 raid5 阵列内的另一块硬盘因为未知起因离线,下层利用解体,服务器内的数据失落。
拿到故障服务器内的所有硬盘后,硬件工程师对所有硬盘进行物理故障检测,发现除了其中的一块硬盘外,其余硬盘均能够失常读取无物理故障。

服务器数据恢复过程:
1、将故障服务器内所有硬盘以只读形式做残缺的镜像备份,后续数据分析和数据恢复操作都基于镜像文件进行,防止对原始数据造成二次毁坏。
2、因为华为 s 系列服务器的控制器的磁盘检测策略十分严格。对于没有物理故障但性能不稳固的硬盘,控制器会将其视作坏盘踢出阵列。之前检测到只有一块硬盘存在物理故障,因而故障服务器中掉线的两块盘中另外一块是因为读写不稳固被视作坏盘踢出而掉线。
3、对每一块硬盘底层进行剖析,获取到 raid 阵列的条带大小、数据走向、硬盘程序、热备盘、数据库的散布法则等 raid 相干信息。依据剖析获取到的 raid 阵列信息重组 raid。
4、依据剖析获取到的阵列相干信息,应用北亚企安自主研发的工具重组原始 raid5 阵列。
5、在重组过程中发现有一块硬盘内的数据在同步时候被毁坏。因为在数据恢复过程中须要将数据被损坏的硬盘排除,于是数据恢复工程师对所有硬盘进行了底层数据结构的比照。比照发现其中一块硬盘在雷同条带上的数据与其余硬盘显著不同。
6、应用北亚自主研发的 raid 校验程序对该硬盘进行条带校验,确认该硬盘数据曾经在同步的时候被毁坏。排除这块硬盘后重组 raid5 磁盘阵列。
7、实现 raid 阵列重组后,剖析 lun 在 raid 中的分配情况及数据块 map。只有能将 map 残缺提取进去,就能够进行解析并提取 lun 数据。
8、北亚企安数据恢复工程师编写文件系统解析程序对阵列内文件系统进行解析并导出数据库文件。
9、由数据库工程师对提取的数据库文件进行校验和修复。数据库工程师对数据库文件进行验证后发现局部数据库文件及日志文件异样,表空间内存在大量坏块、所有管制文件被毁坏,undotbs02 失落,数据库工程师对数据库文件进行了修复。
修复过程:

数据验证:
通过数据库工程师对数据库文件的修复和验证,最终复原出所有的数据库文件。服务器数据恢复工程师将修复胜利的数据库数据导入到筹备好的环境中进行验证,所有数据失常。分割用户亲自对数据进行验证均无异样。本次数据恢复工作实现。

正文完
 0