乐趣区

关于数据恢复:服务器数据恢复磁盘坏道导致RAID5崩溃服务器不可用的数据恢复案例

服务器数据恢复环境:
某单位一台某品牌 DS 系列服务器连贯 4 个扩大柜;
50 块磁盘组建两组 RAID5,其中一组由 27 块磁盘组建的 RAID5 寄存的是 Oracle 数据库文件;
下层一共划分 11 个卷。

服务器故障:
磁盘故障导致寄存 Oracle 数据库文件的 RAID5 解体,服务器不可用。

服务器数据恢复过程:
硬件工程师先对故障服务器的 27 块磁盘进行硬件故障检测,发现其中的 2 块磁盘存在坏道,SMART 谬误冗余级别曾经超过阈值。对另外的 25 块无硬件故障的磁盘做全盘镜像,对 2 块有坏道的磁盘进行复原并生成镜像文件。
收集故障服务器的日志信息并进行剖析,查明两块存在坏道的磁盘掉线先后顺序,用后掉线的磁盘进行数据恢复。
通过北亚数据恢复工程师团队会诊最终敲定两套数据恢复计划:
计划一:把故障服务器所有硬盘都备份后通过该品牌自带存储管理软件强制上线。
计划二:通过剖析硬盘底层获取 raid 相干信息,利用获取到的信息重组 RAID,提取数据并从新加载 oracle 数据库,调试下层利用。
执行第一套计划,先在模拟器上测试,测试实现后通过该品牌自带的存储管理软件进行强制上线。强制上线后发现 raid 处于降级状态,这时设置好热备盘上线并开始同步数据,同步完之后发现下层的卷曾经能够间接应用,所有数据可见,下层利用可失常应用。
尽管下层的卷能够应用,数据也都可见,然而出于平安思考,北亚数据恢复工程师将卷里的文件都拷贝进去移交给用户,通过用户重复测试后确认复原数据残缺可用。

Tips:
1、服务器产生故障后,切忌对服务器进行操作;也不要随便取出硬盘,免得弄乱盘序。
2、如果须要取出硬盘,标记好硬盘的程序之后再取出。
3、服务器阵列瘫痪后应该立刻断电,不要做同步或强制上线操作,避免数据进一步毁坏。

退出移动版