服务器数据恢复环境:
某公司网站服务器,6 块 SCSI 硬盘组建 raid5 磁盘阵列;
服务器下层:linux 操作系统 +EXT3 文件系统。
服务器故障 & 剖析:
服务器在工作状态下 raid5 磁盘阵列中的一块硬盘因为未知起因离线。因为 raid5 中的一块硬盘掉线并不会影响磁盘阵列的失常工作,服务器没有出现异常,直到该 raid5 磁盘阵列中又有一块硬盘掉线,服务器瘫痪。
管理员发现服务故障后,对 raid5 磁盘阵列进行了查看,然而不能确定这两块硬盘的离线程序,抱着碰运气的想法抉择了其中一块离线硬盘尝试强制上线操作。将这块硬盘强制上线后发现操作系统启动时出现异常,为了防止再次对数据造成毁坏,管理员将服务器关机,之后没有进行任何操作。
在过来十多年中,北亚企安数据恢复工程师们常常遇到相似的 raid5 故障:因为发现不及时或者第一块硬盘掉线时不在意并没有及时处理,当第二块硬盘甚至更多的硬盘掉线时,磁盘阵列彻底解体。第二块磁盘掉线后对后离线的硬盘进行强制上线具备肯定的可操作性行,然而也有很大的危险。
强制上线最好由经验丰富的管理员或者数据恢复工程师进行操作,而且强制上线之前必须做好备份工作。这个案例就是管理员在没有备份,也没有搞清楚硬盘离线程序的状况下进行了强制上线操作,最终导致数据失落,服务器解体。
服务器数据恢复过程:
1、将故障服务器内的所有硬盘编号后取出,以只读形式对所有硬盘进行镜像备份。后续的数据分析和数据恢复操作都基于镜像文件进行,防止对原始数据造成二次毁坏。
2、在镜像过程中发现除了曾经掉线的两块硬盘外,其余没有掉线硬盘存在坏道,因为这些硬盘没有离线所以临时没有进行非凡解决。
3、备份实现后基于镜像文件剖析原 raid5 磁盘阵列的组成构造并虚构重构 raid5 环境。
4、因为管理员对磁盘阵列进行过强制上线的操作,该操作毁坏了局部数据结构。
5、验证 raid5 构造后由北亚企安数据恢复工程师手工修复被毁坏的那局部构造,导出磁盘阵列内的所有数据。通过数据恢复工程师和管理员的验证,确认复原进去的数据残缺无效。
6、在数据恢复工程师的帮助下,管理员在筹备好的服务器环境上从新搭建磁盘阵列并迁徙数据。
服务器数据恢复 Tip:
1、服务器产生故障后,切忌对服务器进行操作;也不要随便取出硬盘,免得弄乱盘序。
2、如果须要取出硬盘,标记好硬盘的程序之后再取出。
3、服务器磁盘阵列瘫痪后应该立刻断电,不要做同步或强制上线操作,避免数据进一步毁坏。
4、当服务器因为未知起因的故障而导致系统解体或者文件不辨认 / 不可用时,通常不倡议自觉地在服务器上进行数据分析和数据恢复操作。如果的确对本人的数据恢复技术有自信,必须先对原服务器的所有硬盘数据进行镜像备份,数据分析和数据恢复操作只能在镜像文件上进行,防止操作失误毁坏原始数据,让后续的数据恢复难度减少。