服务器故障:

服务器内两块硬盘掉线,lun失落。

服务器故障检测剖析:

硬件工程师对故障服务器进行检测发现掉线的硬盘没有坏道和其余物理故障,对故障服务器所有硬盘进行镜像备份。

须要进行数据恢复的故障服务器硬盘无物理故障,能够判断硬盘掉线的起因是硬盘读写不稳固,被控制器默认将读写不稳固的硬盘当作坏盘踢出,掉线硬盘数超过了2个后就会导致服务器不可用,此时通过惯例形式是无奈进行数据恢复的。

通过剖析该服务器内的raid条目存储模式,获知每个硬盘的不同块组成一个raid条目,服务器数据恢复工程师解析进去raid条目信息后发现每个LUN都有一份LUN_MAP。EVA将LUN_MAP别离寄存在不同的磁盘中,应用一个索引来指定其地位。找出每个磁盘中指向LUN_MAP的索引就能够找到现存LUN的信息了。

服务器数据恢复过程:

1、通过剖析确定硬盘是因为性能起因掉线,掉线硬盘中一部分数据是老旧数据。因为LUN的阵列大多是RAID5,只须要将一个LUN的RAID条目通过RAID5的校验算法算出校验值,再和原有的校验值作比拟就能够判断这个条目中是否有掉线盘。而将一个LUN的所有LUN_MAP都校验一遍就能够晓得这个LUN中哪些RAID条目中有掉线盘。而这些RAID条目中都存在的那个盘就肯定是掉线盘。

2、排除掉线盘,而后依据LUN_MAP复原所有LUN的数据。

3、上述的故障剖析以及解决方案须要编写程序实现。北亚数据恢复工程师编写扫描LUN_MAP的程序扫描全副LUN_MAP,联合人工剖析获取最准确的LUN_MAP。

4、数据恢复工程师编写检测RAID条目标程序检测所有LUN中掉线的磁盘,联合人工剖析排除掉线的磁盘。

5、数据恢复工程师编写LUN数据恢复程序,联合LUN_MAP复原所有LUN数据。

6、依据性能需要去编写不同的程序,最初应用LUN数据恢复程序联合LUN_MAP复原所有LUN的数据。而后人工核查每个LUN,确认复原进去的数据是否和服务器管理员提出的需要统一。

服务器复原数据验证:

从服务器管理员那里获知:所有LUN的数据分两块:一部分是Vmware虚拟机,一部分是HP-UX上的裸设施。裸设施里寄存Oracle的dbf数据库。因为复原进去的数据是LUN,无奈看到外面的文件,因而须要将这些LUN通过人工来核查哪些LUN是寄存Vmware的数据,哪些是HP-UX的裸设施里的Oracle的dbf数据库数据。而后将LUN挂载到不同的验证环境中来验证复原进去的数据是否残缺。

1、在一台服务器上安装ESXI虚拟环境,通过iSCSI的形式将复原进去的LUN挂载到虚拟主机上。因为ESXI版本的起因无奈间接扫描到vmfs卷。于是将所有合乎vmware虚拟机的LUN外面的虚拟机文件都生成进去,而后通过NFS共享的形式挂载到虚拟主机上,而后将虚拟机一个一个的增加到清单。

2、验证vmfs虚拟机。通过NFS将所有虚拟机都增加到虚拟主机当前将所有虚拟机开机,所有虚拟机都能失常启动零碎。由服务器管理员输出明码进入每个虚拟机的操作系统,验证虚拟机外面的数据,确认复原进去的数据没问题。至此,本案例数据恢复胜利。