共计 1292 个字符,预计需要花费 4 分钟才能阅读完成。
服务器故障:
服务器内两块硬盘掉线,lun 失落。
服务器故障检测剖析:
硬件工程师对故障服务器进行检测发现掉线的硬盘没有坏道和其余物理故障,对故障服务器所有硬盘进行镜像备份。
须要进行数据恢复的故障服务器硬盘无物理故障,能够判断硬盘掉线的起因是硬盘读写不稳固,被控制器默认将读写不稳固的硬盘当作坏盘踢出,掉线硬盘数超过了 2 个后就会导致服务器不可用,此时通过惯例形式是无奈进行数据恢复的。
通过剖析该服务器内的 raid 条目存储模式,获知每个硬盘的不同块组成一个 raid 条目,服务器数据恢复工程师解析进去 raid 条目信息后发现每个 LUN 都有一份 LUN_MAP。EVA 将 LUN_MAP 别离寄存在不同的磁盘中,应用一个索引来指定其地位。找出每个磁盘中指向 LUN_MAP 的索引就能够找到现存 LUN 的信息了。
服务器数据恢复过程:
1、通过剖析确定硬盘是因为性能起因掉线,掉线硬盘中一部分数据是老旧数据。因为 LUN 的阵列大多是 RAID5,只须要将一个 LUN 的 RAID 条目通过 RAID5 的校验算法算出校验值,再和原有的校验值作比拟就能够判断这个条目中是否有掉线盘。而将一个 LUN 的所有 LUN_MAP 都校验一遍就能够晓得这个 LUN 中哪些 RAID 条目中有掉线盘。而这些 RAID 条目中都存在的那个盘就肯定是掉线盘。
2、排除掉线盘,而后依据 LUN_MAP 复原所有 LUN 的数据。
3、上述的故障剖析以及解决方案须要编写程序实现。北亚数据恢复工程师编写扫描 LUN_MAP 的程序扫描全副 LUN_MAP,联合人工剖析获取最准确的 LUN_MAP。
4、数据恢复工程师编写检测 RAID 条目标程序检测所有 LUN 中掉线的磁盘,联合人工剖析排除掉线的磁盘。
5、数据恢复工程师编写 LUN 数据恢复程序,联合 LUN_MAP 复原所有 LUN 数据。
6、依据性能需要去编写不同的程序,最初应用 LUN 数据恢复程序联合 LUN_MAP 复原所有 LUN 的数据。而后人工核查每个 LUN,确认复原进去的数据是否和服务器管理员提出的需要统一。
服务器复原数据验证:
从服务器管理员那里获知:所有 LUN 的数据分两块:一部分是 Vmware 虚拟机,一部分是 HP-UX 上的裸设施。裸设施里寄存 Oracle 的 dbf 数据库。因为复原进去的数据是 LUN,无奈看到外面的文件,因而须要将这些 LUN 通过人工来核查哪些 LUN 是寄存 Vmware 的数据,哪些是 HP-UX 的裸设施里的 Oracle 的 dbf 数据库数据。而后将 LUN 挂载到不同的验证环境中来验证复原进去的数据是否残缺。
1、在一台服务器上安装 ESXI 虚拟环境,通过 iSCSI 的形式将复原进去的 LUN 挂载到虚拟主机上。因为 ESXI 版本的起因无奈间接扫描到 vmfs 卷。于是将所有合乎 vmware 虚拟机的 LUN 外面的虚拟机文件都生成进去,而后通过 NFS 共享的形式挂载到虚拟主机上,而后将虚拟机一个一个的增加到清单。
2、验证 vmfs 虚拟机。通过 NFS 将所有虚拟机都增加到虚拟主机当前将所有虚拟机开机,所有虚拟机都能失常启动零碎。由服务器管理员输出明码进入每个虚拟机的操作系统,验证虚拟机外面的数据,确认复原进去的数据没问题。至此,本案例数据恢复胜利。