共计 1529 个字符,预计需要花费 4 分钟才能阅读完成。
服务器数据恢复环境:
HP-EVA 存储环境:EVA 某型号控制器 +EVA 扩大柜 +FC 硬盘。
服务器故障:
EVA 存储中两块磁盘掉线导致存储中某些 LUN 失落不可用。
服务器数据恢复过程:
1、首先对故障存储中所有磁盘做物理故障检测,通过检测没有发现有硬盘存在物理故障。应用坏道检测工具检测也没有发现坏道,磁盘坏道检测日志局部截图:
2、将故障存储中所有磁盘以只读形式做残缺镜像备份,以防后续数据恢复过程中操作不当对原始数据造成二次毁坏。局部备份数据如下:
3、因为所有磁盘没有发现物理故障或者坏道,能够判断硬盘掉线是因为磁盘读写不稳固导致的。EVA 控制器对磁盘的检测策略十分严格,EVA 控制器会认为性能不稳固的磁盘是坏盘,将认为是坏盘的磁盘踢出磁盘组。如果某个 LUN 的同一个条带中掉线的磁盘达到极限,这个 LUN 将不可用,即如果 EVA 存储中所有的 LUN 都蕴含这些掉线的盘,所有 LUN 都会受影响,所以两块磁盘掉线也会导致整个存储的 LUN 都不可用。目前的状况是现存 8 个 LUN,损坏 7 个 LUN,失落 6 个 LUN,须要复原存储中所有 LUN 的数据。
4、HP-EVA 的 LUN 都是以 RAID 条目标模式来存储数据的,EVA 将每个磁盘的不同块组成一个 RAID 条目,RAID 条目标类型能够有很多种。须要剖析出组成 LUN 的 RAID 条目类型和这个 RAID 条目是由哪些盘的哪些块组成。这些信息都寄存在 LUN_MAP 中,每个 LUN 都有一份 LUN_MAP。EVA 将 LUN_MAP 别离寄存在不同的磁盘中,应用一个索引来指定其地位。因而去每个磁盘中找到这个指向 LUN_MAP 的索引就能够找到现存 LUN 的信息。
5、尽管磁盘中记录了指向 LUN_MAP 的索引,然而它只记录现存的 LUN,失落的 LUN 是不会被记录索引的。因为 EVA 中删除一个 LUN 只会革除这个 LUN 的索引,并不会革除这个 LUN 的 LUN_MAP。所以只须要扫描所有磁盘,找到所有合乎 LUN_MAP 的数据块,排除现有的 LUN_MAP,剩下的 LUN_MAP 也不肯定全是删除的,也有一些可能是旧的。这种状况下是无奈在 LUN_MAP 中筛选的,只能先将所有 LUN_MAP 的数据都复原进去,人工去核查哪些 LUN 是删除的。
6、掉线磁盘中寄存的是一些旧的数据,在生成数据的时候须要将这些磁盘都排除掉,提取数据之前须要把这些掉线磁盘找到。因为 LUN 的 RAID 构造大多都是 RAID5,只须要将一个 LUN 的 RAID 条目通过 RAID5 的校验算法算出校验值,再和原有的校验值做比拟就能够判断这个条目中是否有掉线盘。将一个 LUN 的所有 LUN_MAP 都校验一遍就能够晓得这个 LUN 中的哪些 RAID 条目中有掉线盘,这些 RAID 条目中都存在的那个盘就肯定是掉线盘。排除掉掉线盘并依据 LUN_MAP 复原所有 LUN 的数据即可。
7、北亚企安数据恢复工程师编写扫描 LUN_MAP 的程序扫描全副 LUN_MAP,联合人工剖析获取到最准确的 LUN_MAP。编写检测 RAID 条目标程序检测所有 LUN 中掉线的磁盘,联合人工剖析排除掉掉线的磁盘。编写 LUN 数据恢复程序联合 LUN_MAP 复原所有 LUN 数据。
8、人工核查复原进去的每个 LUN,确认是否和用户方工程师形容的统一。局部 LUN 如下:
数据验证:
用户方工程师对复原进去的数据进行测验,通过重复验证后确认数据残缺可用,本次数据恢复工作实现。
EVA 存储数据安全 Tip:
1、常常巡视机房设备,发现报警信息及时处理。
2、操作存储时要审慎,防止误操作导致数据失落。
3、如果发现 EVA 控制器局部模块不稳固,应及时更换。
4、因为 EVA 存储故障多是由磁盘不稳固导致的,EVA 存储内的磁盘应该是同一批次的磁盘。因而,没有掉线的磁盘性能也快到极限,如有条件倡议一起更换这批磁盘。