服务器数据恢复环境:
HP-EVA存储环境:EVA某型号控制器+EVA扩大柜+FC硬盘。

服务器故障:
EVA存储中两块磁盘掉线导致存储中某些LUN失落不可用。

服务器数据恢复过程:
1、首先对故障存储中所有磁盘做物理故障检测,通过检测没有发现有硬盘存在物理故障。应用坏道检测工具检测也没有发现坏道,磁盘坏道检测日志局部截图:

2、将故障存储中所有磁盘以只读形式做残缺镜像备份,以防后续数据恢复过程中操作不当对原始数据造成二次毁坏。局部备份数据如下:

3、因为所有磁盘没有发现物理故障或者坏道,能够判断硬盘掉线是因为磁盘读写不稳固导致的。EVA控制器对磁盘的检测策略十分严格,EVA控制器会认为性能不稳固的磁盘是坏盘,将认为是坏盘的磁盘踢出磁盘组。如果某个LUN的同一个条带中掉线的磁盘达到极限,这个LUN将不可用,即如果EVA存储中所有的LUN都蕴含这些掉线的盘,所有LUN都会受影响,所以两块磁盘掉线也会导致整个存储的LUN都不可用。目前的状况是现存8个LUN,损坏7个LUN,失落6个LUN,须要复原存储中所有LUN的数据。
4、HP-EVA的LUN都是以RAID条目标模式来存储数据的,EVA将每个磁盘的不同块组成一个RAID条目,RAID条目标类型能够有很多种。须要剖析出组成LUN的RAID条目类型和这个RAID条目是由哪些盘的哪些块组成。这些信息都寄存在LUN_MAP中,每个LUN都有一份LUN_MAP。EVA将LUN_MAP别离寄存在不同的磁盘中,应用一个索引来指定其地位。因而去每个磁盘中找到这个指向LUN_MAP的索引就能够找到现存LUN的信息。
5、尽管磁盘中记录了指向LUN_MAP的索引,然而它只记录现存的LUN,失落的LUN是不会被记录索引的。因为EVA中删除一个LUN只会革除这个LUN的索引,并不会革除这个LUN的LUN_MAP。所以只须要扫描所有磁盘,找到所有合乎LUN_MAP的数据块,排除现有的LUN_MAP,剩下的LUN_MAP也不肯定全是删除的,也有一些可能是旧的。这种状况下是无奈在LUN_MAP中筛选的,只能先将所有LUN_MAP的数据都复原进去,人工去核查哪些LUN是删除的。
6、掉线磁盘中寄存的是一些旧的数据,在生成数据的时候须要将这些磁盘都排除掉,提取数据之前须要把这些掉线磁盘找到。因为LUN的RAID构造大多都是RAID5,只须要将一个LUN的RAID条目通过RAID5的校验算法算出校验值,再和原有的校验值做比拟就能够判断这个条目中是否有掉线盘。将一个LUN的所有LUN_MAP都校验一遍就能够晓得这个LUN中的哪些RAID条目中有掉线盘,这些RAID条目中都存在的那个盘就肯定是掉线盘。排除掉掉线盘并依据LUN_MAP复原所有LUN的数据即可。
7、北亚企安数据恢复工程师编写扫描LUN_MAP的程序扫描全副LUN_MAP,联合人工剖析获取到最准确的LUN_MAP。编写检测RAID条目标程序检测所有LUN中掉线的磁盘,联合人工剖析排除掉掉线的磁盘。编写LUN数据恢复程序联合LUN_MAP复原所有LUN数据。
8、人工核查复原进去的每个LUN,确认是否和用户方工程师形容的统一。局部LUN如下:

数据验证:
用户方工程师对复原进去的数据进行测验,通过重复验证后确认数据残缺可用,本次数据恢复工作实现。

EVA存储数据安全Tip:
1、常常巡视机房设备,发现报警信息及时处理。
2、操作存储时要审慎,防止误操作导致数据失落。
3、如果发现EVA控制器局部模块不稳固,应及时更换。
4、因为EVA存储故障多是由磁盘不稳固导致的,EVA存储内的磁盘应该是同一批次的磁盘。因而,没有掉线的磁盘性能也快到极限,如有条件倡议一起更换这批磁盘。