某法院HP-P4500存储数据恢复案例

好久没出来写博客了，过年来了一直很忙，尤其是最近，忙着做了好几个大单子。先是一个医院50TB的HP-EVA4400，接着是一个法院12TB的HP-P4500，前几天还有做了一个某游乐城12TB的VMware VMFS虚拟机恢复。虽然忙点，但是学会了好多新的知识，一直想抽点时间把最近的工作整理成文章发表一下，可是家里没有联网，在公司又得忙工作。还好最近工作不是很忙，可以在公司抽点时间写写。好了，言归正传,进入主题吧！

【故障描述】

某法院的一台HP-P4500的存储系统，底层是12块1TB的硬盘组的RAID。其中每6个1TB的盘一组，第一组的前面一部分组了一个RAID0+1，是存放HP-P4500嵌入式系统，接着组了一个RAID5存放数据，第二组组了一个RAID5。在存储系统上层一共分了两个卷，卷大小一个为3TB，一个为5TB。后来因磁盘故障导致存储不可用，客户先请HP的工程做更换磁盘，强制上线，但存储还是不可用。最后才联系我们做数据恢复。

【硬件检测】

我们的硬件工程师先对客户的12块硬盘做了硬件检测，发现客户的硬盘都正常。既排除硬盘硬件故障。既然都正常，我们就对12块硬盘做了全盘镜像。

【故障分析】

我们使用专业的工具对备份出来的镜像做了详细的分析，发现底层的RAID是一个HP双循环RAID5。并且第一组RAID是好的，也就是第二组RAID的损坏导致存储上层的卷不可用，第二RAID也是一个RAID5，如果是其中一个硬盘掉线那么以RAID5的存储原理应该不会导致存储不可用。因此可以判断第二组RAID中至少是掉了两块磁盘，其中一块是早就掉线的，里面的数据都是旧的，我们需找出早就掉线的那块磁盘。可是我们通过硬件检测发现所有的硬盘都没有硬件故障，那么我们该如何判断掉线的盘是那一个呢？

【解决方案】

由于并不知道RAID中那一块硬盘是早掉线的，所以没办法重组RAID。经过认真思考后确定有两种可行方案。

方案一：穷举法，即假设其中某一块磁盘是早就掉线的，踢掉此盘，重组RAID然后生成全部数据，最后将数据挂载到HP-P4500上，看数据是否正确。如果数据不正确，那么再假设另一块盘是掉线的，以此循环。虽然这种方案可行，但是由于每次重组RAID生成数据的数据时间太长，并且准确性很低。

方案二：穷举加校验，还是和穷举法一样，假设某个磁盘是掉线的，踢掉磁盘后重组RAID，但不是生成全部的数据，而是只生成前面5G的数据，因为HP-P4500内部存储的数据的索引表位图位于RAID的前几个G之内（因为在这之前我们已经研究过HP-P4500的内部存储原理）。我们只需要查看这个索引表的位图的信息是否正确就可以判断此RAID是否正确。如果正确那么生成此RAID的数据即可完成RAID的重组。

【实施方案】

采用第二种解决方案，经过几次测试很快就判断出正确的RAID。连夜生成此RAID的数据。生成完数据后，将生成的数据和第一组完好的RAID一同挂载到HP-P4500上。然后启动存储，上层的卷由不可用变的可用了。查看了最新的文件发现一切都正常。

【数据恢复成功】

由于上层的卷直接可以用了，所以数据也都可见了，但是考虑到安全问题，我们还是将卷里的文件都拷贝出来，然后移交给客户。经过漫长的底层分析，加上不断的测试。终于在用户要求的时间内将数据恢复完成。整个恢复过程一共历时两天。之所以能这么快恢复，还是在于我们之前研究过HP-P4500的存储原理。知道了HP-P4500的存储原理以后，关于它的所有数据灾难都可以进行恢复。

本文所有数据恢复流程及数据恢复技术均来自北亚数据恢复中心。

作者：邓奇