IBM Storwize数据恢复案例研究:Storwize V3700 Business Server

这台坏掉的服务器是从西班牙来的。张信哲代言博彩 欧宝娱乐欧宝娱乐百科客户端有一台IBM Storwize V3700服务器机器,有18个企业级故障的硬盘。他们可以尝试在服务器上挂载iSCSI目标,并在短时间内查看关键虚拟机上的数据。但是他们没有时间从服务器上提取任何数据,因为不久之后,包含他们的ESXi数据存储的卷就会消失。

在咨询了我们的CEO和RAID恢复专家后,客户在网上与我们的数据恢复客户顾问取得了联系布莱恩·吉尔,搭乘航班前往美国,抵达戴恩县地区机场,将服务器交付给我们ob 官网 个人。任何国际边界或海洋都无法阻止他们选择最好的数据恢复公司来恢复他们的数据。

三个RAID-5阵列组成了这个IBM Storwize存储区域网络。
这个IBM Storwize由三个RAID-5阵列组成存储区域网络(SAN)

IBMStorwize数据恢复案例研究:Storwize V3700 Business Server
SAN型号:IBM Storwize V3700企业级服务器
RAID级别:3个6盘RAID-5组合成2个iSCSI目标
硬盘型号:IBM ultrstar HUC109090CSS600 900GB SAS
总容量:18tb
操作系统:VMFS (ESXi虚拟机存储)
场景:两个RAID-5正在降级运行;一次由于SAS错误导致服务器崩溃
恢复的数据类型:ESXi虚拟机数据存储
二进制读取:99.9%
欧宝娱乐百科张信哲代言博彩 欧宝娱乐Gillware数据恢复案例评级:9

IBM Storwize V3700服务器设置

每个iSCSI目标LUN部分位于IBM Storwize服务器的三个RAID-5阵列上。
每个iSCSI目标LUN部分位于IBM Storwize服务器的三个RAID-5阵列上。

18个企业级IBM硬盘组成了3个raid - 5阵列在客户机的IBM Storwize服务器中。在RAID-5阵列中,一个硬盘故障不会造成任何数据丢失,但如果第二个硬盘故障,则RAID崩溃。当硬盘开始出现故障迹象时,RAID控制器可以强制硬盘离线。一些RAID控制器是非常敏感的,如果硬盘打个喷嚏就会迫使它离线。

三个RAID-5阵列一起工作,有点像嵌套的RAID-50阵列,但又不完全一样。嵌套的RAID-50阵列采用多个RAID-5阵列并将它们分隔在一起,就好像RAID-5阵列本身是数据存储中的单个驱动器一样ob.app .这样,只要每个RAID-5阵列中只有一个驱动器出现故障,就不会丢失任何数据。

但是,这个IBM Storwize V3700服务器的RAID-5阵列以一种非常不同的方式连接在一起。V3700没有使用RAID-0分条创建一个逻辑卷,而是创建了两个逻辑卷ob 体育在线竞猜 (也称为逻辑单元号(logical unit number, lun)))。这两个目标在用户看来都是单个逻辑卷。一个目标包含一个通用的公司共享文件夹,而另一个目标包含一个VMFS分区VMWareESXi数据存储。

虽然这个IBM Storwize业务服务器当然不是RAID-50,但这种组织的最终结果是,即使一个RAID-5阵列丢失了两个驱动器,服务器也会失败,迫使两个iSCSI目标脱机并使它们的数据不可访问。

服务器崩溃剖析

IBM Storwize V3700错误日志中的驱动器SAS错误
“驱动器有太多SAS错误。ID为12的驱动器有太多sas相关的错误。驱动器可能已经或正在出现故障。”

当RAID-5中的单个驱动器出现故障时,阵列必须使用其余驱动器上的奇偶校验数据重新生成驱动器的内容。在这种情况下,RAID-5的运行状况被称为“降级”。

该服务器中的两个RAID-5阵列已经降级运行了一段时间。今年1月,两个独立RAID阵列中的两个驱动器都发生了故障,从那时起,两个阵列都一直在降级状态下运行。RAID阵列中第一个失效的驱动器称为失效驱动器。随着时间的推移,降级的服务器继续其操作,被困在故障驱动器上的数据会越来越过时。强制过期数据返回RAID将导致大量数据损坏

如果来自第三个阵列的一个驱动器出现故障,服务器可能会继续缓慢运行。但是,如果来自任意一个降级阵列的第二个驱动器出现故障,它将使客户端业务所依赖的两个iSCSI lun都无法访问。不幸的是,第三个出现故障的驱动器属于两个降级的RAID阵列之一。

IBM Storwize数据恢复-游戏计划

在从这个崩溃的IBM Storwize SAN中恢复数据时,我们的工程师有两个选择。我们可以对每个磁盘(甚至是正常的磁盘)进行映像,并编写自定义RAID控制器仿真软件以正确连接磁盘。或者,我们可以利用客户端附带的服务器机箱,并在服务器中重新构建服务器。

其中一个RAID-5子阵列故障,将导致两个lun都离线。
其中一个RAID-5子阵列故障,将导致两个lun都离线。

前者是我们通常用来重建RAID阵列的技术RAID数据恢复在这种情况下,主要是因为它是硬件不可知的(我们所有的RAID数据恢复技术人员需要做的是说服驱动器,它们已经正确连接,他们可以通过创建自定义软件来模拟RAID控制器)。但在这种情况下,后者实际上更有成效。

这个Storwize服务器在实践中可能表现得像一个RAID-50。但是,三台RAID-5服务器连接到两个逻辑卷的方式比RAID-50阵列中使用的简单RAID-0条带化要复杂得多,也难以预测。通过只处理最后一个故障驱动器,并将其数据重新集成到Storwize服务器框本身,然后从降级的服务器中提取数据,我们可以更快地为他们检索客户端数据,并且为我们的RAID恢复工程师减少了麻烦。

然而,我们的工程师在恢复过程的早期发现了一个数据恢复障碍。对最后一个失败的驱动器进行成像,并将我们的鉴定磁盘映像克隆到另一个企业级SAS硬盘驱动器上是不够的:IBM Storwize V3700非常挑剔。

让服务器吃蔬菜

与许多戴尔EqualLogic服务器类似,IBM Storwize V3700非常关心放入哪种硬盘驱动器。许多企业级服务器和san要求使用特定品牌和型号的驱动器。例如,在本例中,服务器专门使用特定型号的900 GB IBM ultrstar with串行连接SCSISAS连接协议。

然而,我们的工程师很快就发现,Storwize V3700并没有只是我想要一台特定型号的IBM ultrstar。不,这还不够好。事实证明,这台IBM服务器一直在跟踪驱动器使用它们的顺序序列号,这意味着即使我们使用IBM ultrstar HUC109090CSS600 900GB SAS驱动器来克隆失败的驱动器,服务器也会知道立即该驱动器不属于数组,将完全拒绝接受它。毕竟,每个序列号都是不同的(如果不是的话,拥有它们也就没有多大意义了)。

你以为让你的孩子吃西兰花就像拔牙一样…

我们只有一个办法服务器数据恢复如果我们想坚持这种回收方法,工程师可以采取。阵列中最近出现故障的驱动器必须进行修复,使其恢复功能,并重新投入使用。IBM Storwize服务器只接受真正的文章。

IBM Storwize数据恢复-终局

最近一次失败的驱动器,造成了所有这些混乱,并没有发生重大故障。为我们的数据恢复专家他们每天都能看到灾难性的硬盘故障,这更像是一个非常严重的小问题。我们的容错取证成像工具帮助我们制作了一个99.9%的取证磁盘映像(这还不足以满足服务器苛刻的标准)。

修复硬盘是一场赌博。对我们的洁净室技术人员来说,让它足够健康以提取数据简直是小菜一碟。但是,如果我们不能使驱动器足够健康,使IBM Storwize服务器能够接受它,那么我们的攻击计划就会彻底失败。我们将不得不采用B计划,这将涉及一个漫长而艰难的推理过程完全服务器如何将三个RAID-5子阵列连接到两个iSCSI目标卷。

经过一些小的修复后,我们的洁净室工程师可以使故障的IBM ultrstar驱动器恢复到服务器可以接受的状态。我们知道在这一点上,我们有一个有限的机会窗口复制客户的数据。当硬盘里有另一个硬盘的部件时(至少不会太久),硬盘的性能通常不会达到最佳状态,而且这个硬盘会离开我们,需要进行更广泛的维修,这种危险无处不在。

结论

最终,这个数据恢复案例取得了令人振奋的成功。我们的服务器恢复技术人员在我们必须在服务器上工作的一小段时间内,成功地将绝大多数客户端数据从短暂恢复的服务器迁移到正常的传输驱动器。

客户端最关键的数据存在于他们的ESXi中虚拟机.我们的专家检查了虚拟机的迹象数据损坏但一无所获。我们通过国际快递将恢复的数据运回西班牙的客户。在我们的数据恢复案例评分量表上,我们给这个IBM Storwize恢复案例打了9分(满分10分)。

将Ascenzo
将Ascenzo

Will是Gillware数据恢复和数字取证的首席博主、文案和文案编辑,也是反对滥用无辜分号的坚定倡导者。张信哲代言博彩 欧宝娱乐欧宝娱乐百科

文章:213
Baidu