「存儲數(shù)據(jù)恢復」IBM DS5300由于硬盤壞道導致RAID5崩潰的數(shù)據(jù)恢復
環(huán)境:
IBM DS5300的存儲
一個機頭連接4個擴展柜
2組由50塊600GB的硬盤組的RAID5

故障:
一組由27塊600G硬盤組成的,存放Oracle數(shù)據(jù)庫文件的RAID5崩潰。在存儲系統(tǒng)上層一共分了11個卷:10個1TB,1個4TB。磁盤故障導致存儲不可用。
1、硬件檢測:
工程師先對27塊硬盤做了硬件檢測,發(fā)現(xiàn)2塊硬盤出現(xiàn)壞道、SMART的錯誤冗余級別已經(jīng)超過閥值,對25塊正常的硬盤進行全盤鏡像,對2塊有壞道的硬盤用硬件工具進行了恢復并生成鏡像文件。
2、故障分析:
首先收集IBM DS5300存儲日志信息。存儲上兩塊盤指示燈亮黃燈,用收集到的日志信息分析出兩塊硬盤的掉線時間,推斷出那塊硬盤里面的數(shù)據(jù)是最新的,用數(shù)據(jù)最新的硬盤進行數(shù)據(jù)恢復。
3、經(jīng)過工程師的研討后,提出以下解決方案:
方案一:通過IBM DS存儲管理軟件進行強制上線,在強制上線之前把存儲的所有硬盤都進行備份后強制上線。
方案二:通過對硬盤底層數(shù)據(jù)分析,進行RAID重組,從底層提取數(shù)據(jù),重新加載oracle數(shù)據(jù)庫,調(diào)試上層應用。
4、實施方案:
把存儲的所有硬盤都進行備份,先采用第一種方案,先在模擬器上進行測試,之后在存儲上進行上線操作。
通過IBM DS存儲管理軟件進行強制上線,強制上線之后raid處于降級狀態(tài),這個時候設(shè)置好熱備盤,讓熱備盤頂上,進行數(shù)據(jù)同步,同步完之后上層的卷直接可以用了,所有數(shù)據(jù)也都可見了,上層應用也能正常使用。
第一種解決方案,節(jié)省了很多時間,上層應用也不需要在調(diào)試,可以直接啟動。
5、數(shù)據(jù)恢復結(jié)果驗證:
由于上層的卷直接可以用了,所以數(shù)據(jù)也都可見了,處于安全考慮,工程師將卷里的文件都拷貝出來,然后移交給客戶公司。整個恢復過程一共歷時5天。
下一篇:「紅警快修」MRT數(shù)據(jù)拷貝MRT數(shù)據(jù)恢復還您重要數(shù)據(jù)