筆者所在單位的應用系統很多,大多是運行在VMWARE ESXi虛擬機系統之上,并通過光交換機連接到存儲系統,其中存儲系統包括了日立HDS存儲和IBM存儲。
今年國慶期間的某個下午,用戶反映公司辦公自動化系統即NOTES系統內部郵箱打不開,查NOTES服務器發現系統崩潰,NOTES服務器虛擬機無法運行,同時發現有一些應用系統也無法進行聯機。
由于NOTES系統事關每個用戶,重要性不言而喻,因此即著手通過備份系統恢復NOTES郵件系統,反復恢復多次均因系統讀寫錯誤而恢復失敗。由于當時系統崩潰檢查時,發現所有設備,包括虛擬機主機、存儲系統的指示燈顯示均正常,無任何硬件故障報警信號,所以一直未懷疑是存儲系統中的磁盤陣列發生了硬件故障,經過了一天時間的測試排查,終于排除了其他的可能性,初步判斷雖然沒有硬件報警,但是可能是磁盤陣列發生了故障。

圖1 IBM DS4700管理界面狀態顯示
故障第二日,聯系日立HDS存儲廠商并要求廠商上門處理。筆者部門在其他整列上完成了新建NOTES虛擬服務器并恢復OA郵件系統服務,只是用戶無法瀏覽、查詢歷史郵件。
由于正值“十一”國慶期間,廠家維護響應較慢,故障第三日上午日立HDS存儲的廠家維護人員來公司檢查,給出結論是HDS的外部存儲無法連接。排查外部存儲時,首先發現IBM DS4700存儲故障。當時DS4700存儲第一個磁盤陣列的RAID5結構中損壞兩塊硬盤,配備的熱備HOT SPARE盤并未起作用。經過對存儲日志的分析發現,兩塊硬盤是由于同時損壞或損壞間隔時間間隔極短,導致熱備盤沒有時間去頂替壞盤。圖1是IBM DS4700管理界面的狀態顯示。
檢查另一個外部存儲IBM DS5020時,發現情況和IBM DS4700類似,手動連接IBM DS5020存儲管理端口后,發現整個存儲狀態顯示為不可用,由于該存儲磁盤陣列也是RAID5結構,同樣出現了兩塊硬盤故障導致熱備盤沒有頂替的情況。
由于原NOTES虛擬服務器數據都放在IBM DS5020存儲上,確認IBM DS5020 故障是本次NOTES郵件系統崩潰且無法及時恢復的直接原因。圖2是IBM DS5020管理界面的狀態顯示。
在這種情況下,單位火速請數據恢復公司派技術人員分批將IBM DS4700、IBM DS5020上的硬盤拆卸送去杭州,請數據恢復公司對硬盤進行檢測和數據恢復。經數據恢復公司開盤檢測后,發現IBM DS4700存儲磁盤物理損壞,有劃痕,無法恢復。幸運的是IBM DS5020存儲磁盤沒有物理損壞,可以通過技術手段恢復數據。

圖2 IBM DS5020管理界面狀態顯示
由于保存郵件系統的存儲磁盤數據量較大,數據檢測和數據恢復時間都需要較長的時間。經過一個多星期的時間,IBM DS5020恢復數據終于送回到單位,并將現場數據拷貝完成,當日下午恢復了原NOTES虛擬服務器,并將新、老NOTES郵件系統的郵件進行了合并,至此用戶可以瀏覽、查詢所有歷史郵件。
直接原因:
兩塊磁盤同時硬件損壞和邏輯損壞,造成系統熱備盤沒能頂上,導致整個存儲停止運行。但是硬盤內部盤面的劃痕無從查證。
間接原因:
1.磁盤損壞后,陣列控制器未提示報警,造成日常巡檢無法第一時間發現。
2.IBM DS4700存儲陣列服役時間已超10年,IBM DS5020存儲陣列服役時間也已超6年,長周期7*24小時的連續運行增加了硬盤的故障概率。
3.在對比了其他案列以及本單位的現狀,存儲上的邏輯壞塊極可能是由于IBM存儲整列與日立HDS存儲控制器之間算法有別,導致作為外部存儲的IBM DS4700、DS5020同時出現多塊硬盤邏輯壞塊,且日立HDS的統一存儲管理造成相連外部存儲故障而未能提示報警信息。
1.解除 DS4700、DS5020存儲陣列與HDS存儲控制器之間的管理關系,采用各存儲直接映射服務器的方式,每天進行磁盤狀態檢查,確保指示燈均正常指示。
2.購買新的磁盤對原存儲陣列磁盤進行全部更換,確保磁盤為新產品并保證一致性。
3.對磁盤陣列框架擇機進行更新,保證整個存儲系統的設備匹配和性能可靠。
4.考慮對數據量大的NOTES郵件服務器進行單機布置,并盡可能加大服務器磁盤容量,降低服務器虛擬化存在的故障風險。