一日,筆者在工作群收到信息,得知業務系統(信息交換平臺)不能訪問,群里同事你一言我一語,影響較大。筆者很快遠程登錄服務器,發現連接不上,通過Ping,網絡不通。趕緊進入機房,發現服務器已經宕機。
服務器是Sun Fire V240,安裝的 Solaris 9系統,筆者自承擔該機房運維以來,此臺服務器一直運行穩定,未出現過宕機。關閉電源,重新開機,還好服務器啟動了。查看服務器日志(messages等日志文件),沒有異常,通過prtdiag檢查硬件狀態全部是OK或Good,查看服務器各指示燈和部件,未發現硬件方面異常。重新啟動業務系統,沒有問題。
考慮到硬件沒有異常,可能是應用方面的問題,而且服務器只是業務系統的Web服務器,無業務數據方面的信息。由于近期工作較忙,筆者決定先觀察服務器一段時間,再查看相關資料或咨詢專業公司查找原因來解決。
很快到了第二天,剛到單位就接到電話,告知業務系統上不去了,請查看解決。很快進入機房后,按照昨天的“經驗”重啟服務器,先保障業務系統可用。但是實際上,手動重啟服務器后,等了十幾分鐘服務器也沒有啟動起來,Ping服務器,網絡不通。
通過串口線連接服務器,發現啟動過程中出現錯誤,描述內容屬于硬件故障。幸好,我們單位技術人員一起討論并編制了一份“網絡應急預案”操作手冊,按照應急預案的操作,找到業務系統備用服務器,開機,遠程連接,通過telnet連不上服務器,Ping服務器網絡不通,接上顯示器、鼠標和鍵盤,顯示器無信號。
通過串口線連接服務器,可以訪問維護系統,發現var目錄不見了。考慮到如果重建操作系統,需要備份數據,會花費很長時間,業務系統就需要中斷很長時間。筆者急中生智,想到兩臺服務器型號、操作系統版本等都是一樣,而且應用方面,主要是運行iPlanet服務組件,提供Web服務、Web頁面、主服務器宕機,屬于硬件故障,操作系統應該沒問題,業務系統應用也在。筆者想了想可以試試將主服務器硬盤按順序插入到備用服務器上面,只要操作系統能啟動,業務系統應用估計也沒有問題。
按照上面的想法操作了一下,將主服務器四塊磁盤全部按順序插入到備用服務器上,備用服務器可以正常啟動,但遠程telnet連不上備用設備。考慮到可能是網絡問題,本地登錄備用服務器,清除arp信息,清除相關網絡設備arp信息,嘗試遠程登錄服務器,可以登錄。啟動iPlanet,通過瀏覽器訪問業務系統,輸入用戶名密碼登錄,業務系統可用。
雖然筆者急中生智靈活應對了這次故障,保障了業務系統可用,但還是暴露了很多管理和技術問題。一是備用服務器的日常檢查不到位,建立的機房巡視檢查制度一定要落到實處。二是服務器上的應用數據一定要及時備份。此外,雖然Solaris操作系統比較穩定,但考慮到特殊情況,也應定期備份,可以采用每月或幾個月等大周期備份。三是多掌握操作系統修復的技術方法。四是制定的應急預案要定期演練實操。