林亮滾
(廣東省氣象公共服務中心(廣東氣象影視宣傳中心),廣州510640)
在目前的運維工作中,有些單位的運維管理還是采用傳統的運維管理模式,這種方式孤立且被動,難以確保各個系統中運維工作的順利開展和有序、穩定進行。主要表現在以下3方面。
在傳統運維工作中,主要依賴人工處理的方式,且運維人員往往都處于較為被動的位置。較多的是運維人員根據信息系統的使用人員反饋的錯誤,對故障進行處理。而一旦在問題發生過程中,出現人員緊張等問題,則會導致沒有足夠的人員進行運維工作,難以及時、準確地找到問題并進行修復,將會嚴重影響系統的有序運行。
在目前的系統監測當中,并未完全實現自動化。在系統運行方面,各系統的數據庫在有效聯通和備份等方面都有待進一步完善。而在報警、預警方面,運維人員往往只能在故障發生以后進行故障處理,預警機制并不完善,以致監控工作的實際作用難以真正地發揮出來,不僅加大了運維人員的工作負擔,還大大地影響了各個系統的穩定運行。
在信息化的建設過程中,系統隨著業務發展而變得日趨復雜。面對多種多樣的網絡設備、服務器和中間件等系統,依靠傳統的技術往往難以實現系統的高效運行,還十分容易因故障的發生或問題沒有及時解決而導致業務中斷,進而影響單位的效益和正常運轉。而出現這種問題,主要還是在運維系統方面,缺乏能對故障進行監控和診斷的高效技術,依靠運維人員難以高效、及時地解決故障問題。
自動化運維是指運用運行腳本及第三方工具讓某些運維過程變人工為自動化,如初始自動化、監控自動化、報警處理自動化等,在減少人力投入和成本的基礎上,讓系統自身來承擔更多的勞動力,確保業務系統能夠實現高效、準確地運行,也進一步保障運維人員的日常運維工作。而想要構建一個運維自動化的監測系統,則可以著重從運行監控和故障報警2方面出發。
首先,在監控運行方面,可以通將各個系統中的模塊和數據庫納入監控平臺,如網絡數據、業務系統數據、iis、tomcat等日志數據,在以數據庫、操作系統為底層接口的技術基礎上,對系統文件夾的內容變化進行跟蹤和反饋,從而實現對已備份結果的全方位監測。其次,在故障報警方面,原有流程通常都是發現問題,進行故障排查然后再進行經驗分析,此方法更多的是借助人工干預。為了實現自動化運維,可以在排查問題的思路上設置不同的問題診斷場景,以此來實現異常情況下的自動修復。對于報警裝置,可借助上述的數據采集模塊,設置監控腳本,添加自定義的監控項。
為了能夠為快速、準確地對系統故障進行有效的定位和錯誤判斷,本次研究主要是在傳統正常運維的基礎上實現自動化故障報警功能,以便于運維人員能夠更快地解決實際問題。對此,可通過短信通知、錯誤拍照、數據庫備份3種方式來實現。
短信通知功能可通過使用IDEA、Java語言、SQL Server 2008數據庫開發設計,實現可以定時地從數據庫中獲得監測路徑,以便于運維人員能夠更及時地獲得測試連接情況。一旦出現了連接異常,如連接失敗或二次連接成功,就可以通過系統中的運維數據定時發送短信通知,以此來提示運維人員及時對故障問題進行解決,并將此次故障的內容及時間等詳細記錄在運維服務器中[1]。
對于系統中所發生的某些錯誤信息,可以通過利用Java環境自帶的thread dump功能實現Java環境下的現場拍照,以便運維人員能夠更為清晰準確地了解和掌控問題發生的具體情況,確保在實時的檢測中快速地掌握變動情況。一旦系統有異常或變動發生,則會自動拍下圖片,并將圖片及相關的運維記錄發送至指定的運維管理人員的郵箱,以便更為快速地進行錯誤現場追蹤,并對其進行錯誤修復,實現自動化的故障監測。在錯誤信息處理結束之后,將此次的郵件內容、時間及收件人員記錄在服務器中,為下一次同等故障或其他故障發生時提供參考。
通過對數據庫備份進行檢查來完成異常監測。對此功能的實現主要可以通過對VS2010、FrameWork4.5、C#語言、SQL Server 2008數據庫的開發,對目標文件夾內容的變動進行監控。一旦文件夾的文件有所變動或者有異常情況,則會立即將其變動通過郵件等方式發送至指定的運維人員,通知其變動的發生時間、結束時間及詳細的變動情況。而系統的監管人員還可以通過部署數據庫服務器,對一個文件或者多個文件進行有效監測,及時掌握其中文件的增加、刪除、修改等具體情況。同時,還可以通過管理人員的自動設置和調度,有效地實現數據的備份、遷移等工作,以更自動化、準確化的形式來實現運維管理。
自動化的運維監測系統建立,可以有效地實現大規模的監控和全方位的準確告警。通過AMP可以對網絡設備、中間件、數據庫等進行統一性的告警,實現準確化、多方位的運維監控效果。并且自動化監測,可以更多地根據警告觸發條件來設置和調度運維操作,讓系統可以實現智能化處理。如對于文件空間的已滿狀態,就可以通過提前預設清除的操作,進一步減少警告風暴,降低人員的運維壓力,從而有效地提高告警處理的及時性。對于數據庫的專業化監測,還可以有效地對其中的資源進行優化及預測,實現預警的準確化,提高運維效率。監測系統可以通過每周定時地進行數據庫備份,將系統中的文件進行轉移和傳輸,以便必要時對數據進行恢復。自動化的監測系統,可以在發生故障及異常時,及時地將具體信息通過多元化的方式發送至運維人員,不僅提高了運維的準確性,還能夠有效地確保系統得到及時的維護,幫助各個系統都能夠平穩、有序地進行工作。
綜上所述,自動化的運維監測系統應用可以有效地幫助單位降低運維成本,提高運維效率。同時,可以防止代碼或配置產生問題時,導致維運壓力增大而影響整個系統的運行。且通過對自動化監控技術的使用,可以有效地對系統信息錯誤及風險進行預測、告警等,以便提高運維的及時性和準確性,進一步在發現問題和解決問題中,通過跟蹤、記錄、反饋來優化和完善,確保各系統都能夠安全平穩地運行。