李雅男
【摘 ?要】近年來,經濟的發展,促進我國科技水平的提升。隨著科技的進步信息通信系統日漸一體化、集群化、復雜化,數據爆炸性的增長導致數據庫及中間件規模成無序增長態勢。現有數據庫、中間件監控技術不能主動發現問題、定位問題,運維業務系統繁多、流程復雜、服務響應時長。通過對數據庫及中間件自動化運維監測系統的研究,建立了安全、高效的數據庫及中間件自動化運維管理體系,實現了對主機、中間件、數據庫的基本信息的監控,實時發現異常信息并發出告警信息。本文就數據庫及中間件自動化運維監測系統展開探討。
【關鍵詞】數據庫;中間件;自動化運維
引言
構建一個智能的自動化運維監控平臺,以運行監控和故障報警這兩個方面為重點,將所有信息系統中所涉及的系統功能模塊和數據庫等納入運維監控平臺中,主要收集網絡數據、業務系統數據、數據庫及iis、tomcat等日志數據,然后將收集到的數據進行提取需要的數據到監控報警模塊,進行報警規則設置、報警閥值設置、報警聯系人設置和報警方式設置等。
1監控目標
實時不間斷監控主機、中間件、數據庫運行指標,及時提供報警,避免異常帶來的損失,解決傳統運維人員被動、效率低的問題;為企業提高運維效率,幫助企業簡化運維管理流程;保證服務可靠、安全、穩定運行;監控目標若出現故障,能夠第一時間進行報警,及時處理解決,從而保證業務持續性的穩定運行;建立衡量數據庫中間件自動化運維的標準,通過電力行業特定領域廣泛認同的最佳實踐,制定一系列與自動化運維有關的KPI維度,主要包括穩定性、問題發現和整體運行狀況預期的對比,來評估數據庫中間件系統;實時地、量化地集中采集監測數據庫及自動化運行指標,確保IT組件管理及運維能力成為業務增長的強大助力。通過數據庫及中間件自動化運維監測系統系統可以幫助全面掌握中間件,數據庫信息,及時監控避免故障帶來的損失解決傳統運維人員被動、效率低的問題;幫助一線運維人員從繁忙的日常檢查工作中解脫出來,提高運維效率;自動化運維系統可以幫助企業簡化運維管理流程,提升管理水平;通過采用該系統減少運維人員數量,提升運維水平,幫助企業節約運維成本。
2設計思路與實現
(1)短信通知功能。使用IDEA,JDK1.6,Java語言,SQLServer2008數據庫開發,具體功能設計為:定時從數據庫中獲取需要監測的路徑,測試連接情況。如果監測到狀態變動(從上一次正常聯通到該次連接失敗,或者從上一次連接失敗到該次連接成功),則根據運維系統中記錄的相應管理人員手機號碼發送短信,提醒運維人員查看郵件報警的詳細信息,并解決問題。同時把此次短信內容、收件人和時間記錄在運維服務器。(2)錯誤現場拍照。使用IDEA,JDK1.6,Java語言,SQLServer2008數據庫開發,具體功能設計為:定時從數據庫中獲取需要監測的路徑,測試連接情況。如果監測到狀態變動,則利用java環境自帶的threaddump功能實現java環境下的現場拍照,把錯誤信息通過郵件發送至運維系統中記錄的相應管理人員郵箱,以供運維人員根據錯誤現場追蹤和修復錯誤,同時把此次郵件內容、收件人和時間記錄在運維服務器。(3)數據庫備份檢查功能。使用VS2010,FrameWork4.5,C#語言,SQLServer2008數據庫開發,具體功能設計為:對目標文件夾內的文件變動進行監測,在變動發生時、結束時,將文件屬性情況各發一封郵件通知指定用戶。各系統管理員自行部署到數據庫服務器,可以監測一個或多個文件夾,可以由一個或多個郵箱接收監測信息,可以監測文件夾內文件的增、刪、改和重命名情況。同時根據管理員的設計自動實現數據的遷移和備份工作。
3自動化運維監控系統說明
(1)系統架構。WEb展現門戶(業務視圖;資源管理;監控配置;統計報表;告警管理;系統配置);業務層web系統;采集系統;數據庫;遠程監控端。(2)架構優勢。深入監控數據庫、中間件、主機運行細節和歷史信息;高效,顯著提高運維效率;跨平臺、易集成、易部署;生態、優化,不在被監控端安裝任何agent或插件,降低資源額外消耗和部署風險。(3)系統特色。易理解;易分析;易配置;易修改;易測試;頁面布局合理;通用操作規范;出錯處理。(4)功能說明。通過對目前IT系統環境和管理現狀的分析,我們需要建設一套統一的業務系統監控平臺,這個平臺應該包括以下的管理需求:統一的設備、系統運行信息采集平臺;統一的數據處理和展現平臺;統一的告警平臺;統一的人員、權限的管理平臺。在這樣一個大環境下,結合上述需求,我們建立一個數據庫及中間件檢測系統,該系統以實現“無人值守式的自動化運維”與“無死角監控,及時發現問題”相接合的運維模式為目標。對被監控目標的平臺本身及其承載的應用業務進行性能的自動監控、分析、報警、統計和日常運維任務的自動化執行。實現對系統運行狀態的自動化監控。支持對不同設備、不同日期和時段設置差異化的監控頻率,支持BS方式對當前監控數據的實時刷新展示和歷史監控數據的回看展示,支持對監控點進行監控用途描述,支持對監控點上下閥值的實時顯示,支持監控的異常數據實時手機短信報警,支持將指定日期、時間、頻率采集的監控數據自動生成巡檢報告。
4多元化告警方式
多元化的告警包括短信告警、界面告警、機房語言告警及電話告警等,將相對應的告警信息通過不同的方式發送到不同的運維人員處。(1)告警閥值設置:實現對各類監控指標告警閥值上下限設置,并在接收到實時數據時進行數據校驗,對不在范圍內的指標做出信息告警動作。(2)告警種類設置:對各類系統監控指標進行歸類管理,以明確各項指標的數據來源及影響范圍。其中一級分類以數據來源區分。(3)階段告警策略:根據不同類型告警信息,實現階段性的信息告警策略設置。(4)延時告警策略:按告警類型設置可延時的告警時長,如該指標在延時判斷期內恢復,系統只形成告警記錄,不執行告警動作策略。(5)告警方式設置:針對不同類型告警信息,設置不同方式的告警。(6)告警人員設置:在各類告警模式下,根據運維人員的責任分工及工作時間段,可靈活的將不同的運維人員添加到不同的告警策略中,完成告警信息的準確傳輸。(7)告警等級設置:根據各類指標在系統運行中的重要性,實現告警等級的劃分,如一般告警、重要告警及緊急告警,在運維人員接收到告警信息后,可根據告警等級對故障做有序的跟蹤及處理。
結語
通過數據庫自動化運維管理可以對于數據庫的各項指標進行監控,實時發現異常信息并發出告警信息。實現數據庫的自動化性能監測,自動發現數據庫性能問題,提醒數據庫管理員及時解決數據庫告警,性能指標可度量和可視化,穩步提升數據庫系統的整體性能,支持數據庫瓶頸判斷和SQL語句消耗資源監控,大大提高工作效率和提升運維水平,及時發現數據庫性能問題,及時解決數據庫告警,性能指標可度量和可視化,在減少運維工作人力投入的情況下,更能有效地保障數據庫的正常運行,保障各業務系統的平穩運行,為整個應用系統的優化、整合、擴容等關鍵決策提供可靠數據支撐。
參考文獻:
[1]喬凱,沈蘇彬.一種網絡監測軟件的分析與改進[J].南京郵電大學學報(自然科學版),2015(01).
[2]李艷艷.大型ORACLE數據庫優化設計方案[J].才智,2017(33).
(作者單位:信息化管理中心普光項目部)