摘要:介紹了遼寧省氣象信息網絡系統關鍵服務器及高性能計算機的應用,簡要分析了對計算機設備運行管理中的問題,提出了B/S架構的基于PHP+Mysql的計算機運行監控方法,建立了集實時監測、自動刷新、實時告警、提供信息幫助等多種功能為一體的綜合顯示平臺,實現了不同操作系統平臺的運行狀態集中監視。該平臺的應用,能夠及時發現系統隱患,縮短故障處理時間,完善了氣象信息網絡計算機運行監視手段,從而保證氣象信息傳輸及數值預報業務平臺的穩定運行。
關鍵詞:集中監視;實時;自動
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)14-3788-02
Design and Implementation of Computer Running Status Centralized-Monitor System
LIU Jin-xia
(Liaoning Province Meteorological Information and Technological Support Center,Shenyang 10016,China)
Abstract: Introduced the application of crucial server and high performance computer in Liaoning Province meteorological information network,analyzed problems about computer running administration briefly, give a method of computer running status monitor. It is B/S system structure and based on PHP+Mysql implement technology. It established one platform who can monitor actually、refresh automatically, alarm actually,provide help information and other function, realized different operation system platform.Running Status Centralized Monitor. The platform's application, can discover hidden trouble without delay,shorten recovery processing time,and improved computer running monitor means in meteorological information network. Thus, it can ensure stable running of meteorological information transmission and numerical forecast business.
Key words: centralized-monitor; actually; automatically
1 引言
計算機技術的發展和越來越廣泛的應用在給我們帶來方便和效率的同時,也使得應用系統對于計算機技術的依賴程度越來越高。隨著氣象業務技術體制改革的逐步深入及多軌道業務的發展,要求保障體系不斷的完善,并系統化。氣象業務應用所依賴的硬件平臺的運行監控是提高氣象現代化監測水平和運行質量的重要手段之一。遼寧省氣象信息網絡系統中的關鍵服務器9210通信節點機主要承擔著各類實時氣象資料,包括氣象電報、傳真圖、氣候資料、衛星云圖、雷達拼圖、數值預報產品、氣候模式、鄉鎮預報、酸雨、大氣成分、生態、決策服務信息等的數據傳輸及存儲任務。寬帶網服務器主要承擔雷達產品和基數據的傳輸任務。高性能計算機主要用于氣象氣候模式的業務及科研運算,為政府、社會和公眾提供精細氣象預報和服務。高性能計算機、通信網服務器作為數值預報、信息傳輸與存儲的基礎平臺,它的穩定性、可靠性也是決定各項應用順利完成的重要因素之一。目前,對上述3套設備的運行監控主要依賴系統管理員通過人工操作以命令行的方式定時查看,而且往往是系統出現異常影響到業務了,由值班員通知系統管理員來檢查和處理,故障處理工作很被動,也耽誤時間,這與氣象業務24小時不能間斷運行的要求不適應的。如何能夠及時發現系統隱患,盡量縮短故障發現時間、處理時間,從而保證各項業務順利進行?建立計算機的運行監視系統就成為必然。
2 系統設計
2.1 監視對象及內容
監視系統的監視對象包括神威高性能計算機、9210通信節點機、寬帶網服務器。根據所承擔的任務和業務需要,確定監視內容。雖然各計算機在同一個局域網內,但各自的操作系統不同,服務對象不同,需要監視的內容不同。因此,首先要確定監視內容。
9210通信節點機和寬帶網服務器均是以兩臺服務器為硬件平臺,并采用雙機熱備份系統,實時業務會在系統出現異常時于很短的時間內自動切換到備份機器上,用戶可能會察覺不到。因此,對它們的監視首先要確定業務系統運行在哪臺機器上,顯示其主機名,并對該機的運行狀況進行監視。除此之外,監視內容還包括文件系統是否超限、FTP訪問連接數、網絡連接狀態等。
神威高性能計算機共有24個計算節點,2個I/O節點,主要用于氣象數值預報業務及科研工作,如中尺度數值預報、區域氣候模式等。因此,監視節點狀態、關鍵進程狀態、當前用戶情況、文件系統情況、隊列信息、作業信息、環境監控等是必要的。
2.2 設計原則
由于各監視對象主要服務于信息傳輸、資料存儲、數值預報等,因此系統的設計開發遵循以下主要原則。
1) 實時性。各監視對象均是服務于每天24小時不間斷的實時性業務,因此,對其監控也應保證實時性。
2) 相對獨立性。由于各系統涵蓋不同業務范圍,系統的各功能模塊應保持相對獨立,彼此互不影響。
3) 簡便易操作性。應動態自動刷新,盡量減少人工操作。有異常警告時,提供操作提示。
4) 直觀。監視界面應能直觀反映系統的運行狀態,有異常時通過特殊顏色或聲音的提示可以達到告警的目的。
2.3 主要功能模塊的設計
整體數據流程:被監視對象平臺上運行信息采集程序按一定格式自動生成狀態信息文件,通過FTP傳輸到數據庫服務器,存入相應的數據庫。Web服務器負責從數據庫中調取狀態信息,以Web方式提供給用戶。系統總體設計如圖1。
主要功能模塊如下:
信息采集模塊設計:針對高性能計算機及通信服務器系統經常出現的故障和不易發現的隱患,確定系統監視需求。為了及時獲取各平臺運行狀態信息,各平臺按一定格式生成運行狀態信息文件。在高性能計算機、9210通信服務器、寬帶網服務器上分別利用系統定時作業crontab完成運行狀態信息的采集程序的運行。采集程序通過shell腳本來完成。
通知公告:有重要事件或通知時,用不同顏色以滾動方式進行顯示??砂压嫘畔懭胛募校ㄟ^讀取文件內容,滾動顯示。
操作提示:根據可能出現的異常情況,在出現報警時通過鏈接提供可能的原因及處理方法提示,為故障排除爭取時間。
Web監控界面:根據業務需要,設定刷新間隔時間,重新調取運行狀態信息。不需人工干預,自動刷新頁面內容。設定刷新間隔時間為60秒。主要通過PHP完成。
狀態信息數據庫:由3個子庫構成,分別為9210通信節點機狀態信息庫、寬帶網服務器狀態信息庫、高性能計算機狀態信息庫。各子庫記錄各自系統的運行狀態信息。
文件系統超限報警:從數據庫中檢索當前運行狀態信息,比較預先設定的告警閥值,在監視界面上通過醒目的顏色顯示異常信息。
進程監視:從數據庫中得到當前業務進程狀態,異常時以紅色及文字提醒。
FTP連接數:FTP連接數達到一定數值時,紅色報警并顯示連接數,提醒業務人員查看是否是由于病毒等原因造成的非正常訪問。
網絡連接狀態:主要監測到國家氣象局的骨干鏈路的連通情況。
業務運行節點:顯示當前業務應用所在設備的主機名,用以確定目前是否運行在備份主機上。
計算節點狀態:監視高性能計算機各計算節點系統狀態。
作業信息:高性能計算機的作業信息。
隊列信息:高性能計算機的隊列信息。
目錄檢查:監視實時業務中用到的各目錄是否因故丟失,如目錄不存在,則自動重建,并在界面上提醒。
3 系統實現
以目前的技術看,局域網建立B/S結構的網絡應用,并通過Internet/Intranet模式下數據庫應用,相對易于把握、成本也是較低的。它是一次性到位的開發,能實現不同的人員,從不同的地點,以不同的接入方式(比如LAN,WAN,Internet/Intranet等)訪問和操作共同的數據庫;它能有效地保護數據平臺和管理訪問權限,服務器數據庫也很安全[1]。PHP是英文Hypertext Preprocessor (超級文本預處理語言)的縮寫,是一種嵌入在 HTML 并由服務器解釋的腳本語言。它可以用于管理動態內容、支持數據庫、處理會話跟蹤[2]。它支持許多流行的數據庫,包括 MySQL、Oracle、Sybase、Informix 和 Microsoft SQL Server。
監控平臺選擇了B/S架構,以Apache Web服務器為基礎,利用PHP+MYSQL實現程序設計,結合LINUX SHELL腳本,以網頁的方式作為監視系統界面并采用動態刷新的直觀方式。監控信息的收集主要采用LINUX的shell工具結合sed等編輯器來實現。
4 應用效果
監視系統實現了不同操作系統平臺的運行狀態集中監視,建立了集實時監測、自動刷新、實時告警、提供信息幫助等多種功能為一體的綜合顯示平臺。采取邊開發邊使用的原則,運行以來,表現出較好的穩定性、實用性和操作直觀性。該系統有比較完善的監控信息顯示功能,既有系統正常運行的狀態顯示,也有系統異常狀態的顯示,同時提供異常情況處理方法提示。監控畫面能夠反映系統整體運行情況,也可以通過子畫面查看被監視對象詳細的運行狀況。該系統改變了人工檢查系統運行狀態的被動局面,能夠及時發現系統隱患,縮短故障處理時間,減輕值班人員的工作強度和壓力,提高了工作效率,為數值預報、通信業務的實時穩定運行提供有力的技術支撐。
參考文獻:
[1] http://zhidao.baidu.com/question/26137272.html.
[2] http://tech.it168.com/zt/PHP/index.html.