胡玉良程冬焱李惠玲穆慧敏王鵬偉李 穎1) 中國太原030021山西省地震局2) 中國山西030025太原大陸裂谷動力學國家野外科學觀測研究站
?
HostMonitor監控軟件在山西地震前兆臺網的應用
胡玉良1), 2)程冬焱1), 2)李惠玲1), 2)穆慧敏1), 2)王鵬偉1), 2)李 穎1), 2)
1) 中國太原030021山西省地震局2) 中國山西030025太原大陸裂谷動力學國家野外科學觀測研究站
摘要將HostMonitor應用到山西地震前兆臺網,根據不同監控對象配置相關參數,設定監控周期及閾值,實現郵件告警及遠程管理,便于臺網服務器、網絡化前兆儀器的全面監控。該技術在山西地震前兆臺網應用以來,效果良好,地震前兆臺網運維工作效率得到提高。
關鍵詞HostMonitor;前兆臺網;監控;閾值;郵件告警;遠程管理
E-mail:huyuliang130@163.com
本文收到日期:2015-04-07
隨著“九五”“十五”“十一五”項目的建設完成,地震數字化前兆儀器在山西省投入運行。目前,山西地震前兆臺網具有數字化地震前兆儀器68套,地震前兆服務器16臺。地震設備的正常運行是確保地震各項前兆業務正常開展的前提條件,需要采取先進的技術手段對設備運行狀況進行監控,及時發現并處理故障,不能依靠技術人員巡查發現問題再處理(馬文娟等,2011)。天津市地震局、黑龍江省地震局局及湖北省地震局等采用基于Nagios等軟件,實現地震網絡化設備的實時監控(宋化等,2011;李剛等,2012;高東輝等,2013),并實現了短信告警功能(李剛等,2012)。
Nagios軟件免費開源,功能強大,通過相關插件即可用來監控多種系統主機及服務,并在其工作狀態發生變化時通知管理員。該軟件安裝復雜程度較高,且事件控制臺功能較弱(宋化等,2011),無法設置閾值(如內存、硬盤、數據庫表空間等),則無法在設備超過閾值時進行告警。
HostMonitor是一款商用運維管理軟件,不開源,基于Windows操作系統,維護簡單,提供77種測試方法,30種報警方式,適用于Windows、FreeBSD、 Linux、Solaris等不同平臺的遠程監視管理程序,可輕松監視遠程網絡;通過Web服務、Telnet服務和遠程控制臺技術可以簡化遠程管理。基于此,本文應用HostMonitor監控軟件,實現山西地震前兆臺網數字化前兆儀器和前兆服務器監控、Web顯示、異常告警等功能。
根據“十五”地震前兆觀測設備網絡通訊規程,數字化地震前兆儀器針對現行 IPv4網絡進行設計,具備網頁瀏覽、HTTP、FTP等功能(中國地震局,2005;王秀英等,2008)。地震前兆服務器普遍在Suse Linux操作系統下安裝Oracle數據庫和中國地震前兆數據管理系統。
HostMonitor軟件主要監控數字化地震前兆儀器網絡、網頁、FTP等運行狀態、前兆服務器網絡狀態、管理系統運行、硬盤、內存及數據庫qzdata和system表空間使用現狀,并實現Web顯示及郵件告警。整體結構見圖1。

圖1 監控系統整體結構Fig.1 The whole structure of monitoring system
2.1 監控對象及方法
在Windows操作系統下安裝HostMonitor軟件(本文使用軟件版本是9.32),安裝成功后,在桌面上雙擊打開軟件,增加監控條例,點擊圖2中Test by下拉框,即可選擇監控方式。HostMonitor提供兩類監控方式:①直接從客戶端發起,如“ping、HTTP、ntp、Check Oracle server、ODBC Query”等,此監控方法可直接使用;②通過被監控機執行相關命令或語句的agent方式,如主機“硬盤、內存”等,此方法需要配置代理程序(RMA)。

圖2 監控系統設置界面Fig.2 The settings screen of monitoring system
通過以上兩類監控方式,即可實現監控網絡通斷(前兆儀器和前兆服務器)、網絡服務(前兆儀器網頁和前兆管理系統網頁)、數據庫服務(數據庫連通狀態、表空間查詢等)和服務器相關參數(可用硬盤、可用內存),具體監控項目見表1。

表1 監控對象及參數Table1 Monitoring targets and parameters
前兆儀器及服務器網絡狀態主要通過ping設備的IP地址進行監控,結果是Host is alive,表明網絡正常;結果是No answer,表明網絡故障。
根據“十五”地震前兆觀測設備網絡通訊規程要求,前兆儀器實現FTP、HTTP通用數據傳輸應用層協議等功能,也具備Web瀏覽功能,因此不僅要監控前兆儀器的網絡連通性,還要檢查前兆儀器的FTP、Web服務等網絡服務,通過利用HostMonitor監控前兆儀器的特定端口返回的信息,從而判定其服務是否正常,檢測方法有URL請求,HTTP、FTP等,每種檢測方法還可以進行詳細設定。
地震前兆數據服務器是開展地震前兆各項業務的核心,前兆數據庫采用Oracle數據庫,在Windows系統下對地震前兆臺網各數據庫參數進行ODBC數據源配置,利用HostMonitor的Check Oracle server方法即可監控Oracle連通情況;通過ODBC Query方法即可實現對Oracle數據庫更高級別監控。使用下述查詢語句
select round(sum(bytes)/1024/1024/1024, 2) as GB from dba_free_space where tablespace_name = 'QZDATA' group by tablespace_name;
可實現對qzdata可用表空間的查詢,且可設置閾值,低于該值時進行告警。具體設置見圖3。

圖3 表空間設置界面Fig.3 The settings screen of tablespace
利用HostMonitor可監控地震前兆服務器各項硬件參數,如硬盤空間、可用內存等。地震前兆服務器操作系統均為Suse Linux,監控各項參數需要配置代理程序(RMA),RMA與HostMonitor主監控程序進行通信,接受來自主程序的監控請求,將獲取信息返回HostMonitor,其通信過程是加密的。具體配置過程不再贅述,可查閱相關資料。以監控可用硬盤空間為例,在Script Manager下新建一個Shell腳本,腳本名稱是SYSTEM: Disk free:suse,核心命令是“df – hl”,具體腳本內容如下
#!/bin/sh
PDiskMem_size=`df -hl | awk 'NR==2{print $2}'`;#硬盤總容量
PDiskMem_avail=`df -hl | awk 'NR==2{print $4}'`;#硬盤可用容量
PDiskMemused_per=`df -hl | awk 'NR==2{print $5}'`;#硬盤使用百分比
#硬盤使用百分比高于70%告警
if [ ${PDiskMemused_per%%*} -ge $70 ]
then
echo "ScriptRes:Bad:"$PDiskMem_size"":""$PDiskMem_avail"":""$PDiskMemused_per"" else
echo "ScriptRes:Ok:"$PDiskMem_size"":""$PDiskMem_avail"":""$PDiskMemused_per"" fi
在監控方法Shell script中調用腳本,對Suse Linux系統的硬盤參數進行監控。
2.2 監控周期
調整各監控條例的監控周期十分必要,既要考慮監控的時效性,又要考慮到監控頻率太快可能引起異常。由于儀器和服務器的網絡狀態對時效性要求較高,監控時間間隔適當調短,可調整為每2 min監控一次;地震前兆儀器的網頁、前兆管理系統及數據庫服務器的Oracle連接狀態,監控時間間隔采用10 min監控一次;對于服務器可用硬盤、可用內存及數據庫服務器的可用表空間等監控對象,由于地震前兆數據量增長較慢,對系統資源占用不多,因此監控時間間隔可調整為60 min。
2.3 異常告警
監控項目的異常告警對工作人員比較重要,監控狀態由“Bad”變為“Good”或者由“Good”變為“Bad”時,HostMonitor會產生異常告警。為了防止異常告警,把動作的觸發條件設置為至少連續2次出現“Bad”或“Good”的測試狀態,以避免誤報或者錯報(劉胡赟等,2005)。
HostMonitor提供多種告警方式,如:聲音告警、界面告警、郵件告警、短信告警等。本系統采用郵件方式進行告警,接收端采用139郵箱,開通郵件到達免費短信通知功能,出現異常告警時,系統自動發送郵件并進行短信提示,方便工作人員及時處理。配置界面見圖4。

圖4 郵件告警配置界面Fig.4 The settings screen of alarm by E-mail
2.4 遠程Web管理
HostMonitor支持遠程Web管理,使用WebService服務即可實現,方便遠程巡檢與異常判斷。為確保安全,需設置TCP端口、訪問賬戶及相關權限,監控系統網頁見圖5。

圖5 監控系統網頁Fig.5 The Web page of monitoring system
利用HostMonitor監控軟件,實現山西地震前兆臺網網絡設備實時監控,通過配置監控策略實現139郵箱告警,第一時間接收異常告警郵件并及時處理故障,提高地震前兆臺網運維工作效率。該系統存在一些不足,如:不支持自動發現,首次配置比較繁瑣,需要對每一套儀器監控參數進行一一配置;未實現與值班工作匹配,按業務系統分類管理的統一告警模式(李剛等,2012)。今后該系統需進行以下完善:①按系統配置文件格式實現配置信息錄入自動化;②利用系統告警日志數據庫實現分類告警,按臺站對儀器告警進行分類,實現按臺站值班人員分類發送儀器告警信息。
參考文獻
高東輝,孟祥龍,張守國,等.基于Nagios的網絡監控系統在黑龍江地震監測網絡中的應用[J]. 防災減災學報,2013,29(2):67-73.
李剛,王曉磊,孫路強,等.基于Nagios軟件的綜合短信聯動告警系統在地震行業中的應用研究[J]. 地震研究,2012,35(1):133-138.
李剛,周利霞,王曉磊,等.開源網管系統在地震監測網絡中的應用[J]. 西北地震學報,2012,33(4):380-385.
劉胡赟,陳巍巍. 采用HostMonitor系統掌握網絡動態[J]. 中國科技信息,2005,21:10.
馬文娟,張錦玲,常明,李芳芳,柳忠旺.區域地震前兆臺網管理及運行監控[J].地震地磁觀測與研究,2011,32(4):74-77.
宋化,劉可,張亦梅,等. Nagios在地震網絡監控中的應用[J]. 長江科學院院報,2011,28(11):36-41.
王秀英,周振安,劉愛春.“十五”地震前兆觀測設備網絡通訊規程應用探討[J].大地測量與地球動力學,2008,28(4):131-135.
魏根芽. 基于Linux的Nagios服務器監控系統的研究與實現[J]. 計算機與現代化,2010,(6):170-172.
中國地震局編.中國地震前兆臺網技術規程[M].北京:地震出版社,2005.
Application of HostMonitor for Shanxi Seismic Precursor Network
Hu Yuliang1),2),Cheng Dongyan1),2),Li Huiling1),2),Mu Huimin1),2),Wang Pengwei1),2)and Li Ying1),2)
1) Earthquake Administration of Shanxi Province,Taiyuan 030021,China 2) National Continental Rift Valley Dynamics Observatory of Taiyuan,Shanxi Province 030025,China
Abstract
HostMonitor is briefly introduced and applied in Shanxi Seismic Precursor Network. In the software,parameter con fi guration,monitoring cycle and threshold can be set according to the different subjects. E-mail noti fi cation function has been realized when problems reach warning and error thresholds. Remote management can be used to monitor servers and network instruments. Since the system is applied in Shanxi Seismic Precursor Network,it has achieved good results,improved the ef fi ciency of operation and maintenance management.
Key words:HostMonitor,precursor network,monitoring,threshold,E-mail notification,remote management
doi:10. 3969/j. issn. 1003-3246. 2016. 01. 022
基金項目:中國地震局地震科技星火計劃項目“山西前兆臺網應急服務軟件研制”(XH14008Y)和山西省地震局科研項目“虛擬儀器在地震專業儀器檢修中應用”(SBK-1518)聯合資助
作者簡介:胡玉良(1981—),男,碩士研究生,工程師,研究方向:前兆系統及儀器運行維護。