白韌
摘 要:以一次自動氣象站串口服務器故障處理過程為例,探討優化自動站故障排查方法及日常應急方法。
關鍵詞:新型自動站;串口服務器;故障排查
中圖分類號:S163+.7 ? ? ? 文獻標識碼:A
DOI:10.19754/j.nyyjs.20190830065
自動氣象站是我國基層氣象臺站廣泛使用的氣象儀器,能夠實現地面氣象要素數據的自動化采集與上傳。其主要工作原理就是將各類需要采集的氣象要素數據,通過各種類型的傳感器轉化為電信號傳輸至主采集器,然后再使用電子計算機與采集器進行通訊,獲取數據后存放在本地電子計算機硬盤之中,再通過網絡的方式將數據傳輸至上級氣象部門。
電子計算機與主采集器之間的通訊主要使用串口通信的方式來實現,該類方式在各種型號的自動氣象站中應用比較廣泛,而串口通信方式存在傳輸速率小、傳輸距離近、以及非多點傳輸的缺點。如果在觀測場中的主采集器和業務用計算機之間的距離過長的話,在傳輸的過程中會出現傳輸速度慢、信號衰減等諸多問題。而以太網通訊方式則具有傳輸速度快,距離遠等優點,可以有效地解決傳輸問題。
因此,目前出產的新型自動氣象站將傳統的RS-232 通訊方式轉變為TCP/IP 通訊方式,局域網中的計算機只要安裝虛擬串口軟件,就可以和自動站采集器進行通訊。這一種通訊方式需要在計算機與采集器之間新增加1個串口聯網服務器 (簡稱 “串口服務器”)設備。串口服務器在新型自動氣象站的應用,減少了大量工作量(安裝、布線等),室內、外均采用光纖傳輸,有效隔離了室內、外設備的直接電路連接,尤其是在雷雨季節杜絕了雷電的相互感應。
目前,懷柔國家氣象觀測站使用DZZ5型新型自動站,并且使用串口服務器,臺站人員2015年才開始接觸串口服務器,對其工作原理以及故障的排除思路還不是很清晰。自動站故障的迅速診斷、排除及故障期間數據的處理是自動站業務的重要組成部分,是每位基層臺站業務人員都應掌握的技能。本文通過懷柔國家氣象觀測站一次自動站串口服務器故障的診斷、排除及處理過程的介紹,給出了此類故障排查的思路及建議,供業務人員在實踐中參考。
1 故障現象
2016年8月18日10:13,懷柔站工作人員發現軟件無法正常采集數據,顯示采集失敗。同時軟件報警,無法形成z文件。工作人員考慮有可能是采集次數過多,占用計算機內存太多,因此對地面綜合觀測業務軟件進行重啟,后問題沒有得到解決,隨后又對計算機進行重啟,后發現軟件仍然無法正常采集數據,顯示采集失敗。
2 故障的診斷以及處理
此時工作人員考慮到是否為硬件問題,本著排除硬件故障的思路,進行了如下處理過程。
2.1 排查主采集器硬件故障
因為故障現象為全部要素數據無法采集,而不是單個要素或者地溫等分采集器系統負責的某一類要素缺測,第一時間考慮為主采集器出現故障。根據過往經驗,以前也出現過采集器死機的現象,因此工作人員首先到觀測場打開主采集器機箱查看采集器狀態,發現“RUN” 燈正常閃爍,“CF”燈常亮,使用萬用表測量采集器供電電壓為13.6V。到這里的檢查能夠判斷出當前采集器的供電狀態是正常的,而且從信號燈情況來看,采集器也沒有死機,存貯卡也在正常工作。故當時的判斷是主采集器運行正常,下一步進行其他方面的故障排查。
2.2 通訊系統故障排查
上一步的檢查結果表明采集器不存在問題,因此工作人員轉而判斷是通訊系統出現了故障。隨后工作人員從主采集器位置走到串口服務器位置,打開串口服務器機箱,經過查看發現各個工作指示燈均正常,故判斷主采、串口服務器供電均正常。 進行到這一步的檢查,當時工作人員判斷主采集器運行正常,串口服務器也運行正常,考慮下一步進行通訊線路故障排查。
2.3 通訊線路故障排查
工作人員回到值班室,開始檢查串口服務器與計算機之間的通訊線路是否連接正常。首先檢查光電轉換器狀態,發現各個指示燈閃爍正常,因此判斷光纖接口、網線接口均連接正常。隨后打開虛擬串口驅動軟件,點擊“search”后,發現窗口能夠正常顯示出串口服務器的IP地址,故判斷計算機與串口服務器之間通訊正常,并且在同一個局域網內。進行到這一步驟,工作人員綜合判斷通訊線路正常,下一步考慮排查采集器硬件故障,或者采集軟件故障。
2.4 計算機與主采集器間的交互排查
工作人員打開業務軟件維護終端,鍵入“DMGD”命令,后發現主采集器能夠正常返回分鐘數據,這是表明計算機和采集器之間的通訊是正常的。但是觀測業務軟件主界面仍然顯示無數據,并且軟件仍然持續報警無法生成z文件。打開歷史數據下載,選擇下載缺測時段分鐘數據時,發現也能夠正常下載,但就是實時數據采集無法完成。結合之前的判斷,此時采集器、串口服務器均正常工作。當時工作人員考慮是否是本站觀測業務軟件參數是否出現問題,同時懷疑是計算機操作系統出現了問題,工作人員開始準備啟動備份計算機。
2.5 問題發現
在檢查了觀測業務軟件參數設置沒有問題后,工作人員一邊準備啟用備份計算機,一邊通過查看計算機同采集器之間的實時通訊狀態,仔細查看采集器返回的分鐘數據命令,工作人員發現返回的分鐘數據時間與計算機的時間相差1min,因此判斷是由于采集器時間與計算機時間不一致,造成數據無法正常采集。進行到這里的排查,初步發現了導致軟件無法采集數據的問題所在,針對這一發現,開始進行故障排除。
2.6 工作人員進行采集器的時間修改操作
發現無論是在軟件主界面點擊右鍵進行將時間下載到采集器的操作,還是在業務觀測軟件終端維護直接發送修改時間命令,采集器端均返回操作失敗。到這一步的排查,當時的工作人員考慮是采集器故障,改為修改計算機時間,將計算機時間修改至與采集器時間一致后,發現軟件就能夠正常采集數據了。此時能夠判斷出故障原因就是計算機時間與采集器時間不一致。但目前采用被動修改計算機系統時間的方式保持與集器時間一致,可以臨時解決數據采集,但計算機無法主動同步采集器時間,導致采集器時間與市局授時服務器并不一致,也不符合業務規定。此時工作人員只能與市局取得聯系,將情況進行上報。