劉家瑞 肖玉


摘要:本文簡單的介紹了CDM系統的功能及硬件構成,然后重點分析了CDM系統上線后發生的故障,從軟件故障、硬件故障、系統兼容性故障三個典型案例分析入手,提出了系統的改進方案。
關鍵字:CDM系統 故障分析 改進方案
1?CDM系統簡介
協同決策系統(Collaborative Decision Making,以下簡稱CDM系統)是一種基于資源共享和信息交互的多主體(空管、機場、公司等)聯合協作運行理念而設計的系統,用于創造透明、高效的空管運行環境。
CDM系統通過提高事件可預測性、優化資源利用效率等手段,能夠提升各參與方的整體運行效率。
1.1 軟件功能簡介
通過建立CDM系統,用技術手段改善航班延誤相關問題。
建立航班排序系統,計算航班起飛時間和預計撤輪擋時間。
建立航班放行協同平臺,收集運行信息,提供放行協同工具。
1.2 CDM系統硬件結構
CDM系統硬件由虛擬化數據中心、交換網絡、虛擬化運行程序服務器構成(見圖1)。
1.3 CDM系統重要用戶及其需求
管制部門:塔臺:進近航班放行排序
區調:區域航班放行排序
航空公司:南航 深航
機場:AOC 機坪塔臺
2?CDM系統常見故障分析
2.1 CDM系統典型故障分析
2.1.1 CDM系統硬盤故障案例分析
故障現象:2019年1月12日,巡檢時發現服務器及存儲黃燈告警。
故障原因分析: 進一步通過IBM服務器的光路診斷卡查看告警類型為DAS、HDD,以上告警燈應該為直連存儲(硬盤)告警,并且在硬盤的指示燈上會顯示黃色。存儲設備的故障硬盤同樣顯示黃色。告警可以通過服務器的指示燈反映出來,故障時為黃色,通過光路診斷卡可以明確故障準確信息,DAS及HDD代表硬盤。,故障的同時,業務不受影響,因為服務器的2塊硬盤組建了RADI-1,2個硬盤互為備份,存儲的多數采用RAID5+1全局熱備的方式,RAID5的一個硬盤故障,全局熱備盤頂替,故障硬盤被剝離,這時存儲正常運行,不受影響。
處理方法:及時發現并更換故障硬盤,避免因更多的故障硬盤導致業務宕機。巡檢時重點關注黃色、紅色指示燈,備好硬盤備件,硬盤是服務器常見的故障件
2.1.2 電子進程單收不到PDC請求
故障現象:2018年5月11日開始,CDM系統電子進程單收不到機組發送的PDC請求的故障,管制員對無PDC請求的航班進行語音管制。
故障原因分析:PDC請求先送給數字放行系統,數字放行系統將請求再送給CDM系統電子進程單模塊。數字放行系統默認飛行計劃的時效性為6小時,當航班延誤后且其航空公司未發送DEL報或CHG報,6小時后系統將自動刪除延誤的飛行計劃,CDM系統無法收到機組的PDC請求。
處理方法:聯系工程師修改后臺程序,對時效性的限定時間改為24小時。
2.1.3 CDM系統應答機編碼失效
故障現象:塔臺用戶反映電子進程單終端的航班應答機編碼為0000,無法顯示正確編碼,在自動化系統中查看的應答機編碼是正常。
故障原因分析:通過監控終端排查NPORT端口入方向的數據正常,接收服務器也可以接收到自動化系統送來的報文數據。由于是部分航班缺少應答機編碼,分析是可能部分IFPL報文處理不完整,部分內容丟失導致。深圳CDM電子進程單 的應答機編碼是深圳CDM服務器接收來自區管自動化系統的IFPL報文解析出來(IPFL報文是通過區管至桃仙的NPORT傳輸),深圳cdm服務器接收到NPORT設備封裝的UDP報文,經過對傳輸流程進行分析,NPORT中封裝的UDP報文最大長度為1024字節,并且UDP報文沒有包含序列信息的字段,由于IFPL報文的單個長度會有超過1024字節的情況,深圳cdm服務器接收這些UDP報文的時候可能無法完全正確的處理IFPL的報文信息,導致應答機編碼無法解析,導致電子進程單的部分應答機編碼為空(四個0),調整NPORT傳輸模式,接收服務器采用TCP方式進程接收IFPL報文
UDP連接適用于字符流小于1024字節長度的報文,并且報文中有規律的起始結束字符,更改為TCP后,額外再增加一路備份TCP連接,服務器接收2路數據進行備份。
處理方法:在區管NPORT上增加一路TCP數據報文,并且深圳cdm系統接收報文的方式由UDP調整為TCP方式,調整后正常。
3?CDM系統改進方案
3.1 添加備份盤陣
CDM系統虛擬數據中心由一臺盤陣組成,盡管盤鎮做成了高安全性的RADI5+1模式,可以在2塊硬盤同時故障。但是如果盤陣服務器整體故障,則放行系統數據將會丟失,影響管制部門正工作。建議購買新盤陣服務器,與原有盤陣組成1:1備份模式,極大加強數據服務器的可靠性和安全性。
3.2 增加應急服務器
3.3 建議廠家優化數據接口
CDM系統將會引接越來越多的信號,不同信號來自于不同系統。信號數據需要解析后才能被CDM系統使用,所以數據接口的兼容性就非常的重要。建議廠家優化數據接口,能夠兼容更多的信號格式。
4總結
本文簡單的介紹了CDM系統的功能及硬件構成,然后重點分析了CDM系統上線后發生的故障,從軟件故障、硬件故障、系統兼容性故障三個典型案例分析入手,提出了系統的改進方案。見圖2。
希望本文能在在CDM系統日常運維中提供一些幫助。