+楊敏英 郭青 唐文帥 朱鵬輝 王娜(西安衛星測控中心 喀什測控站,喀什844000) 朱峰(東方紅衛星移動通信有限公司,北京 100086)
目前,體系內測控裝備眾多,各裝備系統的設備組成、軟硬件指標、參數狀態、故障案例等信息往往差異較大、互不相通,猶如“一個個林立的煙囪”,這樣造成裝備狀態繁多、底數不清、問題獨立頻發。本文通過建立一整套健康管理平臺,形成健康管理中心,旨在打破信息壁壘,實現多套裝備健康信息深度分析融合,為促進資源融合、提高裝備的可靠穩定運行提供有力支撐。
測控裝備健康管理中心采用“云+網+端”體系結構,由云中心、用戶端兩個功能部分組成,“云”和“端”通過“網”相互連接,構建一體化連接、互通體系。智能化信息管理平臺通過“云”管理數據和提供服務,各類用戶作為“端”通過“網”接入“云”,包括各地面站、設備生產廠、科研院所、維修中心,上傳獲取裝備信息、訪問應用服務。(參見圖1)
云中心是裝備信息云監控、管理中樞和軟件、數據的存儲以及綜合服務的中樞,具體發揮“數據中心+容災中心+服務中心+運維中心”四大職能。其中,作為數據中心,承擔裝備信息數據匯總、數據存儲、數據分析與分發等服務;作為容災中心,所有裝備信息的容災備份;作為服務中心,為用戶端各類用戶,提供一體化、多樣化和遠程化的裝備管理服務;作為運維中心,承擔該平臺的綜合運行管理。

圖1 測控裝備健康管理中心架構

圖2 健康管理中心網絡接入關系圖
端,主要承擔相應裝備的信息采集、錄入、獲取、分析。平臺通過業務網完成云中心、各端系統之間的業務通信、數據同步,業務網為內部專網,如圖2所示。
測控裝備健康管理中心的組成如圖3所示,主要包括健康管理服務器,地面站終端計算機及中心健康管理服務器,詳細描述如下:
健康管理服務器部署健康管理軟件服務端程序,主要功能是依據系統監控軟件采集設備信息,實時(或半實時)監測系統預置的故障監測點,自動識別設備故障,分析故障原因;同時接受來自健康管理客戶端的診斷、測試、評估、分析、數據查詢、數據更新請求,收到請求后利用綜合數據庫中任務執行過程信息、系統及業務健康模型、設備狀態參數等,結合故障樹診斷、規則推理、歷史數據分析等手段,將診斷、評估、分析、數據查詢、數據更新結果返回給健康管理客戶端程序。
健康管理終端計算機,主要部署健康管理軟件客戶端,主要功能是對采集到的系統健康數據(監控、業務、數據)在線分析顯示、數據分析(診斷、評估)發起、主動診斷發起、評估報告生成顯示、知識管理、支撐數據管理等。
資源中心也部署一套健康管理軟件服務器,主要功能包括:一是可獲取所有地面站裝備的全部信息;二是可對地面站進行遠程健康管理;三是可接收地面站健康管理服務器上報的所有故障信息,一旦某個設備發生問題,能夠對中心范圍內所有使用該設備的地面站進行查詢,綜合分析其他地面站該設備指標的惡化情況,給出更換或維修建議。同時可通過物理隔離,將部分故障信息通過專網報給各設備生產廠、科研院所、維修中心。
本系統設計提出包括基礎設施層、核心技術層、數據資源層、資源管理層、服務層和應用層在內的技術體系架構,如圖4所示:

圖3 測控裝備健康管理中心拓撲圖

圖4 系統技術架構
基礎設施層,提供系統運行的軟硬件支撐環境,包括存儲設備、計算設備、網絡設備等。核心技術層,包括大數據、云計算、智能處理引擎等。數據資源層,主要整合各地面站、各科研院所、維修中心、設備生產廠上傳的圖像、音頻、文本數據等。資源管理層,主要包括硬件資源管理、數據資源管理兩部分,根據上層服務需求,對計算資源、存儲資源、網絡資源、數據資源進行調用和資源分配,并提供系統監控、運行維護、安全保密等運維管理功能。服務層,包括數據服務、專業服務、通用服務三部分,主要負責提供高可靠、高可用、可擴展、可動態伸縮的服務運行框架,提供數據分發服務、智能分析服務、通用服務等各類在線服務。應用層,包括各地面站、設備生產廠、科研院所、維修中心。分別提供裝備信息的顯示、交互功能。
按照“智能化、網絡化、服務化”的要求,測控裝備健康管理中心主要功能及模塊構成如圖5。
測控裝備健康管理中心采用分級健康管理方式,全系統的健康管理分為器件及部件、設備、分系統和系統級。器件及部件級的健康管理主要依據器件、部件提供的狀態監測信息和產品手冊提供的各類可靠性模型等進行健康管理。
設備級健康管理在器件及部件級健康管理的基礎上,依據設備的狀態監測信息、系統為設備建立的全生命周期設備健康檔案等,結合設備級測試手段(如本振相噪)進行設備級的健康管理。分系統級健康管理在設備級健康管理的基礎上,依據分系統各類健康狀態評估模型,結合分系統級測試手段(如鏈路相位噪聲、雜散和頻率響應)進行分系統級的健康管理。
系統級健康管理在分系統級健康管理的基礎上,依據系統各類健康狀態評估模型、結合系統級測試及標校手段(如 G/T 值、EIRP 值、校相、校零)進行系統級的健康管理。

圖5 測控裝備健康管理中心結構圖
(1)數據分析模塊

圖6 設備故障模型

圖7 故障診斷專家系統結構
設備狀態信息應是多層次、多方面和動態的,既可以是實時監測信息,也可以是定期檢測信息。該功能主要是對設備基礎數據、狀態信息、維修信息、維修資源信息和系統用戶信息等進行采集、存儲或處理,包括:從設備生產商獲得的RMS(可靠性、維修性、保障性)等信息;設備編號、設備名稱、型號規格和使用部門等設備基本信息;進行故障模式及影響分析的基礎信息;實時監測或定期檢測的設備狀態信息等。只有實現了設備狀態信息采集功能,才能為實施設備健康管理提供可靠的數據。
(2)故障診斷模塊
為快速發現和解決設備故障,在設備設計時,對有源模塊設計較多的故障監測點,保證有源模塊的實時監測。系統定時采集地面站內所有可監控設備的工作參數及狀態,以每秒 1次的頻率通過系統數據庫上報到故障診斷軟件,作為設備故障診斷分析的信息依據。故障診斷軟件依據知識庫中故障監測點的知識和規則,從工作參數及狀態中提取設備故障監測點信息,檢測、判斷并識別故障。
設備故障診斷采用基于故障樹與專家系統相結合的綜合故障診斷方法,綜合發揮專家系統的邏輯推理能力,完成故障診斷。(參見圖6、圖7)
(3)健康評估模塊
系統健康狀態評估通過系統組成模型、各分系統健康狀態、任務影響分析結果、備份關系、系統健康狀態模型、測試標校結果數據、任務實測數據(或接收數據)和任務目標狀態數據等,根據系統任務能力評估模型相關的各項關鍵技術指標進行評估和分析,評估得出系統健康狀態和任務能力。
系統健康狀態評估采用層次分析法,通常簡稱為AHP方法,是指先將一個復雜問題分解為幾個子問題,然后再對子問題向下進行層層分解,一直分解到不可再分解的評估指標為止。計算出各個評價指標后,將指標的評估結果進行歸一化,如統一歸化成百分制、1分制等,然后通過加權融合的方式計算其父級指標評分,再向上層層融合得到子問題的評估得分,最后通過證據合成的方式計算原復雜問題的評估結果。根據層次分析法,將系統健康狀態評估這個“復雜”問題,先分解為分系統健康狀態評估、任務能力評估兩個子問題,然后逐級分解,直到分解為容易量化的簡單問題,即單個的評估指標,然后歸一化,計算其父級指標,再向上層層加權融合、證據合成得到系統綜合狀態的評估結果。評估結果是 0~100的得分,對應健康、良好、注意、惡化、故障等五個健康狀態。
評估層次分析法如圖8所示。
(4)壽命預測模塊
在參數級故障預測中,如果被監測參數類型是數值連續型,那么在系統運行過程中就會形成一個時間-參數值的時間序列,通過對該時間序列的分析,可以對該參數的未來走勢進行預測,一旦預測到該參數在未來某個時刻會超過設定的正常閾值,便提前發出告警,基于時間序列的故障預測算法在當前有很多成熟的算法,如多項式回歸、自回歸模型等,在此不贅述。因此參數級故障預測不需要建模,可以直接采用現有的算法。
由于組件級和系統級設備的健康狀態不是由一個參數反映的,而是由幾個或者幾十個參數共同決定的,并且每個參數對設備的健康狀態的影響程度不一樣,比如溫度參數對設備具有至關重要的影響,一旦溫度過高會對設備造成不可逆的損壞,而芯片的某些鎖定狀態則對設備具有無足輕重的作用。這些參數指標如何影響設備的健康狀態,如何從這些參數指標中預測設備的健康狀態,沒有一個現成的算法來解決這些問題,也是設備健康評估與故障預測面臨的最大困難。因此需要對組件級和系統級設備進行數學建模,將復雜問題轉化為一個個數學問題。
(5)維修決策模塊

圖8 層次分析法評估流程
依據故障診斷、健康評估和壽命預測的分析,提出維修決策。給出更換結構/部件的操作指導,并于維護任務完成后對系統功能以及機體結構恢復狀態進行綜合評定,確認維護任務的正確性。設備維修部門可以通過各種預測模型(例如,灰色預測模型、比例風險模型、人工神經網絡等)預測設備或部件的剩余使用壽命,在設備嚴重停機事故發生之前,利用有效的預測功能可以保證有足夠的時間制訂和實施維修計劃。
(6)其他功能
如運維與安全,具備基于自主可控軟硬件,集成各類安全、運維手段,實現系統安全、可靠、高效運行的能力;具備用戶權限管理與控制能力,實現對用戶統一身份管理框架、認證及授權機制,實現用戶對信息資源的權限訪問控制;具備數據存儲安全、數據訪問控制。
人工智能的圖像分析首先通過機器視覺攝入圖像圖形,經過以基于視覺放大、機器學習、神經網絡等技術作為后處理的軟件處理后獲得需要的測量值?,F階段已有部分新設備直接或間接的借助于圖像技術,如表面光潔的鋼絲繩監測。利用4-6個120度魚眼攝像頭增加系統冗余度,在線監測鋼絲繩斷絲、斷股及磨損等狀態,使用視覺放大技術觀測由于鋼絲繩受損導致受力改變的延展的微小變形,來在線監控無人值守的鋼絲繩健康情況。
以時間序列分析法實現功能為例。時間序列分析法是根據過去的變化趨勢預測未來的發展,根據客觀事物發展的連續規律性,運用過去的歷史數據,通過統計分析,進一步推測未來的發展趨勢。事物的過去會延續到未來這個假設前提包含兩層含義:一是不會發生突然的跳躍變化,是以相對小的步伐前進;二是過去和當前的現象可能表明現在和將來活動的發展變化趨向??筛鶕鞯孛嬲?、設備生產廠、科研院所、維修中心等提供的歷史數據,結合設備的性能指標變化來進行故障預測。
或者基于BP神經網絡(ANN)和案例推理(CBR)的綜合智能故障診斷、預測功能。對于地面接收系統而言,其故障主要有三種特點。①一對多關系的故障征兆與原因。即一個故障征兆可能由不同的故障條件引發。②存在不易識別的故障。即由于存在噪聲或某些偶然因素,一些故障不易被識別。③各個子系統之間是互相聯系的、互相影響的,因此預測和排故都較為復雜。
針對系統故障的特點,使用ANN和CBR結合的智能結構模型。ANNCBR模型的核心技術思想是,根據各個案例的屬性特征,通過對其建立不同的索引,將一個大型的案例庫劃分為多個子案例庫。ANN作為CBR的前序模塊,對輸入的故障信息通過學習訓練賦予索引,從而可在CBR模塊中的具有相應索引的子案例庫中索引相似的案例集。其結構如圖9所示。

圖9 ANN-CBR模型結構圖
通過綜合分析設備的系統組成、運行狀態、維護操作以及負載狀況信息,選取能夠表征設備健康狀況的特征參量,對其變化情況進行跟蹤和預測,得出當前設備性能處于正常、衰退或者不可用的健康狀況評估結論。如圖,Ti為當前時刻,Ti+1為給定時間段端點或設備執行下一項任務的起始時刻,En 為設備正常狀態的性能閾值,Et為設備可用狀態的性能閾值。通過對Ti之前(包括Ti)的性能特征參量觀測值進行分析,得出Ti+1的預測值。若 E(Ti+1)≥En,則設備當前處于正常狀態;若 E(Ti)>Et、E(Ti+1)<En,則設備性能處于衰退狀態;E(Ti)≤Et,則設備已經發生故障或者設備性能已達到下限,處于不可用狀態。(參見圖10)
以比例風險模型實現功能為例。使用比例風險模型進行設備的剩余壽命預測時,需要完成樣本數據處理、參數估計、壽命預測3個基本步驟。簡要過程為首先從檢修數據中得到以下數據:1.設備從開始運行至失效或截尾的時間;2.設備從開始運行至失效或截尾過程中的協變量矢量;3.事件指示性變量。然后采用極大似然方法來得到模型中各有關參數的估計值,由Weibull分布為基底函數的比例風險模型的失效率函數可得生存函數,由生存函數可得特定可靠度閾值下設備的無故障運行時間。

圖10 設備狀態趨勢圖
智能裝備信息系統直接負責裝備的管控,涉及多種敏感數據,作為地面系統的重要組成部分,智能裝備信息系統安全防護系統按地面系統安全防護等級要求進行設計,在網絡、主機、應用、數據、運維等方面提供基礎安全加縱深的安全防護。其中,網絡安全包括云內網絡安全(云內部網絡隔離、云內部安全域劃分)和云安全網關(包括訪問控制、攻擊防御、NAT、VPN、IPS、應用控制等);主機安全包括云主機安全和物理主機安全兩個層面,分別在物理層和虛擬層加固保障系統的安全;應用安全采用安全開發、沙箱防護機制,數據安全采用數據多副本存儲、快照安全、數據庫服務安全;安全運維利用運維堡壘機實現統一運維入口、身份的嚴格認證、采取嚴格的訪問控制、監控審計和職責分離來確保運維安全。
安全防護分系統主要提供主機安全、網絡安全、應用安全、數據安全、安全運維等多個層面安全防護服務。主要由主機安全防護、網絡安全防護、數據安全防護、應用安全防護和安全運維等模塊組成。
(1)主機安全防護。包括密碼暴力破解防護、后門及漏洞檢測、主機木馬查殺、補丁管理、主機訪問控制等措施。
(2)網絡安全防護。包括安全組策略、信任機制、網絡防火墻、網絡入侵檢測措施,有效發現并阻斷來自網絡的惡意的攻擊行為,當監測到的惡意掃描和攻擊行為時,能有效識別云服務器的異常行為,自動進行防護。
(3)應用防護。包括應用漏洞檢測、端口安全檢測等措施,防止應用漏洞被利用來入侵云中心的相關服務,進行非法操作、導致服務異?;驍祿孤?。
(4)數據安全防護。包括數據安全標簽、數據訪問控制、數據安全審計、數據隔離等措施,滿足不同衛星、不同任務、不同密級的數據安全可靠的存放與訪問需求,實現各類數據可靠存儲與安全訪問,提升數據共享的安全性。
(5)安全運維。實現統一運維入口、身份的嚴格認證、采取嚴格的訪問控制、監控審計和職責分離來確保運維安全。
本文設計了一個智能化健康管理平臺框架,可以為測控裝備各類用戶提供數據分析、故障診斷、健康評估、壽命預測、維修決策等多種支持。在當前測控裝備的復雜性、綜合化、智能化程度不斷提高的環境下,此項研究對于削減維修成本、提高工作效率和工作質量、科學開展預防性維護維修、提高裝備可靠性有著十分重要的意義。