許宏才,張 超,鮑軍鵬*,翟 磊,胡 炎,吳健鑫,宋世杰
(1.西安交通大學 計算機科學與技術學院,陜西 西安 710049;2.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;3.北京跟蹤與通信技術研究所,北京 100094)
預測與健康管理(Prognostics and Health Management,PHM)是指利用傳感技術獲取被管理系統的運行狀態信息和故障信息,借助于推理或機器學習等人工智能方法,根據歷史數據和環境因素,對被管理系統進行狀態監測和故障預測;并且,對被管理系統的健康狀態進行評估,結合維修資源情況,給出維修決策,以實現關鍵部件的狀態修復。狀態監測指全面獲取系統信息,實時、快速、準確判定系統當前運行狀態。故障預測為決策者提供了系統/子系統/組件故障的預期時間預警。故障診斷模塊實時獲取通過監控系統采集的故障監測信息,對其進行統一控制和綜合分析,分析故障監測點和各檢測點信號,定位出真實的故障設備。
PHM技術是一項新的維修保障技術[1-3],代表了維修理念的轉變,實現了從傳統基于傳感器的診斷轉向智能系統的預測,極大地促進了“狀態維修”取代“事后維修”和“定期維修”的過程[4-5]。在軌衛星的健康管理系統可以感知和理解整個航天器及其部件狀態,為星上任務管理系統、航天員系統和地面站系統提供航天器狀態和其他決策信息[6-7]。當在軌衛星出現異?;蚬收蠒r,該系統可以使衛星系統恢復到正常狀態,降低安全風險和故障影響,提高自主性。
人工進行衛星健康管理,具有工作量大、效率低以及易發生人為錯誤等特點,所以有必要研制高性能衛星健康管理系統進行大規模自動化、智能化管理維護,提供健康評估、故障診斷與智能決策等服務供人類專家進行最后決斷。航天數據是一種典型大數據,不能依賴人工和一般小型系統來處理。因此要根據大數據云計算思想,設計更多更有效的航天數據挖掘算法來發現航天數據價值,開發新的高性能計算機體系結構來有效處理復雜數據,融合多種多樣的應用組件?,F有系統逐步接近性能瓶頸,難以完全適應我國航天器數量飛速增長的需求,主要受到原有體系結構局限,系統性能提升空間有限,不利于充分發揮設備效能,使得一些近年來出現的優秀深度學習算法不能充分發揮作用。
根據我國在軌衛星數量急劇增長的形勢,為了滿足未來發展需求,完全有必要研發下一代新型大規模在軌衛星健康管理系統。目前對衛星PHM系統研究主要集中在PHM系統框架設計、PHM系統關鍵部件的構建、關鍵部件的失效機理分析以及PHM預防性維護等方面[8-10]。為了對衛星PHM系統進一步研究,本文對衛星健康管理的現有技術進行匯總,挖掘現有技術方法中的問題與缺陷,從而構建下一代新型在軌衛星健康管理系統,對我國可控的所有衛星提供在軌健康管理服務,有效利用大數據挖掘和推理診斷盡早發現故障征兆,減少故障發生幾率,延緩衛星功能性能衰退或失效過程,達到合理延長衛星在軌使用壽命,提高衛星在軌使用效能。
衛星健康管理的基本需求是監測、預測和評估診斷。衛星健康管理系統的一種設計思想是在原有故障診斷系統基礎之上由故障發生之后的信息處理向故障發生之前的信息處理擴展,從而進行PHM的各種方法技術研究。另一種PHM系統設計思想是在衛星未出現故障前,對健康的在軌衛星進行學習和挖掘,研究機器學習和人工智能方法盡量避免故障發生,而一旦發生了故障,則融合傳統的故障診斷技術進行快速診斷和處置。
美國、俄羅斯和歐洲等航天大國為保障航天器安全和滿足在軌衛星運行管理需要,提出了趨勢分析、過程監控、壽命預測、狀態預診和健康管理等一系列新方法與技術[7]。NASA通過在軌衛星運行管理系統實時對在軌航天器健康狀態進行綜合分析、評估、壽命預測和故障預防預警,研制出第二代可重復使用運載器的飛行器綜合健康管理系統。美國研制集成健康管理系統(Integrated Vehicle Health Management,IVHM)[11],依據航天器下行健康信息,進行遠程專家會診。整個IVHM系統集合了一系列使航天器健康管理行為自動化的工具和過程。NASA等機構還進行了一些健康管理預警平臺的搭載試驗,并在“國際空間站”等航天器上得到了初步應用。與美國相比,歐洲也對航天器故障診斷技術進行了深入研究,并開發了實用的故障診斷系統。許多科學家研究和開發了多種基于知識的用于不同任務(例如環境控制)的老化和故障診斷系統和哥倫布模塊的生命支持系統(ECLSSD)。俄羅斯在故障診斷技術方面也擁有先進的技術,并開發一款跟蹤實時監控系統[12]為宇航員提供可視化信息。
目前,PHM技術沒有標準的維護策略,最佳維護策略分別由各機構掌握[13]。Farhat和Guyeux等人[1]使用了分布式拓撲、分層拓撲、集中式拓撲和分散拓撲4種不同類型的拓撲,顯示和研究每種拓撲的幾個參數和問題(如密度、安全性、數據聚合、頻率、數據包傳輸距離和能量消耗),分析這些參數對PHM診斷的影響。一般PHM的研究工作是從概念上制定設計方法,以提出一套基于不同框架的PHM系統架構,并從系統需求中派生出體系結構。然而,對于從功能視圖中的需求派生出來的PHM系統架構,缺乏進一步的解釋。Li和Verhagen等人[14]概述了一種從系統工程角度結合功能視圖的體系結構設計方法。
國內航天器健康管理技術在理論研究和工程應用方面也取得了一些進展。雖然已初步應用于一些航天系統的子系統級或部件級,但離完全實現工程化還有較大差距[15]。龍兵等人[16]詳細闡述了我國新型航天器健康管理系統主要采用的技術,指出應采用從上至下的方案開發集成健康管理系統。代京等人[17]提出從系統結構、功能、行為、故障和運作五方面要素來建立綜合運載器系統健康評估推理模型。年夫順[18]分析了我國PHM技術的發展現狀及存在的問題,預測了未來發展方向和應用領域,梳理了PHM技術體系架構,介紹了故障模型、狀態監測、數據處理、綜合診斷、健康管理、維修決策和后勤支援信息系統等關鍵技術,最后給出了我國發展PHM技術的意見和建議。潘宇倩等人[19]指出故障診斷算法是自主健康管理的核心技術之一,介紹了基于信號處理、基于解析模型和基于定性模型的多種故障診斷算法。趙娜等人[20]提出了一種衛星導航定位系統的健康管理框架,為實現智能化系統健康評估和管理維護奠定了基礎。Yang等人[21]提出了設計自主健康管理原則,分析了自主健康管理發展的不足及其影響,提出了一種新的自主健康管理設計原則的研究基礎。王冬霞等人[22]針對衛星導航系統中結構龐大、運行環境復雜,長期在軌運行難免發生元器件故障的問題,研究了衛星導航系統故障診斷及容錯技術,分別分析了基于解析模型、信號處理以及人工智能的故障診斷方法的研究現狀及關鍵性問題,總結了主動容錯方法和被動容錯方法的研究重點和發展趨勢。
在軌衛星健康管理系統中的一項重要技術是對航天數據進行數據挖掘以檢測航天器異常、發現趨勢規律和提取有用模式等。航天數據都帶有時間標簽,是一種典型的時序數據。關于時序數據中的異常檢測和挖掘也是國內外研究的一個熱點。Esling和Agon[23]對時序數據挖掘技術和健壯性評價方法進行了很好的綜述。Jing等人[24]提出了一種基于復雜網絡算法的衛星星座網絡健康狀況認知與決策方法。該方法首先將衛星網絡描述為一個由衛星、地面站和鏈路組成的復雜網絡,證明了衛星星座網絡具有小世界的特點。
PHM技術不僅在航天領域大有作為,而且在很多工業領域也獲得了成功應用[25]。例如汽輪機轉子、風力機變速箱、電力變壓器的核心和繞組、發電機定子繞組、鋰離子電池、燃料電池和輸水管等。Kim等人[26]介紹了預測系統健康的未來行為和剩余使用壽命的方法,以確定適當的維護計劃。詳述了PHM的歷史、工業應用、算法、益處和挑戰及工程方法,其中包括傳感技術、故障物理學、機器學習、現代統計和可靠性工程。Fong等人[27]介紹了一種結合了神經網絡的智能數據挖掘技術網絡和基于規則的推理以及基于案例的推理客戶服務數據庫中有關在線機器故障的信息診斷。李小龍[28]介紹了PHM理論及其故障預測技術、預防性維修策略等技術,目標是對煙草設備的故障構建和分析奠定理論基礎。這些實例體現了PHM技術的巨大工業價值。
總體而言,航天器健康管理是一項復雜系統工程,涉及多學科知識融合,應用基礎研究必須與工程實際緊密結合。目前國外航天器健康管理技術已經形成了基本完善的理論方法體系,并實現了部分工程應用。國內在理論方法和工程應用方面也進行了理論探索,但工程應用較少,并且多局限在比較單一的方向,與國外相比仍有較大差距。
因此,應當把方法創新與集成創新相結合,集智攻關,盡快開展下一代大規模在軌衛星健康管理系統研發工作。
本文面向在軌衛星運行維護和智能健康管理需求及應用,探討智能化在軌衛星系統全生命期健康管理體系,為實現衛星群體管理能力,保障在軌星座和在軌智能衛星個體全壽命在線健康管理服務水平做好技術儲備。健康管理系統的基礎架構按層級可分為傳感器層、數據收集層、業務層和表示層4個層次[29]。衛星PHM系統的一般框架結構如圖1所示。

圖1 衛星PHM系統一般框架Fig.1 A general framework of satellite PHM system
為了既能保證健康管理系統處理大規模在軌衛星數據的實時性,又能保證系統可以不斷增添擴容新衛星的擴展性,提出采用基于事件的分布式結構來設計新型大規模在軌衛星健康管理系統體系結構。
系統由數據接收分發節點、計算節點、存儲節點、管理節點、應用終端節點、對外接口節點和網絡交換機等部分構成,如圖2所示。

圖2 新型大規模在軌衛星健康管理系統體系結構框架圖Fig.2 A new architecture of large-scale on-orbit satellite health management system
數據分發節點接收實時衛星數據,并轉發給存儲節點和計算節點。計算節點處理實時數據,完成數據挖掘、機器學習和推理診斷等所有在線和離線的計算任務。存儲節點存儲接收到的實時衛星數據,以及系統的運行數據,包括學習、挖掘、診斷和決策等結果數據。管理節點對所有的軟硬件配置、網絡、用戶和數據等相關的系統任務進行管理。應用終端節點向用戶提供最終應用界面,接受人機交互。對外接口節點對外部系統提供服務。
為了保證系統可靠性和實時性能,各節點之間通過光纖網絡聯通在一起。將研究開發事件總線協議,各個節點之間通過事件觸發相應處理功能。為了保障足夠的運算性能,計算節點采用多核CPU+GPU結構的先進高性能計算服務器。
上述體系結構通過事件總線將任務分布到云端大量的高性能計算節點上以解決大任務量問題。當被管理衛星增加時,可以通過增加云端計算節點來解決大規模問題。在硬件設施上,采用最先進的多核CPU+GPU模式搭建高性能計算節點服務器,保障運算性能,解決運算量大的問題。目前很多數據分析和數據挖掘算法都能夠通過GPU計算實現較大加速比,例如深度學習算法就充分利用GPU獲得優異學習結果。在軟件算法上,針對性地更多設計分布式并行算法,從線程級并行優化到系統級分布并行優化,充分發揮多核CPU,GPU計算、云計算平臺等硬件設施性能,從而保障系統整體實時性能。
PHM技術涉及材料失效機理、故障模型構建等基礎理論,高性能傳感器、狀態監測和數據庫與信息系統集成等關鍵技術,數據預處理、機器學習、深度學習和故障診斷與故障預測等人工智能算法,以及與應用背景關聯性極強的健康狀態評估、風險分析與防范措施等方法研究。衛星PHM關鍵技術研究體系如圖3所示。

圖3 衛星PHM關鍵技術研究體系Fig.3 Key technology system of satellite PHM
設計功能性能優異的衛星PHM系統,必須要考慮建立在軌衛星相關的故障樹結構,對在軌衛星能夠進行有效地故障狀態回溯研究,通過故障樹結構的建立,可以對在軌衛星的實時故障狀態、模式機理進行推理分析,并開展初步的測試方法分析研究,獲得在軌衛星狀態分析的研究報告。為滿足衛星狀態綜合分析、健康預測和健康狀態管理的要求,建立分析數據來源,設定接口,主要包括在軌衛星的實時狀態傳感數據,特別要分析挖掘故障數據;地面接收的和分析學習的實時運行數據、環境實驗數據、極限能力實驗數據等,為健康管理方法研究、PHM系統研制和實驗驗證分析提供方法設計和驗證數據、系統接口設計要求和驗證數據。
在軌衛星遙測數據與其健康狀態之間的映射技術(故障建模技術)、數據融合和信息綜合保障系統技術,主要解決數據預處理、交換、融合和信息流動等問題,為PHM提供信息支撐。在具體實現中要挖掘學習演化規律,從在軌衛星系統中包含的遙測參數和屬性數值到衛星健康狀態指標數值是一個復雜的非線性映射,準確地學習出這種非線性模型是在軌衛星健康管理的關鍵技術之一。
在軌衛星系統產生的大數據不斷增大的規模和相關組件的復雜性,造成設計工程師在系統生命周期設計階段忽略一定數量的障礙類型,最終導致在診斷過程中出現更高程度的不確定性。在這種情況下,需要新的方法來實現在軌衛星系統的健康管理,以及用于在系統級別上做出更好決策的機制。如圖4所示,系統健康管理中常見的人工智能方法可以分為:① 知識驅動的方法,包括專家系統和定性推理;② 統計推理方法,包括貝葉斯網絡以及各種基于概率統計進行推斷的模型;③ 數據驅動的方法[30],包括有監督和無監督的機器學習模型以及深度學習方法[31]。

圖4 系統健康監測應用中人工智能方法Fig.4 AI methods used in system health monitoring applications
PHM的預測精度、預測效率和預測時效性直接關系到系統監控和維護的有效性。若PHM系統不可靠,會對健康管理系統中設備的安全性造成極大傷害。研究科學的PHM評估標準,建立PHM的性能評價指標體系是一項非常重要的任務。一般評估體系包括:評估的指標體系、評估流程、評估模型和評估方法。健康評估是按照設備功能、性能和狀態等因素,綜合考慮系統設備的質量、歷史狀況,按照層次分析法建立評價指標體系,給出各指標的權重比例,采用模糊集理論計算出評價結果,并給出設備健康狀態的綜合評價,最終輸出設備健康報表和設備維護建議。健康評估與維護決策子系統依據設定的指標體系、評價算法以及處置建議進行分析和評估,并給出合理建議。
剩余使用壽命(Remaining Useful Life,RUL)是指系統設備在某一特定時間內的使用壽命。它的評估對于系統狀態的維護、預測和健康管理至關重要。RUL通常是隨機和未知的,因此必須從現有的信息來源(如在狀態和健康監測中獲得的信息)來估計它。最近,由于健康監測技術的迅速發展,如何對RUL進行最佳估計的研究備受關注。然而,由于它與可觀測的健康信息之間的復雜關系,沒有這樣的最佳方法可以普遍用于獲得最佳估計值。Ahmadzadeh和Lundberg[32]回顧了用于估計RUL的建模發展過程,重點分析了數據驅動的方法。
衛星健康管理系統的研究主要集中在功能性、技術性方面進行探索和改進,利用仿真實驗對衛星健康狀態指標評估。近年,在軌衛星環境中的風險和防范措施獲得廣泛關注。地球軌道上不斷增加和堆積的碎片物體給在軌飛行衛星帶來巨大風險。張海濤等人[33]提出了地球靜止軌道衛星碰撞碎片短期風險分析方法,解決了地球靜止軌道區域空間目標碰撞短期無地面觀測數據的問題。Flegel等人[34]將風險分析與成本估算結合在一起,估計了2005—2055年由于空間碎片和超高速飛行導致碰撞的概率。當相交物體的軌道位置不確定性很高時,評估碰風險的概率會被降低,為了確定是否應采取聯合補救行動,應將沖撞區域的沖撞概率與在其他情況下產生的沖撞概率區別對待[35]。為了確定風險補救參數,以確保衛星在指定的置信度(例如99.9%)下不會與其他物體發生碰撞,Hall[36]提出了一種半經驗方法來估計滿足生命周期風險要求的碰撞概率閾值。
PHM技術已經成為復雜航空航天裝備中的關鍵技術之一。在信息化背景下,PHM技術與航空航天裝備開發同步進行,并不斷向智能化方向推進。PHM是一個多學科交叉的復雜系統工程,應該加速整合各方PHM技術研究資源,多學科協同努力,共同提高PHM技術研發效率。
從功能指標角度來看,衛星健康管理系統發展的主要趨勢是:
① 智能化:PHM從簡單檢查/監視功能向智能檢測、診斷、預警功能發展。
② 綜合化:PHM從單純監視/檢測功能向全方位網絡綜合監測、管理和全壽命保障方向發展。
③ 實時化:PHM從事后檢查向在線實時監測、診斷、預警、預測、視情維修和預測維修方向發展。
④ 通用化:PHM從針對單一型號的系統架構到開放系統構架、通用軟硬件模塊方向發展。
從技術內容角度來看,年夫順[19]依據PHM技術的任務與使命,從狀態監測、故障診斷、故障預測與健康管理等4個方面預測了未來PHM技術的發展趨勢??傮w來講,衛星PHM系統將朝向更加智能自主、更加綜合復雜的方向不斷發展,如圖5所示。

圖5 未來PHM技術發展趨勢Fig.5 Future development of PHM technology
本文介紹了PHM的總體概況和國內外在衛星健康管理系統方面的研究進展,重點論述了衛星PHM的關鍵技術,并概括總結了衛星PHM的發展趨勢??傮w而言,智能化、自主化、綜合化是未來衛星PHM系統發展的主要趨勢。此外,還介紹了衛星PHM系統的一般框架和一個基于大數據云計算體系構建面向未來大規模在軌衛星群的衛星健康管理系統的設計框架。