陸寧云 陳 闖 姜 斌 邢 尹
隨著信息技術和自動化技術的快速發展,如飛行器、高速列車、核電站、智能電網、流程工業設備等現代工程系統的集成度和復雜度越來越高,系統的安全運營和維護保障問題日益突出[1?4].對于可修復的復雜工程系統,及時恰當的設備維護是確保系統安全性、可靠性、可用性的重要手段之一.
系統維護策略已經歷修復性維護、定時維護、視情維護等多種維護策略[5?7].修復性維護(Corrective maintenance,CM),又稱事后維護(Breakdown maintenance,BM),是在故障發生后進行系統修復的維護方式.它以系統是否完好或是否能用為依據,故障后通過維修或更換手段恢復其原始狀態,屬于典型的非計劃性維護[8].顯然,這種維護策略的停機時間損失高,安全性差,僅適用于對安全性、可靠性要求不高的系統.定時維護(Time-based maintenance,TBM),也稱計劃維護(Scheduled maintenance,SM),它根據生產計劃和經驗,按規定的時間間隔進行停機檢查、解體、更換零部件,以期預防設備損壞、繼發性毀壞及生產損失[9].這種維護方式是現階段被普遍采用的一種維護策略.按照時間間隔的長短,維護策略一般包括大修、中修和小修等具體操作.然而,為了確保系統安全可靠運行,計劃維護的策略制定往往較為保守,從而造成過度維護,導致其經濟性較差.視情維護(Condition-based maintenance,CBM) 是以系統實際運行狀態為依據的維護策略,通過對主要的(或有需要的)部位進行定期(或連續)的狀態監測,當有證據表明系統需要進行維護時才實施維護活動[10].
CBM 是當前頗受關注并已經逐漸走向工程應用的維護策略,它能夠有效減少不必要的維護行動,其經濟性和安全性好于修復性維護策略和定時維護策略.基于信息的決策支持技術是CBM 維護策略的核心.基于隨機退化模型的狀態監控和健康評估是CBM 中常用的決策支持技術.隨機退化模型又分為連續型模型和離散型模型.如果利用有限狀態來表征系統的實際運行狀態,譬如,將系統運行狀態劃分為健康、退化、失效三種狀態,則可實現系統退化過程的離散型建模.若系統狀態具有連續變化特性,則通常用連續的分布函數對系統運行退化過程進行建模,進而得到連續型退化模型.工程系統中應用CBM 維護策略時,通過采集系統當前狀態信息,由退化模型得到系統的退化程度(或健康狀態),并根據該信息進行維護決策.
近年來,隨著物聯網技術、信息技術和人工智能的快速發展,一種更新穎的CBM 策略--預測性維護(Predictive maintenance,PdM)逐漸成為領域研究熱點[11?14].PdM 最大的價值在于,它利用系統剩余使用壽命(Remaining useful life,RUL)的預測信息,在維護機會窗口內選擇成本最低的維護策略和生產調度計劃,達到降低成本、提高效率、最大化生產利潤的目的.和CBM 相比,PdM 更關注于對系統未來狀態的預測和利用,其關鍵在于如何處理與系統健康狀態相關的各類大數據的知識挖掘以及如何降低信息不確定性對預測模型的影響.數據驅動的預測模型是PdM 決策的核心.其中,機器學習(Machine learning,ML)和深度學習(Deep learning,DL)是近年來最受關注的預測建模技術,它們不需要系統退化原理性知識,可通過系統實時收集的相關監測數據來估計系統健康狀態或剩余壽命,具有方法通用性好、實施成本低等優點.
圖1 概要描述了系統維護決策系統中從實時數據獲取到最終維護活動安排的全過程,從中可以看出CBM 向PdM 轉變的主要原因在于決策支持技術的進步.CBM 依賴于狀態監測數據的使用,以期建立能夠精確描述系統性能退化的退化過程模型;而PdM 則利用數據驅動的學習理論處理與系統健康狀態相關的各類大數據,準確評估與預測未來可能發生的失效概率以及設備的剩余使用壽命.

圖1 系統維護決策的全過程Fig.1 Overall process of system maintenance decision-making
本文內容的組織結構如下:首先,簡要回顧了系統維護策略的發展歷程;然后,根據決策支持技術的不同,重點介紹了基于隨機退化模型的CBM策略和基于數據驅動的PdM 策略,對每類技術的發展分支與研究現狀進行了疏理、分析和總結;最后,探討了當前復雜系統維護策略面臨的挑戰性問題和可能的未來研究方向.
系統在實際運行過程中由于受到內部因素(如磨損、疲勞等)與外部環境(如振動、沖擊等)的綜合影響,系統健康狀態不可避免地逐漸衰退,學術界通常將這類衰退現象稱為退化過程[15?18].退化現象,可視為系統設備對系統性能的損害,隨著時間推移而累積,當累積損害達到一定的故障閾值時,將大概率導致系統級故障[19].圖2 給出了退化失效過程與退化閾值的示意圖.退化閾值失效機制在退化和系統失效之間提供了密切的聯系.通過對失效機理和數據的分析,可以確定失效時間分布及其參數.因此,如果能夠為退化過程軌跡找到一個合適的退化模型,那么該模型就可以用于后續的壽命預測和維護決策.基于隨機退化模型的CBM 是指利用數理統計以及隨機過程的相關知識,建立隨機過程模型來描述系統性能退化軌跡,并通過收集和評估系統實時狀態信息進行維護決策[20].該策略中,只要能采集到當前可用的相關設備健康狀態數據,就進行退化建模,并實時評估系統的運行狀態.通過與預設的失效閾值進行比較,如果系統退化指標達到或超過閾值,將要求對系統進行及時維護;否則,認為系統狀態良好,仍可繼續使用,無需進行系統維護.

圖2 退化過程及失效閾值失效示意圖Fig.2 Illustration of a degradation process with failure threshold

圖3 基于隨機退化模型的CBM 策略的一般步驟Fig.3 General steps of CBM strategy based on stochastic degradation model
由此可見,基于隨機退化模型的CBM 策略的主要包含狀態監測、退化建模、維護活動安排和維護策略優化4 個步驟,如圖3 所示.前兩步旨在基于狀態監測結果建立合適的隨機退化模型,其中,隨機退化模型又分為連續型模型和離散型模型;后兩步是應用系統退化模型進行系統維護和決策優化.決策優化過程需要選擇合適的維護策略代價函數.如果系統對安全性和任務完成度有較高的要求,通常將平均可用度作為代價函數[21];而對于可靠性高、任務失敗后風險小的系統,一般將平均維護費用作為代價函數[22].最優維護決策就是在此基礎上研究費用最小或可用度最大的優化問題.根據現有CBM 相關文獻,不同維護策略的主要區別在于隨機退化模型,而決策優化過程基本相似,其主要差異在于代價函數和優化方法的不同.
當無法獲得系統退化狀態的精確測量值時,通常采用離散狀態建模手段,如馬爾科夫(Markov)過程模型.離散狀態表述具有天然的合理性,因為從工程實踐的角度來看,將系統退化狀態劃分為有限幾個退化等級是可行且有效的技術手段[23].馬爾科夫過程描述的是空間狀態經過一個狀態到另一個狀態轉換的隨機過程.設{X(t),t ∈T}是取值于狀態空間E中的隨機過程,如果對任意的正整數n,t1 則稱過程{X(t),t ∈T}為馬爾科夫過程.馬爾科夫模型有許多變體,如半馬爾科夫模型和隱馬爾科夫模型.其中,半馬爾科夫模型具有更為寬松的建模條件;而當系統的可用信息僅能部分觀測時,可使用隱馬爾科夫模型.關于馬爾科夫模型的退化建模已有大量文獻報道[24?30],本文不再贅述.下文主要介紹基于馬爾科夫模型及其變體模型的CBM 策略. 在周期檢測條件下,文獻[31]研究了一類可控環境下服從馬爾科夫退化系統的最優更換問題.在有限狀態空間內,將系統退化狀態建模為離散時間馬爾科夫鏈(Discrete-time Markov chain,DTMC),其狀態空間結構依據退化程度遞增順序而排列;DTMC 的轉移概率矩陣由環境過程控制,而環境過程也可作為DTMC 在有限狀態空間上演化.如果檢查時發現系統出現故障,則必須更換故障設備;否則,系統繼續運行或對系統進行一定維護后運行.最優更換問題最終被描述為一個離散的、無限時間馬爾科夫決策過程.需要指出的是,該最優更換策略假設系統狀態和環境方面具有控制受限特性.在非恒定周期檢測條件下,文獻[32]在馬爾科夫過程退化中考慮了使用時間和維護次數等要素,重點分析了武器裝備的幾個主要部件,通過預測各部件故障時間并結合判定規則確定了最優維護策略.在恒定和非恒定周期檢測條件下,文獻[33]分別建立了基于半馬爾科夫決策過程的風電機狀態維護模型,通過對兩種檢測條件下檢測間隔時間和維護成本的分析,得到優化的維護決策,該模型綜合考慮了風速、備件物流、停機損失等因素對風電場維護的影響,并成功將部件退化過程離散成了有限退化狀態,實現了風力機維護優化. 在實際工程系統中,系統某些重要的物理量不能被直接測量,但可以根據其他狀態監測傳感器信號進行估計.由于測量噪聲、外部干擾等原因,此估計通常不能完全地揭示系統狀態,因此需要研究基于不確定性信息的維護決策問題.概率論是描述不確定性信息的重要手段.文獻[34]運用概率分布定義了系統狀態,并在部分觀測馬爾科夫決策過程框架下開發了決策模型.所提出的維護決策模型能夠根據每個部件的內部條件和外部運行環境動態地安排相關維護活動,其內部條件不僅包括退化狀態的程度,還包括與單個部件相關的不同失效模式;而外部運行條件包含可能對系統維護成本和可用性產生重大影響的環境因素和維護資源準備時間等.另外,不完全的狀態監測往往會造成模型參數的不確定性,這種不確定性會顯著影響維護決策的可靠性.為了獲得準確可靠的設備狀態轉移率參數,文獻[35]將模糊集理論引入馬爾科夫過程模型,給出了考慮不確定性的設備狀態轉移參數的模糊表達,并依據模糊數的擴張原則求取了設備的模糊可用度,最后以設備的最大可用度為目標,確立了設備狀態檢查頻率優化決策的方法.文獻[36]認為隱馬爾科夫模型理論也是解決模型參數估計問題的一種有效方法,該方法優勢在于可有效辨別由于運行條件變化而引起的系統測量變化以及由于測量儀器或測量精度變化而引起的狀態測量變化.該文通過將優化模型與源于經驗數據的輸入參數估計方法相結合,提出了基于離散狀態馬爾科夫過程的最優維護策略.為了描述一類部分可觀測系統退化,文獻[37]將系統退化過程建模為三態連續時間的隱馬爾科夫過程:狀態1 和狀態2 分別描述系統的良好和預警狀態,是不可觀測的;而狀態3 描述系統的失效狀態,被認為是可觀測的.基于此,在部分觀測馬爾科夫決策過程框架下,文獻[37]提出了易于實現的最優采樣與維護策略;實驗分析表明,所提出的策略能夠顯著降低系統長期維護費用. 基于馬爾科夫過程的退化建模具有如下幾個特點:1)馬爾科夫模型能夠模擬許多系統的設計及其故障場景;2) 馬爾科夫模型開發時計算效率高;3)馬爾科夫模型適用于不完整的數據集,決策中能夠很好地處理不確定因素.然而,馬爾科夫模型的訓練仍然需要較大的數據量,且在退化建模時多假設單一的、非暫時的失效退化模式. 如果系統狀態隨著時間的不斷推移具有連續退化特性,且系統具有實時可觀測的狀態量,則應使用連續狀態退化模型描述其退化過程[38?40].現有文獻中主要涉及三種連續狀態退化模型:伽瑪(Gamma)過程、維納(Wiener)過程和逆高斯(Inverse Gaussian)過程. 1.2.1 伽瑪過程 伽瑪過程模型于1975 年被引入可靠性領域[41],當退化過程具有不確定、非遞減特征時,可將其視為伽瑪過程.伽瑪過程是具有獨立非負增量的隨機過程,其中,增量具有相同尺度參數的伽瑪分布.設隨機過程{Y(t),t ≥0} 為伽瑪過程,其概率密度函數為: 其中,α>0 和β >0 分別為形狀參數和尺度參數;exp(·)指的是以e 為底的指數函數.Y(t) 的均值和方差分別為α/β和α/β2. 目前,越來越多的CBM 退化建模中使用伽瑪過程模型.文獻[42]指出,當系統退化過程具有較大的不確定性時,基于伽瑪過程的CBM 策略優于基于役齡的定期更換策略.文獻[43]進一步考慮了系統中存在多個退化過程的CBM 決策問題.當某一個退化過程的退化水平超過對應閾值時,執行非停機預防性維護;如果系統在檢查時停機,則執行修復性維護任務.為了提高維護決策精度、避免過度維護和欠缺維護問題,文獻[44]提出非完美預防性視情維修、小修與故障更換相結合的維護策略,通過最小化總加權期望完成時間,得到了優化的加工作業次序和預防維修閾值.需要指出的是,該文所提出的維護策略僅適用于單機調度問題,對于更復雜的調度與維護決策的集成問題還需要進一步研究.文獻[45]分別考慮了經濟性和可用性兩個準則,給出了兩個通用的CBM 決策優化模型.其主要思想是利用歷史維護信息和狀態數據確定模型參數,建模分析了維護效果和維護時間這兩個重要因素.得出的主要結論有:不同研究對象的維護決策模型差異性巨大;不準確的維護效果和維護時間建模將可能導致錯誤的決策.以上研究主要針對單部件系統的最優維護決策問題,對于多部件系統,文獻[46]將風電機組視為一個同類多設備系統,提出了基于退化狀態空間劃分的多設備系統狀態維護決策建模方法,并建立最優解析模型,以最優檢測周期和維護閾值為決策變量,實現長期維護費用率最小的目標. 事實上,維護后的系統很難達到"修復如新"狀態,而通常是處于"修復如新"與"修復如舊"之間的狀態.換句話說,維護活動是不完全或非完美的,只是部分修復了系統.近年來,不完全維護條件下的維護決策問題已成為CBM 領域的一個研究熱點.文獻[47?49]認為貝塔(Beta)分布能夠較好模擬不完全維護后的系統退化水平.Beta 分布的優勢在于,它是定義在(0,1)區間的連續概率分布,而不完全維護后的系統退化水平也處于有限區間范圍內,這兩者之間具有定義域上的相似性,且Beta 分布具有良好的數學計算性質.另外,不完全維護活動甚至可能加速系統的退化過程.譬如,焊接可以減少裂紋長度,但可能破壞材料的某些物理行為;更換系統多個部件以進行維護操作可能會加速其他部件的惡化;備件可能是可重復使用的組件,也可能是質量低下的組件.因此,在維護之后,系統的退化速率有可能高于維護前的水平,即維護加速了系統的退化速率.基于此觀點,興起了對系統加速退化的研究.比如,文獻[50]利用一個服從指數分布的非負隨機變量來刻畫退化速度增量,而考慮到退化速度的變化能夠體現在伽瑪過程參數的更新上,進一步開發了一種自適應維護策略,使得每次設備檢查時可獲得最佳的維護操作.文獻[51]利用具有隨機單調性質的幾何過程構建了一種加速退化模型,研究了加速退化系統下的最優CBM 策略.文獻[52]考慮了系統工況變化對退化率的影響,將退化速度描述為應力分布,提出了一種基于狀態的自適應維護策略,該策略可根據可用度最大化準則確定最優的維護成本分配和維護閾值.文獻[53]則針對系統維護數據的稀疏特性,提出了適合小樣本建模的灰色模型理論,建立了系統加速退化模型,進一步結合偏最小二乘回歸和改進灰狼算法實現了系統CBM策略優化. 通過以上文獻回顧可以看出,伽瑪過程在CBM 領域得到廣泛青睞,其主要優勢在于:1)伽瑪過程便于數學上的分析和計算;2)伽瑪過程適用于建模隨時間逐漸累積的漸進式損傷,例如,磨損、疲勞、腐蝕、裂紋增長、蠕變和膨脹等;3)伽瑪過程模型的包容性較好,可與灰色模型、極大似然估計、矩估計、貝葉斯理論以及專家知識等多種方法結合使用.盡管基于伽瑪過程的退化建模方法具有諸多優勢,但同時也存在一定的不足,譬如,伽瑪過程模型通常無法描述非單調退化過程,如陀螺儀的漂移數據、電池容量的大小等.另外,伽瑪過程模型參數復雜,難以實時更新. 1.2.2 維納過程 維納過程是一種重要的獨立增量過程模型,適合描述系統性能隨時間推移非單調退化的過程.由于維納過程模型能夠描述多種典型產品的退化過程,并且具有良好的計算性質,因而逐漸成為CBM領域最常用的退化模型之一.對于維納過程{Z(t),t ≥0},一般表示為: 其中,Z(0) 表示系統在初始時刻的退化量,ρ是漂移系數,σ是擴散系數,B(t) 表示標準布朗運動,且滿足B(t)~N(0,t) .通常情況下,Z(0)=0,在實際中,若Z(0)≠0,可通過數學中的平移變換將其轉化為Z(0)=0 . 隨著維納過程理論的快速發展,維納過程已被廣泛應用于工程設備的退化建模、剩余壽命預測以及可靠性評估中.但以維納過程模型為基礎的CBM策略仍處于起步階段,相關研究成果并不多見.文獻[54]研究了微電子機械系統,系統總體由多數的正常器件單元和一小部分孱弱器件單元組成,而這兩類器件單元又分別遵循具有不同線性漂移系數的維納過程.通過構建并優化在線使用期間的平均成本決策函數,可確定最優老化選擇設置和預防性更換間隔.類似地,文獻[55]也建立了包括兩個相同模型結構但參數不同的雙維納過程退化模型,有效刻畫了系統運行的兩種狀態,通過一種五場景概率模型描述一個檢測間隔內的狀態演化,并考慮離散檢測的非平穩性和狀態檢測延遲對長期運行成本的影響,開發了三態機械部件在競爭故障模式下的最優維護策略.為了提升系統維護決策精度,文獻[56]分析了帶正漂移的維納過程和奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck)過程的具體特性,利用這兩個過程對系統運行時間和日歷時間進行建模,該建模能夠準確判斷出系統危險率,并精確預測出系統平均剩余壽命,為CBM 決策構建了基本準則.但以上研究,并沒有考慮到不完全維護的情況.文獻[57]考慮了不完全維護對系統退化量和退化率的雙重影響,通過采用維納過程建立起一種考慮不完全維護活動影響的維護決策模型.該方法在首達時間意義下推導出系統剩余壽命的解析概率分布,并依據剩余壽命的預測結果,建立起以檢測間隔和預防性維護閾值為決策變量的維護決策模型,最終通過決策模型優化達到了降低系統維護費用的目的.不過,這里需要指出的是,該維護決策模型僅適用于線性退化系統,對不完全維護干預下的非線性退化系統構建維護決策模型仍是空白方向. 對于執行安全關鍵任務的任務導向型系統,維護操作通常需要滿足一系列約束條件,如可用性、可靠性、維護時間和維護機會.此外,在實踐中,面向任務的系統允許實施一些預防性維護活動,在這樣的預防性維護之后,系統可恢復到一個“修復如新”和“修復如舊”之間的某一狀態.面向這一類任務導向型系統,文獻[58]在維護成本代價函數中加入了可用度約束條件,通過引入殘余退化量的概念刻畫出了不完全維護對退化水平的影響,并在此基礎上構建了一種以維護成本為目標的預防性維護優化模型,通過優化決策函數獲得了最佳預防性維護閾值.文獻[59]在維護決策中考慮了由操作環境變化引起的外部沖擊影響,將隨機沖擊波的到達過程建模為齊次泊松(Poisson)過程,而將由老化和磨損引起的自然退化過程建模為維納過程.根據累積沖擊模型,沖擊造成的損傷將會整合到退化過程中,并利用改進因子模型描述維護措施對系統恢復的影響,最終建立了以長期維護費用率最小化為目標的CBM 決策優化模型,最后通過對水下防噴器系統的實驗分析,驗證了該模型的有效性. 通過上述文獻分析,總結基于維納過程的退化建模優勢在于:1)維納過程源于帶有線性漂移項的布朗運動,能夠描述非單調的退化過程,以及實際退化中的“自愈”現象;2)維納過程的增量服從高斯分布,不僅有利于模型參數的估計,而且為剩余壽命解析概率分布的推導提供了有力保證;3)維納過程也便于數學上的分析和計算.雖然基于維納過程建模方法具有多方面優勢,但同時也暴露出一些問題,例如,實際工程中疲勞裂紋的退化速率會隨外界環境發生變化,對于這類非時齊的退化過程,維納過程模型很難處理;另外,維納過程在模擬單調的退化過程時效果不佳[60]. 1.2.3 逆高斯過程 和伽瑪過程相類似,逆高斯過程也適合對具有單調退化軌跡的系統進行建模.然而,由于逆高斯過程不像伽瑪過程那樣有直觀的物理可解釋性,并未在系統退化建模領域得到廣泛研究與應用.文獻[61]首次從物理的角度深入研究了逆高斯過程,同時指出其物理意義與維納過程具有一定相似性,即均為極限狀態下的復合泊松過程.因而,在工程實際中,對于不能用伽瑪過程或維納過程等模型進行良好擬合的退化數據,逆高斯過程是一個可考慮的選擇[62].對于逆高斯過程{H(t),t ≥0},其增量之間相互獨立且服從一個逆高斯分布,即?H(t)~IG(μΛ(t),λ(Λ(t))2),其中 Λ(t) 是非負單調遞增函數,μ和λ是常數,用來調節退化速度和波動性.逆高斯分布IG(a,b)的概率密度函數為: 其中,a和b分別是逆高斯分布的形狀和尺度參數. 逆高斯過程最近頗受關注[63?67],但基于逆高斯過程的退化建模和CBM 策略仍然是全新研究方向.有限的幾篇文獻中,文獻[68]針對產品退化符合具有隨機效應的逆高斯過程,研究了一種具有最優檢測間隔的最優視情更換策略.該策略利用逆高斯過程的隨機效應參數刻畫了產品群體中常見的異質性特征,通過不斷獲得可用的退化觀測值實時更新其概率分布,并聯合考慮了產品役齡和退化情況,制定了相應的更換策略.另外,文獻[68]也從理論上證明了單調控制極限策略是最優的.文獻[69]進一步將逆高斯隨機過程理論引入到油氣管道的腐蝕評估中,提出了一種逆高斯-狀態空間油氣管道腐蝕退化過程模型和維護決策優化模型.該策略首先根據其腐蝕機理建立逆高斯-狀態空間退化過程模型,然后運用經驗最大化與粒子濾波融合的算法估計模型參數,進而得出腐蝕油氣管道的剩余壽命分布函數和概率密度函數,最后以更換時間為決策變量構建了維護決策優化模型. 迄今為止,基于逆高斯過程的退化建模與CBM策略的聯合研究相對比較匱乏,還沒有形成系統的理論體系,有待進一步地深入研究.另外,由于逆高斯過程無法描述非單調退化過程,阻礙了其在退化建模領域的發展進程. 早期的PdM 策略通常預先假定系統的退化模型是已知的,然后根據確定的退化模型估計或預測系統的平均剩余壽命或推導出解析的剩余壽命概率分布,進而規劃后續的維護活動.在實際工程系統中,退化模型往往是未知的且建模成本高昂,不同類型系統的退化模型也不盡相同.另外,構建系統退化模型的輸入也僅局限于系統的狀態監測數據,而與系統健康狀態相關的“大數據”,比如系統使用狀況、當前工作環境和條件、早先實驗和歷史經驗等數據,并未得到有效利用.因而,近年來,系統維護策略的研究逐漸轉向于基于數據驅動的PdM. 基于數據驅動的PdM 策略可以不依賴于系統的退化機理模型,其決策信息也不局限于系統的狀態監測數據,而是通過挖掘系統健康狀態相關的“大數據”,獲得設備剩余使用壽命等更準確的系統維護決策信息,從而實現更為行之有效的維護策略,以減少機器停機時間,改善生產流程.基于數據驅動的PdM 流程主要包括數據采集、數據處理、預測建模和維護決策4 個步驟,如圖4 所示.從中可知,如能獲得系統運行的各種數據,就可以開展基于數據的預測建模和維護決策研究.其整體思路是,基于傳感器采集到的系統運行數據 進行數據選擇、降噪、標準化等預處理操作,提取能反映系統性能退化的特征參數;然后,利用機器學習、深度學習等智能算法,實時預測系統未來健康狀態和剩余壽命;最后,基于預測的健康狀態和壽命數據,以維護代價最小化為目標進行維護決策.在維護決策過程中,需要處理好維護活動安排(如維修類型和時機等)和相應資源投入(如維修人員與備件等)之間的配置關系,通過統籌規劃得到最佳健康管理措施. 圖4 數據驅動PdM 的一般步驟Fig.4 General steps for data-driven PdM 從數據驅動PdM 的一般步驟可知,預測建模是整個過程的關鍵步驟,它為維護決策提供了重要輸入信息,預測信息的準確與否直接影響到維護策略的制定效果[70?75].圖5 描繪了在線壽命預測與維護決策之間的關系.維護人員可根據剩余壽命預測信息在失效前的合適時間實施維護,避免重大事故發生的同時,減少維護與備件存儲的損失并延長系統的使用壽命[76?78].而對于數據驅動的預測建模,機器學習及其在此基礎上發展而來的深度學習是主流的技術,下面分別闡述其主要思想和在PdM 中的應用情況. 圖5 在線壽命預測與維護決策之間的關系Fig.5 Relationship between online life prediction and maintenance decision-making 目前,基于機器學習的故障預測和設備剩余壽命預測方法的研究成果十分豐富,如基于邏輯回歸(Logistic regression,LR)的方法[79?82]、基于人工神經網絡(Artificial neural network,ANN)的方法[83?86]、基于支持向量機(Support vector machine,SVM) 的方法[87?91]、基于決策樹(Decision tree,DR)的方法[92?94]和基于隨機森林(Random forest,RF)的方法[95?97]等.文獻[98]詳細介紹了幾種常用的神經網絡(多層感知器神經網絡、徑向基函數神經網絡、極限學習機)以及SVM 算法在設備剩余壽命預測中的研究現狀,分析了每種方法的優劣勢.文獻[99]則從具體的工業應用角度,深入討論了LR、ANN、DR 和RF 這4 種機器學習算法的適用性情況.盡管諸多機器學習算法已成功應用于工業系統,但大多數的研究僅為了預測而預測,而忽略了預測的最終目的.預測與維護決策是一個過程整體,只有將數據驅動的故障/剩余壽命預測與維護決策聯合考慮,才可從工程應用角度保證系統的安全性與可靠性. 最近,一些學者開始關注于基于機器學習的故障/剩余壽命預測與維護決策的集成方法研究,并取得了一些研究成果.這些研究成果主要以ANN和SVM 這兩種機器學習算法為技術基礎,將預測結果應用于故障件替換、備件訂購、生產運營規劃等維護決策活動,在維護成本、資源損耗與生產效益之間計算最優平衡點,達到減少損失、提高可靠性等目的.以下將重點闡述ANN 和SVM 在PdM中的應用情況. ANN 模型具有并行分布的處理能力、高容錯性、智能化和自學習等能力[100],在各個領域均有廣泛應用.在PdM 領域,文獻[101]針對旋轉設備的預測維護問題,提出一種以ANN 為技術基礎的綜合決策支持系統.該系統由三部分組成:第一部分通過對滾動軸承的狀態監測,建立了基于振動的退化數據庫;第二部分開發了一個ANN 模型來估計滾動軸承的壽命百分比和失效時間,并構造了一個邊際分布;第三部分構建了成本矩陣以及概率更換優化模型.另外,文獻[101]通過一個啟發式管理決策規則,處理了預測性成本和修復性成本構成的各種情形.跟隨此研究,文獻[102]開發了一種集成故障診斷與維護決策的智能操作系統,其智能診斷子系統利用ANN 評估系統在線的健康狀況信息,而智能維護子系統則借助于專家系統將診斷信息轉換為所需形式的維護信息.為了進一步提升ANN 的故障預測精度,文獻[103]引入了模糊系統和元啟發式算法,提出了一種混合模型以對煉油廠檢修相關的事故進行預測.該混合模型能夠實現煉油行業維護作業事故的早期預測,降低了決策不確定性. 另外,文獻[104]深入探討了ANN 的不同結構特性,分別利用自組織映射神經網絡和標準反向傳播神經網絡獲得風力渦輪機陣列之間的行為相似性,然后預測風電機組的期望功率,并基于獲得的分類和預測信息,實現海上風力渦輪機的維護策略優化.同樣針對海上風力渦輪機,文獻[105]提出了一種最優機會狀態維護策略,該策略通過ANN 預測風力渦輪機的壽命百分比,并從預測的失效時間分布中導出條件失效概率值,以刻畫風力渦輪機的退化程度;基于此,定義具有兩級故障概率閾值確定相應的維護策略,并通過優化成本決策函數確定最優閾值.相比于文獻[104],該最優機會PdM 決策方案便于實施,且解決了不同部件之間的經濟依賴性.為了避免風電機組檢修資源管理中可能存在的"個人主義"和"片面性"問題,文獻[106]提出了一種基于優勢粗糙集和誤差反饋神經網絡的檢修決策方法.該方法采用優勢粗糙集理論對知識進行約簡,獲得檢修決策規則集,并將提取的規則集作為神經網絡輸入樣本進行模型訓練,試驗分析表明,優勢粗糙集和神經網絡的組合方法優于單一的優勢粗糙集方法. 上述基于ANN 的PdM 文獻,其預測模型僅是簡單給出了壽命預測值,而沒有考慮到預測問題中不可忽視的不確定性.在實際工程中,系統中存在著各種各樣的不確定性,比如測量誤差、內在隨機性、模型不確定性等[107],這些不確定性會使得基于ANN 的點預測結果的可信度顯著下降.針對不確定性問題,文獻[108]給出了一種解決方案,利用ANN 在訓練和測試過程中的壽命預測誤差估計系統的不確定性程度,并利用失效概率閾值定義維護策略.在此基礎上,文獻[109]進一步研究了系統壽命預測精度不斷提升下的不確定估算問題,通過建立預測誤差均值、標準差與壽命百分比的關系模型量化預測不確定,之后同樣利用失效概率閾值定義維護策略. 和ANN 相比,SVM 集合了最大間隔超平面、凸二次規劃、核分析等多種技術[110],是一種更為高效的機器學習算法.它能夠在高維特征空間中得到優化的泛化界超平面,可以利用核技術來避免局部最小值,并通過間隔和限制支持向量的數量來防止過擬合.考慮到SVM 配置參數對模型性能的較大影響,文獻[111]提出利用粒子群算法對最小二乘SVM 模型進行優化,并將優化后的模型應用于建立設備狀態風險評估指標體系,解決了真空斷路器的狀態檢修問題.為了進一步提升最小二乘SVM的預測精度,文獻[112]改用雙層算法替代粒子群算法優化SVM 模型配置參數,在考慮成本效益的約束下,利用歷史運行數據構建了斷路器缺陷樹,并預測方案優化前后的缺陷分布,通過對缺陷損失的量化,采用成本效益度量法確定最佳維護方案. 上述文獻均是從參數微調角度增強SVM 的預測性能,以進一步提升PdM 的決策精度.除此之外,文獻[113]深入考慮了SVM 中的決策邊界距離以及工具變量在每個迭代過程中的知識,認為它們也為PdM 決策提供了重要信息.于是,針對半導體制造業中離子注入工具離子源中燈絲頻繁斷裂的問題,文獻[113]提出利用SVM 區分燈絲的故障和非故障運行,并將決策邊界距離考慮為與燈絲剩余壽命相關的信息,通過構建總的維護費用函數并基于蒙特卡洛(Monte Carlo)交叉驗證方法確定了最優維護方案.文獻[114]指出傳統SVM 模型構建中每個樣本點都被確定性分配給每一類的這種思想在實際工程中的應用效果并不理想,因此提出將模糊隸屬度函數引入SVM,并基于層次思想構建了一種層次修正的模糊SVM.所提出的改進模型在聯網車隊運營管理與維護中得到了有效驗證,在對車輛里程、年齡、車型等重要屬性方面的變化趨勢預測中,獲得的預測精度顯著高于傳統SVM、邏輯回歸(LR)和隨機森林(RF)等機器學習算法. 機器學習為PdM 策略的制定和優化提供了重要技術支持.總結以上機器學習在PdM 中的研究,具備如下特點:1)機器學習模型較為簡單,容易根據實際設計要求進行更改;2)機器學習模型對計算機硬件要求不高,計算成本低;3)機器學習模型的超參數調整技術較為成熟;4)機器學習算法中涉及直接的特征工程技術,而這些特征提取算法很容易解釋和理解. 隨著大數據時代的來臨,系統裝備運行狀態的監測數據呈現出容量大、多樣性強、產生速度快等特點[115].傳統的淺層機器學習算法很大程度上依賴于專家經驗知識和信號處理技術,難以處理這些海量監測數據.而最近發展起來的深度學習技術能夠在沒有信號處理專業知識的情況下自動提取和構造有用信息,為海量監測數據的處理提供了一種解決思路.圖6 描繪了傳統機器學習和深度學習的數據處理流程.可以看出,深度學習避免了傳統機器學習對原始數據的復雜特征工程(特征構建、提取與選擇),它可以直接采用端到端的方式來學習,而這種對系統運行狀況的表征學習可通過在原始數據和預測目標之間添加深層網絡結構來實現. 深度神經網絡是實現深度學習的一個載體,而它本身并非是一個全新的概念,可視為包含多個隱含層的神經網絡結構.為了提高深層神經網絡的訓練效果,人們對神經元的連接方式以及激活函數等方面做出了調整[116].依據深度神經網絡結構的不同,目前常用的深度學習模型主要包括以下三種:深度置信網絡(Deep belief network,DBN)、卷積神經網絡(Convolutional neural network,CNN)和遞歸神經網絡(Recurrent neural network,RNN). DBN 是一種典型的深度學習模型,它由多個受限波爾茲曼機(Restricted Boltzman machine,RBM)和單層反向傳播(Back propagation,BP)神經網絡組成,通過采用逐層訓練方式,可為整個網絡賦予較好的初始權值,并經過微調操作能夠使網絡達到最優解,從而解決了深層次神經網絡的優化問題[117].DBN 依據堆疊RBM 能夠完成對輸入數據的特征提取,有效解決了人工特征提取與選擇所引起的不確定性問題,實現了智能特征提取的目標,同時該方法下的時域信號無需滿足周期性要求,因而在剩余壽命預測領域具有廣闊的應用空間.文獻[118]借助于DBN 的自動特征提取和預測能力,將其直接應用于軸承的剩余壽命預測上,但預測精度并不理想,遠低于粒子濾波算法.在此基礎上,文獻[119]提出對傳統DBN 進行改進,開發了一種多目標DBN 集成方法,每個深度置信網絡的輸出對網絡集合的輸出均占有一定權重,顯著提升了DBN 的剩余壽命預測精度.另外,DBN 與其他算法的融合模型也相繼被提出,它們均有效彌補了單一DBN預測模型的不足,代表性的融合模型有:DBN-前饋神經網絡[120]、DBN-粒子濾波[121]、DBN-相關支持向量機[122].由以上文獻分析可知,DBN 能夠有效提取系統的退化特征,并能夠應用于剩余壽命預測中,但它一般需要與其他方法進行結合或對其改進以達到預期的壽命預測精度.另外,基于DBN 的剩余壽命預測與維護決策的集成方法研究尚未見有相關報道,有待后續研究. CNN 是一類包含卷積計算且具有深度結構的前饋神經網絡,是深度學習的代表算法之一.它一般包括卷積層、池化層和全連接層,具有表征學習能力,能夠按其階層結構對輸入信息進行平移不變分類,早期主要被用于解決圖形處理問題[123].由于其特殊的網絡結構,CNN 不僅能夠處理網格化數據,還可以輸入序列數據.特別地,CNN 具有稀疏交互、參數共享、空間池化等諸多優良特性,能夠為處理海量監測數據創造十分有利的條件.2016 年,文獻[124]首次將CNN 應用于設備剩余壽命預測上,該方法通過利用兩個卷積層和兩個池化層提取原始信號特征,同時結合多層感知器神經網絡實現了剩余壽命估計.緊接著,一些改進的CNN 相繼被開發,它們進一步提升了壽命預測精度,比如,文獻[125]為了保存更多有效信息,在CNN 構建中忽略了池化層;文獻[126]將CNN 中的全連接層全部更換為卷積層與池化層,以減少神經網絡需訓練的參數.由以上文獻分析可以看出,基于CNN 的剩余壽命預測研究已取得了一定突破,但由于起步較晚,當前基于CNN 方法的研究仍處于初步探索階段. 圖6 傳統機器學習和深度學習流程Fig.6 Flow of traditional machine learning and deep learning RNN 為一類包含前饋連接與內部反饋連接的前饋神經網絡,主要用于處理具有相互依賴特性的監測向量序列.由于其特殊的網絡結構,能夠保留隱含層上一時刻的狀態信息,因而對復雜動態系統建模表現出了強大優勢[127].借助于RNN 的建模優勢,文獻[128]搭建了一種以RNN 為技術核心的智能預測決策支持系統,用于實現對復雜動態系統的故障診斷與劣化趨勢預測.通過將這些有價值的結果作為集成維護管理系統的輸入,以預先計劃和安排維護工作,在某電廠關鍵設備上的測試和運行結果表明,該決策支持及管理系統能夠降低備件庫存成本,減少計劃外強制停機,并將災難性故障的風險降到最低.考慮到單一使用RNN 預測上的不足,文獻[129]構建了一種RNN 和隨機森林(RF)的融合模型用于鐵路鋼軌及幾何缺陷的預測,該融合模型預測結果通過兩個基準模型的加權運算得出,而權值系數則通過優化一個具有風險規避特性的目標函數確定,基于融合模型的預測結果,利用帶折扣因子的馬爾科夫決策過程模型確定最優檢查和維護計劃. 作為RNN 的重要分支之一,長短時記憶(Longshort term memory,LSTM)網絡解決了由于重復使用遞歸權矩陣而引起的消失梯度問題[130].LSTM網絡由多個單元塊連接而成,而每個單元塊內包含了輸入門、輸出門和遺忘門三個組件.輸入門控制著外部信息的輸入,輸出門負責將單元塊內重要信息進行輸出,而遺忘門則決定著單元塊內一些信息的保留或舍棄.在這三個門組件的相互協作下,LSTM 網絡能夠學習到長時間序列間的依存關系.借助于LSTM 網絡在時間序列處理上的優勢,文獻[131]首次提出了一種基于LSTM 網絡進行失效預測的動態PdM 框架:在數據驅動預測階段,利用LSTM 網絡來估計系統在未來不同時間窗內發生故障的概率;在維護決策階段,通過快速評估維護成本和備件管理成本,實時決策是否采取維護活動或訂購備件.為了解決了LSTM 模型預測中存在的不確定性問題,文獻[132]引入了概率估計理論,將基于LSTM 網絡的確定性壽命預測推廣至概率性壽命預測,該方法首先分析LSTM 網絡輸入、輸出變量之間的統計關系,然后利用概率估計理論推導出具有一定置信水平的壽命預測區間,基于獲得的預測信息,構建了預防性和修復性維護成本模型,通過成本模型的優化與比較,最終確定了采取維護活動的類型和時間.為了解決現代高速鐵路動力設備的維護問題,文獻[133]創造性地將數據驅動的方法和基于模型的方法結合在了一起,提出了一種預測維護與主動維護相協作的方式,該方法搭建一種長短時記憶遞歸神經網絡(LSTM-RNN)用于實現設備的預測;而對于主動維護問題,則設計了一種以設備物理退化和故障模型為基礎的樣本發生器,在氣體絕緣開關設備上的實驗結果表明,樣本發生器與維護預測器之間的強力協作,不僅可以根據歷史樣本數據準確預測出開關設備的未來維護時間,而且可以主動豐富數據供應以應對潛在數據不足的問題. 通過以上基于RNN 以及變體LSTM 的PdM文獻分析可知,RNN 在對復雜動態系統的建模表現出了強大優勢,能夠有效提升系統剩余壽命預測精度,并且具備較快的收斂速度和較高的穩定性.值得指出的是,以上關于RNN 在PdM 中的應用情況大多數是以構建維護成本函數為目標,并通過優化決策函數確定最佳維護方案,而對安全性和任務完成度有較高要求的系統而言,其剩余壽命預測與維護決策的研究仍有待更多關注. 航空發動機是一種高度復雜、精密的熱力機械,作為飛機的心臟,不僅為飛機提供動力,同時也為航空事業的發展注入強大動力.為了研究航空發動機的退化建模和壽命預測,美國航空航天局使用CMAPSS 工具對發動機主要部件(如圖7 所示)進行一系列運行到失效的性能退化仿真模擬,并公開了發動機性能退化數據集[134],以便學術界研究PdM相關技術. 圖7 航空發動機主要部件簡圖[135]Fig.7 Sketch of main components of aero engine[135] 該數據集記錄了航空發動機在每個飛行周期的24 個維度性能參數,包括3 個操作條件變量和21 個傳感器測量變量.數據集可進一步分為訓練集和測試集.訓練集包括100 組運行到故障狀態的單元,可用于建立壽命預測模型.測試集包括100 組停止于系統故障之前具有一定周期次數的單元,用于剩余壽命預測,還提供了測試單元的真實壽命,可用于預測模型性能評估. 圖8 描述了航空發動機PdM 的基本框架,它包含了信號采集、信號處理、故障預測和維護決策4 個模塊.從中可以看出,為實現航空發動機的PdM,需要解決兩個核心問題:第一個是數據驅動的預測建模,它為維護決策提供了重要輸入信息;第二個是基于預測信息的維護策略制定,它旨在給出實施維護和備件訂購的最佳時機. 對于預測建模,C-MAPSS 數據集已被用于與預測相關的各個方面研究.文獻[136?142]利用大量可用的運行故障數據,通過使用人工智能技術學習特征向量和剩余壽命之間的關系.文獻[143?148]充分利用豐富的訓練單元,開發了基于單元間相似性的預測方法.文獻[149?151]利用特征的多樣性,并基于多特征融合進行預測.文獻[152]提出了一種考慮數據集時變操作條件的預測方法.文獻[153]從降低預測風險方面,提出了一種混合模型預測方法.對于維護策略制定,文獻[131]提出了一種動態PdM 框架,通過快速評估維護成本和備件管理成本,實時決策是否采取維護活動或訂購備件.文獻[132]構建了預防性和修復性維護成本模型,通過成本模型優化與比較,最終確定了采取維護活動的類型和時間.進一步地,以文獻[131]為例,簡要說明航空發動機的PdM 過程. 首先,在故障預測模塊,21 個傳感器測量值輸入到LSTM 網絡,網絡輸出發動機剩余壽命在未來不同時間窗口內的概率,如表1 所示.表中時間窗口1~ 3 分別表示發動機狀態不同的退化程度:窗口1 表示輕微退化,窗口2 表示中度退化,窗口3 表示重度退化.其次,在維護決策模塊,基于獲得的預測信息,將做出是否訂購備件和是否實施維護決策,見表2. 綜合表1 和表2 可以看出,在運行周期為180 時(對應于第18 個決策周期),發動機剩余壽命落入時間窗口1 的概率比較高,表明發動機仍然能夠正常工作,故此時刻并不需要訂購備件也不需要維護系統.接下來,新監測的傳感器數據輸入到LSTM網絡,更新相應的預測信息.在第19 個決策周期,最優維護建議是訂購備件但并不需要維護系統,而可用備件將在兩個決策周期后到達.同樣地,在第20 個決策周期,也不需要維護系統.最終,當第21 個決策周期到來時,所訂購的備件已經交付,同時考慮到發動機失效概率為100%,于是,最優決策是預防性更換發動機. 視情維護在保障系統安全性、可靠性和經濟性方面具有十分重要的意義.本文對復雜工程系統視情維護決策的研究進展做了綜述和總結.依據維護決策支持技術類型,將其分為基于隨機退化模型的視情維護和基于數據驅動的預測性維護.在這兩種研究分支下,分別梳理了現有模型和算法在視情維護中的應用情況.從現有文獻回顧中,CBM 和PdM 仍然屬于戰略新興方法,仍然存在一些明顯的挑戰性問題亟待解決.從工程實踐的角度,當前視情維護決策面臨著數據的有效性判定和面向視情維護的友好實用的計算機程序開發等挑戰性問題,這兩個方面深刻制約著視情維護決策理論方法向工程實踐的轉化.從理論研究的角度,當前視情維護決策研究需要進一步加強考慮相互影響的多部件系統的視情維護決策研究、考慮人為因素的視情維護決策優化研究、基于深度學習和退化過程模型的融合技術研究以及狀態監測、壽命預測和維護決策的聯合研究,這4 個方面則制約著所提出的視情維護決策方法在電氣、電子、機電產品等復雜、敏感系統中的適用性情況.對于這6 個挑戰性的問題,具體描述如下: 1)數據有效性.眾所周知,數據對算法性能的重要性不言而喻.當前視情維護決策研究大多采用數值案例或某些平臺提供的公共數據集進行方法驗證,而來自實際運行設備的數據集較少.此外,數據采集系統的建設將是昂貴的,并且傳感器本身也有可能發生故障.基于這些原因,需要可靠的信息物理系統和物聯網技術來為視情維護決策研究提供低購置成本和高利用價值.此類措施將有助于研究人員充分利用實際運行設備而不是實驗平臺的數據,因而能夠更好地解決工業過程中的實際問題. 圖8 航空發動機PdM 的基本框架Fig.8 Basic framework of PdM for aero engines 表1 預測信息Table 1 Prognostic information 表2 動態預測性維護方案Table 2 Dynamic predictive maintenance scenarios 2)面向視情維護的友好實用的計算機程序開發.開發友好實用的計算機化視情維護程序是在實際工業案例中如何充分應用和實施視情維護的最后階段.友好實用的計算機程序能夠即時給出系統當前的運行狀態和提供未來的故障信息,并引導用戶采取相應的維護策略,從而保障系統安全可靠地運行.一個典型的例子是加拿大多倫多大學開發的EXAKT 軟件[154],它能夠實現旋轉設備的監測和決策;隨后,由中國香港城市大學開發的IPDSS 系統[128]、西班牙卡米亞斯大主教大學開發的SIMAP 系統[155]和美國紐約州立大學賓漢姆頓分校開發的PCBM系統[156]等也相繼被應用于設備的視情維護. 3)考慮相互影響的多部件系統的視情維護決策研究.當前復雜工程系統往往是由多個機械單元或部件按照一定的連接方式所組成,而這些元部件之間的退化過程和失效模式往往是相互影響的.現有視情維護研究大多集中于單部件系統,而針對多部件系統的視情維護決策還沒有得到充分解決.一個潛在方向是為具有不同部件類型(而不是相同類型)的多部件系統制定最優視情維護策略,并考慮部件之間的退化依賴性. 4)考慮人為因素的視情維護決策優化研究.在視情維護中,人為錯誤通常影響到系統的狀態監測、維護活動等環節而降低維護策略的有效性.例如,實際維護實施中,因為維護人員技術技能、心理狀態等因素,維護往往難以達到理想狀態,可能存在維護沒有效果,甚至損壞設備的情形發生;用于維護的資源包括了人員與備件等多種組成,那么考慮維護人員在內的資源調度問題必將對維護策略產生影響.因而,需要將人的可靠性集成到視情維護優化模型中,以研究存在人為干擾情況下視情維護策略的有效性. 5)基于深度學習和退化過程模型的融合技術研究.深度學習能夠自動提取系統監測數據中的特征信息,進而刻畫出特征信息與剩余壽命之間的非線性關系,在剩余壽命預測領域具有一定的普適性,但無法得到剩余壽命的解析概率分布,難以應用于維護策略的制定與安排;而以伽瑪過程和維納過程為代表的退化過程模型可根據系統退化軌跡估計出退化模型參數,推導出剩余壽命的解析概率分布,便于后續的維護決策,但剩余壽命預測精度受到所選退化模型的影響較大.因而在后續研究中,需要探索如何融合深度學習對復雜系統建模上的優勢以及退化過程模型對剩余壽命預測表達上的優勢,以做出精準可靠的維護決策. 6)狀態監測、壽命預測和維護決策的聯合研究.狀態監測、壽命預測和維護決策是一個過程整體,這三個部分共同影響著復雜系統的安全運行,其聯合研究具有十分重要的工程應用價值.由于綜合考慮安全運行全過程的研究是一項非常龐大而復雜的工作,且在現有的研究成果中較少定量分析各階段輸入及輸出之間的相互影響,使得關于狀態監測、壽命預測和維護決策的整體聯合研究進展極為緩慢.因而在后續研究中,需要準確刻畫它們之間的定量關系,并充分考慮多目標、多決策變量的優化問題.
1.2 連續狀態退化模型



2 基于數據驅動的預測性維護(PdM)

2.1 基于機器學習的PdM

2.2 基于深度學習的PdM

2.3 一個面向PdM 研究的典型案例

3 總結與展望


