姚羽曼,羅文嘉,戴一陽
(1 西南石油大學化學化工學院,四川成都610500;2 四川大學化學工程學院,四川成都610065)
為了預防化工事故的發生,降低事故的影響,故障診斷技術被廣泛用于化工過程中。故障診斷技術自20 世紀80 年代以來取得了長足發展,一般分為基于機理模型的故障診斷技術、基于知識的故障診斷技術和基于數據的故障診斷技術[1]。基于機理模型的故障診斷技術是基于過程第一性原理,利用先驗的物理和數學知識進行故障診斷的過程[2];基于知識的故障診斷技術是依賴操作人員的經驗和專家的知識,應用于知識簡單的特定場所進行故障診斷的方法;基于數據的故障診斷技術是通過分析大量數據,建立具有故障診斷功能的系統或算法模型的方法。化工過程機理模型難建立、知識復雜多樣難簡化集成,且隨著工廠DCS 系統的發展,系統中儲存了大量數據也亟待被挖掘,這使得基于數據的故障診斷技術成為化工領域研究的重點。隨著國家對化工安全的逐漸重視、數據驅動方法的不斷改進與創新,探討與分析近些年數據驅動方法在化工過程故障診斷中的研究與應用對該領域技術的發展與研究具有重要的指導意義。
數據驅動方法一般分為統計方法、基于人工智能的方法、綜合性方法[3]。統計方法又分為單元統計方法和多元統計方法,單元統計方法是對單一變量的數據進行處理的方法,由于化工過程的數據常是多維度且相互關聯影響的,因此現在的研究多不考慮單元統計方法。其化工數據驅動方法的詳細分類結構如圖1所示。
多元統計方法是一種基于統計學的無監督多變量數據分析方法,該類方法將高維數據投影到多個低維空間,利用統計學原理計算每個空間中表征數據信息與特征的統計量,并與閾值進行比較,進而分析結果[4]。常見的基礎方法有主成分分析法(PCA)、偏最小二乘法(PLS)、獨立成分分析法(ICA)、高斯混合模型(GMM)[3],以及引入核函數后使其能處理非線性數據的核主成分分析法(KPCA)[5]、核偏最小二乘法(KPLS)、核獨立成分分析法(KICA)、非線性內核高斯混合模型(NKGMM)[6]。

圖1 化工數據驅動方法分類結構
主成分分析法是將正常工況的數據進行正交轉換,投影到兩個子空間(主元子空間、殘差子空間)[7],并對監測點在兩空間中的T2、SPE 統計量進行計算的方法。偏最小二乘法是一種將數據結構簡化、相關性分析以及多元線性回歸功能相結合的線性統計方法[8]。該方法可以間接獲得不可測變量的預測值,可用于故障檢測。獨立成分分析法是將輸入進行非正交分解,求特征最大化獨立時的數據特征集,從而達到降維的作用。高斯混合模型是將多種高斯模型混合加權,并使用最大期望算法(EM)優化參數,獲得數據標簽以及標簽概率,從而進行故障分類的方法。4種傳統方法因其不同的特點,適用于不同的數據類型,其之間的性能比較、分析與應用結果見表1。

表1 傳統多元統計方法的性能比較與應用
除傳統的多元統計方法外,最近幾年,基于統計理論的流行學習和粗糙集學習被提出和應用。流形學習是一種在保持數據非線性結構和信息的前提下將其降維的方法[11],常用于本身具有一定空間連續性和規律性的數據,例如數據組成了直角坐標系中的圓心為原點的實心圓,那么降維后的數據維度為一維,特征為半徑。粗糙集是一種新的分析和處理不精確、不一致、不完整信息與知識的數學工具[12],是通過計算舍去不同變量后其上下近似集合的改變情況來進行特征約簡,從而提取核心知識的方法。通常流形學習僅適用于連續數據,而粗糙集則僅適用于離散數據。因此,如何擴寬方法的使用范圍是當前研究的一種方向。
多元統計方法數據處理能力強,但故障識別和診斷能力弱,大多數的研究集中在以下兩點:①通過改進統計量和核函數防止主要信息的丟失和優化多元統計方法在非線性系統的效果;②與其他數據挖掘方法結合,利用該類方法作數據預處理。
人工智能研究的是如何讓計算機做一些目前人類做得更好的事情[13],機器學習是人工智能依靠數據在計算機上的一種應用[14]。機器學習方法一般分為監督學習和無監督學習兩類。
監督學習是一種需要提供示例輸出結果,通過訓練得到輸入輸出關系的誤差最小化方法,例如決策樹、人工神經網絡、深度學習、支持向量機、集成學習。決策樹是一種由節點、分支構成的樹結構,節點表示對象,分支表示選擇。決策樹常包含ID3、C4.5、CART等方法[15],常需要進行樹深度設置、剪枝操作以及評價指標選擇來獲得最優的樹結構和分類擬合效果。決策樹方法無法在數據量過大時構建優異魯棒的非線性模型,為此人工神經網絡這一從神經學提煉出來的一種應用于計算機的黑箱模型被提出[例如反向傳遞神經網絡(BP)、徑向基函數神經網絡(RBF)],人工神經網絡包含1個輸入層、5~7個隱含層以及1個輸出層,通過調整權重和偏執使誤差最小來構建非線性模型[16]。但由于人工神經網絡的缺陷,非線性模型的非線性程度較低,無法滿足復雜的工業過程,科學家開始思考是否可以通過增加隱含層層數提高模型的非線性程度,因此誕生了深度學習的概念。現如今深度學習的目的主要是模擬更復雜的人腦和學習活動而非只滿足非線性要求,常用于圖像識別領域,常見的算法有棧式自編碼網絡(SAE)、卷積神經網絡(CNN)、深度置信網絡(DBN)、循環神經網絡(RNN)等[17]。集成學習類是將多種弱學習器結果集成的方法,它解決了深度學習計算復雜度高的缺點,能通過簡單的弱學習器達到驚人的效果,根據組合方式的不同可分為boosting、bagging、stacking三種[18]。支持向量機是基于統計理論和距離計算的二分類器,通過不斷構造超平面,計算兩類數據對超平面的幾何間隔距離(兩類別的數據分別到第i∈n個超平面的距離的最小值),取不同類數據間幾何間隔距離最大的超平面為分類最優超平面,并用于數據分類,是最簡單又快捷的適用于數據量少的非線性分類方法。對監督學習的代表性方法進行匯總和分析,結果見表2。

表2 基于AI的監督學習方法的性能比較和應用
無監督學習能自主挖掘數據關系,常不需要示例輸出,例如k-means和自動編碼器。無監督學習雖然不需要標簽就能對數據進行處理,但也因此使得模型具有了隨機性,結果的好壞會過分依賴于數據本身的質量。k-means 是一種典型的無監督學習方法,通過預給出族群數量,按照距離計量方法獲得劃分模型[21]。但很多時候族群數是未知的,族群數的確定需要花費較多的時間。自動編碼器則是一種人工神經網絡,它能通過網絡結構挖掘到數據的內在關系,降低數據的維度,提取出核心的信息,因此也能進行重構生成與輸入相似的數據,可用于圖像領域,也常用作深度學習的預訓練。
隨著近些年來物聯網等技術的發展,工業數據已越發趨向于大體量、非線性、非高斯分布,對方法本身的要求趨向于高魯棒性、低計算復雜度、高效性。雖然無監督方法對樣本的標簽要求少,但與監督學習相比還不夠成熟,因此結合工業數據特征,能充分挖掘大數據信息結構以及整合數據處理功能的深度學習和集成學習方法(例如集成學習中基于bagging 方法的隨機森林)將會是故障檢測和識別領域的研究熱點。但深度學習模型的訓練和測試時間較長,不具有時效性,需要進一步的優化提升。
綜合性方法是將統計原理應用于人工智能方法中的第3 種數據驅動方法,主要有貝葉斯網絡(BN)和隱馬爾可夫模型(HMM)[3]兩種。
貝葉斯網絡是應用貝葉斯定理,在事件相互獨立的條件上,通過先驗知識預測后驗概率的算法[22],具有不確定推理能力的優點但無法學習數據的結構,常用于數據量較小的多分類獨立問題[23]。該方法能很好地與機理結合使用,使模型更專業和正確,彌補基于數據的模型的缺陷,這促使了該方法的研究和應用,但由于網絡的構造需要人工進行,在數據量大時會加大工作量,因此如何使其自動化成為BN的研究難題。
隱馬爾可夫模型[24-25]創造于20 世紀70 年代,是一種馬爾可夫鏈,具有雙重隨機性,結構中所包含的隱含參數需要通過概率統計方法獲取,鏈式的結構和統計參數形成的模型能對數據進行預測,能有效地處理前后關系密切的數據集,例如時序數據。
貝葉斯網絡和隱馬爾可夫模型均是利用機器學習的結構和統計學的理論對數據進行分析的概率圖模型,能更好地解決特定問題,擴展性強。
化工過程的數據具有體量大、標簽數據需要手動添加、樣本不平衡、非線性強、高維度、高相關性、動態特性明顯的特點,因此數據驅動方法在化工過程的故障診斷中的研究應用多是集中在以下幾個方面:
(1)無標簽的大數據下的化工故障診斷方法的研究與應用;
(2)高維度特征下的化工過程故障診斷方法的研究與應用;
(3)數據不平衡下的化工過程故障診斷方法的研究與應用;
(4)數據動態特性下的化工過程故障診斷方法的研究與應用。
接下來針對以上4種研究方向,分別敘述、分析、總結近五年來與其相關的文獻供讀者閱讀和思考。
通過DCS 系統采集獲得的化工過程數據常不含分類標簽,需要在應用部分數據驅動方法時手動添加,導致數據處理時人力和時間成本較高,且使得診斷結果易受標簽添加的人為因素影響。
多元統計方法屬于無監督方法,不需要添加標簽,但故障診斷的能力和處理強非線性過程的能力較弱,往往需要先優化傳統方法后與其他機器學習方法結合來應用,以提高在處理化工數據標簽問題上的診斷綜合效能。解亞萍等[26]優化了無監督聚類方法PCA,提出了一種基于k-means聚類貢獻圖的核熵成分分析的間歇過程故障診斷方法,并將該方法應用于青霉素發酵過程中,其診斷結果證明該方法具有有效性。劉麗云等[27]采用無監督聚類方法kmeans對故障進行聚類檢測,再結合PCA的貢獻圖方法對檢測出的故障進行識別,在TE 過程的故障檢測中,該方法能檢測出其他方法不易檢測出的故障且故障平均正確率高。
深度學習方法具有高適應性和很強的學習能力,能夠處理無標簽或部分標簽的數據,魯棒性強,整體效果好。Li等[28]結合卷積神經網絡特征提取方面的強大能力,提出了一種基于卷積神經網絡和DAEs 的無監督混合故障診斷模型,將其應用到脫丙烷精餾過程中,其平均故障診斷率達92%,高于傳統的CNN、DAE模型;Arunthavanathan等[29]提出了半監督的基于增量式單類神經網絡的淺層神經網絡故障診斷方法,減少所需手動添加的標簽量,自主學習新故障的信息并進行自動更新,在TE 過程中,診斷所花費時間為80s以內,遠少于其他神經網絡診斷時間。Zheng 等[30]采用深度自編碼器網絡和t-SNE算法進行特征提取和數據可視化。提取的二維特征采用小批量k-means算法聚類,降低了添加標簽所需要的時間。將該模型應用于TE 過程的階躍型故障中,能100% 識別出故障1、2、4、6、7。
一些學者將多元統計方法和深度學習方法結合起來,提高單一方法的無監督診斷能力。張祥等[31]提出了一種基于無監督特征提取降維方法VAE 的DBN 故障診斷方法,在TE 過程中故障診斷效果遠優于SAE方法。趙帥[32]基于Tri-training和GPR方法建立了半監督集成方法,利用Tri-training 的協同作用對無標簽數據自動進行標簽添加,在脫丁烷塔化工模擬過程中驗證了方法的有效性。
化工過程中大量無標簽的數據使診斷過程時間成本高,研究者常通過使用傳統聚類方法(多元統計方法)和深度聚類方法(結合深度學習的方法)來解決。傳統聚類方法的聚類效果受噪聲和數據的平衡程度影響較大,聚類標準、統計量的優化和設定依舊是研究的重點;深度聚類方法無法提取數據的結構關系,如何有效利用數據結構關系提升深度學習對聚類效果的調整能力具有一定的研究前景。除此之外,由于加入深度學習進入診斷模型中,導致模型的診斷時間過長,這不利于化工實際應用,需要重視和額外研究。
化工過程輸出變量繁雜,變量與變量之間、變量與故障之間都存在相關、不相關兩種關系,多余的變量會干擾診斷結果,增加診斷時間。
大多數能夠進行特征提取或者降維的方法,在處理具有高非線性和非高斯分布特征的化工過程數據時診斷效果下降,其原因是這些方法無法適應高非線、非高斯分布的數據。汪慶寧等[33]針對化工過程數據非線性變量繁雜的特點提出了一種基于PPA的多元統計分析方法并應用于TE過程的故障診斷,與KPCA等傳統非線性特征提取方法相比具有更好的效果。錢錕[34]將高斯徑向基核函數與多項式核函數進行加權作為新的核函數,提出了一種基于組合核函數KPCA與改進ELM的故障診斷方法并應用于TE過程,其能力遠優于傳統的KPCA。曹玉蘋等[35]提出了基于動態單類隨機森林的故障檢測方法,在TE 過程中,與單類支持向量機(OSSVM)方法相比,該方法檢測效果好,檢出率提高了20%。夏永彬[36]利用遺傳算法優化了粗糙集的屬性約簡性能,并與BP結合應用于某廠70m3的PVC聚合釜中,提高了對變量的提取能力,從而降低了過擬合情況,提高了測試診斷率。Norazwan等[37]對傳統的用于數據降維和特征提取的多元統計方法進行了改進,提出了多尺度KFDA方法,并與ANFIS故障診斷方法結合形成新的診斷框架,并應用于TE 過程中進行方法驗證,結果顯示該方法優于PCA-ANFIS、FDA-ANFIS方法。
目前大多數特征提取和降維方法僅能針對變量繁雜問題,而無法對故障趨勢和結構進行提取,只是根據相關性去掉不相關變量,達到降維作用,但這樣同時會丟失許多局部信息,影響診斷結果。Yu 等[38]研發了具有增量學習能力的廣義卷積神經網絡(BCNN),該網絡能提取非線性的故障結構特征和趨勢,并且通過增量學習減少了每次新樣本的加入導致網絡重新訓練時間,使得模型具有更強的自學習和泛化能力,在TE 過程和實際的三相流設備中證明了方法的有效性。Lyu 等[39]為了獲取變量間更深度的信息,減少降維后信息的損失率,解決統計學方法不易檢測早期突發故障的問題,提出了基于疊加稀疏自編碼器(SSAE)的加權時間序列故障診斷方法。利用SSAE 網絡將其轉換為深度學習所能處理的數據形式,使其能應用在化工過程中。張展博等[40]針對傳統方法局部信息的提取能力弱的問題,提出了局部時空正則的慢特征提取獨立成分分析(LTSS-ICA)方法用于故障檢測,并應用于TE 過程進行了方法檢驗,與DGE 方法相比,其檢測效果有所提高,但該方法不適用于高度非線性數據。
不同的優化算法和不同的特征提取方法進行組合以彌補單一方法的不足,提高整體診斷框架的特征提取效果和診斷效果。冀豐偲等[41]提出了一種基于線性判別分析(LDA)與SVM 相融合的故障診斷方法并應用于TE過程,其中SVM的超參數是通過網格搜索和K 折交叉驗證尋優獲得,與SVM、PCA-SVM相比具有特征提取能力強、收斂速度快、診斷準確率高、模型健壯的優點。任玉佳等[42]研究了一種ICA與互信息方法相結合進行特征提取于故障檢測,使用基于遺傳算法優化的核極限學習機進行故障識別的化工故障診斷方法,在TE 過程與某工業脫丙烷過程中的應用結果表明該方法的有效性。
特征提取是解決化工數據維度過高導致故障診斷效果低的傳統方法,而特征提取的研究多著重于降低特征信息的損失率,未來可以從制定降維程度和信息完整度的綜合評價方法、利用其他數據驅動方法對評價方法進行學習和尋優兩個方面進行深入研究。
由于化工過程的故障診斷數據具有極度不平衡性,即正常的負樣本數據遠多于故障正樣本數據,并且不同故障類型之間的數據量相差懸殊,導致傳統意義上的數據驅動方法經訓練后其故障診斷效果極差或結果偏向于少數幾個類別,泛化能力差。
一些學者通過對少數類數據進行過采樣或對多數類數據進行欠采樣的方法提高數據的平衡度,從而提高故障診斷模型的適應性。易維淋[43]將隨機欠采樣和SMOTE 方法進行組合對不平衡數據進行混合采樣,從而訓練極限學習機進行故障診斷,TE結果表明當不平衡度較大時,該方法比傳統極限學習機的總體分類精度和G均值更高。Hu等[44]利用數據預處理方法和DNN 模型來減少不平衡現象的影響,形成新型的增量式不平衡修正深度神經網絡(incremental-IMDNN),在TE過程中的診斷結果表明該方法魯棒性好、適應性強。夏麗莎等[45]利用Easy Ensemble 思想對正常樣本進行欠采樣,分別與故障樣本形成多個訓練集,應用PCA 方法進行降維后,使用Adaboost 集成方法集成多個SVM 分類器進行故障診斷,在TE 的不平衡數據中,故障狀態的診斷準確率和正常狀態的查準率分別高達99.59%和99.83%。
從統計學方面來看,數據不平衡等價于某類數據所對應的事件發生概率比較低,將數據不均勻分布的決定因素進行定義并引入到模型中,使模型通過自學習獲得內在規律是一種比數據處理方法更方便的解決方法。Askarian 等[46]將故障發生率考慮進來,對貝葉斯網絡進行了改進,該方法通過先驗概率對信息流進行計算,以在線診斷與訓練模塊交互、先驗概率自主更新學習來保障系統穩定性。在不平衡度為10∶1的TE過程中,與基于C4.5相比,該方法提高了30%的F1 性能指數(精確率與召回率的調和平均數)。張遠緒等[47]采用稀疏理論對DAEN 進行了改進,并添加Softmax 分類器提高標簽利用率,改進的DAEN 方法在處理TE 過程的不平衡數據時比傳統DAEN的診斷率更高。Peng等[48]通過配置不同的權重和偏置處理不平衡數據,形成了針對數據不平衡、無標簽、動態特征的基于雙向門控神經網絡的診斷框架,用于動態環境中具有不確定性的故障診斷。該方法被用于TE 過程中進行了驗證,結果表明其在二類故障診斷和多類故障診斷中都取得了較好的效果。
由于故障的發生概率不同,造成故障樣本之間,故障與正常樣本之間存在不平衡,學者大多通過欠采樣將少數類增多的處理方法解決,也有部分通過研究發生概率的數學理論并將其引入模型中進行修正和優化。預處理方法的精度依附于對數據本質的研究,探討所添加數據和真實數據的對應關系應為該方法的研究重點。而優化和修正方法則應先著眼于不平衡因數的確定和模型抽離,再在較統一的基礎上逐步提升模型診斷效果。
化工過程采集到的數據常不是靜態的,但在傳統的應用中,大多數方法將其當作靜態數據,忽略了數據在時間維度上的信息以及數據間的相關性,導致其無法處理具有更復雜關系的例如開停車等化工過程。
大多數傳統方法直接應用于時序數據時處理能力大幅降低,因此可以考慮對原始數據進行一定的處理,將數據中的時序動態關系轉換成靜態關系,然后應用到傳統方法中,保證其診斷效果。羅磊等[49]改進了交叉收斂映射(CCM)算法使其適用于化工動態故障診斷過程,得到的DCCM 算法在TE過程中進行驗證,表明該方法對動態過程的變量因果分析與時滯分析有較好的效果,具有一定的啟示性。馮立偉等[50]提出了一種基于時空近鄰標準化和局部離群因子的復雜過程故障檢測,時空近鄰標準化將動態數據中正常與故障最大化分開,局部離群因子在此基礎上有效地診斷故障,在TE 案例中,與其他多元統計方法相比該方法在動態數據上具有更高的診斷率和魯棒性。宋曉云等[51]針對非穩態過程的故障診斷問題提出了基于DTW 的PCA 診斷方法,通過DTW 對時間序列的數據進行處理,再應用PCA 進行靜態故障診斷,從而簡化非穩態數據的診斷復雜度,提高診斷效果。該方法被用于青霉素發酵過程的Birol 模型中,其結果表明該方法能有效解決非穩態早期過程診斷問題。由于化工過程的動態數據隨批次、操作及故障程度不同會有較大差距,要求故障診斷方法具有更強的適應性。趙勁松等[52-53]將DTW算法與人工免疫系統結合,提出了動態人工免疫算法,可以應用于青霉素發酵等間歇過程,也可以應用于精餾塔開車及穩態運行的全生命周期,具有自學習、自適應能力。
上述將時間序列數據轉換為靜態數據的方法可能導致信息丟失嚴重,而直接使用動態提取或聚類方法對時間序列進行處理,然后再應用到靜態系統中的方法能夠在數據處理和信息保留中實現平衡,獲得較好的效果。Tanatavikor 等[54]提出了一種新的批處理過程監控方法——附加時間序列主成分分析。該方法采用改進的聚類方法進行相位識別和數據分割,并根據數據序列構造多個時間有序的重疊主成分分析模型,然后將主成分分析模型用于靜態過程監測。該方法在工業青霉素發酵過程中診斷的假陽性率在0.2%之內,平均診斷時間為0.6h。Barragan 等[55]提出了一種基于小波特征、主成分分析相似度度量和模糊聚類相結合的多變量時間序列模式識別方法,在TE 過程中驗證了有效性,該方法理論上可對不同時間長度的數據進行聚類與診斷。
通過數據處理的方法解決動態問題其處理過程相對簡單,但當數據量過大時易造成更高的計算復雜度,而通過利用LSTM 網絡的動態數據處理能力,與其他方法相結合,提高診斷效果能更高效地適用于各種情況。王楠等[56]發明了一種基于LSTM和多層感知機(MLP)結合的故障診斷方法,利用LSTM 的和MLP 進行時間特征提取,再在Softmax上進行分類,該發明可以運用于具有時變性、非線性、高維性的化工過程。在TE 過程中進行檢驗,其故障診斷準確率為86.3%。Park 等[57]針對工業數據時延性、高維度非線性、不平衡性等特征,提出了一種同時解決3種問題的故障診斷方法,該方法結合了無監督故障檢測的自動編碼器和識別故障類型的LSTM網絡,與深度卷積神經網絡相比,在TE過程中,故障診斷的平均準確率顯著提高了16.9%。
LSTM 網絡屬于比較新穎的數據驅動方法,相關技術還不夠成熟,應用存在不確定性。因此通過優化具有一定動態處理能力的傳統方法,提升魯棒性和綜合效果。魏小林[58]針對化工數據動態性提出了一種基于滑動窗機制的PPA 方法,針對貝葉斯網絡不適用于數據量過大的過程的缺點,提出了一種人工蜂群算法與差分進化算法融合,通過評分高低搜索最優貝葉斯網絡結構的改進貝葉斯網絡,并將兩者均應用于了TE 過程故障診斷中,其結果表明改進PPA 方法能更高效地處理化工過程的動態數據。Wu 等[59]利用CNN 數據結構的二維特性,處理具有時間序列的化工數據,并將其運用到了TE過程,結果表明,基于CNN 的故障診斷方法在較少的訓練次數下依然能夠表現出良好的診斷性能。
數據具有動態特征使化工故障過程的診斷難度高于其他過程,傳統動態轉靜態的間接方法無法處理大量的復雜數據,無法保留更多時間信息,而綜合性能較好的方法現階段只有還停留在基礎研究的LSTM 方法,因此應該針對性地研究化工動態特征數據的數學特性(例如因果邏輯分析),并根據特性對傳統數據驅動方法的模型進行改進,提出更多的新方法。
化工故障診斷技術融合了多個學科的理論,其研究的意義是為了保障實際工廠的安全運行,因此其工業應用是技術研發的根本,但近五年來根據化工數據的特點進行研究的相關文獻大多將研究成果應用于成熟、穩定的通用過程(TE 過程)和青霉素發酵過程進行方法驗證,有些學者為了驗證方法的普適性,也會將方法應用于流程模擬數據和普通工廠中某一裝置的歷史數據,但少有將其軟件化后應用于實際工業中進行實用性探討。
化工故障診斷技術的工業應用并不是沒有,只是最新研究成果的應用具有滯后性,在我國最早被投入使用的化工故障診斷技術是專家系統,如中國華東化工學院自動化研究所的沈建平團隊[60]設計、編寫的用于石化集團安慶化肥廠的CO2吸收塔故障檢測專家系統。而隨著大數據時代的來臨和國家做出的制造強國、網絡強國戰略部署,部分高校和企業通過組合多種數據挖掘方法或將數據挖掘方法融入專家系統的形式,開發其軟件和系統,并應用于實際化工過程,以解決化工過程故障診斷問題。例如北京化工大學的高金吉院士團隊[61]根據多元統計方法針對機泵群開發了機泵群故障診斷專家系統,并在多個石油企業應用;華南理工大學化學產品和過程系統工程研究室利用PCA 等多元統計數據驅動方法與專家系統結合研發了潤滑油酮苯脫蠟油回收裝置集成運用系統,應用于茂名石化潤滑油過程進行實時檢測和故障診斷;化學品安全控制國家重點實驗室與中國石化合作將PCA方法和專家系統、神經網絡等故障診斷技術結合開發了針對某煉化企業己內酰胺裝置的安全運行指導系統[62],并投入使用,其運行過程中系統的診斷結果與實際情況一致;清華大學與九江石化、石化盈科集團合作研發了催化裂化過程報警分析、結焦預測和汽油收率尋優綜合系統,并在九江石化的催化裂化裝置進行了運用,結果表明該系統能合理分析實際裝置的報警情況,并進行故障原因追溯。除和高校合作研發外,隸屬于石化企業的研究機構針對企業自身的工藝研發了具有故障診斷功能的系統并應用于企業中。例如中國石化青島安全工程研究院的王春利[63]根據數據挖掘技術研發的石化過程安全運行報警預測裝置在上海石化、儀征化纖、燕山石化、石家莊煉化等石化企業的裝置上成功應用,取得良好效果;鎮海煉化在常減壓裝置上采用大數據技術建立裝置各點位之間相關性模型,運用特定算法預測生產區間的工藝波動趨勢,實現提前2min 預警,有效避免了異常工況。
隨著大數據時代的來臨,魯棒性強、處理能力優越的數據驅動方法被廣泛應用于各行各業中。高非線性處理能力的深度學習和高效、高魯棒性的集成學習已成為數據驅動方法的研究重心,如何降低深度學習的計算復雜度、挖掘集成學習的多樣性是數據驅動方法的理論研究方向。
化工過程數據具有維度高、非線性強、不平衡度高、標簽難標注、動態特性明顯的特征,近些年大多學者針對這些特征分別提出降維、優化、欠采樣、聚類、動轉靜態的數據處理方法,并據此提出多數據驅動方法組合的診斷框架。組合不同數據驅動方法,取長補短,獲得更具泛化性和高效性的診斷技術將會是后續故障診斷方法研究的常用思維。
而化工過程中依舊存在例如數據缺失或異常導致故障診斷效果下降、時滯現象導致故障診斷錯位、數據類型不唯一導致模型對部分數據不敏感等問題待解決,從優化集成學習中的bagging 方法、快速自動構建動態貝葉斯網絡結構、搭建自然語言處理與傳統方法的化工診斷橋梁出發研究是一種有效思路。
最新科學研究成果的應用還處于偏離實際的情況,這與工廠數據保密性高、數據安全保障性低的現狀相關,但不難看出,數據挖掘方法的應用能有效保障工廠的安全運行。期待當工廠數據研究自由時,基于數據挖掘的化工故障診斷方法的蓬勃發展。
綜上,在未來化工故障診斷研究過程中應圍繞“診斷時效”“數據特征”等關鍵詞從理論出發結合多種數據驅動方法來提高復雜化工過程的實際診斷效果,保障工廠安全運行。