來顏博, 閻高偉, 程 蘭, 陳澤華
(太原理工大學 電氣與動力工程學院, 太原 030024)
符號說明
A—獨立成分分析(ICA)中的混合矩陣
AICA—包含主要非高斯信息的混合矩陣
dDICA—源域與目標域之間非高斯信息相似性度量值
dDPCA—源域與目標域之間高斯信息相似性度量值
E—ICA中的殘差
Es—源域通過動態ICA(DICA)提取非高斯信息后的殘差
Et—目標域通過DICA提取非高斯信息后的殘差
fDICA—非高斯信息回歸模型
fDPCA—高斯信息回歸模型
G—格拉斯曼流形空間
l—動態滯后時間
LDICA—非高斯信息映射矩陣
LDPCA—高斯信息映射矩陣
M—與輸入數據X相關的潛在獨立成分
wDICA—非高斯信息回歸模型的權值
wDPCA—高斯信息回歸模型的權值
W—ICA中的解混矩陣
WICA—包含主要非高斯信息的解混矩陣
Ws-DICA—源域非高斯信息的解混矩陣
Ws-DPCA—源域高斯信息的負載矩陣
Wt-DICA—目標域非高斯信息的解混矩陣
Wt-DPCA—目標域高斯信息的負載矩陣
X—ICA方法中的輸入數據

Xs—源域數據
Xt—目標域數據





目前,軟測量技術[1-2]已被廣泛應用于工業生產過程中關鍵參數的實時監測,如精餾塔含水量預測[3]和石油分餾生產過程監測[4].然而在實際工業過程中,由于運行任務與設定值變化等情況,容易導致系統工況發生變化,造成實時數據和建模所用數據的分布不一致,致使傳統的軟測量模型性能惡化[5-6].
為解決多工況下軟測量模型失準問題,Zhao等[7]提出一種多模型建模方法,基于歷史數據建立不同工況下的子模型,然后將實時數據與子模型匹配識別,實現工業生產過程的監測.Jin等[8]借鑒多模型策略和集成學習思想,通過加權融合多個子模型的信息獲得集成回歸模型,實現對盤尼西林發酵過程監測.李元等[9]提出一種基于非高斯信息的即時學習軟測量模型,通過交互信息選擇與當前樣本最相關的樣本集,建立相應軟測量模型,實現對硫回收生產工藝過程監測.上述方法在一定程度解決了多工況下軟測量問題,卻未實質性消除多工況下數據分布差異對軟測量建模造成的影響.
遷移學習方法放寬了訓練數據和測試數據須滿足獨立同分布的要求,通過遷移源域已有的知識來解決與源域相關的未知目標域學習問題[10-14].目前,遷移學習廣泛應用于圖像識別[15]、文檔分類[16]和情緒分析[17],近年來在工業過程中的應用也逐漸增多[18-19].在遷移學習中,根據目標域是否標記,將其分為半監督遷移學習和無監督遷移學習.實際工業過程中普遍存在目標域無帶標簽樣本問題,因此本文主要研究基于無監督遷移學習的軟測量建模方法.
針對目標域缺乏帶標簽樣本問題,基于流形的無監督遷移學習受到廣泛關注.它將不同域映射為潛在連續流形空間上的不同點,相較于歐式空間能更好地減小域間的數據分布差異[20].在基于流形的遷移理論基礎上,Gong等[21]提出一種測地線流式核(GFK)的方法,將目標域與源域映射為格拉斯曼流形空間上的兩個點,引入核方法,選取從源域到目標域之間的測地線上所有點,以實現連續遷移過程,并成功應用于跨域圖像分類問題.近年來,該方法也被拓展到應對非線性[22]和克服噪聲干擾[23]等場景下.多種場景下的應用結果表明相較于歐式空間,在流形空間下進行域遷移更能減小域間的數據分布差異.
上述GFK方法均以主成分分析(PCA)特征提取為基礎,而PCA是建立在測量變量獨立且服從高斯分布的假設上.由于實際工業過程往往具有動態特性且數據分布同時包含非高斯信息和高斯信息,在實際情況下并不能嚴格遵循該前提.Ku等[24]提出一種動態主成分分析(DPCA)方法,在過程數據中增加延時測量值構成增廣矩陣,以應對過程的動態特性情況.為克服實際工業中的非高斯信號和動態影響,Lee等[25]提出動態獨立成分分析(DICA)以提取原始變量的非高斯信息.Zhang等[26]提出將DICA與DPCA結合以提取數據中非高斯信息和高斯信息,兼顧過程的動態特性,并應用在工業過程故障監測中.這些特征提取方法為解決GFK難以應對工業過程中動態特性提取和數據不完全服從高斯分布問題提供了思路.
針對傳統軟測量模型難以適應數據分布變化,本文將GFK引入到軟測量領域中.同時針對GFK難以解決工業過程中動態特性提取和數據不完全服從高斯分布問題,引入DICA和DPCA以提取源域與目標域的非高斯信息和高斯信息.分別將提取的信息在格拉斯曼流形空間上遷移適配目標域,結合集成學習機制,融合適配后的非高斯信息與高斯信息,形成最終的軟測量模型,實現多工況下參數建模.
ICA假設數據變量間相互獨立且非高斯分布,它可以提取出數據的非高斯信息.給定輸入數據X∈N×m,N為數據X的N維觀測量,m為數據X的樣本數.在ICA算法中,X與潛在的獨立成分M∈d×m存在一種關系:
X=AM+E
(1)
式中:A∈N×d為混合矩陣;E∈N×m為殘差矩陣.變形得
M=WX
(2)
式中:W=A-1為解混矩陣.
選取多變量中主要的非高斯信息有助于解釋獨立成分的物理意義.參照文獻[27]方法計算解混矩陣W每一行的L2范數并進行排序,選取出WICA和We.WICA為含有主要非高斯信息的解混矩陣;We為剩余的W;混合矩陣A劃分為相應的AICA和Ae.
為解決過程中動態特性提取的問題,在當前時刻k的輸入數據X下,增加前l時刻測量數據,可得增廣矩陣

(3)

為解決GFK在工業過程中的動態特性提取和數據不完全服從高斯分布問題,我們通過DICA方法獲得源域Xs與目標域Xt的非高斯信息解混矩陣Ws-DICA和Wt-DICA,通過DPCA方法獲取源域與目標域的高斯信息負載矩陣Ws-DPCA和Wt-DPCA,Ws-DICA和Wt-DICA為D×d維矩陣,D=(l+1)N.由于非高斯信息遷移過程相同和高斯信息遷移相同,本節重點闡述如何利用GFK方法對源域與目標域的非高斯信息進行遷移.
GFK為一種流形空間下的遷移學習方法,通過將源域與目標域投影到格拉斯曼流形空間,以尋找一條從源域到目標域的測地線.用G(d,D)表示一個D維向量空間中所有d個向量構成的格拉斯曼流形空間,方法原理如圖1所示.
將源域與目標域數據投影到G(d,D)空間后,需要計算從源域變換到目標域的測地線,這里用Φ(t) 作為格拉斯曼流形空間下的測地線映射函數,作用是將x映射到G(d,D)上,t∈[0,1].Xs和Xt的非高斯信息在G(d,D)中分別映射為:Φ(0)=Ws-DICA,Φ(1)=Wt-DICA.當t∈(0,1)時,則

圖1 GFK原理圖[21]
(4)


(5)
U1∈d×d和U2∈(D-d)×d為正交矩陣;Γ(t)和Σ(t)為對應的d×d對角矩陣;對角元素分別為 cosθi和sinθi(i=1,2,…,d);θi為Ws-DICA和Wt-DICA的主角,0≤θi≤π/2.

(6)
式中:G∈D×D為半正定矩陣,其本質上是一個核映射,

(7)
Λ1、Λ2和Λ3為對角陣,對角元素分別為


進而可以獲得原始樣本沿測地線方向遷移后的樣本:
(8)
(9)

最大均值差異(MMD)廣泛用于度量源域與目標域分布差異[29],在本文中被用來度量源域Xs與目標域Xt的非高斯信息相似性以及高斯信息相似性,并為基于源域構建的軟測量模型加權集成.令H為再生核希爾伯特空間(RKHS),φ(·)表示原數據映射到H的映射函數,則源域與目標域的MMD表述為
(10)
在多工況軟測量建模問題上,本文考慮到在工業過程中數據往往具有動態特性且數據分布同時包含非高斯信息和高斯信息,提出一種基于DICA-DPCA的GFK軟測量模型,使用DICA-DPCA-GFK表示,模型結構圖2如所示.
結合圖2與相關理論算法描述,DICA-DPCA-GFK軟測量方法首先增加源域Xs和目標域Xt的前l時刻測量數據,以解決工業過程中動態特性提取的問題.考慮到工業過程中數據不完全服從高斯分布問題,通過ICA與PCA的結合提取源域和目標域的非高斯信息與高斯信息,并在格拉斯曼流形空間上分別遷移源域非高斯信息與高斯信息適配目標域,以降低域間分布差異,最后利用適配后的源域非高斯信息和高斯信息建立相應的軟測量模型,借助MMD度量適配后度量源域與目標域的非高斯信息相似性和高斯信息相似性,集成非高斯信息模型和高斯信息模型,實現目標域的標簽預測, DICA-DPCA-GFK算法流程如下所示:

圖2 DICA-DPCA-GFK模型結構圖
給定源域數據Xs∈a×N;目標域數據Xt∈b×N.

步驟2計算解混矩陣Ws和Wt每一行的L2范數并進行排序,選取出含有主要非高斯信息的解混矩陣,轉置后分別標記為Ws-DICA和Wt-DICA,并從兩個域的混合矩陣中相應地選擇出As-DICA和At-DICA.
步驟3按照

(11)
計算源域的殘差矩陣Es,目標域殘差矩陣Et的計算過程同式(11),對殘差矩陣Es和Et執行PCA過程,獲取負載矩陣Ws-DPCA和Wt-DPCA.
步驟4將源域與目標域的Ws-DICA和Wt-DICA按照式(4)~(7)遷移,并計算非高斯信息的測地線映射矩陣LDICA,通過遷移源域與目標域的Ws-DPCA和Wt-DPCA獲得LDPCA,其計算的過程與LDICA相同,源域和目標域按照
(12)

(13)
度量源域與目標域之間非高斯信息分布相似性度量值dDICA和高斯信息分布相似性度量值dDPCA,通過
(14)

田納西伊斯曼(TE)過程[30]是由伊斯曼化學公司創建的,可以模擬化工生產過程.它是一個典型的多模態過程,可以根據生產要求調整其操作點,使數據產生多工況特性.整個過程包含5個主要的操作單元:反應器、汽提塔、冷凝器、氣液分離器和循環壓縮機.反應器壓力大小會對生產成本有較大影響[31].整個化學過程總用有8種物料成分,包括參加反應的氣體A、C、D、E和惰性不可溶的B,以及液態生成物G,液態生成物H和副產物F.另外,整個TE過程涉及41個測量變量和12個控制變量,其中41個測量變量又分為22個過程變量和19個成分變量,詳細的生產工藝介紹參考文獻[30].
本文實驗通過改變反應器壓力設定值使系統產生多工況特性,反應器壓力設定值分別取 2.8,2.7,2.6,2.5 和 2.4 MPa,對應的工況編號設定為工況1~5,其余初始生產參數保持不變,使用TE仿真平臺模擬工業生產過程.所有工況的數據采樣間隔為3 min,工況1下模擬運行50 h,收集 1 000 個樣本作為源域,其他工況模擬運行5 h,收集100個樣本作為目標域.由于12個控制變量中的攪拌速率屬于機械領域,不會對最終產品造成很大影響,所以,本文所有工況下的每個樣本選擇22個過程變量和11個控制變量作為輸入量.工況1為帶有標簽的歷史數據,工況2、工況3、工況4和工況5為無標簽的目標域,任務為預測目標域第6流股的物料A的物質的量以及第9流股的物料C和物料H的物質的量,這3種物料屬于較難預測的19個成分的變量.將滯后時間l設置為2,使用基于偏最小二乘回歸(PLSR)建立回歸模型,采用均方根誤差(RMSE)來評價所提方法的預測效果,RMSE值越小表示模型性能越好.
為說明TE過程工況發生改變時引入遷移學習的必要性,使用PLSR方法利用工況1建模對工況2~5預測,并與經過GFK和ICA-GFK適配目標域數據分布后再用PLSR建模的兩種方法預測結果進行對比,ICA-GFK表示GFK中的特征提取方法采用ICA.實驗結果如表1所示,工況1建模預測工況5中的物料A預測結果如圖3所示(xA為物料A的摩爾分數).從表1和圖3得,當工況發生變化時,會因為工況間數據分布不一致而致使PLSR模型性能惡化,引入遷移學習后,模型性能會有所提高.
為了驗證本文方法的有效性,基于對比實驗的原則,本文使用GFK、DPCA-GFK、ICA-GFK、DICA-GFK以及本文的DICA-DPCA-GFK方法.DICA-GFK表示GFK中的特征提取方法采用DICA.
GFK、DPCA-GFK與本文方法的對比實驗結果如表2所示,DPCA-GFK通過在GFK基礎上加入DPCA方法,有效地應對了動態特性的影響,降低了模型輸出誤差.相較于前兩種方法,DICA-DPCA-GFK在DPCA-GFK基礎上,分別提取了源域與目標域之間的非高斯信息和高斯信息用以遷移建模,進一步提升了軟測量模型性能.GFK、DPCA-GFK和DICA-DPCA-GFK的三種方法在工況5下預測物料A的結果如圖4所示,由圖4可以直觀看出,本文方法很好地預測了工況5下物料A的變化曲線.
ICA-GFK、DICA-GFK與本文方法的對比實驗結果如表3所示.從表1和表3可得, ICA-GFK和DICA-GFK通過提取非高斯信息進行遷移建模,有效降低了數據分布差異對軟測量建模的影響,但基于ICA-GFK和DICA-GFK的模型由于忽視了過程的高斯信息,導致建立的模型在實際工業過程中沒有取得更好的預測結果.ICA-GFK、DICA-GFK和DICA-DPCA-GFK在工況5下預測物料A的結果如圖5所示,根據圖5(a)、5(b)和5(c)的對比可直觀地看出,ICA-GFK和DICA-GFK方法僅提取工況1和工況5的非高斯信息獲得的預測結果與實際輸出存在較大偏差,模型性能不如DICA-DPCA-GFK方法.

圖3 PLSR、GFK和ICA-GFK對物料A的預測結果

表1 各工況下PLSR、GFK和ICA-GFK的RMSE

表2 各工況下GFK、DPCA-GFK和DICA-DPCA-GFK的RMSE

圖4 GFK、DPCA-GFK和DICA-DPCA-GFK對物料A的預測結果

表3 各工況下ICA-GFK、DICA-GFK和DICA-DPCA-GFK的RMSE
多工況下GFK、DPCA-GFK、ICA-GFK、DICA-GFK和DICA-DPCA-GFK的RMSE值對比如圖6所示,從圖6可得,DICA-DPCA-GFK方法預測不同工況下物料A、物料C和物料H的估計精度均優于前4種方法.綜合上述對比實驗結果可得,本文方法考慮了工業過程中的動態特性,提取出數據中的非高斯信息和高斯信息分別遷移建模, 并借鑒集成學習機制,有效提升了模型性能.

圖5 ICA-GFK、DICA-GFK和DICA-DPCA-GFK對物料A的預測結果

圖6 5種方法的RMSE值對比
本文針對傳統軟測量模型難以適應數據分布變化,引入GFK方法,并針對GFK難以解決工業過程的動態特性提取和數據不完全服從高斯分布問題,提出了將DICA與DPCA結合的GFK無監督回歸模型.首先,構建增廣矩陣以應對工業過程的動態特性情況,避免了動態特性對建模的影響,然后通過ICA和PCA分別提取源域與目標域的非高斯信息和高斯信息,并將源域非高斯信息和高斯信息分別適配目標域,克服了單一提取非高斯信息或高斯信息進行遷移建模的缺點.最后使用最大均值差異度量適配后源域與目標域的相似性,利用度量結果給模型加權而構建集成模型,進一步提高了模型性能.通過在田納西伊斯曼數據上的實驗,證明了本文方法可以提高軟測量模型性能,并且可以有效應對工業過程的動態特性和數據不完全服從高斯分布的問題.