杜宇浩,閻高偉,李榮,王芳
(太原理工大學電氣與動力工程學院,山西太原030024)
軟測量技術的基本思想是根據某種最優準則,利用已知歷史數據,選擇一組與主導變量有密切關系的輔助變量,構造某種數學關系來估計主導變量。然而在實際生產過程中,由于工況容易發生變化,導致傳統的軟測量模型性能惡化、模型失準等問題出現[1-2]。
針對多工況條件下軟測量模型失準問題,文獻[3-4]基于即時學習的思想,依據相似度量準則從帶標簽的歷史數據中選擇與當前樣本最相關的樣本集,利用機器學習方法建立回歸模型解決多工況軟測量問題。然而當歷史數據集中缺乏當前工況的數據時,所建立的模型無法與當前工況數據適配,造成模型失準。文獻[5]在此基礎上,將無標簽數據與帶標簽數據合并為歷史數據集,訓練基于即時學習的半監督極限學習機,增加了軟測量模型的魯棒性。文獻[6-7]對歷史數據建立多個子模型,評估每個子模型的軟測量結果,依據模型輸出置信度的高低對多個子模型進行加權融合,最終得到集成回歸模型。但各子模型的輸出置信度難以估計,存在較大的結構風險。文獻[8]從提取多工況數據的潛在信息角度出發,采用深度置信網絡對帶標簽數據和無標簽數據進行深層提取,利用最小二乘支持向量機建立軟測量模型,并結合bagging 算法提高了模型的可靠性,實現對工業聚合過程中熔融指數的軟測量。從本質上講,不同工況的數據具有不同的分布[9],數據分布不同是導致多工況工業生產過程中原有軟測量模型失準的原因。上述方法在一定程度解決了多工況的軟測量問題,但出現新的未知工況數據時易發生數據分布失配而模型失準問題。
遷移學習[10-13]的提出為解決上述多工況軟測量問題提供了思路。遷移學習放寬了訓練數據和測試數據須滿足獨立同分布的假設。遷移學習利用已知源領域的信息,解決與源領域相關但未知的目標領域中僅有少量甚至無標簽樣本的機器學習問題,在沒有足夠的帶標簽訓練數據時也能夠建立較好的機器學習模型。文獻[14]將半監督的域適應ELM 算法引入化工過程軟測量領域,利用源域和少量的目標域帶標簽樣本構建數學模型,實現了多工況條件下工業聚乙烯過程中熔融指數的軟測量。文獻[15]在域適應ELM 的基礎上引入流形正則項,保證了域適應前后數據結構的不變性,在多工況下濕式球磨機關鍵負荷參數軟測量上取得了較高的精度。上述半監督學習方法要求在目標域具有少量帶標簽數據。但實際生產過程中,普遍存在目標域無帶標簽樣本問題,半監督算法不再適用。
針對目標域缺乏帶標簽樣本問題,基于流形的無監督遷移學習[16-18]成為遷移學習的研究熱點。流形學習將數據映射為可靠的嵌入投影,即尋找數據投射到低維的子空間表示[19]。流形學習可以將不同工況數據映射為潛在連續流形空間上的不同點,相較于歐式空間能更好地體現不同工況樣本數據間的內在特性和規律。文獻[20]針對跨域圖像分類問題,提出一種基于測地線流的無監督遷移學習方法,將目標域與源域數據映射為格拉斯曼流形空間上的兩個點,并在這兩個點的測地線方向上選取若干個中間點依次連接,實現了從源域到目標域經測地線的逐步域遷移。文獻[21]在此基礎上引入核方法,模擬了測地線上經所有點的連續遷移過程,避免了中間點個數選擇的問題,在跨域圖像分類問題上取得更高精度,結果進一步表明相較于歐式空間,在流形空間下進行域遷移更能尋找出不同域間數據的內在規律。
在上述基于流形的無監督遷移學習算法中,均采用對原始數據進行PCA 作為投影到流形空間的方法,PCA 處理得到的是數據對方差貢獻最顯著的特征,保持了兩個域各自的特征,其體現的是兩個域的分明性而忽略了域間存在的公共模式信息。從遷移學習的出發點來考慮,需要在不同域中尋找共有的模式進行遷移建模,將有助于提高所建立的模型在不同工況下對數據的適應性。因此本文先抽取各工況數據的公共模式信息,然后將公共模式信息映射到格拉斯曼流形空間,利用GFK 框架進行數據遷移變換,最后利用偏最小二乘回歸(partial least squares regression, PLSR)方法對遷移后的數據建立回歸模型,實現多工況參數軟測量。
局部線性嵌入(locally linear embedding,LLE)算法對數據的局部結構特征具有保留能力[22],LLE 算法的原理如圖1 所示。文獻[23]利用局部線性嵌入研究了公共模式信息的提取方法,本文借鑒該方法實現多工況公共模式信息的提取。

圖1 LLE算法示意圖Fig.1 Locally linear embedding

選取經過預處理之后的M 個工況的數據合并為一個整體的樣本集X,用局部線性嵌入來提取不同工況中的公共模式信息,各個工況的樣本數量可以不同,最終要提取到公共模式信息Z。
其 中X =[X1,X2,…,XM],X ∈RL×N,N = N1+N2+ …+ NM。
對于整體樣本集X,每個樣本xi在全局X 中尋找的K 個最近鄰組成δi={xi1,…,xiK},用xi的K-1 個鄰域對多工況數據進行線性重構:

根據式(1),可得最小化誤差:

將其矩陣化并利用拉格朗日乘子法求解W。

根據式(3),可得最小化誤差:

寫成矩陣形式,并根據拉格朗日乘子法,則優化函數式(4)等價為:

其中tr(·)表示矩陣的跡,S =(In- W)T(In-W)。因此,式(5)可以通過對SZT= λZT進行特征值分解求解。最后選取S 的最小的d 個非零特征值所對應的特征向量Z =(z1,z2,…,zd)T∈Rd×N作為重構后的數據。將Z按照原工況樣本對應關系劃分可得最 終 的 公 共 模 式 信 息 集 合Z =[Z1,Z2,…,ZM]∈Rd×N。
假設已知工況數據即源域數據為Zs,未知工況數據即目標域數據為Zt。
測地線流式核方法概括為三個步驟,構建測地線;計算測地線流式核;建立預測模型[24]。
令PS∈RD×d與PT∈RD×d為源域數據Zs和目標域數據Zt分別PCA 處理后的兩個正交矩陣,測地線函數定義為:



從源域移到目標域,即代表式(6)從H(0)遷移到H(1)的過程,新的特征可以用v = g(x)= H(t)Tz表示[25]。定義測地線流核表達式為:

G ∈RD×D是 一 個 半 正 定 矩 陣,可 通 過 式(9)求解:

其中Λ為對角陣,其對角元素為:

進而可得將原始樣本特征z 沿測地線方向遷移后的樣本v:

即求出Zs映射后的樣本vs與Zt映射后的樣本vt,對源域已有標簽樣本vs進行學習建模,以實現對樣本vt標簽的預測。
在多工況軟測量建模問題上,本文考慮到工況改變后的數據分布差異和不同工況之間潛在的關聯關系,有針對性地引入基于流形的遷移學習框架。利用LLE 算法對局部結構特征保留的優點,有效提取不同工況間的公共模式信息,利用GFK 框架在流形空間沿測地線連續遷移的特性,提出基于局部線性嵌入的測地線流式核(locally linear embedding-geodesic flow kernel, LLEGFK)多工況軟測量建模方法。
圖2為LLEGFK算法的示意圖。
鉬礦石標準樣品GBW07239(武漢綜合巖礦測試中心研制):w(Re)=120ng/g;水系沉積物標準樣品GBW07449(地球物理地球化學勘查研究所研制):w(Re)=2.10ng/g;水系沉積物標準樣品GBW07453(地球物理地球化學勘查研究所研制):w(Re)=0.45ng/g;鎢礦石標準樣品GBW07241(地質礦產部湖北地質實驗研究所研制):w(Re)=80.0ng/g。

圖2 LLEGFK算法示意圖Fig.2 Locally linear embedding-geodesic flow kernel


其中LLE(· )代表基于局部線性嵌入的公共模式信息提取算法。特別地,為了保證后續遷移軟測量模型的精度,需要保留盡可能多的公共模式信息,所以經重構之后各工況數據的特征維度仍保留為L。將Zs∈RL×Ns和Zt∈RL×Nt拆分至各自工況,即Zs為相對于源域Xs的公共模式信息,Zt為相對于目標域Xt的公共模式信息。
隨后,利用PCA 將提取后的Zs和Zt映射到格拉斯曼流形空間,使得每個工況數據分別投影到流形空間的同時兼顧到不同工況間的公共模式信息,將其作為GFK 框架中的子空間PS、PT,結合式(6)構建測地線方程,進而求得分布適配后的數據。
最后,利用適配后的源域樣本與源域標簽建立軟測量模型,實現目標域標簽的預測。
算法1 LLEGFK算法流程
輸入:已知工況(源域)數據Xs和對應標簽Ys,未知工況(目標域)數據Xt,最近鄰個數K。
輸出:目標域標簽Yt。
(1)數據預處理;
(2)合并Xs、Xt,根據式(11)求得公共模式信息Z,拆分到各自工況得Zs、Zt,并投影到流形空間得PS、PT;
(3)結合式(6)、式(7)構建測地線,根據式(9)得G并結合式(10)求得遷移后的數據vs與vt;
(4)利用vs與源域標簽Ys訓練PLSR 軟測量回歸模型f;
(5)根據f與vt,求得目標域標簽Yt。
為了驗證軟測量算法的有效性,實驗數據采集于TE 過程仿真平臺[26-27]。TE 過程是由Tennessee Eastman 化工公司提出的化工仿真平臺,現已被學者廣泛用于進行測試過程變量監控,變工況故障診斷以及質量預測等方面。整個化工過程主要有4個反應過程,其中反應物包括進料氣體A、C、D、E,以及進料液體B,生成的主產物為G 和H,以及反應副產物F。TE過程根據主產物G/H比率的不同可以分為6種操作模式[28]。整體過程包含41個測量變量和12個操作變量。
本實驗通過改變TE過程的生產操作模式,在每個操作模式下的化工過程模擬運行5 h,保持相同采樣間隔,采集到3 種不同工況下的數據樣本各1000個,作為算法驗證數據集。當工況選做源域時選用1000個樣本數,當樣本用作目標域時,選取其中400個樣本作為目標域數據。其三種工況數據相對應的產物G/H比例如表1所示。

表1 三種工況數據Table 1 Data of three working conditions
采集TE 仿真過程中的41 個測量變量用于測試,其中包含22 個連續的測量變量和19 個成分測量變量。實驗將易測的22 個測量變量歸一化預處理后作為模型輸入,分別對每一個工況下的19個成分變量中的成分A 變量、成分B 變量和成分C 變量遷移到其余工況進行軟測量。對某一工況作為源域進行遷移時,其余兩個工況作為目標域,不含任何帶標簽數據。
本文采用均方根誤差(root mean square error,RMSE)作為衡量模型準確性能的評價指標。
用PLSR算法、LLE加PLSR算法、GFK算法和本文的LLEGFK 算法分別對A、B、C 三種成分含量進行軟測量。實驗對比結果如表2所示。其中“1—2”表示從工況1遷移到工況2。
圖3、圖4、圖5、圖6分別給出了4種方法對不同工況下成分A含量的軟測量對比結果圖。其中各圖中的圖(a)表示對歷史數據用PLSR 建模,并直接對新工況數據進行測量的結果。圖(b)代表由LLE 提取不同工況間的公共模式信息之后,再用PLSR 進行建模后軟測量的結果圖,圖(c)代表GFK 算法軟測量結果圖,圖(d)為LLEGFK 算法的結果圖。可以看出在測試樣本中,LLEGFK 的精度相較于LLE 和GFK算法均有不同程度提高,驗證了該算法的有效性。
以圖3 為例,圖3(a)將原始數據經預處理之后直接建模進行預測,可以看出當工況發生改變時,由于工況變化前后數據分布產生差異,所以用歷史模型預測新工況數據時存在較大誤差,圖3(b)利用LLE 提取不同工況間的公共模式信息之后建立PLSR 回歸模型,在一定程度上降低了誤差,圖3(c)的GFK 方法,采用PCA 方法將不同工況的數據映射到子空間,在流形學習框架下映射到格拉斯曼空間解決域遷移問題,較明顯地改善了測量精度。圖3(d)在解決跨域軟測量問題時,先經過LLE 提取源域和目標域的公共模式信息,對這些具有公有信息的數據再進一步地采用GFK 遷移方法,可以明顯地看出LLEGFK算法提高了模型的精度。
為了直觀闡述LLEGFK 算法的有效性原因,圖7(a)為工況1、工況2 的原始數據經PCA 投影后保留前三維特征的分布情況,圖7(b)為經LLE 提取公共模式信息后再進行PCA 降維并保留前三維特征的分布情況,經LLE 對不同工況數據進行處理之后有效地得到了不同工況之間的公共模式信息,一定程度上降低了不同工況的分布差異。圖7(c)為對原始數據經過GFK 遷移之后,經PCA 降維并選取前三維特征的分布情況,圖7(d)為經過LLEGFK 算法之后再進行相同處理的分布圖,可以直觀地看出,遷移之后不同工況的數據分布更加趨于一致。本文算法區別于PCA 對不同工況數據的分別映射,由于考慮到不同域之間的公共模式信息,更進一步縮小了不同工況間數據的分布差異。因此,LLEGFK 較其他三種算法可以取得更高的精度。

表2 各工況下不同算法參數軟測量均方根誤差對比Table 2 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions

圖3 工況1遷移到工況2對成分A含量軟測量結果Fig.3 Predicted results of 1—2 component A

圖4 工況1遷移到工況3對成分A含量軟測量結果Fig.4 Predicted results of 1—3 component A

圖5 工況2遷移到工況1對成分A含量軟測量結果Fig.5 Predicted results of 2—1 component A

圖6 工況2遷移到工況3對成分A含量軟測量結果Fig.6 Predicted results of 2—3 component A
為了驗證LLEGFK 算法的有效性,另一數據來自實驗采集的濕式球磨機數據。濕式球磨機是選礦、化工領域的高耗能設備,準確檢測磨機負荷是實現選礦過程安全運行和節能降耗的關鍵[29]。實際工業過程中,球磨機介質充填率通常在0.3~0.5之間變化,選用規格為φ602 mm × 715 mm 的小型實驗室球磨機作為實驗設備,并通過改變介質填充率來模擬實際中存在的球磨機工況變化。
工業中常用的表征磨機負荷的關鍵磨機內部負荷參數包括:充填率(charge volume ratio,CVR)、礦漿濃度(pulp density, PD)、料球比(material to ball volume ratio,MBVR)[30]。實驗通過設定5種不同的介質充填率來模擬5 種實際的工況,各工況設置方法和實驗次數如表3所示。實驗中不同工況間球磨機滾筒內的鋼球和水的質量均相同,通過連續添加物料,相應的球磨機負荷參數隨之改變,將CVR、PD、MBVR作為軟測量的標簽。

圖7 不同工況提取公共模式信息前后分布Fig.7 Distribution of common feature before and after extraction under different working conditions

表3 各工況參數與實驗次數Table 3 MFR and number of experiments under different working conditions
數據預處理時,將每組振動信號平均分為28個樣本,每個樣本覆蓋長度大于濕式球磨機旋轉一周所用時間,然后將每個時域信號樣本通過快速傅里葉變換(fast Fourier transformation,FFT)轉化至頻域。
將數據集中的工況1 作為源域數據,分別遷移到其他4個工況來驗證算法。對于球磨機的三種負荷參數軟測量結果的均方根誤差對比如表4所示。
圖8、圖9、圖10分別展示了四種算法均以工況1為源域,遷移到工況2、3、4后對料球比的軟測量結果對比圖。
由上述結果可見,當數據不滿足獨立同分布假設的前提條件時,PLSR 算法進行軟測量誤差顯著,LLE考慮到公共模式信息后可以在一定程度上降低誤差,最終LLEGFK 算法在考慮不同工況的公共模式信息的同時又在流形空間進行數據域適應遷移,與其他三個算法相比顯著降低了測量誤差,較好地解決了多工況下球磨機關鍵參數的軟測量問題。上述實驗結果說明本文方法在多工況無監督情況下的有效性。

表4 各算法軟測量均方根誤差對比Table 4 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions

圖8 工況1遷移到工況2料球比軟測量結果Fig.8 Predicted results of 1—2 MBVR

圖9 工況1遷移到工況3料球比軟測量結果Fig.9 Predicted results of 1—3 MBVR

圖10 工況1遷移到工況4料球比軟測量結果Fig.10 Predicted results of 1—4 MBVR
本文針對流程工業中由于工況改變導致原有模型失配而新工況中又缺乏帶標簽樣本難以建立模型的問題,引入一種局部線性嵌入和測地線流式核相結合的無監督軟測量建模方法。首先,用LLE 提取不同工況的公共模式信息;然后將其映射為格拉斯曼流形上的兩個點,嵌入GFK 框架計算新的測地線流式核,最終用PLSR 得到回歸模型。本算法在考慮到提取源域和目標域公共模式信息的同時,將其投影到流形空間從而挖掘出隱藏在高維空間上的低維流形,有效地解決了由于多工況產生數據分布不一致而導致的軟測量模型失準問題。在TE 過程和濕式球磨機下的實驗結果表明,LLEGFK 算法提高了多工況軟測量結果精度。
下一步工作將進一步研究遷移學習在軟測量領域的應用,探究工業過程中多工況條件下不同工況間更深層的公共知識和基于遷移學習并利用多個歷史源域集成的在線軟測量方法,以提高軟測量模型的準確率和魯棒性。
符 號 說 明
f——回歸模型
PS,PT——分別為提取公有信息之后的源域、目標域數據在流形空間的投影
W——線性重構權值矩陣
X——各工況數據合并后的樣本集
Xs——源域數據
Xt——目標域數據
xi——X中的第i個樣本
Ys——源域數據標簽
Z——公共模式信息
Zm——第m種工況中所提取的公共模式信息
δi——xi在X中搜索得到的鄰域集合