李靈,王雅琳,孫備
(中南大學自動化學院,湖南長沙410083)
隨著先進制造技術的發展,制造行業對生產發展由數量和規模擴張向質量、效益和環保的提升提出了更高的要求。為了能夠及時有效地監測和評估過程運行狀況,實現系統故障的準確診斷、產品質量的快速跟蹤,需要對過程關鍵產品質量和與之密切相關的過程變量進行實時檢測。然而受限于檢測環境的惡劣性、分析儀器的高昂成本以及化驗分析的滯后性,目前這些關鍵產品質量較難實現在線檢測。為了解決上述問題,基于過程特征及過程數據的數據驅動軟測量建模技術應運而生。然而由于過程可測變量數目大,若將所有過程可測變量全部看作軟測量建模的輔助變量,不僅會增大模型的復雜度、降低計算速度,造成維數災難,降低模型的穩定性和預測精度,而且會大大增加數據采集和存儲的經濟成本。因此,如何快速有效地選取一組最能精確描述或解釋過程主導變量的輔助變量子集顯得極為重要。
近年來,許多學者相繼提出了一些變量選擇的理論方法。根據變量搜索與評價方法的不同,Guyon等[1-2]將變量優選方法分為過濾式[3]、包裹式[4-5]和嵌入式[6-7]三種類型,其中過濾式方法因其計算速度快且不易造成過擬合得到了廣泛應用。該方法以變量排序技術作選擇變量的主要標準,一般采用數據本身特性或者統計規律作為分析依據。常用的分析依據有相關系數[8]、互信息[9-10]、歐氏距離[11]、貝葉斯推理[12-13]等。過濾式變量選擇方法不依賴于學習算法,是通過改變數據來適應學習算法,但是該方法容易忽略變量相關性,造成所選子集可能不是最優子集。為解決過濾式變量選擇方法變量冗余問題,國內外許多學者進行了相關研究。Liu等[14]基于條件相關系數提出了一種具有超高維協變量的變系數變量選擇方法,然后分成降維和參數估計兩個階段來驗證方法的有效性。Sun 等[15]基于信息論準則篩選輔助變量,并針對變量的冗余性提出了一種動態加權特征選擇方法。Jiang 等[16]提出了一種基于粗糙集的相對決策熵模型應用于大規模數據集的變量選擇。Dong 等[17]和Vohland 等[18]分別采用回歸系數法和載荷系數法提取了光譜的特征波長。上述方法均可有效地解決過濾式變量選擇方法容易忽略變量間相關性及冗余性問題,卻不具備過程工況信息描述的能力。然而在實際工業生產過程中,受到入口原料品質波動、加工方案調整、產品規格要求變化等影響,生產工況處于波動狀態,工況不同產品質量也會存在一定的差異。因此,若篩選出的輔助變量不能較好地描述工況的變化,將在一定程度上降低預測模型的精度。針對這一問題,吳佳等[19]提出了一種無監督約簡的特征選擇方法用于解決表征礦物浮選工況泡沫圖像特征冗余性大的問題,該方法根據圖像特征對工況變量的敏感程度定義了泡沫圖像特征敏感性指數,然后根據敏感性指數選擇敏感圖像特征,最后基于粗糙集屬性重要度實現屬性約簡,但是該方法忽略了主導變量和輔助變量間的相關性,即獲取的變量子集可能并非最能描述主導變量的子集,進而影響模型的預測精度。因此,研究既能反映工況信息又能反映主導變量與輔助變量相關性的敏感變量選擇方法十分重要。
綜合考慮變量相關性與變量對工況變化的敏感性問題,本文提出一種分步約簡的敏感變量選擇方法,在明確敏感變量與關鍵敏感變量的基礎上,根據變量對工況變化的敏感程度和輔助變量與主導變量的凈相關性定義敏感性指標,實現敏感變量的初選;接著構建加權余弦馬田系統以解決變量冗余性大的問題,實現敏感變量的精選;最后將方法應用于加氫裂化關鍵產品質量預測,利用實際工業數據驗證方法的有效性。
工業生產中可獲取的過程數據具有多源異構和多采樣的特性,本文將可獲取的所有過程數據用集合P表示,pi∈P(i= 1,…,n) 表示第i種過程數據,例如壓力、溫度、流量等。根據前文所述,敏感變量既要能反映工況信息又要能反映主導變量與輔助變量的相關性,將主導變量[20]、輔助變量[20]和敏感變量定義如下。
定義1 主導變量:軟測量建模中待估計的變量。
定義2 輔助變量:與待估計變量(即主導變量)相關的且易測量的變量。
定義3 敏感變量(sensitive variables,SV):與主導變量密切相關,且能充分表征主導變量和工況變化的變量,用集合PS表示。
在已選擇的敏感變量PS中,由變量間自相關性造成的冗余使得敏感變量子集并非最小特征子集,因此還需進行敏感變量精選,挑選出冗余性較小的關鍵敏感變量。
定義4 關鍵敏感變量(key sensitive variables,KSV):與主導變量密切相關,且能充分表征主導變量和工況變化的非冗余變量,用集合PK表示。
根據定義3和定義4可知:

本文根據式(1)描述的關系進行敏感變量選擇:第一步實現P→PS,初選出與主導變量密切相關,且能充分表征主導變量和工況變化的敏感變量;第二步實現PS→PK,精選出冗余性小的關鍵敏感變量。
針對敏感變量既要具備能夠充分表征工況變化能力,又要具備能夠充分解釋主導變量能力的問題,首先根據變量對工況的描述能力和輔助變量與主導變量的凈相關性定義敏感性指標,通過計算輔助變量與主導變量的偏相關系數和輔助變量的變異系數得到變量敏感值,實現敏感變量的初選;然后針對變量冗余性和傳統馬田系統僅關注樣本距離未考慮樣本方向的問題,構建加權余弦馬田系統,實現敏感變量的精選,其中權重由樣本馬氏距離和余弦相似度的變異程度決定。
為獲取敏感變量,需事先進行數據預處理,包括離群點剔除和數據標準化,其中標準化公式如下:

其中,zij表示標準化后的數據值,xij表示第i個變量的第j個樣本值,μi表示第i個變量的均值,si表示第i個變量的標準差。
定義5 敏感性指標(sensitivity indicator, SI):輔助變量與主導變量凈相關性和輔助變量自身離散程度的乘積,即

其中,rik表示第i個輔助變量與第k個主導變量的偏相關系數,μi表示第i個變量的均值,si表示第i個變量的標準差,σi表示第i個變量的方差。偏相關系數計算過程如下。
首先利用皮爾遜相關分析法[21]計算相關系數矩陣:

標準化后的輔助變量zi和主導變量zk的偏相關系數rik為:

其中,cik為Mcc的逆矩陣Μ-1cc中元素

敏感性指數越大表明該輔助變量對主導變量的影響作用越大,對工況的變化越敏感。根據過程對象及主導變量的不同,基于過程知識對敏感性指標設定不同的閾值

其中,ξk表示針對第k個主導變量設置的敏感性指數閾值。根據式(7)可以初選出針對不同主導變量的敏感變量,但是這些敏感變量間存在一定冗余,需進一步進行屬性約簡。
馬田系統(MTS)[22-23]是日本著名質量工程學家田口玄一博士在田口方法基礎上提出的一種模式識別技術,該技術廣泛應用于產品檢測、疾病診斷、信貸審核等領域。同其他模式識別技術相比,MTS不僅原理簡單、速度快,而且不依靠數據本身的分布假設。此外,MTS 還是一種有效的降維工具,它以基于馬氏距離的信噪比作為類別可分性指標,采用2 水平正交表優化試驗次數,根據每次試驗的信噪比篩選有效特征變量,從而達到降維的目的。
2.2.1 馬田系統 MTS 應用于特征篩選可分為以下三個步驟。
(1)構建馬氏基準空間 馬田系統最初用于正常樣本和異常樣本的區分,因此在構建馬氏空間時,首先需要選取n個正常樣本。假設樣本中具有q
個初始輔助變量,則基準空間可以表示為:

其 中,oij(i= 1,2,…,n;j= 1,2,…,q)表 示 第i個正常樣本第j個輔助變量的數據。
對正常樣本數據進行標準化:

其 中,o?ij(i= 1,2,…,n;j= 1,2,…,q)表 示 第i個正常樣本第j個輔助變量的標準化數據。計算所有正常樣本的馬氏距離:


(2)驗證基準空間有效性 根據構建的馬氏空間,計算異常樣本的馬氏距離,若該馬氏空間可以較好地區分正常樣本和異常樣本的馬氏距離[24](MD),則說明構建的馬氏空間是有效的。其中,異常樣本數據標準化時的均值和標準差均等同于正常樣本數據。一般來說,正常樣本的MD在1附近波動,而異常樣本的MD遠大于正常樣本。
(3)優化基準空間 結合正交表和信噪比(多選用望大特性信噪比)篩選有效的特征變量,優化基準空間。首先設計正交表,正交表中每行對應一個基準空間,計算在每個基準空間中異常樣本的MD,按式(11)計算信噪比(望大特性信噪比):



若ΔSNj大于0,則表示該輔助變量對建模有效;若ΔSNj小于0,則表示該輔助變量對建模無效,刪除該輔助變量。
2.2.2 余弦馬氏距離 雖然馬氏距離具有不受量綱影響、排除變量間相關性干擾的優點,但是馬氏距離只能從距離的角度區分正常樣本和異常樣本,難以從方向上進行區分。而在一些分類問題中,樣本方向上的相似度對分類結果存在較大影響。因此,為了提高馬田系統的分類準確率并進一步拓展其應用范圍,亟需構建一個新的度量尺度。
余弦相似度[25]是通過計算兩個向量的夾角余弦值來評估樣本間的相似度。余弦值的范圍在[-1,1]間,值越趨近于1,代表兩個樣本的方向越接近;越趨近于-1,表示兩個樣本的方向越相反;接近于0,表示兩個樣本近乎于正交。
結合余弦相似度和馬氏距離構建一種新的度量尺度——余弦馬氏距離,可以在保留原有馬氏距離優點的基礎上,彌補無法從方向上區分正常樣本和異常樣本的缺點,計算公式如下:

其中,MDi表示樣本的馬氏距離,用以描述樣本距離的相似度;CSi表示樣本的余弦相似度,用于描述樣本方向的相似度;α、β為權重系數。
MDi的計算公式同傳統馬田系統一致,CSi的計算公式如下:

此外,在傳統馬田系統中,只有當信噪比增量為負時,才剔除輔助變量即只刪除對建模無效的輔助變量。而在實際建模過程中,為了更大程度地降低變量間冗余性,可以對信噪比增量設定一定閾值,刪除閾值范圍內的所有輔助變量。
2.2.3 余弦馬氏距離權重確定 本文分別根據正常樣本的馬氏距離變異程度和余弦相似度變異程度確定余弦馬氏距離的權重。具體公式如下:



圖1 加氫裂化流程Fig.1 Flow chart of the hydrocracking process
加氫裂化流程[26-27]作為煉油生產的一個重要典型環節,其工藝機理是高溫、高氫壓的密閉環境下,使重質油和氫氣在催化劑作用下發生復雜化學反應轉化為輕質油。加氫裂化流程如圖1 所示,由加氫精制反應器、加氫裂化反應器、高低壓分離系統和分餾部分組成。以減壓蠟油為原料,產品有輕烴、輕石腦油、重石腦油、煤油、柴油和尾油。
本文以國內某石化公司加氫裂化流程航煤10%餾出溫度為研究對象,驗證所提方法的有效性。首先根據機理分析篩選出可用于預測建模的38個輔助變量。
選取該公司加氫裂化流程包含多個生產工況的2016 組采樣數據,計算38 個輔助變量的離散程度、與航煤10%餾出溫度的偏相關系數及敏感性指數,部分結果如表1所示。
分析各變量的敏感性指數可知,精制反應器塔底溫度指示(12)、精制反應器壓差(13)、脫硫化氫汽提塔塔頂回流量(23)、主分餾塔中段返回溫度(31)、柴油汽提塔塔頂溫度(37)、柴油汽提塔底部溫度(38)敏感性指數較低,說明這些輔助變量對主導變量航煤10%餾出溫度和工況變化的敏感性和描述性相對較低。因此除去這6個敏感性指數較低的變量以外其他剩余的32 個輔助變量被初選為敏感變量。
在3.2節初選的32個敏感變量采樣數據中選取32 組正常樣本,12 組異常樣本數據(該公司加氫裂化流程交接記錄本中記錄的異常情況)用于關鍵敏感變量的精選。

表1 加氫裂化流程機理篩選輔助變量敏感性指數Table 1 Sensitivity index of mechanism selected variables of hydrocracking process
(1)構建加權余弦馬氏基準空間先對正常樣本進行標準化,然后分別計算正常樣本的馬氏距離、正常樣本與其均值向量的余弦相似度和余弦馬氏距離;根據式(15)得到馬氏距離的權值為0.84,余弦相似度的權值為0.16,部分結果如表2所示。
由表2 可知正常樣本的余弦馬氏距離基本在1附近波動,均值0.9003。
(2)驗證基準空間有效性對異常樣本進行標準化,然后分別計算異常樣本的馬氏距離、異常樣本與正常樣本均值向量的余弦相似度和余弦馬氏距離,結果如表3所示。
由表3可知異常樣本的余弦馬氏距離均遠大于1,均值為203.0627,因此構建的加權余弦馬氏基準空間可以很好地區分正常樣本與異常樣本。其中異常樣本3 為特意挑選的方向性異常樣本,其馬氏距離為1.6571,如果按照傳統馬田系統僅根據馬氏距離判別樣本,樣本3 為正常樣本,與實際情況不符;而樣本3 的余弦相似度為5.3472,余弦馬氏距離為2.2475,此時加權余弦馬田系統將樣本3 判別為異常樣本,相較于傳統馬田系統,加權余弦馬田系統可以更好地區分正常樣本與異常樣本。

表2 加權余弦馬氏基準空間Table 2 Weighted cosine Mahalanobis space

表3 異常樣本余弦馬氏距離Table 3 Cosine Mahalanobis distance of the abnormal samples
(3)優化基準空間設計表4所示的正交表,水平1 表示使用輔助變量,水平2 表示不使用輔助變量,并計算信噪比(括號內為原機理篩選輔助變量敏感性指數表中變量序號)。
32 個敏感變量的信噪比增量直方圖如圖2 所示,變量21(原機理篩選輔助變量24)、28(原機理篩選輔助變量32)和32(原機理篩選輔助變量36)的信噪比增量為負,說明這些輔助變量對建模無效;變量26(原機理篩選輔助變量29)的信噪比增量較小,說明這些輔助變量對建模作用較小,可以忽略不計。因此,基于加權余弦馬田系統最終精選得到28個可用于預測建模的關鍵敏感變量。

表4 二水平正交表和信噪比Table 4 OAs and S/N ratios

圖2 加裂流程敏感變量信噪比增量直方圖Fig.2 Histogram of the gain of S/N ratios
本文采用局部加權偏最小二乘[28](LWPLS)方法建立預測模型,用于建模的數據共有1610 組,其中966 組作為訓練集,644 作為測試集,分別將輔助變量集合按照機理篩選變量集合、敏感變量集合和關鍵敏感變量集合用于建模且模型參數完全相同,預測結果如圖3~圖5 所示,預測結果與真實值的散點圖如圖6所示,均方根誤差RMSE如表5所示。由圖3~圖5可知,利用關鍵敏感變量進行預測建模,其預測結果較其他兩種輔助變量集合可以更好地跟蹤航煤10%餾出溫度的實際值;由圖6可知,利用關鍵敏感變量進行預測建模其預測結果更接近對角線,即越接近真實值;由表5可知,利用關鍵敏感變量進行預測建模其預測的均方根誤差RMSE 為3.0474,較其他兩種輔助變量集合分別提高了7.86%和4.15%,驗證了本文所提方法的有效性。
接著,采用十折交叉驗證(10-fold cross validation)來進一步測試所提方法的有效性,分別采用3 種變量集合建立基于LWPLS 的預測模型,其RMSE 如表6 所示。由表6 可知,采用關鍵敏感變量集合建立的預測模型精度最高,同時也證明了所提方法具有一定的外推性。

圖3 利用關鍵敏感變量集合預測航煤10%餾出溫度結果Fig.3 Predicted 10%distillation temperature of aviation kerosene based on key sensitive variable set

圖4 利用敏感變量集合預測航煤10%餾出溫度結果Fig.4 Predicted 10%distillation temperature of aviation kerosene based on sensitive variable set

圖5 利用機理篩選輔助變量集合預測航煤10%餾出溫度結果Fig.5 Predicted 10%distillation temperature of aviation kerosene based on mechanism selected auxiliary variable set

圖6 三種變量集合的預測值與真實值散點圖Fig.6 Scatter plot of real and predicted outputs on the three variable sets

表5 3種變量集合預測建模的均方根誤差RMSETable 5 RMSE of LWPLS on three auxiliary variable sets

表6 3種變量集合十折交叉驗證的均方根誤差RMSETable 6 RMSE of 10-fold cross validation on three auxiliary variable sets
此外,分別采用偏最小二乘[29](PLS)、支持向量機[30](SVM)和局部加權核主元回歸[31](LWKPCR)3種方法驗證本文所提方法的有效性,三種方法的均方根誤差如表7 所示。由表7 可知,采用關鍵敏感變量集合建立PLS、SVM 和LWKPCR 3 種預測模型,其RMSE 均最小,即選取出的關鍵敏感變量具有較好的通用性。

表7 3種變量集合不同預測建模的均方根誤差Table 7 RMSE of three methods based on three auxiliary variable sets
為了進一步驗證本文所提方法的性能,選取同一段時間內航煤10%餾出溫度為主導變量,分別采用本文所提方法和基于互信息的變量選擇方法及文獻[19]中所提方法建立LWPLS 模型,基于3 種變量選擇方法的預測模型均方根誤差如表8所示。由表8 可知,基于本文所提方法選取的關鍵敏感變量建立的預測模型可以更好地擬合實際生產曲線,均方根誤差最小。這是因為本文所提方法首先初選出既與主導變量相關又能反映工況的敏感變量,然后精選出冗余性更小的關鍵敏感變量;而基于互信息的變量選擇方法僅考慮輔助變量與主導變量的相關性,且沒有進一步降低冗余性,所以其預測精度低于本文所提方法;文獻[19]中所提方法雖然在選擇變量時考慮了工況變化的影響,但是未考慮輔助變量與主導變量的相關性,所以其預測精度略低于本文所提方法、高于基于互信息的變量選擇方法。

表8 基于3種變量選擇方法建立LWPLS預測模型的均方根誤差Table 8 RMSE of LWPLS on three variable selection methods
本文針對如何選取既能反映工況信息又能反映主導變量與輔助變量相關性的敏感變量方面,提出了一種分步約簡的敏感變量選擇方法。該方法在明確敏感變量和關鍵敏感變量的基礎上,根據變量對工況變化的敏感性和輔助變量與主導變量的凈相關性定義了敏感性指標,實現敏感變量的初選;接著通過構建加權余弦馬田系統解決變量冗余性大的問題,實現敏感變量的精選;最后將方法應用于加氫裂化產品質量預測,利用實際工業數據驗證方法的有效性,結果表明:
(1)將關鍵敏感變量、敏感變量和通過機理篩選的輔助變量分別用于基于LWPLS 的航煤10%餾出溫度預測建模,結果顯示使用關鍵敏感變量集合建模,不僅可以降低預測模型的復雜性,還可以提升預測的準確性;
(2)針對航煤10%餾出溫度預測時,將關鍵敏感變量、敏感變量和通過機理篩選的輔助變量分別用于PLS、SVM 和LWKPCR 3種建模方法,結果均顯示使用關鍵敏感變量集合建模的預測效果最好,不僅驗證了所提方法的有效性,還同時證明了所提方法對不同的建模方法均適用,具有較好的通用性;
(3)分別采用本文所提分步約簡的變量選擇方法、文獻[19]所提方法和基于互信息的變量選擇方法構建基于LWPLS的航煤10%餾出溫度預測模型,結果顯示使用本文所提方法建立的預測模型均方根誤差最小,預測效果最佳。