程芳明 容芷君 但斌斌 劉洋
(1:武漢科技大學冶金裝備及其控制教育部重點實驗室 湖北武漢430081;2:武漢科技大學機械傳動與制造工程湖北省重點實驗室 湖北武漢430081;3:寶鋼股份中央研究院 湖北武漢430080)
在連鑄生產中,及時在線預報和檢測鑄坯質量,對確保生產的連續性、提高產品質量及降低生產成本具有重要的意義[1]。目前對鑄坯質量預測的研究主要有專家系統、統計學分析、數據分析等方法,但由于在連鑄生產過程中影響連鑄坯質量的環節眾多,各因素之間的耦合作用,使得鑄坯質量預測精度不高,質量缺陷問題得不到有效改善[2-3]。隨著大數據時代的到來,數據挖掘因其及時性、智能性、極強的大數據處理能力逐步成為預測鑄坯質量及提高預測精度的主要方式。
當前已有眾多研究通過數據挖掘方法預測鑄坯質量,將生產過程中涉及的影響因素作為模型的輸入特征,采用模糊識別[4]、神經網絡[5-7]、隨機森林[8]等模型實現鑄坯質量的預測。這些研究是根據冶金原理分析影響鑄坯質量的因素,將其作為預測模型的輸入特征,雖然可以提取用于預測的所有信息,但煉鋼是一個非常復雜的過程,且影響機理復雜,這使得鑄坯質量與各影響因素間具有非線性和不確定性關系,所以通常會得到無關特征和冗余特征。無關特征和冗余特征的存在會極大影響模型的預測準確率與算法效率,因此,選用合適的特征選擇方法對特征進行處理,能有效提高預測精度與效率。
本文提出一種混合式特征選擇方法,首先采用融合互信息的最大相關最小冗余特征評價函數對原始特征集進行篩選,剔除部分不相關特征和冗余特征,減少特征的個數,得到特征子集S;然后采用遞歸特征消除法與隨機森林相結合的包裝式精選方法,考慮特征組合對分類性能的影響,使用隨機森林分類器的分類性能來評價特征子集,同時得到當前特征子集中每個特征的重要性,并使用遞歸特征消除法從特征子集S開始,以最小化鑄坯夾雜缺陷的分類錯誤率為目標,每次剔除重要性較小的一個或幾個特征;最后選擇分類錯誤率最低的特征子集作為最優特征子集。
針對鑄坯質量的預測與控制,各大鋼鐵企業先后開發了許多應用系統。如傳統的離線檢查冷態鑄坯質量、基于冶金原理的專家系統等,但隨著連鑄坯的質量要求越來越高這些方法已經遠遠不能適應當下工藝和質量的要求,因此利用鑄坯生產過程中的數據對鑄坯質量進行分析對于鋼廠來說是非常重要的。某鋼廠2020年2月至6月鑄坯質量缺陷統計結果如表1所示,可知夾雜發生的頻率最高,達到62.6%,是該鋼廠最常見的質量缺陷,因此本文以夾雜缺陷為例。

表1 某鋼廠2020年2月至6月鑄坯質量缺陷統計
收集某鋼廠2020年2月至6月共5個月的生產數據,提取有鑄坯夾雜質量缺陷的2552條數據,考慮到數據采集的滯后性,同時選取未出現質量缺陷的2291個樣本作為對照,最終得到包含4843個樣本的數據集。首先刪除數據集中與夾雜缺陷明顯無關的記錄,例如熔煉號、日期等,然后根據對夾雜缺陷成因的相關研究,同時結合專家經驗,最終確定夾雜質量缺陷的21個影響因素,構成鑄坯質量預測原始特征集,如表2所示。最終數據集共包含22列,其中有21列為特征,剩余一列為鑄坯質量分類標簽,其包含“正常”和“夾雜”兩種類別。為了后續分類任務,采用數值化編碼的方式對字符型特征預處理,然后利用Z-Score標準化消除量綱的影響。

表2 鑄坯質量原始特征集
對于無關特征和冗余特征對分類任務的干擾,大多數研究采用特征選擇方法來解決。常見的特征選擇方法分為過濾式、包裝式和嵌入式[9]。包裝式需要多次訓練模型,得到的特征子集性能最好,但時間復雜度較高;嵌入式將特征選擇與機器學習算法訓練放在同一過程中進行,特征子集性能比包裝式差,但時間復雜度較低[10];過濾式不依賴于特定的機器學習算法,直接對特征的相關性和冗余性進行度量,運行效率最高,但特征子集的性能較差[11]。
針對鑄坯質量預測問題中特征冗余性強、關鍵特征不顯著的特點,并綜合考慮現有的特征選擇方法,提出一種混合式特征選擇方法,方法的主要流程如圖1所示。該方法包括預篩選和精選兩個過程,在預篩選中,使用互信息對特征的相關性和冗余性進行度量,并使用融合互信息的最大相關最小冗余特征預篩選函數,從而在特征選擇過程中綜合考慮特征的相關性和冗余性,剔除特征的相關性和冗余性,同時減少精選階段的計算規模;在精選階段,使用基于RFE-RF的包裝式特征選擇方法,考慮特征的組合對分類性能的影響。經過預篩選和精選,可以得到高相關低冗余的最優特征子集,同時保證該特征子集具有較高的分類性能。

圖1 混合式特征選擇方法框架圖
對于過濾式,特征與鑄坯質量分類標簽間的相關性越強,該特征越重要;特征與特征間的相關性越強,則兩個特征的冗余性就越強,即這兩個特征越不應該被同時選擇進入特征子集。因此,在過濾式預篩選中,最關鍵的是找到一種合適的指標來度量相關性??紤]到煉鋼過程的復雜性,本文使用互信息(MI)來衡量特征與鑄坯質量分類間標簽以及特征與特征間的相關性。對于任意兩個變量和,其互信息定義為:

文獻[12-13]中提出了一種最小冗余最大相關算法(mRMR),該算法通過設置特征評價函數,對特征的最大相關和最小冗余進行定義?;谠撍惴ǎ疚奶岢鋈诤匣バ畔⒌淖畲笙嚓P最小冗余特征預篩選評價函數,令原始特征集為X={xi|i=1,2……,21},鑄坯質量分類標簽為Y,函數定義如下:

式中:x—特征,且x∈X;
Ic(xi,Y)—特征與鑄坯質量分類標簽間的互信息值;
S—已選的特征子集;
Ir(xi,xj)—特征與特征間的互信息值,i≠j。
使用預篩選評價函數進行特征選擇的過程如圖2所示:

圖2 特征預篩選過程
包裝式直接考慮的是特征子集的分類性能,通過迭代的過程,精選出使模型性能最優的特征組合作為特征子集。該方法得到的特征子集的分類性能較好,但一般要結合相應的子集搜索策略,因為特征組合的種類很多,且每種特征組合都需要訓練分類模型進行驗證,計算量將非常龐大。為此,本文提出基于遞歸特征消除法(RFE)-隨機森林(RF)的包裝式精選方法,該方法以最小化分類錯誤率為目標,使用RF分類器的分類性能來評價特征子集,同時得到當前特征子集中每個特征的重要性,并使用RFE作為每次迭代過程的特征子集更新方法,從特征子集S開始,每次固定剔除重要性較小的一個或幾個特征,最后選擇分類錯誤率最低的特征子集作為最優特征子集。使用RF進行分類的同時,可以得到當前特征子集S中每個特征的重要性評分,這是由于RF算法是一種基于bagging的集成分類器,由多棵完全生長的決策樹組成,每棵決策樹的訓練集由自助重采樣產生,即從樣本數量為N的原始訓練集中,有放回地重復隨機抽取N個樣本。因此,有的樣本可能會多次被抽取,而有的樣本則可能不會被抽取,這些不被抽取的數據構成了袋外數據(OOB data)。對袋外數據的某個特征的值進行擾動,通過擾動前后分類錯誤率的變化來度量該特征的重要性,計算方式如下:

該方法的過程如圖3所示:

圖3 特征精選過程
對表2中的21個特征,計算這些特征與鑄坯質量分類標簽間及特征與特征間的相關性值,得到結果如圖4所示。由圖4(a)可知,“結晶器渣類型”、“長水口廠家”、“精煉方式”、“廢鋼加入量”這4個特征與鑄坯質量分類標簽間的相關性值大于0.2,相關性較高。圖4(b)可以看到,“最低拉速”與“最高拉速”的相關性值為0.98、“鑄機號”與“結晶器渣類型”的相關性值為0.65、“鑄機號”與“斷面寬度”和“斷面寬度”與“結晶器渣類型”的相關性值為0.62,這些特征之間的冗余性較大。
根據相關性計算結果,結合特征評價函數,完成特征預篩選過程。由圖2知,需要先指定要選擇的特征個數k。因為第一個被選中的特征是相關性最大的特征,所以不管k取何值,根據評價函數,待選特征進入特征子集的順序是相同的。圖5給出了k取21時,每次進入特征子集的一個特征對應的評價函數取值。開始時特征子集S中沒有特征,第一個進入特征子集S的特征為“結晶器渣類型”,此時特征評價函數的取值即“結晶器渣類型”與鑄坯質量分類標簽的相關性值,由圖4(a)可知為0.473。第一個特征進入后,后續特征再進入特征子集時,特征評價函數綜合地考慮特征與鑄坯質量分類標簽間的相關性以及該特征與特征子集中已有特征間的冗余性。特征評價函數的取值不斷減小,是因為相對前面進入的特征,后面進入的特征其相關性較小而冗余性較大,直到“鋼水節奏”這個特征進入特征子集時,特征評價函數取值為負,表明該特征對已選特征子集來說,其冗余性已經大于相關性,而后續再進入的特征,評價函數的取值進一步減小。綜合上述分析可知,應該選擇使得特征評價函數取值大于零的特征,即為“結晶器渣類型”、“長水口廠家”、“精煉方式”、“廢鋼加入量”、“溫度是否合格”、“罐況”、“拉速落差”、“澆鑄周期”、“水表號”、“斷面寬度”、“配水方式”、“中包爐序”,共12個特征。

圖5 特征評價函數取值變化
在RFE-RF的特征精選中,使用特征子集更新算法RFE和隨機森林分類算法RF,這兩個算法都需要設定相關的參數。對于RFE算法,需要設置每次迭代時剔除的特征個數n,其決定了算法的計算規模,因為經過預篩選后僅剩12個特征,所以該參數設置為1即可。對于RF需要設置的參數包括決策樹的個數a和每棵樹分類時選用的最大特征數,考慮到共有4843個數據樣本,a設置為100即可,而每次迭代特征的個數都不一樣,所以將b設置為當次迭代時特征的總個數。每次訓練分類器時,隨機將4843個樣本中的70%劃分為訓練集,剩余30%為測試集。圖6顯示了隨著特征的剔除,隨機森林分類器在測試集上錯誤率的變化。開始時,隨著重要性較小的特征的剔除,分類錯誤率逐漸降低,而當重要性較大的特征被剔除時,分類的錯誤率隨之增大。當剔除“水表號”、“澆鑄周期”、“中包爐序”、“配水方式”、“罐況”、“廢鋼加入量”這6個重要性較小的特征時,分類的錯誤率最小,為9.8%,因此最終選擇的特征為“精煉方式”、“斷面寬度”、“拉速落差”、“溫度是否合格”、“長水口廠家”、“結晶器渣類型”,共計6個特征。

圖6 隨機森林分類準確率變化
為了驗證混合式特征選擇方法在鑄坯質量預測問題中進行特征選擇的有效性,本文用隨機森林分類器的分類錯誤率來評價該方法選取特征子集的優劣,對過濾式、包裝式和混合式特征選擇的效果進行比較,如表3所示。可以看到采用混合式特征選擇方法選出的特征子集的分類錯誤率為9.8%,分類錯誤率比過濾式降低了13.5%,比包裝式降低了8.2%,更好地達到了降低分類錯誤率的目的。

表3 4種特征處理方式下的分類錯誤率比較
本文提出的混合式特征選擇方法,首先在過濾式預篩選過程中充分考慮特征和鑄坯質量分類標簽之間的相關性和冗余性,避免了將無關特征引入模型,同時降低特征間的冗余性;然后在包裝式精選過程中進一步考慮特征組合對鑄坯質量分類效果的關聯影響,進而提高模型的準確率。通過不同特征處理方法的對比,與采用單一的過濾式和包裝式相比,混合式特征選擇方法的分類錯誤率最低,證明了在鑄坯夾雜質量預測問題中,本文所提出的混合式特征選擇方法的優越性。