基于Stacking的鋼板表面顏色預測

2020-09-15 16:30:34劉媛媛趙希慶

計算機時代 2020年8期

關(guān)鍵詞：分類

劉媛媛　趙希慶

摘要：鋼板表面顏色是判定鋼板表面耐蝕性能的重要指標，提前預測鋼板表面顏色可以為控制鋼板表面耐蝕性能提供指導。針對單一模型預測精度較低的情況，提出一種基于Stacking的組合模型。該模型采用兩層模式，第一層使用支持向量機、隨機森林、GBDT等七個個體學習器作為初級學習器，第二層使用XGBoost作為次級學習器。使用該方法對鋼板表面顏色進行預測，結(jié)果表明，基于Stacking的組合模型與單一模型相比，在多個性能指標上取得了明顯的提升。

關(guān)鍵詞：鋼板表面顏色;分類;集成學習;Stacking方法

中圖分類號：TP181 文獻標識碼：A 文章編號：1006-8228（2020）08-65-04

0 引言

鋼板表面顏色是判定鋼板表面耐蝕性能一種重要指標，普通熱軋鋼板最常見的顏色有紅褐色和青黑色兩種，顏色的不同對鋼板耐銹蝕能力有很大影響，紅褐色主要是結(jié)構(gòu)疏松的Fe2O3，容易吸收水分和鹽分加速銹蝕，而青黑色主要是結(jié)構(gòu)致密的Fe3O4，可以有效延緩鋼板的銹蝕，對于鋼板下線后的保存、運輸、加工和使用等過程比較有利[1-2]，因此生產(chǎn)中更希望獲得青黑色的表面，避免紅褐色的表面。在這種情況下，如果能提前預測鋼板顏色，將能夠為鋼板工藝參數(shù)的調(diào)整提供指導，達到獲得青黑色表面的目的。機器學習為分類預測提供了大量的模型，本文嘗試了一系列單一模型后，發(fā)現(xiàn)效果并不理想，在此基礎(chǔ)上，提出了一種基于Stacking的鋼板表面顏色分類算法，以兩層堆疊的方式組合多種分類模型，借助多種模型的優(yōu)勢進一步提高預測精度，并使用交叉驗證防止過擬合，以達到更好的預測效果[3-5]。

1 stacking算法原理

集成學習通過構(gòu)建和結(jié)合多個學習器來完成學習任務，通常采用一定的策略將多個弱學習器組合到一起，從而獲得比單一學習器更好的性能和泛化能力。集成學習的常用算法有bagging，boosting和stacking等。本文在模型的集成算法選擇上，選取了stacking算法，這種算法通常用于異質(zhì)集成。Stacking算法是由Wolpert[6]于1992年提出的，也稱之為stacked generalization，是一種用于異質(zhì)模型的組合策略。Stacking算法通常采用兩層結(jié)構(gòu)，本文使用周志華n，在《機器學習》中的叫法，將第一層學習器稱為初級學習器，將第二層學習器稱為次級學習器。首先，第一層訓練出多個不同的初級學習器，然后，將初級學習器的預測結(jié)果作為次級學習器的輸入特征，并在此基礎(chǔ)上進行訓練。在這個過程中，為了防止過擬合現(xiàn)象，通常采用K折交叉驗證的方法，這里以五折交叉驗證為例，介紹stacking的基本步驟[8-10]。

（1）首先將原始樣本分為訓練集train和測試集test。

（2）假設我們有n個初級學習器，對任一個初級學習器Ci在訓練集train上進行訓練，訓練集采用五折交叉驗證，每次選擇其中四份進行訓練，在第五份上進行預測，并得到預測結(jié)果Ai。同時，將訓練得到的模型在測試集上進行測試，得到結(jié)果E。這一輪n個初級學習器訓練完，將得到n個預測結(jié)果和n個測試結(jié)果。

（3）把n個預測結(jié)果合并成新的訓練集train2，把n個測試結(jié)果合并成新的測試集test2。

（4）在新的訓練集train2上訓練次級學習器，并將預測結(jié)果在測試集test2上進行驗證，測試模型的性能。

2 stacking模型構(gòu)建

2.1數(shù)據(jù)標準化

本文所選用的數(shù)據(jù)由于具有不同的量綱和量綱單位，在計算過程中會導致模型精度下降，為了避免數(shù)據(jù)之間的量綱影響，需要在訓練前對自變量做標準化處理。本文選用Z-score標準化方法，其公式如下所示：其中，x*為標準化后的自變量，x.為標準化前的自變量，μ為所有樣本數(shù)據(jù)的均值，σ為所有樣本數(shù)據(jù)的標準差。

2.2 stacking模型構(gòu)建

本文模型使用stacking的方式，建立兩層架構(gòu)，第一層組合不同的初級學習器，包括邏輯回歸（IR）、K近鄰（KNN）、支持向量機（SVM）、決策樹（DecisionTree）、隨機森林（RandomForest）、AdaBoost、GBDT七個基學習器，第二層使用XGBoost作為次級學習器，使用第一層預測的結(jié)果作為特征并對最終的結(jié)果進行預測，模型構(gòu)建過程中，為了減少過擬合，使用了五折交叉驗證，模型的總體架構(gòu)如圖1所示。

將數(shù)據(jù)集按照7：3的比例劃分為訓練集和測試集，按照圖1的框架，構(gòu)建七個不同的初級學習器，對每一個初級學習器使用五折交叉驗證，其中四份用于訓練，剩余的一份用于預測，五次計算完畢后，根據(jù)索引重新聚合預測結(jié)果，得到與原訓練集相同樣本數(shù)的新訓練集，即為次級學習器的新訓練集;而原始數(shù)據(jù)集的測試集，在每次初級學習器完成訓練后都需要在該測試集上進行測試，由于使用五折交叉驗證，每個初級學習器完成訓練都會進行五次預測，將這五次預測的結(jié)果進行平均，就得到了與原測試集相同樣本數(shù)的新測試集，即為次級學習器的新測試集。完成第一層建模后，第二層使用XGBoost模型，在上一層生成的新訓練集上進行訓練，并在新測試集上測試，以得到組合模型的性能參數(shù)。

3 基于stacking的鋼板顏色預測

本文使用數(shù)據(jù)集為鋼廠的真實數(shù)據(jù)集，該數(shù)據(jù)集共647條數(shù)據(jù)，包含了20個與鋼板表面顏色相關(guān)的工藝參數(shù)，如待溫厚度比，軋制道次數(shù)，在爐時間，二階段溫度，終軋溫度，返紅溫度，軋制方式等，預測的目標顏色為青黑色和紅褐色，為典型的分類問題。本文使用python語言進行數(shù)據(jù)處理、模型搭建及模型評估。

3.1 模型評價指標

本文使用準確率（Accuracy），精確率（Precision）、召回率（RecaI）及Fl值來衡量模型的性能。其中，TP為青黑色樣本分類正確的數(shù)量，TN為紅褐色樣本分類正確的數(shù)量，F(xiàn)N為青黑色樣本分類錯誤的數(shù)量，F(xiàn)P為紅褐色樣本分類錯誤的數(shù)量。則準確率公式描述為：

3.2 單一模型和stacking組合模型性能比較

本文的Stacking模型使用了兩層的架構(gòu)，其中，初級學習器使用了lr、KNN、SVM、DecisionTree、Ran-domForest、AdaBoost、GBDT，次級學習器使用了XG-Boost。下面將單一模型和組合模型就準確率、精確率、召回率和Fl值四種指標進行了對比，結(jié)果如表l和圖2所示。

從表l和圖2可以看到，單一模型分類準確率大部分在70%-80%.Fl值也集中在0.7-0.8，模型精度比較低，無法滿足模型在實際生產(chǎn)中應用的需求。使用Stacking的方法進行模型集成后，各項指標較單一模型均有了一定程度的提升，主要的判定標準準確率和Fl值分別提高到了89.15%和0.8919，模型精度提高明顯。可以看到，對于鋼板表面顏色分類模型，基于Stacking的集成模型達到了更好的模型性能，為模型在實際生產(chǎn)中的應用打下了良好的基礎(chǔ)。

4 結(jié)束語

本文研究了鋼板表面顏色預測的問題，針對普通分類模型精度較低的情況，提出了一種基于Stacking的鋼板表面顏色分類算法，以兩層堆疊的方式組合多種分類模型，借助多種模型的優(yōu)勢進一步提高預測精度，并使用五折交叉驗證防止過擬合。使用python進行數(shù)據(jù)處理及建模分析后，發(fā)現(xiàn)stacking組合模型相較于單一分類模型在準確率、Fl值等重要指標上都取得了明顯的提升。但由于樣本數(shù)量偏少，模型的精度還有待提高，后續(xù)工作將增加樣本及特征數(shù)量，進一步優(yōu)化模型，提高模型的各項性能。

參考文獻（References）：

[1]劉振宇，于洋，郭曉波，關(guān)菊，王國棟.板帶熱連軋中氧化鐵皮的控制技術(shù)[J].軋鋼，2009.26（1）：5-9

[2]王健.熱軋鋼板表面紅色氧化鐵皮缺陷成因分析[J].河南冶金，2017.25（4）：22-23

[3]盧光躍，閏真光，呂少卿，吳洋.基于混合采樣和Stacking集成的電信用戶網(wǎng)別預測[J].西安郵電大學學報，2019.24（4）：1-5

[4]李強，翟亮.基于Stacking算法的員工離職預測分析與研究[J].重慶工商大學學報：自然科學版，2019.36（1）：117-123

[5]梁超.基于Stacking模型融合的工程機械核心部件壽命預測研究[J].毅件工程，2019.22（12）：1-4

[6]Wolpert D H. Stacked generaliation[J]. Neural Networks，1992.5（2）：241-259

[7]周志華.機器學習[M].清華大學出版社，2016.

[8]羅智青，莫漢培，王汝輝，胡順東，方紹懷，陳世濤.基于Stacking模型融合的失壓故障識別算法[J].能源與環(huán)保，2019.41（2）：41-45

[9]樸楊鶴然，任俊玲.基于Stacking的惡意網(wǎng)頁集成檢測方法[J].計算機應用，2019.39：1018-1088

[10]董克源，徐建.基于Stacking的Android惡意檢測方法研究[J]計算機與數(shù)字工程，2019.47（5）：1184-1188

*基金項目：運城學院博士科研啟動項目（YQ-2019003）

作者簡介：劉媛媛（1985-），女，河北保定人，碩士，工程師/助教，主要研究方向：機器學習。