李 軍
(上海寶信軟件股份有限公司,上海 201203)
目前深度學(xué)習(xí)和聚類分析已經(jīng)廣泛應(yīng)用于工業(yè)生產(chǎn)中,深度學(xué)習(xí)主要應(yīng)用于圖像識別、語音識別等方面,是生產(chǎn)控制和工藝研究的一個輔助手段。聚類分析作為無監(jiān)督學(xué)習(xí)的關(guān)鍵技術(shù)也被廣泛應(yīng)用于工業(yè)生產(chǎn),主要是發(fā)現(xiàn)數(shù)據(jù)間內(nèi)在結(jié)構(gòu)的相關(guān)性,完成自主分類。兩類技術(shù)的集成應(yīng)用也越來越多,如楊琪設(shè)計(jì)的DBNOC算法,在工業(yè)生產(chǎn)領(lǐng)域也有應(yīng)用,如趙晶晶等提出一種將深度學(xué)習(xí)、聚類算法結(jié)合用于電網(wǎng)快速分區(qū)。
鋼鐵行業(yè)是中國經(jīng)濟(jì)高質(zhì)量發(fā)展的重要支撐,如何對鋼鐵行業(yè)進(jìn)行精準(zhǔn)的優(yōu)化控制以及趨勢預(yù)測至關(guān)重要。鋼鐵企業(yè)生產(chǎn)過程時刻都在產(chǎn)生海量數(shù)據(jù),例如煉鐵高爐各項(xiàng)指標(biāo)及工藝參數(shù),這些數(shù)據(jù)規(guī)模大、實(shí)時性強(qiáng)、結(jié)構(gòu)多樣且維度高,需要及時高效地從中挖掘出關(guān)鍵特征指標(biāo),通過聚類生成高爐畫像,并通過對標(biāo)找差的方式實(shí)現(xiàn)對高爐生產(chǎn)狀況的精準(zhǔn)把控。該文借鑒Lim等人的設(shè)計(jì)思路,采用有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)結(jié)合的方式,將各高爐指標(biāo)數(shù)據(jù)先抽象化為高維空間中的點(diǎn),再映射到低維流形中進(jìn)行聚類,解決了聚類過程中由于指標(biāo)數(shù)量龐大且屬性分布分散帶來的指標(biāo)權(quán)重難以量化分配的問題。
高爐指標(biāo)聚類算法模型以高爐畫像中高維數(shù)據(jù)作為輸入,最終輸出結(jié)果用以支撐高爐對標(biāo)管理實(shí)際應(yīng)用需要,主要流程包括數(shù)據(jù)預(yù)處理、特征工程、算法建模及訓(xùn)練、模型驗(yàn)證上線及模型自學(xué)習(xí)等,其總體流程如圖1所示。

圖1 算法模型總體流程
基于高爐4類高維特征數(shù)據(jù),通過構(gòu)建統(tǒng)計(jì)模型生成各高爐個體畫像,經(jīng)過異常數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)全和歸一化等預(yù)處理后,采用相關(guān)性檢驗(yàn)、自變量篩選、因變量加工等特征工程算法為深度學(xué)習(xí)聚類算法建模提供規(guī)范化數(shù)據(jù);基于歷史數(shù)據(jù)完成模型訓(xùn)練和測試,測試結(jié)果達(dá)標(biāo)的納入模型庫管理,并定期導(dǎo)入生產(chǎn)過程中新產(chǎn)生數(shù)據(jù),對模型結(jié)果進(jìn)行動態(tài)監(jiān)控,達(dá)標(biāo)則輸出到高爐對標(biāo)應(yīng)用,未達(dá)標(biāo)則通過自訓(xùn)練控制進(jìn)入下一次迭代。
高爐煉鐵是鋼鐵工業(yè)降低能源消耗、降低污染排放、控制制造成本的核心工序?;诟郀t生產(chǎn)管理系統(tǒng)數(shù)據(jù),通過統(tǒng)計(jì)模型,建立各高爐個體畫像,采集指標(biāo)包括操作類、排放類、鐵水成本類、能耗類等數(shù)十個指標(biāo)。通過高爐畫像為每座在役高爐建立檔案信息,包括高爐身份ID、爐役、爐齡、爐容、爐缸直徑、地理位置、所屬基地等,支持爐役、爐齡等屬性的自動更新。通過高爐畫像,可以支撐實(shí)現(xiàn)以下3點(diǎn)。
篩選反映高爐爐況的生產(chǎn)指標(biāo)和工藝參數(shù),按爐容等級設(shè)置評價規(guī)則。
根據(jù)收集到的高爐實(shí)際生產(chǎn)數(shù)據(jù),匹配評價規(guī)則,形成單高爐、制造基地、公司法人層級的高爐評價報(bào)告。
采用多指標(biāo)、考慮權(quán)重,計(jì)算高爐綜合競爭力分值,綜合比較評價各生產(chǎn)基地每座高爐的競爭力。
對高爐畫像指標(biāo)數(shù)據(jù)進(jìn)行異常數(shù)據(jù)清洗、缺失值補(bǔ)充,并使用MinMaxScaler方法進(jìn)行歸一化預(yù)處理后,抽象化為高維空間中的數(shù)據(jù)點(diǎn)。將預(yù)處理后的數(shù)據(jù)使用Pearson相關(guān)系數(shù)法,保留相關(guān)性最強(qiáng)的幾個特征,作為模型的輸入?yún)?shù)。
該文構(gòu)建深度學(xué)習(xí)聚類算法中包括表達(dá)空間學(xué)習(xí)、低維空間聚類以及最優(yōu)解算法模塊三部分,如圖2所示,最終將輸出每個高爐畫像高維原始數(shù)據(jù)、表達(dá)空間低維特征數(shù)據(jù)、低維特征數(shù)據(jù)聚類所屬族群等三項(xiàng)結(jié)果。

圖2 深度學(xué)習(xí)聚類算法流程
算法以經(jīng)過預(yù)處理和特征工程的高爐畫像高維原始數(shù)據(jù)作為輸入,通過基于神經(jīng)網(wǎng)絡(luò)自編碼器的表達(dá)空間學(xué)習(xí)同時輸出高爐畫像低維特征數(shù)據(jù)和高維近似數(shù)據(jù),使用高斯混合模型(Gaussian Mixture Model,GMM)完成低維特征數(shù)據(jù)聚類,同時考慮表達(dá)空間學(xué)習(xí)損失和低維空間聚類損失,通過超參數(shù)訓(xùn)練求得最優(yōu)。
表達(dá)空間學(xué)習(xí)部分的核心是神經(jīng)網(wǎng)絡(luò)自編碼器模型,分為編碼器和解碼器兩個部分。編碼器將高維高爐畫像數(shù)據(jù)通過深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為低維表達(dá)空間數(shù)據(jù),解碼器將低維表達(dá)空間數(shù)據(jù)逆轉(zhuǎn)換為高維高爐畫像數(shù)據(jù)。訓(xùn)練后,通過編碼器與解碼器以后的擬合數(shù)據(jù)與原始數(shù)據(jù)誤差足夠小,表達(dá)空間學(xué)習(xí)完成,其架構(gòu)圖如圖3所示。

圖3 表達(dá)空間學(xué)習(xí)模型架構(gòu)
從輸入層到隱藏層,神經(jīng)網(wǎng)絡(luò)編碼器將高爐畫像高維原始數(shù)據(jù)壓縮為低維特征數(shù)據(jù),從隱藏層到輸出層,神經(jīng)網(wǎng)絡(luò)解碼器再將還原為高維數(shù)據(jù),將其作為原始數(shù)據(jù)的近似表達(dá)。在表達(dá)空間學(xué)習(xí)的過程中反復(fù)對比與的誤差,并進(jìn)行反向傳遞,逐步提升神經(jīng)網(wǎng)絡(luò)自編碼器的準(zhǔn)確性,最終得到能夠很好地描繪出高爐畫像的低維特征數(shù)據(jù)。
低維空間聚類部分的核心采用GMM聚類模型。將通過上述步驟以后的高維高爐畫像數(shù)據(jù)的結(jié)果基于GMM模型進(jìn)行聚類,根據(jù)屬于不同簇的概率分布,確定單個高爐數(shù)據(jù)點(diǎn)的最終簇歸屬。。
最優(yōu)解算法模塊是綜合考量前兩個步驟,也就是有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)模型的損失函數(shù),建立統(tǒng)一損失函數(shù)和最優(yōu)化模型,并尋找表達(dá)空間學(xué)習(xí)和聚類模型中參數(shù)最優(yōu)解,優(yōu)化前兩個步驟中的模型。統(tǒng)一損失函數(shù)定義如公式(1)所示。

式中:和分別代表編碼器和解碼器函數(shù),x是高爐畫像第維特征,(x)是其經(jīng)過編碼后的低維特征表達(dá),((x))是經(jīng)過解碼的高維近似特征,||x-((x))||即為表達(dá)空間學(xué)習(xí)損失,C為(x)所屬簇k的質(zhì)心,||(x)-C||即為低維空間聚類損失,是介于0和1之間用于平衡兩個損失函數(shù)的影響的超參數(shù),模型最優(yōu)化目標(biāo)函數(shù)為min()。
數(shù)據(jù)集選用國內(nèi)某大型多基地鋼鐵企業(yè)4大類高爐指標(biāo)數(shù)據(jù),其中包括操作類指標(biāo),如爐容利用系數(shù)、爐缸截面利用系數(shù)、煤氣利用率、休風(fēng)率、燃料比、焦比、煤比、富氧率等;排放類指標(biāo),如熱風(fēng)爐煙氣SO、熱風(fēng)爐煙氣NO、爐頂煤氣SO和降塵量等;鐵水成本類指標(biāo),如全成本、變動成本、固定成本、原料成本、燃料成本、能介成本、噸鐵折舊等;能耗類指標(biāo),如煉鐵工序能耗、高爐工序能耗等。
訓(xùn)練集和測試集按照8∶2的比例劃分,對每個模型的超參數(shù)(如GMM聚類簇?cái)?shù)n_components、統(tǒng)一損失函數(shù)權(quán)重)選擇,使用交叉驗(yàn)證,其中驗(yàn)證集合占比1/6。
模型整體性能采用統(tǒng)一損失函數(shù)和最優(yōu)化模型進(jìn)行訓(xùn)練、優(yōu)化,針對該文設(shè)計(jì)的基于GMM的低維空間聚類模型,采用CH分?jǐn)?shù)(Calinski Harabasz Score,CHS)和輪廓系數(shù)(Silhouette Coefficient,SC)作為其性能評估指標(biāo),其中CH分?jǐn)?shù)主要基于簇間協(xié)方差與簇內(nèi)協(xié)方差比值計(jì)算,其值越大越好,輪廓系數(shù)基于每個樣本與簇內(nèi)及簇間其他樣本間平均距離計(jì)算,其取值為[-1,1],為1時表示簇內(nèi)樣本緊湊,為0時簇間存在重疊,為-1時則聚類效果差。
自學(xué)習(xí)機(jī)制由聚類結(jié)果監(jiān)測與自訓(xùn)練模塊組成,針對動態(tài)變化的高爐指標(biāo)數(shù)據(jù),定時監(jiān)測聚類模型性能指標(biāo),當(dāng)性能指標(biāo)顯著下降,低于系統(tǒng)設(shè)定閾值時,啟動自訓(xùn)練模塊對模型進(jìn)行重訓(xùn)練提升模型性能。
試驗(yàn)數(shù)據(jù)集選用該鋼鐵企業(yè)2021年全年7個基地24座高爐指標(biāo)歷史數(shù)據(jù),共42萬條,每條數(shù)據(jù)包括基地、爐號以及四大類101項(xiàng)指標(biāo)數(shù)據(jù),對其進(jìn)行異常數(shù)據(jù)去除與歸一化預(yù)處理后,通過表達(dá)空間學(xué)習(xí)模型抽象化為高維空間中的數(shù)據(jù)點(diǎn),采用8∶2的比例劃分為訓(xùn)練集和測試集。針對訓(xùn)練集,留取1/6的數(shù)據(jù)作為驗(yàn)證集,用于交叉驗(yàn)證和超參數(shù)最優(yōu)化,迭代試驗(yàn)結(jié)果見表1。

表1 性能對比結(jié)果
結(jié)合深度學(xué)習(xí)聚類算法模型最終輸出的每個高爐聚類所屬族群、高爐綜合爐況等信息,通過豐富的圖形化方式實(shí)現(xiàn)多層級、多維度的高爐生產(chǎn)指標(biāo)對標(biāo)功能。對標(biāo)層級包括單高爐、爐容等級、制造基地、公司法人等。對標(biāo)的主要指標(biāo)包括利用系數(shù)、截面利用系數(shù)、煤氣利用率、休風(fēng)率、冶煉強(qiáng)度、燃料比、焦比、煤比、工序能耗、風(fēng)溫、全焦負(fù)荷、礦耗、噸鐵耗風(fēng)、TRT噸鐵發(fā)電量、富氧率、鐵水合格率等。
針對試驗(yàn)所選用的鋼鐵企業(yè),將高爐聚類生成的4個族群結(jié)果應(yīng)用到高爐對標(biāo)管理中,按照高爐聚類族群,展示對標(biāo)對象綜合爐況排名結(jié)果,刻畫出綜合爐況的高爐群像,體現(xiàn)高爐與高爐、高爐與高爐群體、高爐群體與高爐群體之間的關(guān)系,應(yīng)用效果圖如圖4所示。

圖4 高爐對標(biāo)應(yīng)用效果圖
該研究借助于深度學(xué)習(xí)聚類算法模型,減少人為因素的介入,適用于需要業(yè)務(wù)快速部署與迭代、冷啟動等場景,如在業(yè)務(wù)需要增加或者減少考量多個生產(chǎn)、經(jīng)濟(jì)效益指標(biāo)情景下,能夠不依靠大量一線操作人員經(jīng)驗(yàn)判斷指標(biāo)權(quán)重,自行訓(xùn)練得出最合理的聚類結(jié)果。
該研究通過試驗(yàn)驗(yàn)證了該算法模型在高爐指標(biāo)聚類應(yīng)用中的有效性,研究更為重要的意義在于促進(jìn)各個鋼鐵企業(yè)、設(shè)計(jì)院、供應(yīng)商、科研機(jī)構(gòu)以及行業(yè)協(xié)會等整個鋼鐵生態(tài)圈的信息互聯(lián)互通、數(shù)據(jù)深度應(yīng)用、產(chǎn)學(xué)研用緊密結(jié)合和核心競爭力提高。