999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用改進XGBoost 預(yù)測RH 精煉終點鋼水溫度

2023-09-28 03:55:56何江一王興華王燕斌
材料與冶金學報 2023年5期
關(guān)鍵詞:特征優(yōu)化模型

徐 猛, 雷 洪, 何江一, 韓 信, 王興華, 王燕斌

(1.東北大學 材料電磁過程研究教育部重點實驗室, 沈陽 110819;2.東北大學 冶金學院, 沈陽 110819; 3.建龍北滿特殊鋼有限責任公司, 黑龍江 齊齊哈爾 161041;4.沈陽東惠科國際貿(mào)易有限公司, 沈陽 113000)

在“十四五”時期,我國持續(xù)推進的新型工業(yè)化、城鎮(zhèn)化建設(shè)對鋼產(chǎn)品質(zhì)量的適用性、穩(wěn)定性以及可靠性提出了更高的要求[1].為了滿足用戶的需求,具有真空脫氣脫碳、均勻成分和溫度補償?shù)榷喾N功能的RH 逐漸成為大多數(shù)高附加值鋼產(chǎn)品生產(chǎn)的重要精煉環(huán)節(jié)[2].冶金工作者若能精確地預(yù)報RH 精煉終點鋼水溫度,就能縮短真空精煉時間,從而提高工作效率,減少鋼產(chǎn)品性能的波動.

隨著機器學習和數(shù)據(jù)挖掘的快速發(fā)展,許多機器學習方法在冶金領(lǐng)域嶄露頭角,這些方法包括神經(jīng)網(wǎng)絡(luò)[3]、支持向量機[4]、極限梯度提升(extreme gradient boosting,XGBoost)[5]等.林 云等[6]采用人工神經(jīng)網(wǎng)絡(luò)建立了RH 溫度預(yù)報模型,該模型在偏差為±5 ℃時精煉終點鋼水溫度的命中率達到87%.王毓男等[7]采用多元回歸分析方法建立了RH 精煉終點鋼水溫度的預(yù)測模型,該模型在偏差為±10 ℃時吹氧和未吹氧條件下的命中率分別為96%和99%.以上模型均為單一機器學習模型,在處理數(shù)據(jù)維度和預(yù)測精度方面的應(yīng)用極其有限.曹宇軒等[8]在LF 爐溫度預(yù)報模型中先采用最大相似法和鄰近爐次法對數(shù)據(jù)進行篩選,再利用遺傳算法對自動搜索結(jié)構(gòu)的反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,該模型在偏差為±5 ℃時終點命中率達到90.52%.李紅利[9]利用貝葉斯優(yōu)化算法對XGBoost 算法的參數(shù)進行優(yōu)化,并與專家預(yù)估模型混合,實現(xiàn)了LF鋼水溫度的預(yù)估.

有研究表明,在機器學習中選取的輸入變量過多或過少均會降低算法的運算效率和預(yù)測精度,并且單一機器學習模型還會存在一些局限性.因此,本文中以煉鋼廠RH 現(xiàn)場數(shù)據(jù)作為研究對象,先 采 用 隨 機 森 林(random forest,RF)[10]、Optuna[11]和XGBoost 算法相結(jié)合的方法來建立溫度預(yù)測模型,通過隨機森林的袋外(out of bag,OOB)[13]數(shù) 據(jù)評分 進行 特 征選 擇,然 后 利用Optuna 框架對XGBoost 超參數(shù)自動優(yōu)化,最后根據(jù)最優(yōu)參數(shù)預(yù)測RH 精煉終點鋼水溫度.

1 數(shù)據(jù)預(yù)處理

本文中的數(shù)據(jù)源自煉鋼車間RH 的生產(chǎn)數(shù)據(jù).由于部分數(shù)據(jù)存在噪音、缺失值、數(shù)據(jù)量綱不統(tǒng)一等問題,因此對數(shù)據(jù)進行預(yù)處理十分有必要.將篩選后的數(shù)據(jù)進行歸一化轉(zhuǎn)換,具體轉(zhuǎn)化公式為

式中:xi為輸入的各特征變量;ximax,ximin為各獨立樣本數(shù)據(jù)的最大值和最小值.

2 基于隨機森林特征選擇

特征選擇是利用最少的特征盡最大可能表達現(xiàn)有數(shù)據(jù).這種方法能夠減少計算量,提高學習算法的運算效率,從而增強模型的泛化能力.隨機森林方法是進行特征選擇的有效方法,具體方法如下:①提取預(yù)處理后的數(shù)據(jù)集,將全部的特征作為特征子集,計算出各特征的重要性并按照降序排列;②給定剔除比例,從當前的特征子集中依次剔除相應(yīng)比例的次要特征,每執(zhí)行1 次剔除得到1個特征子集,不斷剔除次要特征直至剩余4 個特征;③比較步驟②中得到的各特征子集所對應(yīng)的OOB 評分,將OOB 評分最高的特征子集作為選定的特征集.

為了減少訓(xùn)練樣本分布對實驗結(jié)果的影響,采用五重交叉數(shù)據(jù)確定特征集[13].具體過程如下:先將全部的訓(xùn)練數(shù)據(jù)隨機分為等量的5 份,選擇其中4 份作為訓(xùn)練數(shù)據(jù)選取特征集;然后更換其中1 份數(shù)據(jù),重復(fù)實驗,這樣得到5 組不同的特征集;最后選用出現(xiàn)次數(shù)較高(出現(xiàn)次數(shù)≥3)的特征作為最終的特征集.

3 XGBoost 優(yōu)化算法建模原理與方法

3.1 XGBoost 算法

XGBoost 算法[14-15]的核心思想來源于提升樹,通過不斷地添加提升樹,使其集成在一起形成1 個強分類器.其目標函數(shù)為

式中:l(yi,)為損失函數(shù),為預(yù)測輸出,yi為真實輸出為正則化項,fk為第k棵樹模型,T為每顆樹的葉子數(shù)量,W為葉子權(quán)重值,γ為葉子數(shù)量懲罰正則項,λ為葉子權(quán)重懲罰正則項.

XGBoost 算法的目標函數(shù)引入節(jié)點權(quán)重等正則項,主要是用來降低模型的復(fù)雜度,避免過擬合.同時,損失函數(shù)還采用式(3)的二階泰勒展開式,這樣可以有效提高算法的收斂速度和準確性.

式中:gi和hi分別是損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù).

3.2 GBDT 和LightGBM 算法

梯度提升決策樹(gradient boosting decision tree, GBDT)算法[16]是將決策樹與Boosting 思想相結(jié)合的一種算法.它采用迭代方式進行訓(xùn)練,每輪訓(xùn)練均是在上一輪訓(xùn)練的殘差(用損失函數(shù)的負梯度來替代)基礎(chǔ)上進行的.在回歸問題中,每輪迭代產(chǎn)生1 棵決策樹,迭代結(jié)束時會得到多棵決策樹,將所有決策樹的結(jié)果累加到一起可作為最終結(jié)果.

LightGBM 算法[16]以GBDT 算法為基礎(chǔ),采用Histogram 的決策樹算法將連續(xù)特征離散化,并利用單邊梯度采樣(gradient-based one-side sampling,GOSS) 和 互 斥 特 征 捆 綁 (exclusive feature bundling,EFB)技術(shù)達到降維的目的.其中,GOSS 可以大幅度降低信息增益計算的復(fù)雜度,而EFB 可將許多互斥的特征綁定為1 個特征.

3.3 Optuna 框架

為實現(xiàn)高效自動超參數(shù)優(yōu)化、減輕人工調(diào)參負擔以及提升準確性,在第三方庫中調(diào)用了Optuna 模塊.Optuna 是一個專為機器學習設(shè)計的自動超參數(shù)優(yōu)化軟件框架[17],主要特征是并行的分布式優(yōu)化、Python 形式的超參數(shù)空間搜索,以及輕量級、多功能、跨平臺的架構(gòu).該框架的優(yōu)化方法默認為基于樹狀結(jié)構(gòu)Parzen 密度估計的非標準貝葉斯優(yōu)化算法[18],它通過轉(zhuǎn)換生成過程來模擬,用非參數(shù)密度替換先前配置的分布.

式中:y*為觀察后找到的最佳值;ζ(x)是對不同的觀察值{xk}觀察形成的密度,使得相應(yīng)的損失f(xi)<y*;g(x)是通過剩余觀察值形成的密度.

3.4 建模流程

基于特征選擇和XGBoost 優(yōu)化,RH 精煉終點鋼水溫度預(yù)測模型的構(gòu)建思路如下:①在煉鋼車間現(xiàn)場采集RH 生產(chǎn)數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理和特征篩選;②將篩選后的數(shù)據(jù)作為XGBoost模型的輸入項,并將其轉(zhuǎn)換為最小化目標函數(shù)的問題,利用迭代學習優(yōu)化總體預(yù)測結(jié)果;③采用Optuna 框架對XGBoost 進行超參數(shù)優(yōu)化,以此提高模型的預(yù)測精度,減小預(yù)測誤差;④訓(xùn)練和測試預(yù)測模型并輸出預(yù)測值,利用模型評價標準進行分析,同時評估所用方法模型的性能.該模型整個框架如圖1 所示.

圖1 RH 精煉終點鋼水溫度預(yù)測模型框架Fig.1 Prediction model framework for the temperature of molten steel at the end of RH vacuum refining

3.5 實驗評價指標

模型的有效性評估一般采用均方根誤差(RMSE)、平均絕對誤差(MAE)、控制精度下的命中率(符合誤差允許的樣本數(shù)與總預(yù)測樣本數(shù)的百分比)和運行時間來進行評價.RMSE 和MAE分別反映了模型誤差平方的期望值與精確度.計算公式如下所示:

式中:n為總預(yù)測樣本數(shù),yi為第i個樣本的溫度測量值為第i個樣本的溫度預(yù)測值.

4 實驗分析

4.1 數(shù)據(jù)集

經(jīng)預(yù)處理后,煉鋼廠的258 爐數(shù)據(jù)只剩下255 爐,從中隨機選取75%的數(shù)據(jù)(191 爐)作為訓(xùn)練集來訓(xùn)練模型,剩下25%的數(shù)據(jù)(64 爐)作為測試集來驗證溫度模型的預(yù)測能力.

4.2 特征選擇

對采集所得數(shù)據(jù)進行特征選擇,篩選的特征變量一共包括12 種,如表1 所列.表2 列出了采用隨機森林方法篩選的結(jié)果.特征變量為進站鋼水溫度、進站鋼水氧質(zhì)量分數(shù)、插入管次數(shù)、真空時間、鋁加入量和進站鋼水碳質(zhì)量分數(shù).

表1 RH 精煉終點鋼水溫度預(yù)測特征變量Table 1 Characteristic variables for the temperature of molten steel at the end of RH refining

表2 RH 精煉終點鋼水溫度預(yù)測特征變量選擇結(jié)果Table 2 Characteristic variables for the temperature of molten steel at the end of RH refining after selection

4.3 超參數(shù)優(yōu)化

文獻[5]中通過調(diào)試XGBoost 的學習率、樹的數(shù)量和深度提高了模型的預(yù)測效果.XGBoost 的目標函數(shù)已引入正則化項,在超參數(shù)調(diào)試中再加入L1 正則化、L2 正則化及葉子能夠含有的最少樣本數(shù).表3 列出了XGBoost 超參數(shù)取值范圍及Optuna 框架優(yōu)化XGBoost 后所選取的一組最優(yōu)超參數(shù).

表3 XGBoost 超參數(shù)取值范圍及最優(yōu)超參數(shù)Table 3 Value ranges and optimized values for XGBoost superparameter

4.4 模型性能分析

為了驗證模型預(yù)測效果, 本文中采用Python3.6 進行編程,分析了GBDT,LightGBM,XGBoost 這3 種模型在Optuna 框架下超參數(shù)優(yōu)化前后的預(yù)測結(jié)果.其中,GBDT 模型選取的優(yōu)化超參數(shù)為學習率、樹的數(shù)量、樹的深度、隨機種子、葉子能夠含有的最少樣本數(shù)、內(nèi)部節(jié)點再劃分所需最小樣本數(shù).LightGBM 模型選取的優(yōu)化超參數(shù)為樹的數(shù)量、學習率、樹的深度、最大葉子數(shù)量、L1正則化、L2 正則化.

由表4 可知,RH 精煉終點的鋼水測量溫度最大值為1 607.00 ℃,最小值為1 582.00 ℃,極差為25 ℃.未優(yōu)化和優(yōu)化后的模型預(yù)測鋼水溫度的極差范圍為12~17 ℃,均小于鋼水溫度測量值的極差.其中,XGBoost 模型在超參數(shù)優(yōu)化前鋼水溫度最大值為1 603.69 ℃,比測量值的最大值低3.31 ℃;其最小值為1 590.70 ℃,比測量值的最小值高8.7 ℃,極差僅為13 ℃.經(jīng)超參數(shù)優(yōu)化后,XGBoost 模型鋼水溫度最大值為1 607.29 ℃,比測量值的最大值高 0.29 ℃; 其最小值為1 591.31 ℃,比測量值的最小值高9.31 ℃,極差為16 ℃.

表4 測量溫度及模型預(yù)測溫度的特征值Table 4 Eigenvalues of measured temperature and model predicted temperature ℃

圖2 給出了RH 精煉終點鋼水溫度的預(yù)測值與測量值的誤差.可以看出,在超參數(shù)優(yōu)化前,GBDT,LightGBM 和XGBoost 這3 種模型的溫度誤差主體(25%~75%數(shù)位分布)分別為-3.43 ~2.45 ℃,-3.22~2.34 ℃和-2.61 ~3.31 ℃.其中,XGBoost 模型中的RH 精煉終點鋼水溫度誤差的主體 較 寬, 為5.92 ℃; GBDT 模 型 次 之, 為5.88 ℃;LightGBM 模型中鋼水溫度誤差的主體最窄,為5.56 ℃.這3 種模型經(jīng)過超參數(shù)優(yōu)化后,相應(yīng)的鋼水溫度誤差主體分別為-2.92 ~2.31 ℃,-2.49~3.03 ℃和-3.52 ~1.81 ℃.LightGBM 模型的箱體較寬,為5.52 ℃;XGBoost 模型次之,為5.33 ℃;GBDT 模型的箱體最窄,為5.23 ℃.經(jīng)超參數(shù)優(yōu)化后,GBDT,LightGBM 和XGBoost 這3 種模型的箱體寬度分別減小了0.65,0.04,0.59 ℃,這表明合理的超參數(shù)選擇能夠有效提升模型的準確度.

圖2 RH 精煉終點鋼水溫度預(yù)報誤差Fig.2 Error between the predicted value and the measured value of the temperature of molten steel at the end of RH vacuum refining

結(jié)合圖3 和表5 可知:優(yōu)化前的GBDT,LightGBM,XGBoost 這3 種模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率分別為81.25%,79.68%,84.37%,經(jīng)超參數(shù)優(yōu)化后它們的命中率分別為87.50%,84.37%和92.18%,分別提高了6.25%,4.69%和7.81%.

表5 在Optuna 框架下3 種溫度預(yù)測模型優(yōu)化前后結(jié)果的對比Table 5 Comparison of three temperature prediction models before and after optimization of Optuna

表6 不同XGBoost 超參數(shù)優(yōu)化方法預(yù)測結(jié)果的對比Table 6 Comparison of prediction results of different XGBoost hyperparameter optimization methods

圖3 RH 精煉終點鋼水溫度預(yù)測結(jié)果Fig.3 Predicted temperature of molten steel at the end of RH refining

由表5 還可知:在偏差為±5 ℃時優(yōu)化前的XGBoost 模型RH 精煉終點鋼水溫度的命中率比GBDT 模型的命中率高3.12%,比LightGBM 模型的命中率高4.69%;優(yōu)化后的XGBoost 模型在偏差為±5 ℃時精煉終點鋼水溫度命中率比優(yōu)化后的GBDT 模型命中率高4.68%,比優(yōu)化后的LightGBM 模型高7.81%.就均方根誤差而言,優(yōu)化后的GBDT 模型最小,為3.95;優(yōu)化后XGBoost模型次之,僅比優(yōu)化后的GBDT 模型高0.05.就平均絕對誤差而言,優(yōu)化后的XGBoost 模型最小,為3.06,優(yōu)化后的GBDT 模型次之,比優(yōu)化后的XGBoost 模型小0.01.綜上所述,XGBoost 模型命中率更高,具有更好的擬合效果.

此外,表5 還給出了采用Optuna 框架對超參數(shù)進行迭代尋優(yōu)所需的計算耗時.優(yōu)化后的GBDT,LightGBM 和XGBoost 模型的運行時間分別為1 180.21,448.83,790.02 s.LightGBM 模型運行時間最短,這是因為LightGBM 模型在GBDT 模型基礎(chǔ)上進行了GOSS,EFB 及帶深度限制的Leaf-wise葉子生長策略等改進;而XGBoost 模型運行時間稍慢,這是因為它采用了基于預(yù)排序方法的決策樹算法,該預(yù)排序算法的優(yōu)點是能精確地找到分割點,但是缺點也很明顯,即在空間和時間上的消耗大.

從表 6 中可看 出, 當采 用 隨機 搜 索(randomized search, RS)[19]、 網(wǎng) 格 搜 索(grid search,GS)[19]和Optuna 框架對XGBoost 模型進行超參數(shù)優(yōu)化后,在偏差為±5 ℃時鋼水終點溫度的命中率分別提高了3.13 %,6.1 %和7.81 %.此外,計算耗時最短的是Optuna 框架,其次是RS,計算耗時最長的是GS,且RS 和GS 的計算耗時分別是Optuna 框架的1.21 倍和4.83 倍.這是因為GS 屬于窮舉搜索算法,它會將各個參數(shù)的可能取值進行排列組合,嘗試每一種組合,最后選擇出表現(xiàn)最好的參數(shù)組合;而RS 則是利用隨機數(shù)去求函數(shù)近似最優(yōu)解.

5 結(jié) 論

(1)正確選擇XGBoost 模型的超參數(shù)對預(yù)測結(jié)果尤為重要.本文中選擇的超參數(shù)為樹的數(shù)量、樹的深度、學習率、L1 正則化、L2 正則化及葉子能夠含有的最少樣本數(shù).

(2)利用Optuna 框架優(yōu)化GBDT,LightGBM,XGBoost 3 種模型的超參數(shù),優(yōu)化后模型的命中率得到明顯提升,3 種模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率分別提高了6.25%,4.69%和7.81%.

(3)采用Optuna 框架、網(wǎng)格搜索和隨機搜索對XGBoost 模型進行超參數(shù)優(yōu)化,經(jīng)Optuna 框架優(yōu)化的XGBoost 模型在偏差為±5 ℃時RH 精煉終點鋼水溫度的命中率最高(92%),且計算耗時最短.

猜你喜歡
特征優(yōu)化模型
一半模型
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 97国产在线观看| 日韩精品亚洲一区中文字幕| 性色生活片在线观看| 免费一级毛片在线播放傲雪网| 香蕉99国内自产自拍视频| 99无码熟妇丰满人妻啪啪| 亚洲性影院| 免费一极毛片| 亚洲毛片一级带毛片基地 | 园内精品自拍视频在线播放| 欧美色视频在线| 热久久综合这里只有精品电影| 亚洲天堂久久新| 成人福利在线视频| 久久天天躁狠狠躁夜夜2020一| 国内精品一区二区在线观看| 露脸真实国语乱在线观看| 又爽又黄又无遮挡网站| 日本黄网在线观看| 成年免费在线观看| 少妇被粗大的猛烈进出免费视频| 制服丝袜一区| 天天干天天色综合网| 国产成人调教在线视频| 2022精品国偷自产免费观看| 色综合久久综合网| 久久青青草原亚洲av无码| 亚洲人成日本在线观看| 国产靠逼视频| 人妻出轨无码中文一区二区| 精品黑人一区二区三区| 亚洲欧美日韩中文字幕在线一区| 毛片免费视频| 国产91精品最新在线播放| 人妻21p大胆| 少妇高潮惨叫久久久久久| 久久一级电影| 亚洲成网站| 久久综合婷婷| 国产在线专区| 影音先锋亚洲无码| 欧美精品综合视频一区二区| 久久99久久无码毛片一区二区| 国产成人av大片在线播放| 国产精品久久久久久久久| 国产毛片片精品天天看视频| 久久久久青草大香线综合精品 | 成人欧美日韩| 日本人又色又爽的视频| 最新国产高清在线| 国产精品美乳| 亚洲男女天堂| 亚洲区欧美区| 91视频免费观看网站| 青青草原国产一区二区| 色婷婷在线播放| h网址在线观看| 亚洲av无码人妻| 欧美黄网在线| 九九热精品免费视频| 天天综合亚洲| 免费日韩在线视频| 国产欧美日韩综合在线第一| 幺女国产一级毛片| 专干老肥熟女视频网站| 免费不卡视频| 国产精品无码影视久久久久久久 | 成人在线观看不卡| 九九热在线视频| 国产一区二区三区日韩精品| 91丝袜美腿高跟国产极品老师| 日本欧美中文字幕精品亚洲| 亚洲天堂成人在线观看| 免费女人18毛片a级毛片视频| 国产理论精品| 亚洲天堂成人在线观看| 高清无码一本到东京热| 国产99视频精品免费视频7 | 午夜啪啪网| 久久人人97超碰人人澡爱香蕉| 亚洲国语自产一区第二页| 色哟哟精品无码网站在线播放视频|