999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林回歸的汽油研究法辛烷值預(yù)測

2020-12-02 07:17:08孫洪霞王維民
石油煉制與化工 2020年12期
關(guān)鍵詞:模型

鄭 斌,孫洪霞,王維民

(1.中國石化銷售股份有限公司,北京 100728;2.天睿信科技術(shù)(北京)有限公司)

辛烷值是表征汽油抗爆性能的重要指標,關(guān)系到汽車的油耗、低溫啟動、加速等性能[1]。對成品油銷售企業(yè)而言,汽油辛烷值是采購、儲運和銷售過程中重要的質(zhì)量控制指標。研究法辛烷值(RON)標準測試采用符合ASTM-CFR標準的辛烷值機進行,但其存在價格高、檢驗用量大、耗時長、操作復(fù)雜等缺點。除此之外,由于汽油辛烷值與其組分密切相關(guān),利用汽油組分信息進行辛烷值預(yù)測的方法得到重視和發(fā)展,如拉曼光譜法[2]、近紅外光譜法[3]、中紅外光譜法[4-5]和氣相色譜法[6-7]等。但此類方法多基于光譜、色譜等精密儀器的組分分析結(jié)果,對儀器的要求較高。成品油銷售企業(yè)覆蓋面廣,質(zhì)檢室數(shù)量眾多,但辛烷值機、光譜儀、色譜儀等精密儀器的配備尚不能實現(xiàn)質(zhì)檢室全覆蓋,汽油辛烷值檢測一直是質(zhì)量管理的難點。

汽油辛烷值與其化學(xué)組成密切相關(guān),而汽油的理化性質(zhì)與化學(xué)組成也密切相關(guān),因此可以由理化指標來計算汽油的辛烷值。戴詠川等[8]探索了汽油理化指標與辛烷值之間的聯(lián)系,建立了由理化指標計算汽油辛烷值的回歸方程式。計算結(jié)果顯示,70%的樣品RON計算誤差小于1.2個單位,計算精度略顯不足。近年來,隨著中國石化銷售企業(yè)實驗室信息管理系統(tǒng)(LIMS)的建立,實現(xiàn)了質(zhì)量數(shù)據(jù)的積累和共享。因此,利用數(shù)據(jù)庫中海量汽油理化指標數(shù)據(jù),探索采用機器學(xué)習(xí)算法建立汽油辛烷值預(yù)測模型實現(xiàn)辛烷值預(yù)測成為可能。

利用機器學(xué)習(xí)算法預(yù)測辛烷值的模型大致分為兩類[9-10]:一種是線性模型預(yù)測辛烷值,如多元線性回歸分析法(MLR),偏最小二乘法(PLS);另一種是非線性模型預(yù)測辛烷值,如人工神經(jīng)網(wǎng)絡(luò)算法(ANN)、支持向量機回歸法(SVM)。隨機森林(Random Forest)是一種廣泛應(yīng)用的機器學(xué)習(xí)算法,具有抗過擬合和預(yù)測精度高的特點。隨機森林的運算速度快,在處理大數(shù)據(jù)時表現(xiàn)優(yōu)異,結(jié)果對缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健,是取代神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機器學(xué)習(xí)方法的新的模型[11]。應(yīng)用隨機森林算法進行預(yù)測在許多領(lǐng)域已得到應(yīng)用[12-15],但應(yīng)用隨機森林算法預(yù)測汽油辛烷值的研究較為少見。基于這一思路,本研究以汽油常規(guī)理化指標為自變量,RON為因變量,提出基于隨機森林回歸算法預(yù)測汽油RON的模型,并對所用模型進行驗證。

1 隨機森林回歸算法

隨機森林是由Breiman和Cutler在2001年提出的一種基于決策樹的機器學(xué)習(xí)算法[11]。隨機森林可以用于分類和回歸。當因變量是分類變量時,是分類,決策樹使用分類樹(一般使用C4.5);當因變量是連續(xù)變量時,是回歸,決策樹使用回歸樹(一般使用CART,見圖1)。隨機森林回歸模型,是通過將若干個建立好的決策樹模型所得到的結(jié)果進行綜合得到一個模型,最后的預(yù)測結(jié)果由所有決策樹模型的預(yù)測結(jié)果平均而得[12]。對應(yīng)的算法基本步驟如下:

(1)抽樣:從訓(xùn)練數(shù)據(jù)集S中,通過有放回的Boostrasp抽樣,生成K組數(shù)據(jù)集,每組數(shù)據(jù)集分為被抽中數(shù)據(jù)與未被抽中數(shù)據(jù)(袋外數(shù)據(jù))2種,每組數(shù)據(jù)集會通過訓(xùn)練產(chǎn)生一個決策樹。

(2)生長:通過訓(xùn)練數(shù)據(jù)對每個決策樹進行訓(xùn)練。在每次分節(jié)點時,從M個屬性中隨機選取m個特征,依據(jù)Gini指標選取最優(yōu)特征進行分支充分生長,直到無法再生長為止,不進行剪枝。

(3)利用袋外數(shù)據(jù)檢驗?zāi)P偷木龋捎诖鈹?shù)據(jù)未參與建模,其能在一定程度上檢驗?zāi)P托Чc泛化能力。通過袋外數(shù)據(jù)的預(yù)測誤差,確定算法中最佳決策樹數(shù)目并重新進行建模。

(4)利用確定的模型對新數(shù)據(jù)集進行預(yù)測,所有決策樹預(yù)測結(jié)果的平均值即為最終的輸出結(jié)果。

隨機森林的每顆決策樹都是對原始記錄進行有放回的重抽樣后生成的。每次重抽樣大約13的記錄沒有被抽取,沒有被抽取的自然形成一個對照數(shù)據(jù)集。所以隨機森林不需要另外預(yù)留部分數(shù)據(jù)做交叉驗證,其本身的算法類似交叉驗證,而且袋外誤差是對預(yù)測誤差的無偏估計[11]。

圖1 隨機森林算法訓(xùn)練流程

2 基于隨機森林回歸的RON預(yù)測模型

2.1 數(shù)據(jù)來源

本研究用于建模和驗證的數(shù)據(jù)來源于中國石化銷售企業(yè)LIMS的成品油質(zhì)量數(shù)據(jù)庫。數(shù)據(jù)庫中的樣本來自于30多個省級銷售公司入庫的成品油檢驗樣品,樣品來源廣泛,基本涵蓋了國內(nèi)所有調(diào)合工藝的油品。

2.2 變量參數(shù)選擇

選取與汽油辛烷值具有相關(guān)性的烯烴含量、芳烴含量、氧含量、餾程(10%,50%,90%餾出溫度及終餾點)和密度共8個指標為自變量,RON作為因變量。

2.3 預(yù)測模型構(gòu)建

(1)數(shù)據(jù)集及預(yù)處理。以建模時間(2018年6月)為節(jié)點,抽取數(shù)據(jù)庫中入庫檢測的92號車用汽油和95號車用汽油歷史樣本,選擇所有建模指標(8個自變量和1個因變量)不為空的樣本,利用箱線圖對樣本中的異常數(shù)據(jù)(超出上下四分位1.5倍四分位差)進行清洗,篩選出17 013個符合要求的樣本作為建模數(shù)據(jù)集。其中,隨機選取16 641個樣本作為訓(xùn)練集用于建模,選取372個樣本作為測試集用于評價模型性能。建模數(shù)據(jù)集中,國Ⅴ汽油樣本和國Ⅵ汽油樣本的比例約為76%∶24%,所有樣本的RON結(jié)果均為采用標準試驗方法使用辛烷值機檢測所得。數(shù)據(jù)集中樣本分布如表1所示。

表1 建模數(shù)據(jù)集樣本分布

圖2 模型MSE與mtry的關(guān)系

圖3 模型預(yù)測誤差隨ntree的變化關(guān)系

(2)預(yù)測模型構(gòu)建。用基于R語言的隨機森林函數(shù)來構(gòu)建RON預(yù)測模型。選取訓(xùn)練集中的92號車用汽油樣本、95號車用汽油樣本和全部樣本,分別構(gòu)建92號預(yù)測模型、95號預(yù)測模型和(92號+95號)一體預(yù)測模型。在隨機森林回歸模型中,隨機特征數(shù)(mtry)和決策樹的棵數(shù)(ntree)是決定模型預(yù)測能力的兩個關(guān)鍵參數(shù)。在大多數(shù)情況下,隨機森林模型參數(shù)的缺省設(shè)置可以給出最優(yōu)或接近最優(yōu)的結(jié)果[11]。對于分類問題,mtry的缺省值是自變量總數(shù)的平方根;對于回歸問題,mtry的缺省值是自變量總數(shù)的13。ntree為重抽樣次數(shù),一般當ntree大于500時整體誤差率趨于穩(wěn)定[16]。以92號模型為例,在ntree默認為500的情況下,采用模型的均方誤差(MSE)作為衡量指標,觀察mtry參數(shù)設(shè)置對MSE的影響,結(jié)果見圖2。由圖2可以看出:在訓(xùn)練集上,隨著mtry的增加,模型MSE逐漸變小;而在測試集上,隨著mtry的增加,模型MSE先逐漸變大后減小。總體而言,mtry的變化對于模型精度的影響并不十分顯著,考慮在測試集上的預(yù)測精度最優(yōu),故將mtry設(shè)置為2。在訓(xùn)練集上,92號模型的預(yù)測誤差與ntree的關(guān)系如圖3所示。由圖3可以看出,模型誤差隨著ntree增加而降低,當ntree達到500時,模型預(yù)測誤差已趨于平穩(wěn)。故最終選擇mtry為2、ntree為500建立3個預(yù)測模型。

2.4 模型檢驗與評價

在本研究中,主要采用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)對模型進行評價和檢驗。計算式如下:

(1)

(2)

(3)

R2用于檢驗回歸模型對實測值的擬合程度,取值在 0~1 之間,R2越接近1,表明擬合效果越好、各自變量對因變量的解釋能力越強。MAE和 RMSE 可以衡量預(yù)測值與實測值的差異,MAE 和RMSE 越接近0,模型的模擬能力越好。用R2和RMSE評價模型對訓(xùn)練數(shù)據(jù)集的擬合效果,用RMSE和MAE檢驗?zāi)P偷念A(yù)測能力。

3 結(jié)果與討論

3.1 模型預(yù)測精度評價

運用得到的3個預(yù)測模型對訓(xùn)練集和測試集進行預(yù)測,計算預(yù)測精度,結(jié)果見表2。從表2可以看出:在訓(xùn)練集上,單獨建模的92號預(yù)測模型和95號預(yù)測模型表現(xiàn)良好,其中,92號預(yù)測模型的RMSE達到0.23,95號預(yù)測模型的RMSE達到0.20,兩個模型的R2均達到了0.95,具有較高的精度;而訓(xùn)練集上一體預(yù)測模型的表現(xiàn)較差,MAE和RMSE均較大,R2也相對較低。在測試集上,92號預(yù)測模型的最大絕對誤差為1.53,MAE為0.44;95號預(yù)測模型的最大絕對誤差為1.33,MAE為0.33,均在可接受范圍之內(nèi);而一體預(yù)測模型的MAE和RMSE均更高,預(yù)測效果較差。因此,針對92號和95號汽油,單獨建立預(yù)測模型更為合適。3個預(yù)測模型在訓(xùn)練集和測試集上的預(yù)測結(jié)果分別如圖4和圖5所示。

表2 模型的預(yù)測精度統(tǒng)計

圖4 RON預(yù)測模型在訓(xùn)練集上的預(yù)測結(jié)果

圖5 RON預(yù)測模型在測試集上的預(yù)測結(jié)果

3.2 特征變量重要性評價

隨機森林回歸模型可用方差增量(increase in mean squared error,IncMSE)以及節(jié)點純度增量(increase in node purity,IncNodePurity)兩個指標來定性衡量特征變量對目標變量的重要性。IncMSE為采用隨機變量替換某一變量對模型預(yù)測結(jié)果的影響,若該隨機變量使方差顯著改變,則表示原變量相當重要;IncNodePurity則利用同質(zhì)性增加原理來衡量變量的重要性[13]。IncMSE 和 IncNodePurity 的值越大,表明該特征變量的重要性越強。表3為模型變量重要性評價結(jié)果。由表3可以看出:對于92號預(yù)測模型,烯烴含量和氧含量對RON預(yù)測的貢獻更大;對于95號預(yù)測模型,芳烴含量和10%餾出溫度對RON預(yù)測的貢獻更大。

表3 模型變量重要性評價結(jié)果

3.3 模型實際應(yīng)用情況

將建立的92號預(yù)測模型和95號預(yù)測模型部署在Aster平臺上,對于新進入的汽油樣品,根據(jù)牌號選用相應(yīng)的模型進行RON預(yù)測。2019年1月1日起,全國車用汽油標準升級為國Ⅵ標準。為了檢驗?zāi)P偷倪m應(yīng)性,選取了2019年6月和2020年1月檢測的國Ⅵ標準92號和95號車用汽油樣本,對模型預(yù)測結(jié)果進行分析,見圖6和表4。由圖6和表4可見,隨著油品質(zhì)量升級汽油調(diào)合工藝的變化,92號和95號模型的預(yù)測精度較建模初期略有下降,但下降幅度不大,平均絕對誤差(|E|)依然在0.5左右,低于標準試驗方法再現(xiàn)性0.7的要求,仍保持較高的精度。2019年6月和2020年1月的檢測數(shù)據(jù)中,個別92號車用汽油樣本的預(yù)測結(jié)果與實測結(jié)果誤差超過2.0個單位,最大絕對誤差達到3.5個單位。研究發(fā)現(xiàn),這是由于個別批次92號汽油的實測RON結(jié)果超過95,在92號建模數(shù)據(jù)集中超出92號汽油RON范圍的樣本很少,當超出92號汽油RON要求的樣本進入92號模型時,預(yù)測結(jié)果與實測結(jié)果偏差較大。從圖5和圖6還可以看出,92號模型的RON預(yù)測結(jié)果大部分落在92.6~93.6范圍內(nèi),95號模型的RON預(yù)測結(jié)果大部分落在95.6~96.6范圍內(nèi),該問題發(fā)生的原因需要進一步分析。

圖6 國Ⅵ汽油的預(yù)測結(jié)果

表4 國Ⅵ汽油的預(yù)測精度

4 模型預(yù)測RON與中紅外光譜檢測RON結(jié)果對比

數(shù)據(jù)庫中有很多汽油樣品在入庫檢驗時采用標準試驗方法和中紅外光譜分析儀兩種方法檢測了RON。因此,在數(shù)據(jù)庫中抽取了自變量和因變量均不為空且含有中紅外光譜檢測RON結(jié)果的92號車用汽油和95號車用汽油樣本500個,隨機森林回歸模型預(yù)測的RON結(jié)果與中紅外光譜檢測的RON結(jié)果如圖7所示。

圖7 模型預(yù)測RON與中紅外光譜檢測RON結(jié)果對比●—模型預(yù)測RON; ■—中紅外光譜檢測RON

表5 不同誤差范圍內(nèi)的樣品分布

|E|不大于0.7的要求。而中紅外光譜分析儀檢測結(jié)果中只有39.4%的樣品|E|在0.7個單位以內(nèi)。隨機森林回歸模型預(yù)測的精度較高,顯著優(yōu)于目前企業(yè)采用的中紅外光譜分析檢測方法。

5 結(jié) 論

(1)基于中國石化銷售企業(yè)入庫汽油質(zhì)量數(shù)據(jù),應(yīng)用隨機森林回歸算法,構(gòu)建92號汽油、95號汽油和一體化的RON預(yù)測模型。結(jié)果表明,單獨建模的模型預(yù)測精度更高。應(yīng)用92號和95號預(yù)測模型對入庫汽油進行RON預(yù)測,隨著油品質(zhì)量升級,模型預(yù)測精度略有下降,但總體保持較高精度,可靠性和適應(yīng)性較好。

(2)對比隨機森林回歸預(yù)測模型和中紅外光譜檢測方法,隨機森林預(yù)測模型預(yù)測RON時84.4%的樣本|E|不大于0.7,預(yù)測精度顯著優(yōu)于中紅外光譜分析儀檢測方法(39.4%的樣本檢測RON的|E|不大于0.7)。

(3)建模數(shù)據(jù)庫的質(zhì)量和代表性對于模型準確性至關(guān)重要。銷售企業(yè)油品來源廣泛、調(diào)合工藝復(fù)雜,隨機森林回歸預(yù)測模型基于銷售企業(yè)的成品油質(zhì)量數(shù)據(jù)庫,可用于建模的樣本量大、油品來源廣泛、具有較好的代表性,模型具有較優(yōu)的預(yù)測能力。隨著油品生產(chǎn)工藝發(fā)生變化,對建模數(shù)據(jù)庫及時進行更新和維護,更有利于保持高的預(yù)測精度。由于常規(guī)理化指標較易獲取,隨機森林預(yù)測模型為銷售企業(yè)汽油辛烷值的質(zhì)量監(jiān)測提供了有益的工具。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲精品无码AⅤ片青青在线观看| 19国产精品麻豆免费观看| 精品欧美视频| 日韩精品无码不卡无码| 国产精品jizz在线观看软件| 无码专区国产精品一区| 精品国产亚洲人成在线| 亚洲男人的天堂网| 99视频精品在线观看| 国产99视频免费精品是看6| www.亚洲一区| 欧洲熟妇精品视频| 国产偷国产偷在线高清| 色成人亚洲| 亚洲二区视频| 亚洲系列无码专区偷窥无码| 亚洲熟妇AV日韩熟妇在线| 亚洲第一香蕉视频| 欧美性久久久久| 国产又粗又猛又爽视频| 亚洲国产欧美国产综合久久 | 免费又爽又刺激高潮网址 | 九九九国产| 亚洲第一成年免费网站| 谁有在线观看日韩亚洲最新视频| 免费高清a毛片| 丝袜国产一区| 欧美高清三区| 天天摸天天操免费播放小视频| 久久青草免费91观看| 波多野结衣无码视频在线观看| 国产精品原创不卡在线| 毛片基地美国正在播放亚洲 | 国产成人综合久久精品尤物| 婷婷综合色| 亚洲欧美不卡中文字幕| 欧美在线网| 欧美性久久久久| 国产成人综合在线观看| 手机在线国产精品| 亚洲乱亚洲乱妇24p| 又黄又湿又爽的视频| 午夜福利在线观看入口| 久久国产精品电影| 精品视频一区二区三区在线播| 国产精品黑色丝袜的老师| 国产99精品视频| 久久国产精品嫖妓| 美女国产在线| 欧美三级视频在线播放| 国产成人一区| 久久久久久久蜜桃| 色妺妺在线视频喷水| 伊人久久久大香线蕉综合直播| 国产人碰人摸人爱免费视频 | 亚洲一区二区无码视频| 国产一二三区在线| 国产精品一区二区不卡的视频| 国产一区二区三区免费| 亚洲日韩AV无码精品| 最近最新中文字幕免费的一页| 久久国产热| 精品人妻AV区| 亚洲欧洲日本在线| 国产人人射| 伊人成人在线视频| 97se亚洲综合在线| 国产丝袜91| 中文字幕调教一区二区视频| 亚洲男人天堂久久| 久久精品国产亚洲AV忘忧草18| 国产特级毛片aaaaaa| a级毛片在线免费| www.狠狠| 国产在线观看91精品亚瑟| 99视频精品全国免费品| 国产精品妖精视频| 成年看免费观看视频拍拍| 成人午夜视频免费看欧美| 毛片在线播放网址| 不卡无码网| 色135综合网|