999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的汽油精制過程辛烷值損失預測模型

2021-07-27 06:44:57李東超
科技創新導報 2021年5期

李東超

摘? 要:汽油精制過程中造成的辛烷值損失會降低汽油的燃燒效率,如何降低汽油精制過程中辛烷值的損失量是目前相關企業面臨的一個重要課題。本文利用我國某石化企業在催化裂化汽油精制過程中積累的數據,建立基于神經網絡、測量誤差模型以及DC-SIS數據降維方法的兩階段特征篩選模型,選擇出對辛烷值影響比較大的因素。設計了一種基于XGBoost和神經網絡的辛烷值預測模型,可以實現對不同原材料和不同操作下精制后辛烷值的預測,經驗證,模型的均方誤差為0.06876,所設計模型在處理辛烷值預測問題時可以達到比較好的預測效果。

關鍵詞:辛烷值? 高維降維? 測量誤差模型? 神經網絡? XGBoost

中圖分類號:TP274? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)02(b)-0092-05

Prediction Model of Octane Number Loss in Gasoline Refining Process Based on Data Mining

LI Dongchao

(School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)

Abstract: The loss of octane number in the process of gasoline refining will reduce the combustion efficiency of gasoline. How to reduce the loss of octane number in the process of gasoline refining is an important issue facing related enterprises. This paper uses the data accumulated by a petrochemical enterprise during the refining process of catalytic cracking gasoline to establish a two-stage feature screening model based on neural network, measurement error model and DC-SIS data dimensionality reduction method, and select the one that has a greater impact on the octane number factor. An octane number prediction model based on XGBoost and neural network is designed, which can predict the octane number after refining under different raw materials and different operations. After verification, the mean square error of the model is 0.06876. A better prediction effect can be achieved in the alkane number prediction problem.

Key Words: Octane number; High dimensionality reduction; Neural networks; XGBoost

汽油是小型車輛的主要燃料,汽油燃燒產生的尾氣排放對大氣環境有重要影響。降低汽油中的硫、烯烴含量,同時盡量保持其辛烷值是汽油清潔化重點。我國原油對外依存度超過70%,且大部分是中東地區的含硫和高硫原油。原油中的重油通常占比40%~60%,這部分重油(以硫為代表的雜質含量也高)難以直接利用。為了有效利用重油資源,我國大力發展了以催化裂化為核心的重油輕質化工藝技術,將重油轉化為汽油、柴油和低碳烯烴,超過70% 的汽油是由催化裂化生產得到,因此成品汽油中95% 以上的硫和烯烴來自催化裂化汽油。故必須對催化裂化汽油進行精制處理,以滿足對汽油質量要求。辛烷值(以RON 表示)是反映汽油燃燒性能的最重要指標。在進行精制處理時,應該盡可能減小辛烷值的損失,以保證汽油的燃燒性能[1-2]。

本文嘗試從數據挖掘的角度出發,基于我國某石化企業在催化裂化汽油精制過程中積累的數據,對應影響辛烷值的因素進行了探索,并利用XGBoost模型建立了辛烷值的預測模型。

1? 數據來源以及數據預處理

本文分析所用的數據來自于我國某石化企業催化裂化汽油精制脫硫裝置在多年運行中積累的操作數據。獲取的數據中包含325個樣本,每個樣本包括7個原料性質、2個待生吸附劑性質、2個再生吸附劑性質、2個產品性質等13個屬性變量以及另外354個操作變量,共計367個變量。而響應變量則為精制過程中辛烷值的損失量。

原始數據中,大部分變量數據正常,但每套裝置的數據均有部分變量存在問題:部分變量只含有部分時間段的數據,部分變量的數據全部為空值或部分數據為空值。這些數據缺失、不合理/異常的情況需要進行包括數據填補、刪除變量、異常值提出等數據預處理。具體的處理方式如下:

(1)對于只含有部分時間點的變量,部分缺失,則填補缺失值,如果缺失較多可將此類變量刪除;

(2)對于樣本中數據全部為空值的變量,將此類變量刪除;

(3)對于部分數據為空值的變量,空值處用其前后兩個小時數據的平均值代替;

(4)對于部分不在范圍內的樣本,可根據操作要求及經驗總結出原始數據變量的操作范圍,采用最大最小的限幅方法將其剔除;

(5)對于異常值的處理,可根據拉依達準則(3準則)去除異常值。

2? 變量篩選

由于煉油工藝過程的復雜性以及設備的多樣性,需要操作的變量較多且各個變量之間具有高度非線性和相互強耦聯的關系[3]。這就導致這些變量之間是存在冗余信息的,在進行預測時引入這些存在冗余的變量,不僅會增大訓練的成本,也有可能導致模型過擬合,甚至導致一些模型無法正常構建(如多重共線性問題)。因此為了減少過擬合、減少特征數量(降維)、提高模型泛化能力,也為了使模型獲得更好的解釋性,在建模之前需要首先進行特征篩選處理。

在進行特征篩選時,一個必須堅持的原則就是盡可能充分的挖掘出特征之間的相互關系,這種相互關系可能是線性關系,也可能是非線性的關系。一般的,線性關系是比較容易識別出來的,而非線性關系則相對比較難以識別。因此本文將神經網絡模型和測量誤差模型結合起來,并采用兩階段處理的思路,創建了一種新的特征篩選的方法。該算法的基本流程如圖1所示。下面對該算法的細節進行介紹。

一般情況下,在進行工業操作時,比較接近的工業操作往往是存在一定的非線性和相互強耦聯的關系的,因此本文在篩選變量的第一階段先對相鄰變量間的相互關系進行探索。具體地,首先對數據中的所有變量按照工業操作順序進行排序處理,得到排序后的變量數據集為,其中P為數據集中變量的總個數。然后,再采用滑動分箱的手段將這P個變量分為 個“箱子”。滑動分箱的細節為:

對于第i個變量X1,我們選中其前后各K個變量作為第i個箱體bini中的變量。對每個變量執行上面的操作,可以得到分箱后的箱體集合為,其中值得注意的是,對于靠近邊界處的變量,其某一側變量的個數可能不足K個,則按不足 K個變量選擇。

完成對變量的分箱之后,下面對每個箱體內部變量之間的相關性進行探索。考慮變量之間的關系可能不是簡單的線性關系,本文利用神經網絡模型在擬合非線性關系上的優異表現,設計了一種基于神經網絡的測量誤差變量篩選模型[4-5],模型的基本思路見圖2。

對于第i個箱體bini,我們選擇變量k作為中心變量,為協變量,擬合變量與xi之間的神經網絡模型NNi,得到預測結果 。

接下來,根據測量誤差模型的思路,如果協變量結合中的變量Xj與Xi之間存在強耦合關系,那么當我們給Xj加上一個比較小的誤差時,在利用神經網絡模型NMi對預測時,預測的結果應該會發生比較大的變化,相反的,如果兩者的相互關系比較弱時,那么預測的結果應該不會發生比較大的變化。我們分別逐次給協變量集合中的每個變量加上一個比較小的誤差,然后將加上誤差的協變量集合帶到模型NMi中,得到對Xi結果預測結果。得到預測結果后,為了衡量加上誤差后預測結果的變動程度,我們設計了一個靈敏度指標這個指標的取值越大說明對應變量對中心變量 的影響程度越大,即可以認為兩個變量的耦合關系越強。我們給定閾值Wesholol,選擇靈敏度小于閾值對應的變量,便可以對箱體Bini內的變量進行降維處理。

對每個箱體進行相同的處理,然后將得到的所有變量合并去重組合在一起,便可以完成第一階段的降維處理。

第二階段的特征降維主要是利用DC-SIS算法[6-7]對第一階段的結果再次進行降維處理。DC-SIS即基于距離系數的特征篩選方法,該方法通過定義特征與響應變量之間的距離相關系數來衡量變量的重要程度,具體地,對于隨機變量u和v,他們之間的距離相關系數定義為

其中,和表示隨機變量u和v的特征向量,表示它們的聯合特征函數,du和dv表示隨機向量u和v的維數,而,該式中,則表示的歐式范數。

按照上述方式定義距離相關系數的優勢在于,兩個隨機向量的距離相關系數為0當且僅當它們相互獨立.此外,兩個一元正態隨機變量的距離相關系數則隨著它們之間的皮爾遜相關系數的絕對值嚴格遞增。同時,該特征篩選方法能夠直接用來處理分組變量以及多維因變量的篩選過程,也不需要預先假定變量與因變量之間的模型框架,所以可以稱得上是完全無模型方法,適合用于處理本問題中非線性特征重要性的分析。

根據上面的定義,只需要通過對距離相關系數進行估計與排序,便可以計算出各個變量的重要性了。

對汽油精制過程按照前述三步兩階段的方法進行處理,可以得到汽油精制過程中重要的特征有19個,如表1所示。

根據表1可以發現,對辛烷值損失量影響比較大的特征中除了一些操作變量之外,還有一些原材料屬性變量,如辛烷值、硫含量、飽和烴、烯烴。這與一般的認知是相符的,在進行精制時,辛烷值的損失量不僅取決于操作技術的水平,還取決于原材料的原始屬性。

3? 基于XGBoost和神經網絡的辛烷值損失預測

XGBoost模型是Boosting 算法的一種。該算法思想就是不斷地添加樹,并通過特征分裂來生長一棵樹,每添加一棵樹就是學習一個新函數,去擬合上一步預測的殘差。通過不斷的迭代學習,最終實現對目標變量的預測。

盡管XGBoost模型作為一個機器學習模型有很好的表現,但是考慮到樹模型在處理回歸問題時仍存在一定的局限性,因此本文將XGBoost模型與神經網絡模型進行了融合,首先利用XGBoost模型進行訓練并計算殘差,然后再利用神經網絡模型對XGBoost模型的預測殘差進行擬合,以便達到一個比較好的預測效果,即辛烷值損失量的預測值為,其中表示XGBoost模型的預測結果,表示神經網絡對參加的進一步擬合結果。接下來將對具體解決問題的過程進行說明。

在本文要解決的問題中,由于煉油工藝過程的復雜性以及設備的多樣性,操作變量眾多,且變量間具有高度非線性和相互強耦聯的關系,不利于分析并發現模型的主要變量和因素。這里選擇經過數據預處理和建模變量篩選后的19個具有代表性的主要變量來作為訓練辛烷值損失預測模型的解釋變量,經過前面的特征選擇方法,認為這19個變量可以比較充分的反應原始變量中的信息。而響應變量則為辛烷值的損失量。

在訓練模型時,本文首先在原始的325個樣本中隨機選擇70%的樣本數據作為訓練集,用以訓練模型,確定XGBoost模型和BP神經網絡模型的參數。而另外30%的樣本數據則作為測試集,用來測試模型的預測效果如何。

經過測試,該模型對汽油精制過程中辛烷值損失量的預測效果是比較好的,模型的MSE(均方誤差)為0.06876。具體的預測效果如下圖所示:

由圖3-1可以看出,經過精制處理后真實的辛烷值與預測的辛烷值是比較吻合的,這證明基于XGBoost和神經網絡的辛烷值損失預測算法在預測辛烷值的損失情況時是有一定的可參考性,我們可以利用該模型來對不同的原材料和處理工藝進行分析,以便針對不同質量水平的原材料設計不同的精制工藝。

4? 總結

本文為了預測汽油精制過程的辛烷損失情況,利用我國某石化企業在催化裂化汽油精制過程中積累的數據,對精制過程中影響辛烷值損失量的因素進行了探索,設計了一種基于神經網絡、測量誤差模型以及的DC-SIS數據降維方法的兩階段特征篩選模型,可以在較多的操作變量中選擇出對辛烷值影響比較大的因素,進一步地,本文設計了一種基于XGBoost和神經網絡的辛烷值預測模型,可以實現對不同原材料和不同操作下精制后辛烷值的預測,這有利于相關工作人員根據不同的原料選擇不同的操作方法來減少辛烷值的損失量,經過驗證,模型的均方誤差為0.06876,相對較小,說明該模型是有一定的實用價值的。

參考文獻

[1] 鮑樹海.煉油化工企業催化汽油加氫工藝技術[J].化學工程與裝備,2020(10):25-26.

[2] 趙鵬,焦峰,郭良,趙娟.降低催化裂化汽油烯烴含量的操作手段及優化方向[J].中外能源,2019,24(07):74-78.

[3] 張大齊.催化裂化汽油中輕汽油脫硫的研究[D].武漢工程大學,2016.

[4] Jae Kwon Kim, Sanggil Kang. Neural Network-Based Coronary Heart Disease Risk Prediction Using Feature Correlation Analysis[J]. Journal of Healthcare Engineering, 2017, Article ID 2780501, 13 pages.

[5] White, K. R., Stefanski, L. A., and Wu, Y. Variable Selection in Kernel Regression Using Measurement Error Selection Likelihoods[J]. Journal of the American Statistical Association, 2017, 112, 1587–1597.

[6] Li, R., Zhong, W. and Zhu, L.Feature Screening via Distance Correlation Learning. Journal of American Statistical Association,2012,107, 1129-1139.

[7] 連亦旻.超高維特征篩選方法SEVIS及其應用[D]. 中國科學技術大學, 2017.

主站蜘蛛池模板: 国产男人的天堂| 亚洲精品自拍区在线观看| 99一级毛片| 青青久在线视频免费观看| 国产精品第一区在线观看| 免费毛片a| 好久久免费视频高清| 丰满人妻久久中文字幕| 亚洲毛片一级带毛片基地| 99性视频| 色偷偷综合网| 亚洲精品爱草草视频在线| 香蕉在线视频网站| 美女无遮挡拍拍拍免费视频| 最新国产高清在线| 亚洲国产理论片在线播放| 国产亚洲视频在线观看| 久久天天躁狠狠躁夜夜躁| 亚洲欧美激情小说另类| 欧美日韩精品在线播放| 99re在线免费视频| 一本大道视频精品人妻 | 国产精品任我爽爆在线播放6080| 超碰91免费人妻| 免费无码一区二区| 国产一区二区三区在线观看免费| 久草视频中文| AV在线麻免费观看网站| 亚洲AⅤ波多系列中文字幕 | 国内精品久久九九国产精品| 亚洲成人网在线观看| 色噜噜综合网| 露脸国产精品自产在线播| 18禁高潮出水呻吟娇喘蜜芽| 国产91丝袜| 亚洲最新网址| 夜夜操国产| 四虎永久在线| 午夜福利免费视频| 久久综合九九亚洲一区 | 久久国产精品国产自线拍| 精品国产欧美精品v| 久草视频精品| 免费av一区二区三区在线| 午夜福利无码一区二区| 992tv国产人成在线观看| 思思热精品在线8| 日韩一区精品视频一区二区| 国产91丝袜在线播放动漫| 亚洲一级毛片在线播放| 精品无码日韩国产不卡av| 亚洲制服丝袜第一页| 欧洲亚洲欧美国产日本高清| 黄色网页在线播放| 亚洲天堂久久| 无码AV日韩一二三区| 亚洲日韩每日更新| 欧美国产日韩在线播放| 露脸一二三区国语对白| 精品成人一区二区三区电影| 亚洲色图另类| 伊人精品成人久久综合| 啦啦啦网站在线观看a毛片| 国产乱论视频| 青青草国产免费国产| 毛片在线区| 国产午夜精品鲁丝片| 婷婷色婷婷| 国产欧美另类| 波多野结衣一区二区三区AV| 亚卅精品无码久久毛片乌克兰 | 免费精品一区二区h| 婷婷伊人五月| 国产一区二区精品高清在线观看| 精品国产毛片| 中文字幕第1页在线播| 午夜精品福利影院| 亚洲欧美综合另类图片小说区| 四虎在线高清无码| 亚洲国产综合自在线另类| 污视频日本| 97国产精品视频人人做人人爱|