999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林算法預測減壓餾分油中噻吩硫化物的組成分布

2021-01-04 08:43:00任小甜褚小立田松柏
石油學報(石油加工) 2020年5期
關鍵詞:特征質量模型

任小甜, 褚小立, 田松柏

(中國石化 石油化工科學研究院,北京 100083)

減壓餾分油(VGO)是目前重油加工最主要的原料之一。一般而言,VGO中含有各種類型的硫化物,其中噻吩類硫化物主要有苯并噻吩、二苯并噻吩、萘苯并噻吩等。目前,VGO中硫化物的組成分布主要采用GC-MS方法分析,操作復雜、時間長,造成生產工藝參數調整的延遲。實現VGO中不同類型噻吩硫化物組成分布的及時預測分析,有助于VGO加工工藝中各項參數的實時優化和調整。相對而言,VGO的基本物性數據易于進行實時分析,且在生產過程中也積累了大量的物性分析數據,因此,構建通過VGO基本物性數據預測其噻吩類硫化物組成的模型,從而實現VGO中噻吩硫化物的組成分布的實時預測具有重要的意義。

近年來,已有一些基于石油餾分基本物性數據計算和預測其烴類組成的方法,基本思路是由餾分油基本物性數據計算和轉換得到可以區分不同烴族的特征參數,然后以特征參數構建線性回歸模型并進行預測。Riazi等[1-3]利用石油餾分的相對分子質量、折光指數、黏度以及密度等物性構建了不同的烴特征參數,并用其平均值代表對應的烴族,建立各物性的線性方程組,通過求解方程組來計算其中烷烴、環烷烴、芳烴以及硫化物的含量。邢波等[4]根據VGO的常規物性構建了5個新的特征參數,并選取80組VGO樣本進行關聯計算,通過求解帶約束的最小二乘規劃問題獲得各項特征參數的系數,確定了VGO中鏈烷烴,單環和多環環烷烴,單環、雙環和多環芳香烴含量的計算關聯式。

以上方法需要先確定能區分不同烴族的特征參數,其本質是消除原始物性變量間的多元共線性,因此只能用于族組成種類較少的情況,對于詳細的烴組成則找不到相應的特征參數。因此,除構造有物理意義的特征參數以外,還可將基本物性兩兩組合來構造新的特征參數。劉四斌等[5]收集了27個VGO樣品的基本物性和族組成數據,并由其中5個基本物性(密度、折光率、相對分子質量、硫含量和氮含量)兩兩組合構建了15個回歸因子,通過逐步回歸法從中選擇顯著變量,分別建立預測13種烴類化合物組成的線性回歸模型,其中總噻吩模型的預測精度最高,其顯著變量為硫含量和折光率的乘積,表明VGO的總噻吩含量與其硫含量和折光率有較強的相關性。

除了線性回歸模型外,利用非線性回歸模型也可以直接擬合VGO族組成與其基本物性之間的關系。孫仁金等[6]利用動量-自適應學習率的BP人工神經網絡(ANN)構建了由VGO的平均沸點、密度、相對分子質量和折光率預測其飽和烴含量的非線性預測模型;并進行了深入研究,添加VGO的運動黏度作為輸入特征,建立了預測其飽和烴含量的GA-ANN模型;此外,利用遺傳算法(GA)確定隱含層神經元數量和學習率,可以提高模型預測的準確度[7-8]。Stratiev等[9-10]則建立了由VGO的平均沸點、密度和結構特征參數(由經驗公式計算得到)分別預測其飽和烴加單環芳烴的總含量、多環芳烴含量、總芳烴含量的多項式回歸模型。非線性回歸模型不需要構造新的物性特征參數,適用范圍更廣,預測準確度更高。

目前,研究主要集中在VGO烴族組成的預測,還未見預測VGO中不同類型噻吩類硫化物組成的報道。因此,筆者從VGO的基本物性出發,采用隨機森林回歸算法構建模型,分別預測其中苯并噻吩、二苯并噻吩、萘苯并噻吩以及總噻吩的質量分數。

1 模型的構建

1.1 算法原理

用RFR建立的模型訓練時間短,不需要進行特征數據的預處理,而且還可以計算出每個特征的重要程度用于特征選擇;同時,模型對離群的異常樣本不敏感,穩健性好,不易過擬合,有較強的泛化能力,能保證較高的準確度。

1.2 構建數據集

收集160個直餾VGO樣本,切割自不同基屬的國內外原油(包括塔河原油、勝利原油、科威特原油和俄羅斯原油等)。測定其各項基本物性數據,包括20 ℃密度(ρ20),碳、氫、硫元素的質量分數(w(C)、w(H)、w(S)),70 ℃折光率n70,平均相對分子質量M,體積平均沸點TV,40 ℃、80 ℃和100 ℃下的運動黏度(v40、v80、v100),黏度指數VI和相關指數BMCI。依照標準方法ASTM D3239測定VGO中不同類型噻吩類硫化物(包括苯并噻吩、二苯并噻吩和萘苯并噻吩硫物)的含量,并計算得到總噻吩的含量。匯總這160個樣本的基本物性和噻吩硫化物的組成數據,構造數據集。對數據集進行隨機劃分,其中75%的樣本(120個)作為訓練集,用于隨機森林回歸模型的訓練和調參;其余25%的樣本(40個)作為測試集,用來評估模型的準確性和泛化能力。

1.3 模型構建

利用Python進行模型的編寫,其中調用開源的機器學習庫Scikit-Learn[12]實現隨機森林回歸算法。RFR算法屬于非參數模型,其對樣本數據的總體分布沒有先驗的假設,直接通過算法擬合待測性質與變量之間的非線性關系。構建模型時,先對訓練集樣本進行有放回的抽樣得到若干個樣本子集,然后在每個樣本子集上構造回歸樹;對樹中的每個非葉節點進行分裂時,隨機選擇若干個特征數進行計算。當每個子集都構造起相應的回歸樹時,即可建立起不同特征下相應的劃分規則和取值,整個隨機森林回歸模型也就構建完成。

將VGO的12項基本物性作為模型輸入特征X, 3種噻吩硫化物和總噻吩的質量分數依次作為輸出變量y,構建4種隨機森林回歸預測模型,分別為:苯并噻吩質量分數的預測模型M1、二苯并噻吩質量分數的預測模型M2、萘苯并噻吩質量分數的預測模型M3和總噻吩質量分數的預測模型M4。然后,確定4種模型的超參數,進行模型的訓練和調參,并評估其預測的準確性和泛化能力。

1.4 超參數尋優

在對隨機森林回歸模型進行訓練之前先要確定模型的超參數。有2種超參數需要尋優,第一種是模型的框架參數,即抽樣得到的樣本子集個數,也就是構造回歸樹的數量NT。一般來說,NT太小則模型訓練不足而容易欠擬合,預測準確度較差;NT太大則模型預測的準確度又會降低,計算量也會增加。因此,需要選擇一個適中的數值。第二種需要尋優的參數是回歸樹參數,包括樹的最大深度、葉節點中的最少樣本數、葉子節點的最高數量、每個非葉節點劃分使用的最大特征數MF等。由于本研究的樣本數量和特征數量都較小,只需要對回歸樹的每個非葉節點劃分使用的最大特征數MF進行調參,其他回歸樹的參數均設為默認值即可。本研究以訓練集樣本的袋外估計為基礎進行調參,省去了繁瑣的交叉驗證計算,先對回歸樹的數量NT進行尋優,然后再調節最大特征數MF。選擇不同的超參數,設定其取值范圍,然后計算對應模型中每個袋外樣本的預測值,以所有袋外樣本的預測標準偏差(RMSE_OOB)為評價指標,當其取值最小時對應的超參數即為最優。

2 結果與討論

2.1 模型的超參數

對M1、M2、M3和M4依次進行超參數的尋優計算,分別得到最優的回歸數的數量NT和最大特征數MF。苯并噻吩質量分數預測模型M1的調參過程如圖1所示。由圖1可知:M1袋外樣本的預測標準偏差(RMSE_OOB)隨著回歸樹數量(NT)的增加先減小后增大,當NT為160時其取得最小值(圖1(a));且RMSE_OOB隨著最大特征數(MF)的增大而減小,當MF為12時其取得最小值(圖1(b))。由此,可以確定該模型的最優超參數NT和MF分別為160和12。類似地,依次對其他3種模型進行調參,匯總4種模型的最優超參數得到:二苯并噻吩質量分數預測模型M2的最優超參數為:NT=60,MF=6;萘苯并噻吩質量分數預測模型M3的最優超參數為:NT=130,MF=10;總噻吩質量分數預測模型M4的最優超參數為:NT=285,MF=12。

2.2 模型的訓練

確定了各模型的最優超參數之后,分別在對應的120個訓練集樣本上進行模型的訓練計算,利用訓練集樣本的校正標準偏差(RMSEC)和擬合決定系數R2來評價模型的準確性和擬合效果,由袋外得分可初步評價模型的泛化能力。各模型中訓練集樣本的噻吩硫化物的組成分布范圍和模型評價指標見表1。由表1可知,4種模型中噻吩硫化物的組成分布范圍較寬,模型具有較好的代表性;利用隨機森林回歸算法可以實現對直餾VGO中3種噻吩硫化合物和總噻吩質量分數的準確預測,對于噻吩硫化物質量分數為0的樣本,模型也能給出較準確的預測。這4種模型中,總噻吩質量分數預測模型M4的擬合效果最好,其擬合決定系數R2可達到0.993,萘苯并噻吩模型M3的擬合效果較差,擬合決定系數R2為0.976;RMSEC值的大小和噻吩硫化物質量分數的大小呈正相關關系,因而總噻吩質量分數預測模型的RMSEC值最大,但各模型的RMSEC值均小于標準分析方法(ASTM D3239)中的重復性要求,說明模型的擬合效果都較好。

圖1 苯并噻吩質量分數預測模型的超參數優化Fig.1 Optimization of hyper-parameters of the prediction model of benzothiophenes mass fractions(a) Number of trees in the forest; (b) Max features used for the split

從袋外得分OOB_score來看:總噻吩質量分數預測模型M4的得分最高,達到0.948,說明其具有較好的泛化能力,能對訓練集之外的樣本作出較準確的預測;而萘苯并噻吩質量分數預測模型M3的得分最低,只有0.826,同樣其對應的訓練集樣本的擬合效果也最差(R2=0.976),說明該模型的準確性和泛化能力都較低。

VGO中總噻吩質量分數的線性回歸預測模型[5]的預測校正標準偏差RMSEC為0.580%,擬合決定系數R2為0.984。與之相比,本研究構建的總噻吩質量分數RFR預測模型的準確性更高,RMSEC為0.264%。而且,其他3種模型預測3種不同類型噻吩硫化物的質量分數的結果也較準確。

表1 各模型的噻吩硫化物組成分布范圍和評價指標Table 1 The distribution range and evaluation index ofthiophene sulfides composition of each model

2.3 特征重要度分析

隨機森林回歸算法可以計算出模型中每個特征的重要程度。具體來說,在構造1顆回歸樹時,非葉節點按照分裂后的各個樣本子集方差最小的準則進行分裂。這樣可以計算出每個特征在某一節點處分裂前后的方差減少量,進而得到每個特征在所有回歸樹的相應節點上的平均方差減少量。將所有特征的方差減少量進行歸一化計算,即得到每個特征的重要度。重要度表示每個特征在模型中的貢獻值大小,可用于模型的特征篩選,即可從所有的12項物性特征中選擇出若干個重要度較大的特征作為相應模型的主要特征,以這些特征為新的輸入可以得到更簡單的預測模型。

圖2為各模型對應的特征重要度分析結果。由圖2可知,這4種模型中硫質量分數特征的重要度最高,碳質量分數特征次之,而其他物性特征的重要度都很低,說明這些物性指標和噻吩硫化物組成的相關性很小。所以,各模型的重要特征均為硫質量分數(w(S))和碳質量分數(w(C))。在實際應用中,為了構建更加簡單和輕量的VGO中噻吩硫化物質量分數的預測模型,可以只選擇硫質量分數和碳質量分數作為輸入特征來構建模型,也可以達到一定的預測準確度。

此外,由于減壓餾分油中的硫基本上都分布在噻吩硫化物中,所以各模型中硫質量分數特征的重要度都最高;同時,VGO的各種噻吩硫化物中,苯并噻吩的含量最高,其占總噻吩含量的比例也最高;因此,對于苯并噻吩和總噻吩的2種模型(M1和M4),w(S)的特征重要度要遠高于w(C);而二苯并噻吩及萘苯并噻吩的預測模型(M2和M3)中w(C)的特征重要度則相對較大,因為與苯并噻吩相比,這2種噻吩硫化物分子中分別增加6和12個C(分別為苯并噻吩分子中增加了1個和2個苯環);其結構中C的比例明顯增大,使其硫化物質量分數與VGO中碳質量分數的相關性更大。

圖2 各模型的特征重要度分布Fig.2 The feature importance distribution of each model(a) M1; (b) M2; (c) M3; (d) M4

2.4 測試集樣本的預測分析

將測試集的40個樣本數據分別代入這4種模型進行預測,利用測試樣本的預測標準偏差RMSEP和擬合決定系數R2來評價各模型預測效果和泛化能力,并主要通過比較R2的大小來對比4種模型的預測準確性。測試集樣本的3種噻吩化合物各自的質量分數及總噻吩質量分數的實測值和預測值對比如圖3所示。從圖3可知:苯并噻吩質量分數、二苯并噻吩質量分數和總噻吩質量分數的預測值和實測值基本吻合,表明模型M1、M2和M4的預測效果很好;萘苯并噻吩質量分數的預測值和實測值吻合度不好,有5個樣本的預測偏差較大,說明模型M3的預測效果較差。同時,萘苯并噻吩模型的擬合決定系數最小,為R2=0.925,說明其擬合效果較差,泛化能力較弱;而苯并噻吩模型、二苯并噻吩模型和總噻吩模型的R2分別為0.963、0.988和0.981,說明苯并噻吩質量分數、二苯并噻吩質量分數和總噻吩質量分數預測模型的預測效果較好、泛化能力強。

分析萘苯并噻吩質量分數預測模型M3泛化能力較差的原因:由于隨機森林回歸算法不易產生過擬合現象,同時模型M3的訓練集樣本的擬合決定系數R2均小于其他3種模型,說明模型M3的自變量并不能很好地解釋因變量的變化,即目前所選的12項物性特征不能充分反映VGO中萘苯并噻吩的組成信息,導致算法從現有數據集中學習得到的萘苯并噻吩質量分數和物性特征的映射關系不夠準確,因此,對于測試集樣本,其預測準確度較低,模型的泛化能力也較差。

選擇模型的最重要特征硫質量分數(w(S))進行

圖3 測試集樣本中噻吩硫化物組成的實測值和預測值對比Fig.3 Comparison of the measured and predicted values of thiophene sulfides’composition of the test set samples(a) Benzothiophenes; (b) Dibenzothiophenes; (c) Naphthathiophenes; (d) Total thiophenes

相關性可視分析,訓練集樣本中萘苯并噻吩質量分數與硫質量分數的關系如圖4所示。由圖4可知,VGO的萘苯并噻吩質量分數和(w(S))之間沒有明顯的相關關系,且存在硫質量分數相差較大的樣本中萘苯并噻吩質量分數相同的情況。進一步計算VGO中萘苯并噻吩質量分數與12項物性特征(ρ20、w(C)、w(H)、w(S)、n70、M、TV、v40、v80、v100、VI和BMCI)的Spearman相關系數,結果分別為:0.58、-0.30、-0.69、0.80、0.62、-0.13、0.11、0.36、0.41、0.38、-0.32 和0.59。其中,w(S)的相關系數最高,為0.80;其他特征相關系數的絕對值均低于w(S)的。這說明VGO中萘苯并噻吩質量分數與上述12項物性特征的相關性都較差。因此,萘苯并噻吩質量分數預測模型的優化,需要篩選添加與其相關性好的VGO物性特征來優化預測模型,提高預測模型的準確度和泛化能力。

12個特征預測模型的預測評價結果列于表2。由表2可以看出,模型M1、M2、M3和M4的預測標準偏差(RMSEP)分別為:0.268%、0.131%、0.111%和0.385%。各模型的預測RMSEP值與其訓練集樣本中噻吩硫化物質量分數為正相關關系,即預測效果最差的萘苯并噻吩模型M3的RMSEP值最小,而預測最準確的總噻吩模型M4的RMSEP值則最大。3種噻吩硫化物預測模型的RMSEP值均小于標準分析方法(ASTM D3239)中數據的重復性要求:苯并噻吩0.8%、二苯并噻吩0.3%、萘苯并噻吩0.3%。這表明4種模型均能滿足生產過程中快速分析和過程分析的要求。

圖4 訓練集樣本的苯并噻吩質量分數和硫質量分數的散點圖Fig.4 Scatter plot between the mass fraction ofnapathabenzthiophenes and sulfur of the train set samples

2.5 簡化特征模型的構建與預測結果分析

為了提高模型的適用性,以硫質量分數(w(S))和碳質量分數(w(C))為輸入特征重新構建模型,并對比不同特征數量模型的預測效果,結果如表2所示。由表2可以看出,對于3種噻吩硫化物和總噻吩的質量分數,只含2個特征預測模型的各項預測指標(袋外得分OOB_score、預測決定系數R2和預測標準偏差RMSEP)均略差于包含12個特征的預測模型,但也可以達到較高的預測精度,并且其RMSEP值同樣均小于標準分析方法(ASTM D3239)中的數據重復性要求。

表2 不同數量特征的模型的評價指標Table 2 The evaluation index of the models with different number of features

上述結果表明,本研究構建的12特征預測模型和2特征預測模型都具有較強的泛化能力,能夠準確預測訓練集之外的樣本。其中,2特征預測模型更加簡便,僅由VGO的硫質量分數和碳質量分數就可以較準確預測3種噻吩硫化物和總噻吩的質量分數,實用性更強。

3 結 論

利用隨機森林回歸方法分別構建VGO中3種噻吩硫化物和總噻吩的質量分數預測模型,由直餾VGO的12項基本物性數據可以快速計算得到VGO中苯并噻吩、二苯并噻吩、萘苯并噻吩和總噻吩的質量分數,計算結果表明4種模型預測的準確性和預測結果的重復性較好,達到標準方法ASTM D3239的數據重復性要求,具有較強的泛化能力。

根據特征重要性的計算結果,選擇VGO中硫質量分數和碳質量分數為輸入特征構建了簡化的預測模型,其預測結果也較準確,滿足標準方法ASTM D3239的數據重復性要求,且更加簡便、實用性更強。

猜你喜歡
特征質量模型
一半模型
“質量”知識鞏固
質量守恒定律考什么
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
做夢導致睡眠質量差嗎
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲日韩精品综合在线一区二区| 99re视频在线| 99视频在线免费观看| 亚洲国产精品成人久久综合影院 | 国产精品女在线观看| 欧美啪啪视频免码| 国产精品密蕾丝视频| 国产欧美精品一区aⅴ影院| 国产国产人成免费视频77777| 女人18毛片一级毛片在线 | 亚洲激情区| 成人亚洲国产| 一级香蕉人体视频| 2048国产精品原创综合在线| 无码人中文字幕| 欧美日韩成人在线观看| 99精品热视频这里只有精品7| 福利小视频在线播放| 欧美日本一区二区三区免费| 波多野结衣中文字幕一区二区| 国产一国产一有一级毛片视频| 国产精品妖精视频| 黄色污网站在线观看| 亚洲av无码成人专区| 韩日午夜在线资源一区二区| 亚洲国产综合精品中文第一| 五月婷婷丁香综合| 91无码国产视频| 老司机午夜精品网站在线观看| 国产97视频在线| 91精品久久久久久无码人妻| 久久人人妻人人爽人人卡片av| 国产精品露脸视频| 欧美精品aⅴ在线视频| 99热最新在线| 国产91成人| AV熟女乱| 97久久免费视频| 欧美丝袜高跟鞋一区二区| 99尹人香蕉国产免费天天拍| 成人免费网站久久久| 国产成+人+综合+亚洲欧美| 亚洲 日韩 激情 无码 中出| 超薄丝袜足j国产在线视频| 久热中文字幕在线| 日本三级黄在线观看| 亚洲无码精品在线播放| 毛片手机在线看| 伊人久久大香线蕉影院| 伊人91在线| 91精品国产麻豆国产自产在线 | 亚洲精品图区| 伊人国产无码高清视频| 毛片免费高清免费| 亚洲色婷婷一区二区| 夜夜操天天摸| 黄色网站在线观看无码| 国产成人亚洲综合a∨婷婷| 99在线国产| 久久久噜噜噜| 亚洲第一页在线观看| 手机在线看片不卡中文字幕| 国产丝袜啪啪| 亚洲第一成年网| 97视频精品全国在线观看 | 亚洲日韩高清无码| 在线一级毛片| 大学生久久香蕉国产线观看| 久久 午夜福利 张柏芝| 成人精品在线观看| 国产一区在线视频观看| 免费在线色| 性视频一区| 欧美在线一级片| 欧美日韩第二页| 青青草原国产精品啪啪视频| 日本在线欧美在线| 国产成人精品日本亚洲| 久久超级碰| 日韩欧美高清视频| 亚洲妓女综合网995久久| AV网站中文|