基于圖卷積神經(jīng)網(wǎng)絡(luò)汽油單體烴辛烷值的預(yù)測

2021-07-14 02:01:42呂文進張霖宙

石油煉制與化工 2021年7期

崔晨，何杉，呂文進，張霖宙，周祥

(1.中國石化石油化工科學(xué)研究院，北京 100083；2.中國石油大學(xué)(北京)重質(zhì)油國家重點實驗室)

煉油廠調(diào)合汽油的部分關(guān)鍵性質(zhì)，如辛烷值的非線性加和規(guī)律，給汽油調(diào)合過程計算優(yōu)化造成了極大困難。隨著車用汽油質(zhì)量標準的不斷提高，迫切需要準確的汽油調(diào)合模型來指導(dǎo)調(diào)合，合理利用高辛烷值組分，實現(xiàn)利潤最大化。

傳統(tǒng)上，汽油調(diào)合模型通常以組分汽油的宏觀性質(zhì)為基礎(chǔ)[1]。隨著分子管理概念的引入，研究者們開始建立分子級的汽油調(diào)合模型[2]。分子級的汽油辛烷值調(diào)合模型需要汽油的分子組成和各分子的辛烷值作為支撐。目前，詳細的汽油單體烴組成可通過氣相色譜法獲取[3-4]，缺少檢測條件時，也可以通過模擬的方式構(gòu)建汽油烴組成[5]。但并非所有分子的辛烷值都能通過試驗測定，目前僅有300余種純化合物的辛烷值能查到試驗值[6-8]。因此，研究者們開發(fā)了許多由分子結(jié)構(gòu)預(yù)測分子性質(zhì)的方法，這些方法被統(tǒng)稱為結(jié)構(gòu)性質(zhì)定量關(guān)聯(lián)(QSPR)模型[9]。其中，基團貢獻法是一種常見的QSPR方法。Joback等[10]定義了41個基團來描述分子，并預(yù)測了單體烴的沸點、凝點、臨界性質(zhì)等11種重要的物理化學(xué)性質(zhì)。Albahri[11]認為增加描述分子細節(jié)結(jié)構(gòu)的基團，如雙鍵的順反構(gòu)型和表示取代基位置的基團等，有利于提高辛烷值預(yù)測模型的精度，結(jié)果發(fā)現(xiàn)增加基團后的模型在預(yù)測單體烴的研究法辛烷值(RON)時效果更好，而在預(yù)測其馬達法辛烷值(MON)時則反之；基團貢獻法定義并篩選基團的過程較繁瑣，依賴于研究者的直覺。因此，Kubic等[12]在訓(xùn)練單體烴辛烷值預(yù)測模型時采用了一種啟發(fā)式策略來選擇最終納入模型的基團。Gani等[13]將拓撲指數(shù)[14-16]與基團貢獻法結(jié)合，命名為升級版基團貢獻法(Group contribution+)；Hukkerikar等[17-18]將Gani團隊開發(fā)的2種基團貢獻法進行對比，認為升級版基團貢獻法的預(yù)測效果更好。

隨著計算機軟件模擬深度學(xué)習(xí)的發(fā)展，Duvenaud等[19]將分子的二維結(jié)構(gòu)視作無向圖，用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分子中的原子特征和鍵特征，即可得到該分子的分子指紋，并利用其預(yù)測分子性質(zhì)，被稱為神經(jīng)指紋(NFP)法。神經(jīng)指紋保留了模型的可解釋性，能夠?qū)W(xué)習(xí)得到的特征結(jié)構(gòu)可視化。Xu等[20]建立了相似的網(wǎng)絡(luò)結(jié)構(gòu)，并對比了圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的分子指紋與普通的分子指紋在藥物毒性預(yù)測上的表現(xiàn)，認為前者效果更好。

圖卷積神經(jīng)網(wǎng)絡(luò)省略了基團貢獻法中定義和篩選基團的繁瑣過程，實現(xiàn)了特征篩選的自動化，降低了建立模型的難度。基于此，本課題在圖卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)指紋法的基礎(chǔ)上引入池化操作，建立改進的神經(jīng)指紋(RNFP)方法，用單體烴沸點和臨界溫度2種數(shù)據(jù)集驗證RNFP方法的可行性，并基于RNFP方法建立的單體烴辛烷值預(yù)測模型，考察該模型預(yù)測汽油單體烴辛烷值的效果。

1 RNFP方法介紹

RNFP結(jié)構(gòu)建立在NFP結(jié)構(gòu)的基礎(chǔ)上，其核心原始輸入包括分子的二維圖結(jié)構(gòu)、分子中各原子和化學(xué)鍵的特征。這些特征均由查詢開源的化學(xué)信息軟件庫獲得。RNFP中涉及3種核心操作：合并、圖卷積和池化，其中池化操作的引入是RNFP與NFP網(wǎng)絡(luò)結(jié)構(gòu)最大不同。

圖1為RNFP方法中3種操作的示意。需要說明的是：圖中所示的原子特征和化學(xué)鍵特征的維度與實際維度并不相關(guān)，僅起到描述操作的作用；同樣，圖中特征的不同色塊僅起示意作用。其中，圖1(a)為RNFP方法的合并操作示意，在此操作中，不考慮分子圖中原子類型的區(qū)分，計算時所有原子被視為同等地位，均用藍色標注。分子圖中各原子的特征先經(jīng)過一個全連接的神經(jīng)網(wǎng)絡(luò)，轉(zhuǎn)化為一個具有固定維度的向量；各原子經(jīng)過原子特征的轉(zhuǎn)化，以加和的形式合并為一個向量，即為該分子的圖特征。

圖1(b)為RNFP方法的圖卷積操作，在此操作中原子會被分為2類：中心原子(紅色)和鄰原子(藍色)。與合并操作類似，中心原子的原子特征會經(jīng)由一個全連接的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為一個具有固定維度的向量；而鄰原子則要先將其原子特征和其與中心原子連接的化學(xué)鍵特征拼接，再轉(zhuǎn)化成具有固定維度的向量。然后，中心原子和鄰原子轉(zhuǎn)化后的向量同樣以加和的方式合并為一個新向量，即新原子特征(黃色)，用以替換原中心原子的特征。

池化在卷積神經(jīng)網(wǎng)絡(luò)中也是一種常見的操作，其方式包括求和、取平均值、取最大值等。RNFP采用了取最大值的池化操作，如圖1(c)所示。與圖卷積操作類似，池化操作中也要區(qū)分中心原子和鄰原子，但通過取最大值的方式得到新原子特征，并替代原中心原子的特征。圖卷積操作和池化操作都會遍歷分子中每一個原子，即每一個原子都會成為中心原子，并更新為新原子特征。

圖1 RNFP方法的合并、圖卷積和池化操作示意●—普通原子； ●—中心原子； ●—新原子

圖2為RNFP方法的整體結(jié)構(gòu)示意。由圖2可知：RNFP方法的第一步操作只進行了合并操作，計算時不會考慮鄰原子的信息，因此得到的圖特征反映了分子中各原子的信息，即以某原子為中心、半徑為0的結(jié)構(gòu)特征；經(jīng)過一次圖卷積和池化操作后，各原子的新原子特征中已經(jīng)包含了相鄰原子的信息，得到的圖特征反映了以某原子為中心、半徑為1個原子的次級結(jié)構(gòu)的圖特征；再進行一次圖卷積操作和池化操作，即可得到反映以某原子為中心、半徑為2個原子的次級結(jié)構(gòu)的圖特征；以此類推，隨著卷積和池化操作的迭代，圖特征反映結(jié)構(gòu)的半徑逐漸擴大，表示的分子結(jié)構(gòu)也逐漸增大；將各部分的圖特征加和，得到的多維向量特征即為該分子的指紋特征。最后，對該指紋特征進行多元線性回歸，即可與目標值關(guān)聯(lián)，對模型目標的性質(zhì)進行預(yù)測。

圖2 RNFP結(jié)構(gòu)示意●—多元線性回歸自變量

RNFP方法中采用的原子和化學(xué)鍵特征均可基于本研究開發(fā)的程序獲取。其中，原子特征包括原子類型、原子連接數(shù)、隱式化合價、雜化方式、芳香性、環(huán)大小；化學(xué)鍵特征包括化學(xué)鍵類型、是否共軛、是否在環(huán)中。若選取6類原子特征拼接在一起，可得到一個維度為70的向量矩陣；若選取3類化學(xué)鍵特征拼接在一起，可得到一個維度為6的向量矩陣。

2 基于RNFP方法的單體烴性質(zhì)預(yù)測

2.1 RNFP方法的驗證

沸點和臨界溫度是單體烴性質(zhì)關(guān)聯(lián)模型的重要參數(shù)，因而利用對這2種參數(shù)的預(yù)測可對比神經(jīng)指紋法改進前后的預(yù)測效果。其中，沸點的數(shù)據(jù)共426組，臨界溫度的數(shù)據(jù)共420組，均自API Technical Data Book查詢得到。由于數(shù)據(jù)集較小，采用隨機抽樣的方式分配訓(xùn)練集和測試集，可能會導(dǎo)致訓(xùn)練集和測試集數(shù)據(jù)分布不均，造成較大偏差。考慮到QSPR方法對結(jié)構(gòu)的敏感性，同一分子結(jié)構(gòu)，要盡量保證在測試集和訓(xùn)練集中同時出現(xiàn)。因此，先用Butina聚類算法[21]將數(shù)據(jù)集中的單體烴按分子結(jié)構(gòu)分類，然后按結(jié)構(gòu)類別抽取各類分子組成測試集。最后將384組沸點數(shù)據(jù)集劃分為訓(xùn)練集，42組劃分為測試集；將380組臨界溫度數(shù)據(jù)集劃分為訓(xùn)練集，40組劃分為測試集。

圖3 NFP和RNFP方法訓(xùn)練單體烴沸點數(shù)據(jù)集的實驗值和預(yù)測值●—訓(xùn)練集； ◆—測試集。圖4、圖5同

圖4 NFP和RNFP方法訓(xùn)練單體烴臨界溫度數(shù)據(jù)集的實驗值和預(yù)測值

采用改進前后神經(jīng)指紋法對單體烴的沸點和臨界溫度的預(yù)測效果如圖3和圖4所示，而表1為2種方法預(yù)測的均方根誤差(RMSE)和決定系數(shù)(R2)。由圖3、圖4和表1可以看出：采用NFP方法對沸點和臨界溫度數(shù)據(jù)的訓(xùn)練結(jié)果并不理想，誤差較大；而RNFP訓(xùn)練精度有明顯提升，其預(yù)測值與實驗值的重合度很高，說明池化操作的引入有助于訓(xùn)練預(yù)測精度的提升。

表1 NFP和RNFP方法訓(xùn)練單體烴沸點和臨界溫度數(shù)據(jù)集的效果

2.2 基于RNFP法單體烴辛烷值的預(yù)測

單體烴RON和MON的數(shù)據(jù)集分別包括240和241組數(shù)據(jù)。從數(shù)據(jù)分布上看，單體烴的RON主要集中在80～120；而其MON稍微偏低，為60～100。為了使訓(xùn)練集中的單體烴有代表性，先用Butina聚類算法[21]劃分數(shù)據(jù)集。其中：RON訓(xùn)練集包含220組數(shù)據(jù)，測試集包含20組數(shù)據(jù)；MON訓(xùn)練集包含220組數(shù)據(jù)，測試集包含21組數(shù)據(jù)。

圖5為基于RNFP模型得到的RON和MON預(yù)測值與實驗值比較；表2為RNFP模型預(yù)測結(jié)果的RMSE和R2。由圖5和表2可以看出，RNFP模型對單體烴RON和MON的預(yù)測值與實驗值基本相符，測試集和訓(xùn)練集的RMSE都較小。以往研究表明[11]，MON的預(yù)測效果通常比RON的預(yù)測效果差。而基于RNFP方法，汽油單體烴RON預(yù)測模型的訓(xùn)練集和測試集的R2分別達到0.995 2和0.959 9；MON預(yù)測模型訓(xùn)練集和測試集的R2分別達到0.996 8和0.969 2。說明RNFP模型對單體烴MON和RON的預(yù)測精度達到了同等水平。

圖5 RNFP模型訓(xùn)練單體烴RON和MON的預(yù)測值與實驗值比較

表2 RNFP模型預(yù)測單體烴RON和MON的效果

模型訓(xùn)練完成后，分子中各個原子最終的原子特征被稱為激活值。通過統(tǒng)計各原子的激活值，可以反映分子結(jié)構(gòu)對單體烴性質(zhì)的貢獻度。激活值為正，則對單體烴性質(zhì)為正貢獻；反之，則為負貢獻。表3和表4分別為RNFP模型對單體烴RON和MON有較大貢獻結(jié)構(gòu)的預(yù)測結(jié)果，表中藍色的分子結(jié)構(gòu)與結(jié)構(gòu)激活值一一對應(yīng)。

表3 RNFP模型對單體烴RON貢獻較大結(jié)構(gòu)的預(yù)測結(jié)果

表4 RNFP模型對單體烴MON貢獻較大結(jié)構(gòu)的預(yù)測結(jié)果

由表3可見：對單體烴RON正貢獻較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等，這與異構(gòu)烷烴和芳烴的RON較高的常識相符；環(huán)烷烴的RON也相對較高，但會隨著環(huán)烷烴側(cè)鏈的變長而迅速下降，因此正貢獻較大環(huán)烷烴特征結(jié)構(gòu)為具有多個短側(cè)鏈，而不是帶有長側(cè)鏈；對RON負貢獻較大的結(jié)構(gòu)主要為較長的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長的環(huán)烷烴結(jié)構(gòu)，證明了長直鏈烷烴結(jié)構(gòu)對提高單體烴的RON不利。

由表4可見：與單體烴RON類似，多支鏈的烷烴結(jié)構(gòu)和環(huán)烷烴結(jié)構(gòu)依然對單體烴MON有利；但不同的是芳烴結(jié)構(gòu)對單體烴MON的影響較小，而雙鍵結(jié)構(gòu)的影響較大。這與常識稍有不同，可能也是單體烴MON預(yù)測模型不易訓(xùn)練的原因之一。對單體烴MON負貢獻較大的結(jié)構(gòu)同樣是長直鏈的烷烴結(jié)構(gòu)。

3 結(jié) 論

相比傳統(tǒng)的基團貢獻法，RNFP方法不需要人工定義和篩選特征基團，降低了使用難度。相比NFP方法，RNFP方法引入了池化操作，通過單體烴沸點和臨界溫度數(shù)據(jù)集的驗證表明，RNFP的預(yù)測效果明顯好于NFP，說明池化操作的引入提高了模型的預(yù)測精度。基于RNFP方法，汽油單體烴RON預(yù)測模型的訓(xùn)練集和測試集的R2分別達到0.995 2和0.959 9；MON預(yù)測模型訓(xùn)練集和測試集的R2分別達到0.996 8和0.969 2，說明模型對單體烴RON和MON的預(yù)測精度達到了同等水平。

通過對RNFP選取特征結(jié)構(gòu)的可視化，發(fā)現(xiàn)對單體烴RON正貢獻較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等，對單體烴RON負貢獻較大的結(jié)構(gòu)主要為較長的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長的環(huán)烷烴結(jié)構(gòu)。對單體烴的MON，雙鍵結(jié)構(gòu)的影響比芳環(huán)的影響更大。將化學(xué)常識與模型自動篩選的特征對比，有利于進一步研究結(jié)構(gòu)與性質(zhì)的關(guān)系。