崔 晨,何 杉,呂文進,張霖宙,周 祥
(1.中國石化石油化工科學(xué)研究院,北京 100083;2.中國石油大學(xué)(北京)重質(zhì)油國家重點實驗室)
煉油廠調(diào)合汽油的部分關(guān)鍵性質(zhì),如辛烷值的非線性加和規(guī)律,給汽油調(diào)合過程計算優(yōu)化造成了極大困難。隨著車用汽油質(zhì)量標準的不斷提高,迫切需要準確的汽油調(diào)合模型來指導(dǎo)調(diào)合,合理利用高辛烷值組分,實現(xiàn)利潤最大化。
傳統(tǒng)上,汽油調(diào)合模型通常以組分汽油的宏觀性質(zhì)為基礎(chǔ)[1]。隨著分子管理概念的引入,研究者們開始建立分子級的汽油調(diào)合模型[2]。分子級的汽油辛烷值調(diào)合模型需要汽油的分子組成和各分子的辛烷值作為支撐。目前,詳細的汽油單體烴組成可通過氣相色譜法獲取[3-4],缺少檢測條件時,也可以通過模擬的方式構(gòu)建汽油烴組成[5]。但并非所有分子的辛烷值都能通過試驗測定,目前僅有300余種純化合物的辛烷值能查到試驗值[6-8]。因此,研究者們開發(fā)了許多由分子結(jié)構(gòu)預(yù)測分子性質(zhì)的方法,這些方法被統(tǒng)稱為結(jié)構(gòu)性質(zhì)定量關(guān)聯(lián)(QSPR)模型[9]。其中,基團貢獻法是一種常見的QSPR方法。Joback等[10]定義了41個基團來描述分子,并預(yù)測了單體烴的沸點、凝點、臨界性質(zhì)等11種重要的物理化學(xué)性質(zhì)。Albahri[11]認為增加描述分子細節(jié)結(jié)構(gòu)的基團,如雙鍵的順反構(gòu)型和表示取代基位置的基團等,有利于提高辛烷值預(yù)測模型的精度,結(jié)果發(fā)現(xiàn)增加基團后的模型在預(yù)測單體烴的研究法辛烷值(RON)時效果更好,而在預(yù)測其馬達法辛烷值(MON)時則反之;基團貢獻法定義并篩選基團的過程較繁瑣,依賴于研究者的直覺。因此,Kubic等[12]在訓(xùn)練單體烴辛烷值預(yù)測模型時采用了一種啟發(fā)式策略來選擇最終納入模型的基團。Gani等[13]將拓撲指數(shù)[14-16]與基團貢獻法結(jié)合,命名為升級版基團貢獻法(Group contribution+);Hukkerikar等[17-18]將Gani團隊開發(fā)的2種基團貢獻法進行對比,認為升級版基團貢獻法的預(yù)測效果更好。
隨著計算機軟件模擬深度學(xué)習(xí)的發(fā)展,Duvenaud等[19]將分子的二維結(jié)構(gòu)視作無向圖,用圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分子中的原子特征和鍵特征,即可得到該分子的分子指紋,并利用其預(yù)測分子性質(zhì),被稱為神經(jīng)指紋(NFP)法。神經(jīng)指紋保留了模型的可解釋性,能夠?qū)W(xué)習(xí)得到的特征結(jié)構(gòu)可視化。Xu等[20]建立了相似的網(wǎng)絡(luò)結(jié)構(gòu),并對比了圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的分子指紋與普通的分子指紋在藥物毒性預(yù)測上的表現(xiàn),認為前者效果更好。
圖卷積神經(jīng)網(wǎng)絡(luò)省略了基團貢獻法中定義和篩選基團的繁瑣過程,實現(xiàn)了特征篩選的自動化,降低了建立模型的難度。基于此,本課題在圖卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)指紋法的基礎(chǔ)上引入池化操作,建立改進的神經(jīng)指紋(RNFP)方法,用單體烴沸點和臨界溫度2種數(shù)據(jù)集驗證RNFP方法的可行性,并基于RNFP方法建立的單體烴辛烷值預(yù)測模型,考察該模型預(yù)測汽油單體烴辛烷值的效果。
RNFP結(jié)構(gòu)建立在NFP結(jié)構(gòu)的基礎(chǔ)上,其核心原始輸入包括分子的二維圖結(jié)構(gòu)、分子中各原子和化學(xué)鍵的特征。這些特征均由查詢開源的化學(xué)信息軟件庫獲得。RNFP中涉及3種核心操作:合并、圖卷積和池化,其中池化操作的引入是RNFP與NFP網(wǎng)絡(luò)結(jié)構(gòu)最大不同。
圖1為RNFP方法中3種操作的示意。需要說明的是:圖中所示的原子特征和化學(xué)鍵特征的維度與實際維度并不相關(guān),僅起到描述操作的作用;同樣,圖中特征的不同色塊僅起示意作用。其中,圖1(a)為RNFP方法的合并操作示意,在此操作中,不考慮分子圖中原子類型的區(qū)分,計算時所有原子被視為同等地位,均用藍色標注。分子圖中各原子的特征先經(jīng)過一個全連接的神經(jīng)網(wǎng)絡(luò),轉(zhuǎn)化為一個具有固定維度的向量;各原子經(jīng)過原子特征的轉(zhuǎn)化,以加和的形式合并為一個向量,即為該分子的圖特征。
圖1(b)為RNFP方法的圖卷積操作,在此操作中原子會被分為2類:中心原子(紅色)和鄰原子(藍色)。與合并操作類似,中心原子的原子特征會經(jīng)由一個全連接的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為一個具有固定維度的向量;而鄰原子則要先將其原子特征和其與中心原子連接的化學(xué)鍵特征拼接,再轉(zhuǎn)化成具有固定維度的向量。然后,中心原子和鄰原子轉(zhuǎn)化后的向量同樣以加和的方式合并為一個新向量,即新原子特征(黃色),用以替換原中心原子的特征。
池化在卷積神經(jīng)網(wǎng)絡(luò)中也是一種常見的操作,其方式包括求和、取平均值、取最大值等。RNFP采用了取最大值的池化操作,如圖1(c)所示。與圖卷積操作類似,池化操作中也要區(qū)分中心原子和鄰原子,但通過取最大值的方式得到新原子特征,并替代原中心原子的特征。圖卷積操作和池化操作都會遍歷分子中每一個原子,即每一個原子都會成為中心原子,并更新為新原子特征。

圖1 RNFP方法的合并、圖卷積和池化操作示意●—普通原子; ●—中心原子; ●—新原子
圖2為RNFP方法的整體結(jié)構(gòu)示意。由圖2可知:RNFP方法的第一步操作只進行了合并操作,計算時不會考慮鄰原子的信息,因此得到的圖特征反映了分子中各原子的信息,即以某原子為中心、半徑為0的結(jié)構(gòu)特征;經(jīng)過一次圖卷積和池化操作后,各原子的新原子特征中已經(jīng)包含了相鄰原子的信息,得到的圖特征反映了以某原子為中心、半徑為1個原子的次級結(jié)構(gòu)的圖特征;再進行一次圖卷積操作和池化操作,即可得到反映以某原子為中心、半徑為2個原子的次級結(jié)構(gòu)的圖特征;以此類推,隨著卷積和池化操作的迭代,圖特征反映結(jié)構(gòu)的半徑逐漸擴大,表示的分子結(jié)構(gòu)也逐漸增大;將各部分的圖特征加和,得到的多維向量特征即為該分子的指紋特征。最后,對該指紋特征進行多元線性回歸,即可與目標值關(guān)聯(lián),對模型目標的性質(zhì)進行預(yù)測。

圖2 RNFP結(jié)構(gòu)示意●—多元線性回歸自變量
RNFP方法中采用的原子和化學(xué)鍵特征均可基于本研究開發(fā)的程序獲取。其中,原子特征包括原子類型、原子連接數(shù)、隱式化合價、雜化方式、芳香性、環(huán)大小;化學(xué)鍵特征包括化學(xué)鍵類型、是否共軛、是否在環(huán)中。若選取6類原子特征拼接在一起,可得到一個維度為70的向量矩陣;若選取3類化學(xué)鍵特征拼接在一起,可得到一個維度為6的向量矩陣。
沸點和臨界溫度是單體烴性質(zhì)關(guān)聯(lián)模型的重要參數(shù),因而利用對這2種參數(shù)的預(yù)測可對比神經(jīng)指紋法改進前后的預(yù)測效果。其中,沸點的數(shù)據(jù)共426組,臨界溫度的數(shù)據(jù)共420組,均自API Technical Data Book查詢得到。由于數(shù)據(jù)集較小,采用隨機抽樣的方式分配訓(xùn)練集和測試集,可能會導(dǎo)致訓(xùn)練集和測試集數(shù)據(jù)分布不均,造成較大偏差。考慮到QSPR方法對結(jié)構(gòu)的敏感性,同一分子結(jié)構(gòu),要盡量保證在測試集和訓(xùn)練集中同時出現(xiàn)。因此,先用Butina聚類算法[21]將數(shù)據(jù)集中的單體烴按分子結(jié)構(gòu)分類,然后按結(jié)構(gòu)類別抽取各類分子組成測試集。最后將384組沸點數(shù)據(jù)集劃分為訓(xùn)練集,42組劃分為測試集;將380組臨界溫度數(shù)據(jù)集劃分為訓(xùn)練集,40組劃分為測試集。

圖3 NFP和RNFP方法訓(xùn)練單體烴沸點數(shù)據(jù)集的實驗值和預(yù)測值●—訓(xùn)練集; ◆—測試集。圖4、圖5同

圖4 NFP和RNFP方法訓(xùn)練單體烴臨界溫度數(shù)據(jù)集的實驗值和預(yù)測值
采用改進前后神經(jīng)指紋法對單體烴的沸點和臨界溫度的預(yù)測效果如圖3和圖4所示,而表1為2種方法預(yù)測的均方根誤差(RMSE)和決定系數(shù)(R2)。由圖3、圖4和表1可以看出:采用NFP方法對沸點和臨界溫度數(shù)據(jù)的訓(xùn)練結(jié)果并不理想,誤差較大;而RNFP訓(xùn)練精度有明顯提升,其預(yù)測值與實驗值的重合度很高,說明池化操作的引入有助于訓(xùn)練預(yù)測精度的提升。

表1 NFP和RNFP方法訓(xùn)練單體烴沸點和臨界溫度數(shù)據(jù)集的效果
單體烴RON和MON的數(shù)據(jù)集分別包括240和241組數(shù)據(jù)。從數(shù)據(jù)分布上看,單體烴的RON主要集中在80~120;而其MON稍微偏低,為60~100。為了使訓(xùn)練集中的單體烴有代表性,先用Butina聚類算法[21]劃分數(shù)據(jù)集。其中:RON訓(xùn)練集包含220組數(shù)據(jù),測試集包含20組數(shù)據(jù);MON訓(xùn)練集包含220組數(shù)據(jù),測試集包含21組數(shù)據(jù)。
圖5為基于RNFP模型得到的RON和MON預(yù)測值與實驗值比較;表2為RNFP模型預(yù)測結(jié)果的RMSE和R2。由圖5和表2可以看出,RNFP模型對單體烴RON和MON的預(yù)測值與實驗值基本相符,測試集和訓(xùn)練集的RMSE都較小。以往研究表明[11],MON的預(yù)測效果通常比RON的預(yù)測效果差。而基于RNFP方法,汽油單體烴RON預(yù)測模型的訓(xùn)練集和測試集的R2分別達到0.995 2和0.959 9;MON預(yù)測模型訓(xùn)練集和測試集的R2分別達到0.996 8和0.969 2。說明RNFP模型對單體烴MON和RON的預(yù)測精度達到了同等水平。

圖5 RNFP模型訓(xùn)練單體烴RON和MON的預(yù)測值與實驗值比較

表2 RNFP模型預(yù)測單體烴RON和MON的效果
模型訓(xùn)練完成后,分子中各個原子最終的原子特征被稱為激活值。通過統(tǒng)計各原子的激活值,可以反映分子結(jié)構(gòu)對單體烴性質(zhì)的貢獻度。激活值為正,則對單體烴性質(zhì)為正貢獻;反之,則為負貢獻。表3和表4分別為RNFP模型對單體烴RON和MON有較大貢獻結(jié)構(gòu)的預(yù)測結(jié)果,表中藍色的分子結(jié)構(gòu)與結(jié)構(gòu)激活值一一對應(yīng)。

表3 RNFP模型對單體烴RON貢獻較大結(jié)構(gòu)的預(yù)測結(jié)果

表4 RNFP模型對單體烴MON貢獻較大結(jié)構(gòu)的預(yù)測結(jié)果
由表3可見:對單體烴RON正貢獻較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等,這與異構(gòu)烷烴和芳烴的RON較高的常識相符;環(huán)烷烴的RON也相對較高,但會隨著環(huán)烷烴側(cè)鏈的變長而迅速下降,因此正貢獻較大環(huán)烷烴特征結(jié)構(gòu)為具有多個短側(cè)鏈,而不是帶有長側(cè)鏈;對RON負貢獻較大的結(jié)構(gòu)主要為較長的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長的環(huán)烷烴結(jié)構(gòu),證明了長直鏈烷烴結(jié)構(gòu)對提高單體烴的RON不利。
由表4可見:與單體烴RON類似,多支鏈的烷烴結(jié)構(gòu)和環(huán)烷烴結(jié)構(gòu)依然對單體烴MON有利;但不同的是芳烴結(jié)構(gòu)對單體烴MON的影響較小,而雙鍵結(jié)構(gòu)的影響較大。這與常識稍有不同,可能也是單體烴MON預(yù)測模型不易訓(xùn)練的原因之一。對單體烴MON負貢獻較大的結(jié)構(gòu)同樣是長直鏈的烷烴結(jié)構(gòu)。
相比傳統(tǒng)的基團貢獻法,RNFP方法不需要人工定義和篩選特征基團,降低了使用難度。相比NFP方法,RNFP方法引入了池化操作,通過單體烴沸點和臨界溫度數(shù)據(jù)集的驗證表明,RNFP的預(yù)測效果明顯好于NFP,說明池化操作的引入提高了模型的預(yù)測精度。基于RNFP方法,汽油單體烴RON預(yù)測模型的訓(xùn)練集和測試集的R2分別達到0.995 2和0.959 9;MON預(yù)測模型訓(xùn)練集和測試集的R2分別達到0.996 8和0.969 2,說明模型對單體烴RON和MON的預(yù)測精度達到了同等水平。
通過對RNFP選取特征結(jié)構(gòu)的可視化,發(fā)現(xiàn)對單體烴RON正貢獻較大的結(jié)構(gòu)有多支鏈的烷烴結(jié)構(gòu)、環(huán)烷烴結(jié)構(gòu)及芳烴結(jié)構(gòu)等,對單體烴RON負貢獻較大的結(jié)構(gòu)主要為較長的直鏈烷烴結(jié)構(gòu)和側(cè)鏈較長的環(huán)烷烴結(jié)構(gòu)。對單體烴的MON,雙鍵結(jié)構(gòu)的影響比芳環(huán)的影響更大。將化學(xué)常識與模型自動篩選的特征對比,有利于進一步研究結(jié)構(gòu)與性質(zhì)的關(guān)系。