崔 晨,何 杉,呂文進,張霖宙,周 祥
(1.中國石化石油化工科學研究院,北京 100083;2.中國石油大學(北京)重質油國家重點實驗室)
煉油廠調合汽油的部分關鍵性質,如辛烷值的非線性加和規律,給汽油調合過程計算優化造成了極大困難。隨著車用汽油質量標準的不斷提高,迫切需要準確的汽油調合模型來指導調合,合理利用高辛烷值組分,實現利潤最大化。
傳統上,汽油調合模型通常以組分汽油的宏觀性質為基礎[1]。隨著分子管理概念的引入,研究者們開始建立分子級的汽油調合模型[2]。分子級的汽油辛烷值調合模型需要汽油的分子組成和各分子的辛烷值作為支撐。目前,詳細的汽油單體烴組成可通過氣相色譜法獲取[3-4],缺少檢測條件時,也可以通過模擬的方式構建汽油烴組成[5]。但并非所有分子的辛烷值都能通過試驗測定,目前僅有300余種純化合物的辛烷值能查到試驗值[6-8]。因此,研究者們開發了許多由分子結構預測分子性質的方法,這些方法被統稱為結構性質定量關聯(QSPR)模型[9]。其中,基團貢獻法是一種常見的QSPR方法。Joback等[10]定義了41個基團來描述分子,并預測了單體烴的沸點、凝點、臨界性質等11種重要的物理化學性質。Albahri[11]認為增加描述分子細節結構的基團,如雙鍵的順反構型和表示取代基位置的基團等,有利于提高辛烷值預測模型的精度,結果發現增加基團后的模型在預測單體烴的研究法辛烷值(RON)時效果更好,而在預測其馬達法辛烷值(MON)時則反之;基團貢獻法定義并篩選基團的過程較繁瑣,依賴于研究者的直覺。因此,Kubic等[12]在訓練單體烴辛烷值預測模型時采用了一種啟發式策略來選擇最終納入模型的基團。Gani等[13]將拓撲指數[14-16]與基團貢獻法結合,命名為升級版基團貢獻法(Group contribution+);Hukkerikar等[17-18]將Gani團隊開發的2種基團貢獻法進行對比,認為升級版基團貢獻法的預測效果更好。
隨著計算機軟件模擬深度學習的發展,Duvenaud等[19]將分子的二維結構視作無向圖,用圖卷積神經網絡訓練分子中的原子特征和鍵特征,即可得到該分子的分子指紋,并利用其預測分子性質,被稱為神經指紋(NFP)法。神經指紋保留了模型的可解釋性,能夠將學習得到的特征結構可視化。Xu等[20]建立了相似的網絡結構,并對比了圖卷積神經網絡學習得到的分子指紋與普通的分子指紋在藥物毒性預測上的表現,認為前者效果更好。
圖卷積神經網絡省略了基團貢獻法中定義和篩選基團的繁瑣過程,實現了特征篩選的自動化,降低了建立模型的難度。基于此,本課題在圖卷積神經網絡神經指紋法的基礎上引入池化操作,建立改進的神經指紋(RNFP)方法,用單體烴沸點和臨界溫度2種數據集驗證RNFP方法的可行性,并基于RNFP方法建立的單體烴辛烷值預測模型,考察該模型預測汽油單體烴辛烷值的效果。
RNFP結構建立在NFP結構的基礎上,其核心原始輸入包括分子的二維圖結構、分子中各原子和化學鍵的特征。這些特征均由查詢開源的化學信息軟件庫獲得。RNFP中涉及3種核心操作:合并、圖卷積和池化,其中池化操作的引入是RNFP與NFP網絡結構最大不同。
圖1為RNFP方法中3種操作的示意。需要說明的是:圖中所示的原子特征和化學鍵特征的維度與實際維度并不相關,僅起到描述操作的作用;同樣,圖中特征的不同色塊僅起示意作用。其中,圖1(a)為RNFP方法的合并操作示意,在此操作中,不考慮分子圖中原子類型的區分,計算時所有原子被視為同等地位,均用藍色標注。分子圖中各原子的特征先經過一個全連接的神經網絡,轉化為一個具有固定維度的向量;各原子經過原子特征的轉化,以加和的形式合并為一個向量,即為該分子的圖特征。
圖1(b)為RNFP方法的圖卷積操作,在此操作中原子會被分為2類:中心原子(紅色)和鄰原子(藍色)。與合并操作類似,中心原子的原子特征會經由一個全連接的神經網絡轉化為一個具有固定維度的向量;而鄰原子則要先將其原子特征和其與中心原子連接的化學鍵特征拼接,再轉化成具有固定維度的向量。然后,中心原子和鄰原子轉化后的向量同樣以加和的方式合并為一個新向量,即新原子特征(黃色),用以替換原中心原子的特征。
池化在卷積神經網絡中也是一種常見的操作,其方式包括求和、取平均值、取最大值等。RNFP采用了取最大值的池化操作,如圖1(c)所示。與圖卷積操作類似,池化操作中也要區分中心原子和鄰原子,但通過取最大值的方式得到新原子特征,并替代原中心原子的特征。圖卷積操作和池化操作都會遍歷分子中每一個原子,即每一個原子都會成為中心原子,并更新為新原子特征。

圖1 RNFP方法的合并、圖卷積和池化操作示意●—普通原子; ●—中心原子; ●—新原子
圖2為RNFP方法的整體結構示意。由圖2可知:RNFP方法的第一步操作只進行了合并操作,計算時不會考慮鄰原子的信息,因此得到的圖特征反映了分子中各原子的信息,即以某原子為中心、半徑為0的結構特征;經過一次圖卷積和池化操作后,各原子的新原子特征中已經包含了相鄰原子的信息,得到的圖特征反映了以某原子為中心、半徑為1個原子的次級結構的圖特征;再進行一次圖卷積操作和池化操作,即可得到反映以某原子為中心、半徑為2個原子的次級結構的圖特征;以此類推,隨著卷積和池化操作的迭代,圖特征反映結構的半徑逐漸擴大,表示的分子結構也逐漸增大;將各部分的圖特征加和,得到的多維向量特征即為該分子的指紋特征。最后,對該指紋特征進行多元線性回歸,即可與目標值關聯,對模型目標的性質進行預測。

圖2 RNFP結構示意●—多元線性回歸自變量
RNFP方法中采用的原子和化學鍵特征均可基于本研究開發的程序獲取。其中,原子特征包括原子類型、原子連接數、隱式化合價、雜化方式、芳香性、環大小;化學鍵特征包括化學鍵類型、是否共軛、是否在環中。若選取6類原子特征拼接在一起,可得到一個維度為70的向量矩陣;若選取3類化學鍵特征拼接在一起,可得到一個維度為6的向量矩陣。
沸點和臨界溫度是單體烴性質關聯模型的重要參數,因而利用對這2種參數的預測可對比神經指紋法改進前后的預測效果。其中,沸點的數據共426組,臨界溫度的數據共420組,均自API Technical Data Book查詢得到。由于數據集較小,采用隨機抽樣的方式分配訓練集和測試集,可能會導致訓練集和測試集數據分布不均,造成較大偏差。考慮到QSPR方法對結構的敏感性,同一分子結構,要盡量保證在測試集和訓練集中同時出現。因此,先用Butina聚類算法[21]將數據集中的單體烴按分子結構分類,然后按結構類別抽取各類分子組成測試集。最后將384組沸點數據集劃分為訓練集,42組劃分為測試集;將380組臨界溫度數據集劃分為訓練集,40組劃分為測試集。

圖3 NFP和RNFP方法訓練單體烴沸點數據集的實驗值和預測值●—訓練集; ◆—測試集。圖4、圖5同

圖4 NFP和RNFP方法訓練單體烴臨界溫度數據集的實驗值和預測值
采用改進前后神經指紋法對單體烴的沸點和臨界溫度的預測效果如圖3和圖4所示,而表1為2種方法預測的均方根誤差(RMSE)和決定系數(R2)。由圖3、圖4和表1可以看出:采用NFP方法對沸點和臨界溫度數據的訓練結果并不理想,誤差較大;而RNFP訓練精度有明顯提升,其預測值與實驗值的重合度很高,說明池化操作的引入有助于訓練預測精度的提升。

表1 NFP和RNFP方法訓練單體烴沸點和臨界溫度數據集的效果
單體烴RON和MON的數據集分別包括240和241組數據。從數據分布上看,單體烴的RON主要集中在80~120;而其MON稍微偏低,為60~100。為了使訓練集中的單體烴有代表性,先用Butina聚類算法[21]劃分數據集。其中:RON訓練集包含220組數據,測試集包含20組數據;MON訓練集包含220組數據,測試集包含21組數據。
圖5為基于RNFP模型得到的RON和MON預測值與實驗值比較;表2為RNFP模型預測結果的RMSE和R2。由圖5和表2可以看出,RNFP模型對單體烴RON和MON的預測值與實驗值基本相符,測試集和訓練集的RMSE都較小。以往研究表明[11],MON的預測效果通常比RON的預測效果差。而基于RNFP方法,汽油單體烴RON預測模型的訓練集和測試集的R2分別達到0.995 2和0.959 9;MON預測模型訓練集和測試集的R2分別達到0.996 8和0.969 2。說明RNFP模型對單體烴MON和RON的預測精度達到了同等水平。

圖5 RNFP模型訓練單體烴RON和MON的預測值與實驗值比較

表2 RNFP模型預測單體烴RON和MON的效果
模型訓練完成后,分子中各個原子最終的原子特征被稱為激活值。通過統計各原子的激活值,可以反映分子結構對單體烴性質的貢獻度。激活值為正,則對單體烴性質為正貢獻;反之,則為負貢獻。表3和表4分別為RNFP模型對單體烴RON和MON有較大貢獻結構的預測結果,表中藍色的分子結構與結構激活值一一對應。

表3 RNFP模型對單體烴RON貢獻較大結構的預測結果

表4 RNFP模型對單體烴MON貢獻較大結構的預測結果
由表3可見:對單體烴RON正貢獻較大的結構有多支鏈的烷烴結構、環烷烴結構及芳烴結構等,這與異構烷烴和芳烴的RON較高的常識相符;環烷烴的RON也相對較高,但會隨著環烷烴側鏈的變長而迅速下降,因此正貢獻較大環烷烴特征結構為具有多個短側鏈,而不是帶有長側鏈;對RON負貢獻較大的結構主要為較長的直鏈烷烴結構和側鏈較長的環烷烴結構,證明了長直鏈烷烴結構對提高單體烴的RON不利。
由表4可見:與單體烴RON類似,多支鏈的烷烴結構和環烷烴結構依然對單體烴MON有利;但不同的是芳烴結構對單體烴MON的影響較小,而雙鍵結構的影響較大。這與常識稍有不同,可能也是單體烴MON預測模型不易訓練的原因之一。對單體烴MON負貢獻較大的結構同樣是長直鏈的烷烴結構。
相比傳統的基團貢獻法,RNFP方法不需要人工定義和篩選特征基團,降低了使用難度。相比NFP方法,RNFP方法引入了池化操作,通過單體烴沸點和臨界溫度數據集的驗證表明,RNFP的預測效果明顯好于NFP,說明池化操作的引入提高了模型的預測精度。基于RNFP方法,汽油單體烴RON預測模型的訓練集和測試集的R2分別達到0.995 2和0.959 9;MON預測模型訓練集和測試集的R2分別達到0.996 8和0.969 2,說明模型對單體烴RON和MON的預測精度達到了同等水平。
通過對RNFP選取特征結構的可視化,發現對單體烴RON正貢獻較大的結構有多支鏈的烷烴結構、環烷烴結構及芳烴結構等,對單體烴RON負貢獻較大的結構主要為較長的直鏈烷烴結構和側鏈較長的環烷烴結構。對單體烴的MON,雙鍵結構的影響比芳環的影響更大。將化學常識與模型自動篩選的特征對比,有利于進一步研究結構與性質的關系。