田璐瑤,王梓豪,粟楊,文華強(qiáng),申威峰
(重慶大學(xué)化學(xué)化工學(xué)院,化工過程強(qiáng)化與反應(yīng)國家地方聯(lián)合工程實(shí)驗(yàn)室,重慶401331)
準(zhǔn)確可靠的定量構(gòu)效關(guān)系模型是計(jì)算機(jī)輔助溶劑分子設(shè)計(jì)的重要基礎(chǔ),被廣泛應(yīng)用于溶劑篩選、性質(zhì)預(yù)測、過程模擬、風(fēng)險(xiǎn)評估等化工產(chǎn)品與過程開發(fā)及設(shè)計(jì)工作中,降低了實(shí)驗(yàn)所需的人力和物力,加速了新型綠色溶劑設(shè)計(jì)的開發(fā)進(jìn)程[1?2]。經(jīng)典的定量構(gòu)效關(guān)系建模主要包含兩部分工作:分子結(jié)構(gòu)的定量描述和目標(biāo)性質(zhì)的數(shù)學(xué)關(guān)聯(lián)。但是,設(shè)計(jì)一種精巧的分子結(jié)構(gòu)描述模型需要由具有豐富知識與經(jīng)驗(yàn)的專業(yè)人員完成;同時,性質(zhì)與分子結(jié)構(gòu)數(shù)值化特征的數(shù)學(xué)關(guān)聯(lián)需由人工的統(tǒng)計(jì)學(xué)分析完成[3]。近幾十年來,隨著化合物種類的指數(shù)型增長,發(fā)現(xiàn)將新的候選化合物作為潛在的綠色溶劑具有重要的研究價(jià)值[4]。但是,經(jīng)典的定量構(gòu)效關(guān)系模型難以滿足溶劑分子大范圍評估與篩選的需求。因此,實(shí)現(xiàn)自動化的定量構(gòu)效關(guān)系建模,并開發(fā)智能化且描述能力更強(qiáng)的構(gòu)效關(guān)系建模方法具有重要意義[5]。
隨著計(jì)算科學(xué)與人工智能技術(shù)的快速發(fā)展,借助高性能計(jì)算平臺和深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)多維度的大數(shù)據(jù)分析和關(guān)鍵特征的自動提取,這使得深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域得到了廣泛應(yīng)用。受此啟發(fā),化學(xué)研究者們近期提出了基于深度學(xué)習(xí)技術(shù)描述分子結(jié)構(gòu)的圖像、拓?fù)浜臀谋镜姆椒ǎ⒊晒?yīng)用于化合物的基礎(chǔ)物性、環(huán)境、健康和安全等重要性質(zhì)的預(yù)測[6?8]。相對于經(jīng)典的性質(zhì)預(yù)測模型而言,基于深度學(xué)習(xí)技術(shù)的定量構(gòu)效關(guān)系模型可實(shí)現(xiàn)分子結(jié)構(gòu)特征的自動提取以及分子描述符和性質(zhì)的關(guān)聯(lián),并且具備了更強(qiáng)的非線性關(guān)聯(lián)能力。因此,深度學(xué)習(xí)模型可以描述更加廣闊的化學(xué)空間和更復(fù)雜的函數(shù)關(guān)系,使得采用計(jì)算機(jī)在較大的潛在化學(xué)空間中自動化地篩選候選溶劑成為了可能,從而實(shí)現(xiàn)智能化的溶劑設(shè)計(jì)[9?11]。并且,該模型可以為復(fù)雜體系特殊精餾過程涉及的功能性溶劑(如萃取劑、共沸劑等)提供高效便捷的智能化設(shè)計(jì)工具,降低特殊精餾過程的潛在環(huán)境、健康與安全風(fēng)險(xiǎn)[12?13]。
定量構(gòu)效關(guān)系模型的構(gòu)建基于化合物性質(zhì)與分子結(jié)構(gòu)間存在的強(qiáng)相關(guān)性。其建模策略是將分子結(jié)構(gòu)特征數(shù)值化并與目標(biāo)性質(zhì)進(jìn)行數(shù)學(xué)關(guān)聯(lián),實(shí)現(xiàn)定量構(gòu)效關(guān)系的建模[14],解決化合物性質(zhì)值缺失或?qū)嶒?yàn)測量難以實(shí)現(xiàn)等難題,實(shí)現(xiàn)化合物性質(zhì)的較高精度預(yù)測并加速新型化學(xué)品的開發(fā)進(jìn)程[15?17]。
在構(gòu)效關(guān)系建模過程中,首先需選取分子結(jié)構(gòu)特征的描述及編碼模型,將分子結(jié)構(gòu)信息(如元素類型、原子空間位置、電荷分布、官能團(tuán)等)具象化為定量的數(shù)值型描述符[18]。經(jīng)典的定量構(gòu)效關(guān)系建模常用的分子結(jié)構(gòu)特征描述及編碼方法有基團(tuán)貢獻(xiàn)法、拓?fù)渲笖?shù)法、簽名描述符等[10]。
1.1.1 基團(tuán)貢獻(xiàn)法 在基團(tuán)貢獻(xiàn)法中,基團(tuán)是由原子與化學(xué)鍵構(gòu)成的子結(jié)構(gòu)片段,且分子結(jié)構(gòu)被視為基團(tuán)的組合,如圖1 所示。該方法假設(shè)每種基團(tuán)對目標(biāo)性質(zhì)具有確定的貢獻(xiàn)值,分子的性質(zhì)值則可以通過各基團(tuán)的貢獻(xiàn)值與其出現(xiàn)頻次乘積的加和得到[19],其函數(shù)表達(dá)如式(1)所示。

圖1 基團(tuán)貢獻(xiàn)法表示的乙醇分子Fig.1 Ethanol molecule represented using the group contribution method

式中,P 是目標(biāo)性質(zhì)值;cg是基團(tuán)g 的貢獻(xiàn)值;ng是基團(tuán)g 在分子中出現(xiàn)的頻次;f 函數(shù)為(非)線性轉(zhuǎn)換。
基團(tuán)貢獻(xiàn)法因具有模型簡單、計(jì)算快速等優(yōu)點(diǎn)得到了廣泛的應(yīng)用。例如,Gmehling 等[20]提出的UNIFAC 基團(tuán)貢獻(xiàn)法可以用于各種有機(jī)物體系的相平衡計(jì)算;Joback 等[21]提出的基團(tuán)貢獻(xiàn)法用于預(yù)測有機(jī)物臨界性質(zhì),并被廣泛應(yīng)用于過程設(shè)計(jì);Frutiger 等[22]提出了一種新的基團(tuán)貢獻(xiàn)法用于預(yù)測有機(jī)物的燃燒熱,呈現(xiàn)較高的預(yù)測精度與應(yīng)用便捷性。并且,基團(tuán)貢獻(xiàn)法可構(gòu)建用于分子設(shè)計(jì)的線性規(guī)劃模型[23?24]。盡管基團(tuán)貢獻(xiàn)法是應(yīng)用較為廣泛的分子結(jié)構(gòu)表達(dá)方法,但其未考慮各基團(tuán)的排列順序和連接方式,因此在識別與區(qū)分異構(gòu)體時存在一定的局限性[23]。值得注意的是,Gani 等[25]提出的多層次基團(tuán)貢獻(xiàn)法具備一定的異構(gòu)體分辨能力,擴(kuò)展了基團(tuán)貢獻(xiàn)法的應(yīng)用范圍。
1.1.2 拓?fù)渲笖?shù)法 分子圖是分子結(jié)構(gòu)的拓?fù)浔磉_(dá),其頂點(diǎn)和邊分別對應(yīng)分子結(jié)構(gòu)中的原子和化學(xué)鍵[26]。基于圖論的理論,通過計(jì)算分子拓?fù)渲笖?shù)可以描述原子的頂點(diǎn)度、連通性、原子類型等分子圖屬性[27]。例如,Wiener 指數(shù)[28]作為最經(jīng)典且研究最早的拓?fù)渲笖?shù)之一,描述了圖中所有原子之間的總距離。Randic[29]提出分子連通性指數(shù)用于量化烷烴分子結(jié)構(gòu)的分支程度,并基于此構(gòu)建了烷烴類化合物的熔化焓和蒸氣壓預(yù)測模型。此外,Gani 等[25]使用連通性指數(shù)預(yù)測新基團(tuán)的貢獻(xiàn)值,改善了基團(tuán)貢獻(xiàn)法的適用范圍。
該方法計(jì)算較為簡便,對分子骨架有較強(qiáng)的描述能力。但是,拓?fù)渲笖?shù)所描述的分子圖屬性是基于二維空間的分子結(jié)構(gòu)的近似表達(dá),頂點(diǎn)之間的距離并非三維空間中原子之間的真實(shí)距離,且拓?fù)渲笖?shù)未考慮圖中的化學(xué)信息,因此,拓?fù)渲笖?shù)在區(qū)分類似的分子結(jié)構(gòu)時存在一定的局限性[30?31]。
1.1.3 簽名描述符法 簽名描述符既可以表示為類似基團(tuán)貢獻(xiàn)法的子結(jié)構(gòu)形式,也可以轉(zhuǎn)換為描述整個分子結(jié)構(gòu)的拓?fù)渲笖?shù)形式[32]。從指定的某原子出發(fā),遍歷一定高度內(nèi)的所有原子產(chǎn)生有向非環(huán)圖得到原子簽名[3]。因此,一個分子的性質(zhì)P,可以由某一固定高度下基于每個原子得到的原子簽名進(jìn)行關(guān)聯(lián),如式(2)所示。

式中,d 是當(dāng)前原子簽名描述符集合的起點(diǎn)原子;Di是高度為i的簽名描述符集合;cd為回歸系數(shù);iαG(d)表示原子描述符d出現(xiàn)的次數(shù)[26]。
Weis 等[33]將簽名描述符成功應(yīng)用于溶劑篩選,并從環(huán)境、健康與安全角度進(jìn)行溶劑分子的設(shè)計(jì)。Chen 等[34]使用簽名描述符實(shí)現(xiàn)藥物分子的高通量篩選,并應(yīng)用于新型藥物的研發(fā)。簽名描述符不僅可以記錄各原子的化學(xué)信息,而且可以捕獲分子中各原子間連接信息的全貌,因此具有良好的異構(gòu)體鑒別能力。
在分子結(jié)構(gòu)信息得到量化之后,需要運(yùn)用建模方法將其與目標(biāo)性質(zhì)進(jìn)行關(guān)聯(lián),從而實(shí)現(xiàn)性質(zhì)預(yù)測模型的構(gòu)建[10]。用于性質(zhì)關(guān)聯(lián)的數(shù)學(xué)工具主要有多元(非)線性回歸、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。其中,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)是較為流行的機(jī)器學(xué)習(xí)算法,在處理高維分子特征與復(fù)雜非線性關(guān)系時更為有效[18]。本節(jié)將介紹這幾種最常見的經(jīng)典定量構(gòu)效關(guān)系建模方法。
1.2.1 多元線性回歸 多元線性回歸基于多個獨(dú)立變量擬合目標(biāo)值并建立線性回歸模型[35],具有結(jié)構(gòu)簡單和計(jì)算快速等優(yōu)點(diǎn)。多元線性回歸方程的廣義數(shù)學(xué)表達(dá)如式(3)所示。

式中,Y 是因變量,即構(gòu)效關(guān)系模型的目標(biāo)性質(zhì)值的期望值;X1,X2,…,Xn是自變量,即構(gòu)效關(guān)系模型中使用的分子描述符;a1,a2,…,an是各自變量的回歸系數(shù);a0是常數(shù)項(xiàng)。該模型可以通過核函數(shù),轉(zhuǎn)換為非線性模型。
該模型常應(yīng)用于基于基團(tuán)貢獻(xiàn)法的定量構(gòu)效關(guān)系建模。Pan 等[36]采用結(jié)合遺傳算法的多元線性回歸構(gòu)建模型預(yù)測有機(jī)化合物的燃燒極限,結(jié)果表明所得多元線性模型足以對大多數(shù)有機(jī)化合物快速地做出較為準(zhǔn)確的預(yù)測。通過多元線性回歸所建立的模型,在分析多因素的影響時表現(xiàn)更便捷且更具可解釋性[24,37?38],也便于進(jìn)行模型的不確定性分析。然而,在實(shí)際應(yīng)用中,此方法的性能對于分子描述符的選擇較為敏感,并且由于模型結(jié)構(gòu)的限制難以擬合復(fù)雜的非線性關(guān)系,在大規(guī)模的數(shù)據(jù)集上無法取得很好的精度[39]。
1.2.2 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)是一種模擬人類大腦及神經(jīng)系統(tǒng)工作的機(jī)器學(xué)習(xí)方法。在由神經(jīng)元組成的多層計(jì)算網(wǎng)絡(luò)中,變量由輸入層傳入,再通過隱藏層的轉(zhuǎn)換后,最終在輸出層得到計(jì)算結(jié)果。在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,常利用反向傳播算法對人工神經(jīng)網(wǎng)絡(luò)模型中神經(jīng)元的權(quán)值和偏差進(jìn)行更新,以建立一個能夠更好地描述輸入變量與目標(biāo)值之間關(guān)系的模型[40?42]。為使模型具備更強(qiáng)的擬合能力,通過在人工神經(jīng)網(wǎng)絡(luò)的隱藏層之間引入激活函數(shù)以提高模型的復(fù)雜性。與多元線性回歸不同的是,人工神經(jīng)網(wǎng)絡(luò)可以用于處理復(fù)雜任務(wù)中的非線性數(shù)學(xué)建模,以針對分子結(jié)構(gòu)和相關(guān)的理化性質(zhì)建立數(shù)學(xué)模型。圖2展示了基于人工神經(jīng)網(wǎng)絡(luò)預(yù)測化合物性質(zhì)值的實(shí)現(xiàn)途徑。

圖2 基于人工神經(jīng)網(wǎng)絡(luò)的化合物性質(zhì)預(yù)測Fig.2 Property prediction of compounds using the artificial neural network
人工神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的學(xué)習(xí)和自適應(yīng)能力,在捕獲數(shù)據(jù)過程中處理非線性關(guān)系時也是非常有效的[43?44],因此人工神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)分子結(jié)構(gòu)和相關(guān)的性質(zhì)之間復(fù)雜的非線性建模。例如,Eslamimanesh 等[45?46]使用人工神經(jīng)網(wǎng)絡(luò)估算了常見的24 種離子液體和21 種常用固態(tài)化合物在超臨界二氧化碳中的溶解度,預(yù)測值與實(shí)驗(yàn)值的平均絕對偏差表明該模型具有良好的預(yù)測效果。
1.2.3 支持向量機(jī) 支持向量機(jī)是一種可以用于實(shí)現(xiàn)分類、回歸與離群值檢測的機(jī)器學(xué)習(xí)方法。對于性質(zhì)預(yù)測常涉及的回歸問題,支持向量機(jī)基于樣本的特征空間構(gòu)造超平面,使數(shù)據(jù)點(diǎn)盡可能接近超平面,以獲取預(yù)測性能更好的模型[47]。同時,核函數(shù)的引入使得支持向量機(jī)算法可以執(zhí)行更為復(fù)雜的非線性任務(wù),通過對比不同核函數(shù)在特定任務(wù)下表現(xiàn)的性能,從中選擇合適的核函數(shù)可以有效地提高模型的預(yù)測性能。
支持向量機(jī)的建模過程可以視為凸優(yōu)化問題,借助優(yōu)化算法可得到目標(biāo)函數(shù)的全局最優(yōu)解,以此獲取全局最優(yōu)模型。在大多數(shù)情況下,基于支持向量機(jī)算法的預(yù)測模型通常會優(yōu)于基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測模型,被應(yīng)用于理化性質(zhì)預(yù)測建模的構(gòu)建[47]。例如,Pan 等[48]基于支持向量機(jī)擬合了官能團(tuán)與閃點(diǎn)之間可能存在的定量關(guān)系,對數(shù)據(jù)集采用交叉驗(yàn)證的方法得到支持向量機(jī)的最優(yōu)參數(shù)。使用最終優(yōu)化得到的支持向量機(jī)模型進(jìn)行模擬,結(jié)果表明,預(yù)測的閃點(diǎn)值與實(shí)驗(yàn)數(shù)據(jù)吻合較好。He 等[49]提出了基于支持向量機(jī)的有機(jī)過氧化物自加速分解溫度預(yù)測模型,通過對比多元線性回歸和支持向量機(jī)預(yù)測模型對訓(xùn)練集和測試集的平均絕對誤差,驗(yàn)證得到后者的預(yù)測性能明顯優(yōu)于前者。
隨著人工智能技術(shù)和計(jì)算機(jī)運(yùn)算能力的迅速發(fā)展,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得突破性進(jìn)展與成功應(yīng)用,成為了當(dāng)下的研究熱點(diǎn)[50]。深度學(xué)習(xí)隸屬于機(jī)器學(xué)習(xí)領(lǐng)域,但深度學(xué)習(xí)區(qū)別于經(jīng)典機(jī)器學(xué)習(xí)的最明顯特征是深度學(xué)習(xí)不包含顯式的特征工程。圖3展示了經(jīng)典的機(jī)器學(xué)習(xí)技術(shù)與深度學(xué)習(xí)技術(shù)在化合物性質(zhì)預(yù)測建模中的區(qū)別。

圖3 經(jīng)典機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在預(yù)測建模中的區(qū)別Fig.3 Difference between classic machine learning methods and deep learning techniques in predictive modeling
在已有的深度學(xué)習(xí)定量構(gòu)效關(guān)系建模研究中,其中一類研究是使用深度學(xué)習(xí)替代人工的統(tǒng)計(jì)學(xué)分析以提高計(jì)算效率,采用大量的分子描述符(數(shù)千種或數(shù)萬種描述符)表征分子結(jié)構(gòu)信息,并基于深度學(xué)習(xí)來關(guān)聯(lián)目標(biāo)性質(zhì)或?qū)衔镞M(jìn)行分類[51?52]。另一類研究使用深度學(xué)習(xí)直接對以圖或文字形式表示的分子結(jié)構(gòu)進(jìn)行學(xué)習(xí),并基于矢量化的分子信息關(guān)聯(lián)目標(biāo)性質(zhì)。研究者基于不同的深度學(xué)習(xí)方法構(gòu)建了多種構(gòu)效關(guān)系模型,如表1所示。

表1 基于深度學(xué)習(xí)的定量構(gòu)效關(guān)系研究Table 1 Studies of deep learning based quantitative structure-property relationship
深度信念網(wǎng)絡(luò)中的受限玻爾茲曼機(jī)可基于輸入矢量以無監(jiān)督學(xué)習(xí)的方式生成特征向量,并在監(jiān)督學(xué)習(xí)下實(shí)現(xiàn)目標(biāo)特性的關(guān)聯(lián)。遞歸神經(jīng)網(wǎng)絡(luò)則是通過遍歷分子結(jié)構(gòu)的無向圖,自動提取用于表征分子結(jié)構(gòu)的特征實(shí)現(xiàn)目標(biāo)特性的關(guān)聯(lián),可以避免依賴于化學(xué)知識的人工特征提取過程。卷積神經(jīng)網(wǎng)絡(luò)可直接處理二維的分子結(jié)構(gòu)圖片并提取特征,與基于分子圖的遞歸神經(jīng)網(wǎng)絡(luò)類似,兩者均不依賴于數(shù)值化的分子描述符或分子指紋。上述的深度學(xué)習(xí)方法均要依賴于大量的樣本數(shù)據(jù)減輕模型訓(xùn)練的過擬合問題以提高模型泛化能力。相較于此,長短期記憶?卷積神經(jīng)網(wǎng)絡(luò)可在有限的數(shù)據(jù)上呈現(xiàn)較強(qiáng)的模型泛化能力,同樣地,該神經(jīng)網(wǎng)絡(luò)框架也是通過對二維的分子結(jié)構(gòu)圖片進(jìn)行處理并提取特征,實(shí)現(xiàn)目標(biāo)特性的關(guān)聯(lián)。
盡管深度學(xué)習(xí)技術(shù)在分子結(jié)構(gòu)的精準(zhǔn)識別上呈現(xiàn)了較大的潛力,但是由于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,預(yù)測模型的構(gòu)建及應(yīng)用過程中均會消耗大量的計(jì)算資源,因此基于深度學(xué)習(xí)的預(yù)測模型構(gòu)建對計(jì)算機(jī)硬件性能和運(yùn)算加速平臺均有較高的要求。
在溶劑設(shè)計(jì)中評估候選化合物的溶解能力、循環(huán)利用價(jià)值,需要溶劑的熱力學(xué)性質(zhì),涉及臨界性質(zhì)、熔沸點(diǎn)及相平衡計(jì)算等。在以往的構(gòu)效關(guān)系研究中,這類性質(zhì)通常由基團(tuán)貢獻(xiàn)法預(yù)測,但是,基團(tuán)貢獻(xiàn)法具有忽略基團(tuán)間連接方式、異構(gòu)體識別能力有限等局限性[57?59]。Su 等[6]開發(fā)了一種基于非環(huán)有向圖的分子結(jié)構(gòu)編碼算法,通過嵌入算法和樹形長短期記憶網(wǎng)絡(luò)對分子結(jié)構(gòu)進(jìn)行矢量化,并基于此提出了用于構(gòu)建基礎(chǔ)物性預(yù)測模型的新型深度學(xué)習(xí)框架,如圖4 所示。此深度學(xué)習(xí)框架耦合了用于映射分子樹形結(jié)構(gòu)和輸出特征向量的樹形神經(jīng)網(wǎng)絡(luò),以及實(shí)現(xiàn)化合物結(jié)構(gòu)與性質(zhì)關(guān)聯(lián)的前饋神經(jīng)網(wǎng)絡(luò)。
Lim 等[60]提出了一種新穎的計(jì)算有機(jī)溶劑中溶劑化自由能的深度學(xué)習(xí)模型Delfos,可預(yù)測各種有機(jī)溶質(zhì)和溶劑系統(tǒng)的溶劑化自由能。該模型的特別之處在于運(yùn)用兩個單獨(dú)的溶劑和溶質(zhì)編碼器網(wǎng)絡(luò),使用詞嵌入和遞歸層來量化給定化合物的結(jié)構(gòu)特征,并增加了從遞歸神經(jīng)網(wǎng)絡(luò)輸出中提取重要子結(jié)構(gòu)的注意力機(jī)制。研究者對2495個溶質(zhì)?溶劑組合進(jìn)行大量計(jì)算,同時也分析了各種分子子結(jié)構(gòu)對溶劑化過程的影響,結(jié)果表明Delfos 模型擁有與最先進(jìn)的計(jì)算化學(xué)方法相媲美的潛力。
這些研究表明了分子識別描述符與神經(jīng)網(wǎng)絡(luò)的耦合作用在表征分子拓?fù)浣Y(jié)構(gòu)和捕獲分子結(jié)構(gòu)特征的優(yōu)越性,進(jìn)一步驗(yàn)證了基于深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動建模的優(yōu)勢,并為符合特定使用場景的可持續(xù)過程設(shè)計(jì)及產(chǎn)品開發(fā)提供基礎(chǔ)數(shù)據(jù)及重要的理論支撐[61?63]。

圖4 基于深度學(xué)習(xí)的構(gòu)效關(guān)系預(yù)測模型開發(fā)Fig.4 Development of predictive models for structure?property relationships based on the deep learning
由于環(huán)境影響在分子設(shè)計(jì)、化學(xué)合成與產(chǎn)品開發(fā)等領(lǐng)域中是必須考慮的因素[64?65]。其中,化學(xué)需氧量(COD)作為評價(jià)環(huán)境中水體污染物相對含量的重要指標(biāo),能較快測定有機(jī)物在工業(yè)廢水中的污染程度。但是,污水流量常處于不穩(wěn)定狀態(tài),這使得污水的COD 難以準(zhǔn)確預(yù)測。因此,如何建立高精度的COD 預(yù)測模型是解決城市污水處理廠高能耗問題的關(guān)鍵。傳統(tǒng)的模型開發(fā)過程中分子特征選擇存在人為干預(yù)、拓?fù)涮卣骰蚍肿用枋龇^多等問題,限制了預(yù)測模型的廣泛應(yīng)用。Wang 等[66]基于長短期記憶?卷積神經(jīng)網(wǎng)絡(luò)(LSTM?CNN)深度學(xué)習(xí)算法,提出了一種城市污水COD 動態(tài)預(yù)測模型,收集城市污水處理廠的實(shí)時數(shù)據(jù)并進(jìn)行訓(xùn)練。預(yù)測結(jié)果表明,與單獨(dú)的CNN 或LSTM 模型相比,LSTM?CNN 模型具有更高的預(yù)測精度和更好的預(yù)測性能。高精度的COD 含量預(yù)測模型為制定污水處理廠曝氣系統(tǒng)的先進(jìn)控制策略提供了依據(jù)。
此外,環(huán)境性質(zhì)如辛醇水分配系數(shù),衡量了化學(xué)物質(zhì)在脂質(zhì)和水相之間的平衡與分布,可作為溶劑選擇的物化標(biāo)準(zhǔn)。Wang 等[67]運(yùn)用Tree?LSTM(樹形長短期記憶)網(wǎng)絡(luò)捕獲分子中原子的連接性,并耦合簽名描述符實(shí)現(xiàn)分子特征的自動提取,進(jìn)一步結(jié)合前饋神經(jīng)網(wǎng)絡(luò)用于構(gòu)建化合物環(huán)境性質(zhì)的預(yù)測模型。研究者基于上萬種化合物的結(jié)構(gòu)與辛醇水分配系數(shù),驗(yàn)證所提出的深度學(xué)習(xí)方法在關(guān)聯(lián)大規(guī)模數(shù)據(jù)上的潛力,并實(shí)現(xiàn)了在無人為干預(yù)條件下分子特征的提取和構(gòu)效關(guān)系的智能化建模。如圖5所示,所構(gòu)建的預(yù)測模型呈現(xiàn)了較好的預(yù)測性能和外推能力,以及良好的模型應(yīng)用域。盡管這一研究專注于預(yù)測辛醇水分配系數(shù)以度量有機(jī)化合物的親脂性,但所提出的深度學(xué)習(xí)方法可以進(jìn)一步推廣到其他重要環(huán)境性質(zhì)如水溶性和生物富集因子的預(yù)測模型構(gòu)建,并作為一種智能化的工具指導(dǎo)綠色溶劑的篩選與開發(fā)以及計(jì)算機(jī)輔助分子與過程設(shè)計(jì)[68]。
許多化學(xué)品的安全性質(zhì)是有機(jī)物在工業(yè)過程危險(xiǎn)評估中必須考慮的因素。因此,通過構(gòu)建模型來預(yù)測化學(xué)品安全性質(zhì)也是十分必要的[69?71]。例如,Mayr 等[72]構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,通過處理和學(xué)習(xí)高信息量的化學(xué)特征,提高了對化學(xué)品毒性的預(yù)測能力,并進(jìn)一步分析了各層神經(jīng)元與毒理基團(tuán)在性質(zhì)預(yù)測時發(fā)揮的作用與聯(lián)系;Xu 等[73]開發(fā)了一種改進(jìn)的分子圖編碼卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),利用深度學(xué)習(xí)的特征自動學(xué)習(xí)能力,不僅實(shí)現(xiàn)了急性口服毒性(AOT)的高效預(yù)測,還反向挖掘出致使化學(xué)品具有高AOT 的相關(guān)分子子結(jié)構(gòu);Fernandez 等[74]使用二維卷積神經(jīng)網(wǎng)絡(luò),直接從二維分子圖信息提取抽象的結(jié)構(gòu)特征,驗(yàn)證了深度學(xué)習(xí)技術(shù)在毒性預(yù)測中的高精確度。

圖5 基于深度學(xué)習(xí)的構(gòu)效關(guān)系模型分析Fig.5 Analyses of the deep learning based predictive model of the structure?property relationship
此外,在化工產(chǎn)品開發(fā)及分離過程設(shè)計(jì)中,可燃性作為極為重要的安全性質(zhì)之一,主要涉及自燃溫度、閃點(diǎn)和易燃極限[42,48,75]。一些研究人員通過構(gòu)效關(guān)系的關(guān)聯(lián)實(shí)現(xiàn)了可燃性的預(yù)測,但是此類模型都是基于人工篩選的分子特征描述符建立的,未能實(shí)現(xiàn)分子特征的自動提取與模型的智能化構(gòu)建。并且,可燃性研究中單個模型通常僅適用于單個性質(zhì),無法同時為多種相關(guān)性質(zhì)展開預(yù)測。Wenzel等[8]基于深度學(xué)習(xí)技術(shù)構(gòu)建了多任務(wù)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)單個模型對多種可燃性質(zhì)的智能化預(yù)測,其工作原理如圖6所示。這一思路可以借助聯(lián)合訓(xùn)練與交替訓(xùn)練提取多種相關(guān)性質(zhì)之間的異同,并實(shí)現(xiàn)損失函數(shù)的快速收斂,構(gòu)建的預(yù)測模型可以進(jìn)行多種可燃性質(zhì)的同步預(yù)測,有效提高多任務(wù)學(xué)習(xí)的效率。
在萃取精餾工藝設(shè)計(jì)與開發(fā)過程中,在有限的設(shè)計(jì)空間內(nèi)首先選擇的是工藝中所需萃取溶劑分子[76]。最經(jīng)典的研究是從分子層面探究形成共沸的機(jī)理,研究者們應(yīng)用熱力學(xué)理論初步篩選出候選萃取溶劑,并進(jìn)一步采用相對揮發(fā)度、溶劑選擇性、無限稀釋活度系數(shù)、模糊決策等理論知識作為輔助手段來選擇最佳的萃取溶劑[12?13],通過減少萃取劑用量以期實(shí)現(xiàn)清潔生產(chǎn)與節(jié)能減排的目標(biāo)。例如,Austin 等[77]使 用COSMO(conduct?like screening model)模型開展計(jì)算機(jī)輔助混合物的設(shè)計(jì),該方法無須二元交互參數(shù),只依賴于分子體積和電荷密度分布來估計(jì)溶液性質(zhì),這使得基于量化計(jì)算的高精度分子信息可以耦合至混合物設(shè)計(jì)研究中。在確定工藝中所需溶劑后,可以進(jìn)一步優(yōu)化工藝流程和操作條件。然而,這種連續(xù)的決策過程會限制分子設(shè)計(jì)空間,并忽視分子與工藝過程之間的內(nèi)在聯(lián)系,從而導(dǎo)致預(yù)測性能不佳。因此,在解決此類設(shè)計(jì)問題時無論是基于技術(shù)經(jīng)濟(jì)問題還是基于環(huán)境健康指標(biāo),分子設(shè)計(jì)中的性質(zhì)預(yù)測建模都需要考慮多項(xiàng)指標(biāo)[5]。針對計(jì)算機(jī)輔助分子和過程設(shè)計(jì)研究所涉及的多目標(biāo)優(yōu)化問題,Lee等[78]系統(tǒng)地比較了五種混合整數(shù)非線性規(guī)劃的多目標(biāo)優(yōu)化算法,以評估它們在分子設(shè)計(jì)與分子及過程設(shè)計(jì)中的性能,此類研究為多目標(biāo)分子設(shè)計(jì)問題提供了理論基礎(chǔ),可有效提高計(jì)算機(jī)輔助分子和過程設(shè)計(jì)問題在多目標(biāo)優(yōu)化中獲取帕累托前沿的效率。

圖6 多任務(wù)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架Fig.6 Framework of the multitask deep learning neural network
鑒于近年來科學(xué)研究領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)技術(shù)在溶劑分子的設(shè)計(jì)與開發(fā)應(yīng)用上展現(xiàn)出了良好的前景。前文所述的深度學(xué)習(xí)定量構(gòu)效關(guān)系模型不僅可用于溶劑的基礎(chǔ)物性、環(huán)境性質(zhì)、安全性質(zhì)的預(yù)測,也可以為萃取精餾中溶劑分子的篩選與設(shè)計(jì)提供用于決策過程所需的相關(guān)性質(zhì)數(shù)據(jù)。在萃取精餾或共沸精餾過程中,無法完全避免使用在安全、健康和環(huán)境(SH&E)方面存在較高風(fēng)險(xiǎn)的溶劑[79]。因此,在溶劑分子設(shè)計(jì)的初始階段,通過開發(fā)基于深度學(xué)習(xí)的智能化的溶劑潛在SH&E風(fēng)險(xiǎn)評估模型,可以高效地獲取溶劑的風(fēng)險(xiǎn)評估結(jié)果,減少對實(shí)驗(yàn)性質(zhì)數(shù)據(jù)的依賴,加速溶劑的篩選與開發(fā)進(jìn)程[80?81]。例如由歐盟制定的CHEM21 溶劑篩選規(guī)則[82],根據(jù)溶劑的沸點(diǎn)、閃點(diǎn)及危害標(biāo)簽對其潛在SH&E 風(fēng)險(xiǎn)進(jìn)行評估,可為綠色溶劑篩選提供有價(jià)值且重要的依據(jù)。另外,基于深度學(xué)習(xí)的溶劑定量構(gòu)效關(guān)系模型無法由準(zhǔn)確的數(shù)學(xué)公式表達(dá),故難以作為目標(biāo)函數(shù)在常規(guī)的混合整數(shù)(非)線性規(guī)劃問題求解器中用確定性算法快速求解,但可以作為性質(zhì)約束的計(jì)算模型參與到常規(guī)分子設(shè)計(jì)模型的運(yùn)算中[83]。進(jìn)化算法隨機(jī)地產(chǎn)生分子結(jié)構(gòu),并通過類似自然界生物進(jìn)化優(yōu)選的方式,實(shí)現(xiàn)目標(biāo)函數(shù)的優(yōu)化,其不需要計(jì)算目標(biāo)函數(shù)的梯度信息,且該算法具有全局優(yōu)化能力。因此,當(dāng)采用深度學(xué)習(xí)模型作為分子設(shè)計(jì)問題的目標(biāo)函數(shù)計(jì)算模型時,優(yōu)化算法適合選用進(jìn)化算法[84]。此外,使用基于深度學(xué)習(xí)的構(gòu)效關(guān)系模型作為約束條件,分子設(shè)計(jì)問題也可以使用確定性算法求解尋得全局最優(yōu)解,而實(shí)現(xiàn)此過程的關(guān)鍵在于如何高度近似建立的深度模型,以及如何規(guī)劃分子設(shè)計(jì)問題形成混合整數(shù)(非)線性規(guī)劃模型。Winter 等[85]提出了應(yīng)用自動編碼器對分子結(jié)構(gòu)進(jìn)行獨(dú)立編碼,以統(tǒng)一的方式編碼化學(xué)圖結(jié)構(gòu),這樣就可以對整個化學(xué)空間進(jìn)行預(yù)測。Gómez?Bombarelli 等[86]采用變分編碼器對分子結(jié)構(gòu)實(shí)現(xiàn)了自動化編碼,并嘗試了其與遺傳算法結(jié)構(gòu)生成特定的目標(biāo)分子。但是,對于特殊精餾的溶劑設(shè)計(jì)問題,基于深度學(xué)習(xí)的定量構(gòu)效關(guān)系模型尚無法完成相平衡計(jì)算,仍需耦合UNIFAC 等經(jīng)典模型進(jìn)行分離性能的評價(jià)。此外,基于深度學(xué)習(xí)的分子結(jié)構(gòu)的自動生成過程無法實(shí)現(xiàn)結(jié)構(gòu)約束且生成的分子結(jié)構(gòu)可能違反化學(xué)規(guī)律,需進(jìn)一步引入額外的分子結(jié)構(gòu)開展可行性驗(yàn)證。
綜上所述,定量構(gòu)效關(guān)系建模方法的研究不限于人工設(shè)計(jì)的分子結(jié)構(gòu)描述方法和線性數(shù)學(xué)模型,已經(jīng)延伸至更智能化的分子結(jié)構(gòu)特征提取和非線性建模。基于深度學(xué)習(xí)技術(shù),研究者們構(gòu)建了溶劑分子基礎(chǔ)物性、環(huán)境性質(zhì)和安全性質(zhì)的預(yù)測模型,可進(jìn)一步探究在較大的化學(xué)空間內(nèi)實(shí)現(xiàn)溶劑的虛擬高通量篩選,結(jié)合溶劑的功能特性和可持續(xù)性,并推動綠色溶劑開發(fā)與相關(guān)化工過程的設(shè)計(jì)。
目前,為了適應(yīng)數(shù)據(jù)挖掘和智能化產(chǎn)品設(shè)計(jì)的需求,基于深度學(xué)習(xí)技術(shù)的建模過程仍存在亟需研究與探討的科學(xué)和技術(shù)問題。例如,將表示分子結(jié)構(gòu)的線性字符串直接作為自然語言處理,導(dǎo)致分子結(jié)構(gòu)本身具有的化學(xué)意義會有所缺失;分子結(jié)構(gòu)的二維圖形或三維模型在深度學(xué)習(xí)框架中的旋轉(zhuǎn)與變換處理;深度學(xué)習(xí)模型與經(jīng)典模型在具體設(shè)計(jì)問題中的耦合等。因此,未來的研究將會集中于解決性質(zhì)預(yù)測模型中分子結(jié)構(gòu)的空間拓?fù)潢P(guān)系以及模型預(yù)測精度問題,并在模型的應(yīng)用階段應(yīng)選取合適的優(yōu)化算法和求解策略以獲得多目標(biāo)優(yōu)化問題的全局最優(yōu)解,以實(shí)現(xiàn)更可靠的分子設(shè)計(jì)。這些基于數(shù)據(jù)驅(qū)動的相關(guān)研究與應(yīng)用將會有更廣的應(yīng)用前景,以深度學(xué)習(xí)為代表的計(jì)算機(jī)科學(xué)和化學(xué)、化工的學(xué)科交叉研究將推動著化學(xué)產(chǎn)品開發(fā)與化工過程設(shè)計(jì)的快速發(fā)展,進(jìn)一步拓展溶劑設(shè)計(jì)研究所處的化學(xué)空間,提高溶劑設(shè)計(jì)的智能化程度。