999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習預測有機光伏電池能量轉換效率

2021-04-09 06:49:24于程遠吳金奎周利吉旭戴一陽黨亞固
化工學報 2021年3期
關鍵詞:信息模型

于程遠,吳金奎,周利,吉旭,戴一陽,黨亞固

(四川大學化學工程學院,四川成都610065)

引 言

基于光伏技術的太陽能捕集是一種能夠解決日益增長的全球能源需求的可持續手段。新型高效光伏材料的發現在世界范圍內已成為學術界和工業界的熱門話題[1-6]。其中,有機光伏(OPV)因其低成本、輕量化、機械靈活性和大面積制造潛力而備受關注[7-9]。盡管OPV 有著許多的優點,但其發展仍然具有挑戰性,并且很大程度上依賴于光電轉換效率(PCE)的提高[10]。目前,新型OPV 的開發主要采用實驗驅動的試錯法,在資源和時間上成本高且在探索新化學空間上有效性有限。

實驗試錯方法存在的這些缺點促使研究者們通過建立模型來指導OPV 的開發。Scharber 模型[11]從受體的最低未占據分子軌道(LUMO)和給體的最高占據分子軌道(HOMO)的能級來估計本體異質結太陽能電池的最大PCE,廣泛用于光伏材料的性質預估。盡管這類模型通常過于簡單化,無法解釋有機太陽能電池的所有復雜物理化學行為,但其可對候選化合物可能達到的潛在最佳性能進行預判,為實驗設計提供有價值的參考。最近,Green等[12]在半經驗模型的分析指導下,實驗合成的有機光伏材料PCE 實現了新的突破(17.35%)。大量的研究工作也證明,正確反映化合物定量結構與性質關系的模型(QSPR 模型)可為材料性能的改善提供有力支撐[13-16]。近年來,隨著計算能力和機器學習算法的快速發展,高通量虛擬篩選(HTVS)正成為發現新型高性能材料的主流方法:包括建立化合物的理論/實驗性能數據庫,開發正向性能預測模型和逆向材料設計規則和算法。

針對有機光伏材料研發,哈佛大學建立了三個權威的開源數據庫,包括哈佛清潔能源項目數據庫(CEPDB)[17]、哈佛有機光伏數據集(HOPV15)[18]和非富勒烯小分子受體數據庫(NFADB)[19]。CEPDB 包含230 萬種有機化合物的HOMO/LUMO 能量及其基于Scharber模型[11]計算出的PCE 值。NFADB 是包含50000 個非富勒烯受體材料的集合,這些材料的PCE 值 為 校 準 后 的HOMO/LUMO 能 量 計 算 值[19]。HOPV15為歸納總結已有文獻報道的光伏材料實驗數據和一定量子化學計算補充得到的小數據集[18]。盡管數據庫中的計算數據基于一定假設,但也能一定程度上反映材料微觀結構變化對其宏觀性質的影響規律,指導實驗設計原則的制定。Hachmann等[20]通過分析來自CEPDB 的數據,確定了關鍵的分子構建塊,并為潛在的高PCE 值有機化合物候選材料提取了設計規則。

前向性能預測模型的開發通常由編碼和映射兩部分組成。編碼過程將分子的組成、結構等信息轉換為一系列稱為描述符的數值,而映射過程通過確定合適的函數來映射描述符和需要預測的分子屬性。Padula 等[21]提出將電子特征和結構特征結合起來作為有機太陽能電池性能預測的描述符,基于此,機器學習模型的預測能力達到了r=0.7 的水平。Sahu 等[22]用量子化學計算得到的13 個微觀性質作為有機小分子PCE 預測的描述符,建立了pearson系數為0.79 的梯度提升樹模型。隨后,同一研究小組通過引入基態幾何結構、陽離子和陰離子等新的微觀屬性作為描述符,進一步推進了研究,得到的模型pearson系數為0.78[23]。此外,Sun等[24]應用卷積技術從分子結構圖中提取描述符,用于有機化合物PCE 性能的估計,得到精度為91.2%的卷積神經網絡模型。隨著機器學習的發展,一些最新的算法如遷移學習也被用來提高材料性質預測值與實驗值之間的一致性[25]。

盡管有機光伏材料領域的QSPR 模型研究已取得較多成果,其未來發展仍面臨挑戰。首先,量子化學計算生成的描述符可以提供準確的結果,但這通常要求建模者具備深入的領域知識,并且計算成本高昂,限制了它在HTVS 中的有效性。二是化合物的微觀物理化學環境非常復雜,大多數易于獲取的描述符容易遺漏重要的化學信息,導致預測結果不太理想;且許多機器學習模型都是“黑匣子”,其結果往往可解釋性較低。本研究的開展動機正是在于此,力求在解決上述挑戰上有所貢獻。

受Cadeddu 等[26]針對有機化合物和自然語言(英語)開展的相似性研究的啟發,該工作在分子片段和文本片段的出現頻率上論證了有機化學和自然語言(英語)之間的高度相似性,本文采用本課題組提出一種類語言的分子特征提取和表征策略,在此基礎上建立預測有機化合物PCE 值的深度學習模型,力求為高性能OPV 的虛擬篩選提供支撐。首先,將有機化合物的分子圖分解為片段,并根據其相對位置和連接性對每個片段進行編號。通過將所涉及的分子片段標識為唯一的片段向量,有機化合物就可被表示為一個內嵌分子片段序列信息的類語言描述符。其次,構建自然語言處理算法來“理解”描述符,將分子信息與其潛在的PCE 性能相關聯。最后,使用已在自然語言處理領域成功獲得廣泛應用的神經網絡解釋器——注意力機制,來識別對有機化合物PCE 性能有重要貢獻的關鍵分子片段,提高模型的可解釋性,并為具有更高光電轉換效率的OPV材料設計提供支撐。

1 研究方法

本小節介紹研究組提出的結合Bi-LSTM 網絡、注意力機制和反向傳播神經網絡(BPNN)的深度神經網絡(DNN)模型,用于構建有機化合物的分子結構與PCE 值之間的映射關系。基于所提出方法建立QSPR模型主要包括以下四個步驟[27]。

(1)數據采集和預處理。搜集有機化合物的SMILES 字符串和實驗測量(或量子化學計算)PCE值,并進行數據預處理。

(2)分子預編碼。通過分子SMILES 字符串生成分子圖,基于其構造片段的連接性和每個片段在預定義片段池中的位置,生成分子片段序列信息,如圖1所示。

(3)編碼-預測神經網絡訓練。基于分子片段描述符矩陣,將分子片段序列信息嵌入分子描述符;基于分子描述符和相應PCE 值訓練DNN。在訓練過程中,不斷優化描述符和DNN 模型參數,提高模型性能,如圖2所示。

(4)模型評估。利用測試數據集對所建立的QSPR模型的預測性能進行評價。

1.1 數據收集

從CEPDB 收集29000 個OPV 供體分子的SMILES 字符串及其理論PCE 值[17]。對數據進行預處理,去掉存在異常、缺失以及不符合實際值的數據項。基于式(1)所示的Z 評分標準化對PCE 值進行預處理,以加快模型訓練過程的收斂速度,提高模型精度。

其中,yi是分子的PCE 值,和s(y)分別是所收集的OPV 數據集中所有PCE 值的平均值和標準差。所搜集數據項在預處理前后的數據分布如圖3所示。

1.2 有機化合物預編碼

通過RDKit 和Networkx 將SMILES 字符串轉換成分子圖[28-29],分子圖是分子到平面的投影,其中頂點代表原子,邊代表化學鍵。如圖1所示,為了更好地編碼分子片段的連接性信息,采用最近鄰子圖[30]和廣度優先搜索(BFS)算法[31]將分子(圖)分解成片段(子圖),并將分子按相應的BFS 順序進行排序編碼,便得到了相應分子的構成片段序列信息。需要指出的是,一般情況下,不同的有機化合物可以分解為不同數目的組成分子片段。為了確保分子的片段序列具有相同的維數,需進行最大分子,即組成片段數最多的分子的識別,并將其組成片段的計數設為片段序列的維數。在生成其他分子的片段序列信息時,以零值填充多出部分,以確保維度的一致性。

其中,每一分子片段基于最近鄰子圖法由最近鄰頂點和距離當前頂點一跳內的邊切割獲得,換句話說,每個分子片段所反映的是頂點原子與其最近一個化學鍵所構成化學環境的總和。由于OPV 分子中只有少量的原子和鍵,因此,該方法比一般的化學信息嵌入法更高效。此外,BFS 遍歷算法考慮了分子結構片段的連通性信息,可提高后續構建的QSPR 模型的精度。預編碼之后,每個化合物就被表示為一個唯一的序列。

圖1 基于分子圖的嵌入[27]Fig.1 Embedding based on a given molecular graph[27]

圖2 預測網絡結構示意圖[27]Fig.2 Structure of predictor network

圖3 預處理前后的數據分布Fig.3 Data distribution before and after data preprocessing

1.3 類語言描述符的生成和預測模型訓練

如圖2(a)所示,將所得到的分子片段序列信息轉化為一個one-hot矩陣(矩陣Ⅰ),再基于分子片段池中所有分子片段的嵌入向量(即分子片段描述符)構成片段嵌入矩陣(矩陣Ⅱ),矩陣Ⅰ和矩陣Ⅱ的乘積得到相應化合物的分子描述符(矩陣Ⅲ),簡稱為g-FSI[27]。接著,將分子描述符傳遞到Bi-LSTM網絡。為了更有效地提取片段序列信息,描述符的每一行(片段向量)同時由一個正向LSTM 單元和一個反向LSTM 單元處理,處理后的片段信息分別表示為和。處理后的信息繼續進入后續的正向和反向LSTM 單元進行信息提取。和的信息組合繼續被輸入到深度神經網絡的注意力層[32],在注意力層上,引入標準化權重αt表示每一分子片段的重要性,以提高模型的性能和可解釋性。在注意力層之后,將經過Bi-LSTM 和注意力機制層處理后的信息(記為M)送入BPNN 網絡,進行PCE 值預測。在訓練過程中,以均方誤差(MSE)作為損失函數評估回歸模型性能,并將模型誤差向后傳播以更新片段嵌入矩陣以及Bi-LSTM 和注意力層中的參數。選擇隨機梯度下降算法優化損失函數,使均方誤差最小。下面兩小節內容將對Bi-LSTM 網絡和注意力機制進行更詳細的闡述。

1.3.1 Bi-LSTM 網絡用于分子片段尺度的特征提取和信息集成 Bi-LSTM 網絡是一種具有處理長序列能力的增強型遞歸神經網絡(RNN),能同時考慮分子片段序列信息中嵌入的前向和后向上下文信息[33-34],被廣泛應用于序列數據處理中,如,無約束手寫體識別、機器翻譯、圖像字幕等[35-37]。對于一個給定的分子p,對應的描述符為[x1,…,xt,…,xn](這里n 表示分子片段序列信息的維度,xt為分子片段向量),如圖2(b)所示,當前分子的每個分子片段向量都將作為一個前向和一個后向LSTM 單元的輸入,處理后的片段信息——/被傳遞到下一個LSTM 單元。對于每個LSTM 單元,引入自適應機制來決定前一個單元傳遞的前一個片段信息的保存程度,并存儲當前片段信息輸入的特征[34]。

本文采用的Bi-LSTM 網絡包含n 個正向LSTM單元和n個反向LSTM單元。經信息處理后,得到一組隱藏狀態,用于前向和后向信息提取。Bi-LSTM網絡的信息提取如式(8)和式(9)所示。

1.3.2 注意力機制用于分子尺度上的特征提取和信息集成 從微觀化學環境角度,并非每一分子片段對有機化合物的PCE 性能都具有相同的貢獻。因此,采用注意力機制來跟蹤對PCE 性能有重要影響的分子片段。在分子片段尺度提取的特征通過與標準化的重要性權重向量相乘,合并為分子尺度的特征向量。經信息處理后的分子片段信息ht輸入一個單層MLP(多層感知器)得到us,其中,引入了權重向量Ws和偏置參數bs,進一步通過softmax函數計算得到標準化的重要性權重αt。然后,通過計算信息向量的加權和得到處理后的分子信息M。計算公式如下[39]:

其中,uTt是在網絡訓練過程中隨機初始化,在模型訓練過程中將基于分子片段信息向量不斷學習優化。

1.4 模型驗證

基于測試數據集,對所建立的QSPR 模型的預測性能、競爭力進行評估,并與其他預測模型進行比較,評價所得模型外部競爭力。

以上所有的模型訓練和評估步驟都是通過Python 語言編寫完成,并在Windows 和Linux 平臺上部署。同時,神經網絡算法的實現基于開源的深度學習框架Pytorch[40],并基于2個GTX-1080Ti GPU 實現模型訓練。

2 結果與討論

2.1 實驗超參數設置

將收集到的CEPDB 數據集隨機劃分為訓練集、驗證集和測試集,其中,驗證集用于模型訓練過程中模型超參數優化的驗證,測試集用于最終的模型評估。

圖4 真實值和QSPR模型預測值的散點圖Fig.4 Scatter plots for the predicted-experimental value with the QSPR model

采用網格搜索優化模型超參數,包括損失函數優化器的選擇、學習速率、隱層和隱層單元的個數。選擇Adam[41]作為損失函數優化器,學習率0.001。經過模型訓練和驗證過程,得到QSPR 模型。最終優化模型的BP神經網絡包含3層,每層32個隱藏單元。利用測試集對得到的QSPR 模型進行評價,模型預測值與計算理論值之間的比較如圖4所示。對于驗證和測試數據集,可以看到,預測結果沿對角線分布緊密。計算得到模型的決定系數(R2)為0.97,驗證集和測試集的預測均方誤差(MSE)分別為0.17 和0.16。可以得出所得QSPR 模型具有較高精度的結論。

2.2 模型的競爭性

進一步驗證所提出方法的合理性和可靠性,基于同一數據集,應用其他幾種分子描述符和機器學習算法建立QSPR 模型。所選擇的分子描述符包括擴展連通型指紋ECFP[42]和Mol2vec[43];選擇的機器學習算法為ANN 和RF。對于ECFP,設定位向量長度為2048,同時,將Mol2vec的嵌入維度固定為300,基于此,ECFP 和Mol2vec 將分子描述為固定長度的向量,生成的描述符可以直接用作ANN 和RF 的輸入。共得到5個QSPR模型,其性能比較列于表1。

表1 測試集的預測精度Table 1 Prediction accuracy of the testing set

從三個分子描述符g-FSI、ECFP 和Mol2vec 的比較可以看出,基于g-FSI 和ECFP 所得到預測結果的決定系數高于以Mol2vec 作為描述符時的結果,均大于0.9,且MSE 較低。說明g-FSI 和ECFP 能夠更好地滿足當前研究的需要。本質上,g-FSI 和ECFP 是基于分子片段信息的相同類型的分子描述符,所以均取得了較好的表現;相比于ECFP,g-FSI同時考慮了分子的片段信息和序列信息,這也是使得g-FSI預測效果更好的重要原因。

同樣是受到自然語言處理技術啟發而產生的Mol2vec 卻在預測任務中取得了不理想的結果。Mol2vec 其本身是利用大量有機分子作為語料庫通過Word2vec 預訓練得到分子片段嵌入向量的一種無監督方法,其特點在于學習到的嵌入向量是稠密的。但從分子片段向整個分子過渡的過程中,采用了直接加和平均的方法,該過程勢必帶來分子整體信息的損失,尤其是分子的序列信息被徹底忽略,這些因素的共同作用使Mol2vec表現不佳。

2.3 基于注意力機制對重要分子片段的分析

對于材料設計,QSPR 模型預測結果的可解釋性不亞于其預測精度[44]。與專家的經驗直覺或經驗類似,模型“學習”過程中獲得的信息對具有更佳性能的OPV 材料設計具有指導意義。本節通過“學習”過程,根據注意力機制賦予每個分子片段的注意權重,分析有利于有機化合物潛在PCE 性能的重要分子片段。

對于分子片段,其對于有機化合物光電轉換性能越重要,在模型訓練中獲得的注意力權重越大。圖5(a)給出了基于訓練數據集獲得的56 個片段在具有不同PCE 值的有機化合物中的注意力權重的熱力圖。顏色越深,注意力權重越高。可以看到,在大多數有機化合物中,有兩個分子片段群“備受關注”,即分子片段11~12 和30~31。如圖5(b)給出了56個分子片段的平均注意力權重,這些分子片段的平均權重值也高于其他分子片段。

圖5 注意力機制的可視化Fig.5 Visualization of the attention mechanism

為便于進一步分析,從測試集中提取5 種含有片段12的化合物,如圖5(c)所示。通過比較這五種化合物的分子片段組成,可以得到十分有趣的結果。對于前三個PCE 值大于10%的分子,其性能主要受片段12的影響。除片段12外,片段4~6以及片段11 在高PCE 的分子中也有著不同程度的作用。而在PCE 值介于3%~7%范圍內,分子性能還將受到片段30~31的強烈影響;基于此,可以大膽地推斷片段12 以及片段30~31 之間的協同作用將會導致分子的PCE 值趨向于平庸化,在分子設計中需要避免同時引入片段12與片段30~31。而對于其余兩種PCE 值低于3%的化合物,不難發現,片段12依舊占據主導作用,但是其權重系數均小于0.15,遠低于在高PCE 分子中的權重(大于0.8)。此外,片段群4~7和13~16 也具有相對活躍的表現,但更明顯的是PCE較低的兩組在注意力權重分布上比其他三組更為平均。

3 結 論

光伏技術被認為是解決21 世紀能源短缺和環境危機的最有前途的途徑之一。發現具有高光電轉換效率的化合物已成為推動該技術發展的關鍵任務之一。受有機化學與自然語言的相似性啟發,本文采用一種類語言的分子描述符描述有機化合物,建立深度學習模型,以實現高精度的PCE 值預測。在分子描述過程中,將由原子和鍵組成的分子片段信息嵌入到數值向量中,并根據分子片段的序列信息將相關向量聚合成矩陣。研究已表明,片段(詞)的位置信息對分子(句)的性質預測(意義理解)具有重要意義,故采用Bi-LSTM 對分子描述符進行處理,使嵌入的分子片段序列信息能夠被完全“理解”。然后,將處理后的信息傳遞給BPNN,實現PCE 值的預測。在此過程中,應用注意力機制幫助識別分子片段的重要性,提高預測精度。模型評價結果表明,與其他幾種分子描述符和機器學習算法相比,該模型具有更高的預測精度和競爭性。此外,所建立的方法能在一定程度上揭示分子片段對分子PCE 性能的影響,可以為OPV 的逆向設計提供依據。

本研究中的描述符生成和性質映射過程都是自動完成的,避免了人為干預。換句話說,深度學習方法能夠從SMILES 中提取和學習重要的知識,因此不需要建模者提供深入的領域知識。此外,在所用方法的“學習”過程中,能夠識別出具有決定性作用的片段,表明所采用的方法能夠為OPV 的逆向設計提供有指導意義的信息。雖然本研究的重點是OPV 的PCE 值預測,但是該方法可以進一步擴展到有機材料的其他重要性質的預測。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产福利2021最新在线观看| 日本尹人综合香蕉在线观看| 日韩午夜伦| 丝袜无码一区二区三区| 高清精品美女在线播放| 欧美日韩国产高清一区二区三区| 丁香六月激情综合| 亚洲成人福利网站| 国产成人综合网| 国产欧美日韩资源在线观看 | 亚洲色图欧美视频| 永久免费AⅤ无码网站在线观看| 青青久视频| 黄片一区二区三区| 国产凹凸视频在线观看| 国产成人乱无码视频| 中文字幕无码av专区久久| 免费人成在线观看成人片| 专干老肥熟女视频网站| 亚洲综合婷婷激情| 无码AV日韩一二三区| 国产精品蜜芽在线观看| 久久综合丝袜日本网| 日本手机在线视频| 丁香综合在线| 91福利片| 国内精品久久九九国产精品| 91成人试看福利体验区| 国产第一页第二页| 欧美成人综合在线| 亚洲人免费视频| 日韩成人在线视频| 国产91色| 99久久国产精品无码| 日韩黄色精品| 99在线观看视频免费| 久久综合色视频| 狠狠色香婷婷久久亚洲精品| 欧美三级视频网站| 成年片色大黄全免费网站久久| 亚洲娇小与黑人巨大交| 国模沟沟一区二区三区| 亚洲成a人片在线观看88| 伊人久久福利中文字幕| 亚洲成人一区二区三区| 亚洲欧洲日韩综合色天使| 亚洲αv毛片| 亚洲区视频在线观看| 欧美日韩精品在线播放| 久久久久久久久久国产精品| 亚洲天堂视频在线免费观看| 欧美另类第一页| 国产三级精品三级在线观看| 国产精品无码影视久久久久久久| 亚洲欧美色中文字幕| 欧美一区二区福利视频| 精品国产电影久久九九| 国内精品免费| 日本亚洲欧美在线| 蜜桃视频一区二区| 国产91小视频| 国产9191精品免费观看| 国产欧美日韩另类| 亚洲中字无码AV电影在线观看| 九色视频线上播放| 999国产精品| 日韩第九页| 国产成人精品一区二区免费看京| 99热这里只有精品国产99| 国产乱子精品一区二区在线观看| 欧美中文字幕在线播放| 青青国产在线| h视频在线播放| 午夜精品一区二区蜜桃| 国产在线精彩视频论坛| 久久精品一品道久久精品| 男人天堂伊人网| 国产极品粉嫩小泬免费看| 欧美全免费aaaaaa特黄在线| 国产拍在线| 国产午夜一级毛片| 中文一区二区视频|