范文花
(西安石油大學 化學化工學院,陜西 西安 710065)
近幾年,可再生能源應用材料的選擇已成為全球能源戰略中最緊迫的問題之一,與硅光伏電池相比,染料敏化太陽能電池(dye sensitized solar cell,DSSCs)具有易于制造、生產成本低等優點。DSSCs 是一種分子光伏(PV)系統,模仿自然界的光合作用原理,利用染料吸收太陽輻射能,生成電荷載體,然后將其分離、傳輸和收集為太陽能[1]。染料敏化劑作為DSSCs 的關鍵組成部分,在決定相應電池性能方面發揮著重要作用[2]。目前,DSSCs的研究主要是找到影響光電轉換效率(photoelectric conversion efficiency,PCE)的關鍵結構并對其進行改善,設計新型敏化劑,提高PCE。DSSCs 的光電轉化效率主要由短路電流密度(Jsc)、開路電壓(Voc)和填充因子(FF)決定,為了獲得高PCE,這三個參數應盡可能高[3]。
據估計,目前DSSCs 可實現的最大理論PCE為32%,意味著目前13%的記錄可以改善[2]。實現改善的常用方法是基于人類關聯和概括經驗的能力,設計和合成新型染料,隨后組裝電池并檢查電池性能。但這種“反復試驗”的方法非常耗時、昂貴,而且在為DSSCs 尋找突破性染料時效率低下。
定量結構-性質關系(quantitative structureproperty relationships,QSPR)已被廣泛用于預測各種化合物的物理化學性質、環境行為參數以及毒性,是描述化學結構和活動之間潛在關系的數學模型[4]。目前,QSPR 被認為是設計DSSCs 潛在染料公認的工具[2],QSPR 模型不是盲目地花費大量時間和金錢來設計有機染料敏化劑,而是一種富有成效的、合理的敏化劑染料開發方法[5]。本文簡單介紹了QSPR 建模過程,染料敏化太陽能電池QSPR 建模中常用的分子描述符,建模方法以及QSPR 在DSSCs 性能預測方面的應用。
QSPR 建模過程一般包括4 個步驟。
(1)數據收集和整理。可靠的數據對建立良好預測性能的模型極為重要,這就要求數據樣本不能太少,必須具有代表性且化學結構相似。
(2)計算并選擇分子描述符。用專業軟件計算得到大量分子描述符,但需要用最少的結構參數來表征盡可能多的化學信息且要保證變量之間不存在很高的相關性,因此需要進行變量選擇,同時也要保證特征變量與因變量之間具有相關性,以確保模型可以擬合。
(3)建立分子描述符與性質參數之間的定量構效模型,這是QSPR 研究中的主要步驟。
(4)模型驗證與評價。QSPR 模型建好后,需要評價指標來評價模型的質量,其中包括穩定性、可靠性以及預測能力[4]。
在QSPR 研究中,基于這樣一個假設,即化合物行為的變化(由任何可測量的物理化學性質表示)可以與化合物結構特征的數值變化相關,表示化合物分子結構的數值稱為“分子描述符”[4]。在相關文獻中,經常會用到的分子描述符有拓撲指數描述符、組成描述符、電子性質描述符、量子化學描述符、幾何描述符以及常見的分子指紋描述 符(MACCS、Pubchem、FP2、Extend、Daylight、Hybridization 及Morgan)等。
PCE 量化了太陽能電池的整體性能,盡管影響PCE 的因素非常復雜,但敏化劑的電子特性對DSSCs 的整體性能非常重要。Fan 等[2]通過測定與光學性能有關的5 種不同電子性質(G,Oav,Dav,A,LHE)來建立QSPR 模型,預測PCE。結果顯示,用上述分子描述符建立的模型具有良好的預測性能。Pourbasheer 等[6]利用6 種描述符建立富勒烯衍生物的GA-MLR 模型以預測化合物作為聚合物太陽能電池受體的光電轉換效率,顯示了適當的統計結果并表明量子化學描述符對增加PCE 有顯著影響。Padula 等[7]使用電子描述符和結構描述符通過線性和非線性機器學習模型預測光伏效率,同時表明這兩個參數可以提高模型的預測能力,使相關性達到R≈0.7,這種相關性允許對有效材料進行可靠地預測。
多元線性回歸(MLR)是經典的建模方法之一,它的目標是為多個獨立變量與因變量之間的線性關系建模。獨立變量和因變量之間的關系見式(1)。

式(1)中:b0是常數項,x 是自變量,yi是因變量,b1到bn是自變量的系數。
MLR 模型基于以下假設:自變量與因變量之間存在線性關系,自變量彼此之間的相關性不是很高,且每個自變量都對模型有貢獻。為了選擇對因變量貢獻大的自變量,可以通過變量選擇方法來限制自變量數量。常見的變量篩選方法有遺傳算法、主成分分析法、模擬退火法、多元線性回歸法等,通過這些方法找出自變量與因變量的最佳組合,繼而建立MLR 模型。Kar 等[8]通過基于遺傳算法的多元線性回歸分析(GA-MLR),利用KMedoid 聚類分割技術對數據集進行分割,隨后建立芳胺染料PCE 和量子化學描述符之間的最佳QSPR 模型。此QSPR 模型對于表征和預測對光轉換至關重要的供體:π 橋:受體(D-π-A)關系的性質具有重要意義。通過MLR 算法可以建立穩健且具有預測能力的QSPR 模型,然而,此算法只能捕獲結果變量和自變量之間的線性關聯,可能無法充分檢測數據中的非線性關系[9]。
偏最小二乘法(PLS)是一種關聯兩個數據矩陣的建模方法。PLS 具有一個理想的特性,即模型參數的精度隨著相關變量和觀測值的增加而提高[10],由此建立的模型擬合性、穩健性與預測能力均較好。由于PLS 增加了模型驗證的部分,其在QSPR 方面的優勢明顯大于MLR。
Venkatraman 等[11]報道了第一個成功的QSPR模型,使用分子場分析(CoMFA)和基于振動頻率的特征(EVA)描述符對40 種香豆素和苯胺衍生物分子結構的光伏性能(PCE,Voc,Jsc,λmax)參數建立偏最小二乘回歸模型并分析了不同模型的性能。結果顯示,所建立的模型具有很強的預測性和魯棒性,QSPR 模型可用于新型光伏材料的合理結構設計和評估,香豆素和苯胺衍生物重要結構特征的識別對于設計具有改進太陽能電池性能的未來有機染料非常有用。Tortorella 等[12]使用基于半經驗計算和3D 分子相互作用場的描述符,應用偏最小二乘算法合理化結構-光伏性能關系,并對系數進行研究,以闡明不同分子性質對最終性能的貢獻,證明了在計算材料科學的背景下,化學計量學和分子建模工具可以有效地促進光伏應用。Venkatraman 等[13]使用117 種吩噻嗪類染料敏化劑構建了QSPR 模型,使用半經驗AM1 方法對化合物分子進行優化,將基于振動頻率的特征值(EVA)描述符采用偏最小二乘回歸方法建立QSPR 模型,之后采用進化從頭設計技術設計了5 種新型染料,將PCE 從9.2%提高到9.52%。Krishna 等[14]利用PLS 算法建立了染料敏化太陽能電池PCE 的多個QSPR 模型,使用了大約1200 種染料,涵蓋7 種化學類別,7 種化學類別已開發的QSPR 模型有助于快速預測新/未經測試染料的PCE 以及設計新染料。偏最小二乘回歸在線性算法中應用最為廣泛,能夠很好地擬合自變量與因變量之間的線性關系,其計算簡單且便于掌握。
支持向量機(SVM)通過核函數間接實現非線性分類或函數回歸。核函數表示特征空間中任意兩個數據點(特征向量)之間的內積,是支持向量機的關鍵,隱含地定義了低維和高維空間之間的映射。核函數的計算是基于低維空間中的數據,但最終結果在高維空間中顯示。因此,可以避免直接在高維空間中進行復雜的計算,可以使用基于核函數的支持向量機處理函數的非線性數據。SVM 適用于小樣本分析,具有通用性、魯棒性、泛化能力好等優點,相比線性建模等舊方法具有無法比擬的性能。
仲籽彥[15]利用支持向量機建立了354 種有機染料敏化分子的PCE 與分子描述符之間的級聯QSPR 模型。實驗表明,級聯模型(第一級以分子描述符為輸入,以Jsc、Voc和FF 為輸出;第二級以第一級的輸出為輸入,以PCE 為最終輸出)無論是預測能力、擬合優度還是模型穩定性均明顯優于非級聯模型,能夠有效地預測有機染料敏化劑的PCE,成本低并相對穩定。崔艷瑩[16]使用全局集成模型SVM-KNN-WMA 構建分子描述符與光電轉化效率之間的回歸模型,實證表明其性能優于單一支持向量機,基于全局集成模型可以預測具有較高PCE 的新型有機太陽能材料。
綜上所述,復雜結構模型對于改進復雜預測是可行的,集成模型因能夠通過組合多個機器學習模型產生一個優化的模型而被逐漸應用于QSPR 的研究中。
20 世紀90 年代,人工神經網絡(ANN)開始被用于QSPR 研究中,目前典型的神經網絡模型主要包括多層感知器、BP 神經網絡、徑向基神經網絡等。ANN 是一種數據驅動的建模方法,可以找到輸入和輸出變量之間的關系,而無需對關系進行明確分類。人工神經網絡模型通常包含3層:1 個輸入層、1 個或多個隱藏層和1 個輸出層(圖1)。層由幾個節點組成,ANN 從輸入層接收數據,輸入層將信息傳遞到下一層,即隱藏層。隱藏層中的每個神經元接受前一層的加權線性求和,并將值映射到非線性激活函數上,從而產生神經元輸出。隱藏層中每個神經元的輸出值就是下一層神經元的輸入值,輸出層生成用作最終預測的值。

圖1 BP 神經網絡結構圖Fig.1 Structure diagram of BP neural network
Xu 等[17]利用人工神經網絡建立染料分子結構與染料吸收最大值之間的定量結構-性質關系,得到了決定系數R2=0.991 的非線性模型,通過測試集驗證了模型的可靠性。此模型可以在染料實際合成之前估算其最大分子量。大量的實驗證明,人工神經網絡可以用來建立預測性能較好的QSPR 模型,但在網絡訓練時會存在不穩定性,必須結合合理的描述符篩選方法和模型驗證方法。
隨機森林(RF)是一種非線性基于樹的集成學習方法(bagging)。引導聚合是RF 的關鍵思想,當訓練一個模型時,每棵樹從訓練集中隨機選擇多個樣本以形成一個新的子集,然后從輸入中隨機選擇多個特征來做出決策。通過投票,數百個決策樹產生一個輸出,以提供最佳答案。隨機森林能處理高維度數據且不用做特征選擇,對數據集適應能力強,訓練速度快,實現比較簡單,泛化能力強,訓練完成后可以給出特征重要性,但相比于單一決策樹,隨機性讓研究者難以對模型進行解釋。
Venkatraman 等[5]建立了簡單而穩健的QSPR模型,以預測73 個吩噻嗪染料的必要光伏特性,如Jsc、Voc和PCE。使用6 種不同的分子描述符(從基于原子環境的表示到利用半經驗分子軌道信息的表示)開發了RF 回歸模型,在所用描述符中,使用EVA 描述符生成了預測能力和魯棒性最佳的模型。
在過去幾年中,深度學習已在許多領域產生了變革性影響,深度學習已被證明是利用大型數據集建立QSPR 模型的有用工具。深度神經網絡模型通常包含3 層:1 個輸入層、多個隱藏層和1個輸出層。在深度神經網絡(DNN)的“學習”過程中,隱藏層和輸出層中所有神經元的值通過前一個神經元的值之和×權重+偏差計算,其中權重和偏差可以根據預測和目標之間的誤差進行更新,直到誤差達到最小值。需要對模型的超參數進行調優,超參數包含兩部分:一是網絡的結構參數(包括神經網絡的層數、激活函數的類型、每層神經元的數量等),二是訓練優化器的參數(包括優化器的類型、學習率、動量參數、正則化懲罰參數等)。輸入層、隱藏層通常采用ReLu 激活函數,輸出層神經元采用線性激活函數,優化器函數選擇為“Adam”。在調整超參數的過程中,層數和神經元數越多,DNN 越深越寬,往往擬合能力越強,預測精度越高。然而,過多的層和神經元往往存在過度擬合問題,即對訓練集的預測準確,但對測試集的預測較差。因此,模型要開發具有適當擬合能力的DNN 最佳體系結構,以便對輸入和輸出之間的復雜關系進行建模。
在已有的深度學習定量構效關系研究中,其中一類研究是采用大量的分子描述符表征分子結構信息并基于深度學習關聯目標性質;另一類研究則使用深度學習直接對以圖或文字形式表示的分子結構進行學習,并基于矢量化的分子信息關聯目標性質[18]。Wu 等[19]為了預測有機太陽能電池的光電轉換效率,開發了新的分子簽名編碼和信息嵌入策略以描述分子的組成結構,利用集成雙向長短時記憶(Bi-LSTM)網絡對分子信息進行處理,注意機制被用來識別對PCE 性能有重要影響的片段,最后利用反向傳播神經網絡(BPNN)建立深度學習體系結構。與其他幾種建模方法的結果相比,該方法在預測精度上具有競爭力且能夠識別決定性的分子成分。于程遠等[20]采用一種類語言的分子描述符描述有機化合物,建立深度學習模型,以實現高精度的PCE 預測,獲得了R2為0.97、MSE 為0.16 的預測結果,與現有方法的比較表明,該方法在精度上具有競爭力。Sun 等[21]開發了一個基于卷積神經網絡(CNN)的ResNet 深度學習模型,能夠識別化學結構和自動分類,其在預測有機太陽能電池(OPV)供體材料的PCE 方面取得了90%以上的準確率。這項研究表明,深度學習可以用于評估OPV 材料,能有效地建立光伏結構-性能關系。雖然深度學習具有上述優點,但DNN 模型缺乏透明度和可解釋性,很難知道模型從訓練數據集中學到了什么,即DNN 內部是一個“黑箱”,僅展示了可能的結果,而沒找到真正的因果關系。
用平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(R2)這3 個評價指標來評價模型的預測能力,其具體數學定義分別見式(2)~(4)[22]。

較低的MAE 和RMSE 表示模型的預測誤差越小,預測結果越優;R2越大,擬合效果越好。當R2應用于測試集時,其值等于外部解釋的方差(Q2),將評估指標應用于測試集時,對模型的性能進行比較。
QSPR 建模可以通過化學分子描述符以及太陽能電池化合物的結構特征,探索分子結構與目標性質之間的關系,太陽能電池的性能可以通過評估重要的光伏參數確定,例如PCE、Jsc、Voc、FF。通過DSSCs 數據庫得到實驗值,運用數學建模方式建立QSPR 模型得到預測值,通過模型的相關參數評價模型的性能,當相關參數優異時,就可以通過QSPR 模型去預測未知化合物的性質,設計新型化合物。
吸收強度最大時所對應的波長稱為染料的最大吸收波長(λmax)。λmax是染料的一個重要特性,標志著染料最基本的顏色,目前染料的最大吸收波長是通過實驗獲得的,雖然是有效的,但存在一些缺點和局限性,并且該方法不易用于有毒或揮發性物質。對于還沒有合成的材料,也不能使用。基于上述問題,QSPR 可能是理想的候選方法。
Xu 等[23]采用線性回歸算法對70 種染料敏化分子進行建模,λmax在378 nm 和660 nm 之間。Dragon 軟件用于根據優化的分子幾何結構計算3D 描述符,使用Kennard-Stones 算法,將整個染料集分為訓練集和測試集,在訓練集上,使用逐步MLR 為QSPR 模型選擇描述符,最終選擇了10 個描述符,得到的模型R2=0.95,并對描述符的顯著性進行排序。實驗表明該模型具有預測性,適用于任何化學結構的常規染料。因此,這種QSPR 模型應該有助于開發新的DSSCs 敏化劑,以達到預期的最大吸收波長。Asadollahi-Baboli等[24]使用Codessa 和Dragon 軟件計算三維描述符來表示染料分子,隨后使用多元自適應回歸樣條(MARS)和自適應神經模糊推理系統(ANFIS)等不同的化學計量學工具,結合蒙特卡羅(MC)采樣技術,選擇最重要的描述符,建立有機染料最大吸收波長的QSPR 模型,預測染料的λmax。實驗表明,QSPR 提供了一種替代、快速、準確的方法來預測DSSCs 中染料的λmax。Krishna 等[25]開發了用于染料敏化太陽能電池染料最大吸收波長的預測模型,包括5 種化學類別,將通過最佳子集選擇方法得到的2D 描述符建模。該研究從開發的模型中確定了幾個對提高最大吸收波長很重要的化學屬性,可用于預測新型或未經測試的有機染料的λmax。
PCE 是衡量太陽能電池器件性能優劣最直觀的參數,PCE 的大小反映了太陽能電池將光能轉換成電能的能力,因此研究者不遺余力地探索提高PCE 的方法。傳統的實驗方法耗時耗力,雖有效,但存在一些缺點和局限性,而應用QSPR 能在一定程度上解決這些問題。
Hernández 等[26]應用B3LYP 交換相關能泛函和6-311G**基組,計算了70 種染料敏化劑分子的結構和電子性質。使用硬度(η)作為與PCE 相關的電子特性,以及四個結構描述符Mor25i、Mor28i、E1v 和HATS2p,使用QSAR-INS 軟件通過多元線性回歸、遺傳算法以及組合方法設計了QSPR 模型預測PCE,R2=0.62 表明QSPR 模型可用于預測未知化合物,并得出硬度是測量PCE 的重要電子描述符這一結論。Yan 等[27]使用23 個吩噻嗪衍生物建立3D-QSAR 模型。生成的Topomer CoMFA 模型在統計學上具有顯著性,留一交叉驗證系數(q2)為0.698,非交叉驗證相關系數(r2)為0.966。理論預測的PCE 與實驗觀測值吻合良好,驗證了Topomer CoMFA 模型的高預測能力,此模型也為染料敏化劑的結構-性能關系提供新的視角和新的見解,并可能有助于染料敏化太陽能電池中尚未合成的有機敏化劑的合理設計、選擇和預測。Tortorella 等[28]選擇從3D 分子相互作用場(GRID/MIFs)圖像中提取的適當描述符以及半經驗計算描述符來描述目標結構,使用PLS 建立并分析了PCE 模型,以闡明結構-性能關系,此模型為設計潛在的高性能候選者提供指導。
由于許多因素會影響DSSCs 的性能,因此難以優化系統。例如,通過增加導帶邊緣(Ec)處的能量以減緩電子注入,可能有利于DSSCs 的性能。一方面,這將導致Voc的增加;另一方面,這將同時導致電子注入驅動力的降低,可能會導致Jsc的降低。而且FF 可以看作是常量,很難映射到染料的性質。因此,DSSCs 的性能可以通過電流和電壓的乘積來量化,代表這兩種效應之間的折衷[2]。
Venkatraman[29]等使用QSPR 模型(根據經驗數據校準)建立香豆素染料敏化劑Jsc和Voc的乘積模型。該方案能夠提出具有不同分子結構(Dπ-a、D-a-π-a、D-D-πa 等)和錨定基團的多種染料,證明了使用基于人工進化的全自動從頭計算方法來建立Jsc×Voc模型,能夠設計新的、有前途的、性能更好的香豆素染料敏化劑。
定量結構-性質關系能夠用于染料敏化太陽能電池的研究中,通過機器學習與量子化學結合以及深度學習的應用,能夠更好地為設計新型染料,提高光電轉換效率服務。如果有好的描述符,就可以得到更健壯、更通用的模型。目前,研究人員依靠直覺選擇描述符,而智能分子描述符選擇值得進一步探索。更重要的是,應該更加注重提高模型的可解釋性。目前,機器學習與QSPR 在DSSCs 方面的結合已日漸成熟,深度學習以其自動學習特征的優勢,使得未來的研究會更多關注深度學習體系,建立深度學習的QSPR 模型來預測光電性能,設計新的染料分子,不斷提高光電轉換效率。雖然深度學習有諸多優點,但仍然存在一個問題,即此模型就像一個黑匣子,只會做出判斷而不提供理由。在目前的研究背景下,不知道哪個結構對分子的高性能起重要作用。因此,了解深度學習模式的思考方式,將豐富深度學習領域的研究內容,從而為人類社會帶來更大的價值。