基于可視化的固態電解質材料機器學習篩選與預測

2021-09-17 09:42:56蒲劍蘇朱正國邵慧高博洋朱焱麟閆宗楷向勇

數據與計算發展前沿 2021年4期

關鍵詞：特征分析模型

蒲劍蘇，朱正國，邵慧，高博洋，朱焱麟，閆宗楷，向勇

1.電子科技大學，計算機學院，大數據可視分析實驗室，四川成都 610000

2.深圳市清潔能源研究院，深圳 518048

3.電子科技大學，材料與能源學院，材料基因工程研究中心，四川成都 610000

引言

近年隨著消費類電子產品的爆發式增長，以及新能源汽車領域的持續火熱，電化學儲能電池被視作其產業鏈投資中最為關鍵的一環。與其他類型的化學電池相比，鋰離子電池具有能量密度高、循環壽命長以及功率密度高等優勢，受到廣泛關注[1]。然而，傳統液態鋰離子電池采用的電解液，存在易泄露、易揮發、易燃燒等缺點[2]，限制了鋰電池的發展。同時，采用電解液的鋰離子電池能量密度已經接近理論上限[3]。工業界與學術界一直在尋求解決方案，采用無機固態電解質取代電解液。基于固態電解質的電池體系安全性高，無漏液現象，且固態電解質也可以作為電池隔膜使用，降低了電池器件的設計難度，簡化了電池制造的工藝流程[4]。因此，固態電解質電池是當前鋰電池研究領域的一個重要發展方向。然而，由于固體與液體的物理、化學性質存在較大差異，固態電解質的離子電導率通常低于電解液，目前發現的固態電解質材料很難徹底取代電解液。因此在固態電解質相關材料的研究中，尋找具有高鋰離子電導率的固態電解質材料是固態鋰電池投入走向實用化的重要一步。

傳統材料設計與研究中最常采用的是基于“經驗假設-實驗驗證”思想的試錯方法，這種方法依賴科研工作者的科學經驗，實驗成本較高，同時非常費時。由于影響電解質材料性能的因素眾多，倘若采用第一性原理方法進行計算，會耗費大量的時間與計算資源，且實驗驗證過程受制備工藝的限制，往往耗時較長。因此，固態電解質的實用化進程依然進展緩慢。在幾十年的探索中，經過科學家們大量的努力也只確定了室溫下穩定工作的少數幾類鋰離子導體材料。斯坦福大學的一個團隊曾設計了一個可視化系統[5]，該系統通過機器學習篩選固態電解質材料，但其僅采用了有限的幾個機器學習模型，對于結果也只是通過物理化學性質理論及經驗去解釋，沒有進行驗證。基于他們的論文與數據集，我們通過兩年時間重新收集分析實驗結果，將訓練集擴大了50%，同時比較了多種機器學習算法，最后設計了一個基于固態電解質材料數據的可視化系統。我們的系統包括了五個部分，可以從多角度展示和解釋數據，為人工篩選材料提供了很多指導。

我們的主要貢獻總結如下：

（1）我們構建了一個材料數據可視化系統，實現了對高離子電導率固態電解質材料預測的功能。

（2）我們提出了一種交互式可視化分析方法，包括特征組成、模型性能比較和最終預測結果的呈現，幫助領域專家選擇可能合適的固態電解質材料，以便在實際實驗室環境下進一步檢查。

（3）通過一個實際案例證明了我們系統的有效性。對機器學習結果進行分析和解讀后，我們選擇了一種候選材料，并用幾個月的時間，在實驗室中制備了該材料。在對其鋰離子電導率進行測試后，

發現該材料是符合預期的。

1 相關工作

1.1 固態電解質材料的必要性

鋰離子電池主要由正極、負極、隔膜和電解質四個部分組成。其中電解質的主要作用是在電極之間傳導離子，其性能直接關系到鋰離子電池的溫度、安全性和循環性能。傳統基于有機溶劑的電解液，其鋰離子電導率高達10-2Scm-1，但有機溶液一般易燃且在高溫與高電壓環境下化學性質不穩定。因此隨著鋰離子電池的循環充放電，鋰離子沉積不均勻的問題會逐漸暴漏，其形成的鋰枝晶會刺穿隔膜導致短路，容易造成電解液分解形成易燃易爆物質，造成不可逆轉的容量損失和潛在的安全問題。

為解決上述問題，研究人員付出了相當大的努力。此前人們一直試圖降低液體電解質的易燃性，以增強電池性能來制造安全電解質[6-8]，但這并不能解決鋰枝晶問題。最近，人們關注的焦點已經轉移到固態電解質上。與液態電解質相比，固態電解質的安全性更高，可以一定程度上抑制枝晶問題[9-10]。

1.2 材料領域機器學習方法

傳統的材料研究方法以經驗或實驗試錯方法為主，實驗周期長，成本高。隨著材料大數據的蓬勃發展，數據驅動的機器學習方法為材料的發現開辟了新的方式。B.Meredig 等人構建了機器學習模型，用于篩選新的三元化合物，并預測了4 500 種新的穩定材料[11]。M.Attarian Shandiz 等人使用了多種機器學習算法對鋰離子電池的陰極材料儲鋰容量性能進行預測[12]。Ekin D.Cubuk 等人則使用遷移學習方法將篩選出了12 716 種潛在的固態電解質材料[13]。Cheng 等人總結了材料科學中的機器學習和一般算法過程[14]。

1.3 可視分析

可視分析方法提供了摘要統計以外的上下文信息，已成功地應用于許多領域。Ganuza 等人設計了一個交互式視覺分析應用程序，其中包含尖晶石礦物中常用的大部分地圖，能夠有效幫助地質學家更有效地分析統計信息[15]。J.Bernard 等人開發了儀表板網絡，可以對患者病史中的多個要素進行可視化，這有助于了解患者病史在時間順序上的變化[16]。S.Dong 等人構建了一個可視化系統，基于產品歷史需求對類似的產品使用不同模型預測并比較，進行需求預測[17]。

2 材料數據分析任務與設計要點

通常，機器學習分類模型接受指定輸入，然后輸出一系列預測標簽。但預測的過程對測試人員而言是不透明的，這種技術黑匣子需要以更直觀和更可見的方式呈現。從視覺分析的角度來看，對它進行額外的分析探索則至關重要，因為這有可能會對分析人員提供一些更有見地的思路與發現。本文的主要目標是幫助缺少機器學習算法經驗的材料研究人員更好地了解機器學習模型，并充分分析和理解材料數據預測結果的物理化學意義，以幫助其更好地進行新材料研發。我們將分析任務分為了五個部分：

（1）分析訓練集的特征分布。材料數據集的規模往往很大，訓練集收集的成本也較高。因此，我們可以首先了解訓練集中的特征對預測結果的貢獻度有多大，以便對特征篩選進行優化，同時進一步提高預測的效果。

（2）減少特征維度。由于其本身物理化學性質的復雜性，材料數據集是高維的。本文中使用我們處理后的數據，其中每個材料數據包括經過多達8個月計算出來的20 個特征，代表了機器學習模型中的20 個維度。維度越大，可視化系統的信息提取就越困難，因此減少維度對研究有較大的幫助。一方面可以減少不相關的變量，減少計算量，提高模型的運行速度；另一方面可以避免模型過擬合并提高模型預測的準確度。

（3）集群分析。根據聚類結果，我們可以觀察數據分布的特征和模式，以發現數據集潛在的內部相關性。

（4）構建交互式分析系統。我們希望增強用戶體驗，而不是簡單地顯示數據結果。我們希望我們的系統能夠為用戶提供靈活的選擇，以便他們能夠根據自己的想法查看感興趣的部分。

（5）呈現和解釋最終預測結果。領域專家需要直觀的表現來對結果進行分析。根據預測結果，我們的系統會從材料自身特征以及算法本身的角度提供一些見解，為進一步研究提供指導。

3 材料數據處理分析

3.1 數據篩選過程

固態電解質是全固態鋰離子電池的核心部件之一，會影響全固態鋰離子電池的各種電化學性能。根據工作溫度、安全性、穩定性、能量密度和環境友好性等要求，從中總結出了以下五項約束：低導電性，高金屬穩定性，高結構穩定性，高氧化分解穩定性和高離子導電性。在這些限制中，前四個約束稱為先決條件約束，而最后一個高離子導電性是最關鍵的約束。我們可以使用“材料項目”（Materials Project，以下簡稱MP）數據庫中的材料參數通過公式獲取前四個屬性。但目前還沒有一個確切的函數能夠計算離子電導率，所收集到的離子電導率數據都是在實驗室測試得到的。因此，我們從材料化學結構的角度出發，選擇與離子導電性密切相關的20個特征，通過對晶體的局部原子排列和化學性質進行特征定位，以構建機器學習模型。這20 個特征來自描述材料化學結構的26 個原始屬性，而這些屬性可以在MP 數據庫中獲得。

3.2 原始數據收集和處理

從MP 數據庫中，我們可以獲得12 831 個含鋰化合物和相應的DFT 計算得到的原子和電子結構信息，也稱為26 個原始屬性。首先，我們根據四個先決條件約束將12 831 個候選材料篩選至343 個。這343 個候選材料將用作一組可預測的機器學習模型。只有當其離子電導率足夠高時，它才有希望成為理想的固態電解質材料。

斯坦福大學的Reed 等人花費兩年時間找出了40 種材料，這些材料由各個研究小組通過實驗測量，展現了較高的離子電導率。在此基礎上，我們從發表的公開期刊文獻中又獲取了22 種高離子電導率材料。因此，總計有62 個高離子電導率樣本用于訓練機器學習模型。我們根據這62 種材料的離子電導率值將其標記為0 或1。如果離子電導率值高于10-4Scm-1，我們便將其標記為1，這意味著其離子電導率是符合要求的，否則我們將其標記為0。

我們還使用26 個原始屬性計算了上述343 個候選材料的20 個特征，并將訓練好的模型應用于這些候選材料，獲得了343 個相應的輸出標簽。由于這343 個候選材料是從前四個先決條件中篩選出來的，這就意味著343 個輸出標簽中為1 的材料便是我們期望的固態電解質材料。這種材料同時滿足低電子電導率、高金屬穩定性、高結構穩定性、高氧化分解穩定性和高離子導電性。

3.3 機器學習方法

基于機器學習方法，計算機可以從訓練集中學習，獲得從特征到標簽的映射，從而構建模型，對測試數據集進行預測。為了比較和選擇合適的機器學習算法，我們使用留一交叉驗證法(LOO-CV)來評估各種算法的預測能力。該方法將訓練集分為兩部分，一部分是單獨作為驗證的樣本，另一部分是作為訓練組的N-1 個樣本。然后，我們訓練N-1 個樣本的模型，并用訓練好的模型預測剩下的單獨樣本。交叉驗證過程重復N 次，每個樣本作為驗證數據僅使用一次。因此留一交叉驗證將獲得N 個結果，我們用這N 個結果的平均值來評估分類器的性能。

由于我們的研究是跨領域合作，為方便材料領域的研究人員理解，我們沒有直接去嘗試使用比較復雜的模型來進行分析預測，而是嘗試了許多經典的分類算法，如邏輯回歸(Logistic Regression,LR)、K 近鄰(k-Nearest Neighbor,KNN)、支持向量機(Support Vector Machine,SVM)、決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、Adaboost算法(ABt)和梯度提升算法(Gradient Boosting Tree,GBt)。我們還使用了準確率、召回率、F1 得分、精度和AUC（Area Under the Curve）等五個評估指標來全面衡量每個算法的性能。我們將所有算法的評價結果展示在了可視分析系統的右側，并繪制了相應的折線圖來展現各算法間的區別。

4 可視分析系統設計

經過與材料領域專家多次討論后，我們根據他們提出的需求設計了圖1所示的可視分析系統，包括控制面板視圖、平行坐標視圖、聚類視圖、材料比較視圖和模型比較視圖五個部分。我們的模型可以從多個角度顯示和解釋數據，為材料篩選提供指導。我們的系統是使用客戶端服務器架構開發的。客戶端使用HTML、JavaScript 以及React 框架構建，服務器使用NodeJS 搭建網絡服務，使用MongoDB作為數據庫，使用Robo3T 的GUI 管理數據庫。

圖1 高離子電導率的固態電解質材料可視分析系統Fig.1 The visual analysis system for solid-state electrolyte materials with high ion conductivity

4.1 控制面板視圖

該視圖提供了很多參數方面的自定義選擇，用戶可以根據自己的需求進行選擇來對分析進行自定義。在詳細信息中，用戶可以輸入數字來調整平行坐標視圖中顯示的特征數量。該面板還可以調整集群的數量，以探索更多的模式。此外，我們還提供了一些擴展功能。用戶可以更改投影和聚類算法，并選擇適用于測試集的不同最終算法，然后對比較視圖和預測視圖進行相應的更改。

4.2 平行坐標視圖

我們分析使用的處理后的材料數據有多達20 個特征，即使通過計算和分析去掉了貢獻度相對較少的特征仍然有7 個。在此基礎上，我們采用平行坐標來分析和顯示多維數據，它可以在視覺上清晰地顯示不同軸線上的數據分布。每個數據項目都是一條穿過多個坐標軸的線。每個軸表示每個特征。在該視圖中最多可以有21 個軸，包括20 個描述各種特征的軸以及1 個用來描述標簽的軸。標簽為1 的材料項目會被描繪成橙色，而標簽為0 的材料項目被描繪成灰色。我們可以通過對不同軸上顏色進行分析，大致判斷哪些特征是最具貢獻的特征。光標懸停在線上時，該線會高亮并在旁邊顯示一個圖示，顯示材料名稱和特征信息。用戶可以通過控制面板視圖的輸入框控制顯示功能的編號（從1 到20），以避免過度繪制。

4.3 聚類視圖

聚類分析用于將未知類別的樣本劃分為多個組。具有某些相似性的樣本將分組到同一組。為了減少不相關或多余的特征并避免高維空間問題，我們首先對數據集應用t-SNE 投影方法，然后使用K 均值聚類將數據分組，每個集群對應于一種顏色。對高維數據降維后，我們可以根據點之間的距離來衡量數據點的相似性。點的大小由四個代表性算法LR,ABt,GBt,DT 對該樣本的預測結果來決定，當四個算法都預測該點對應材料是正樣本時，該點具有最大的尺寸。而訓練集的正樣本則用一個紅色小圓標識出來。除此之外，聚類視圖左上方的小柱狀圖可以展示不同特征對預測結果的貢獻程度。

4.4 材料比較視圖

聚類視圖中的數據只是描繪了所有材料的總體分布。而在材料比較視圖中，用戶可以通過左鍵或右鍵點擊聚類視圖中的點來將材料數據導入到比較視圖的上方或下方。在該視圖中左側矩形顯示了四種典型算法的預測結果，矩形為深色代表該算法的預測結果為真，淺色代表該算法的預測結果為假。中間的圓形除了展示了材料名稱外，還進一步區分了材料。對于離子電導率還沒有經過實驗室測量的材料我們用圓環來標識，而已經在實驗室測量過離子電導率的材料我們用箭頭形狀來標識。向上的箭頭代表其具有高離子電導率，向下的箭頭代表其具有低離子電導率。該視圖右側的矩形陣則以熱力圖的方式展現了其20 個特征的數值高低。

4.5 模型比較視圖

我們通過留一交叉驗證法得到了實驗結果，并通過折線圖的五個指標來可視化各種模型性能。由于精度要求盡可能小，與其他指標要求盡可能大正好相反，為保持一致性，我們用1 減去其計算結果作為最終數值。每個算法都用五種指標來評價。用戶不僅可以了解到單個模型的具體性能，還可以比較不同算法之間的性能差異以選擇合適的模型。

5 案例分析

在本節中，我們會介紹一個具體案例，來展示我們的系統如何幫助用戶以交互方式查找潛在的目標材料。如圖2所示，我們首先在控制面板視圖選擇基本設置，然后從以下多個方面來探索具備高離子電導率的材料的特征。

圖2 可視分析系統流程圖Fig.2 The flow chart of the visual analysis system

在平行坐標軸中，我們用橘黃色的線代表真樣本，當大多數同一顏色的線聚集在某一個軸線上的相關位置且與另一顏色的線的聚集位置分開時，那么就認為該軸所表示的特征對判斷標簽的類別有很大幫助。相反，如果某一軸線上的線的顏色相互混合，無法區分開，那么這個軸所表示的特征可能對分類毫無幫助。在圖3所示的例子中，可以看到真樣本在特征SLPW(Average Straight-Line Path Width)中的分布集中在整體比例的0.35 到0.45 之間，在特征PF(Packing Fraction of full crystal)則多分布于整體比例的0.5 以下。那么在尋找高離子電導率材料時多留意這兩個特征可能會更有幫助，而特征ENS(Average Electronegativity of Sublattice)的貢獻度則不會很高。

圖3 平行坐標視圖Fig.3 The view of parallel coordinates

在聚類視圖中，著重比較的是材料之間的相關性，在圖4 中可以看到，黃色類中有許多被多個算法均預測為真的材料，他們的化學式是類似的，其在特征空間的位置也是相互靠近的，這說明他們很可能具有高離子電導率，未來應該加強對這些材料的探索，它們可能是還未發現的高離子電導率的材料。而右邊兩個相互接近的材料中，材料領域的研究人員對Li40Ga8O32進行了實驗室制備，分析其EIS曲線，并最終通過實驗證明了Li40Ga8O32具有良好的離子電導率。這個案例充分說明了我們的可視化系統在高離子電導率材料的探索中具有很強的現實意義。基于機器學習預測結果建立的模型是有價值的且是可行的。根據我們的可視化分析，在圖5 中，具有類似特征的Li40Ga8O32也是潛在的固態電解質材料，不過還需要進一步的實驗驗證。

圖4 聚類視圖分析Fig.4 The analysis of cluster view

圖5 比較視圖Fig.5 The view for comparison

總的來說，我們的系統對探索高離子電導率材料具有很大的參考價值。避免了領域專家的盲目搜索和復雜實驗，為節約大量成本提供了可能的方向。

6 結論

在這項工作中，我們設計實現了一個多維度的可視化分析系統，其功能包括特征圖探索、集群角度的相似性分析以及模型性能比較，來幫助材料領域專家對固態電解質材料進行篩選分析。我們的系統支持LR,KNN,SVM,DT,RF,ABt,GBt 七種典型分類算法，TSNE,PCA,MDS 三種投影算法，以及KMeans,DBSCAN,GNN 三種典型聚類算法。在結果評估方面我們展示五個相關評價指標供專家比較和選擇合適的模型。對于結果分析和案例研究，我們在尋找預期材料時探索了幾個有意義的方向，其中一些方向目前已被領域專家所認可，發現了幾種材料并已經在實驗室中順利制備，進行了相關測試，另外一些方向則為進一步研究提供了許多候選分析目標。我們的系統得到了領域專家的認可，他們認同我們的工作縮小了探索范圍，可以避免盲目的嘗試，節省了實驗的經濟成本、機會成本與時間成本。

利益沖突聲明

所有作者聲明不存在利益沖突關系。