黎威 龍連春? 劉靜毅 楊洋
1) (北京工業大學材料與制造學部,北京 100124)
2) (中國科學院物理研究所,北京 100190)
磁性材料種類繁多、用途廣泛,在磁記錄、磁致伸縮、磁潤滑、磁致冷和磁傳感器等領域具有重要應用[1-4].按照磁性物理學的劃分,材料的磁性基態可分為磁有序的鐵磁基態、反鐵磁基態、亞鐵磁基態和磁無序的順磁基態.其中,鐵磁基態是未來高性能磁性材料的關鍵要求之一[5],根據鐵磁基態產生的鐵磁性材料在傳感與控制、信息處理、信息存儲等技術領域具有重要的應用價值[6-8].從宏觀角度來說,長程有序排列的磁矩是材料鐵磁性產生的原因[9],通過磁矩可以得到材料的磁化強度、磁滯回線,反映材料的磁化性能[10].因此,研究鐵磁性材料的磁矩十分重要.
由于材料的實驗測試既昂貴又耗時[11],材料科學家們在實驗制備測試材料的同時,使用密度泛函理論(density functional theory,DFT)進行材料性能計算.然而,對于復雜的材料結構,精確的DFT 計算也會消耗大量時間.多年來,通過DFT計算產生了一些大型材料數據庫,如無機晶體結構數據庫[12]、開放量子材料數據庫[13]和材料項目數據庫[14]等.面對海量材料數據,如何通過數據技術手段從中提取知識,避免重復運算,浪費算力,成為關注的熱點[15].近年來,許多研究者將機器學習(machine learning,ML)技術應用于材料研究,主要分為預測材料性能和發現新材料兩個方面[16].在預測材料性能方面,Isayev 等[17]構建了一種材料特征計算工具,使用ML 中的梯度提升決策樹算法預測了無機晶體材料的六種熱機械性能;寇雯博等[18]提出了一種小波-ML 混合方法,可用于混雜復合材料等效熱傳導性能的預測.在發現新材料方面,楊自欣等[19]構建了用于預測鉛基鈣鈦礦材料鐵電居里溫度的ML 模型,使用得到的模型篩選出了2 種目標鈣鈦礦鐵電材料;Lu 等[20]采用DFT計算結合ML 預測的方式,從5158 個無鉛雜化鈣鈦礦中篩選了3 個穩定的鈣鈦礦材料.這些研究展現了ML 在計算材料領域的可行性.
目前,使用ML 研究材料磁性基態主要關注鐵磁和反鐵磁基態的分類,多種磁性基態分類的ML 研究有待發展.例如,Long 等[5]從AtomWork數據庫[21]中收集了1749 條鐵磁基態和1056 條反鐵磁基態的金屬間化合物數據,使用ML 中的隨機森林算法實現了金屬間化合物的鐵磁/反鐵磁基態分類,最終的分類準確率為87%;Frey 等[22]針對材料項目數據庫中的3153 種過渡金屬氧化物訓練了ML 模型,實現了過渡金屬氧化物的鐵磁/反鐵磁基態分類,分類模型的精確率和召回率的調和平均數(F1 score)為85%.雖然已有研究者使用ML預測材料磁矩,但面向的是多種磁性基態材料,相關研究主要關注算法的準確性,并沒有分析材料特征,缺少探討單一磁性基態材料的磁矩.鐵磁性材料作為一種重要的磁性材料,針對性的機器學習研究具有重要意義.如Yamamoto[23]使用晶體圖神經網絡模型對開放量子材料數據庫和材料項目數據庫中的材料數據進行研究,實現了非磁性材料/磁性材料的分類和磁矩的預測,最終集成分類模型的感受性曲線下方面積(AUC)為0.957,集成預測模型的平均絕對誤差為0.119 μB/atom.
本研究以無機磁性材料的四種磁性基態和無機鐵磁性材料的磁矩為研究對象,計算了材料的元素和結構特征,并通過兩步法篩選材料特征,確定了磁性基態分類與磁矩預測的重要材料屬性.基于篩選后的材料特征,訓練了磁性基態分類和磁矩預測的ML 模型,使用多種評價指標對模型的10 折交叉驗證結果進行定量評估,得到了性能最優的分類模型和預測模型.最后,將兩個模型應用于測試集中材料的磁性基態分類和磁矩預測,驗證了模型的精度和泛化能力.
通過材料項目數據庫的應用程序接口[24]獲取了98888 條無機磁性材料數據,包含材料的化學式、CIF 文件、磁性基態和晶胞磁矩信息.針對本文的研究對象,對數據集中無機磁性材料的磁性基態和無機鐵磁性材料的晶胞磁矩進行描述性統計,如圖1 所示.圖1(a)是四種磁性基態的數量分布,其中順磁基態(PM)數據58068 條,鐵磁基態(FM)數據32248 條,亞鐵磁基態(FiM)數據5733 條,反鐵磁基態(AFM)數據2839 條.圖1(b)展示了無機鐵磁性材料晶胞磁矩的密度分布,范圍為0—280 μB,可以看到數據呈重尾分布,類似于指數數據.

圖1 材料數據集的描述性統計 (a) 磁性基態分布直方圖;(b) 晶胞磁矩頻數分布圖Fig.1.Descriptive statistics of material data set:(a) Distribution histogram of the magnetic ground state;(b) frequency distribution of the unit cell magnetic moment.
通過ML 技術建立材料屬性與材料性能之間的映射,需要提取數字化的材料特征變量.利用材料信息平臺Matminer[25]計算了數據集中材料的元素和結構特征,共產生了582 種材料特征.其中元素特征主要包括材料的組成、元素信息和電子排布;結構特征主要包括空間群數、晶胞體積和正弦庫侖矩陣.
冗余特征會導致模型的低效或過度擬合,為了克服此缺陷,采用兩步式特征選擇方法去除冗余特征.第1 步使用交叉驗證遞歸特征消除(RFECV)的方法,逐一評估特征的重要性,在保證模型精度基本不下降的前提下,去除冗余特征;第2 步采用ML 模型的特征排序,進一步精簡并選擇出對模型最重要的特征.通過兩步式特征選擇方法分別為磁性基態分類模型和磁矩預測模型選擇了20 個特征,如表1 所列.表中展示了選擇出的34 個重要特征,其中有6 個特征為兩個模型共用特征,各個特征的物理意義見附錄表A1 所列.

表1 基于兩步式特征選擇法獲得的材料特征Table 1.Material features obtained by the two-step feature selection method.
將選擇出的材料特征數據與磁性性能數據組合為材料數據集,按照4∶1 的比例隨機分為訓練集和測試集.首先使用訓練集中的材料數據進行ML 模型的訓練,然后使用測試集中的材料數據檢驗ML 模型的精度和泛化能力.ML 模型的訓練和檢驗過程均采用10 折交叉驗證的方法進行定量評估.其中,分類模型的評估指標為:準確率(accuracy)、精確率(precision)、召回率(recall)和F1 分數(F1 score);預測模型的評估指標為:擬合優度(R2)和平均絕對誤差(MAE).
為了捕獲材料特征數據與材料磁性性能之間復雜的映射關系,采用隨機森林(random forest,RF)[26]作為ML 模型.RF 不需要對材料特征進行縮放,能夠直觀地得出材料特征與材料性能之間的關系.ML 模型的超參數會影響模型的擬合能力,通過網格搜索的方式分別對隨機森林分類(RFC)模型和隨機森林回歸(RFR)模型進行超參數優化,得到模型的超參數如表2 所列.本研究中ML 模型的訓練、評估和超參數優化均通過python 庫中的scikit-learn[27]實現,ML 模型的構建流程如圖2.

圖2 機器學習模型的構建流程Fig.2.Construction process of the machine learning model.

表2 本研究中機器學習模型的超參數Table 2.Hyperparameters of the machine learning model in this study.
3.1.1 分類模型訓練
使用RF 中的隨機森林分類(RFC)構建了磁性基態分類模型,完成了無機磁性材料鐵磁、反鐵磁、亞鐵磁和順磁基態的分類篩選.在磁性基態分類模型的兩步式特征選擇中,第1 步通過RFECV方法將材料特征減少到了82 個,模型的平均分類準確率為89.46%;第2 步通過RFC 的特征排序選擇了排名靠前的20 個材料特征對模型進行訓練,此時模型的平均分類準確率為87.67%,如圖3(a)所示.考慮到特征相關性,第2 步被剔除的材料特征對磁性基態的分類仍有少量貢獻,模型分類準確率的略微下降在可控且合理的范圍內.圖3(b)展示的是分類模型的材料特征排序結果,其中,材料原子磁矩、原子外圍軌道未充滿電子數等元素特征對磁性基態分類的貢獻程度較大;結構特征中的正弦庫侖矩陣、晶胞體積對磁性基態分類的貢獻程度雖小,但是排名靠前,可見結構特征在四種磁性基態分類時起到了關鍵作用.

圖3 磁性基態分類模型的訓練結果 (a) 10 折交叉驗證;(b) 材料特征排序Fig.3.Training results of the magnetic ground state classification model:(a) 10-fold cross-validation;(b) ranking of material features.
3.1.2 預測模型訓練
基于獲得的分類模型,使用RF 中的隨機森林回歸(RFR)對無機鐵磁性材料的磁矩進行預測分析.為避免晶胞大小不同和晶胞中原子個數不同對結果產生影響,將磁矩值平均到晶胞中的每個原子.預測模型訓練與分類模型訓練相似,采用兩步法去除了對磁矩預測無關或影響較小的冗余材料特征.第1 步通過RFECV 得到了45 個材料特征,模型的平均擬合優度為95.77%;第2 步通過RFR的特征排序得到了20 個材料特征,此時模型的平均擬合優度為94.68%,如圖4(a)所示.圖4(b)展示的是預測模型的材料特征排序,結構特征在經過兩步式的特征選擇后被移除,而化合價、電負性、f 軌道未充滿電子數和材料原子磁矩等元素材料特征對無機鐵磁性材料的磁矩預測提供了較大的貢獻.

圖4 磁矩預測模型的訓練結果 (a) 10 折交叉驗證;(b) 材料特征排序Fig.4.Training results of the magnetic moment prediction model:(a) 10-fold cross-validation;(b) ranking of material features.
將材料數據集分為訓練集和測試集,模型的訓練和交叉驗證均在訓練集上完成,測試集數據在整個模型構建過程中沒有參與,此時模型在訓練集上的應用效果最能檢驗模型的精度和泛化能力.
3.2.1 分類檢驗
針對訓練完成的磁性基態分類模型,使用測試集檢驗其對無機磁性材料四種磁性基態的分類能力.圖5(a)是混淆矩陣,它反映了磁性基態分類模型在測試集上的精度.圖5(a)中的數值表示行標簽材料被預測為列標簽材料的數目,可以看到96.5%的順磁基態和84.8%的鐵磁基態被正確分類,反鐵磁和亞鐵磁基態的分類效果較差,這可能是由于數據庫中反鐵磁基態和亞鐵磁基態的材料數量較少,數據分布不平衡導致.從圖5(b)的結果可以看出,4 種分類評價指標的10 折交叉驗證結果都很平均,說明模型沒有過擬合和偏向抽樣,能夠真實地反映磁性基態分類模型對四種磁性基態的分類效果.同時,將本研究的磁性基態分類模型與其他研究磁性基態分類的機器學習模型進行了對比,如表3 所列.這兩個研究實現了鐵磁和反鐵磁基態的分類,屬于二分類問題.本研究實現了鐵磁、反鐵磁、亞鐵磁和順磁基態的分類,屬于四分類問題,而且進一步提升了分類效果.

圖5 磁性基態分類模型的檢驗結果 (a) 混淆矩陣;(b) 10 折交叉驗證Fig.5.Test results of the magnetic ground state classification model:(a) Confusion matrix;(b) 10-fold cross-validation.

表3 本研究磁性基態分類模型與其他研究者工作的定量評估對比Table 3.Quantitative evaluation of the magnetic ground state classification model in this study and in comparison with other works.
3.2.2 預測檢驗
為了檢驗磁矩預測模型對無機鐵磁性材料磁矩的預測能力,使用測試集中的磁矩數據進行預測,觀察預測值與真實值的擬合程度、誤差范圍.圖6(a)展示了預測模型對磁矩的預測值和真實值對比,圖中藍色圓圈對應不同的無機鐵磁性材料,其橫坐標為獲得的預測模型對某材料磁矩的預測值,縱坐標為該材料磁矩的真實值,紅色虛線表示預測值與真實值完全吻合時的情況.從圖6(a)可以看出,對于測試集中6450 條未參與訓練的無機鐵磁性材料,預測模型對其磁矩的預測值都落在了真實值附近.從圖6(b)可以看出,2 種評價指標的10 折交叉驗證結果都很平均,較訓練集結果僅有略微下降,說明磁矩預測模型沒有過擬合,對無機鐵磁性材料的磁矩具有較好的預測能力.同時,也將本研究的磁矩預測模型與其他研究磁矩預測的機器學習模型進行了對比,如表4 所列,本研究的機器學習模型對磁矩的預測具有更低的平均絕對誤差(MAE).

表4 本研究磁矩預測模型與其他研究者工作的定量評估對比Table 4.Quantitative evaluation of the magnetic moment prediction model in this study and in comparison with other works.

圖6 磁矩預測模型的檢驗結果 (a) 預測值與真實值的擬合情況;(b) 10 折交叉驗證Fig.6.Test results of the magnetic moment prediction model:(a) Fitting degree between predicted value and real value;(b) 10-fold cross validation.
本研究針對材料項目數據庫中無機磁性材料的四種磁性基態和無機鐵磁性材料的磁矩,計算了統一的數字化材料特征,這些特征包含材料的元素屬性和結構屬性描述,使得構建的機器學習模型能夠從中學習規律,以低廉的計算成本實現磁性基態的分類和磁矩的預測:
1) 通過兩步式的特征選擇方法,發現了對磁性基態分類和磁矩預測具有重要貢獻的材料特征,包括材料元素特征中的電負性、原子磁矩和原子外圍軌道未充滿電子數,顯示了材料的組成元素性質和電子排布與材料磁性性能之間的密切關系.
2) 基于隨機森林算法,建立了磁性基態分類模型和鐵磁性材料磁矩預測模型.在材料測試集的檢驗中,分類模型對四種磁性基態的平均分類準確率達85.23%,預測模型對磁矩預測的平均絕對誤差僅為0.098 μB/atom,兩個模型均展現了良好的精度和泛化能力.
附錄

表A1 基于兩步式特征選擇法獲得的材料特征及其物理含義Table A1.Material features and their physical meanings obtained by the two-step feature selection method.