王 卓 朱 虹 許 斌 顏達鵬 杜 華 羅 亮 崔予文,4
(1.中南大學輕合金研究院,湖南 長沙 410083;2.成都材智科技有限公司,四川 成都 610041;3.中國核動力研究設計院核反應堆系統設計技術重點實驗室,四川 成都 610213;4.南京工業大學,江蘇 南京 210009)
自1954年第一座核電站在蘇聯建成至今已過去60多年,核能作為高效、清潔、安全的能源備受國際社會的關注,核電技術也隨之不斷發展、完善,更新到了第四代,展現出廣闊的應用前景。隨著我國經濟水平和綜合國力的不斷提升,對能源的需求也呈現遞增態勢,導致能源短缺問題日漸突出[1-3]。因此,核能作為目前唯一能達到大規模商用的替代能源,其發展可有效提高國家能源安全保障能力。我國核電工業發展大致經歷了起步、適度發展和快速發展等3個階段,逐步形成了完整的研發設計、工程建造、運行維護、燃料保障、設備配置、生產制造等全產業鏈體系,同時安全高效地發展核能成為我國能源電力發展戰略的重要組成部分[4-7]。
核電結構材料的設計研發作為核電技術發展的關鍵,同樣也是核電站使用壽命和安全運行的重要影響因素。福島核事故之后,國際對核電技術發展的安全性提出了更高要求,亟待尋找各項性能更具競爭力的新核電結構材料來進一步優化核電效能,提高其壽命周期[8-10]。目前,我國在建和使用的核電結構材料主要包括鎳基合金、奧氏體不銹鋼、低合金鋼和碳鋼等,其測試及服役常在高溫、高壓、強輻射等苛刻條件下進行,性能數據獲取十分不易。然而,傳統材料開發方式步驟繁瑣,研發到應用周期冗長且達不到預期性能效果,僅靠人力更無法挖掘材料特征與性能之間的深層聯系[11-12]。因此,在材料理論研究的發展過程中,人們將試驗與計算模擬產生的數據整合形成一定規模的數據庫,在材料數據庫的基礎上,進一步采用機器學習方法針對核電結構材料的各項屬性建立代理模型(surrogate model),從而實現對材料性能的快速預測,例如Wicker等[13]采用支持向量機器學習算法預測了分子材料的結晶度;Stanev等[14]通過機器學習模型得到了模擬超導體的臨界溫度;Voyles等[15]通過機器學習算法提高了材料顯微鏡數據的質量,以進一步深挖材料信息。以上示例說明機器學習已在多行業多領域有了重要應用,因此通過機器學習構建核電結構材料數據庫,不僅可以加快材料的設計進程,縮短研發周期,還可為實現對材料目標屬性或性能定制打開新的藍圖[16-17]。
本文對機器學習方法的主要思想和基本步驟進行了概述,介紹了機器學習應用平臺及其系統功能模塊和流程結構,展示了機器學習系統通過模型構建和應用包裝兩種途徑對核電結構材料性能進行預測的步驟,對進一步研究機器學習方法在核電結構材料性能預測乃至新材料的發現方面具有參考意義。
機器學習(machine learning)是由模式識別、人工智能計算學習理論為基礎所轉變的一類計算機科學分支,其目的是根據大數據和歷史情況來訓練模型[18-19]。一方面機器學習能夠在不明確潛在物理機制或沒有物理模型的情況下,從可用數據中獲取性能和預測發展趨勢;另一方面,已經建立的機器學習模型可反過來用于材料的發現和性能設計。因此,作為人工智能核心之一的機器學習方法,現已在材料科學領域取得了一系列應用成果,其中包括預測鋼疲勞強度、金屬催化活性、合金的物理機械性質和光伏材料的鑒定等,成為材料發展的一種創新模式[20-23]。目前,可選擇不同的機器學習算法對大量材料數據集進行性能參數的預測,不同算法對不同材料數據集中數據的敏感度也不同,需要對樣本數據進行有針對性的選擇,然后再通過相對應的性能評估手段進行比較和評估。機器學習的性能預測模型工作流程如圖1所示。在建立模型之前,將原始材料數據集按比例劃分為訓練集和測試集(如80%為訓練集,20%為測試集),通過訓練集中的數據對算法模型進行訓練,再利用訓練后的模型對測試集中的數據進行預測,最終得到模擬結果。

圖1 機器學習性能預測模型工作流程圖Fig.1 Workflow chart of machine learning prediction model
目前,在建立模型時可用到的算法主要有隨機森林、支持向量回歸和神經網絡等。
隨機森林(random forest)回歸算法是由Breiman于2001年提出的,其基本思想源于統計學理論[24]。隨機森林是由決策樹組合成的算法,用隨機方式建立很多決策樹而組成森林,決策樹間并沒有關聯,利用bootstrap[25](又稱為自助法,用于估計或修正統計估計值的偏差或方差信息)在訓練集中隨機抽取N個樣本,假設每個樣本構造決策樹,通過所有決策樹預測值的平均值計算得出最終預測值。
支持向量機(support vector machine)是運用支持向量機來解決回歸問題的方法,其基本思想是建立在統計學習理論基礎上,通過一個非線性映射φ,將數據x映射到高維特征空間F,在這個空間進行線性回歸,其優勢是可以解決小樣本數據集、非線性及高維模式識別,可以推廣至函數擬合等其他機器學習問題中[26]。
神經網絡(neural network)算法是一種模仿生物神經網絡(動物的中樞神經系統,特別是大腦)的結構和功能的數學模型或計算模型,用于對函數進行估計或近似。神經網絡由大量的人工神經元聯結進行計算,由輸入層、隱藏層(即中間層)和輸出層3層結構組成[18],其中輸入、輸出層的神經元個數是根據具體問題來確定的,而中間層則通常由經驗確定,確定好結構后可對其通過輸入輸出樣本集及逆行訓練,網絡經過訓練后,輸入輸出的映射關系得以實現,設輸入1個訓練樣本Xn,輸出層的神經元為:

式中:I為隱藏層神經元個數;N為訓練樣本組數;J為輸出層神經元個數;w為輸入層與輸出層間權值。基函數為高斯函數時,可表示為:

式中:σi為高斯函數方差;tim為基函數的中心;M為輸入層神經元個數。
通常采用均方誤差MSE(mean squared error)、均方根誤差RMSE (root mean squared error)、平均絕對誤差MAE(mean absolute error)作為學習器的泛化性能評價指標,校正決定系數R2(adjusted R-square)則用以衡量預測值與實際值的吻合程度,計算公式為:

式中:m為樣本數量;yi為真實值;為預測值。前3個指標根據不同的業務有不同的值,不具有可讀性,最后可根據R2的取值來判斷模型的優劣,其取值范圍是[0,1],如果是0,說明擬合效果很差,如果是1,說明模型準確預測。
核電結構材料在核電站的建設應用中扮演著重要角色,其中合金占絕大部分,而且合金材料具有化學元素的多樣性。理論上這類材料的數據達上萬種,因此可作為機器學習預測材料性能甚至到設計新材料的理想應用體系。本文選擇通過構建機器學習平臺實現模型訓練和模型應用的雙功能,模型方面主要針對專業用戶,以工作流的方式實現用戶自定義算法、評價方法及數據預處理過程,完成機器學習模型的構建,可重復進行模型訓練;應用部分則可支持將模型配置成操作簡單的應用供普通用戶直接使用,方便其完成機器學習預測,并得到性能預測結果和可視化分析。圖2是材料數據機器學習系統的基礎建設框架層級圖,以B/S架構來構建整個系統,從底層數據資源到應用層面總共劃分為4個層級,應用層面可滿足不同業務場景需求。

圖2 機器學習系統整體架構圖Fig.2 Overall architecture diagram of machine learning system
材料數據機器學習系統的功能概覽如圖3所示,系統由首頁、數據源、模型及配置和應用部分構成。首頁可以直觀地顯示收藏的應用和新發布的應用,可支持搜索應用;數據源部分主要包含用于材料數據機器學習的數據來源,支持連接外部數據源作為訓練數據,可預覽其中每張表的數據,同時也支持結合前處理方法及算法訓練數據模型;在模型及配置部分通過模型構建器進行模型構建,在系統中能夠對模型進行管理,控制模型發布和權限處理;最后到應用部分,將配置好的模型包裝成界面美觀、操作簡單的應用,可方便用戶閱覽并使用模型,對其產生的結果還可以進行可視化分析。基于合金材料數據集,可通過機器學習平臺對其性能進行預測,系統流程及演示將在下文進行詳細描述。

圖3 材料數據機器學習系統功能概覽Fig.3 Overview of the material data machine learning system functions
系統支持連接包括Excel、MySQL、iDataCenter在內的多種數據庫,用戶登錄系統后點擊數據源Tab頁可管理當前賬號下所有的材料合金數據庫及數據表,點擊數據庫右側即可出現數據庫詳情,可查看該數據庫類型、賬號密碼、配置信息及當前更新時間等。用戶可以點擊新建數據連接,填寫參數后進行測試,最后完成數據連接新建,系統操作界面及演示示例如圖4所示。

圖4 合金材料數據機器學習平臺數據連接演示示例Fig.4 Demonstration example of alloy material data connection on material data machine learning platform
模型功能是針對專業用戶配置的功能模塊,用于訓練模型,可查看當前賬號下已有模型或直接進行模型編輯。如圖5所示,專業用戶登錄系統后,可點擊模型Tab頁進入我的模型列表,也可切換至模型倉庫,頂部按鈕為新建模型,可進行模型新建;右側可進行篩選;最右側可進行模型搜索;下面每一條對應一個模型,從左到右依次是創建人、創建時間、訓練進度條和操作按鈕(包括發布、追加數據、參數修改和刪除)。模型建好后可直接點擊發布到模型倉庫,也可追加數據對模型進行迭代,追加數據時可選擇數據源的某一張表,系統會自動根據名字匹配特征列與字段,用戶還可以進行手動調整,等待該模型狀態變為待運行,即可重新使用。用戶點擊新建模型后,系統進入新建模型,操作界面將顯示出一個類似于工作流的界面,前3個步驟可進行基本信息、數據源和特征目標的選擇,之后可進行數據預處理或算法選擇。特征列、目標列選擇后右側自動出現相關性分析圖表,分析方法默認為最大信息系數(maximal information coefficient,MIC),其后有選取相關性靠前字段選項,分為前5、前10、前15、前x,點擊某個按鈕左側特征會自動取消選擇相關性不在該范圍內的字段。數據預處理后進行算法選擇,系統有線性回歸、BP(back propagation)神經網絡、隨機森林回歸、支持向量機回歸等算法可供選擇。

圖5 合金材料數據機器學習系統模型演示示例Fig.5 Demonstration example of alloy material data machine learning system model
如圖6所示,模型建立后進入模型詳情頁,進行模型訓練,模型訓練流程每一個節點右側均有標識提示該步驟是否成功,失敗會顯示原因,后續步驟選項變灰。訓練完成后可顯示模型概覽,包括模型基本信息、當前狀態、MAE與R2評價結果以及評價數據量,最下方為實際值與測試值的偏差圖。

圖6 合金材料數據機器學習系統模型訓練演示示例Fig.6 Demonstration example of alloy material data machine learning system model training
系統支持將模型配置為方便直接使用的模型應用,同時支持在系統中測試應用,發布后的應用即可在模型應用服務系統中供用戶使用。如圖7所示,普通用戶登陸系統后,點擊應用Tab頁進入應用倉庫,此處可顯示該賬戶下所有應用及基本信息,單擊標題進入應用使用界面,可收藏應用方便篩選使用。專業用戶進入應用列表頁可顯示創建的應用包含已發布和未發布的應用,還可以進行應用新建。進入應用新建界面后有3個步驟,分別是填入基本配置信息、選擇模型和輸入規范,完成后生成1個未發布的應用,點擊發布按鈕后完成用戶使用權限的選擇,確定后發布應用成功,也可取消發布。在應用使用界面,可選擇數據輸入方式,支持單條輸入和多條輸入,無論什么輸入方式均在右側對特征值進行實時校驗,提醒輸入數據是否符合要求,沒有錯誤后可進行實時計算,計算完成后跳轉回結果頁。結果頁可顯示預測結果,有簡略與詳細兩種模式,可手動切換。

圖7 合金材料數據機器學習系統模型應用演示示例Fig.7 Demonstration example of alloy material data machine learning system model application
核電站堆型種類多樣,其中采用普通水作為冷卻劑和慢化劑的壓水堆應用最為廣泛,該類型核電站的大部分部件采用鋼鐵材料,由于高溫和強輻射服役環境的限制對核電用鋼的性能要求非常嚴苛,鋼材制備研發也需模擬實際環境進行,試驗難度大、危險系數高,試驗數據來之不易。因此,可借助機器學習算法構建模型并對其進行訓練,訓練后包裝成應用供用戶直接使用,可達到基于材料數據預測核電用鋼某種性能的效果。如圖8所示,通過機器學習系統建模訓練后,得到核電用鋼疲勞強度預測值與實際值的對比圖,可見每組樣品的預測準確度相對較高,說明簡單高效的模型構建和訓練可以針對不同材料的不同性能進行預測,從而有效降低試驗成本,便于科學家們選材用材。

圖8 核電用鋼疲勞強度性能預測值與實際值的對比Fig.8 Comparison of predicted and actual values of fatigue strength properties of nuclear power steels
數據驅動與人工智能的結合成為科學的第四范式,作為核心技術之一的機器學習的應用與發展已經完全改變了材料研究的理念,并在該領域取得了一定的進展,朝著快速準確地預測材料的各種性質目標邁出了重要一步,利用數據幫助人們發現、設計和優化新材料,成為重要的材料數據分析工具[28]。本文基于機器學習算法對核電結構材料性能預測進行深入研究,該過程摒棄傳統材料研發設計周期長且成本高昂的缺點,在材料科學與工程領域展現出了與傳統研究方式不一樣的視角。
本文通過多源異構數據、非結構化、半結構化數據的結構化處理技術,針對跨尺度的核電合金結構材料數據庫,主要介紹了機器學習平臺的建設思路和主要功能模塊構成,總結了該機器學習系統對核電合金性能預測的基本步驟流程和具體演示示例。結果表明:通過對核電合金材料數據進行整理和有效利用,挖掘數據中的潛在信息對材料的某一目標性能進行預測,可以不經過傳統試驗和第一性原理計算獲得相對可靠的性能,充分發揮機器學習系統對研發人員的助力作用;文中配置的機器學習平臺操作頁面簡潔美觀,易于用戶理解使用,面對不同類型的用戶可提供不同的模式包括模型訓練和應用創建,可有效減少研發人員的工作量;以上均對材料性能預測乃至新材料的研發具有一定實用價值。
雖然材料數據機器學習系統的構建可以讓科研人員不再依賴反復試驗或數據計算,有效預測材料的特征性質并開發尋找新的高性能材料。但總的來說,機器學習是一種數據驅動的方法,其應用對數據依賴性很強,對核電材料的性能預測需要從相關文獻和數據庫中獲取特征性能參數,這種方式在數據量有限的情況下和具有上百萬數據量的圖像識別等領域相比,會導致機器學習模型的過擬合,從而降低機器學習方法的泛化能力。因此為了提高數據量,一方面需要進一步通過高通量的計算來增加材料理論數據,另一方面針對文獻中試驗數據可以開發智能讀取系統,從先進文獻及出版物中讀取訪問可靠的試驗數據。此外,機器學習向其他重要領域的發展仍然處于起步階段,還需要不斷地進行完善和改進,通過發掘可解釋性的描述符將機器學習的黑盒子模型變得可解釋也是具有發展前景的方向之一。總之,在可預見的未來,隨著高新技術的發展,機器學習方法不僅可以助力于研發人員設計制備高性能的新型材料,還可能為其提供理論依據,一定也會在其他材料科學領域大放異彩。