黃 琳,苗亦新,岳忠孝,楊晶晶
(1. 云南大學,云南 昆 明 650093;2. 云南省科學技術院,云南 昆明 650500)
我國稀貴金屬材料產業與國外稀貴金屬材料產業相比,仍存在基礎研究薄弱、高端產品技術難以突破、部分關鍵材料卡脖子等問題。云南稀貴金屬材料產業,擁有全球最完整的錫產業鏈,全國最完整的貴金屬、鍺、鈦、液態金屬(鎵)等產業鏈,擁有國內貴金屬、錫、銦、鍺、鎵等稀貴金屬材料最全的產品門類體系,鈦產品在國內鈦材產業鏈中具有舉足輕重的地位。但是,云南省新材料產業依然處于價值鏈中低端,國內高端稀貴金屬新材料產品大多依賴進口。材料基因工程利用超大計算能力和大數據處理技術,交叉融合高通量計算、高通量實驗和數據庫技術,以更短的時間、更低的成本,創新材料研發模式,加速稀貴金屬新材料設計與研發。文章介紹了云南省稀貴金屬材料基因工程數據庫平臺情況,包括涵蓋多個稀貴金屬元素性能和特性參數庫,圍繞計算、實驗、服役、生產的貴金屬、錫、銦、鍺、鈦、液態金屬等重點金屬領域的專用數據庫。概述了機器學習的稀貴金屬材料數據庫建模與數據分析,以及人工智能方法在材料基因工程數據庫平臺的應用,提出了進一步研究重點。
材料從物理化學屬性來看,可分為金屬材料、無機非金屬材料、有機高分子材料和不同類型材料所組成的復合材料。材料數據種類繁多,包括實驗、計算、生產、文獻數據等,表現形式有文本、圖像、視頻等多樣格式,材料數據存儲在關系數據庫中。隨著數據庫技術的發展,材料領域在國內外出現了一大批材料數據庫,國外主要的材料信息數據庫平臺有MaterialsAtlas[1]、Materials project、Aflowlib、NIMS 等[1]。
我國積極建設材料數據庫,取得積極效果。2015 年啟動建設“國家材料科學數據共享網”,初步建成了較為完整的材料科學數據體系和共享與服務網[2]。2016 年啟動“國家材料基因工程高通量計算、高通量制備表征、數據庫”等重點研發計劃;2018 年啟動了“國家材料基因工程數據匯交與管理服務技術平臺”和“材料基因工程專用數據庫平臺建設與示范應用”等有關國家重點研發計劃項目[3]。北京有色金屬研究總院的有色金屬數據庫,包括360 種鋁合金數據,還有銅合金和部分稀有金屬數據;中科院材料基因實驗室Matclud,高通量材料集成設計平臺,包含大量計算數據庫[4]。
現有的材料庫主要是材料基本性能參數數據庫,收錄的稀貴金屬材料種類和性能數據不全面,極少建立專門的稀貴金屬數據庫。
傳統的材料研究以實驗研究為主,一般而言,新材料的應用時間跨度非常長。美國在2008 年首先提出“材料基因組計劃”(MGI),包含利用互聯網計算機與材料數據相結合實現跨層次多尺度計算,加快材料設計研發進程,使新材料研發至少加快1 倍,成本至少降低一半。我國積極行動應對材料基因組計劃,先后啟動了“材料基因組計劃”重大項目。2015 年科技部將“材料基因工程關鍵技術及支撐平臺”列為“十三五”國家重點研發計劃目。云南省于2018 年啟動稀貴金屬材料基因工程專項[5]。
云南省具有得天獨厚的稀貴金屬資源例如錫、銦、鈦、鍺、鋅、銀、鉑族等多種稀貴金屬儲量位居全國前列,已初步形成了稀貴金屬材料產業集群,擁有全球最完整的錫產業鏈,全國最完整的貴金屬、鍺、鈦、液態金屬(鎵)等產業鏈,鈦產品在國內鈦材產業鏈中具有舉足輕重的地位,擁有30 余個國家級、省級研發平臺。云南省稀貴金屬材料基因工程專項集中稀貴金屬領域的優勢資源和力量共同開展工作,重點開展貴金屬、錫銦、鈦、鍺等材料基因工程的高通量計算、高通量制備與表征、數據庫3 大平臺建設,實施一攬子核心關鍵材料攻關及產業化,構建基于數據驅動的稀貴金屬材料研發及工程化應用示范協同創新體系。云南省稀貴金屬材料基因工程(一期)總體布局如圖1 所示。

圖1 云南省稀貴金屬材料基因工程(一期)總體布局
稀貴金屬材料基因工程數據庫平臺是云南省稀貴金屬材料基因工程重點建設平臺,主要搭建稀貴金屬材料基礎參數庫及專業數據庫,采用人工智能與機器學習技術變革材料研發與應用過程,發揮稀貴金屬材料專業數據的引領作用[6]。平臺以稀貴金屬參數數據庫為基礎,各稀貴金屬材料板塊為專題數據庫,涵蓋金、銀、鉑、鈀、銠、銥、釕、鋨、錫、銦、液態金屬共11 個元素的稀貴金屬參數數據庫建設,其中專題庫包括貴金屬基礎數據、合金材料數據、催化材料數據、電子漿料數據、分子材料數據、熔渣相圖數據、錫材料數據、液態金屬材料數據共8 大板塊、15 個數據子庫,數據量超1 400 萬條;專業數據庫數據數據量200萬余條,存儲容量270TB。稀貴金屬參數數據庫平臺采取集中加分布模式來部署系統,同時,為了確保知識資產的安全性,根據內外網隔離的實際情況,稀貴金屬參數數據庫分為內網稀貴金屬參數數據庫平臺和外網稀貴金屬信息服務平臺兩個平臺。稀貴金屬材料基因工程數據平臺建設內容如圖2 所示。

圖2 稀貴金屬材料基因工程數據平臺建設內容
稀貴金屬參數數據庫建設包括稀貴金屬材料相關歷史數據,通過開發軟件采集、加工和處理技術,被整理、融合、入庫,形成系統性的、具有統一標準、融合多尺度數據的稀貴金屬材料基因工程基礎參數數據庫。從已具備的工作基礎和數據資源考慮,參數庫建立金、銀、鉑、鈀、銠、銥、釕、鋨8 個貴金屬元素以及錫、銦、液態金屬,共11 個元素的數據,數據內容包括所有能搜集到、可獲得的材料成分、結構、組織、工藝參數、熱力學參數、晶體學參數、材料性能、服役性能等常規數據和各類材料特性性能參數數據,以及產品數據、企業數據、行業數據和相關知識庫資源,為后續專用數據庫的建設奠定基礎。其技術路線如圖3 所示。
稀貴金屬專業數據庫圍繞貴金屬、錫、銦、鈦、液態金屬等重點金屬領域,建設各系列材料專業數據庫。研發相應的數據庫技術、材料智能化的設計開發技術與高通量制備表征關鍵,建立符合通則要求的元數據、數據庫及數據生產過程與數據應用等標準體系和相關管理規范,研發在三大平臺間數據自動采集傳輸技術和解析處理技術,開發面向各類計算實驗數據文件的數據后處理程序,培養和匯聚軟件開發、材料計算、實驗研發、生產工藝等多學科多領域的人才團隊,為數據驅動下的數據庫智能化應用搭建堅實的平臺與技術基礎。平臺建設包含貴金屬材料專業數據庫含8個專業子庫、錫銦專用數據庫,鈦合金專業數據庫,液態金屬專用數據庫等。
2.2.1 貴金屬專用數據庫
貴金屬專用數據庫平臺以《材料基因工程數據通則》為建設指導,設計和建立貴金屬子庫的元數據標準規范,數據庫系統包括結構層級管理,數據表構建管理,數據權限管理,數據關聯匯總等功能;數據管理系統包括數據可視化分析,數據存儲管理,數據接口管理等功能。整合數據調用與數據管理、應用需求,在貴金屬合金與熔渣、釬焊材料、電接觸材料、存儲材料、鍵合材料、電子漿料等專業子庫的高通量計算實驗數據。設計以樣品編號作為關聯信息,來構建各類實驗數據和計算數據的樣品信息、源數據、衍生數據的關聯架構,支持8 個子庫的專業數據入庫存儲管理,支持不同子庫間的數據調用和數據關聯,支持基于OpenAPI 的數據訪問接口,解決計算數據、實驗數據相關的存儲訪問的關鍵技術問題。同時,設計支撐8 個子庫的實驗計算數據入庫的數據表模板270 余個,形成貴金屬專業數據性能指標5 000 余個。
2.2.2 錫銦專用數據庫
錫銦材料專用數據庫平臺,本地化部署平臺的機器學習通用性算法,形成了三個材料標準化數據規范。高純銦信息化改造方案中的軟、硬件現場驗證、高純銦生產管理系統以及錫銦材料知識發現系統的開發,并通過大屏可視化硬件、服務器、防火墻、交換機等硬件部署完成數據的可視化。高可靠無鉛錫基焊料合金,完成高速焊點推拉力試驗機安裝調試,實現從塊體合金性能評價到焊點、界面斷裂性能的評價、實現焊點性能快速評價,建立了助焊劑原料性能數據庫和助焊劑剖析的研究方法,建立錫基阻燃材料應用專用數據庫。全鏈條錫銦材料專用數據庫數據量超過10 000 條。
2.2.3 鈦合金專業數據庫
鈦合金專業數據庫平臺,包括鈦合金材料數據、實驗數據規劃及數據模板研發及合金材料數據、鈦合金性能數據、標準管理、行業字典等結構化、半結構化數據存儲及管理研發。采用形式化語言定義鈦合金數據庫中涉及的各類結構化、半結構、無結構化數據的數據模板,定義數據樣式,對鈦合金材料的成分、物相組成、晶體結構、制備及生產工藝、性能及其測試方法等各方面的數據建立數據描述模型。根據鈦合金全流程數據規范及數據模板研發要求,圍繞鈦合金從研發、實驗、生產、產品等環節,以鈦合金材料管理、化學成分管理、產品圖片管理、實驗管理、標準管理、模擬系統生產工藝管理等為主制訂了20 余個典型或可配置的數據規范及數據模板。
2.2.4 液態金屬專用數據庫
液態金屬專用數據庫基礎平臺,開發了液態金屬材料專用數據庫V1.0 版軟件系統,目前在試用階段,支持對文獻數據、實驗表征以及制備工藝數據的動態錄入。形成液態金屬專用數據庫,積累高通量計算數據4 萬條,行業信息數據5 000條。推動基于機器學習等數據挖掘算法,開發了一套液態金屬材料的數據計算分析框架,研發了基于集成學習的液態金屬深度集成網絡,采用多元集成模型搭建液態金屬專屬預測模型,能夠較為準確預測指定金屬元素配比下的液態金屬的電導率、熱導率、黏度等性能指標,目前已根據模型預測模擬數據超20 萬條。
云南稀貴金屬材料數據庫建立了人工智能分析應用平臺,將深度學習方法在結構、特征建模與數據分析充分利用[7]。分析稀貴金屬材料基因高性能計算平臺數據,對材料數據的時空特征和動態相關性進行建模,設計稀貴金屬材料的時空圖卷積網絡模型,挖掘稀貴金屬材料結構與性能間的內在關系屬性,構成網狀的材料知識結構,建立高魯棒性的特征提取和表征模型[8]。搭建稀貴金屬材料的深度學習數據分析平臺,基于GPU高性能計算資源,集成深度學習算法,構建面向多種稀貴金屬材料的聯合數據分析軟件集群。
在稀貴金屬材料數據挖掘與機器學習領域,利用大數據分析和機器學習方法,通過人工智能分析應用工具庫平臺,包括回歸分析、貝葉斯優化、蒙特卡羅樹、模擬退火、遺傳算法、粒子群優化算法,對數據進行機器學習和應用驗證,獲得材料性能、趨勢、設計等數據并入庫[8]。在貴金屬電接觸材料、鍵合材料、電子漿料用、催化等數據庫及所建立的構效關系模型上,進行機器學習和應用驗證,預測和發現新材料、新性能。
在錫銦數據庫,建設綜合運用算法庫中各類算法的智能化機器學習平臺。高純銦數據平臺上,研發穩定生產優化模型并研發優化控制軟件,利用上海大學自主知識產權的模式識別最佳投影技術,建立高純銦穩定生產的機器學習優化模型,開發優化控制軟件,具備自學習的模型維護、對實時數據的診斷與預測、優化操作的指導等功能。在機器學習與數據挖掘算法庫建設上,將機器學習與數據挖掘算法示范應用于錫、銦材料基因工程全研究鏈,包括設計、制備、表征、性能優化。建立基于機器學習的變量篩選、模型優化、模型評價、由結果指導實驗等人工智能技術。構建錫銦知識圖譜與知識發現系統,以知識圖譜理論與技術為基礎,在錫銦材料領域構建智能搜索引擎,研發錫銦知識發現系統。通過定義錫銦材料本體、數據模式,在整合錫銦數據基礎上進行知識抽取、知識推理、更新迭代,形成高質量的知識庫,構建錫銦知識圖譜。
稀貴金屬材料基因工程工程化建設是數據的生產、管理與應用示范,針對稀貴金屬功能材料、催化材料、電子漿料、分子材料等二元到更多元的稀貴金屬材料體系,以及高純稀貴金屬材料,進行微觀、介觀、宏觀等多維度、多尺度材料的高通量計算和實驗,自動采集解析入庫,形成覆蓋材料計算數據、實驗數據、生產過程數據和產品性能數據的完整貴金屬數據庫體系。稀貴金屬材料基因工程工程化應用示范如圖4 所示。

圖4 稀貴金屬材料基因工程工程化應用示范
利用稀貴金屬材料基因工程技術開展 “理性設計- 高效實驗- 數據分析”深度融合、協同創新的稀貴金屬新材料研發示范,開發列產品,并開發出了相關材料。支撐新建年產5 噸高純銦擴大線、年產200 噸的高性能錫基阻燃劑應用示范線及貴金屬催化材料、低成本高耐蝕鈦合金、液態金屬相變散熱片等生產線。
下一步,繼續將材料領域知識與機器學習技術相結合的材料智能研究[9],構建稀貴金屬材料基因知識庫建設,高效的知識組織模型的稀貴金屬知識圖譜,材料領域知識進行表示、組織和推理,智能水平,并進一步擴展稀貴金屬材料知識庫范圍。針對稀貴金屬材料基因大數據庫的數據價值挖掘,進行稀貴金屬材料數據之間的合作,促進數據的共享和流通,搭建云南稀貴金屬材料基因大數據的開放共享平臺。同時,基于稀貴金屬材料基因工程數據庫進行戰略核心關鍵材料的開發與規模產業化,對“卡脖子”材料開展的計算、實驗、生產及應用的全鏈條數據入庫并學習挖掘[10]。構建大數據驅動新材料研發的協同創新體系,積極推進國際一流、國內領先的建成系統、智能、部分數據可安全共享的全國首個貴金屬、錫、銦、鍺、鈦、鎵、銅等材料國家參數庫,提升云南省稀貴金屬材料產業國際競爭力,全面推進有色金屬產業數字化轉型和數字產業化。