999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

材料數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù)的應(yīng)用現(xiàn)狀

2019-08-16 11:51:50羅小兵段琳娜
中國(guó)材料進(jìn)展 2019年7期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)

楊 麗,蘇 航,柴 鋒,羅小兵,段琳娜

(1. 鋼鐵研究總院工程用鋼研究所,北京 100081)(2. 北京鋼研新材科技有限公司,北京 100081)(3. Institute of Iron and Steel, RWTH Aachen University, Aachen 52072, Germany)

1 前 言

20世紀(jì)60年代IBM數(shù)據(jù)庫(kù)管理產(chǎn)品IMS技術(shù)的推出,為數(shù)據(jù)庫(kù)的發(fā)展奠定了基礎(chǔ)。隨后,各國(guó)先后開(kāi)始建立材料數(shù)據(jù)庫(kù),為材料標(biāo)準(zhǔn)、科研數(shù)據(jù)提供結(jié)構(gòu)化的儲(chǔ)存途徑以及信息查詢(xún)等功能。

2011年美國(guó)提出發(fā)展材料基因工程,即數(shù)據(jù)庫(kù)、高通量計(jì)算方法與高通量實(shí)驗(yàn)方法三大要素,為加速材料的智能設(shè)計(jì)作技術(shù)支撐。材料數(shù)據(jù)庫(kù)的作用和地位隨之變得更加突出:一方面,材料數(shù)據(jù)庫(kù)可為高通量實(shí)驗(yàn)以及高通量計(jì)算結(jié)果提供海量數(shù)據(jù)存儲(chǔ)空間;另一方面,材料數(shù)據(jù)庫(kù)為高通量計(jì)算提供參數(shù),或通過(guò)挖掘數(shù)據(jù)庫(kù)中的知識(shí)模型,指導(dǎo)材料設(shè)計(jì)。

數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)發(fā)現(xiàn)知識(shí)模型的重要方法,是一個(gè)通過(guò)從不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中,發(fā)現(xiàn)隱含的、未知的、可能有用的并且最終能被理解的模式的重要過(guò)程。雖然早在20世紀(jì)初期基于數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)就已基本成熟,但直到計(jì)算機(jī)的出現(xiàn)和計(jì)算能力的提升,大數(shù)據(jù)分析、數(shù)據(jù)挖掘等操作才變得更加切實(shí)可行。將數(shù)據(jù)挖掘方法應(yīng)用到材料數(shù)據(jù)庫(kù)的規(guī)律學(xué)習(xí)中,是指導(dǎo)新材料設(shè)計(jì)開(kāi)發(fā)的一個(gè)重要手段。

本文針對(duì)國(guó)內(nèi)外材料數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展應(yīng)用現(xiàn)狀進(jìn)行了綜述,根據(jù)材料研發(fā)和理性設(shè)計(jì)新模式的發(fā)展需求,討論了構(gòu)建材料基因工程所需的材料數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù)目前存在的問(wèn)題和未來(lái)發(fā)展方向。

2 材料數(shù)據(jù)庫(kù)

2.1 傳統(tǒng)材料數(shù)據(jù)庫(kù)

以歐美、日韓等為代表的發(fā)達(dá)和新興工業(yè)國(guó)家從20世紀(jì)七八十年代起,先后開(kāi)始發(fā)展材料數(shù)據(jù)庫(kù),目前都已擁有一定數(shù)量的材料數(shù)據(jù)庫(kù),涵蓋了黑色金屬、有色金屬、高溫材料、復(fù)合材料、陶瓷材料、橡膠、核工業(yè)材料、功能材料等各種材料的成分、相圖、晶體結(jié)構(gòu)、性能參數(shù)等數(shù)據(jù)[1-3]。我國(guó)也從20世紀(jì)80年代開(kāi)始由科研院所、企業(yè)自主建立了大量不同規(guī)模、分散獨(dú)立的材料數(shù)據(jù)庫(kù),如鋼鐵研究總院的合金鋼數(shù)據(jù)庫(kù)、中國(guó)航發(fā)北京航空材料研究院的航空材料數(shù)據(jù)庫(kù)、北京有色金屬研究總院的有色金屬數(shù)據(jù)庫(kù)、清華大學(xué)的新材料數(shù)據(jù)庫(kù)、西北工業(yè)大學(xué)的復(fù)合材料數(shù)據(jù)庫(kù)、北京機(jī)電研究所的材料熱處理數(shù)據(jù)庫(kù)等上百個(gè)專(zhuān)業(yè)材料的數(shù)據(jù)庫(kù)[4]。

根據(jù)存儲(chǔ)數(shù)據(jù)種類(lèi)的不同,材料數(shù)據(jù)庫(kù)主要分為:材料熱力學(xué)和相圖數(shù)據(jù)庫(kù)、晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)(如無(wú)機(jī)晶體學(xué)數(shù)據(jù)庫(kù)(ICSD))、材料性能數(shù)據(jù)庫(kù)(標(biāo)準(zhǔn)或?qū)嶒?yàn))、工藝性能數(shù)據(jù)庫(kù)(如熱處理數(shù)據(jù)庫(kù)、金屬切削數(shù)據(jù)庫(kù)等)、特殊性能數(shù)據(jù)庫(kù)(如腐蝕數(shù)據(jù)庫(kù)和疲勞數(shù)據(jù)庫(kù))、專(zhuān)用數(shù)據(jù)庫(kù)(如航空材料數(shù)據(jù)庫(kù)、汽車(chē)材料數(shù)據(jù)庫(kù))等。根據(jù)存儲(chǔ)數(shù)據(jù)形式的不同,數(shù)據(jù)庫(kù)可分為數(shù)值型、文獻(xiàn)型和文獻(xiàn)/數(shù)值綜合型。根據(jù)存儲(chǔ)數(shù)據(jù)的服務(wù)模式,可分為離線(xiàn)型數(shù)據(jù)庫(kù)和在線(xiàn)型數(shù)據(jù)庫(kù)。由于早期建立的傳統(tǒng)材料數(shù)據(jù)庫(kù)主要是離線(xiàn)型,多服務(wù)于研究機(jī)構(gòu)或組織的數(shù)據(jù)存儲(chǔ)和研究,存在規(guī)模小、用戶(hù)局限性高、商業(yè)化程度不高等缺點(diǎn),因而其更新和應(yīng)用受到人力、物力的限制,甚至部分?jǐn)?shù)據(jù)庫(kù)逐漸銷(xiāo)聲匿跡。

隨著web網(wǎng)絡(luò)技術(shù)的普及和快速發(fā)展,國(guó)內(nèi)外較活躍的材料科學(xué)數(shù)據(jù)庫(kù)開(kāi)始以在線(xiàn)方式管理和服務(wù),提高了材料數(shù)據(jù)庫(kù)的商業(yè)化程度,強(qiáng)化了對(duì)用戶(hù)的服務(wù)膜式。在線(xiàn)數(shù)據(jù)庫(kù)的主要優(yōu)勢(shì)是更易推廣和數(shù)據(jù)共享,通過(guò)將數(shù)據(jù)庫(kù)商品化為外部機(jī)構(gòu)提供有償服務(wù),間接推動(dòng)了數(shù)據(jù)庫(kù)的應(yīng)用和全面快速發(fā)展。目前,國(guó)際知名的商業(yè)化材料在線(xiàn)數(shù)據(jù)庫(kù)有美國(guó)的MatWeb和ASM International、瑞士的Total Materia、日本的NIMS、德國(guó)的Key to Steel等,詳情如表1所示[5]。

表1 國(guó)際知名在線(xiàn)材料科學(xué)數(shù)據(jù)庫(kù)[5]

我國(guó)材料數(shù)據(jù)庫(kù)的商業(yè)化發(fā)展也隨著移動(dòng)互聯(lián)網(wǎng)的興起得到極大提速。以鋼研·新材道、材易通、歐冶知鋼為代表的一批在線(xiàn)數(shù)據(jù)庫(kù)服務(wù)平臺(tái)先后出現(xiàn)。其中鋼研·新材道的“全球鋼材高端云服務(wù)”是依托于鋼鐵研究總院國(guó)內(nèi)頂尖研發(fā)團(tuán)隊(duì)和65年的技術(shù)積淀建立起來(lái)的材料大數(shù)據(jù)和云服務(wù)平臺(tái),其Atsteel在線(xiàn)材料數(shù)據(jù)庫(kù)包含上千個(gè)國(guó)內(nèi)外標(biāo)準(zhǔn)、上萬(wàn)個(gè)牌號(hào)的材料性能數(shù)據(jù),以材料大數(shù)據(jù)和定制研發(fā)為核心理念,致力于技術(shù)市場(chǎng)化的“互聯(lián)網(wǎng)+”之路,為中高端材料用戶(hù)提供研、產(chǎn)、檢、造、用的全產(chǎn)業(yè)鏈服務(wù)。成都材智科技有限公司建立的MatAI材料智能設(shè)計(jì)平臺(tái)具有能夠根據(jù)用戶(hù)需求提供數(shù)據(jù)管理和新材料設(shè)計(jì)優(yōu)化等新功能。

傳統(tǒng)材料數(shù)據(jù)庫(kù)的主要功能是數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)管理,同時(shí)還提供數(shù)據(jù)檢索服務(wù),方便用戶(hù)快速獲取感興趣的數(shù)據(jù)信息。例如日本的NIMS數(shù)據(jù)庫(kù)就專(zhuān)門(mén)配套建立了MatNavi檢索系統(tǒng),使用戶(hù)可以根據(jù)關(guān)鍵字/數(shù)值、樹(shù)形節(jié)點(diǎn)對(duì)數(shù)據(jù)庫(kù)的相關(guān)內(nèi)容進(jìn)行檢索。美國(guó)MatWeb數(shù)據(jù)庫(kù)也提供了基于數(shù)值、關(guān)鍵內(nèi)容、類(lèi)別的檢索方法。我國(guó)鋼研·新材道的Atsteel在線(xiàn)材料數(shù)據(jù)庫(kù)增強(qiáng)了數(shù)據(jù)庫(kù)的檢索功能,除了以關(guān)鍵字、材料牌號(hào)檢索的方式外,還提供成分、性能的區(qū)間范圍值及其他多參數(shù)組合的高級(jí)檢索功能,滿(mǎn)足用戶(hù)的各種檢索需求。

2.2 材料基因工程的共享數(shù)據(jù)庫(kù)

美國(guó)提出的材料基因工程理念,形成了材料數(shù)據(jù)庫(kù)的新發(fā)展方向。目前,歐美國(guó)家建立材料基因工程數(shù)據(jù)庫(kù),除了發(fā)展新學(xué)科的獨(dú)立材料數(shù)據(jù)庫(kù)外,更希望搭建一個(gè)包含各種硬件、軟件和專(zhuān)用數(shù)據(jù)傳輸標(biāo)準(zhǔn)的數(shù)據(jù)共享平臺(tái),如美國(guó)正在建設(shè)的Globus數(shù)據(jù)庫(kù)平臺(tái)[6]。通過(guò)特殊的信息工程技術(shù),保證大數(shù)據(jù)易存儲(chǔ)和搜尋等功能,既可將各地分散的傳統(tǒng)材料數(shù)據(jù)庫(kù)連入整個(gè)材料基因數(shù)據(jù)庫(kù)共享平臺(tái),又可鼓勵(lì)科研人員上傳、發(fā)布新的科學(xué)成果,共享數(shù)據(jù)集;通過(guò)合理的材料數(shù)據(jù)庫(kù)傳輸標(biāo)準(zhǔn)設(shè)計(jì),滿(mǎn)足各學(xué)科的數(shù)據(jù)存儲(chǔ)需求和應(yīng)用;而且通過(guò)數(shù)據(jù)庫(kù)平臺(tái)的軟件集成進(jìn)行在線(xiàn)計(jì)算,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)收集和數(shù)據(jù)挖掘,如Material Project平臺(tái)。

促進(jìn)材料基因工程數(shù)據(jù)庫(kù)建設(shè)和發(fā)展的關(guān)鍵是數(shù)據(jù)共享。美國(guó)在數(shù)據(jù)共享方面采取了很多措施,21世紀(jì)初期為了促進(jìn)“人類(lèi)基因組”項(xiàng)目數(shù)據(jù)庫(kù)的建立,鼓勵(lì)科學(xué)家快速分享DNA數(shù)據(jù),提倡在24 h內(nèi)上傳到公共GenBank數(shù)據(jù)庫(kù)中[7]。隨著材料基因工程理念的提出,美國(guó)科學(xué)技術(shù)政策局(OSTP)和美國(guó)國(guó)際開(kāi)發(fā)署(USAID)于2013年和2016年先后出臺(tái)了“公共訪(fǎng)問(wèn)計(jì)劃”,要求由OSTP和USAID等資助的科學(xué)研究數(shù)據(jù)需要在一定時(shí)間內(nèi)公開(kāi),使公眾、企業(yè)和其他科學(xué)人員能夠獲取[8]。美國(guó)國(guó)家科學(xué)基金委(NSF)也推出了“宣傳和共享研究結(jié)果”的政策,鼓勵(lì)科學(xué)人員能夠共享在NSF資助的工作過(guò)程中創(chuàng)建或收集的主要數(shù)據(jù)、樣本、實(shí)物和其他材料[9]。我國(guó)的科學(xué)數(shù)據(jù)共享工程自2001年底啟動(dòng)了氣象科學(xué)數(shù)據(jù)共享試點(diǎn)以來(lái),已在24個(gè)部門(mén)開(kāi)展了相應(yīng)的科學(xué)數(shù)據(jù)共享工作。整體而言,目前國(guó)內(nèi)外的數(shù)據(jù)共享工作,主要是先通過(guò)科研聯(lián)盟進(jìn)行再不斷擴(kuò)散,并建立數(shù)據(jù)貢獻(xiàn)積分制度顯示不同科研用戶(hù)的數(shù)據(jù)貢獻(xiàn)率,從而間接反映其在相關(guān)領(lǐng)域的成果和影響力。

為了保護(hù)共享數(shù)據(jù)的權(quán)利和所屬,目前國(guó)內(nèi)外的共享數(shù)據(jù)庫(kù)平臺(tái)借鑒期刊論文模式,為每個(gè)上傳的科學(xué)數(shù)據(jù)(集)注冊(cè)唯一的DOI標(biāo)識(shí)符,促進(jìn)數(shù)據(jù)的保存、參考和引用[10]。美國(guó)材料數(shù)據(jù)平臺(tái)(MDF)建立的可以發(fā)布數(shù)據(jù)以及查詢(xún)數(shù)據(jù)的共享數(shù)據(jù)庫(kù)平臺(tái)Globus,就是基于DOI對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí)。通過(guò)該平臺(tái),可以搜索MDF連接的各種數(shù)據(jù)庫(kù)/數(shù)據(jù)集里面保存的所有計(jì)算和實(shí)驗(yàn)數(shù)據(jù),包括NanoMine、PPPDB、Khazana Polymers、Khazana VASP、JANAF、SLUCHI(VASP)、Crystallography Open Database、Classical Interatomic Potentials、XAFS Data Library、OQMD等十幾個(gè)數(shù)據(jù)庫(kù)。我國(guó)也積極推動(dòng)共享數(shù)據(jù)庫(kù)、在線(xiàn)數(shù)據(jù)庫(kù)的發(fā)展,搭建了“材料科學(xué)數(shù)據(jù)共享網(wǎng)”平臺(tái),集合了分布在全國(guó)各地的30余家科研單位的海量數(shù)據(jù)資源,包括黑色金屬、有色金屬、復(fù)合金屬、有機(jī)高分子、無(wú)機(jī)非金屬等各類(lèi)材料科學(xué)數(shù)據(jù),為國(guó)家基礎(chǔ)條件建設(shè)提供了雄厚的材料科學(xué)數(shù)據(jù)資源共享服務(wù)與應(yīng)用支撐[11]。該平臺(tái)目前也是通過(guò)提供標(biāo)準(zhǔn)的數(shù)據(jù)DOI注冊(cè)系統(tǒng)以及數(shù)據(jù)采集標(biāo)準(zhǔn),保證上傳數(shù)據(jù)的標(biāo)識(shí)性和結(jié)構(gòu)化。近年來(lái),隨著區(qū)塊鏈技術(shù)的不斷成熟和發(fā)展,已有一些將區(qū)塊鏈技術(shù)引入到材料數(shù)據(jù)庫(kù)中的設(shè)想,實(shí)現(xiàn)對(duì)數(shù)據(jù)來(lái)源的標(biāo)記,進(jìn)行數(shù)據(jù)的版權(quán)保護(hù),激發(fā)大家共享數(shù)據(jù)的熱情。

高質(zhì)量的共享材料數(shù)據(jù)對(duì)于材料基因工程具有重要的意義,不僅可以作為模擬計(jì)算的輸入?yún)?shù),也可以作為知識(shí)發(fā)現(xiàn)的樣本數(shù)據(jù),還可以為發(fā)現(xiàn)新的理論和技術(shù)提供線(xiàn)索。因此,數(shù)據(jù)的可信度是構(gòu)建材料數(shù)據(jù)庫(kù)時(shí)需要關(guān)注的一個(gè)重要問(wèn)題。目前的主要解決方法是:一方面通過(guò)領(lǐng)域?qū)<一驍?shù)據(jù)庫(kù)專(zhuān)員進(jìn)行數(shù)據(jù)審核,并提供領(lǐng)域?qū)<艺J(rèn)證碼,保證數(shù)據(jù)的可信度;另一方面建立完整規(guī)范的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制體系,通過(guò)進(jìn)行相似數(shù)據(jù)的對(duì)比,判斷數(shù)據(jù)的可信度或進(jìn)行數(shù)據(jù)補(bǔ)充和修復(fù)[12]。

2.3 材料基因工程數(shù)據(jù)庫(kù)的發(fā)展方向

除了數(shù)據(jù)共享、存儲(chǔ)和查詢(xún)外,材料基因工程的數(shù)據(jù)庫(kù)還需要加強(qiáng)對(duì)分散的、已建立的數(shù)據(jù)庫(kù)進(jìn)行整合、利用,通過(guò)軟件集成實(shí)現(xiàn)數(shù)據(jù)自動(dòng)收集功能,為大數(shù)據(jù)的學(xué)習(xí)和數(shù)據(jù)挖掘提供數(shù)據(jù),指導(dǎo)新材料的研發(fā)。因此,材料基因工程的材料數(shù)據(jù)庫(kù)開(kāi)始發(fā)展如數(shù)據(jù)庫(kù)匹配、數(shù)據(jù)自動(dòng)收集、在線(xiàn)可視化、在線(xiàn)集成計(jì)算、在線(xiàn)分析等新功能。

2.3.1 數(shù)據(jù)庫(kù)的匹配功能

數(shù)據(jù)庫(kù)的自動(dòng)匹配技術(shù)是將人工智能技術(shù)、模式識(shí)別等數(shù)據(jù)挖掘方法應(yīng)用到材料數(shù)據(jù)庫(kù)中,建立數(shù)據(jù)庫(kù)之間的數(shù)據(jù)關(guān)聯(lián)性,是數(shù)據(jù)挖掘技術(shù)在材料數(shù)據(jù)庫(kù)中的一個(gè)成功應(yīng)用。在數(shù)據(jù)庫(kù)“云”概念的基礎(chǔ)上,通過(guò)數(shù)據(jù)庫(kù)的自動(dòng)匹配算法可以實(shí)現(xiàn)“云”中的分布式數(shù)據(jù)庫(kù)、異構(gòu)數(shù)據(jù)庫(kù)或多類(lèi)型文件之間的連接,如圖1所示[13]。

圖1 數(shù)據(jù)庫(kù)匹配技術(shù)流程圖[13]Fig.1 Flow chart of data matching procedure[13]

數(shù)據(jù)庫(kù)自動(dòng)匹配功能的主要優(yōu)勢(shì)是可以解決不同材料數(shù)據(jù)庫(kù)之間存在的數(shù)據(jù)結(jié)構(gòu)差異性、各國(guó)材料標(biāo)準(zhǔn)牌號(hào)和命名方式的不一致性、數(shù)據(jù)上傳文件格式的多樣性以及單一數(shù)據(jù)庫(kù)中的信息不完整性等問(wèn)題。在材料數(shù)據(jù)庫(kù)中使用數(shù)據(jù)自動(dòng)匹配技術(shù),可以實(shí)現(xiàn)“小數(shù)據(jù)”到整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的關(guān)聯(lián),獲取相近材料的完整性能數(shù)據(jù),是“小數(shù)據(jù)”換“大數(shù)據(jù)”的共享過(guò)程,也是實(shí)現(xiàn)分散數(shù)據(jù)庫(kù)之間關(guān)聯(lián)的一個(gè)重要方法。

德國(guó)的Key to Steel以及Matmatch等部分商業(yè)化在線(xiàn)數(shù)據(jù)庫(kù)具有一定的多國(guó)牌號(hào)對(duì)照匹配查詢(xún)以及數(shù)據(jù)庫(kù)中相似材料的查詢(xún)功能,但應(yīng)用范圍比較窄,僅適用于國(guó)內(nèi)外產(chǎn)品牌號(hào)數(shù)據(jù)信息的對(duì)比。而我國(guó)的Atsteel數(shù)據(jù)庫(kù)配套開(kāi)發(fā)了多國(guó)鋼鐵材料牌號(hào)的自動(dòng)匹配技術(shù)和功能,既可以實(shí)現(xiàn)各國(guó)相似材料牌號(hào)之間的關(guān)聯(lián)匹配,還可以實(shí)現(xiàn)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)庫(kù)、私有數(shù)據(jù)庫(kù)等不同數(shù)據(jù)庫(kù)之間的關(guān)聯(lián)查詢(xún)。目前該項(xiàng)數(shù)據(jù)匹配技術(shù)已經(jīng)推廣到鋼鐵材料的焊材匹配應(yīng)用中,可以為焊接母材與焊材的匹配提供合適的材料選擇方案。以460 MPa強(qiáng)度級(jí)別的系列鋼材為例,基于北京鋼研新材科技有限公司的鋼鐵數(shù)據(jù)庫(kù)和焊接數(shù)據(jù)庫(kù),利用數(shù)據(jù)匹配技術(shù)進(jìn)行了母材和焊材的匹配設(shè)計(jì),如表2所示。可見(jiàn)通過(guò)數(shù)據(jù)匹配技術(shù)為母材設(shè)計(jì)匹配的焊材,基本與《焊材手冊(cè)》推薦的相同強(qiáng)度級(jí)別的材料相吻合。其中,由于新的焊材數(shù)據(jù)庫(kù)包含了最新的焊材牌號(hào),因而數(shù)據(jù)匹配算法給出的很多結(jié)果是一些新的焊材牌號(hào)。目前國(guó)外還沒(méi)有見(jiàn)到有任何關(guān)于母材-焊材匹配計(jì)算的相關(guān)報(bào)道,而且國(guó)外的焊材數(shù)據(jù)庫(kù)也較少,大多為焊接工藝數(shù)據(jù)庫(kù)。

表2 基于數(shù)據(jù)匹配的母材-焊材匹配計(jì)算結(jié)果

瑞士Total Materia數(shù)據(jù)庫(kù)開(kāi)發(fā)的SmartComp材料智能判斷功能相當(dāng)于一種匹配檢索功能,主要是通過(guò)對(duì)來(lái)自光譜儀或其他分析來(lái)源獲得的金屬化學(xué)成分進(jìn)行智能識(shí)別,獲得對(duì)應(yīng)的材料金屬牌號(hào),為材料的智能識(shí)別和數(shù)據(jù)庫(kù)自動(dòng)分辨數(shù)據(jù)提供了新思路和方向。

2.3.2 數(shù)據(jù)庫(kù)的數(shù)據(jù)收集和輸出功能

數(shù)據(jù)的收集功能決定了數(shù)據(jù)庫(kù)的發(fā)展規(guī)模和活力。建立數(shù)據(jù)的自動(dòng)收集和輸出功能,實(shí)現(xiàn)數(shù)據(jù)庫(kù)與高通量實(shí)驗(yàn)、高通量計(jì)算的連接,是材料基因工程數(shù)據(jù)庫(kù)發(fā)展的另一個(gè)重要方向。

互聯(lián)網(wǎng)、云數(shù)據(jù)技術(shù)的發(fā)展在一定程度上為數(shù)據(jù)的收集、積累提供了支撐。共享數(shù)據(jù)庫(kù)通過(guò)提供數(shù)據(jù)自主上傳的接口,可實(shí)現(xiàn)用戶(hù)自服務(wù)的數(shù)據(jù)收集上傳功能。國(guó)家材料環(huán)境腐蝕平臺(tái)建立了“腐蝕大數(shù)據(jù)”和環(huán)境數(shù)據(jù)的大通量高密度采集、無(wú)線(xiàn)傳輸及入庫(kù)的功能,可實(shí)現(xiàn)數(shù)據(jù)庫(kù)數(shù)據(jù)的自動(dòng)積累。目前國(guó)內(nèi)外團(tuán)隊(duì)開(kāi)始研究新型軟件,可自動(dòng)通過(guò)閱讀材料科學(xué)實(shí)驗(yàn)論文獲取晶體結(jié)構(gòu)等相關(guān)信息,為數(shù)據(jù)的自動(dòng)收集提供了便利[14]。但是如何通過(guò)論文信息的數(shù)字化識(shí)別全面獲取數(shù)據(jù)、數(shù)據(jù)來(lái)源及實(shí)驗(yàn)條件,也是需要考慮的一個(gè)重要問(wèn)題。

面對(duì)用戶(hù)對(duì)數(shù)據(jù)庫(kù)的輸出需求,目前一些在線(xiàn)數(shù)據(jù)庫(kù)可根據(jù)用戶(hù)權(quán)限有針對(duì)性地為用戶(hù)進(jìn)行數(shù)據(jù)分析、建模計(jì)算從而提供相關(guān)數(shù)據(jù)及格式的輸出功能。MatWeb數(shù)據(jù)庫(kù)就為用戶(hù)提供以CSV、Excel等格式輸出數(shù)據(jù)庫(kù)中數(shù)據(jù)的服務(wù),方便用戶(hù)線(xiàn)下對(duì)數(shù)據(jù)進(jìn)行對(duì)比分析。此外,還提供輸出包含材料參數(shù)的通用計(jì)算軟件專(zhuān)用格式文件,可直接應(yīng)用于Solidworks、ANSYS、COMSOL等軟件的結(jié)構(gòu)材料計(jì)算建模中。

2.3.3 數(shù)據(jù)庫(kù)的在線(xiàn)集成計(jì)算和分析功能

材料基因工程數(shù)據(jù)庫(kù)的另一個(gè)重要發(fā)展方向是能夠在數(shù)據(jù)庫(kù)的基礎(chǔ)上實(shí)現(xiàn)在線(xiàn)分析、軟件集成計(jì)算以及數(shù)據(jù)結(jié)果自動(dòng)存儲(chǔ)等功能。

通過(guò)在線(xiàn)集成第一性原理、熱動(dòng)力學(xué)等成熟的材料計(jì)算軟件或程序進(jìn)行計(jì)算,能夠?yàn)閿?shù)據(jù)庫(kù)補(bǔ)充大量的材料結(jié)構(gòu)、性能、相變等特征參量,而計(jì)算獲得的數(shù)據(jù)同樣能夠用于數(shù)據(jù)挖掘和指導(dǎo)新材料的開(kāi)發(fā)。在材料基因工程計(jì)劃中,美國(guó)能源部(DOE)牽頭伯克利實(shí)驗(yàn)室負(fù)責(zé)建立的Material Project就是一個(gè)數(shù)據(jù)庫(kù)集成平臺(tái),其包含了600 000多種材料和數(shù)據(jù),提供了第一性原理的材料計(jì)算平臺(tái),允許用戶(hù)對(duì)計(jì)算數(shù)據(jù)進(jìn)行共享,目前已有超過(guò)20 000名用戶(hù)利用該平臺(tái)進(jìn)行新材料設(shè)計(jì)和優(yōu)化。杜克大學(xué)創(chuàng)建的AFLOWlib數(shù)據(jù)庫(kù),利用AFLOW材料高通量計(jì)算算法,通過(guò)在線(xiàn)集成VASP、ESPRESSO等軟件,實(shí)現(xiàn)了對(duì)已知材料電子分布、晶體結(jié)構(gòu)、能量計(jì)算以及新型材料結(jié)構(gòu)的自動(dòng)預(yù)測(cè),并可自動(dòng)存儲(chǔ)計(jì)算結(jié)果到數(shù)據(jù)庫(kù)體系中,通過(guò)高通量計(jì)算不斷擴(kuò)充數(shù)據(jù)庫(kù)的數(shù)據(jù)量[15]。目前該數(shù)據(jù)庫(kù)已有106數(shù)量級(jí)的不同材料,其中有超過(guò)108數(shù)量級(jí)的材料性能數(shù)據(jù)是通過(guò)計(jì)算獲得的。美國(guó)西北大學(xué)推出的開(kāi)放量子材料數(shù)據(jù)庫(kù)(OQMD)、中國(guó)的MatCloud高通量材料集成設(shè)計(jì)平臺(tái)也具有相似的工作機(jī)制,通過(guò)調(diào)用VASP或CASTEP等第一性原理軟件在超級(jí)計(jì)算機(jī)上進(jìn)行大批量計(jì)算,再將相應(yīng)的計(jì)算結(jié)果保存到數(shù)據(jù)庫(kù)中,最終通過(guò)大數(shù)據(jù)分析來(lái)指導(dǎo)新材料設(shè)計(jì)[16]。日本NIMS開(kāi)發(fā)的COMPOThermo在線(xiàn)計(jì)算軟件,通過(guò)集成界面熱導(dǎo)率數(shù)據(jù)庫(kù),可制定特殊熱性能要求的復(fù)合材料。目前材料數(shù)據(jù)庫(kù)集成第一性原理計(jì)算軟件主要在功能材料的設(shè)計(jì)領(lǐng)域獲得了較多成功的應(yīng)用,同時(shí)在復(fù)雜的結(jié)構(gòu)材料設(shè)計(jì)方面也有一定的應(yīng)用。

此外,材料數(shù)據(jù)庫(kù)也開(kāi)始考慮數(shù)據(jù)的在線(xiàn)可視化、在線(xiàn)分析等功能。成都材智科技有限公司建立的MatAI材料數(shù)據(jù)管理平臺(tái)可根據(jù)需求建立集成基礎(chǔ)的數(shù)據(jù)對(duì)比分析、數(shù)據(jù)統(tǒng)計(jì)和可視化工具的材料數(shù)據(jù)庫(kù),以便在線(xiàn)進(jìn)行散點(diǎn)圖的分析、曲線(xiàn)的對(duì)比和統(tǒng)計(jì)的可視化。目前,一些數(shù)據(jù)庫(kù)還可通過(guò)對(duì)熱力學(xué)計(jì)算軟件的集成連接,利用獲得的材料熱力學(xué)數(shù)據(jù),配合數(shù)據(jù)庫(kù)中其他數(shù)據(jù)共同進(jìn)行數(shù)據(jù)挖掘和分析[17]。

3 數(shù)據(jù)挖掘方法在材料科學(xué)中的應(yīng)用

3.1 數(shù)據(jù)挖掘方法簡(jiǎn)介

數(shù)據(jù)挖掘基本流程為:確定目標(biāo)→數(shù)據(jù)庫(kù)取樣→數(shù)據(jù)預(yù)處理→數(shù)據(jù)挖掘建模→知識(shí)獲取和解析→應(yīng)用,如圖2所示[18]。將清洗預(yù)處理后的樣本數(shù)據(jù)分為3類(lèi):訓(xùn)練型數(shù)據(jù)、驗(yàn)證型數(shù)據(jù)和測(cè)試型數(shù)據(jù),再用于模型學(xué)習(xí)、驗(yàn)證和測(cè)試。

圖2 數(shù)據(jù)挖掘的基本流程[18]Fig.2 Flow chart for data mining procedure[18]

一個(gè)完整的數(shù)據(jù)挖掘算法通常是由模型結(jié)構(gòu)、評(píng)分函數(shù)、搜索方法、數(shù)據(jù)管理技術(shù)幾個(gè)基本模塊組合構(gòu)成[19]。例如一個(gè)反向傳播神經(jīng)網(wǎng)絡(luò)(BP-ANN)數(shù)據(jù)挖掘算法通常是由神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)、誤差平方函數(shù)、參數(shù)梯度下降尋優(yōu)等模塊構(gòu)成。組合不同的模型結(jié)構(gòu)、評(píng)分函數(shù)、搜索方法等可以生成數(shù)量龐大的挖掘算法。此外,降維方法也被應(yīng)用到數(shù)據(jù)處理中,如主成分分析(PCA)法就常被用于微觀(guān)組織形貌等的降維處理,使得微觀(guān)組織能夠作為輸入變量參與數(shù)據(jù)挖掘?qū)W習(xí),從而通過(guò)回歸、神經(jīng)網(wǎng)絡(luò)或其他模型方法最終建立工藝-微觀(guān)結(jié)構(gòu)-性能關(guān)系[20]。

數(shù)據(jù)挖掘的方法根據(jù)任務(wù)目的可分為預(yù)測(cè)性和描述性方法,根據(jù)學(xué)習(xí)方式可分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法。在材料科學(xué)領(lǐng)域,目前常用的數(shù)據(jù)挖掘算法主要有:回歸、分類(lèi)、聚類(lèi)、智能優(yōu)化,如圖3所示[21]。其中,神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)是機(jī)器學(xué)習(xí)的兩大主要流派,既可用于回歸又可用于分類(lèi)和優(yōu)化。

圖3 材料科學(xué)中常用的數(shù)據(jù)挖掘算法[21]Fig.3 The data mining algorithms used in material science[21]

神經(jīng)網(wǎng)絡(luò)最初起源于1957年Rosenblatt發(fā)明的單層感知機(jī),隨著非線(xiàn)性問(wèn)題需求的增加,多層神經(jīng)網(wǎng)絡(luò)不斷發(fā)展。神經(jīng)網(wǎng)絡(luò)基本原理是利用權(quán)重連接輸入層、隱藏層、輸出層之間的組合神經(jīng)單元,并不斷訓(xùn)練連接的權(quán)值直至計(jì)算結(jié)果足夠逼近預(yù)期值,從而解決復(fù)雜的計(jì)算問(wèn)題。隨著多層神經(jīng)網(wǎng)絡(luò)的發(fā)展應(yīng)用,深度學(xué)習(xí)的概念被提出,卷積神經(jīng)網(wǎng)絡(luò)、解積神經(jīng)網(wǎng)絡(luò)等更復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法也隨之出現(xiàn),如圖4所示[22]。

圖4 不同類(lèi)型的多層神經(jīng)網(wǎng)絡(luò)[22]Fig.4 Various multi-layers neural networks[22]

支持向量機(jī)(SVM)是由Cortes和Vapnik等于1995年首先提出的,屬于二分類(lèi)模型算法,其基本原理是通過(guò)線(xiàn)或者超平面實(shí)現(xiàn)樣本集在二維或三維空間里面的間隔最大化[23]。相較于其他分類(lèi)統(tǒng)計(jì)算法對(duì)大樣本數(shù)據(jù)量的要求和難以解決復(fù)雜的高維度問(wèn)題,SVM在解決小樣本、非線(xiàn)性及高維度的數(shù)據(jù)模式識(shí)別時(shí)也能獲得較好的結(jié)果,表現(xiàn)出了許多特有的優(yōu)勢(shì),并能夠被推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。

3.2 數(shù)據(jù)挖掘方法在材料科學(xué)中的應(yīng)用

隨著大數(shù)據(jù)的發(fā)展和計(jì)算機(jī)軟硬件實(shí)力的提高,90年代末期數(shù)據(jù)挖掘方法就已經(jīng)開(kāi)始被大量應(yīng)用到材料科學(xué)研究及生產(chǎn)控制過(guò)程中,如材料性能預(yù)測(cè)和優(yōu)化、新材料設(shè)計(jì)開(kāi)發(fā)、生產(chǎn)過(guò)程的監(jiān)控等方面。

3.2.1 材料性能預(yù)測(cè)和優(yōu)化

數(shù)據(jù)挖掘在材料性能預(yù)測(cè)和優(yōu)化方面的應(yīng)用最為廣泛。其中多層神經(jīng)網(wǎng)絡(luò)算法是使用較多的一種數(shù)據(jù)挖掘算法,常配合不同的優(yōu)化算法進(jìn)行解的快速搜索,如非線(xiàn)性最小二乘法、批梯度下降算法、沖量批梯度下降法、遺傳算法等。常規(guī)性能預(yù)測(cè)算法基本思路是:假定已知某材料的一組性能指標(biāo)P與X個(gè)因子之間的相關(guān)性,利用數(shù)據(jù)庫(kù)中n個(gè)樣本的實(shí)驗(yàn)數(shù)據(jù)集,設(shè)置各因子的可變范圍以及約束條件,通過(guò)數(shù)據(jù)挖掘的方法,建立P與X之間的線(xiàn)性或非線(xiàn)性關(guān)系,并據(jù)此指導(dǎo)材料的單一或多目標(biāo)優(yōu)化。目前,數(shù)據(jù)挖掘在材料的強(qiáng)度[24]、沖擊韌性[25]、淬透性[26]、疲勞和蠕變[27]等相關(guān)性能預(yù)測(cè)方面已有大量的應(yīng)用。

基于熱軋鋼板的成分、熱軋工藝(溫度、變形、道次)等實(shí)際數(shù)據(jù),Yang等[28]通過(guò)3層前饋神經(jīng)網(wǎng)絡(luò)模型,結(jié)合貝葉斯對(duì)權(quán)值進(jìn)行優(yōu)化訓(xùn)練的方法,獲得了誤差較小的拉伸強(qiáng)度預(yù)測(cè)結(jié)果。Powar等[29]通過(guò)11-5-7的3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),建立了包含30CrMoNiV5-11的元素成分、奧氏體化溫度和時(shí)間、冷卻時(shí)間t8/5等的輸入層,與由屈服強(qiáng)度、抗拉強(qiáng)度、伸長(zhǎng)率以及珠光體、貝氏體和殘余奧氏體的體積分?jǐn)?shù)等構(gòu)成的輸出層之間的關(guān)系模型,且相關(guān)性系數(shù)R大于90%。針對(duì)相變誘導(dǎo)塑性(TRIP)鋼,Bhattacharyya等[30]利用11-15-1的3層神經(jīng)網(wǎng)絡(luò)模型,采用雙曲正切函數(shù)作為傳遞函數(shù),獲得了包含C,Si,Mn,P,Al,Nb,Cr的質(zhì)量分?jǐn)?shù)、臨界區(qū)退火溫度和時(shí)間、貝氏體等溫轉(zhuǎn)變溫度和時(shí)間的11個(gè)輸入層節(jié)點(diǎn)到殘余奧氏體含量的預(yù)測(cè)模型。Liu等[31, 32]利用前饋神經(jīng)網(wǎng)絡(luò)模型對(duì)Nb-Si基高溫合金的微觀(guān)組織與性能之間的關(guān)聯(lián)關(guān)系進(jìn)行了挖掘?qū)W習(xí),建立了基于Nb5Si3的體積分?jǐn)?shù)、形貌、尺度等微觀(guān)組織變量對(duì)抗拉強(qiáng)度、斷裂韌性等實(shí)現(xiàn)預(yù)測(cè)的模型。

遺傳算法-神經(jīng)網(wǎng)絡(luò)(GA-ANN)結(jié)合算法被應(yīng)用到了某FeCrNiMn奧氏體不銹鋼體積模量的預(yù)測(cè)中,且該預(yù)測(cè)結(jié)果與基于密度泛函理論(DFT)的第一性原理的計(jì)算結(jié)果非常接近,證明了GA-ANN算法預(yù)測(cè)的精準(zhǔn)性[33]。此外,在已獲得的第一性原理計(jì)算結(jié)果數(shù)據(jù)基礎(chǔ)上利用隨機(jī)森林等方法構(gòu)建數(shù)據(jù)挖掘模型,獲取知識(shí)模型和重要的影響因素后,即可代替第一性原理計(jì)算直接預(yù)測(cè)Ni基、Co基高溫合金摻雜元素的置換能和幾何結(jié)構(gòu),間接節(jié)約了材料性能計(jì)算和設(shè)計(jì)的時(shí)間[34]。可見(jiàn),數(shù)據(jù)挖掘?yàn)榈谝恍栽碛?jì)算的加速提供了另一種思路和方向。

3.2.2 材料特征曲線(xiàn)擬合

數(shù)據(jù)挖掘算法在材料特征曲線(xiàn)的擬合方面也有著廣泛的應(yīng)用。Haque等[27]利用神經(jīng)網(wǎng)絡(luò),對(duì)獲得的大量實(shí)驗(yàn)數(shù)據(jù)進(jìn)行擬合,建立了不同馬氏體含量的系列雙相鋼的腐蝕疲勞裂紋擴(kuò)展速率da/dN與應(yīng)力強(qiáng)度因子變化量ΔK的關(guān)系模型,實(shí)現(xiàn)了其在雙相鋼腐蝕疲勞裂紋擴(kuò)展速率預(yù)測(cè)中的應(yīng)用。

在熱塑性變形方面,通過(guò)對(duì)材料流變應(yīng)力應(yīng)變實(shí)驗(yàn)數(shù)據(jù)的學(xué)習(xí),針對(duì)不同材料成分,可擬合和預(yù)測(cè)應(yīng)變速率和溫度條件下對(duì)應(yīng)的高溫?zé)釅嚎s時(shí)的流變應(yīng)力應(yīng)變曲線(xiàn)和本構(gòu)方程,以及動(dòng)態(tài)再結(jié)晶的體積分?jǐn)?shù)和晶粒尺寸,從而為后期鍛造過(guò)程的多場(chǎng)耦合建模、應(yīng)力應(yīng)變計(jì)算和組織預(yù)測(cè)模擬提供精準(zhǔn)的材料本構(gòu)方程[35]。然而,利用數(shù)據(jù)挖掘的模型分析成分對(duì)流變應(yīng)力的影響還有待進(jìn)一步深入的研究。

在焊接方面,數(shù)據(jù)挖掘算法除了被應(yīng)用到材料焊接后的性能預(yù)測(cè)(如熱影響區(qū)的硬度[36]),還被應(yīng)用到了焊接熱源形狀參數(shù)的擬合預(yù)測(cè)中。例如通過(guò)對(duì)實(shí)際鎢極惰性氣體保護(hù)焊接(GTAW)過(guò)程中獲得的不同焊接條件(如電流、焊接速度)下雙橢圓體熱源尺寸數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,可較好地?cái)M合出焊接熱源形狀參數(shù)變化情況,并預(yù)測(cè)未知焊接條件下的形狀結(jié)果[37]。通過(guò)擬合預(yù)測(cè)熱源模型,能夠?yàn)楹附舆^(guò)程的有限元模擬提供精準(zhǔn)的熱源輸入模型,保證了更準(zhǔn)確的溫度場(chǎng)計(jì)算結(jié)果。

3.2.3 質(zhì)量預(yù)測(cè)及生產(chǎn)監(jiān)控

基于風(fēng)險(xiǎn)最低原則,常采用支持向量機(jī)、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等分類(lèi)算法對(duì)材料生產(chǎn)過(guò)程參數(shù)進(jìn)行在線(xiàn)異常監(jiān)控以及質(zhì)量預(yù)測(cè)。

在鋼生產(chǎn)過(guò)程中的表面質(zhì)量分類(lèi)和缺陷在線(xiàn)預(yù)測(cè)控制方面,數(shù)據(jù)挖掘算法已經(jīng)獲得了較多的實(shí)際應(yīng)用,基本上能保證預(yù)測(cè)和監(jiān)控精準(zhǔn)度在90%以上[38]。其基本監(jiān)控流程是:通過(guò)在線(xiàn)缺陷圖像信息采集,獲取缺陷圖片的幾何特征(如長(zhǎng)度、正方度、面積等)、圖片的灰度數(shù)據(jù)、織構(gòu)特征信息(能量、粗糙度、對(duì)比度、方向等)等表征參數(shù),再利用數(shù)據(jù)挖掘中的分類(lèi)算法和優(yōu)化算法組合建模,快速實(shí)現(xiàn)缺陷的鑒定、識(shí)別和分類(lèi)[39]。

分類(lèi)算法還被廣泛應(yīng)用到焊接質(zhì)量預(yù)測(cè)控制等相關(guān)方面。通過(guò)決策樹(shù)分類(lèi)模型,根據(jù)焊接過(guò)程中的電流和電壓信號(hào)可以實(shí)現(xiàn)對(duì)焊接效果(有氣孔、完好、過(guò)燒)的評(píng)價(jià),對(duì)焊接效果等級(jí)進(jìn)行分類(lèi)和在線(xiàn)監(jiān)控[40];結(jié)合聚類(lèi)和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,可基于數(shù)據(jù)庫(kù)中焊接缺陷分類(lèi)結(jié)果,判斷影響焊接穩(wěn)定性的因素[41];利用支持向量機(jī)可對(duì)焊接的高熱輸入風(fēng)險(xiǎn)進(jìn)行在線(xiàn)評(píng)估和預(yù)測(cè)[42]。

此外,對(duì)材料服役過(guò)程的缺陷診斷,也能夠使用分類(lèi)算法。決策樹(shù)和支持向量機(jī)等就被應(yīng)用到對(duì)滾動(dòng)軸承缺陷的分類(lèi)和診斷工作中,通過(guò)前期數(shù)據(jù)的學(xué)習(xí)和模型建立,使得根據(jù)軸承的震動(dòng)信號(hào)就可自動(dòng)實(shí)現(xiàn)對(duì)缺陷狀況的診斷[43]。

3.2.4 微觀(guān)組織的識(shí)別和分類(lèi)

與指紋識(shí)別功能類(lèi)似,數(shù)據(jù)挖掘方法也開(kāi)始被應(yīng)用到對(duì)材料微觀(guān)組織照片的識(shí)別和分類(lèi)中,使得組織信息能夠數(shù)字化,為高通量實(shí)驗(yàn)或數(shù)據(jù)庫(kù)的非結(jié)構(gòu)化文件的分類(lèi)和關(guān)聯(lián)提供了新的思路和方向。

Decost等[44]利用支持向量機(jī)算法實(shí)現(xiàn)了對(duì)黃銅、球墨鑄鐵、灰口鑄鐵、亞共析鋼、高溫合金、退火孿晶等不同系列微觀(guān)組織照片的識(shí)別和分類(lèi),以便對(duì)存放有大量材料組織照片的數(shù)據(jù)庫(kù)進(jìn)行分類(lèi)管理。此外,Gola等[45]利用支持向量機(jī)算法也實(shí)現(xiàn)了對(duì)金相組織照片和透射電鏡照片中出現(xiàn)的馬氏體、貝氏體和珠光體的基體組織進(jìn)行分類(lèi)。

此外,數(shù)據(jù)挖掘方法以及PCA等降維方法也開(kāi)始被應(yīng)用到了三維場(chǎng)離子顯微鏡分析中,以獲得更精準(zhǔn)的數(shù)據(jù)結(jié)果[46]。PCA主要是通過(guò)對(duì)數(shù)據(jù)進(jìn)行特征值分析,確定出需要保留的主成分個(gè)數(shù),舍棄其他數(shù)據(jù)冗余和噪聲,從而實(shí)現(xiàn)數(shù)據(jù)的降維。PCA是目前圖像處理較為常用的降維方法。

3.3 數(shù)據(jù)挖掘在材料基因中的應(yīng)用發(fā)展和問(wèn)題

數(shù)據(jù)挖掘過(guò)程不需要考慮參數(shù)之間復(fù)雜的物理和化學(xué)意義,就可以直接從材料數(shù)據(jù)庫(kù)中挖掘出有價(jià)值的知識(shí)或模式,它能夠充分發(fā)揮材料數(shù)據(jù)庫(kù)甚至小數(shù)據(jù)量在材料設(shè)計(jì)中的作用。在材料基因工程項(xiàng)目的推動(dòng)下,數(shù)據(jù)挖掘在材料設(shè)計(jì)中的應(yīng)用不斷被深入和拓展。

根據(jù)材料基因工程理念,數(shù)據(jù)挖掘算法未來(lái)可以被集成、應(yīng)用到材料數(shù)據(jù)庫(kù)以及高通量計(jì)算平臺(tái)中,通過(guò)對(duì)材料成分-工藝-組織-性能數(shù)據(jù)規(guī)律和知識(shí)的自動(dòng)學(xué)習(xí),進(jìn)行多參數(shù)、多目標(biāo)的優(yōu)化計(jì)算,能夠大大提高材料設(shè)計(jì)速度,降低設(shè)計(jì)成本,更好地指導(dǎo)材料性能預(yù)測(cè)或新材料設(shè)計(jì)。目前,基于材料數(shù)據(jù)庫(kù)和高通量計(jì)算結(jié)果,數(shù)據(jù)挖掘技術(shù)已經(jīng)開(kāi)始成功運(yùn)用到了功能材料等新材料的設(shè)計(jì)和開(kāi)發(fā)中。徐一斌團(tuán)隊(duì)[47]在數(shù)據(jù)庫(kù)基礎(chǔ)上,通過(guò)支持向量機(jī)、回歸等機(jī)器學(xué)習(xí)方法獲得了高界面熱阻的材料組合,并結(jié)合高通量薄膜制備技術(shù),制備出了目前世界上隔熱性能最高的無(wú)機(jī)納米復(fù)合薄膜。

數(shù)據(jù)挖掘算法的復(fù)雜性以及材料數(shù)據(jù)庫(kù)中相關(guān)參數(shù)的多樣性,決定了數(shù)據(jù)分析是一個(gè)需要多學(xué)科知識(shí)交匯和大量經(jīng)驗(yàn)積累的過(guò)程。Agrawal等[48]基于NIMS數(shù)據(jù)庫(kù)中的鋼鐵材料疲勞數(shù)據(jù)庫(kù),建立了針對(duì)材料疲勞強(qiáng)度設(shè)計(jì)的知識(shí)模型,對(duì)比了十幾種數(shù)據(jù)挖掘組合算法的精準(zhǔn)性,包括線(xiàn)性回歸、決策樹(shù)、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、模型樹(shù)等,并獲得了包括材料成分、工藝參數(shù)、缺陷分布等25個(gè)輸入?yún)?shù)對(duì)疲勞強(qiáng)度的正負(fù)相關(guān)性影響,如圖5所示。因此,如何在已有材料數(shù)據(jù)庫(kù)中確定自變量和因變量,并選擇合適的數(shù)據(jù)挖掘算法,如何從獲得的結(jié)果中讀取知識(shí),以及如何判斷數(shù)據(jù)挖掘獲得知識(shí)的準(zhǔn)確性,是數(shù)據(jù)挖掘過(guò)程中需要深入研究的問(wèn)題。

圖5 25個(gè)不同參數(shù)與疲勞強(qiáng)度相關(guān)性的關(guān)系[48]Fig.5 The relationship between 25 inputs and correlation with fatigue strength[48]

確保數(shù)據(jù)挖掘結(jié)果準(zhǔn)確性的一個(gè)重要因素是材料數(shù)據(jù)庫(kù)的數(shù)據(jù)可靠性。因此,在建立材料數(shù)據(jù)庫(kù)的過(guò)程中通常要求設(shè)置數(shù)據(jù)審查機(jī)制,以保證數(shù)據(jù)庫(kù)中所有上傳數(shù)據(jù)的正確性。當(dāng)然在數(shù)據(jù)挖掘過(guò)程中,通過(guò)數(shù)據(jù)預(yù)處理可以對(duì)噪聲點(diǎn)、異常值進(jìn)行清洗,一定程度上能夠減小數(shù)據(jù)誤差造成的分析結(jié)果偏差。然而,除了利用成功的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和分析外,失敗或不成功的實(shí)驗(yàn)數(shù)據(jù)用于預(yù)測(cè)新材料的合成也獲得了較高的準(zhǔn)確性[49],大幅提高了新材料研發(fā)的可能性。

4 結(jié) 語(yǔ)

在材料基因工程中,數(shù)據(jù)挖掘需要與材料數(shù)據(jù)庫(kù)以及高通量計(jì)算相互結(jié)合、協(xié)同發(fā)展,才能更好地發(fā)揮其對(duì)材料加速設(shè)計(jì)的作用和意義。

(1)數(shù)據(jù)庫(kù)作為數(shù)據(jù)管理和存儲(chǔ)技術(shù),為數(shù)據(jù)挖掘和高通量計(jì)算提供了輸入?yún)?shù)。材料數(shù)據(jù)庫(kù)目前已逐步從孤立的離線(xiàn)數(shù)據(jù)庫(kù)向在線(xiàn)數(shù)據(jù)庫(kù)和共享數(shù)據(jù)庫(kù)方向發(fā)展,但其結(jié)構(gòu)化、標(biāo)準(zhǔn)化等方面還有待改善。逐步發(fā)展起來(lái)的數(shù)據(jù)庫(kù)云理念結(jié)合數(shù)據(jù)匹配算法方便了分布式數(shù)據(jù)庫(kù)之間的連接,為數(shù)據(jù)庫(kù)結(jié)構(gòu)差異性問(wèn)題提供了解決途徑。同時(shí),需要進(jìn)一步擴(kuò)大數(shù)據(jù)量以實(shí)現(xiàn)材料數(shù)據(jù)庫(kù)的規(guī)模化進(jìn)而提高數(shù)據(jù)挖掘結(jié)果的精準(zhǔn)性。

(2)數(shù)據(jù)挖掘可為材料數(shù)據(jù)庫(kù)提供數(shù)據(jù)分析技術(shù)和方法,從已有的數(shù)據(jù)中發(fā)現(xiàn)知識(shí)和規(guī)律,加速材料設(shè)計(jì)。通過(guò)完善材料數(shù)據(jù)庫(kù)中的材料成分、工藝、組織、性能數(shù)據(jù),再利用數(shù)據(jù)挖掘技術(shù)可建立成分-工藝-組織-性能之間的關(guān)系模型。掌握從海量的數(shù)據(jù)中選擇合適的樣本數(shù)據(jù)、建立參數(shù)的相關(guān)性,并精準(zhǔn)地提取規(guī)律和解釋知識(shí),是數(shù)據(jù)挖掘技術(shù)在材料設(shè)計(jì)中深入應(yīng)用需要重點(diǎn)關(guān)心的方面。

(3)數(shù)據(jù)庫(kù)與數(shù)據(jù)挖掘技術(shù)的結(jié)合、數(shù)據(jù)庫(kù)匹配、數(shù)據(jù)自動(dòng)收集、在線(xiàn)可視化、在線(xiàn)計(jì)算、在線(xiàn)分析等數(shù)據(jù)庫(kù)新功能的拓展,將使材料基因工程數(shù)據(jù)庫(kù)發(fā)展成為一個(gè)綜合性平臺(tái),既是數(shù)據(jù)庫(kù)平臺(tái),也是計(jì)算平臺(tái)和數(shù)據(jù)分析平臺(tái)。目前數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫(kù)中的應(yīng)用大多都是線(xiàn)下操作,而且數(shù)據(jù)樣本的大小和數(shù)據(jù)的精準(zhǔn)性也影響著數(shù)據(jù)挖掘的結(jié)果。未來(lái),通過(guò)在材料基因數(shù)據(jù)庫(kù)中直接集成嵌入數(shù)據(jù)挖掘算法,進(jìn)行數(shù)據(jù)在線(xiàn)自動(dòng)學(xué)習(xí)、異常數(shù)據(jù)清洗、知識(shí)提取,以便更好地支撐材料設(shè)計(jì),提高研發(fā)效率。

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)庫(kù)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲免费成人网| 久久国产香蕉| 手机永久AV在线播放| 亚洲一区网站| 国产午夜人做人免费视频中文| 亚洲免费黄色网| 色综合五月婷婷| 天天色综网| 色成人综合| 秘书高跟黑色丝袜国产91在线| 手机看片1024久久精品你懂的| 国产大片喷水在线在线视频| 麻豆a级片| 国产精品久线在线观看| 国产精品国产三级国产专业不 | 少妇高潮惨叫久久久久久| 久久人体视频| 香蕉久人久人青草青草| 国产三区二区| 亚洲天堂网视频| 国产日本欧美在线观看| 青青青伊人色综合久久| 欧洲一区二区三区无码| 丁香婷婷激情综合激情| 久久精品人人做人人| 国产精品第5页| 97se亚洲综合| 高清无码不卡视频| a级毛片在线免费| 欧美国产在线看| 午夜毛片福利| 国产乱人激情H在线观看| 国产玖玖视频| 日韩成人免费网站| 欧美伦理一区| 四虎影视永久在线精品| 欧美精品H在线播放| 亚洲欧美综合精品久久成人网| 视频二区欧美| 国产精品午夜电影| 国产白浆在线观看| 国产男女免费视频| 成人福利免费在线观看| 久久国产成人精品国产成人亚洲| 国产aⅴ无码专区亚洲av综合网| 亚洲欧美另类专区| 永久天堂网Av| 国产亚洲精品97在线观看| 国产人人射| 国产精品亚洲一区二区三区z| 91综合色区亚洲熟妇p| аv天堂最新中文在线| 欧美在线精品怡红院| 九九热精品视频在线| 国产白浆在线| 人妻中文久热无码丝袜| a级毛片免费播放| 亚洲精品成人片在线播放| 午夜国产不卡在线观看视频| 91青青在线视频| 伊人久综合| 国产主播一区二区三区| 久久精品娱乐亚洲领先| 国产国拍精品视频免费看| 亚洲av无码牛牛影视在线二区| 99热国产这里只有精品无卡顿"| 青青青视频蜜桃一区二区| 欧美一级一级做性视频| 成人午夜视频网站| 国产自视频| 青青青亚洲精品国产| 久久久久久久久亚洲精品| av色爱 天堂网| 一本色道久久88亚洲综合| 伊人久久综在合线亚洲2019| 青青草综合网| 亚洲综合色吧| 真实国产乱子伦高清| 丁香五月激情图片| 欧美日韩国产综合视频在线观看| 久精品色妇丰满人妻| 中文字幕亚洲电影|