999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機(jī)器學(xué)習(xí)輔助高熵合金設(shè)計的研究進(jìn)展

2021-09-18 08:21:00趙鼎祺喬珺威吳玉程
中國材料進(jìn)展 2021年7期
關(guān)鍵詞:數(shù)據(jù)庫特征方法

趙鼎祺,喬珺威,吳玉程

(太原理工大學(xué)材料科學(xué)與工程學(xué)院,山西 太原 030024)

1 前 言

機(jī)器學(xué)習(xí)的目的是挖掘大數(shù)據(jù)背后隱藏的價值,某種程度上可以看成是一種經(jīng)驗(yàn)式地對實(shí)驗(yàn)結(jié)果的抽象概括。還有的人認(rèn)為機(jī)器學(xué)習(xí)是一種唯象理論(唯象理論是對實(shí)驗(yàn)現(xiàn)象的總結(jié)與凝練,其先于理論架構(gòu),又被稱為前科學(xué))。有關(guān)唯象理論的一個著名的例子便是牛頓的萬有引力定律:開普勒利用天文學(xué)家第古積累下的資料,通過仔細(xì)的分析研究,從龐大的數(shù)據(jù)中抽象出了模型并提出了著名的開普勒定律,被人稱為天空的立法者;而牛頓又在此基礎(chǔ)上更進(jìn)一步提出了牛頓定律,建立了經(jīng)典力學(xué)體系。然而,在牛頓的萬有引力背后同樣有著更深層次的概念:相對論與量子力學(xué)。相對于更深層次的概念來說,現(xiàn)有的概念都可以看成是唯象理論。在信息時代,數(shù)據(jù)極度豐富,建立在大數(shù)據(jù)基礎(chǔ)上的機(jī)器學(xué)習(xí),必將迎來爆發(fā)式的發(fā)展。

高熵合金又名多組分合金,自提出以來便備受關(guān)注。傳統(tǒng)的合金設(shè)計多以一種元素為主,而高熵合金最初的設(shè)計理念則是試圖將多種元素同時視為主要元素,用構(gòu)型熵抑制金屬間化合物相的形成。隨著高熵合金的發(fā)展,設(shè)計理念逐漸從第一代高熵合金發(fā)展到第二代高熵合金,越來越多的探索從尋找單相固溶體轉(zhuǎn)移到對高熵合金微觀結(jié)構(gòu)的調(diào)控。毋庸置疑的是,在多組分合金設(shè)計理念的指導(dǎo)下不僅誕生出了許多性能卓越的合金成分,更進(jìn)一步激發(fā)了人們對合金設(shè)計的全新思考。這種設(shè)計理念在擴(kuò)展合金成分設(shè)計空間的同時也給我們帶來了更大的挑戰(zhàn)。傳統(tǒng)的實(shí)驗(yàn)試錯法在面對如此巨大的可探索空間時明顯缺乏效率。因此,合理的高熵合金探索策略便顯得尤為重要。常見的一些模擬計算方法,比如從頭算和基于熱力學(xué)數(shù)據(jù)庫的方法可以提高科研工作者的探索效率,但與傳統(tǒng)合金相比,高熵合金中元素的數(shù)量以及微觀結(jié)構(gòu)的多樣性使計算的復(fù)雜性與密集程度大幅增加。近年來,材料科學(xué)相關(guān)的計算活動已經(jīng)由純粹地對材料的計算研究轉(zhuǎn)移到結(jié)合計算結(jié)果和大數(shù)據(jù)來指導(dǎo)新材料的設(shè)計上來。機(jī)器學(xué)習(xí)是以數(shù)據(jù)為中心的方法中最活躍的生產(chǎn)工具,正在與高熵合金的探索設(shè)計相結(jié)合,這種學(xué)科交叉展現(xiàn)出了巨大的潛力。

2 材料科學(xué)中的機(jī)器學(xué)習(xí)簡述

前兩次工業(yè)革命將人類從繁瑣的體力勞動中解放出來,進(jìn)一步我們希望解放腦力,機(jī)器學(xué)習(xí)便源于對人工智能的追求。人工智能經(jīng)歷了多次繁榮與衰落,在20世紀(jì)80年代有三大學(xué)派:符號學(xué)派、連接學(xué)派、行為學(xué)派。最初人們認(rèn)為人工智能源于數(shù)理邏輯,希望機(jī)器可以通過使用各種模式或符號來模擬人類的智能活動[1],緊接著受大自然的啟發(fā),人們進(jìn)一步研究了基于連接原理的方法,例如神經(jīng)元網(wǎng)絡(luò)[2]和感知器[3]。幾種建立在嚴(yán)謹(jǐn)?shù)慕y(tǒng)計學(xué)理論上的方法也被發(fā)揚(yáng)光大,例如支持向量機(jī)[4]和決策樹[5]。還有學(xué)者將目光聚焦到了低等動物的快速反應(yīng)能力上,致力于有關(guān)控制論的研究。人工智能在經(jīng)歷了一系列的曲折發(fā)展后,沉寂多年的連接學(xué)派東山再起,大數(shù)據(jù)結(jié)合基于神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)成為現(xiàn)在最熱門的人工智能解決方案,并引發(fā)了一場逐步向各個領(lǐng)域滲透的革命,這一革新同樣引起了材料學(xué)界的關(guān)注。打敗圍棋高手李世石的Alphago就是一個基于神經(jīng)元網(wǎng)絡(luò)的深度學(xué)習(xí)案例。機(jī)器學(xué)習(xí)橫跨計算機(jī)科學(xué)、工程技術(shù)、統(tǒng)計學(xué)等多個學(xué)科,作為一個強(qiáng)有力的工具應(yīng)用于從生物學(xué)到社會學(xué)等多個學(xué)科。凡是產(chǎn)生數(shù)據(jù)的學(xué)科都可以應(yīng)用機(jī)器學(xué)習(xí)。

同高熵合金概念一樣,蓬勃發(fā)展的學(xué)科會不斷擴(kuò)展初始概念的含義,因此歷史上對機(jī)器學(xué)習(xí)定義的解釋都有片面性。在這里將采用湯姆米切爾的觀點(diǎn)來解釋機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)的本質(zhì)是對于某類任務(wù)T和性能度量P,如果一個計算機(jī)程序在T上以P衡量的性能隨著經(jīng)驗(yàn)E而自我完善,那么我們就稱這個計算機(jī)程序在從經(jīng)驗(yàn)E中學(xué)習(xí)。機(jī)器學(xué)習(xí)可以看成是對數(shù)據(jù)的挖掘過程,通過分析數(shù)據(jù)彰顯數(shù)據(jù)背后的價值,在材料科學(xué)中常見的用途是分類、回歸、聚類、密度估計、降維等。

如圖1所示,構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng)分為3個步驟:樣本構(gòu)建、模型構(gòu)建和模型評估。樣本構(gòu)建包括數(shù)據(jù)預(yù)處理和特征工程兩個部分,其中數(shù)據(jù)預(yù)處理是指將原始數(shù)據(jù)轉(zhuǎn)換為樣本以及進(jìn)一步的數(shù)據(jù)清理。數(shù)據(jù)清理將識別不完整、不正確和不相關(guān)的數(shù)據(jù),然后替換、修改或刪除這些數(shù)據(jù)。特征工程包括特征提取、特征選擇、特征構(gòu)建和特征學(xué)習(xí),是通過領(lǐng)域內(nèi)的專家知識來創(chuàng)建特征的過程。特征工程是機(jī)器學(xué)習(xí)中至關(guān)重要的一環(huán),有種說法是,特征工程決定機(jī)器學(xué)習(xí)的上限,而算法則是不斷逼近這一上限。在樣本構(gòu)建的過程中還可以采用探索性數(shù)據(jù)分析的方法,獲得對數(shù)據(jù)的初步了解,提前對數(shù)據(jù)進(jìn)行透視、分組、過濾。數(shù)據(jù)質(zhì)量將對最終模型產(chǎn)生非常重要的影響,通常來講,數(shù)據(jù)處理將花費(fèi)整個建模過程的絕大部分時間。模型構(gòu)建包括制定具體的機(jī)器學(xué)習(xí)算法和模型優(yōu)化算法等,需要根據(jù)實(shí)際情況來決定使用哪種算法,沒有免費(fèi)午餐(no free lunch, NFL)理論告訴我們?nèi)魏嗡惴ǖ念A(yù)期都是相似的[6],而且沒有任何算法可以通用于所有領(lǐng)域。對于材料科學(xué)的典型研究而言,條件因素與目標(biāo)屬性之間通常存在復(fù)雜的關(guān)系,而傳統(tǒng)方法難以處理。我們不僅希望模型能在現(xiàn)有的數(shù)據(jù)集上取得很好的效果,還希望在未知的數(shù)據(jù)集上同樣能保留很好的泛化能力,因此我們需要對模型進(jìn)行評估。過擬合與欠擬合都是訓(xùn)練模型中經(jīng)常遇到的兩種問題,需要根據(jù)具體問題采取不同措施。誤差、時間與空間復(fù)雜度、穩(wěn)定性、遷移性等也是模型評估的重要因素。

圖1 機(jī)器學(xué)習(xí)步驟[7]Fig.1 Machine learning steps[7]

如圖2所示,機(jī)器學(xué)習(xí)在材料發(fā)現(xiàn)和設(shè)計中的應(yīng)用可以分為3大類:材料屬性預(yù)測、新材料發(fā)現(xiàn)以及各種其他用途。在關(guān)于材料屬性預(yù)測的研究中,通常使用回歸分析的方法預(yù)測宏觀和微觀特性。在新材料發(fā)現(xiàn)時使用概率模型來篩選結(jié)構(gòu)和成分的各種組合,還可以配合從頭算等方法對材料進(jìn)行預(yù)測。此外,機(jī)器學(xué)習(xí)還可用于材料科學(xué)中的其他方面,例如制造過程中參數(shù)的優(yōu)化[8]。機(jī)器學(xué)習(xí)已經(jīng)廣泛應(yīng)用于材料學(xué)領(lǐng)域的各個方面[9-19],包括成分設(shè)計、材料制備工藝以及對機(jī)理研究等等。

圖2 材料科學(xué)中的機(jī)器學(xué)習(xí)[7]Fig.2 Machine learning in materials science[7]

機(jī)器學(xué)習(xí)屬于一種以數(shù)據(jù)為中心的方法,它可以從大量數(shù)據(jù)中挖掘價值。人們很早便注意到了這一方法的重要性,在材料相關(guān)學(xué)科中同樣建立了大量的數(shù)據(jù)庫。材料基因組計劃便是一個很好的例子,通過結(jié)合高通量實(shí)驗(yàn)[10, 20, 21],利用高通量計算開發(fā)大規(guī)模數(shù)據(jù)庫,然后從眾多的材料數(shù)據(jù)中提取價值,預(yù)測新材料的性質(zhì)并指導(dǎo)下一步實(shí)驗(yàn)。這種方法將助力于新材料的發(fā)現(xiàn)。

3 高熵合金簡述

傳統(tǒng)的合金大多以一種成分為主,比如鎂合金、鋁合金、鎳基合金等,通過添加少量的其他元素來獲得良好的性能。而高熵合金[22, 23]是21世紀(jì)初引入的一種新的合金設(shè)計理念,在這種理念中,元素以等原子比或近等原子比混合,試圖最大化構(gòu)型熵。在高熵合金概念提出之前,人們往往認(rèn)為這些由多主元元素組成的合金中會形成大量金屬間化合物相或其他復(fù)雜相[24]。與預(yù)期相反的是,研究發(fā)現(xiàn)很多高熵合金仍然是單相的固溶體結(jié)構(gòu),主要是面心立方(FCC)、體心立方(BCC)或兩者的混合物。這種結(jié)構(gòu)使高熵合金具有優(yōu)良的性能,包括低溫韌性、高溫下的強(qiáng)度和熱穩(wěn)定性、良好的耐腐蝕和耐磨性以及在極端條件下良好的服役性能[25-28]。

圖3為傳統(tǒng)合金與高熵合金的晶胞結(jié)構(gòu)對比圖[29]。多主元合金的設(shè)計理念使得科研人員對金屬材料的選擇從相圖的邊角區(qū)域轉(zhuǎn)移到了相圖的中心區(qū)域,同時這種理念提供了更龐大的成分選擇空間,五元高熵合金便將可選擇方案數(shù)量擴(kuò)大到了原先的近百倍。在研究高熵合金的早期階段,有學(xué)者提出高熵合金中有四大效應(yīng):高熵效應(yīng)、遲滯擴(kuò)散效應(yīng)、晶格畸變效應(yīng)、雞尾酒效應(yīng)。隨著后來的進(jìn)一步實(shí)驗(yàn),認(rèn)為這些效應(yīng)的重要性可能并沒有當(dāng)初所想的那么大。熵效應(yīng)的效果被明顯夸大了[30-33],很多對高熵合金中相穩(wěn)定性的研究結(jié)論并不支持高熵效應(yīng)的觀點(diǎn),很多高熵合金在中間溫度退火會分解成多個純金屬和金屬間化合物[34],這種相分解一定程度上影響著高熵合金在高溫中的應(yīng)用。同樣,也沒有足夠的證據(jù)能說明高熵合金與傳統(tǒng)的鋼鐵材料相比有很大的晶格畸變。在許多高熵合金中同樣能觀察到快速的相析出,因此遲滯效應(yīng)也受到一定的挑戰(zhàn)。而雞尾酒效應(yīng)并不屬于效應(yīng),只是一個描述的角度。因此,對高熵合金的命名也產(chǎn)生了新的爭論。然而對金屬研究領(lǐng)域來說,這是一個令人振奮的機(jī)會。合金組成成分的復(fù)雜性意味著存在發(fā)現(xiàn)更多不同尋常性能的機(jī)會。對復(fù)雜成分合金行為的理解有助于提高對金屬領(lǐng)域基礎(chǔ)科學(xué)的認(rèn)識。因此,高熵合金是目前材料科學(xué)中最具啟發(fā)性和前景的研究領(lǐng)域之一。

圖3 傳統(tǒng)合金(a)與高熵合金(b)的晶胞結(jié)構(gòu)[29]Fig.3 Lattice structures of conventional alloy (a) and high entropy alloy (b)[29]

高熵合金的命名來源于玻爾茲曼的公式,熵是系統(tǒng)內(nèi)無序性的一種度量。整個宇宙的一切事物都將從有序轉(zhuǎn)變?yōu)闊o序,這也叫做熵增定律。熵的概念經(jīng)過克勞修斯、玻爾茲曼、吉布斯、香農(nóng)等人的深入研究,應(yīng)用領(lǐng)域從熱力學(xué)擴(kuò)展到了信息學(xué)。如果將原子點(diǎn)陣看成是鋼球模型,并假設(shè)微觀狀態(tài)等概率分布,那么它們傾向于形成宏觀狀態(tài)的高斯分布。

當(dāng)組成金屬的原子形成無序排列的時候,系統(tǒng)的構(gòu)型熵最大,與之相對應(yīng)的合金相稱為固溶體相。而金屬間化合物相屬于長程有序狀態(tài),高熵效應(yīng)會抑制這種有序狀態(tài)。最初人們對高熵合金的研究熱衷于對單相固溶體的尋找,隨著研究的進(jìn)展,注意力轉(zhuǎn)移到了微觀結(jié)構(gòu)設(shè)計。現(xiàn)在對高熵合金的研究仍然屬于起步階段,很多研究都是將對鋼鐵材料和鎳基合金的設(shè)計思路延續(xù)到了高熵合金中,比如孿晶誘導(dǎo)塑性和相變誘導(dǎo)塑性等。對高熵合金中很多微觀機(jī)理的探究仍待深入,復(fù)雜的成分理論上可以提供更廣闊的微觀機(jī)制調(diào)節(jié)空間。比如,同鎳基合金相比,高熵合金中的固溶體要更為復(fù)雜。最開始的研究認(rèn)為固溶體既可以提升強(qiáng)度又能保留很大塑性,后來發(fā)現(xiàn),只要能對微觀組織進(jìn)行很好的調(diào)控,即使是兩種金屬間化合物相也能具備很好的性能[35],金屬間化合物相也并非總會使合金脆化。復(fù)雜的成分和更多的微觀結(jié)構(gòu)可能性依舊是未來對高熵合金最具吸引力的研究動機(jī)。

4 高熵合金設(shè)計中的機(jī)器學(xué)習(xí)

隨著高熵合金的發(fā)展,越來越多的成分被開發(fā)出來。高通量濺射沉積實(shí)驗(yàn)是目前常用的高通量的合金制備方案,如圖4[36]所示,這種方法可以將材料從作為源的“靶”噴射到基板上,控制工藝參數(shù),可以在基板上形成所需的物質(zhì)。控制工藝參數(shù)可以對薄膜的生長結(jié)果和微觀組織進(jìn)行精確調(diào)控。這種方法很適合高熵合金薄膜的制備,通過工藝參數(shù)的調(diào)控可以對薄膜選定區(qū)域的元素分布實(shí)現(xiàn)梯度變化。通過不同元素分布的梯度變化可以實(shí)現(xiàn)合金成分的連續(xù)變化,實(shí)現(xiàn)材料的高通量制備,研究成分變化對合金性能的影響。

圖4 高通量濺射沉積實(shí)驗(yàn)示意圖[36]Fig.4 Schematic of high flux sputtering deposition experiment[36]

這些新興的方法可以很大程度上提高新合金成分的開發(fā)速度。隨著合金成分探索加快和合金數(shù)據(jù)庫的不斷增大[12, 13, 37, 38],材料科研人員需要一種能夠幫助他們快速評估、分析這些大數(shù)據(jù)的方法。而機(jī)器學(xué)習(xí)無疑可以與高熵合金探索策略相輔相成[39, 40]。

4.1 機(jī)器學(xué)習(xí)同傳統(tǒng)方法相比較

高熵合金概念自提出以來便伴隨著對相形成規(guī)律的討論[41],相在高熵合金設(shè)計中一直起著關(guān)鍵作用[42-45]。在高熵合金的設(shè)計策略中,對未知合金成分相的組成以及相穩(wěn)定程度的預(yù)測是一個很重要的設(shè)計角度。很多高通量的探索策略取得了不錯的效果,一種是基于從頭算[46, 47]的方法,比如Yoav等[48]利用從頭算的方法,通過判斷固溶體的形成能力來預(yù)測合金成分的有序無序轉(zhuǎn)變。Troparevsky等[49]利用從頭算計算二元合金子系統(tǒng)的形成焓,并通過這些焓來估計多組分系統(tǒng)的穩(wěn)定程度。另一種是基于相圖計算(CALculation of PHAse Diagram,CALPHAD)方法[50, 51],比如Senkov等[33]利用高通量的CALPHD方法預(yù)測合金可能存在的相,快速評估了130 000余組合金成分。Abu-Odeh等[52]利用約束滿足算法縮小遍歷空間,再利用CALPHAD對所得的結(jié)果加以驗(yàn)證。

上述兩種通過計算機(jī)對新材料進(jìn)行評估和篩選的方法無疑可以將材料科研人員從繁瑣的實(shí)驗(yàn)中解放出來,但這兩種方法有很大的局限性:準(zhǔn)確性極度依賴于數(shù)據(jù)庫以及模擬的精確程度,并且無法與實(shí)驗(yàn)結(jié)果建立直接關(guān)系。每次計算與模擬都是單獨(dú)的,無法從前面的計算中獲得經(jīng)驗(yàn)。這與以數(shù)據(jù)為中心的方法不同,以數(shù)據(jù)為中心的方法并不是獨(dú)立的,它可以與面向材料的計算相結(jié)合。Curtarolo等[53]使用主成分分析與從頭算相結(jié)合,根據(jù)晶體結(jié)構(gòu)的能量與化學(xué)系統(tǒng)之間的相關(guān)性預(yù)測材料的結(jié)構(gòu)并取得了很好的效果。Kim等[54]結(jié)合原位中子衍射、第一性原理計算和機(jī)器學(xué)習(xí)研究了Al0.3CoCrFeNi高熵合金的彈性性質(zhì)、彈性模量和各向異性,使用梯度提升樹在數(shù)據(jù)庫中6826個有序無機(jī)化合物上進(jìn)行訓(xùn)練,預(yù)測了體積模量和剪切模量的平均值。他們構(gòu)建的梯度提升樹模型使用了結(jié)構(gòu)特征和組合特征:每種化合物的性質(zhì),如密度和原子的結(jié)合能被表示為結(jié)構(gòu)特征;對與元素有關(guān)但與化合物無關(guān)的屬性進(jìn)行加權(quán)組合(如原子半徑和基團(tuán)數(shù))生成組合特征;對每種化合物均生成67個特征。并使用多目標(biāo)優(yōu)化遺傳算法生成優(yōu)化模型對特征進(jìn)行篩選。與傳統(tǒng)的第一性原理計算相比,機(jī)器學(xué)習(xí)的速度要快很多。

4.2 統(tǒng)計學(xué)方法

高熵合金領(lǐng)域很早便開始從數(shù)據(jù)的角度出發(fā)解決問題,比如利用啟發(fā)式方法提出一些簡單的物化判據(jù)來預(yù)測高熵合金或非晶中的相形成規(guī)律[41, 44, 55-63]。奧卡姆剃刀原理并非放之四海皆準(zhǔn),傳統(tǒng)的簡單線性組合方法已經(jīng)無法滿足預(yù)測需求。早在2013年,Nong等[64]利用固溶體物理參數(shù):原子尺寸差、混合焓、電負(fù)性差和價電子濃度,研究了鑄態(tài)高熵合金立方相的穩(wěn)定性并作出預(yù)測。但該研究中采用的數(shù)據(jù)集太小,缺乏統(tǒng)計學(xué)意義。以數(shù)據(jù)為中心的方法中,數(shù)據(jù)庫的大小與質(zhì)量是相當(dāng)重要的。Tancret等[65]采用統(tǒng)計學(xué)方法,提出了一個基于熱力學(xué)與高斯過程的統(tǒng)計模型,該模型使用9個參數(shù)識別單一固溶體相,文章還評價了不同的熱力學(xué)數(shù)據(jù)庫。然而高熵合金的熱力學(xué)數(shù)據(jù)庫很大程度上繼承于鎳基合金的數(shù)據(jù)庫,多組元的數(shù)據(jù)庫仍需進(jìn)一步完善。

Domínguez等[66]首次對高熵合金數(shù)據(jù)集進(jìn)行了主成分分析,并在此基礎(chǔ)上對一系列合金做出了預(yù)測。作者從原始數(shù)據(jù)中提取有用信息,再將信息用于預(yù)測。文章所用數(shù)據(jù)集比較小,只有79個。其中主成分分析屬于降維算法,目的是將高維度的數(shù)據(jù)降低維度,進(jìn)而保留最重要的特征,去除噪聲和不重要的特征。這種方法可以使數(shù)據(jù)集更易使用,降低計算開銷,使結(jié)果易于理解。但需要強(qiáng)調(diào)的是,該方法會使初始維度的原始特征消失,重組后的特征會發(fā)生根本變化。類似的降維方法還有奇異值分解、因子分析和獨(dú)立成分分析。

4.3 人工神經(jīng)元神經(jīng)元網(wǎng)絡(luò)與其他方法

Islam等[67]使用機(jī)器學(xué)習(xí)對高熵合金數(shù)據(jù)集做出了相應(yīng)的分類。該研究選取了5個特征,數(shù)據(jù)提高到了118個。對原始數(shù)據(jù)集進(jìn)行了過擬合訓(xùn)練,準(zhǔn)確度達(dá)到99%。不經(jīng)評價的預(yù)測模型缺乏意義,算法會學(xué)習(xí)大量的噪聲,缺乏泛化能力。隨后的多折訓(xùn)練中準(zhǔn)確率只有86%。多折訓(xùn)練是一種常用的方法,可以減少小數(shù)據(jù)集中訓(xùn)練集的選取對最終結(jié)果造成的誤差。舉例來說,將一個數(shù)據(jù)集分為4份,其中一份為測試集,其它3份為訓(xùn)練集;這樣重復(fù)4次,讓每個數(shù)據(jù)集都成為一次測試集,最后對4次的評價結(jié)果求均值。在選取特征時,文章計算了5個特征之間的皮爾森系數(shù)。皮爾森系數(shù)是用來描述兩個特征之間相關(guān)性的變量,當(dāng)兩個特征的皮爾森系數(shù)的絕對值越接近1時,他們的線性相關(guān)程度也就越高。需要注意的是,皮爾森系數(shù)對高維中變量的描述效果比較差,不能描述3個特征之間的關(guān)系,只能用于特征的初步篩選。圖5為利用皮爾森系數(shù)分析5個不同特征的結(jié)果,右上角的數(shù)字為皮爾森系數(shù)的大小,皮爾森系數(shù)的絕對值作為線性相關(guān)系數(shù)描述了不同特征值的線性相關(guān)程度。皮爾森系數(shù)分析法可以作為數(shù)據(jù)預(yù)處理和數(shù)據(jù)探索性分析的一種方法。當(dāng)不同特征值相關(guān)性過大時說明兩個特征蘊(yùn)含的信息相似,在預(yù)處理中需要對這一特征做處理或者刪除這一特征。從圖中看出最高的皮爾森系數(shù)為0.73,說明晶格畸變與電負(fù)性差是特征值中最相似的兩個特征值。不必要的數(shù)據(jù)關(guān)聯(lián)會增加模型的復(fù)雜程度,引入噪音,造成過擬合,這時候減少相似的特征可以降低過擬合程度。當(dāng)然,也可以在算法中采取不同方法降低過擬合,比如正則項(xiàng)、懲罰函數(shù)、神經(jīng)元網(wǎng)絡(luò)中的Dropout方法等。

圖5 采用皮爾森系數(shù)分析特征的結(jié)果[67]Fig.5 Characteristics analysis results by Pearson coefficient[67]

Huang[68]使用機(jī)器學(xué)習(xí)算法對一個包含401個合金成分的數(shù)據(jù)庫進(jìn)行聚類和預(yù)測。文章中采用了3種不同的機(jī)器學(xué)習(xí)算法:K近鄰、支持向量機(jī)和人工神經(jīng)元網(wǎng)絡(luò)。他們采用的數(shù)據(jù)庫基于Miracle的一篇綜述[29],數(shù)據(jù)庫的質(zhì)和量提高了很多。該數(shù)據(jù)庫將合金分為3類:固溶體、金屬間化合物以及二者的混合。相較于對晶格結(jié)構(gòu)的分類,這種關(guān)于高熵合金微觀結(jié)構(gòu)的長程有序程度的分類難度更大。文章三分類的最高準(zhǔn)確率只有74%。他們還評估了5個輸入特征在影響測試精度方面的相對重要性。采用人工神經(jīng)元網(wǎng)絡(luò)中的自聚類算法對特征進(jìn)行評價,自聚類算法可以看成是非線性的主成分分析,對高維變量的描述效果更好,而且易于可視化。自聚類是無監(jiān)督機(jī)器學(xué)習(xí)的一種,聚類會將數(shù)據(jù)集劃分成幾個不同的子集,分類之前算法本身并不了解分類樣本的標(biāo)記信息。這種算法能用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)。比較常見的自聚類算法還有K均值聚類、均值漂移聚類、基于密度的聚類、高斯模型的最大期望聚類、凝聚層次聚類等。文章對人工神經(jīng)元網(wǎng)絡(luò)的超參數(shù)做了詳細(xì)的調(diào)試,與支持向量機(jī)和K近鄰算法相比準(zhǔn)確度更高。圖6為人工神經(jīng)元網(wǎng)絡(luò)中的自組織算法原理,可以通過分析輸入空間中的數(shù)據(jù)來生成一個低維、離散的映射網(wǎng)絡(luò)。應(yīng)用競爭性學(xué)習(xí)(具有梯度下降的反向傳播)而非糾錯,并且通過創(chuàng)建類似于多維縮放的高維數(shù)據(jù)的低維視圖的方法,用鄰域函數(shù)來保留輸入空間原有的拓?fù)鋵傩浴J軉l(fā)于生物神經(jīng)元特性,自組織學(xué)習(xí)通過使網(wǎng)絡(luò)不同部分對不同輸入模式做出相應(yīng)的響應(yīng)來模擬生物的大腦皮層,比如香味會引起大腦皮層特定區(qū)域的興奮。首先將訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò),然后計算它們所有權(quán)重向量的歐幾里得距離。通過競爭得出最佳匹配單元,然后將所有權(quán)重進(jìn)行迭代產(chǎn)生新的權(quán)重。在迭代過程中,相似的神經(jīng)元會沿相同的方向移動,并激活相鄰的神經(jīng)元。

圖6 人工神經(jīng)元網(wǎng)絡(luò)中的自組織算法原理[68]Fig.6 The principle of self-organizing algorithm in artificial neural network[68]

Li等[69]用同樣的數(shù)據(jù)庫,選出322個鑄態(tài)合金的成分,使用支持向量機(jī)將數(shù)據(jù)集分為3類:43個面心立方,18個體心立方,以及261個NSP相(包括多相、金屬間化合物、非晶)。這樣的數(shù)據(jù)分類很不平衡,文章也相應(yīng)地采取了一些手段,比如利用算法擴(kuò)增原始數(shù)據(jù)集,但仍然會導(dǎo)致預(yù)測區(qū)間嚴(yán)重縮小。最終交叉驗(yàn)證的精確度可達(dá)90%,而且通過訓(xùn)練好的算法預(yù)測了一些合金成分。預(yù)測的很多都是難熔高熵合金,常見的難熔高熵合金絕大多數(shù)為BCC結(jié)構(gòu)。同時應(yīng)當(dāng)說明的是,文章利用密度泛函理論對預(yù)測結(jié)果做出了檢驗(yàn),但密度泛函預(yù)測的結(jié)果是熱力學(xué)平衡態(tài)的高熵合金,這種驗(yàn)證缺乏說服力。Abhishek等[70]將人工智能的自適應(yīng)神經(jīng)模糊接口系統(tǒng)應(yīng)用于高熵合金的相預(yù)測。自適應(yīng)神經(jīng)模糊接口是利用人工神經(jīng)元網(wǎng)絡(luò)和模糊邏輯構(gòu)造的混合智能系統(tǒng)。圖7為他們設(shè)計的混合系統(tǒng)算法框架,改變模糊邏輯可以改變知識獲取的方式,通過神經(jīng)元網(wǎng)絡(luò)的學(xué)習(xí)能力來優(yōu)化模糊規(guī)則。圖7描述了一個具有2個輸入和1個輸出的系統(tǒng):輸入為m和n,輸出為f。自適應(yīng)神經(jīng)模糊推理系統(tǒng)模型由一組稱為模糊if-then規(guī)則的靈活規(guī)則控制,其中輸入根據(jù)其行為映射到一系列輸出(也稱為隸屬函數(shù))。隸屬函數(shù)是定義如何在輸出中為每個輸入?yún)?shù)指定隸屬度的曲線或函數(shù)。隸屬度的范圍從0到1,隸屬度0表示輸入不是模糊集的一個成員,0.5表示部分隸屬,1表示完全隸屬。對于一個有2個輸入的模型,每個輸入映射到2個隸屬函數(shù)。第1層被稱為模糊層或輸入層,因?yàn)檩斎胧褂秒`屬函數(shù)被映射到模糊范圍。第2層被稱為產(chǎn)品層,標(biāo)記為P,它從模糊層計算各個參數(shù),這個層有時也被稱為輸入成員功能層。第3層被稱為模糊規(guī)則層或規(guī)范化層,標(biāo)記為N,通過將第2層的輸出函數(shù)和第2層的所有輸出函數(shù)之和來執(zhí)行函數(shù)權(quán)重的規(guī)范化。第4層被稱為解模糊層或輸出隸屬函數(shù)層,它將值解模糊以給出清晰的輸出。第5層是總輸出層,標(biāo)記為R,輸出從先前層獲得的所有單個參數(shù)之和。

圖7 模糊邏輯系統(tǒng)結(jié)合人工神經(jīng)元網(wǎng)絡(luò)Fig.7 Artificial neural network combined with fuzzy logic system

神經(jīng)元網(wǎng)絡(luò)是一種利用簡單的數(shù)學(xué)模型模擬生物大腦功能進(jìn)行決策的非線性算法,而模糊邏輯是一種捕捉系統(tǒng)中隨機(jī)性和模糊性的數(shù)學(xué)方法,二者相互結(jié)合可以使系統(tǒng)本身朝著自適應(yīng)、自組織、自學(xué)習(xí)的方向發(fā)展。

Pei等[71]基于包含1252個多組分合金的大數(shù)據(jù)集,利用算法識別固溶體及它們的晶格結(jié)構(gòu)。數(shù)據(jù)庫不僅包含高熵合金,還包含二元、三元合金。文章中沒有給出對數(shù)據(jù)庫的進(jìn)一步說明,將高熵合金與傳統(tǒng)合金放入同一個數(shù)據(jù)集會模糊復(fù)雜固溶體特有的機(jī)制。文章利用高斯徑向基函數(shù)對數(shù)據(jù)進(jìn)行分析和預(yù)測,預(yù)測準(zhǔn)確度可達(dá)93%。他們希望用機(jī)器學(xué)習(xí)找出新的關(guān)于相形成的統(tǒng)一判據(jù),新的預(yù)測量有一定的統(tǒng)計學(xué)意義,但還需要在物理背景上進(jìn)一步說明。Zhou等[72]利用人工神經(jīng)元網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、支持向量機(jī)對基于601個高熵合金成分的數(shù)據(jù)庫做出分類,將合金分為3類:固溶體、金屬間化合物和非晶相。與文中Huang等的工作[68]相比,分類難度小很多。文章加入了一些實(shí)驗(yàn)來驗(yàn)證預(yù)測結(jié)果,大數(shù)據(jù)結(jié)合高通量實(shí)驗(yàn)將會是以后高熵合金開發(fā)的重要方向。Zhang等[73]利用遺傳算法對高熵合金進(jìn)行了設(shè)計,落腳點(diǎn)同樣是相形成問題。文章中加入了主動學(xué)習(xí)方案,用機(jī)器學(xué)習(xí)指導(dǎo)實(shí)驗(yàn)后,再利用新得到的實(shí)驗(yàn)數(shù)據(jù)對算法進(jìn)行迭代。相較于之前利用密度泛函或熱力學(xué)數(shù)據(jù)庫來檢驗(yàn)算法的預(yù)測結(jié)果的方案更為合理。因?yàn)閿?shù)據(jù)庫中的大部分高熵合金都屬于熱力學(xué)非平衡狀態(tài),而且傳統(tǒng)方案預(yù)測的準(zhǔn)確率也不能保證,實(shí)驗(yàn)才是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),實(shí)驗(yàn)與算法的結(jié)合可以讓兩者相得益彰。

Cheng等[74]通過機(jī)器學(xué)習(xí)與實(shí)驗(yàn)相結(jié)合,經(jīng)過兩輪迭代在Al-Co-Cr-Cu-Fe-Ni體系中尋找到了更高硬度的高熵合金成分。數(shù)據(jù)庫包含155個體系中的硬度數(shù)據(jù),其中包括22個四元合金、95個五元合金和38個六元合金。由于實(shí)驗(yàn)數(shù)據(jù)可能來自不同的實(shí)驗(yàn)室,而且硬度數(shù)據(jù)很可能存在一定波動,同時數(shù)據(jù)庫的樣本量比較少,高硬度的數(shù)據(jù)會對算法的預(yù)測結(jié)果有錨定效應(yīng)。文章中特征選取基于統(tǒng)計學(xué)意義,可以進(jìn)一步對特征背后的物理機(jī)制進(jìn)行討論。Qi等[75]提出了一種從二元相圖中提取特征并與機(jī)器學(xué)習(xí)相結(jié)合對高熵合金相進(jìn)行預(yù)測的方法。數(shù)據(jù)庫來自679個鑄態(tài)或退火態(tài)的高熵合金的成分。作者利用相形成溫度定義與元素有關(guān)的相參數(shù)和相分離參數(shù),將它們作為特征,并大規(guī)模提取二元相圖的信息建立數(shù)據(jù)庫。該算法在預(yù)測中取得了不錯的效果。作者在特征工程建立上別出心裁,將相圖轉(zhuǎn)變?yōu)橐幌盗械膮?shù)描述,類似于SISO[68]方法。其中特征構(gòu)建很大程度上決定了最終的預(yù)測結(jié)果,但文章中特征建立過程基于一定的假設(shè),相圖信息不可避免地有一定損失。同密度泛函中的交換關(guān)聯(lián)函數(shù)一樣,在機(jī)器學(xué)習(xí)中同樣存在妥協(xié),比如欠擬合與過擬合,以及效率與精確性,還需要在可解釋性與統(tǒng)計學(xué)意義上做妥協(xié)。特征的建立同樣是一個妥協(xié)的過程,這是一個需要材料科研人員發(fā)揮智慧與創(chuàng)造力的領(lǐng)域。

5 結(jié) 語

目前高熵合金中的機(jī)器學(xué)習(xí)主要集中在對相的預(yù)測方面,一方面是因?yàn)橄嗫梢院艽蟪潭壬蠜Q定高熵合金的性能,另一方面是先前已經(jīng)有很多工作在物理判據(jù)或者說特征工程上做出了很大貢獻(xiàn)。機(jī)器學(xué)習(xí)不僅可以挖掘原有數(shù)據(jù)的價值,更能指導(dǎo)實(shí)驗(yàn),縮短實(shí)驗(yàn)周期。高通量的實(shí)驗(yàn)與計算將會是未來發(fā)展的重要方向。機(jī)器學(xué)習(xí)不同于傳統(tǒng)方法對方程求精確解,對設(shè)備與軟件的需求大大降低,可以將訓(xùn)練好的模型搭建在網(wǎng)站上。此外,這種以數(shù)據(jù)為驅(qū)動的方法還可以從失敗的案例中挖掘價值。隨著數(shù)據(jù)量的增多,機(jī)器學(xué)習(xí)的精確性可以大幅提高。目前應(yīng)用于高熵合金領(lǐng)域的算法仍很基礎(chǔ),不應(yīng)該為了追求噱頭,盲目引入不合適的算法;也不能只關(guān)注相關(guān)性而不去關(guān)注因果性,片面地追求高的預(yù)測準(zhǔn)確率。就目前的高熵合金數(shù)據(jù)庫而言,大部分的數(shù)據(jù)都取自文獻(xiàn),使數(shù)據(jù)被幸存者偏差影響。同時,高熵合金成分開發(fā)很多都圍繞著僅限幾種成分展開,同樣會對數(shù)據(jù)有錨定效應(yīng)。建立聯(lián)合數(shù)據(jù)庫是一個很好的解決辦法。

隨著數(shù)據(jù)庫質(zhì)量的提高,未來高熵合金中的機(jī)器學(xué)習(xí)會向深度學(xué)習(xí)發(fā)展。用領(lǐng)域內(nèi)的知識發(fā)現(xiàn)和創(chuàng)造特征將成為交叉領(lǐng)域中最重要、最有創(chuàng)造力的一環(huán)。同時,在利用機(jī)器學(xué)習(xí)挖掘大數(shù)據(jù)價值的同時,應(yīng)該注重背后的物理背景,像艾薩克牛頓一樣,從唯象理論中再進(jìn)一步。

猜你喜歡
數(shù)據(jù)庫特征方法
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日本午夜视频在线观看| 亚洲无码电影| 黑人巨大精品欧美一区二区区| 国产精品尤物在线| 在线国产三级| 精品无码日韩国产不卡av| 中文字幕日韩视频欧美一区| 国产v精品成人免费视频71pao| 激情国产精品一区| 精品一区二区三区中文字幕| AV不卡国产在线观看| 亚洲动漫h| 久草视频福利在线观看| 国产麻豆永久视频| 国产网站免费看| 97久久超碰极品视觉盛宴| 青青国产在线| 欧美成人精品一区二区| 欧美色99| 亚洲欧美天堂网| 午夜人性色福利无码视频在线观看| 国产va在线| 国产免费人成视频网| 婷婷色丁香综合激情| 久久大香香蕉国产免费网站| 国产美女免费| 丝袜亚洲综合| 99久视频| 热re99久久精品国99热| 99热线精品大全在线观看| 国产精品99一区不卡| 中文字幕1区2区| 国产欧美日韩另类精彩视频| 露脸真实国语乱在线观看| 九九这里只有精品视频| 国产福利微拍精品一区二区| 精品人妻无码中字系列| 五月天婷婷网亚洲综合在线| 欧美国产日韩在线| 欧美亚洲网| 国产精品无码影视久久久久久久| 国产最爽的乱婬视频国语对白 | 午夜丁香婷婷| 91在线日韩在线播放| 日韩精品成人网页视频在线| 中文字幕欧美日韩| 亚洲va在线观看| 国产福利拍拍拍| 国产一线在线| 亚洲黄色高清| 精品国产成人三级在线观看| 日韩色图在线观看| 最新日韩AV网址在线观看| 91综合色区亚洲熟妇p| 欧美专区在线观看| 色成人亚洲| 国产成人久久综合一区| 国产精品一区二区在线播放| 色综合手机在线| 国产一区二区在线视频观看| 久久窝窝国产精品午夜看片| 国产在线观看第二页| 无遮挡一级毛片呦女视频| 日韩精品视频久久| 日本人又色又爽的视频| 亚洲精品人成网线在线| 欧美国产综合视频| 亚洲男女天堂| 亚洲区欧美区| 成人午夜视频免费看欧美| 色九九视频| 亚洲精品无码专区在线观看| 3D动漫精品啪啪一区二区下载| 久久亚洲日本不卡一区二区| 精品91自产拍在线| 色天堂无毒不卡| 成人精品在线观看| 无码乱人伦一区二区亚洲一| 制服丝袜 91视频| 日韩区欧美国产区在线观看| 国产高清在线观看| 亚洲综合网在线观看|