999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習方法在礦產勘查中的應用

2021-04-19 00:59:24趙偉光陳軍林
世界有色金屬 2021年1期
關鍵詞:方法

趙偉光,陳 磊,陳軍林

(1.礦冶科技集團有限公司,金屬礦產資源評價與分析檢測北京市重點實驗室,北京 102628;2.中國石油川慶鉆探工程有限公司工程技術研究院,陜西 西安 710018;3.中國地質大學(北京)地球科學與資源學院,北京 100083)

機器學習是近些年來興起的一門人工智能科學,人工智能是該領域的主要研究對象,尤其對如何在經驗學習中改善具體算法的性能關注更甚[1]。機器學習是對能通過經驗自動改進的計算機算法的研究,而不是在明確編程的情況下做出反應。其一般流程是:通過輸入數據建立模型,選擇相應的算法進行模型訓練,從數據中自動分析發現規律,并利用規律對數據進行預測。機器學習的應用已經十分廣泛,比如數據挖掘、計算機視覺、自然語言處理、搜索引擎、機器翻譯等等。機器學習通常可分為監督學習(Supervised learning)和非監督學習(Unsupervised learning)兩大類。監督學習是利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習,一般用來做分類和回歸。非監督學習則是在未加標簽的數據中,試圖找到隱藏的結構,輸入數據的類別是未知的,一般用來做聚類分析[2]。

由于人類進入了信息化、數字化時代,對數據的依賴和生產數據的能力大大超過以前,大量的數據需求使得機器學習這門處理數據的新興學科得到了迅速發展,形成了多種多樣的機器學習算法。機器學習在處理大數據集以及復雜的數據結構中相比傳統的統計學方法有明顯的優勢,因此被大量應用在地球科學的研究當中,特別是油氣勘探、地球物理、遙感圖像處理等領域[3-5]。

地質學傳統地屬于定性的、推理的、歷史的科學,這主要是因為許多地質現象本身的性質以及傳統的地質學研究方法大多是非數學的[6]。但隨著認識程度的轉變和研究方法以及新的技術手段的發展,現在的地質學已經進入了定量化、數據化時代,像地球物理、遙感、勘查學等地質分支學科都已經高度依賴數據。

礦產勘查是地質學的重要學科分支,是地學領域里面對數據依賴程度較高的學科。在礦產勘查中,要做到對礦產資源的定位、定量、定概率,就需要對研究對象進行大量的數據采集,從而形成豐富的數據資料。這些數據往往規模龐大,結構復雜,要從這些數據中挖掘出反映礦產資源的有用信息,就需要高效的數據挖掘技術。傳統的方法如證據權法[7]、模糊邏輯[8]、邏輯回歸[9]等,有效支持了礦產勘查的發展,但其中的不足之處也很明顯。機器學習方法的興起為地學數據的處理帶來了新的思路和方法。將礦產勘查和機器學習方法相結合的文章已經非常多,如神經網絡[10,11]、支持向量機(SVM)[12,13]。研究表明機器學習的方法比傳統的統計方法(如邏輯回歸)精確度更高,尤其是當特征空間較為復雜(如高維數據以及輸入輸出呈現非線性關系的數據)或數據的統計分布規律較為復雜時[12-14]。機器學習在礦產勘查中的應用已經形成了一股熱潮,本文擬通過介紹這些應用實例探討機器學習方法在礦產勘查中的應用以及需要注意的問題。

1 常用機器學習方法在礦產勘查中的應用

目前應用最多的幾種模型主要是基于決策樹方法(DTs)[15],神經網絡方法(ANNs)[8,14,16]、支持向量機[12,17]、隨機森林等[15,18],概由于這幾種方法表現出色且實現難度低。

1.1 神經網絡

圖1 典型的神經網絡結構

神經網絡模型提出于20 世紀40 年代,主要用來解決函數逼近、模式識別、分類等問題。通過模擬生物神經系統對真實世界物體所作出的交互反應來工作,是由具有適應性的簡單單元組成的廣泛并行互聯的網絡[19]。正如在人腦中一樣,神經網絡的基本組成單元是神經元,每個神經元的結構和功能比較簡單,但大量神經元組合產生的系統行為卻非常復雜。

神經網絡是由許多單個神經元相互聯接而成的自適應非線性動態系統。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網絡處理單元的連接關系中。神經網絡中處理單元的類型分為三類:輸入層、輸出層和隱藏層。輸入層接受外部世界的信號與數據;輸出層實現系統處理結果的輸出;隱藏層是處在輸入和輸出單元之間,不能由系統外部觀察的單元。典型的神經網絡結構如圖1 所示。

神經網絡在地學中應用的文章非常多,在礦產勘查中的應用也比較廣泛[8,14,16,20],如李曉暉等利用人工神經網絡對寧蕪盆地白象山礦區進行了三維成礦定位預測研究,預測結果表明,將人工神經網絡應用于三維成礦定位預測能很好的定位出已知礦體,同時能夠有效的預測靶區,是對隱伏礦、盲礦進行成礦預測和優選靶區的有效方法[20]。

雖然神經網絡有許多優勢,但也有明顯的局限性,如訓練ANNs 需要對大量的參數進行設置,參數的好壞直接影響模型的精度,而調試參數的過程往往費時費力;無法解釋自己的推理過程和推理依據;向用戶提出必要的詢問是無法做到的,而且當數據不充分的時候就會導致神經網絡無法進行工作;把一切問題的特征都數字化,把一切推理都數值計算化,信息丟失無法避免。

1.2 支持向量機

相對于神經網絡來說,決策樹方法需要設置的參數較少,自動化程度高,但容易出現過擬合的問題[15]。基于以上原因神經網絡和決策樹越來越多的被新基于核的方法如SVM 和集成方法如RF 所代替。

支持向量機是近年來提出的一種新的機器學習方法,最早由Vapnik 在20 世紀60 年代提出,起初被用作線性二分類,后來發展出非線性、多分類、回歸等新的功能[17]。他有許多特有的優勢,如在解決小樣本、非線性及高維模式識別中發揮了較大的作用,然而解決分類和回歸問題是其主要功能。其主要原理是在n 維空間中找到一個分類超平面,利用該超平面對空間上的點進行分類。如圖2a 所示,一個點距離超平面的遠近可以表示為分類預測的確信或準確程度,SVM 就是要最大化這個間隔值,而在虛線上的點便叫做支持向量(Supprot Verctor)。實際中會經常遇到線性不可分的樣例,常用的做法是將輸入向量映射到一個更高維的空間里,在這個高維空間里建立有一個最大間隔超平面,從而實現分類(圖2b)。SVM 的關鍵在于核函數,通過核函數將難于劃分的低維空間向量映射到高維空間,只要選用適當的核函數,就可以得到高維空間的分類函數,采用不同的核函數將導致不同的SVM 算法。

已知該算法被應用的主要有:地球物理反演當中解決非線性反演、天氣預報工作、遙感圖像處理等。Renguang Zuo[12]和Carranza[21]利用支持向量機對加拿大某地金成礦遠景進行了預測。

基本思路是:根據控礦因素選擇數據,形成證據層(如地質、物探、化探、遙感),構成輸入數據數據X,以區域上有礦產產出的n 個點以及n 個非礦產點作為輸出數據y(兩個值,有礦和無礦),訓練支持向量機模型,找到一個映射函數f(X),可以近似的反映數據X 和礦化y 之間的關系,從而利用該映射關系和新的勘查數據集Xnew 對未知區域進行礦產資源潛力預測。結果表明該方法精度遠遠高于傳統的證據權方法,能夠有效提高成礦預測能力。

圖2 支持向量機原理示意圖

圖3 RF 算法示意圖

1.3 隨機森林

隨機森林是一種集成方法(ensemble),由Breiman[15]于2001 年提出。它使用的抽樣方法是bootsrap 重抽樣方法,首先從原始樣本中抽取多個樣本,然后對每個bootsrap樣本進行決策樹建模,最后組合多棵決策樹的預測,通過投票得出最終預測結果。

RF 算法(圖3)不需要人為調試很多參數,能夠有效降低過擬合現象;處理高維度數據能力強;不用做特征選擇,能夠給出哪些變量比較重要;對于不平衡的分類數據集來說,它可以平衡誤差;在建造森林過程中,它可以在內部對于一般化后的誤差產生不偏差的估計;可以估計遺失的資料,并且,如果有很大一部分的資料遺失,仍可以維持準確度,對異常值和噪聲具有很好的容忍度;速度快,訓練過程中能夠檢測到變量間的互相影響,易做成并行化方法,實現簡單。基于以上優勢,RF 是近年機器學習領域研究的熱門之一。

Carranza[21]等利用RF 方法對菲律賓某地的斑巖銅礦成礦遠景進行了預測,與證據權法進行了對比研究,結果表明該方法表現優于傳統的證據權方法。證據權方法是傳統的礦產勘查中較為成熟的模型,它的提出大大提高了礦產勘查的定量化研究程度,具有重要的意義,但同時也存在著許多劣勢,如證據層二值化問題、條件獨立性假設問題等,這些統統都可以通過RF 方法解決。

相對于ANN 和SVM 模型,RF 能夠更好的處理訓練數據集中標簽值較少的情況。它不像ANN 那樣是一個黑箱,而是一個可探究的方法。

資源量估算是礦產勘查中的重要環節,傳統的方法主要是以統計學為基礎的方法,如克里格法、SD 法(最佳結構曲線斷面積分儲量計算法)、斷面法(亦稱剖面法)和以及塊段法等。傳統方法基于一個重要的假設:用來估算儲量的樣品是隨機和相互獨立的。但實際當中,一個研究區內用于估算資源量的樣品通常是相互有聯系的,這條假設通常不能滿足。并且,傳統方法在處理輸入輸出數據之間線性關系的數據時效果更好,對于非線性關系的數據有一定的局限性。機器學習的方法能夠克服上述的不足,將機器學習應用到了資源量估算中的研究已非常多[22-24],這些方法總體來說能夠克服傳統方法的一系列缺陷,從而提高資源量計算精度,而且大大提高了計算過程的自動化。

此外,機器學習中的其他算法如聚類、降維、關聯分析等在礦產勘查中的應用也非常廣泛,限于篇幅,不再贅述。

2 需要注意的問題

每種算法都有其優勢和劣勢,實際應用中應根據具體需求選用,往往是對多種方法測試對比,最終選擇出最適合的方法。

算法的選擇固然重要,數據本身的問題也不可忽視。在應用機器學習算法處理礦產勘查數據時,以下幾個常見問題需要注意。

2.1 訓練數據的不確定性 (Training Data Uncertainty)

勘查數據來源于觀察和測量,這就不可避免的造成了一些不同程度的不確定性,以化探數據為例,采樣方法、分析方法、檢出限高低等都會影響到數據的準確性。而地質數據比如地質單元的劃分,由于研究者認識水平的高低不一也容易影響準確性。

同時研究精度(如采樣精度、研究尺度)和研究方式也影響到數據的質量。此外,原始數據往往還可能存在不一致、重復、缺失、含噪聲等問題,會對最終結果造成很大影響,需要進行數據預處理。數據處理過程中也可能造成不確定性的發生,如插值過程中,插值點是由周圍的實測點通過一定方法計算出來的,而不是直接測量所得,與真實的情況肯定有一定出入。另外,處理過程中的方法選擇,參數選取,都可能造成數據質量的下降。

2.2 訓練標簽的不確定性 (Training-Label Uncertainty)

所謂標簽就是類別,比如一個數據點,是礦點還是非礦點,有礦或非礦就是該點的標簽,訓練數據的標簽影響到最終分類結果。

在大部分情況下,非礦只意味著礦化還未被發現,而不是十分確定的無礦。有礦與無礦不是截然區別的兩類,而是有一個變化范圍。比如,在許多有礦的實例中,有礦意味著有礦山,也可能僅僅只是礦點或礦化,將它們歸為一類,在處理中可能會造成很多問題。

2.3 數據的不均衡性

在大多數監督學習算法中,都是通過等量選取每個類別的樣品進行無偏訓練,如果每個類別選取數量不等,那么就涉及到數據的非均衡分布[25]。在一個數據集中有稀有類和多數類之分,稀有類指一個或一些類實例數很少,而多數類指一個或一些類實例很多。

通常把這些數據集的分類問題稱為非平衡數據集分類(也稱稀有類分類)[26]。如在一個勘查區內,大部分時候都是礦產地的出現少于非礦產地,異常區少于背景區,從而造成了數據的不均衡性。普通的機器學習方法在非平衡數據集上往往失效,因為它們建立在訓練數據集上并輸出最簡單的假設適應這些數據,稀有類數據在訓練數據集中占很小的比例,算法傾向多數類數據,因此其在稀有類數據上的效果很差,而稀有類數據往往是有顯著意義的數據。目前關于非均衡數據集的處理,主要有兩種途徑,即隨機過抽樣(randomly over sampling)和隨機欠抽樣(randomly under sampling)[27]。

2.4 大數據問題

因為礦產的出現是低概率事件,為了提高找礦概率,一般都在較大范圍內進行研究。而且涉及的數據類別包括地質、物探、化探、遙感等多個數據層,每個數據層又可能包含大量數據。

尤其是隨著現代測試分析技術以及探測技術精度的提高,往往導致數據量大大增加。這些諸多因素使得勘查數據形成巨大的數據量,這就涉及到大數據問題。大數據是近年來的研究熱點,對于龐大的地質大數據該如何有效地組織和使用,如何進行科學的挖掘,產生更高的價值,以實現相應的服務,是時下地質大數據研究的主要問題[28]。在數據處理中要考慮到大數據的問題,選擇合適的方法。

2.5 特征選擇問題

所謂特征選擇是指從已有的M 個特征(Feature)中選擇N 個特征使得系統的特定指標最優化,是從原始特征中選擇出一些最有效特征(有效性通過同類樣本的不變性、不同樣本的鑒別性、對噪聲的魯棒性來評價)以降低數據集維度的過程,是提高學習算法性能的一個重要手段,也是模式識別中關鍵的數據預處理步驟[29-31]。對于一個學習算法來說,好的特征是訓練模型的關鍵。

在礦產勘查中,作為證據層的地質、物探、化探、遙感數據為模型建立提供多個維度的數據,這些數據可分解為多個變量。特征選擇就是要選擇出哪些對于預測模型最優的變量。單從化探來說,就可能包含多個元素,這些元素中有的對成礦有指示意義,有些沒有。

對于預測沒有意義的特征不僅會降低模型預測能力,還會增加冗余度,造成運算量增加。特征的選擇可根據研究對象的某些性質選取(如根據勘查對象的成礦規律、控礦因素等)結合特征選擇算法進行選擇。

3 小結

用數據的方法來研究科學,用科學的方法來研究數據,具體到礦產勘查當中,就是要用定量化的方法研究礦產資源,在數據處理過程中,要緊跟數據科學的步伐,用高效的數據挖掘方法處理勘查數據。機器學習是當下數據科學的熱門課題,機器學習算法在地學研究中的應用越來越多。其中神經網絡、支持向量機、隨機森林幾種算法應用最為廣泛,這些方法的使用大大提高了礦產勘查數據的處理效率,為礦產勘查數據的處理提供了新的途徑和思路。選用合適的算法能夠大大提高數據處理效率,從數據中挖掘出更多有用信息。但這些方法的使用中也經常容易出現一些問題,必須熟悉每種方法的原理和特點,才能更好的應用。同時,數據本身的問題也不可忽視,在利用機器學習算法處理勘查數據時,要考慮到以下幾個問題:訓練數據的不確定性、訓練標簽的不確定性、數據的不均衡性、大數據問題、特征選擇問題。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产一区二区三区精品欧美日韩| 成年女人a毛片免费视频| 国产区成人精品视频| 欧美亚洲欧美| 久久窝窝国产精品午夜看片| 萌白酱国产一区二区| 亚洲色图在线观看| 久久久受www免费人成| 最新国产高清在线| 亚洲欧美一区二区三区蜜芽| 亚洲人成亚洲精品| 久久综合成人| 亚洲第一视频网站| 99成人在线观看| 国产福利在线观看精品| 欧美曰批视频免费播放免费| 亚洲国产日韩一区| 国产全黄a一级毛片| 动漫精品啪啪一区二区三区| 青青国产成人免费精品视频| 中文字幕资源站| 亚洲成人网在线播放| 色妺妺在线视频喷水| 日本亚洲欧美在线| 欧美在线一级片| 尤物精品视频一区二区三区| 日本不卡在线| www.99在线观看| 国产成人精品视频一区视频二区| 中日韩一区二区三区中文免费视频 | 99久久婷婷国产综合精| 97久久精品人人做人人爽| 亚洲bt欧美bt精品| 成人在线观看不卡| 91在线国内在线播放老师| 67194成是人免费无码| 99无码熟妇丰满人妻啪啪| 午夜视频日本| 国产Av无码精品色午夜| 麻豆国产在线观看一区二区| 毛片免费高清免费| 国产精品久久精品| 欧美黑人欧美精品刺激| 亚洲国产91人成在线| 久久99热66这里只有精品一| 亚洲精品777| 精品国产欧美精品v| 99精品国产高清一区二区| 青青极品在线| 美女被躁出白浆视频播放| 亚洲精品片911| 99re在线免费视频| 试看120秒男女啪啪免费| 亚洲成人播放| 国产精品香蕉在线| 成人亚洲天堂| 国产91精品久久| 欧美国产另类| 91在线无码精品秘九色APP| 亚洲三级成人| 日韩av无码精品专区| 好吊妞欧美视频免费| 全午夜免费一级毛片| AV不卡国产在线观看| 超碰免费91| 免费观看男人免费桶女人视频| 欧美成人午夜视频| 多人乱p欧美在线观看| 97久久超碰极品视觉盛宴| 欧美精品亚洲日韩a| 亚洲不卡影院| 91精品小视频| 国产一区二区影院| 欧美第二区| 欧美性猛交一区二区三区| 亚洲V日韩V无码一区二区| 中文国产成人久久精品小说| 亚洲毛片一级带毛片基地| 日韩午夜福利在线观看| 亚洲精品动漫| 亚洲成人在线网| 国产免费久久精品99re丫丫一|