陳偉雄,楊華健,周澤東,張 明
(韶關學院土木工程學院,廣東 韶關 512005)
學者們對礦物的構造判別圖已經研究了四十多年,構造背景判別圖在某種程度上因受時間、空間和地域等因素的局限,已經不能適應大數據時代下帶來的新挑戰。近年來,劉欣雨、焦守濤等一批學者致力于對地球化學數據庫的挖掘研究,將地質學問題與地球化學元素緊密結合起來,為地質學的研究提供了一個新的思路。
GEOROC數據庫是大陸中地質礦物地球化學數據查詢平臺,由德國Max Planck化學研究所的Sarbas博士研究小組建設和維護,該庫收集了大陸地質礦物的地理位置,經緯度,礦石結構和礦石類型,分析方法,實驗室,參考資料以及參考文獻等信息。GEOROC數據庫還和PetDB、PANGAEA等數據庫具有緊密的聯系。
從GEOROC數據庫中提取了地質礦物的地球化學數據41360件,礦石屬性包括構造背景,經緯度,樣品名稱,主量元素(SIO2(WT%)、TIO2(WT%)等34個),微量元素(LI(PPM)、BE(PPM)等75個)等。
本文對數據的處理從客觀出發,以確保數據清洗模型的復雜性和分析結果的準確性之間進行平衡。
①剔除SiO2<52%和SiO2>63%的數據。②剔除K2O>8且Na2O<2%的數據,排除煌斑巖對結果的干擾。③剔除Ga<21ppm和Ce<75ppm的數據。④刪除各屬性對應的樣品件數小于總樣品件數41360的45%的屬性。刪除異常值和空缺值。
利用經緯度數據,在MAPGIS軟件上統計得到七種構造背景下的地質礦物的空間分布,便于分析不同構造背景的地質礦物在全球的分布特征。
空間統計結果表明:匯聚邊緣地質礦物的數量最多,分布范圍較廣,主要分布在科迪勒拉山系、日本、西印度群島、勘察加半島,還有一部分分布在雅加達爪哇島、地中海沿岸、阿留申群島等地區,說明匯聚邊緣礦物質多形成于大洋板塊與大陸板塊交界處,在板塊交界處地質比較活躍。
我們繼續進行深入的研究,根據數據二次清洗后得到的28個屬性(經度、緯度、SiO2(WT%)、V(PPM)等)數據集,再剔除兩兩變量間的皮爾遜系數大于90%的相似屬性(即'CE(P PM)','ND(PPM)','SM(PPM)'),最后按地質礦物的七種構造背景,利用K-Means聚類算法將屬性特征數據分成七類。將聚類的結果以雷達圖展現出來。從聚類結果雷達圖可以推斷:對于礦物質中的微量元素地球化學特征為富集大離子親石元素而虧損高場強元素(李平等,2011),大離子親石元素多含于一般地質構造礦物中,且具有不相容性,高場強元素留在源區的殘余固相中,究其原因,這些元素地球化學性質一般較穩定,不易受環境變化影響,使得礦石在一定程度上繼承源區的化學特征。雷達圖中七類地質礦物構造背景較為突出的大離子親石元素有Rb、Sr、Ba,高場強元素有Nb、Th,可以從這些元素去分析新的構造背景與元素的潛在關系。
社區是一個比較含糊的概念,本文只給出了一個定性的刻畫。社區是一個子圖,包含頂點和邊。社區的特點是同一社區內的節點與節點之間的連接很緊密,而社區與社區之間的連接比較稀疏(Newman and Girvan,2014),而社區發現算法可以用來發現網絡中的社區結構,可以看作一種廣義的聚類算法。
一個節點代表一個構造背景,節點與節點之間通過邊連接,所有邊都是無向的,這意味著一個構造背景與另一個構造背景之間不是單向關系,而是雙向關系。由算法原理和社區發現圖可將類別2、洋底高原、海山構造背景劃分為一個社區;類別5、大陸板、太古宙克拉通構造背景劃分為一個社區;類別0、類別1、類別4、大陸板內、太古宙克拉通、裂谷、匯聚邊緣構造背景另外劃分為一個社區。類別3、類別6和大陸溢流構造背景劃分為一個社區,挖掘該社區內部的相關關系,發現類別3的地質礦物的主量元素MgO、微量元素Cr、Ni與類別6的礦物主量元素K2O、微量元素Th、Nb、Rb在原有大陸溢泥質礦物構造背景上可以明顯區分于其它構造背景。
本文是在未考慮GEOROC數據庫劃分的構造背景的前提下,以地化元素進行聚類劃分的七個潛在類別(即0-6類別)進行的,進行逆向推導得出的結論,可以視為一種后驗過程,許多本質聯系需要進一步的研究,可能有許多問題需要地球化學專家的研究和解釋。
極限學習機(Extreme Learning Machine,ELM)是一類基于前饋神經網絡的機器學習算法,其最大特征為隱含層節點參數可以是隨機或人為設定的,且不需要經過調整,不同的隱含層節點可以有不同的映射函數(如高斯函數,徑向基函數等),學習過程僅需計算輸出的權值。ELM具有學習效率高和泛化能力強的優點,被廣泛應用于分類、回歸等特征學習等問題中。
支持向量機(Support Vector Machine,SVM)是一類按監督學習方式對數據進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。算法總能尋找到一個最優超平面對樣本的不同類別進行劃分,隨著樣本類別的增加,平面可以上升到高度曲面,從而映射回原特征空間實現精準分類。SVM還具有小樣本最優學習器的著稱。
對最終建模數據進行統計得到匯聚邊緣構造背景的樣本數據量為4153件,而洋底高原構造背景的樣本數據量為6件,七種不同的構造背景樣本數量占比具體如下圖所示,不難發現,匯聚邊緣樣本數據量占到了總數據量的70.2%,遠大于其他各類構造背景的數據量之和,而洋底高原的樣本數據量遠小于總數據量的1.0%,如果將全部數據都進行機器學習,務必會造成極大的誤差,即匯聚邊緣構造背景的學習較于其他構造背景過于充分,機器學習分類時有理由,即大概率偏向于匯聚邊緣,對于數據量僅有0.1%的洋底高原,再好的機器學習也幾乎不可能將所屬該構造背景的樣本預測出來。
為此,根據數據挖掘和機器學習的特點,因為洋底高原樣本數據量過少,本文不對此構造背景進行學習預測,即只研究其它六種構造背景的預測分類。以各類構造背景被機器學習的公平為原則,隨機選取六種構造背景的樣本數據各76件,共456件樣本數據。本文將從各類構造背景的樣本數據中,各隨機抽取12件的樣本數據作為測試集。最終得到訓練集數據384件(84.2%),測試集數據72件(16.8%)。
分別利用極限學習機和支持向量機兩種機器學習方法對地質礦物的六種構造背景進行學習預測,學習預測的混淆矩陣圖和樣本實際類別與預測類別對比如圖1圖2所示。
某次預測結果顯示,支持向量機對地質礦物的預測效果優于極限學習機,極限學習機將匯聚邊緣構造背景類別的12件測試數據全部成功預測出來,而支持向量機不但對匯聚邊緣構造背景類別預測精準,而且對大陸溢流、太古宙克拉通構造背景類別也全部成功預測出來。ELM和SVM均成功預測出了8件裂谷構造背景樣本數據和11件海山構造背景樣本數據。
其中,對于裂谷構造背景樣本數據,ELM將1件數據錯誤地預測給了匯聚邊緣類別,將3件數據錯誤地預測給了大陸板內類別;SVM將2件數據錯誤地預測給了匯聚邊緣類別,將1件數據錯誤地預測給了大陸板內類別和將1件數據錯誤地預測給了太古宙克拉通類別。
總體上來說,對于地質礦物六種構造背景的預測分類,SVM以91.7%的識別準確度優于ELM的83.7%。但這并不意味著ELM一定比SVM的預測分類差,因為最終得到的有效地質建模數據還是非常有限的,ELM可能學習訓練不夠充分。

圖1 ELM的混淆矩陣圖

圖2 SVM的混淆矩陣
因此,在各樣本數據量有限的條件下,用支持向量機對地質礦物的六種構造背景進行預測是可行的,進一步體現了支持向量機在小樣本預測分類中的優越性。
本文通過對GEOROC數據庫中地質礦物的地球化學數據集(41360件)進行預處理(數據清洗),空間分布、聚類分析和社區發現的可視化分析以及利用ELM和SVM兩種機器學習方法對構造背景進行智能預測判別后得出以下重要結論:
①通過對地質礦物28個屬性K-Means聚類得到的雷達圖進行分析,結合學術界的研究得出,地質礦物的聚類可視化效果比較明顯,地質礦物大離子親石Rb、Sr、Ba元素富集與高場強元素Nb、Th虧損地化特征突出。②本文采用大數據思維,在建模數據有限的情況下,利用支持向量機對地質礦物的六種構造背景進行預測判別,識別準確度高達91.7%。充分說明支持向量機對礦物的構造背景進行識別預測是可行的。