張 潔,劉石華,李鴻鎮,初曉鳳,任雅麗,余先川
(1.北京師范大學信息科學與技術學院,北京 100875;2.廣東省地勘局722地質大隊,廣東 汕頭 440500)
礦產預測是指結合地質學、數學、信息學以及計算機等技術與理論,通過分析成礦地質數據,深入研究礦產與礦化信息和成礦規律,預測成礦區域并對之作出評價。許多學者對此進行了大量的研究工作(成秋明,2000,2001;趙鵬大,2000;余先川等,2011),其中,利用地質、礦產、遙感、地球物理和地球化學等多種信息進行資源評價的綜合信息礦產資源定量預測(王世稱,2002)是目前礦產資源預測的主流方法。如何從海量地質礦產數據中提取有效致礦信息是礦場預測的一個關鍵環節。但由于地質數據具有復雜性且致礦異常具有稀疏性。使用傳統的數據處理方法如多元統計分析、線性空間信息統計、空間多元統計分析成分數據分析以及成分分析等,往往具有一定的局限性,這使得從海量礦產數據中有效提取屬于“弱信息”的找礦信息非常困難,數據挖掘效果不理想,不能很好地表征礦產特征。例如,主成分分析方法只考慮了數據的低階統計特性,沒有考慮高階統計特性(Lee et al,2000),對于復雜的礦產預測數據不能很好地表征礦產資源特征。
非負矩陣分解(NMF)(Lee et al,1999)是一種數據處理方法,不僅保留了原始數據矩陣的非負性,并且有降維和稀疏的特征。筆者用NMF方法對礦產預測數據進行處理,以廣東新寮崠銅多金屬礦區數據為研究對象,通過R型聚類分析研究變量間的相關關系,對相關性較高的聚類結果進行NMF分解,討論基向量和原變量以及基向量之間的相互關系。實驗結果表明,在不同特征值和在稀疏度相似的條件下,NMF的基向量形態基本穩定,將NMF應用于礦產數據處理不僅實現了對原始數據的稀疏化,同時還有效地保留了屬于“弱信息”的找礦信息。實驗結果證明NMF對于礦產預測有重要的實際意義。
非負矩陣分解是最近十幾年新提出的一種矩陣分解算法。該算法在分解過程中加入了所涉及矩陣及其元素均為非負的約束條件,從而實現了完全不同的矩陣分解結果。Paatero等于1994年發表的論文中首次提出了非負矩陣分解的思想,Lee等于1999年在《Nature》上首次提出NMF的概念,隨后又對NMF進行了改進(Lee et al,2001)。隨后,NMF成為信息領域的研究熱點之一,廣大研究者又推廣和改進了 NMF 方法(Guillamet et al,2001;Hoyer,2004;Pauca et al,2006;Rutkowski et al,2007;Xue et al,2006)。
下面是NMF理論的數學模型。
V為原始非負矩陣,W和H為分解后得到的非負矩陣,W是數據矩陣V線性逼近的一組基,而H則是樣本集的投影系數,且:

其中,對于給定的n維向量集合n為變量個數,m為集合中的數據樣本個數,r為基向量的個數,原始數據矩陣V可以分解為基矩陣W和權重系數矩陣H的乘積與誤差矩陣E之和。為簡單起見,不考慮誤差的因素,模型可簡化為:

其中,V是非負矩陣V中的元素,Wik和Hkj是因子矩陣W和H中的元素。一般情況下,應滿足r≤m,n且(n+m)r<nm,這樣就實現了數據的壓縮模型。NMF就是要找到較好的基向量組,用較少數據表示海量數據,并得到數據的潛在關系,從而使得到的壓縮數據模型對原始數據稀疏化的同時,有較好的逼近效果。
以廣東新寮崠銅多金屬礦區為研究區域,實際勘查區域如圖1所示藍色邊框部分。廣東省地勘局722地質隊在該區域做了大比例尺的礦產勘查工作。樣本數據包括1 066個樣本,共15種元素,實驗中采用紅色邊框數據。鉆孔樣品分析區域如圖2所示,坑探揭露探槽8條,共1 765.18 m3;鉆孔4個,別是 ZK2-1、ZK5-1、ZK5-2、ZK4-1,數據分析了 Cu、Pb、Zn、Sn、Ag、Mo 6 種元素,數據格式如表1。

圖1 廣東省新寮崠銅多金屬礦區地形地質圖

圖2 廣東省新寮崠銅多金屬礦區采樣圖

表1 樣品分析結果表
研究區為廣東新寮崠銅多金屬礦區,調查區內地層和巖漿巖自老—新分別為:下侏羅紀長埔組:主要有2個巖性段,上段是泥質砂巖、粉砂質泥巖夾長石石英砂巖),下段是粉砂巖、泥質粉砂巖夾長石石英砂巖質頁巖)。礦區的侵入巖主要分為燕山三期、四期、五期侵入巖、此外還有時代不明的輝綠巖和英安玢巖。燕山三期侵入巖的巖性是黑云母花崗巖),燕山四期侵入巖的巖性是石英閃長巖)、燕山五期侵入巖的巖性是花崗閃長巖()。第四系蓮下組是礫石、礫砂及巖質黏土(Ql)。礦區內以斷裂構造為主,其走向是北東向斷裂和南北向斷裂。
以研究區域為例,原始數據元素變量按照順序依次為 Au、Pb、Mo、Sn、Cu、Ag、Zn、Cr、Ti、Ni、As、Sb、Bi、W、Be,首先對原始數據進行極值化處理,然后采用逐步成群聚類分析,按照變量相似度(實驗中采用相關系數)對變量進行分類,直至生成新的點群,所得連接對相關系數表如表2所示。根據表2,得到R型聚類分析譜系圖(圖3)。

表2 連接點對順序表

圖3 廣東省新寮崠銅多金屬礦區R型聚類結果圖

基于相關聚類分析結果及實際勘測區域分析元素,實驗中選擇了 Au、Mo、Sn、Cu、As、Sb 6 種元素,用基于歐氏距離的NMF進行處理分析,變量及基向量的相關性見表3。
由表3中數據可知,在相似稀疏條件下,對于不同的特征值r,第一個基向量之間相關性很大,其中W21與W1的相關性為0.902,W31與W21間的相關性達0.920,W32與W22的相似度達0.975。將處理完的基向量進行極值化處理,把數據統一到[0,10],生成克里格柵格圖(圖4)。圖4表明,在相似稀疏條件下,基于不同的特征值r對礦產數據進行NMF分解,所得基向量基本穩定。可見,用NMF方法可以有效地稀疏原始礦產數據,同時保留原屬于“弱信息”的找礦信息,處理后的數據對于原始數據具有較好的逼近效果。

表3 新寮崠銅多金屬礦區變量及基向量的相關性

圖4 廣東省新寮崠銅多金屬礦區基向量對應的柵格圖
討論了非負矩陣分解方法的基向量與原變量以及基向量之間的關系,并將該方法用于礦產預測數據處理。在廣東新寮崠銅多金屬礦區數據上的實驗結果表明,在不同特征值和相似稀疏度條件下,非負矩陣分解方法的基向量形態基本穩定,用該方法對礦產數據進行處理,可以在有效保留屬于“弱信息”的找礦信息的同時,實現對原始地質數據的稀疏化。NMF方法對于礦產預測具有重要的實際意義。
成秋明.2000.多重分形理論與地球化學元素分布規律[J].地球科學:中國地質大學學報,25(3):311-318.
成秋明.2001.多重分形與地質統計學方法用于勘查地球化學異常空間結構和奇異性分析[J].地球科學:中國地質大學學報,26(2):161-168.
王世稱.2002.綜合信息礦產預測理論與方法[M].北京:科學出版社.
余先川,胡丹.2011.盲源分離理論與應用[M].北京:科學出版社.
趙鵬大.2002.“三聯式”資源定量預測與評價——數字找礦理論與實踐探討[J].地球科學:中國地質大學學報,27(5):482-489.
GUILLAMET D,BRESSAN M,VITRIà J.2001.A weighted non-negative matrix factorization for local representation[C].Proc of Comp Vision and Pattern Recog.Los Alamitos,California,USA:IEEE,I:942-947.
HOYER P O.2004.Non-negative matrix factorization with sparseness constraints[J].Journal of Machine Learning Research,5(9):1457-1469.
LEE D,SEUNG H S.1999.Learning the parts of objects by non-negative matrix factorization[J].Nature,401:788-791.
LEE T W,GIROLAMI M,BELL A J,et al.2000.A unifying information-theoretic framework for independent component analysis[J].Computers and Mathematics with Applications,39:1-21.
PAATERO P,TAPPER U.1994.Positive matrix factorization:non-negative factor model with optimal utilization of error estimates of data values [J].Environmetrics,5:111-126.
PAUCA P,PIPER J,PLEMMONS R.2006.Nonnegative matrix factorization for spectral data analysis[J].Linear Algebra Application,416(1):29-47.
RUTKOWSKI T M,ZDUNEK R,CICHOCKI A.2007.Multichannel EEG brain activity pattern analysis in time-frequency domain with nonnegative matrix factorization support[J].International Congress Series,(1301):266-269.
XUE YUN,TONG CHONGSZE,CHEN WENSHENG,et al.2006.A modified non-negative matrix factorization algorithm for face recognition[C]//18th International Conference on Pattern Recognition(ICPR'06)Washington D C,USA:IEEE Computer Society,3:495-498.