葉發旺,蔡煜琦,李瀚波,邱駿挺,王建剛
(1.核工業北京地質研究院,遙感信息與圖像分析技術國家級重點實驗室,北京100029;2.核工業北京地質研究院,中核集團鈾資源勘查與評價技術重點實驗室,北京100029)
大數據正以一種顛覆性的技術革命影響著世界各個領域的各行各業。鈾資源作為國家戰略資源,無論是在地質礦產領域還是軍事裝備領域都具有特殊性。以鈾資源勘查為主的核地質領域正積極以大數據應用為契機,開展新一輪的技術創新,逐步形成大數據理念下的鈾資源勘查新技術方法,以獲得更快、更準、更具高價值的鈾資源勘查效果。筆者從鈾資源勘查領域的特點出發,對鈾資源勘查大數據技術創新研究與應用的框架思路進行了探討。
目前國內外學者對大數據的定義及特征還沒有統一的認識,各行各業也只是跟隨使用。麥肯錫咨詢公司將大數據定義為一種規模大到在獲取、存儲、管理、處理方面大大超出了傳統數據庫軟件工具能力范圍的數據集合”[1];美國權威研究機構Gartner和百度百科將大數據定義為 “是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產”[2];維基百科對大數據的定義是 “所涉及的數據量規模巨大到無法通過人工,在合理時間內截取、管理和處理,并整理成為人類所能解讀的信息”[3];《大數據傻瓜書》對大數據概念是 “大數據并不是一項單獨的技術,而是新、舊技術的一種組合”[4]。從上述國際上幾種比較權威的觀點可以看出,大數據的定義中包含了多個層次的內涵,即大數據首先是巨量數據,其次是當前沒有或還需要研究的新技術,再次是決策。所以,應該從數據、技術、應用三個層面來全面理解大數據的內涵。
1.1.1 數據層面
是指大數據具有明顯的5V特征 (目前說法不一, 但大多傾向于 4V 或 5V 特征)[2,5-6],即大數據主要 “大”在體量 (Volume)、多樣(Variety)、 速度(Velocity)、 真實(Veracity)、 價值(Value)5個方面。與以往的海量數據相比,大數據不僅強調數據規模巨大,而且數據內涵與屬性更廣、類型更多、數據采集速度快速、網絡化、時效性高;數據更加真實客觀而少被人們主觀污染;單個數據價值小,但發現規律和決策后獲得價值巨大。從上述數據層面的特征來看,大數據本質上還是數據,是海量數據的發展,是各種類型傳感器和計算機、網絡、云技術、分布式計算與存儲技術的廣泛應用和運算能力極速進步而產生的概念發展和取代。
1.1.2 技術層面
是指從數據采集、存貯、管理、處理、挖掘到形成結果的整個過程中涉及的各種技術方法統稱大數據技術,是大數據價值體現的手段和前進的基石。缺了數據,技術發揮失去了基礎;沒有技術,數據則難以上升為認知與規律,實現不了更高的價值。因此,大數據技術是數據與技術的有機結合。大數據時代,數據將與云計算深度結合,實現巨量數據分布式存貯、分布式數據挖掘和智能化處理。當前,與大數據密切相關的技術主要包括:大規模并行處理、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統等[2]。從戰略角度上說,大數據的價值不在于龐大的數據信息本身,而在于對數據進行專業化處理,完成數據 “提純”,從而實現數據 “增值”。所以,數據挖掘技術是大數據技術的關鍵之關鍵,是與云計算密不可分的分布式的數據挖掘技術,必須采用分布式架構和依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等。
1.1.3 應用層面
是指大數據應用,是大數據技術在各行各業的應用過程。其本質是對分布式存儲的多源巨量數據通過高性能運算環境,采用一定的數據分析及挖掘方法,獲取有價值的信息,尤其是預測信息,最終體現大數據價值。大數據應用涉及數據采集—數據存貯-數據清洗與讀取—數據挖掘-高性能計算-發現規律-決策等過程,具體表現為:先用軟件處理各種原始數據,并將得到的信息或知識存儲在計算機中;然后基于數據編寫程序,利用各種高性能計算機對海量信息進行處理和機智能化(機器學習、人工智能)數據挖掘,尋找隱藏在數據中的關聯,從而發現未知規律,獲取有價值的情報信息,從而進行決策。大數據應用需要人們以創新方式使用海量數據,并采用人工智能技術來處理自然文本和進行知識表述。根據應用的不同層次,大數據應用有互聯網的大數據、政府的大數據、企業的大數據和個人的大數據四個應用級別[7],從而實現大數據已經展現和即將實現的美好前景與藍圖。
總之,大數據是一場信息技術革命的新階段,是發現新知識、創造新價值、提升新能力的新一代信息技術革命。它不是單純的數據概念,而是巨量數據與一系新技術的結合,是當今世界實現從數據—有用信息—預測的全新思路,是當前關于數據如何采集、存貯、管理、如何數據挖掘,實現更高效預測、獲得更高價值的一整套技術方案。因此,大數據是涵蓋大數據特征、大數據技術、大數據應用等技術內涵的全新理念 (將來有可能形成大數據理論)。所以,認識大數據不能簡單地等同于開放數據,等同于共享數據;也不能簡單地將大數據等同于海量數據,因為大數據不僅數量上比海量數據更大、更復雜,而且還包含數據量不斷增長的狀態、以及從數據中挖掘出有價值信息的各種技術。
大數據理念無不對各行各業的技術創新產生重大而深遠的影響,指導各行各業突破新算法、新技術,形成新學科,從而挖掘巨大的新價值,為實現國家、企業更高的經濟效益、社會效益、軍事效益提供了新機遇。2015年國務院印發的 《促進大數據發展行動綱要》提出各行各業要探索大數據應用新的模式,圍繞有數據、用數據、管數據,開展先行先試,更好地服務國家大數據發展戰略[8]。鈾資源勘查作為國家安全和經濟發展過程中有著特殊地位的地質礦產勘查領域,需要在大數據理念指導下,開展鈾資源勘查技術創新,逐步形成大數據理念下的鈾資源勘查新技術方法體系,從而實現更快更好的鈾資源勘查效果和找礦突破,為國家安全戰略和經濟發展提供重要支持。
鈾資源勘查大數據是地質大數據的重要組成部分,是大數據理念與技術方法在鈾資源勘查領域的具體實踐與應用,是 “經過新技術處理和數據挖掘,可在鈾成礦規律和找礦預測獲得更強發現力和決策力的巨量鈾礦地質信息資產”。它既具有國內外一般大數據的特點,又具有鈾資源勘查的特色。
鈾資源勘查大數據中的數據是通過各種鈾礦勘查技術手段獲取的直接或間接反映鈾成礦信息或鈾成礦過程的各種數據。它具有一般大數據的4V特征:1)規模性:鈾資源勘查涉及不同比例尺、不同精度的時空數據,總量巨大。從前述提及的 “無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理”[3]這一點來說,恐怕是不言而喻的。當前,全國鈾成礦單元有4個成礦域,11個成礦省,49個成礦區帶,共有近300多個鈾礦床,上萬個鈾礦異常點[9]。從鈾資源勘查大數據之一的遙感數據來看,其數據量就很大。一景空間分辨率4 m的國產高分二號多光譜數據達400 Mb、一景空間分辨率為1 m的國產高分全色波段數據達1.5 Gb;一個覆蓋20 km×1.5 km面積的空間分辨率為2.5 m、波段數為64的航空高光譜數據量達3 Gb。2)多樣性:鈾資源勘查數據包括地質觀測數據、地球信息探測數據、實驗測試數據等多種類數據。具體類型上有:遙感探測數據、地球物理測量數據、地球化學測量數據、地質礦產調查數據、實驗測試數據、地質鉆探數據、地質綜合編圖數據等。數據空間分布上涉及地球地表至地下深部的各個圈層;數據結構上,鈾資源勘查大數據包括各種格式的矢量和柵格圖件、文檔、照片、視頻數據等、以及關系數據庫、空間數據庫和對象關系數據庫中的數據,其中既有大量結構化數據,也有許多半結構化、非結構化數據,如野外露頭描述數據、鉆孔巖心描述數據和各種地質調查、勘查報告,以及大量地質圖件、素描和照片等。3)價值性:鈾資源勘查各種數據雖然小而碎、有的單個信息價值低,但通過數據分析和數據挖掘,可以發現重要找礦信息,獲得高價值。例如通過對航空高光譜遙感數據識別出來的大量礦物填圖信息與礦化信息的綜合分析和數據挖掘,可以發現鈾、金、銅等重要找礦新線索,從而獲得高的經濟價值。4)高速性:鈾資源勘查領域的數據采集通過遙感探測、地質調查、物化探測量、鉆探施工、化學分析、人工記錄等多種技術手段和科學探測、實驗測試方法進行,具有數據采集快速的特點。最突出的是利用衛星、航空等探測技術手段,快速獲取高空間、高光譜分辨率的遙感信息、高精度的航空放射性等地球物理信息等。當然,鈾資源勘查大數據中,野外實測的 “實體” 數據(都是原始數據,不是 “加工”之后的數據)的比重遠比網絡世界中通過各種各樣模型計算出來或自動記錄的數據比重更大。這一定程度上與商業上的大數據的高速性有一定的差異,這是由于地質工作注重野外實踐、注重第一手資料采集、以及專業規范管理等特點決定的。
除具有上述一般大數據的4V特征外,鈾資源勘查大數據還具有數據密集型的地質時空大數據特點[10]。具體表現在:1)鈾資源勘查地質大數據的時空屬性。鈾礦地質學研究的對象與采集的數據具有空間屬性,同時更具有特定的時間性,因為鈾礦地質數據都與地質年代相關聯,不同地質時代和不同地區的巖石、地層、礦床等具有不同的分布特征和規律;2)鈾資源勘查地質大數據的多源、異構、時空性、相關性、隨機性、模糊性和非線性等特征。由于鈾礦地質對象影響因素眾多,空間特征復雜,鈾資源勘查大數據存在著 “參數信息不完全、結構信息不完全、關系信息不完全和演化信息不完全”[11]的狀況,顯示出數據隨時空變遷而數據特征各異、多類、多維、多量、多尺度、多時態等特征;3)鈾資源勘查地質大數據還有因果性與非因果性的特點。此外,從鈾資源勘查大數據的技術特點來看,在數據采集、數據處理、數據挖掘和知識發現等技術方法上也與社會生活和商業活動大數據存在顯著差異;在應用實踐方面,鈾資源勘查大數據主要是為鈾礦地質領域的鈾資源勘查、鈾成礦規律研究、鈾礦勘查管理與決策、以及其他相關應用服務。
如前所說,大數據是一場信息技術革命的新階段。它的出現并存在,代表一個信息時代、一種思維方式和技術模型。這種新思維方式和新技術模型所處理的數據集合 “不是隨機樣本,而是全體數據”,所容許的數據品質 “不是精確性,而是混雜性”,所揭示的數據內涵 “不一定是因果關系,而可能是相關關系”。這三個特點是長期困擾鈾礦地質進行成礦預測、評價、管理、決策等的難題和難點。大數據理論、方法和技術的引進,對于突破采樣隨機性和樣品空間狹小、大量良莠難分的非結構化和半結構化數據無法利用,以及可靠的作用機理、因果關系和動力學模型缺乏,僅憑少量觀測數據和固有模式進行判斷、 預測等限制, 無疑有極大的好處[10]。所以,大數據理念無疑對地質礦產領域的技術創新提供了更加全面的 “樣本”和方法指導,將在促進鈾礦地質技術進步和找礦突破方面產生重要而深遠的影響。
當前,鈾資源勘查領域對時空數據的存貯、管理、分析,主要是基于Mapgis、Arcgis等GIS平臺進行的。這些GIS平臺多依賴于技術提供商,無法滿足大數據條件下的鈾資源勘查應用,需要研究開源大數據框架。同時,如前所述,大數據技術是一整套技術體系,沒有一種體系架構能完美解決所有大數據問題,需要根據實際的應用進行研究和開發。因此,在構建大數據應用環境時,應采用開放式體系結構的混合平臺。據此,為了充分發揮鈾資源勘查地質大數據的作用,使其適應分布式計算和高性能計算為主的大數據環境,從鈾資源勘查大數據的特點出發,結合一般大數據技術的優勢,鈾資源勘查大數據技術研究可采取如下框架思路(圖1):一是借鑒并采用一般大數據技術[10],二是研發和改進適用鈾礦地質的專業大數據技術。下面重點介紹借鑒并采用一般大數據技術來創新研究鈾資源勘查大數據技術的思路。
借鑒并采用的一般大數據技術主要有:大數據的存儲管理體系架構和分析處理體系架構,大規模并行處理、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統等。
2.1.1 Hadoop大數據處理軟件框架
Hadoop是當前大數據應用最廣泛的開源分布式文件存儲系統及并行處理框架[12]其最核心模塊包括Hadoop核心模塊、HDFS與MapReduce[13]。 HDFS (Hadoop Distributed File System)是一種高可用、易擴展、高性能且容錯性強的分布式文件存儲系統,其設計本質上是為了大量的數據能夠橫跨成百上千臺機器,但是你看到的是一個文件系統而不是很多文件,從而為分布式計算存儲提供了底層支持。采用JAVA語言開發,可以部署在多種普通的廉價機器上,以集群處理數量積達到大型主機處理性能。Hbase是基于HDFS的分布式列簇存儲數據庫,適用于處理半結構化和結構化數據。Hadoop軟件架構為大數據處理提供了強大的基礎平臺和工具。通過這個平臺和工具,從數據采集→數據預處理→數據存貯管理→數據分析/挖掘→結果展現的整個大數據處理流程的每個環節都有相應的工具支持(圖 2)[14]。

圖1 鈾資源勘查大數據技術研究框架思路(據文獻[10]修改)Fig.1 The study framework idea of Big Data technology for uranium resource exploration (Modified after[10])

圖2 大數據平臺處理流程(引自文獻[14])Fig.2 Process flowchart of Big Data platform (After [14])
2.1.2 基于一般大數據技術的技術改造
Hadoop為鈾資源勘查大數據技術研究提供了強大的一般大數據技術支持。以Hadoop一般大數據技術為基礎,可以對鈾礦地質領域數據采集方法、數據預處理方法,數據存貯管理方法、數據挖掘方法,數據可視化方法進行改造。改造過程主要是從任務分解、數據分解、以及數據流分解角度,改造各種技術,以適當大數據環境,形成鈾資源勘查大數據技術。
1)鈾資源勘查數據采集方法。包括數據收集、遙感探測、物探測量、化探測量、水文調查、地質調查、鉆孔勘探、以及其他測量。對這些方法,可以在增加批處理功能、自動采集、實時增加等功能。
2)鈾資源勘查數據預處理方法。主要有數據清洗、數據轉換、數據解析、數據離散等。對這些方法改造,可以增加數據自動檢查、批處理、自動數據解析處理、自動數據離散化處理等。
3)鈾資源勘查數據存貯管理。為了保證大數據量、不同結構數據的存貯和大數據讀取、寫入的快速性,數據存貯管理需要在大數據技術軟件框架下,利用不同數據模型進行數據存貯管理,以滿足不同應用需求。在鈾礦勘查領域,大數據類型多樣、數據量巨大,不僅涉及結構化、半結構化數據,而且涉及非結構化數據,而且非結構化數據中還涉及文字、圖件、視頻、模型等。雖然結構化數據可依靠關系型數據庫來存貯,但當數據結構變化太復雜時,TB級數據處理速度緩慢;對于非結構化數據,雖然文件系統是主流的存儲選擇,但是在存取、索引及元數據管理上不是最優。NoSQL非關系型數據庫,既能支持靈活的結構和非結構化數據,又能在大數據體量下有更好的可擴展性。同時文件系統也得到了發展,與對象存儲相映生輝,能更好地支持管理與分析。正因為NoSQL的技術優勢,才成為了大數據條件下數據存貯管理的主要技術之一。當前,NoSQL種類很多,但最主要有Hbase、MongoDB、Cassandra等三種[13]。Hbase正是Hadoop大數據框架中用于數據存貯管理的數據庫技術,因此,將Hadoop大數據技術和其他NoSQL非關系型數據庫的緊密結合,可以更好地滿足鈾礦勘查領域巨量、多樣等數據存貯與快速讀寫需要。
4)鈾資源勘查數據挖掘技術。鈾資源勘查大數據挖掘技術是鈾資源勘查大數據技術研究中最重要方面。其內涵是:在鈾礦地質時空數據庫和數據倉庫的基礎上,利用統計學、模式識別、人工智能、集合論、模糊數學、云理論、機器學習、可視化等相關技術和方法,以及各種相關信息技術手段,從海量多類多層次的時空數據、屬性數據中提取未知的、有用的和可理解的可靠知識,從而揭示出蘊含在鈾礦地質科學大數據背后的相關關系和演化趨勢,實現新知識的自動或半自動獲取,為鈾資源勘查預測、發現和評價提供依據。當前,對可用于地質科學大數據挖掘的常用方法主要有基于概率論的數據挖掘方法,基于擴展集合論的數據挖掘方法,基于仿生學的數據挖掘方法,文本數據的挖掘方法,以及可視化法等[10]。其中,基于概率論的數據挖掘方法是最常用的方法,如回歸分析法、因子分析法、判別分析法、聚類分析法、證據權重法、趨勢分析法、時間序列法,以及克立格分析法等。而諸如模糊數學、粗糙集理論和云模型等基于擴展集合論的數據挖掘方法,人工神經網絡法、蟻群算法和演化算法等基于仿生學的數據挖掘方法對復雜地質信息的挖掘很有前景和價值,是需要研究的重要的數據挖掘新方法。同時,文本數據挖掘方法是以非結構化或半結構化的文本數據為對象的挖掘方法,當前研究還不多,也是地質大數據挖掘中非常關鍵的技術方法。在 Hadoop框架下的 MapReduce、Pig、 Hive、 Mahout、 Graphx等技術支持下,對上述地質科學大數據中的各種數據挖掘方法進行改造,可以創新形成鈾資源勘查大數據挖掘技術。
5)鈾資源勘查數據可視化。在鈾資源勘查過程中,常常需要對地質現象和地質過程進行分析和地質礦產資源預測評價。在分析和評價過程中,對于大量的不確定因素,要依靠研究人員本身的知識和經驗進行定性理解、定量估算和關系描述。從數學邏輯角度看,這是一種半結構化或不良結構化甚至非結構化問題,而數據可視化正是描述、表達和理解各種半結構化甚至非結構化問題的關系和模型的最佳方法和手段[10]。因此,數據可視化是鈾資源勘查大數據技術研究中的重要研究內容。當前,地質領域,地質時空數據可視化從應用角度可分為表達三維可視化、分析三維可視化、過程三維可視化、設計三維可視化和決策三維可視化等五類[15]。鈾資源勘查大數據可視化技術,除對表達三維可視化、分析三維可視化進行改造外,要更加重視大數據條件下的過程三維可視化、設計三維可視化和決策三維可視化技術進行研究,為鈾資源勘查大數據挖掘提供更多技術支持。
針對鈾資源勘查大數據特點及研究框架思路,鈾資源勘查大數據技術研究的關鍵問題主要有:
在鈾礦地質勘查過程中,獲取數據的手段多樣、條件各異。因此,總是存在一些數據質量參差不齊的情況。如果這些質量參差不齊的數據統統進入數據庫或數據存貯管理系統,將對有用信息造成嚴重的干擾,從而影響后期數據挖掘的效率和精準度,進而影響鈾成礦預測、鈾成礦規律等數據挖掘結果的可靠性和價值。因此,數據清洗技術是鈾礦勘查大數據技術研究中最首要關鍵技術。這一技術主要是對各種鈾礦勘查數據進行清洗,包括消除重復數據、消除噪聲、遺漏數據處理、數據類型轉換、連續數據的離散化、空值的替代、數據子集的隨機抽取等,從而把數據處理成適合于數據挖掘的形式,并在數據選擇的基礎上對挖掘數據作進一步的約簡處理,以減少內存資源和處理時間,使挖掘更有效。
為了研究鈾成礦作用、成礦機理和成礦預測,需要對研究區地上和地下等具有不同時空特點和屬性特點數據的一體化采集、存儲、管理和處理,以便從系統的角度,進行各種分析;同時,由于地質體、地質結構和地質過程的極端復雜性、不可見性和數據采集的抽樣方式,導致出現前述的 “結構信息不全、關系信息不全、參數信息不全、演化信息不全”的狀況,從而需要對地質數據進行三維、動態的可視化建模,以便形象、直觀地感知地質對象并提高認知能力和水平。所以,研究和開發能夠有效支持結構化、半結構化和非結構化數據一體化、靜態數據與動態數據一體化的鈾礦地質多屬性、多態數據一體化存貯管理技術,就顯得十分的必要和重要。因為,這一存貯管理技術為實現地質數據的三維動態可視化提供重要支持。
為了實現鈾礦地質大數據的高效管理、調度和應用,還需要發展完善的高效時空索引技術。但在目前的時空數據庫中,通常缺失并行時空索引的一體化與時空索引結構并行化,嚴重阻礙了大數據時代時空數據庫中分布式并行緩存機制、并行預調度與調度機制、四維時空數據快速檢索調度、大規模時空分析等一系列瓶頸問題的有效解決。因此,在鈾礦勘查大數據技術研究中,探索研究和開發時空索引分布式和并行化一體的時空并行分布檢索技術,就顯得十分關鍵和重要。從技術上看,國內外提出的分布式并行時空索引(DPSI)多層次理論架構和基于間隔關系算子的并行時空索引(IPSI)方法,突破了高維度下樹形索引層次結構的局限性,實現了主從模式下的分布式并行時空索引(MSDPSI),以及對等模式下的分布式并行時空索引(PPDPSI)。這些成果顯著提升了分布式并行計算環境下的數據并行時空索引性能,能夠為鈾礦地質大數據時空并行分布索引技術的研究提供重要技術支持。
鈾成礦預測是研究鈾資源勘查大數據技術的最重要目標。因此,基于鈾資源勘查大數據的成礦預測技術是重要的關鍵技術。國內有不少學者提出了大數據下礦產資源預測思路[16-17]。當前的鈾礦預測方法,無論是定性或定量方法,大多是根據典型礦床的勘探資料,從成礦規律研究揭示的因果關系理論出發,抽提出若干個特征性的 “找礦標志”,形成一種 “成因模型”或 “成礦模式”,然后用這種 “模型”進行礦床預測。這種方法一開始是行之有效的。但是,隨著淺表的、易于發現的礦床陸續被找到后,這些 “成因模型”的局限性也逐步顯露出來[10]。利用這種 “成因模型”在已知礦床范圍及外圍進行就礦找礦是有效的,但在廣闊的未知區找礦,這種方法有時顯得無從下手。在這種情況下,追求 “相關關系”而不是追求 “因果關系”的礦床統計預測方法[17]、 多重分析預測方法[18]又被不少研究者所重視。不同物質之間存在著各種各樣的相關關系,因果關系只是相關關系中的一種,不是只有因果關系才重要[19],有時除因果關系之外的其他相關關系也很重要;通過其他相關關系的研究和發現也能產生價值。面對找礦的新領域、新類型和新深度,可用于建模的相關知識更加有限,為了發現新的知識,認識新的成礦規律,我們需要使用的是全部的原始記錄數據,而不是人為抽取的少量特征數據。所以,大數據應用中,因果分析和相關分析都十分重要[19]。鈾成礦預測不僅要對 “成因模型”或 “成礦模式”等因果關系加強創新研究,更要充分吸收模糊數學、粗糙集理論、云模型、人工神經網絡法、蟻群算法等數據挖掘新方法,從鈾資源勘查取得的原始記錄數據出發,創新研究基于相關分析的鈾資源勘查找礦預測新技術。這是鈾礦勘查領域大數據技術研究的關鍵之關鍵。
大數據的一個重要特點是非結構化數據越來越重要。在鈾礦勘查領域,以往的鈾成礦規律分析和成礦預測也主要是利用結構化數據。對描述性的非結構化數據,通常只從中提取少量的 “特征參數”,并由此建立各種認知模式進行判斷和預測,非結構化數據的利用很不充分。在大數據理念下,如何利用以非結構化或半結構化的文本數據,進行數據挖掘,發現新知識,提取新規律,為提高鈾資源勘查效果是鈾資源勘查大數據技術研究中非常重要的問題。因此,鈾礦勘查文本數據挖掘技術研究,對鈾資源勘查大數據研究非常重要且關鍵。
鈾礦地質數據可視化技術是鈾資源勘查大數據應用中的重要關鍵技術之一。從應用角度出發,鈾資源勘查數據可視化可分為表達三維可視化、分析三維可視化、過程三維可視化、設計三維可視化和決策三維可視化五類[15]。表達可視化是以圖形或圖像形式在屏幕或其他介質上顯示出來,大多數可視化屬于這種類型;分析可視化是在可視化環境中進行的各種地質空間決策分析,是空間決策支持認知過程可視化的核心,主要是借助GIS功能開展的,也是鈾礦地質勘查中研究較多的可視化;過程可視化是指在體三維環境中,開展各種地質過程的可視化動態模擬,以及地質作用的可視化虛擬仿真,是使三維靜態地質模型轉變為四維動態地質模型的關鍵步驟[15],鈾礦地質研究中,可視化虛擬仿真,就是要實現鈾成礦過程或作用的三維至四維的仿真模擬,這方面研究還很少或剛開始,加強這方面研究,對鈾成礦理論創新具有重要的技術支持作用;設計可視化是在體三維可視化環境中進行各種地質工程設計;決策可視化是在體三維乃至四維可視化環境中,進行礦產資源潛力或成礦地質條件評價、礦產資源勘查、開發等多方案比較、選優與制定,是鈾資源三維定型、定深、定量預測的關鍵技術。總之,只有實現了上述各種可視化,才能夠進行更好地進行鈾資源勘查大數據挖掘。因此,需要努力創新研究與攻關。
鈾資源勘查地質云(鈾礦地質云)平臺構建,是鈾資源勘查大數據技術應用的目標之一,也是鈾資源勘查領域進行大數據應用的重要支持平臺。它是充分利用地質、礦產、地球物理、地球化學、遙感、水文、環境、災害、地形、地貌等各種地質調查數據,在研發的各種大數據技術支持下,通過數據采集、數據傳輸、信息提取、數據挖掘、知識發現等手段,構建的基于鈾礦地質大數據的云平臺。利用這個平臺,實現從鈾礦地質數據到信息、信息到知識、知識到智慧的數據開發與信息轉換,服務于鈾資源預測評價、鈾礦地質基礎研究、鈾礦勘查項目管理、鈾礦勘查決策、以及其他需要的應用。鈾資源勘查地質云平臺的構建,使得鈾礦地質專業人才不需太關注內部計算架構就能通過瀏覽器或者應用程序界面,提交計算任務或者服務請求,從而大大增加鈾礦地質數據的使用效率,使鈾礦地質數據攜帶的信息在相關應用領域創造更多價值。
在地質領域,大數據應用已開展了一些研究,如中國地質調查局已開展了 “地質云”建設[20-23],并在 “地質云”平臺的框架下,初步形成了地質調查信息服務集群體系,以充分利用大數據技術服務國家地質公益事業。同時,中國地質調查局已經開始從大數據的角度對典型礦床、重要礦種的潛力評價開展試點示范[24-25]。在核地質系統,現已有一些項目開始涉及大數據技術研究,一些學者也在思考了大數據時代下的鈾礦勘查數字化發展[26]。然而,由于鈾資源對國家安全和能源的戰略地位、以及資料保密等原因,鈾資源勘查領域各種數據的存儲、共享、復用等還停留在較低水平,鈾資源勘查大數據應用研究也才剛剛開始。
大數據應用是一個長期的系統工程,不是一蹴而就的,而是逐步實現的。因此,應本著 “立足現實,著眼未來”和 “從長遠和全局著眼,從當前和局部入手”的基本原則進行大數據技術研究和應用。針對鈾資源勘查領域的特殊性,鈾資源勘查大數據技術研究與應用可分步分階段來實施。
第一階段 (2016—2020),全面理解和分析大數據內涵,建立完整的鈾資源勘查大數據應用技術體系與技術發展路線圖,初步突破鈾資源勘查大數據存貯管理技術、用于成礦預測的數據挖掘新技術等關鍵技術,取得鈾資源勘查大數據技術的階段重要進展;第二階段 (2021—2025),構建局域網環境下的鈾資源勘查大數據應用平臺 (鈾礦地質云),突破完全適合于大數據環境下的分布式計算、分布式數據挖掘、數據可視化等關鍵技術,實現鈾資源勘查大數據應用示范;第三階段(2026—2030)系統完善鈾資源勘查大數據應用平臺,進一步突破智能找礦預測、智能資源評價、三維-四維可視化等關鍵技術,全面實施鈾資源勘查大數據戰略,并積極向其他領域拓展,促進核地質行業走向真正的大數據時代。
大數據研究和應用是一個系統工程,不同行業不同學者對大數據的理解和認識不一[27],從而影響大數據應用實施的決策。對鈾資源勘查領域來說,大數據應用不只是部分科研人員需要思考的問題,也是管理者、決策者需要考慮的問題。通過加強技術研討,使核地質行業對大數據及大數據應用實施的理解有一個比較清晰、相對統一的認識,從而加強頂層設計和項目規劃,項目落實,使鈾資源勘查大數據應用研究能夠有計劃、有步驟的實施。同時,在頂層設計的基礎上,需要圍繞鈾資源勘查及相關應用急需,有針對性地開展重點研究,取得關鍵點上的技術突破。
大數據技術體系中包括許多新技術新方法,尤其是在信息挖掘和找礦預測方面更是如此。大數據使精細刻畫成為了可能,使“智能學習”變成了可能[28],要加強大數據與人工智能的結合[29-30],使鈾資源勘查大數據技術研究實現從一般的大數據應用,升級為高度智能化和自主化的系統,創建真正能自主決策、自主行動的智能系統。
在預研、核能開發、集團自主研發費、地勘費等不同渠道項目中,增加鈾資源勘查大數據技術研究經費,從不同項目渠道的特點出發,對鈾資源勘查大數據技術體系中的不同關鍵技術、軟件、硬件進行研究和開發,形成鈾資源勘查大數據技術研究相對穩定的經費投入,促進核地質系統鈾資源勘查大數據技術的穩步創新發展和技術突破,并早日進入大數據應用時代。
每個行業的大數據應用都是一個系統工程,涉及多個學科和多種技術,尤其是計算機、數據庫、數據挖掘、數據可視化等技術。相對來說,這些技術是核地質領域人才的弱項。因此,需要加強這方面人才的引進和青年骨干人才有針對性的持續培養,為真正實施鈾資源勘查大數據應用提供人才基礎。
相對核地質領域,其他領域的大數據應用研究開始相對更早些,國際上也比國內要早些。因此,需要加強國內外的交流、行業間交流,學習別人的經驗及技術,為更好地實施鈾資源勘查大數據服務。
1)認識大數據的內涵,應該從數據、技術、應用三個層面來全面理解。它不是單純的數據概念,而是巨量數據與一系列新技術的結合,是當今世界實現數據—有用信息—預測的全新思路。因此,大數據是涵蓋大數據特征、大數據技術、大數據應用等技術內涵的全新理念。
2)鈾資源勘查大數據不僅具有一般大數據的4V特征,還具有數據密集型的地質時空大數據特點。主要表現在鈾資源勘查地質大數據的時空屬性、鈾資源勘查地質大數據的多元(源)、異構、時空性、相關性、隨機性、模糊性和非線性、以及鈾資源勘查地質大數據的因果性與非因果性特點等。
3)鈾資源勘查大數據技術研究可采取的框架思路包括:一是借鑒并采用一般大數據技術,二是研發和改進適用于鈾礦地質的專業大數據技術。鈾資源勘查大數據技術研究的關鍵問題主要有:鈾礦地質大數據清洗技術、鈾礦地質多屬性多態數據一體化存貯管理技術、鈾礦地質大數據時空并行分布檢索技術、基于鈾資源勘查大數據的成礦預測技術、鈾礦勘查文本數據挖掘技術、基于大數據技術的鈾成礦過程實時仿真模擬技術、以及鈾資源勘查地質云平臺構建等。
4)大數據應用是一個長期的系統工程,不是一蹴而就的,而是逐步實現的。針對鈾資源勘查領域的特殊性,鈾資源勘查大數據技術研究與應用應分步分階段來實施。同時,為了加快核地質系統大數據技術研究,應加強頂層設計、經費投入、人才培養、以及技術交流等。