胡啟成 葉為民② 王 瓊 陳永貴
(①同濟(jì)大學(xué)巖土及地下工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 200092,中國(guó))(②教育部城市環(huán)境與可持續(xù)發(fā)展聯(lián)合研究中心,上海 200092,中國(guó))
2008年,Google推出了GFT(Google Flu Trends),利用Google搜索引擎,根據(jù)人們鍵入的搜索關(guān)鍵詞的頻數(shù)預(yù)測(cè)流感,經(jīng)與美國(guó)疾病控制和預(yù)防中心監(jiān)控報(bào)告相關(guān)書(shū)籍的多次比對(duì),證實(shí)了預(yù)測(cè)結(jié)果與實(shí)測(cè)值之間存在很大的相關(guān)性(Laser et al.,2014)。這意味著,利用大量數(shù)據(jù)的相關(guān)性解決部分問(wèn)題成為可能。與此同時(shí),根據(jù)搜集到的用戶信息,大數(shù)據(jù)推薦系統(tǒng)可向用戶推送專屬、感興趣的片段信息(朱揚(yáng)勇等, 2015),如購(gòu)物軟件的商品推薦系統(tǒng),音樂(lè)軟件的歌曲推薦系統(tǒng),導(dǎo)航軟件的交通流量預(yù)測(cè)等等,大數(shù)據(jù)已經(jīng)滲透進(jìn)人們生活的方方面面。
長(zhǎng)期以來(lái),地質(zhì)學(xué)科積累有大量的文本、圖像和序列數(shù)據(jù),借助大數(shù)據(jù)手段開(kāi)展地質(zhì)數(shù)據(jù)在科研和商業(yè)上的應(yīng)用研究,具有極其重要的理論與社會(huì)意義。2017年11月,“地質(zhì)云1.0”上線運(yùn)行,實(shí)現(xiàn)了地質(zhì)調(diào)查數(shù)據(jù)共享; 2018年10月18日,“地質(zhì)云2.0”在2018中國(guó)國(guó)際礦產(chǎn)大會(huì)上正式上線,我國(guó)的地質(zhì)數(shù)據(jù)共享工作正在有序推進(jìn)。
地質(zhì)大數(shù)據(jù)一般包括序列數(shù)據(jù)、文本數(shù)據(jù)及圖像數(shù)據(jù)。其開(kāi)發(fā)利用過(guò)程一般包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練和結(jié)果評(píng)價(jià)等5個(gè)步驟。其中,模型構(gòu)建是地質(zhì)大數(shù)據(jù)挖掘的關(guān)鍵。
地質(zhì)數(shù)據(jù)挖掘的發(fā)展主要取決于大數(shù)據(jù)挖掘技術(shù)的進(jìn)步。初期主要依賴于傳統(tǒng)的機(jī)器學(xué)習(xí)、模式識(shí)別等方法,如Bhattacharya et al.(2006)利用決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)算法,將靜力觸探試驗(yàn)測(cè)得的錐尖阻力和側(cè)壁摩阻力生成圖像,再利用CONCC算法進(jìn)行分割,并針對(duì)分割塊進(jìn)行土性分類。……