摘要:現(xiàn)今已進入了“大數(shù)據(jù)”時代,人們的生活工作中每天都產(chǎn)生著大量的數(shù)據(jù)信息,如何對這些海量的數(shù)據(jù)進行數(shù)據(jù)挖掘、提煉出有價值的信息已經(jīng)成為了一個重要的課題。本文主要敘述了大數(shù)據(jù)的發(fā)展歷史,淺析了大數(shù)據(jù)背景下數(shù)據(jù)挖掘的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;統(tǒng)計;建模
中圖分類號:TP311.13文獻標識碼:A文章編號:1674-7712 (2014) 08-0000-01
一、前言
“大數(shù)據(jù)”一詞近年來頻繁的出現(xiàn)于各種場合,從耳目一新到萬眾矚目仿佛是一夜間的事情。
所謂大數(shù)據(jù),顧名思義是大量的數(shù)據(jù),一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。其同時具備數(shù)據(jù)量大、數(shù)據(jù)種類繁多、價值密度低、處理速度快等特點?!都~約時報》曾在2012年的一篇專欄中稱“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而做出,而并非基于經(jīng)驗和直覺。即經(jīng)過對海量數(shù)據(jù)的整合和數(shù)據(jù)挖掘,使其巨大的價值得以體現(xiàn)。
二、大數(shù)據(jù)的發(fā)展及特點
(一)大數(shù)據(jù)的興起
早在1980年,著名的未來學家托夫勒在其所著的《第三次浪潮》中第一次提出“大數(shù)據(jù)”的概念,稱其為“第三次浪潮的華彩樂章”。《自然》雜志在2008年推出了名為“大數(shù)據(jù)”的封面專欄,把“大數(shù)據(jù)”一次帶到公眾面前,在接下來的一年里開始成為互聯(lián)網(wǎng)及相關(guān)行業(yè)中的熱門詞匯。[1]
在2011年,麥肯錫公司首先開始挖掘“大數(shù)據(jù)”的商用價值,發(fā)布了有關(guān)“大數(shù)據(jù)”的商業(yè)報告并引起各行各業(yè)的關(guān)注。然而此時“大數(shù)據(jù)”更多的還停留在概念上,直到有了“云計算”和“云存儲”技術(shù)后,“大數(shù)據(jù)”有了運行的軌道,從而真正的凸顯其應(yīng)用價值。
(二)大數(shù)據(jù)的數(shù)量大,價值密度低
根據(jù)統(tǒng)計,現(xiàn)在《紐約時報》一周的信息量比18世紀一個人一生所收到的資訊量更大,現(xiàn)在18個月產(chǎn)生的信息比過去5000年的總和更多,我們生活于龐大的信息數(shù)據(jù)中,這是古時只使用簡單結(jié)繩計數(shù)法的人們所無法想象的。
大數(shù)據(jù)的數(shù)量很大,增長速度很快,品種很多,價值密度卻很低,其中有很多垃圾數(shù)據(jù)??茖W研究的正負電子對撞機,已經(jīng)能夠每秒拍攝4000萬張照片,可是其中只有幾千張照片有用。羅馬尼亞互聯(lián)網(wǎng)安全公司比特梵德(BitDefender)指出,社交網(wǎng)絡(luò)游戲中的垃圾信息和“釣魚信息”數(shù)量增加了50%以上。相對于其他在線通訊環(huán)境,社交網(wǎng)絡(luò)用戶更易在不知不覺中接受、加載垃圾信息。大數(shù)據(jù)與應(yīng)用密切相關(guān),數(shù)據(jù)的專業(yè)標注是理性分析和合理判斷的基本目標。據(jù)IDC統(tǒng)計,在2012年的所有信息中,只有23%有用,其中又只有3%的潛在有用信息被標注,被分析的比例更少。隨著現(xiàn)代測量方法和數(shù)字記錄方法的發(fā)展,面對所獲得的龐大信息,老的、人工的、經(jīng)驗的分析和剔除數(shù)據(jù)垃圾的方法變得愈來愈無能為力了[2]。
三、大數(shù)據(jù)背景下的數(shù)據(jù)挖掘
面對著海量數(shù)據(jù)的低利用率,相對于關(guān)注數(shù)據(jù)本身,我們更關(guān)注如何提煉出有用數(shù)據(jù)的方法,這就要對海量數(shù)據(jù)進行深度的數(shù)據(jù)挖掘。
在計算機和互聯(lián)網(wǎng)興起以前,我們對數(shù)據(jù)的利用僅僅是紙面簡單的歸類與檢索。在計算機和互聯(lián)網(wǎng)廣泛應(yīng)用后,隨著各種數(shù)據(jù)庫和檢索技術(shù)的成熟,數(shù)據(jù)的類別歸屬更為精細,檢索也更為快速,然而仍停留在對關(guān)鍵數(shù)據(jù)的查詢利用上,更多的數(shù)據(jù)被視為無意義或者垃圾數(shù)據(jù)并沒有加以利用。在擁有大容量存儲和高性能計算技術(shù)的今天,更智能化的數(shù)據(jù)分析與挖掘?qū)⑻岣邤?shù)據(jù)的利用率,體現(xiàn)出這些紛雜數(shù)據(jù)的真正價值。例如“尿布與啤酒”的經(jīng)典案例,正是對關(guān)聯(lián)數(shù)據(jù)進行了智能化的分析總結(jié),才將這兩個仿佛毫無關(guān)聯(lián)性的商品擺到了一起從而增加了各自的銷量。
數(shù)據(jù)挖掘(Data Mining,DM),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,所謂數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。一般來說,數(shù)據(jù)挖掘的步驟如下:
(1)理解數(shù)據(jù)和數(shù)據(jù)的來源(understanding)。
(2)獲取相關(guān)知識與技術(shù)(acquisition)。
(3)整合與檢查數(shù)據(jù)(integration and checking)。
(4)去除錯誤或不一致的數(shù)據(jù)(data cleaning)。
(5)建立模型和假設(shè)(model and hypothesis development)。
(6)實際數(shù)據(jù)挖掘工作(data mining)。
(7)測試和驗證挖掘結(jié)果(testing and verification)。
(8)解釋和應(yīng)用(interpretation and use)。
傳統(tǒng)的數(shù)據(jù)挖掘更傾向于對代碼和算法的編輯,作為面對大數(shù)據(jù)的數(shù)據(jù)挖掘,絕非僅僅停留在對數(shù)據(jù)進行統(tǒng)計分類的層面,更需要智能化的分析,因此需要建立完善的發(fā)現(xiàn)模型。通過建立模型,以模型來指導算法,發(fā)掘數(shù)據(jù),再以結(jié)果來修改模型,反復進行這個過程以達到模型與算法的平衡。因此,數(shù)學建模是知識發(fā)現(xiàn)的關(guān)鍵,只有通過基于數(shù)據(jù)挖掘過程的數(shù)學建模,才能深層了解具有潛在數(shù)據(jù)關(guān)系的內(nèi)在變化規(guī)律。
四、結(jié)束語
大數(shù)據(jù)是互聯(lián)網(wǎng)深入發(fā)展的核心內(nèi)容,如何利用數(shù)據(jù)挖掘技術(shù)處理龐大的數(shù)據(jù)在這個時代已成為了互聯(lián)網(wǎng)深入發(fā)展的關(guān)鍵。隨著技術(shù)的發(fā)展,對挖掘模型的建立、驗證與完善,最終會利用繁雜的數(shù)據(jù)建立起人工智能的信息時代。
參考文獻:
[1]維克托#8226;邁爾-舍爾維恩,肯尼斯#8226;庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
[2]王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學研究院學報,2013(02).