□趙 慧 王曉燕
云計算(Cloud Computing)是基于互聯(lián)網(wǎng)的相關(guān)服務的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡、互聯(lián)網(wǎng)的一種比喻說法。云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預測氣候變化和市場發(fā)展趨勢。用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算。
對于到底什么是云計算,至少可以找到100種解釋。現(xiàn)階段廣為接受的是美國國家標準與技術(shù)研究院(NIST)定義:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡訪問,進入可配置的計算資源共享池(資源包括網(wǎng)絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。
(一)云計算具有的特點。一是超大規(guī)模。云計算的超大規(guī)模能賦予用戶強大的計算能力。二是虛擬化。可以支持用戶在任意位置使用各種終端獲取服務。三是高可靠性。使用了計算節(jié)點同構(gòu)可互換等措施來保障服務的高可靠性。四是通用性。可以支撐不同的應用同時運作。五是高可伸縮性。可以滿足應用和用戶規(guī)模增長的需要動態(tài)伸縮。六是按需服務。用戶按需購買“云”中的資源,按量計費。七是高性價比。
(二)云計算的分類。一些研究專家把云計算分為三類:一是公有云。由第三方提供者為用戶提供的共享的資源和服務,但用戶并不擁有云計算的資源。二是私有云。單獨客戶專用的云計算平臺,因而提供對數(shù)據(jù)、安全性和服務質(zhì)量的最有效控制;具有軟硬件資源利用率高、數(shù)據(jù)安全、質(zhì)量可靠等優(yōu)點。三是混合云。混合云是近年來云計算的主要模式和發(fā)展方向,融合了公有云和私有云。
以數(shù)據(jù)挖掘作為主體的國際會議主要有:2003年,KDD第四次會議;2004年,KDD第五次會議;2005年,ADMA第一屆國際會議;2005年,PAKDD第九屆國際會議;2005年,ICDE第21屆國際會議;典型的數(shù)據(jù)挖掘系統(tǒng)有IBM公司的InterligentMiner等。
國外的典型的數(shù)據(jù)挖掘系統(tǒng)有:Intelligent Miner、社會科學統(tǒng)計軟件包(SPSS)、See5、Neural network Browser、DB Miner、CBR Express等。
我國在該領(lǐng)域的研究始于20世紀90年代中期,目前,數(shù)據(jù)挖掘基礎理論以及應用的研究已經(jīng)進入一個成熟階段。1997年,國內(nèi)正式期刊開始發(fā)表數(shù)據(jù)挖據(jù)的文章。1998年,劉小虎等學者提出了改進的優(yōu)化算法;2005年,國內(nèi)學者提出了基于關(guān)聯(lián)度函數(shù)的決策樹分類算法,不僅克服了多支偏向的問題,還保證了精確、高效的分類正確率。
綜上可知,無論國內(nèi)還是國外,數(shù)據(jù)挖據(jù)在現(xiàn)代科技社會有著廣泛的應用發(fā)展前景。在未來十年,對人類產(chǎn)生重大影響的十大新興技術(shù)中數(shù)據(jù)挖掘排列第三。
數(shù)據(jù)挖掘中引入云計算可以進行分布式計算,實現(xiàn)實時高效的挖掘,利于發(fā)現(xiàn)更多的有利信息。基于云計算的數(shù)據(jù)挖掘底層被屏蔽掉后,用戶不需要考慮數(shù)據(jù)分配到節(jié)點、數(shù)據(jù)的劃分等問題,使得開發(fā)更加方便。并行化的處理,大大提高了處理大規(guī)模數(shù)據(jù)的能力,基于云計算的數(shù)據(jù)挖掘使得海量數(shù)據(jù)挖掘更加方便快捷。為解決數(shù)據(jù)挖掘面臨的海量數(shù)據(jù)處理問題,基于云計算的海量數(shù)據(jù)挖掘算法主要是利用云計算的并行處理和海量存儲能力。
專業(yè)的數(shù)據(jù)挖掘廠商SGI、軟件及數(shù)據(jù)庫服務商如Oracle、IBM、Microsoft等都可以提供數(shù)據(jù)挖掘產(chǎn)品和方案。目前國內(nèi)外還并未出現(xiàn)完整而且成熟的基于云計算的數(shù)據(jù)挖掘產(chǎn)品,大多數(shù)都還停留在分析或者研究階段。而基于云計算的海量數(shù)據(jù)存儲技術(shù)已經(jīng)頗為成熟,更進一步的發(fā)展則是基于云計算或云存儲之上的能夠提供數(shù)據(jù)高可靠性、高性能的海量數(shù)據(jù)的存儲、分析、處理及挖掘。
數(shù)據(jù)挖掘的算法很多,比如經(jīng)典的關(guān)聯(lián)規(guī)則算法Apriori算法及聚類分析K-Means算法。云計算支持下的數(shù)據(jù)挖掘算法,必須在Map/Reduce框架中進行并行化處理的基礎上,再對數(shù)據(jù)挖掘算法進行云計算化。
關(guān)聯(lián)規(guī)則Apriori算法:數(shù)據(jù)遍歷,然后找出所有的頻繁項集,再將所有規(guī)則提取出來,之后排除掉置信度小于預設值的規(guī)則,對Apriori算法完成了并行化處理后,將其移植到云計算框架下,在Map/Reduce框架下降低了原算法并行化后的耦合性,使得資源的浪費大大減少。
聚類分析K-Means算法:基于云計算首先要做并行化處理,將數(shù)據(jù)、環(huán)境、設置初始化,生成K個初始聚類中心,將數(shù)據(jù)分塊分配給計算節(jié)點,每個節(jié)點通過Map、Combine、Reduce三個過程進行聚類計算后獲得最終的聚類,就可以在云計算支持下進行數(shù)據(jù)挖掘的信息處理了。
在數(shù)據(jù)挖掘領(lǐng)域還有很多經(jīng)典的算法,比如關(guān)聯(lián)規(guī)則、貝葉斯分類、Canopy聚類、Nearest-Neighbor分類等等,數(shù)據(jù)挖掘很多經(jīng)典算法都可以在進行Map/Reduce化后在云計算平臺上運行。
隨著大數(shù)據(jù)時代的到來,尤其是云計算的出現(xiàn),網(wǎng)絡數(shù)據(jù)尤其是采用分布式存儲的數(shù)據(jù)更加多樣化、數(shù)據(jù)量日益龐大。海量數(shù)據(jù)的極速增長,從中提取出有價值的知識和信息,有著極為重要的意義。數(shù)據(jù)挖掘算法的好壞將直接關(guān)系到數(shù)據(jù)挖掘的效率和精確度以及對數(shù)據(jù)的利用效果。數(shù)據(jù)挖掘領(lǐng)域中海量數(shù)據(jù)處理和海量數(shù)據(jù)計算成為一個極為重要的問題。基于云計算的海量數(shù)據(jù)挖掘能夠超越傳統(tǒng)的數(shù)據(jù)挖掘所不適應的問題,并且能夠不斷增長高效、可靠、可信的數(shù)據(jù)信息。大數(shù)據(jù)時代,基于云計算的海量數(shù)據(jù)挖掘技術(shù)將有著更為廣泛的應用前景。
[1]云計算的概念和內(nèi)涵[EB/OL].中國云計算,2014-2-26
[2]云計算是什么意思,什么是云計算[EB/OL].云創(chuàng)存儲,2014-4-2
[3]2014年云計算大會云計算標準化體系草案形成[EB/OL].中國云計算,2014-3-5
[4]十種方法保持云中數(shù)據(jù)安全[EB/OL].TechTarget云計算,2013-8-23
[5]劉小虎,李生.決策樹優(yōu)化算法[J].軟件學報,1998
[6]韓松來,張輝,周華平.基于關(guān)聯(lián)度函數(shù)的決策樹分類算法[J].計算機應用,2005
[7]何元.基于云計算的海量數(shù)據(jù)挖掘分類算法研究[D].電子科技大學,2011