白玲玲
(中共阜陽(yáng)市委黨校教務(wù)處,安徽阜陽(yáng) 236000)
基于云計(jì)算的大數(shù)據(jù)挖掘探討
白玲玲
(中共阜陽(yáng)市委黨校教務(wù)處,安徽阜陽(yáng) 236000)
隨著科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步,各種復(fù)雜的數(shù)據(jù)也隨之增長(zhǎng)。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)由于人為因素,使數(shù)據(jù)受到的干擾程度比較大。將云計(jì)算與大數(shù)據(jù)進(jìn)行有機(jī)的結(jié)合,可以很好地彌補(bǔ)這一缺陷,基于云計(jì)算的大數(shù)據(jù)挖掘具有潛在的發(fā)展優(yōu)勢(shì)。
云計(jì)算;大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘是從類(lèi)型豐富、儲(chǔ)量較大的大數(shù)據(jù)中挖掘出有相關(guān)需求和價(jià)值的信息和知識(shí),并提供給客戶(hù)的服務(wù)方式。相比傳統(tǒng)的數(shù)據(jù)挖掘,雖然目的相同,但就技術(shù)發(fā)展的程度以及挖掘的深度和速度來(lái)說(shuō),兩者的差異還是比較大的。
1.1 發(fā)展背景
在數(shù)據(jù)庫(kù)以及互聯(lián)網(wǎng)不斷發(fā)展的背景下,能夠?qū)崿F(xiàn)從獨(dú)立、橫向到縱向的數(shù)據(jù)挖掘,主要得益于云計(jì)算以及智能終端等先進(jìn)技術(shù)的產(chǎn)生和完善[1]。相比傳統(tǒng)的數(shù)據(jù)挖掘,這種技術(shù)還在進(jìn)一步的完善中。
1.2 處理對(duì)象
由于面臨的數(shù)據(jù)背景不同,大數(shù)據(jù)挖掘與傳統(tǒng)數(shù)據(jù)挖掘的處理對(duì)象存在一定差異。傳統(tǒng)的數(shù)據(jù)挖掘主要針對(duì)從某個(gè)特指的范圍管理信息的系統(tǒng)中產(chǎn)生的數(shù)據(jù),這個(gè)過(guò)程中是被動(dòng)的需求,主要數(shù)據(jù)類(lèi)型為結(jié)構(gòu)化數(shù)據(jù)。而大數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源更加廣泛,類(lèi)型更加豐富,不僅包括管理信息系統(tǒng)數(shù)據(jù),還包括傳感設(shè)備自動(dòng)產(chǎn)生的仿真數(shù)據(jù)[2]。與此同時(shí),由于采集范圍更加全面,大數(shù)據(jù)挖掘在采集中不會(huì)處于被動(dòng),這使得處理的實(shí)效性以及速度都能夠提升。
1.3 挖掘程度
傳統(tǒng)的數(shù)據(jù)挖掘處理技術(shù)具有局限性,類(lèi)型較為單一[3],導(dǎo)致對(duì)很多數(shù)據(jù)的獲取和處理受到限制。目前大數(shù)據(jù)的類(lèi)型以及結(jié)構(gòu)都比較復(fù)雜,相互之間難免有交集和融合。大數(shù)據(jù)挖掘得益于云計(jì)算,能夠?qū)︻?lèi)型復(fù)雜、數(shù)量龐雜的數(shù)據(jù)進(jìn)行處理,從多個(gè)維度進(jìn)行分析,處理數(shù)據(jù)的范圍更廣泛,對(duì)數(shù)據(jù)的挖掘也更全面和深入。
2.1 云計(jì)算
由于擴(kuò)展比較高,有虛擬化的計(jì)算模式,云計(jì)算為大數(shù)據(jù)挖掘處理提供了動(dòng)力支持。分布式的存儲(chǔ)與計(jì)算是云計(jì)算的核心技術(shù),分布式文件系統(tǒng)具有高容錯(cuò)率和高吞吐率,多適用于一些大型或類(lèi)型多樣的數(shù)據(jù),不適于一些單點(diǎn)的故障問(wèn)題[4]。在面對(duì)多個(gè)領(lǐng)域內(nèi)的數(shù)據(jù)分享和挖掘的適用性等一系統(tǒng)問(wèn)題時(shí),還需要進(jìn)行深入分析,找到相應(yīng)的解決方案實(shí)現(xiàn)進(jìn)一步融合。
2.2 大數(shù)據(jù)挖掘架構(gòu)
大數(shù)據(jù)的挖掘架構(gòu)包含了多種計(jì)算方式、存儲(chǔ)模式以及分析功能,如圖1所示。(1)支撐平臺(tái)層是大數(shù)據(jù)挖掘的動(dòng)力支撐,能夠?qū)⒋髷?shù)據(jù)與資源豐富的元環(huán)境進(jìn)行融合,向外界提供數(shù)據(jù)信息和知識(shí)等資源。而且,還可以計(jì)算數(shù)據(jù)的移動(dòng)方式,為復(fù)雜數(shù)據(jù)的處理和分析提供更強(qiáng)大的動(dòng)力。(2)功能層能夠依據(jù)用戶(hù)需求進(jìn)行分析和挖掘,它依托云平臺(tái)的存儲(chǔ)與計(jì)算能力,具有較好的伸展性。(3)服務(wù)層,大數(shù)據(jù)挖掘通過(guò)服務(wù)平臺(tái),將服務(wù)提供者與用戶(hù)連接起來(lái),對(duì)其所需數(shù)據(jù)進(jìn)行處理,并通過(guò)服務(wù)層將數(shù)據(jù)提供給用戶(hù)。這三者之間不是獨(dú)立存在的,而是相互融合的。

圖1 大數(shù)據(jù)挖掘框架
基于Hadoop的大數(shù)據(jù)挖掘平臺(tái)分為三層,即數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺(tái)和用戶(hù)層(圖2)。它們各有分工,數(shù)據(jù)源主要對(duì)不同結(jié)構(gòu)數(shù)據(jù)形成的對(duì)象進(jìn)行處理;大數(shù)據(jù)挖掘平臺(tái)是對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析和處理;用戶(hù)層則是通過(guò)相關(guān)的平臺(tái)進(jìn)行認(rèn)知并接受服務(wù)提供者的服務(wù)。
3.1 數(shù)據(jù)預(yù)處理
傳統(tǒng)的數(shù)據(jù)挖掘是先有相關(guān)模式,而后才能夠從數(shù)據(jù)源中獲取數(shù)據(jù)。通過(guò)相關(guān)工具查詢(xún)和更新,進(jìn)行數(shù)據(jù)預(yù)處理,此過(guò)程中比較重視數(shù)據(jù)的完整性和準(zhǔn)確性,確保處理的數(shù)據(jù)質(zhì)量比較高。而大數(shù)據(jù)挖掘不是在進(jìn)行數(shù)據(jù)處理時(shí)確立某種模式,而是隨著數(shù)據(jù)的變化,相應(yīng)地改變其模式。數(shù)據(jù)預(yù)處理基于MapReduce進(jìn)行融合,從而對(duì)這些復(fù)雜和多樣類(lèi)型的數(shù)據(jù)進(jìn)行實(shí)時(shí)的處理和識(shí)別,以此提高預(yù)處理過(guò)程中對(duì)于數(shù)據(jù)的計(jì)算能力以及共享能力。利用計(jì)算機(jī)技術(shù)和相關(guān)數(shù)據(jù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行傳輸和遷移,可以實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的同步處理,提高對(duì)數(shù)據(jù)的處理效率[5]。
3.2 數(shù)據(jù)的存儲(chǔ)
傳統(tǒng)的數(shù)據(jù)挖掘存儲(chǔ)管理,以相應(yīng)的數(shù)據(jù)庫(kù)以及一些文件系統(tǒng)為主,將靜態(tài)或已確定結(jié)構(gòu)的數(shù)據(jù)進(jìn)行存儲(chǔ),這樣的存儲(chǔ)方式比較被動(dòng),一般是由系統(tǒng)內(nèi)部進(jìn)行機(jī)械定義,靈活性較差,可擴(kuò)展性不足,容錯(cuò)能力不強(qiáng)。而大數(shù)據(jù)挖掘的存儲(chǔ)還包括了分布式、可存儲(chǔ)以及結(jié)構(gòu)式或者混合式的存儲(chǔ),這種存儲(chǔ)模式是由系統(tǒng)內(nèi)部來(lái)實(shí)現(xiàn)的,具有很強(qiáng)的擴(kuò)展性,但受到一些因素的影響,數(shù)據(jù)不能對(duì)應(yīng)一致,導(dǎo)致兼容性存在問(wèn)題。對(duì)于一些不確定的數(shù)據(jù),大數(shù)據(jù)存儲(chǔ)能夠以不確定的類(lèi)型進(jìn)行存儲(chǔ),實(shí)現(xiàn)不確定數(shù)據(jù)的直接存儲(chǔ)和處理。
3.3 數(shù)據(jù)的計(jì)算和分析
相對(duì)于傳統(tǒng)的數(shù)據(jù)挖掘來(lái)說(shuō),大數(shù)據(jù)挖掘能夠以與計(jì)算模式相融合的方式對(duì)數(shù)據(jù)進(jìn)行處理和分布。對(duì)于維度比較少的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)挖掘次數(shù)比較多,查詢(xún)相對(duì)精準(zhǔn),具有一定的靈活性和處理能力,呈現(xiàn)出較高的性能。但是在面對(duì)維度繁多且立方體龐大的數(shù)據(jù)時(shí),傳統(tǒng)數(shù)據(jù)挖掘的處理速度、效率和質(zhì)量都差強(qiáng)人意。針對(duì)傳統(tǒng)數(shù)據(jù)挖掘分析工具擴(kuò)展性的不足,大數(shù)據(jù)挖掘與已有的系統(tǒng)功能相融合,提高計(jì)算能力。對(duì)于一些動(dòng)態(tài)圖的數(shù)據(jù)以及數(shù)據(jù)流,可基于內(nèi)存分布式的數(shù)據(jù)通過(guò)滑動(dòng)窗口模型的方式,進(jìn)行連續(xù)處理。除了傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的語(yǔ)言查詢(xún)功能外,大數(shù)據(jù)挖掘具備自身相應(yīng)的查詢(xún)語(yǔ)言,其擴(kuò)展性和靈活性比較出眾,但查詢(xún)性能比較低,對(duì)資源的利用率相對(duì)不足。
3.4 數(shù)據(jù)的顯示
在傳統(tǒng)的數(shù)據(jù)挖掘中,數(shù)據(jù)結(jié)果集的展示僅適用于數(shù)量比較小且維度相對(duì)較低的數(shù)據(jù),展示方式主要以文本、圖表以及可視化圖形(餅狀圖、散點(diǎn)圖、ROC圖等)的形式對(duì)數(shù)據(jù)的理論效果和相關(guān)性能進(jìn)行呈現(xiàn)和挖掘。但是,在面對(duì)多維度、類(lèi)型多樣、數(shù)目繁多的數(shù)據(jù),由于技術(shù)的限制,導(dǎo)致擴(kuò)展性不足且對(duì)數(shù)據(jù)的利用比較被動(dòng),難以找出數(shù)據(jù)相互之間的關(guān)聯(lián)性,可視化效果不佳。而大數(shù)據(jù)挖掘?qū)τ跀?shù)據(jù)的展示,是以圖像或者動(dòng)畫(huà)的形式,通過(guò)人機(jī)交互的可視化方式進(jìn)行直觀的解釋。在這個(gè)過(guò)程中可通過(guò)輔助的可視化分析,幫助用戶(hù)理清數(shù)據(jù)之間的相互關(guān)系,降低數(shù)據(jù)的理解難度,使用戶(hù)能夠在探索的基礎(chǔ)上進(jìn)行理解。利用可視化技術(shù)表現(xiàn)較為復(fù)雜的圖像,如宇宙星球、集群成員的分配等,以此來(lái)反映事物的變化和空間的信息流等,使數(shù)據(jù)的流線化、管道和任務(wù)以及數(shù)據(jù)的并行化等并行算法技術(shù)成為現(xiàn)實(shí)。
[1]林昕.基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)構(gòu)建研究[J].山東工業(yè)技術(shù),2015(17):104.
[2]張毅,崔曉燕.基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究[J].軟件,2014(1):108-111.
[3]郭杰鋒,王琳琳.探究基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)[J].科技經(jīng)濟(jì)市場(chǎng),2015(6):176.
[4]劉猛.一種基于云計(jì)算的高效數(shù)據(jù)挖掘框架研究[J].微型電腦應(yīng)用,2015(6):15-19.
[5]王勃,徐靜.基于云計(jì)算的Web數(shù)據(jù)挖掘Map/Reduce算法的研究[J].計(jì)算機(jī)與數(shù)字工程,2014(7):1157-1159,1164.
Discussion of Data Mining Based on Cloud Computing
BAI Ling-ling
(CPC Fuyang Municipal Party Committee, Fuyang Anhui 236000,China)
With the development of economy and constant progress of science and technology, all sorts of complex data has risen as well. Due to human factors of traditional data mining techniques,data will be interfered. This paper combined cloud computing and big data to fill gaps, and it has a great deal of potential advantages for developing data mining.
cloud computing; data mining
2017-03-04
阜陽(yáng)市2016年社科規(guī)劃課題“網(wǎng)絡(luò)倫理視域下領(lǐng)導(dǎo)干部網(wǎng)絡(luò)能力建設(shè)問(wèn)題研究”(FSK2016007)。
白玲玲(1981- ),女,講師,碩士,從事計(jì)算機(jī)應(yīng)用研究。
TP311
A
2095-7602(2017)08-0059-03