


摘 要: 為了探討云計(jì)算技術(shù)下數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)及技術(shù)應(yīng)用效益,通過(guò)研究設(shè)計(jì)云計(jì)算技術(shù)下數(shù)據(jù)挖掘平臺(tái),在云計(jì)算技術(shù)支持下,優(yōu)化設(shè)計(jì)數(shù)據(jù)挖掘平臺(tái),以改進(jìn)當(dāng)前數(shù)據(jù)挖掘技術(shù)質(zhì)量。結(jié)果表明,設(shè)計(jì)基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái),不僅可以確保提升技術(shù)應(yīng)用效益,也可以提升數(shù)據(jù)挖掘質(zhì)量與平臺(tái)穩(wěn)定性。相比傳統(tǒng)數(shù)據(jù)挖掘方式,云計(jì)算機(jī)技術(shù)下數(shù)據(jù)挖掘的效率提高達(dá)到20.0%。
關(guān)鍵詞: 數(shù)據(jù)挖掘平臺(tái); 云計(jì)算技術(shù); 技術(shù)應(yīng)用; 優(yōu)化設(shè)計(jì)
中圖分類號(hào): TN911?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)16?0061?03
Abstract: The purpose of this thesis is to discuss the design of data mining platform based on the cloud computing technology and its application. Through the research of the data mining platform based on the cloud computing technology, the design of the data mining platform was optimized under the support of cloud computing technology to guarantee the effect of the technology application, and improve the quality of the data mining technology and the stability of data mining platform. Compared with the traditional data mining methods, the data mining efficiency is increased by 20%.
Keywords: data mining platform; cloud computing technology; technology application; optimization design
0 引 言
對(duì)于數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì),可以基于當(dāng)前云計(jì)算技術(shù)發(fā)展優(yōu)勢(shì),而數(shù)據(jù)挖掘與數(shù)據(jù)是密不可分的,運(yùn)用云計(jì)算技術(shù),有助于優(yōu)化數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)工作,以提升數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)性能。數(shù)據(jù)挖掘(Data Mining)能夠從實(shí)際工作中的大量、不完全數(shù)據(jù),以及有噪聲、模糊的實(shí)際應(yīng)用數(shù)據(jù)[1]中有效提取出隱含的數(shù)據(jù)。這些數(shù)據(jù)均是人們事先不知道的數(shù)據(jù),但是對(duì)于這些數(shù)據(jù),又潛在存在有用的信息;而這個(gè)發(fā)現(xiàn)新數(shù)據(jù)、信息知識(shí)的過(guò)程就是數(shù)據(jù)挖掘的過(guò)程,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Databases)。與傳統(tǒng)數(shù)據(jù)挖掘相比,采用云計(jì)算技術(shù)設(shè)計(jì)實(shí)現(xiàn)的數(shù)據(jù)挖掘平臺(tái),能夠通過(guò)“云”中的多個(gè)資源去完成數(shù)據(jù)挖掘的工作,可以使數(shù)據(jù)資源在該數(shù)據(jù)挖掘平臺(tái)中得到充分的利用,提高當(dāng)前數(shù)據(jù)挖掘的效率[2]。同時(shí),基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái),可以在提高數(shù)據(jù)挖掘效率的同時(shí)[3?6],克服實(shí)際中網(wǎng)格環(huán)境下挖掘數(shù)據(jù)的弊端,實(shí)現(xiàn)面向商業(yè)應(yīng)用的數(shù)據(jù)挖掘工作,現(xiàn)實(shí)中更具實(shí)用價(jià)值。
1 系統(tǒng)設(shè)計(jì)需求分析
本文基于通信資源數(shù)據(jù)挖掘設(shè)計(jì)挖掘平臺(tái)。數(shù)據(jù)挖掘總體可以分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘兩大階段[7]。在數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)中,根據(jù)數(shù)據(jù)特點(diǎn)運(yùn)用云計(jì)算技術(shù),對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、轉(zhuǎn)換等操作,有助于提升系統(tǒng)設(shè)計(jì)性能,滿足系統(tǒng)設(shè)計(jì)需求。該系統(tǒng)設(shè)計(jì)中,針對(duì)海量用戶數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù),可在計(jì)費(fèi)數(shù)據(jù)、業(yè)務(wù)訂購(gòu)數(shù)據(jù)、網(wǎng)管數(shù)據(jù)等海量用戶數(shù)據(jù)中發(fā)現(xiàn)商業(yè)信息,為通信市場(chǎng)的精準(zhǔn)營(yíng)銷打下基礎(chǔ)[8?12]。在系統(tǒng)設(shè)計(jì)中,運(yùn)用云計(jì)算技術(shù)實(shí)現(xiàn)數(shù)據(jù)挖掘, 將云計(jì)算技術(shù)融入數(shù)據(jù)挖掘中,采用分布式計(jì)算(Map/Reduce)概念,能夠?qū)⒋髷?shù)據(jù)集和挖掘任務(wù)分解到多臺(tái)計(jì)算機(jī)上并行處理,以確保數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)符合實(shí)際需求。
2 云計(jì)算技術(shù)下數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)方案
2.1 系統(tǒng)總體設(shè)計(jì)
在云計(jì)算技術(shù)下設(shè)計(jì)數(shù)據(jù)挖掘平臺(tái),采取三層結(jié)構(gòu),以數(shù)據(jù)預(yù)處理、云計(jì)算以及數(shù)據(jù)挖掘平臺(tái)為分層,優(yōu)化提升該平臺(tái)實(shí)現(xiàn)數(shù)據(jù)挖掘的功能。系統(tǒng)設(shè)計(jì)結(jié)構(gòu)如圖1所示。
在該平臺(tái)設(shè)計(jì)中,數(shù)據(jù)預(yù)處理層能夠存儲(chǔ)分布式數(shù)據(jù)文件,實(shí)現(xiàn)對(duì)平臺(tái)的分布式系統(tǒng)管理;云計(jì)算層可以對(duì)各個(gè)數(shù)據(jù)挖掘步驟及模塊總控、調(diào)度[13],對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以得到挖掘數(shù)據(jù);數(shù)據(jù)挖掘平臺(tái)可以實(shí)現(xiàn)具體應(yīng)用,以確保該平臺(tái)設(shè)計(jì)符合實(shí)際需求。
2.2 系統(tǒng)功能設(shè)計(jì)
該數(shù)據(jù)挖掘平臺(tái)具備多種數(shù)據(jù)挖掘功能,其由數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、模式規(guī)則選擇模塊及應(yīng)用接口模塊四部分組成,如圖2所示。
數(shù)據(jù)收集模塊:其主要的功能是可以負(fù)責(zé)收集在該平臺(tái)服務(wù)器端中的數(shù)據(jù),同時(shí)也包括客戶的一些登記資料,然后運(yùn)用文本方式,返回這些收集的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理模塊:其主要功能是預(yù)處理返回?cái)?shù)據(jù)信息,去除信息中無(wú)用的、冗余數(shù)據(jù),以便節(jié)約系統(tǒng)數(shù)據(jù)挖掘時(shí)間[14]。
模式規(guī)則選取模塊:可以獲取各個(gè)站點(diǎn)通用的模式,其是一種學(xué)習(xí)策略。
應(yīng)用接口模塊:其功能是可以實(shí)現(xiàn)數(shù)據(jù)與該數(shù)據(jù)挖掘平臺(tái)的連接。
2.3 平臺(tái)數(shù)據(jù)庫(kù)設(shè)計(jì)
數(shù)據(jù)庫(kù)設(shè)計(jì)充分利用關(guān)系數(shù)據(jù)庫(kù)特征,減少數(shù)據(jù)冗余,數(shù)據(jù)只在一個(gè)地方存儲(chǔ),通過(guò)主鍵和外鍵對(duì)應(yīng)動(dòng)態(tài)生成所需視圖,方便程序編寫查詢檢索代碼。部分表鍵對(duì)應(yīng)關(guān)系如圖3所示。
2.4 數(shù)據(jù)挖掘平臺(tái)算法實(shí)現(xiàn)
將云計(jì)算融入數(shù)據(jù)挖掘,將計(jì)算擴(kuò)展到無(wú)限規(guī)模的機(jī)器集群上進(jìn)行。在Map/Reduce框架中,每一次計(jì)算請(qǐng)求,均是以此作業(yè)。數(shù)據(jù)挖掘中,可以將數(shù)據(jù)挖掘作業(yè)拆分為若干個(gè)不同的Map任務(wù), 然后將其分配到數(shù)據(jù)挖掘平臺(tái)中不同的機(jī)器上執(zhí)行;當(dāng)完成所有的Map任務(wù)后,則可以進(jìn)入下一個(gè)數(shù)據(jù)挖掘步驟,將這些中間文件合并,輸出這些文件;同時(shí),該數(shù)據(jù)挖掘平臺(tái)中,又將生成若干Reduce任務(wù),循環(huán)以上算法,最后可生成所需的數(shù)據(jù)挖掘目標(biāo)文件。運(yùn)用該算法設(shè)計(jì)數(shù)據(jù)挖掘平臺(tái),大大提高數(shù)據(jù)挖掘的靈活性,提升數(shù)據(jù)挖掘效率。明確數(shù)據(jù)挖掘的目標(biāo),并對(duì)挖掘目標(biāo)建立恰當(dāng)?shù)哪P汀?/p>
3 結(jié) 語(yǔ)
本文設(shè)計(jì)的基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái),不僅可以確保提升技術(shù)應(yīng)用效益,也可以提升數(shù)據(jù)挖掘質(zhì)量與平臺(tái)穩(wěn)定性,相比傳統(tǒng)數(shù)據(jù)挖掘方式,提高數(shù)據(jù)挖掘效率達(dá)到20.0%。 綜上所述,設(shè)計(jì)基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺(tái),不僅可以滿足當(dāng)前系統(tǒng)設(shè)計(jì)需求,也可以滿足用戶規(guī)模的擴(kuò)大、應(yīng)用目標(biāo)多樣等環(huán)境下數(shù)據(jù)挖掘的應(yīng)用需求,提高數(shù)據(jù)挖掘的效率,具有實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 杜艷綏.基于Hadoop云計(jì)算平臺(tái)的數(shù)據(jù)挖掘分析[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(4):36?38.
[2] 程苗,陳華平.基于Hadoop的Web日志挖掘[J].計(jì)算機(jī)工程,2011(11):37?39.
[3] 王德文.基于云計(jì)算的電力數(shù)據(jù)中心基礎(chǔ)架構(gòu)及其關(guān)鍵技術(shù)[J].電力系統(tǒng)自動(dòng)化,2012,36(11):67?71.
[4] 曹小春,曾安,潘丹.云計(jì)算環(huán)境下面向領(lǐng)域的數(shù)據(jù)挖掘服務(wù)平臺(tái)研究[J].自動(dòng)化儀表,2014,35(9):9?13.
[5] 黃章樹,劉晴晴.基于云計(jì)算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺(tái)的構(gòu)建[J].電信科學(xué),2012,28(1):53?57.
[6] 趙海東.關(guān)于流數(shù)據(jù)挖掘技術(shù)中有關(guān)云計(jì)算的應(yīng)用設(shè)計(jì)分析[J].數(shù)字化用戶,2013(15):142.
[7] 袁春園.基于Hadoop云計(jì)算平臺(tái)的數(shù)據(jù)挖掘分析[J].信息與電腦(理論版),2015(15):58?59.
[8] 金龍.云計(jì)算環(huán)境中的數(shù)據(jù)挖掘存儲(chǔ)管理設(shè)計(jì)[J].軟件工程師,2012(12):36?37.
[9] 郭鑫,董堅(jiān)峰,周清平.自適應(yīng)云端的大規(guī)模導(dǎo)出子圖提取算法[J].計(jì)算機(jī)科學(xué),2014,41(6):155?160.
[10] 郭鑫,顏一鳴,徐洪智,等.動(dòng)態(tài)云平臺(tái)下的快速閉樹聚類并行算法[J].計(jì)算機(jī)工程,2013(9):80?83.
[11] 王水萍,王方.一種基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息安全與技術(shù),2014(8):64?66.
[12] 張大衛(wèi),李海雁,李濤.云計(jì)算環(huán)境下多源遙感數(shù)據(jù)挖掘系統(tǒng)構(gòu)建[J].信息技術(shù),2015(5):187?191.
[13] 蔡江云.基于微軟云計(jì)算平臺(tái)的海量數(shù)據(jù)挖掘系統(tǒng)分析[J].才智,2015(5):375.
[14] 穆俊.基于云平臺(tái)的并行關(guān)聯(lián)規(guī)則挖掘算法分析[J].現(xiàn)代電子技術(shù),2015,38(11):123?125.
[15] 王玨.基于關(guān)聯(lián)規(guī)則的醫(yī)生診療數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2013,36(19):124?126.