999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分布式思維的云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)

2017-07-12 20:00:26任新社陳靜遠(yuǎn)
軟件導(dǎo)刊 2017年6期
關(guān)鍵詞:云計(jì)算數(shù)據(jù)挖掘

任新社+陳靜遠(yuǎn)

摘要:在云計(jì)算背景下,海量數(shù)據(jù)信息相互影響,對(duì)原本的關(guān)聯(lián)規(guī)則形成冗余干擾,導(dǎo)致當(dāng)前以線性思維為主導(dǎo)的挖掘平臺(tái)受到冗余干擾的影響,挖掘效率低下。為此,在分析傳統(tǒng)方法弊端的基礎(chǔ)上,提出了基于分布式思維的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)方法。為了解決冗余干擾問題,設(shè)計(jì)了一種冗余消除算法,以計(jì)算區(qū)域之間的相似度,形成分布式挖掘關(guān)聯(lián)。試驗(yàn)結(jié)果證明,這種分布式數(shù)據(jù)挖掘平臺(tái)可達(dá)到數(shù)據(jù)搜索簡(jiǎn)單、快速,且降低成本的目的。

關(guān)鍵詞:云計(jì)算;分布式思維;分布式系統(tǒng);數(shù)據(jù)挖掘

DOIDOI:10.11907/rjdk.171008

中圖分類號(hào):TP319

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2017)006-0094-03

1 線性思維下數(shù)據(jù)挖掘平臺(tái)存在的問題

當(dāng)今,每天數(shù)十億用戶的各種操作產(chǎn)生了海量數(shù)據(jù)信息,對(duì)這些信息的存儲(chǔ)、處理分析與數(shù)據(jù)挖掘成為互聯(lián)網(wǎng)的主要技術(shù)問題。當(dāng)前的大型數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)主要以線性數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法為理論依據(jù),對(duì)海量數(shù)據(jù)下的數(shù)據(jù)庫中的知識(shí)進(jìn)行智能化發(fā)現(xiàn),是一種基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、可視化技術(shù)等各種技術(shù)的一系列決策過程[1-3]。

當(dāng)前以線性思維為主的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)流程包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)3個(gè)階段。數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)的具體步驟為:①問題定義。清晰問題、確定目標(biāo),是數(shù)據(jù)挖掘的關(guān)鍵一步。因其結(jié)果的無法預(yù)測(cè)性,要求挖掘人員熟悉對(duì)應(yīng)的知識(shí),使領(lǐng)域?qū)<液陀脩裘鞔_搜索需求;②數(shù)據(jù)準(zhǔn)備。分為數(shù)據(jù)選擇、預(yù)處理和數(shù)據(jù)轉(zhuǎn)換3個(gè)步驟。為提高挖掘質(zhì)量,需要對(duì)數(shù)據(jù)進(jìn)行再加工,根據(jù)模型處理數(shù)據(jù);③數(shù)據(jù)關(guān)聯(lián)。根據(jù)不同的數(shù)據(jù)特點(diǎn)和用戶需求選擇挖掘算法,然后選擇參數(shù)和模型,最后由智能工具完成挖掘任務(wù)。通過以上分析可以看出,在線性思維下,所有關(guān)聯(lián)規(guī)則均建立在一個(gè)區(qū)域內(nèi),規(guī)則為內(nèi)部規(guī)則,導(dǎo)致關(guān)聯(lián)規(guī)則建立過程不斷充滿最優(yōu)化計(jì)算過程,效率大幅降低。

2 分布式數(shù)據(jù)挖掘平臺(tái)構(gòu)架設(shè)計(jì)

為了解決傳統(tǒng)線性平臺(tái)中的問題,提出一種基于分布式思維的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)方法,其架構(gòu)如圖1所示。

3 分布式數(shù)據(jù)挖掘平臺(tái)相關(guān)軟件算法設(shè)計(jì)

為解決傳統(tǒng)的分布式數(shù)據(jù)挖掘平臺(tái)的冗余干擾問題,設(shè)計(jì)了一種冗余消除算法,以對(duì)傳統(tǒng)的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)進(jìn)行優(yōu)化。

3.1 冗余消除算法設(shè)計(jì)規(guī)則

冗余消除算法主要是為了消除云計(jì)算下海量數(shù)據(jù)對(duì)關(guān)聯(lián)規(guī)則形成的冗余干擾。相關(guān)算法作為數(shù)據(jù)挖掘算法的一種,已被廣泛應(yīng)用于商業(yè)化推薦系統(tǒng)上。

冗余消除算法類別可分為:①基于用戶的算法。根據(jù)用戶的所有瀏覽軌跡及喜好進(jìn)行評(píng)分,找出評(píng)分接近該用戶的其他用戶喜好進(jìn)行相互推薦;②基于項(xiàng)目的算法。將所有用戶對(duì)物品A的喜好程度作為向量,計(jì)算A與同類物品的相似度。

3.2 協(xié)同過濾相似度計(jì)算方法

以用戶搜索為例,如圖3所示。查全率和查準(zhǔn)率囊括了用戶對(duì)搜索廣泛性和準(zhǔn)確性的需求,據(jù)此可將數(shù)據(jù)分成推薦和不推薦。

4 實(shí)驗(yàn)分析與系統(tǒng)測(cè)試

試驗(yàn)環(huán)境采用4臺(tái)相同配置的計(jì)算機(jī)搭建Hadoop集群,集群設(shè)備配置為:CPU為core i7-2450M 3.0GHz,操作系統(tǒng)為Ubuntu14.0,Hadoop 2.6.0,內(nèi)存16GB,硬盤500GB。服務(wù)層的Java語言如表1所示。

4.1 實(shí)驗(yàn)數(shù)據(jù)集評(píng)測(cè)標(biāo)準(zhǔn)參數(shù)設(shè)計(jì)

實(shí)驗(yàn)選擇的數(shù)據(jù)集是云計(jì)算下bookcrossing圖書社區(qū)278 850個(gè)用戶對(duì)271 397本圖書進(jìn)行的評(píng)分。評(píng)分包括顯式和隱式兩種方式,由Cai-Nicolas Ziegler使用爬蟲程序從該圖書社區(qū)采集而來。實(shí)驗(yàn)的評(píng)測(cè)標(biāo)準(zhǔn)除了前文提到的查全率和查準(zhǔn)率,還使用覆蓋率和平均流行標(biāo)準(zhǔn)進(jìn)行評(píng)測(cè)。覆蓋率標(biāo)準(zhǔn)用來描述長(zhǎng)尾物品的發(fā)掘能力,平均流行度標(biāo)準(zhǔn)用來評(píng)測(cè)項(xiàng)目的新穎性,它們的公式分別為:

觀察實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),查準(zhǔn)率和查全率在相似度為5~40時(shí)呈上升并逐漸放緩的趨勢(shì),在K=40時(shí)達(dá)到最大。

引入本文算法后,查準(zhǔn)率和查全率的指標(biāo)值相差不大。查準(zhǔn)率和查全率變化曲線如圖4所示。

實(shí)驗(yàn)結(jié)果顯示,覆蓋率隨著相似度K值增加而逐漸減少,減弱速度也逐漸放緩。平均流行度則隨著K值變化逐漸增加,增加速度也逐漸放緩。通過實(shí)驗(yàn)分析發(fā)現(xiàn),引入降權(quán)的改進(jìn)算法中,流行度與覆蓋率相較于傳統(tǒng)平臺(tái)表現(xiàn)一低一高,說明算法的改進(jìn)提高了挖掘平臺(tái)的準(zhǔn)確程度,間接證明了推薦算法發(fā)掘數(shù)據(jù)的能力得到提升。而在適當(dāng)?shù)南嗨贫戎迪拢倪M(jìn)算法的查準(zhǔn)率和查全率均優(yōu)于傳統(tǒng)算法。

5 結(jié)語

隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,對(duì)海量信息的處理是人們當(dāng)前面對(duì)的最大挑戰(zhàn)。本文針對(duì)大數(shù)據(jù)存儲(chǔ)和處理挖掘的問題提出了構(gòu)建基于云計(jì)算的分布式數(shù)據(jù)挖掘平臺(tái),使用bookcrossing數(shù)據(jù)集,在云計(jì)算平臺(tái)上分別按4個(gè)指標(biāo)對(duì)傳統(tǒng)算法與引入降權(quán)的改進(jìn)算法進(jìn)行比較,得到改進(jìn)算法發(fā)掘“長(zhǎng)尾”項(xiàng)目的能力優(yōu)于傳統(tǒng)算法的結(jié)論。

參考文獻(xiàn):

[1]楊勇,董振江,陸平.具備云計(jì)算特性的業(yè)務(wù)交付平臺(tái)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2011,10(5):51-60.

[2]李改,李磊.基于矩陣分解的冗余消除算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,17(30):4-9.

[3]黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1370-1376.

[4]樊凌.云環(huán)境下大規(guī)模多媒體數(shù)據(jù)特征重構(gòu)挖掘方法[J].軟件導(dǎo)刊,2016,15(6):176-178.

(責(zé)任編輯:黃 健)

猜你喜歡
云計(jì)算數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
志愿服務(wù)與“互聯(lián)網(wǎng)+”結(jié)合模式探究
云計(jì)算與虛擬化
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
科技視界(2016年20期)2016-09-29 13:34:06
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 思思热精品在线8| 久久国产高潮流白浆免费观看| 国产乱人激情H在线观看| 天天综合网色中文字幕| 狠狠色狠狠综合久久| 国产91小视频| 动漫精品啪啪一区二区三区| 色窝窝免费一区二区三区| 99视频在线免费看| 国产尤物jk自慰制服喷水| 美女视频黄频a免费高清不卡| 国产精品主播| 亚洲中文字幕23页在线| 久久香蕉国产线看观看亚洲片| 国产91九色在线播放| 91亚瑟视频| 国产一区二区免费播放| 国产丝袜第一页| 一级毛片不卡片免费观看| 亚洲美女一区| 亚洲天堂区| 欧美精品综合视频一区二区| 色综合久久久久8天国| 亚洲无码精品在线播放| 97人妻精品专区久久久久| 久爱午夜精品免费视频| 成人夜夜嗨| 99久久成人国产精品免费| 欧美成人午夜在线全部免费| 亚洲高清国产拍精品26u| 亚洲色偷偷偷鲁综合| 无码aaa视频| 欧美国产在线看| 成人无码区免费视频网站蜜臀| 亚洲福利视频网址| 亚洲青涩在线| 美女免费黄网站| 日本三级欧美三级| 国产成人a在线观看视频| 亚洲制服丝袜第一页| 精品超清无码视频在线观看| 狠狠色综合久久狠狠色综合| 欧美爱爱网| 精品久久蜜桃| 亚洲av无码牛牛影视在线二区| 爆乳熟妇一区二区三区| 国产午夜福利亚洲第一| 999精品色在线观看| av一区二区三区高清久久| a级毛片免费看| 九九九精品视频| 中美日韩在线网免费毛片视频 | 国产福利免费视频| 亚洲中文制服丝袜欧美精品| 国产第一福利影院| 色婷婷亚洲十月十月色天| 日韩无码黄色网站| 蜜臀AVWWW国产天堂| 精品国产一区91在线| 亚洲欧美极品| 久久精品91麻豆| 久久大香香蕉国产免费网站| 国产色网站| 亚洲黄网视频| 欧美视频二区| 91毛片网| 精品国产免费第一区二区三区日韩| 99久久精品国产麻豆婷婷| 欧美中文字幕在线二区| 欧美综合区自拍亚洲综合绿色 | 一级黄色欧美| 亚洲成人一区二区三区| 国产欧美亚洲精品第3页在线| 久久久91人妻无码精品蜜桃HD| 国产97公开成人免费视频| 国产成人久久777777| 人妻一区二区三区无码精品一区| 日韩视频福利| 免费观看无遮挡www的小视频| 免费A级毛片无码免费视频| 国产亚洲精品自在久久不卡 | 欧美自慰一级看片免费|