999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Map Reduce的云數據挖掘模型的設計與實現

2017-06-15 14:15:08◆謝
網絡安全技術與應用 2017年6期
關鍵詞:數據挖掘模型

◆謝 光

?

基于Map Reduce的云數據挖掘模型的設計與實現

◆謝 光

(三亞學院 海南 572000)

當今社會隨著計算機技術的高速的發展,涌現出大量的數據,促使了云數據逐漸成為時代潮流。數據挖掘技術則正是從這些大量的數據中提取對我們有價值的的數據。數據挖掘又叫做數據采礦、數據資料探勘等,是當今數據快速發展的產物。大數據的出現對傳統的簡單的數據挖掘算法提出挑戰,新型的基于Map Reduce的云數據挖掘正在茁壯地發展。Map Reduce是當前最流行的分布式計算模型,在云數據數據挖掘當中作為一個佼佼者迅速發展。本文主要研究傳統的數據挖掘算法如何與Map Reduce計算模型有效地在云數據中結合起來。給當今云數據挖掘模型做出了較好的闡述。

云數據;數據挖掘;分布儲存系統;Map Reduce

0 引言

Map Reduce計算模型[1]是目前數據挖掘處理中最流行的一種云計算環境下的分布式計算模型[2-3],它可以將所有的數據處理均勻地分布在不同的計算機上,并且可以同時屏蔽復雜的并行編程,將所有處理的編程處理歸結到兩個簡單的函數,這兩個函數就是map函數和reduce函數[4],這兩個函數有著可用性、高可擴展性、高容錯性及簡單性使得其數據挖掘工作變得更加容易、更加簡便。為了使得Map Reduce模型適用于數據量更大的數據挖掘,本文對數據挖掘原有的算法進行了改進,提出了基于Map Reduce的K-means算法模型,對K-means算法模型進行Map Reduce化。

1 數據挖掘

數據挖掘(Data Mining),是處理大量數據庫的一種軟件。主要職責就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡數據發現過程。簡單的說,數據挖掘就是從大量數據中提取或“挖掘”數據中有用的信息[5]。

Map Reduce最先是由Google公司設計出來的,并且一貫成為Google公司的核心計算模型,它也是一種程序模型,將復雜的運行于大規模集群上的并行計算過程高度的抽象到了map函數和reduce函數這兩個函數[6],主要用于數據集大于1TB的并行運算,現如今也大量的應用在云數據的數據處理上。Map函數接受一組數據并將其轉換為一個鍵/值對列表,輸入域中的每個元素對應一個鍵/值對。Reduce函數接受Map函數生成的列表,然后根據它們的鍵(為每個鍵生成一個鍵/值對)縮小鍵/值對列表[7]。根據這一性質可以得到Map Reduce的流程概念圖如圖1所示。

根據MapReduce的核心思想得出MapReduce模型[8]的主要流程圖如圖1所示,對流程圖進行分析并且進一步總結可以得出Map Reduce還有幾個比較重要的特點,主要在數據分布儲存、分布式并行計算、本地計算三個方面有著突出的表現:

(1)數據分布存儲:Map Reduce模型由Google公司采用GFS的底層文件系統支撐。GFS主要是從不同的計算機當中獲取的數據集群。然后很自然的將數據分布存儲在GFS上,其實是存儲在GFS的集群中各自的機器的本地磁盤中。

(2)分布式并行計算:Map Reduce其實質上是一種分布式的并行計算,但是其實際操作的是一個map和reduce函數,這兩個函數對于各個數據分片,都會有一個Map任務(運行Mapper類的進程)對該分片進行處理,這種處理傳承了良好的并行的方式。但是對同一個分片,Map Reduce的Map任務對該分片的對的處理是一個串行的處理過程。分布式并行計算指的是對數據分片的并行,對分片內的記錄,則按照順序的串行處理。

圖1 Map Reduce模型主要流程

(3)本地計算:由于分布式系統中網絡I/O的性能通常要比本地I/O的性能差,所以Map Reduce認為“移動計算比移動數據更經濟”,即通過將計算任務派送到數據所在節點來實現本地計算。

2 基于Map Reduce云數據數據挖掘系統的設計與實現

2.1Map Reduce架構

在云數據數據挖掘中,Map Reduce 同樣可以采用 Master/Slave 主從結構,根據Map Reduce的核心思想可以設計得到Map Reduce 架構主要包括Client、Job Tracker、Task Tracker 和 Task這四個組件。

2.2基于Map Reduce的數據挖掘

Map Reduce 是一種非常適合處理數據量很大,并且計算過程簡單的并行計算框架,將Map Reduce 應用于數據挖掘領域是應對大數據挖掘難題的一種需求,是當今社會云數據出現后解決數據問題最簡單的一個方式。2006年,在 NIPS 國際會議上提出一種稱為“求和范式”條件,這種條件很明確的指出:一個數據挖掘算法能用 Map Reduce的基本要求。[9]

圖2基于Map Reduce的云數據數據挖掘模型

3 K-means算法

K-Means算法是以K為參數,把數據集內的N個數據元組分為K個子集,以使得子集內的所有數據元組具有較高的相似度,且子集之問的數據元組的相似度較低。而相似度則是根據子集內對象的平均值來進行計算的[9]。K-Means算法的基本過程為:首先在全體數據集內任意選取K個數據元組作為初始的聚類中心,數據集內剩下的其他數據元組,則計算其與聚類中心的相似度(根據需要事先確定的某種歐氏兒何距離),依次將它們分別劃歸到與之最為相似(聚類中心的代表元組)的一個聚類中,再重新計算每個歸并之后獲得了新數據元組的新的聚類中心(新聚類所有數據元組的均值);并重復上述過程直到預先指派的某個測度函數(一般是均方差函數)收斂到某個闌值為止[10]。

3.1K-means算法聚類分析距離D的計算方法[11]

K-means算法的優點是原理簡單,算法過程中的大部分計算來自于數據與聚類中心的距離計算與新的聚類中心的迭代過程。通常算法中的距離計算都是基于向量的。根據所選K-means算法的核心意義不同可以有以下四種不同的計算方法:

(1)余弦距離

兩個向量之間的夾角的余弦值即為余弦距離,余弦距離與兩個向量之間的夾角成反比關系。兩個n維向量的余弦距離如下公式1所示。

(2)歐幾里得距離

歐式距離是測量的是n維空間中每個點之間的絕對距離。歐幾里得距離計算公式2如下所示。

(3)曼哈頓距離

曼哈頓距離主要是兩個點在標準坐標軸上的絕對軸距總和,曼哈頓名字主要是從網格狀的城市區建筑塊得來,在知道每個維度距離的同時,我們可以使用曼哈頓距離計算得到。兩個n維向量的曼哈頓距離如下公式3所示。

(4)Tanimoto距離

余弦距離沒有計算到向量的權值,需要反映向量之間的角度就要使用Tanimoto距離。Tanimoto距離同時又叫Jaccard距離,角度和點之間的相對距離是我們通過Tanimoto距離所要得到多少數據。兩個n維向量的Tanimoto距離如下所示。

3.2 K-Means算法的Map/Reduce化

基于經典K-Means算法,探討其云計算化中Map/Reduce化后K-Means算法的方案并進一步研究云計算化后的算法性能是本次研究的關鍵[12-13]。 Map/Reduce化后K-Means算法的執行步驟如下:

(1)隨機選擇k個初始聚類中心,如cp[0]=D[0],cp[k-1]=D[k-1],然后將這些聚類中心中的初始聚類數據復制到OriginalCluster[]中,并將OriginalCluster[]進行分塊處理,根據計算節點集群的情況,將OriginalCluster[]塊分配給各個計算節點;

(2)Map:對于D[0]…D[n]這些數據中,需要分別計算出cp[0]…cp[n-1]之間的距離,距離最近者記為c[i], c[i]的總個數可以用Ci表示,同時在Map/Reduce框架下,把鍵值分別對應到i、D[k]上;

(3)Reduce:由于i是Map/Reduce框架中鍵值對的Key,這保證了同一個Key的所有D [k]會分配到同一個Reduce進程,則在此Reduce進程可以計算新的聚類中心cp[i]=(Ec[i]對應的D[J])/Ci,并將此新的聚類中心存入DestinationCluster[];

(4)比較DestinationCluster[]與OriginalCluster[]這兩個處理方式之間的變化,如果兩者的變化小于預先給定值,則聚類完成,否則將DestinationCluster[]復制到OriginalCluster[]后繼續重復上訴過程執行。

可以看出,K-Means算法的Map/Reduce化算法的改進之處,這是因為Map/Reduce框架是一致不變的,開發人員所要做的工作只是將算法可供Map和Reduce的部分剝離出來,構造鍵值對,其他調度、監控、通訊等任務就全部交由Map/Reduce框架去完成了。

4 實驗仿真與分析

論文研究的是K-Means數據挖掘算法MapReduce化的可行性及過程,通過對實驗形式論證其可行性。云計算是為海量數據的分析及處理而準備的,因此實驗數據應具備如下特點:(1)海量的數據。只有數據規模達到一定的量才能達到本次實驗的目的;(2)所選的數據集中所有的數據其屬性、狀態符、都應該符合K-means數據挖掘算法的Map Reduce化的要求。依次測試Map/Reduce化后挖掘算法的實際工作能力。

本文選取QQ音樂上某電臺的一個媒體庫作為實驗數據集,數據集內包含音樂、歌曲、片頭、片花、廣告、音效、混合媒體包等媒體文件共110萬條數據記錄,同時包含電臺聽眾點播記錄600萬條,網絡互動消息記錄2000萬條[14-15]。

4.1實驗結果分析

第一組實驗使用的是數據集中網絡互動消息記錄中提取出來的1000萬條數據,配置DataNode上的Reduce節點數為1, Map節點數分別為:1, 2, 5, 10, 100。K-Means算法的耗時分別為:612s, 466s, 307s, 163s, 199s。根據數據可以很直觀的表示Map節點和耗時關系圖如下圖3所示:

圖3 Map節點和耗時關系圖

根據圖像很容易看出Map節點和耗時情況的關系,在Reduce節點為1的基礎上,從數據中可以得出map節點在10的時候其運行效率最高。

第二組實驗使用所有的數據集,配置DataNode上的Reduce節點數為1, Map節點數始終為10,而分別使用100萬、500萬、1000萬、1500萬、1800萬、2000萬條數據進行運算。K-Means算法的耗時分別為:66s,169s, 288s, 352s, 429s, 475s。根據數據得出不同數據量運算和時間關系圖如圖4所示:

圖4數據量和時間關系圖

從圖4圖表信息中我們可以得出,Map節點數不變的時候,隨著數據量的增加耗時也會逐漸增加。兩者之間成正比關系。

4.2 Map reduce的云數據挖掘速度優化

加速比是在數據處理中運行消耗的時間的比率,K-means算法就是一種數據挖掘算法,加速比可以用來衡量次算法對于云數據挖掘速度優化條件。我們定義加速比,其中,sp為加速比,t1為單處理器下的運行時間,tp為p個處理器下并行計算的運行時間[16]。

分別測試數據集在1個節點和3, 5, 7, 9個節點的集群中k-means并行計算時間及其比率,得出加速比S1,S3,S5, S7,S9,結果如圖5所示。隨著云數據數據量的增加,其中的節點數也會隨之增加,圖5表明,同一數據集處理的加速比是逐漸增大的,也說明k-means算法在云數據挖掘中有更大的計算能力。

圖5 K-means算法集群優化數據圖

5 結束語

首先深入研究了K-means的關鍵算法在 Map Reduce 的核心設計思想和實現,并且根據Map Reduce中的聚類K-means算法對給定數據集進行試驗。在掌握了 Map Reduce 并行計算框架這一基礎之上,通過對多種數據挖掘算法進行分析,提出并構建一種基于Map Reduce 的數據挖掘算法并行化實現模型。根據此模型和次模型給定的數據結果,總結了K-means算法在Map Reduce中處理大規模數據時的性能瓶頸,并且做了性能試驗分析。

當今時代網絡的普及帶來了海量數據難以處理的難題。研究的云數據中數據挖掘算法,是當今云數據迅速發展中一項較為復雜的技術,通過對K-means算法進行Map reduce化進行改進,從而能夠更好地縮短云數據數據挖掘的時間,提高效率,最大限度發揮了的可用性、協同性、擴展性等特點。

[1]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域一一大數據的研究現狀與科學思考[J].中國科學院院刊,2012.

[2]王佳雋,呂智慧,吳杰等.云計算技術發展分析及其應用探討田.計算機工程與設計,2012.

[3]Apache Hadoop.[EB/OL]. http://hadoop.apache.org. (2013-12-01).

[4]李雪梅,張素琴.數據挖掘中聚類分析技術的應用[J].武漢大學學報(工學版),2009.

[5]田力.山東移動通信公司泰安分公司BI系統設計[D]. 山東大學,2009.

[6]張釗寧.數據密集型計算中任務調度模型的研究[D].國防科學技術大學,2011.

[7]從玉相.基于MapReduce的社區挖掘算法[D].上海交通大學,2013.

[8]Rakesh Agrawal,Ramakrishnan Srikant. Fast Algorithms for mining association rules in large databases. Very Large Data Bases,International Conference Proceedings,P487-499,1994.

[9]Shcn M, Tzcng U H,Liu D R. Multi-criteria task as-signment in workflow management term Sciences,2003. Proceedings of the 36th Annual Hawaii International Conference on.IEEE,2003.

[10]曹聰.云計算支持下的數據挖掘算法及其應用[D]. 廣州大學, 2013.

[11]Yaakob SB, Kawata S. Workers placement in an in-dustrialenvironment[J].Fuzzy Setand Systems,1999.

[12]劉怡,張裁.基于負載平衡和經驗值的工作流任務分配策略[J].計算機工程,2009.

[13]郭希娟,李墨華.基于多準則的動態任務分配算法[J]一計算機應用,2008.

[14]江小平,李成華,向文,張新訪,顏海濤.k-means聚類算法的MapReduce并行化實現[[J].華中科技大學學報,2011.

[15]李賢虹.基于數據挖掘的讀者個性化信息服務系統的研究與設計[D].南昌:南昌大學,2009.

[16]張立.多體系統傳遞矩陣法分布式并行計算研究[J]. 中國廠礦醫學, 2009.

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 国产欧美日韩一区二区视频在线| 国内精品久久九九国产精品| 久久精品亚洲专区| 中文字幕天无码久久精品视频免费 | 国产黄视频网站| 亚洲成人在线免费观看| 热久久这里是精品6免费观看| 麻豆精品在线| 欧美成人精品在线| av无码久久精品| 中文字幕1区2区| 精品伊人久久久大香线蕉欧美 | 激情六月丁香婷婷四房播| 欧美一级特黄aaaaaa在线看片| 亚洲欧美日韩精品专区| 欧美一区二区三区不卡免费| 国产成人a在线观看视频| 国产又爽又黄无遮挡免费观看| 试看120秒男女啪啪免费| 人妻无码中文字幕一区二区三区| 国产成a人片在线播放| 波多野吉衣一区二区三区av| 亚洲欧美综合精品久久成人网| 久久久久88色偷偷| 国产十八禁在线观看免费| 久久精品亚洲中文字幕乱码| 久久亚洲国产最新网站| 91成人在线免费视频| 一级毛片无毒不卡直接观看 | 中文字幕欧美日韩| 国产综合无码一区二区色蜜蜜| 国产亚洲欧美在线人成aaaa | 国产精品爆乳99久久| 强乱中文字幕在线播放不卡| 欧美成人午夜影院| 色哟哟精品无码网站在线播放视频| 国产爽妇精品| 夜夜操天天摸| 国产精品手机在线观看你懂的| av手机版在线播放| 欧美日韩国产精品综合| 国产午夜人做人免费视频中文| 亚洲三级网站| 在线中文字幕日韩| 成人在线天堂| 久久www视频| 国产xx在线观看| 亚洲色成人www在线观看| 久久福利网| 色九九视频| 久久久精品国产亚洲AV日韩 | 18禁色诱爆乳网站| 五月丁香在线视频| 999精品免费视频| 在线精品视频成人网| 国产高清精品在线91| 欧洲av毛片| 无码福利视频| 欧美色综合网站| 久久国产毛片| 色网在线视频| 国产青榴视频在线观看网站| 亚洲国产精品一区二区第一页免| 99精品免费欧美成人小视频| 国产69精品久久久久孕妇大杂乱 | 久久综合色视频| 香蕉久久永久视频| 国产精品视频观看裸模| 亚洲午夜福利精品无码不卡 | 成人福利在线看| 久久狠狠色噜噜狠狠狠狠97视色| 国产制服丝袜91在线| 5555国产在线观看| 特级精品毛片免费观看| 精品一区二区三区视频免费观看| 制服丝袜在线视频香蕉| 色呦呦手机在线精品| 欧美国产综合视频| 69精品在线观看| 女人一级毛片| 国产91精品久久| 91网站国产|