999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算的數據挖掘算法研究

2013-12-31 00:00:00李珩武雪芳
無線互聯科技 2013年12期

摘 要:隨著網絡信息技術的快速發展,面對網絡中海量數據的挖掘存在著計算能力和存儲空間兩方面的限制,云計算技術可以有效地解決數據挖掘中出現的這些問題。本文介紹了云計算的關鍵技術,數據挖掘算法的分類以及云計算平臺下的數據挖掘算法。

關鍵詞:云計算;數據挖掘;MapReduce

隨著互聯網信息技術的飛速發展,網絡中的信息量、數據量越來越龐大,而且這些大量的信息數據并非簡單整齊地排列在數據庫中,它們具有動態、異構、分布廣等特點,分析與處理這些數據的復雜度高,計算能力和存儲空間方面不容易達到要求,給現有的數據挖掘帶來了難題。云計算可以有效地解決這個問題,它是數據管理技術發展的必然趨勢。

1 云計算及其關鍵技術

云計算技術是近年來新興起的共享型編程架構方法,它是由傳統的網格計算和并行計算發展而來的,本質上是一種分布式并行計算技術,它所處理的數據并不是運行在本地機器上,而是存儲在大規模服務器集群中。

云計算技術的基本原理是通過遠程服務訪問大量分布式計算機組成的服務器集群,為互聯網用戶提供計算、存儲、軟硬件等服務,云計算系統可以按照用戶的需求來分配資源并根據任務的優先級別訪問計算機和存儲系統,從而提高了對軟硬件資源的利用率。

2 數據挖掘算法分類

通過數據挖掘去發現知識的模式一般有兩種,分別是統計分析型數據挖掘和預測決策型數據挖掘,兩類挖掘模式都有各自經典的算法,并且從不同視角可以有以下不同的分類標準。

2.1 根據發現的知識種類分類

根據數據挖掘發現的知識種類可將數據挖掘算法分為:數據總結、數據聚類、關聯規則發現、序列模式發現、分類或預測模型知識發現、依賴關系或依賴模型發現、異常和趨勢發現等。

2.2 根據挖掘的數據庫種類分類

根據挖掘的數據庫種類可以分為基于各種數據庫的挖掘算法:關系型數據庫、面向對象數據庫、空間數據庫、文本數據庫、多媒體數據庫、異質數據庫、遺留數據庫等,以及基于數據倉庫和基于Web的數據挖掘算法等。

2.3 根據挖掘方法采用的技術分類

根據數據挖掘方法采用的技術可以將數據挖掘算法分為:統計分析、機器學習、模式識別、面向數據庫或數據倉庫技術、可視化技術和神經網絡等。

基于云計算的數據挖掘算法是在以上這些數據挖掘算法的基礎上,采用云計算平臺實現的數據挖掘算法。各挖掘算法對數據類型的要求是不同的,它不可能會適應所有數據類型的挖掘應用,所以我們在考慮不同數據類型的挖掘和具體的應用時,往往要結合多方面的因素來考慮算法的優缺點,以便能夠采用多種算法實現有效的數據挖掘。

3 云計算平臺下的數據挖掘算法

MapReduce是一種基于云計算的并行編程模型,它采用函數式的編程思想,將整個模型的計算過程分為映射過程Map和聚集處理過程Reduce。其中,Map階段負責數據拆分,Reduce階段負責數據歸并。想要將經典的數據挖掘算法運行在云平臺上,算法本身并不需要太大的變化,關鍵在于要將算法按照Map/Reduce框架合理的并行化,以及將并行化后的算法部署在云計算環境中,使得它可以加載云存儲環境中的數據并進行運算。

3.1 基于Map/Reduce的Apriori算法執行過程

⑴主進程基于(K-1)-項頻繁項集遍歷事務數據庫,并生成K-項候選集,然后由Map/Reduce框架將此候選集分發到各個計算節點;⑵每個Map節點處理一個數據分塊,并計算當前分配到數據分塊的K-項候選集的支持數,此時Map/Reduce框架會在數據分塊和Map節點之間持續調度,直到所有的分塊數據處理完畢為止;⑶Reduce節點合并來自所有Map節點處理的數據,獲得全局K-項候選集的支持數,并基于此支持數生成(K+1)-項頻繁項集;⑷主進程通過遍歷事務數據庫來決定該任務是否已經完成。

3.2 基于Map/Reduce的K-Means算法執行過程

⑴隨機選擇k個初始聚類中心,同時將這些初始聚類中心保存到OriginalCluster[]中,并將其進行數據分塊,根據計算節點集群的情況,將此分塊分配給各個計算節點;⑵在Map階段計算最近距離和總數,同時在Map/Reduce框架下,把鍵值對的Key和Value分別對應到i和D[k],其中D是事務數據集;⑶在Reduce階段,由于i是Map/Reduce框架中的Key,這就保證了同一個Key的所有D[k]會分配到同一個Reduce進程中,在此Reduce進程計算新的聚類中心并保存到DestinationCluster[]中;⑷比較DestinationCluster[]和OriginalCluster[]兩個值,如果兩者的變化小于預先給定的閾值則聚類完成,否則,將DestinationCluster[]保存到OriginalCluster[]中,繼續跳轉到第(2)步執行。

3.3 基于Map/Reduce的PageRank算法執行過程

⑴Map階段讀入數據文件集中的每行數據,把這些數據進行簡單的格式處理,并拆分成形式。⑵Reduce階段收集Map階段的輸出,按照key值合并相應的value值,對每個key值計算并輸出新的PageRank,將數據結果保存在HDFS中,用于下一次迭代計算。⑶將階段(2)計算的結果與階段(1)生成的鏈接結果合并,作為下一次迭代計算PageRank值的輸入。

4 結束語

基于云計算數據挖掘是當今計算機界的熱門研究領域,其研究成果應用前景廣闊且價值巨大。隨著云計算技術的進一步發展,必將對數據挖掘帶來更多新的突破和更好的技術支持。

[參考文獻]

[1]劉鵬.云計算[M].北京:電子工業出版社,2010.

[2]李軍華.云計算及若干數據挖掘算法的MapReduce化研究[D].成都:電子科技大學,2010.

主站蜘蛛池模板: 精品一区二区久久久久网站| 国产人妖视频一区在线观看| 天天色天天操综合网| 国产产在线精品亚洲aavv| 亚洲天堂免费| 国产精品主播| 精品福利网| 国产精品第三页在线看| 亚洲成人动漫在线观看| 亚洲人成网站观看在线观看| 国产精品人人做人人爽人人添| 亚洲午夜片| 综合久久五月天| 国产女人综合久久精品视| 先锋资源久久| 华人在线亚洲欧美精品| 一级毛片在线免费视频| 中文字幕色在线| 在线网站18禁| 久久夜色精品| 国产一国产一有一级毛片视频| 久久99国产乱子伦精品免| 欧美一级黄片一区2区| 久久香蕉国产线看精品| 国产精品美女免费视频大全| 国产成人亚洲毛片| 亚洲无码高清一区| 五月激情婷婷综合| 亚洲中文字幕久久无码精品A| 国产精品流白浆在线观看| 色婷婷综合激情视频免费看| 国产精品va| 亚洲精品天堂自在久久77| 91福利一区二区三区| 国产午夜福利亚洲第一| 国产亚洲精品无码专| 97亚洲色综久久精品| 日本三区视频| 天天综合天天综合| 国产xxxxx免费视频| 91久草视频| 91成人在线观看| 精品福利网| 中文字幕免费视频| 中国一级特黄大片在线观看| www.精品视频| 日韩黄色精品| 亚洲AV无码乱码在线观看裸奔 | 中文字幕调教一区二区视频| 欧美日韩精品综合在线一区| 91久久精品国产| 午夜不卡视频| 一级毛片免费观看久| 中文字幕乱码中文乱码51精品| 亚洲三级视频在线观看| 久久窝窝国产精品午夜看片| 色网站在线视频| 真实国产精品vr专区| 亚洲欧美自拍中文| 九九热这里只有国产精品| 国产一区二区三区在线精品专区| 欧美黄网在线| 国产香蕉97碰碰视频VA碰碰看 | 国产熟睡乱子伦视频网站| 国内丰满少妇猛烈精品播| 国产日韩欧美中文| 伊人精品成人久久综合| AV在线麻免费观看网站 | 国产99视频免费精品是看6| 亚洲欧美另类日本| 2020国产精品视频| 亚洲aaa视频| 91一级片| 亚洲成人免费在线| 欧美全免费aaaaaa特黄在线| 亚洲午夜福利精品无码不卡| 国产精品成人一区二区| 99色亚洲国产精品11p| 国产黄色视频综合| 日韩AV无码免费一二三区| 久久美女精品| 九九久久精品国产av片囯产区|