999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云平臺MapReduce的Apriori算法研究

2016-12-21 11:19:58邵天會
電子技術與軟件工程 2016年20期
關鍵詞:云平臺

邵天會

摘 要 隨著醫療大數據劇增,醫療數據體現的價值更加明顯,而傳統的數據分析方案已經無法滿足日益增長的數據要求,數據挖掘技術的更新更加體現出重要性,針對醫療數據挖掘算法的改進優化成為瓶頸,Apriori算法進行醫療數據的應用中發現眾多優點,特別是基于興趣度的改進算法,讓醫療數據挖掘體現出更多的價值,并對改進的算法進行MapReduce化進行模型實驗,獲得更多的醫療價值。

【關鍵詞】云平臺 MapReduce Apriori算法

1 MapReduce工作原理

MapReduce是通過JAVA開發并簡化了編程模型,讓缺乏相關經驗的程序員不需要了解底層,高效的開發分布式程序。MapReduce對大數據并行處理有突出的優點,尤其針對超過1TB數據更加明顯,主要包括Map (映射)和Reduce (規約)兩個步驟,中心思想是“任務分解,結果合并”。

2 常見的MapReduce化的Apriori算法

2.1 DD算法(Data Distribution)

CD算法的優點是不必要將候選集分布到每個節點,只要分割原始的事務集,從而掃描事務集的次數得到極大的降低。CD算法的缺點是隨著節點數量的增加,內存的浪費也會同比增加。DD算法與CD算法不當節點數量不斷增加,消耗的內存不斷增長,在進行數據處理的過程中,處于事務集和候選集的交互節點,明顯增加了交互次數,導致開銷增大。

2.2 CaD 算法(Candidate Distribution)

DD算法的缺點產生原因在于頻繁項集發生于每次的計算,如果某個節點出現停滯,其他節點需要等待,這樣無形中消耗了時間。CaD算法解決了這個問題,在進行第一次計算時,每個節點通過頻繁項集獨立產生候選集Cm。同時,事務集也被有選擇地分配給各個節點以獨立計算的計數。這樣大大減少了候選集對節點的依賴。

2.3 生成頻繁項算法

具體過程如下:

(1)過InputFormat把事務集劃分N個數據塊,每個數據塊的格式為(TID,LIST),同時M個節點進行獨立的運算各自的數據塊,格式中的LIST為事務標志TID相對應的項目號。

(2)通過程序Map的執行,每個數據塊分別生成各自對應的局部候選項集,此時的候選集算法應用經典的Apriori算法,然后計算每個局部的候選項集的支持度,并且輸出對應的中間值對。

(3)運行Combiner程序于每個節點,對每個節點Map程序的結果進行Combiner合并,然后將每個節點產生的中間值利用Hash進行分區,針對不同的分區執行Reduce過程。

(4)將第三步生成的不同分區的Reduce結果進行候選集支持度求和,進而由局部支持度得到全局支持度。

(5)利用局部支持度和最小支持度的閾值進行比較獲得局部的頻繁項集。

(6)通過把各個局部頻繁項集融合得出全局頻繁項集

(7)迭代重復操作,直到算法完成。

相應的偽代碼:

輸入:事務集分塊后Ti,最小支持度的閾值m-sup;

輸出:相應的頻繁項集I

I=查找頻繁項集(Ti)

i=2;

While(I not null){

i++;

Ci=apriori算法結果;

for 每個候選集掃描;

Ci=Map();}

I=Reduce();

Reduce I;

Map程序:

For 每個屬于Ci的I

EmitInter(I ,局部支持度);

Reduce(I 局部支持度);

Result 為0;

For 每個屬于Ci 的I;

Result=局部支持度的求和;

Emit(本次的I,result);

2.4 關聯規則算法的發現

經過上述方法獲得頻繁項,進而發現相應關聯規則:

(1)數據按照行分塊,即每行對應一個數據塊,每個數據塊生成一個鍵值對(L,li),L作為偏移量,li為數據塊生成的項。

(2)利用Map進行鍵值對掃描,進而生成相對應的關聯規則。

(3)對第二部生成的關聯規則進行Reduce規則約束,把結果進行輸出并保存。

(4)把預先設置的閾值和我們生成的關聯規則中的置信度進行對比從而得出算法的關聯規則。

2.5 實例分析

為了驗證該算法,進行事務集算法實例分析,如表1。

按照改進的算法進行事務集挖掘流程如圖1所示。

由此得出經過改進的MapReduce化的Apriori算法實現了頻繁項集的挖掘,得出({A,B},{B,C})為頻繁項集。這僅僅是簡單的事務集挖掘,隨著事務集數量的增多,結點分配運算的增加,大數據挖掘效率提升更加顯著。

參考文獻

[1]http://Hadoop.apache,org/hdfs.

[2]Amazon simple storage service(Amazon S3)[OL]. http://aws.amazon.com/s3/,2009.

[3]Amazon simple queuing service (Amazon SQS)[OL].http://aws.amazon.com/sqs/, 2009.

[4]劉永增,張曉景,李先毅.基于Hadoop/Hive的web日志分析系統的設計[J].廣西大學學報:自然科學版,2011, 36(01):314-317.

[5]MongoDB官網[DB/0L],http://www. Mongodb.org/display/docs/home.

作者單位

吉林醫藥學院 吉林省吉林市 132013

猜你喜歡
云平臺
云平臺環境下的歷史課堂教學探索
亞太教育(2016年36期)2017-01-17 19:30:40
“云平臺+大數據”在高校檔案管理中的應用研究
東方教育(2016年13期)2017-01-12 23:14:14
云計算環境下的微課移動云平臺設計
智慧城市電子政務云平臺構建
軟件導刊(2016年11期)2016-12-22 21:53:04
Docker技術在Web服務系統中的應用研究
云環境下混合式協作學習教學模式研究
科技視界(2016年23期)2016-11-04 23:13:16
高職院校開展基于云平臺網絡教學的探索與思考
中國市場(2016年36期)2016-10-19 04:43:09
企業云平臺建設研究
基于體域網的移動醫療系統的設計
科技視界(2016年17期)2016-07-15 10:15:56
基于云平臺的微信互聯式教學法的探索與實踐
企業導報(2016年11期)2016-06-16 15:36:34
主站蜘蛛池模板: 欧美色图久久| 一级毛片免费不卡在线| 国产欧美另类| 国产成人夜色91| 中日韩欧亚无码视频| 亚洲综合第一页| 亚洲欧美另类视频| 91久久偷偷做嫩草影院| 亚洲首页国产精品丝袜| 中文字幕精品一区二区三区视频| 中文字幕亚洲另类天堂| 国内精品视频区在线2021| 国产超碰在线观看| 亚洲综合久久成人AV| 毛片在线看网站| 国产精品手机视频| 日韩免费成人| 人妻中文久热无码丝袜| 国产精品尹人在线观看| 日韩国产黄色网站| 91亚洲国产视频| 亚洲色无码专线精品观看| 亚洲制服丝袜第一页| 国产亚洲精品97AA片在线播放| 亚洲成人播放| 成人精品在线观看| 久久精品丝袜高跟鞋| 国产91特黄特色A级毛片| 亚洲精品国产综合99久久夜夜嗨| 黄色网页在线播放| 99精品高清在线播放| 国产成人精品高清不卡在线| 成人毛片免费在线观看| 青青操视频免费观看| 久久一色本道亚洲| 欧美日韩国产成人在线观看| 丰满人妻久久中文字幕| 狠狠色噜噜狠狠狠狠色综合久| 久久综合色天堂av| 亚洲欧美日韩动漫| 天天躁日日躁狠狠躁中文字幕| 国产男女免费视频| 亚洲精品图区| 亚洲丝袜中文字幕| 啪啪啪亚洲无码| 日韩无码视频网站| 日韩成人午夜| 欧美a在线| 欧美亚洲国产精品第一页| 日韩无码视频播放| 国产欧美日韩视频怡春院| 色婷婷啪啪| 99久久精品国产综合婷婷| 婷婷亚洲综合五月天在线| 亚洲av综合网| 色丁丁毛片在线观看| 国产成人高清精品免费5388| 色悠久久综合| 超清人妻系列无码专区| 成年人福利视频| 在线观看热码亚洲av每日更新| 91系列在线观看| 国产精品中文免费福利| 亚洲精品无码日韩国产不卡| 亚欧美国产综合| 91精品免费久久久| 日本高清在线看免费观看| 欧美国产菊爆免费观看| 色婷婷久久| 精品无码一区二区三区电影| 四虎成人在线视频| 国产91高清视频| 欧美成人手机在线观看网址| 特级aaaaaaaaa毛片免费视频| 人妻出轨无码中文一区二区| 五月综合色婷婷| 综合久久五月天| 无码精油按摩潮喷在线播放| 伊大人香蕉久久网欧美| 中文成人在线视频| 久久精品人人做人人爽97| 亚洲bt欧美bt精品|