999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用研究

2016-07-09 08:06:51沈永梅王暉
關(guān)鍵詞:應(yīng)用

沈永梅 王暉

摘要:對于數(shù)據(jù)擁有者來講,數(shù)據(jù)挖掘服務(wù)的提供能夠為其開展相關(guān)工作提供較大的便利。因此,基于這種認識,本文對一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)進行了分析,并且對其在網(wǎng)頁數(shù)據(jù)信息挖掘和分析上的應(yīng)用展開了探討,從而為關(guān)注這一話題的人們提供參考。

關(guān)鍵詞:Hadoop 大數(shù)據(jù)挖掘 云服務(wù) 應(yīng)用

中圖分類號:TP311.5 文獻標識碼:A 文章編號:1007-9416(2016)06-0000-00

1基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)

1.1云服務(wù)架構(gòu)分析

云服務(wù)WMCS是新一代基于Hadoop的數(shù)據(jù)分析和挖掘平臺,其集成了多種基于Hadoop的數(shù)據(jù)挖掘算法,能夠為政府機構(gòu)、企業(yè)進行數(shù)據(jù)挖掘提供支持。而所謂的Hadoop,其實就是可以進行穩(wěn)定且可靠的接口及數(shù)據(jù)服務(wù)提供的平臺,可以實現(xiàn)MAP/Reduce算法,并且能夠?qū)⑽谋緞澐殖煽芍貜?fù)執(zhí)行的若干個單元。在整個平臺中,MAP/Reduce算法、分布式文件系統(tǒng)(HDFS)和分布式按列存儲數(shù)據(jù)庫(HBase)將始終貫穿。利用這些算法和數(shù)據(jù)庫結(jié)構(gòu),系統(tǒng)能夠以較高傳輸率進行大量數(shù)據(jù)訪問,并且能夠?qū)崿F(xiàn)文本數(shù)據(jù)的分流訪問[1]。此外,Hadoop平臺也能夠?qū)崿F(xiàn)數(shù)據(jù)分解,并且完成大量數(shù)據(jù)的分析和處理。

從云服務(wù)WMCS體系結(jié)構(gòu)上來看,該平臺主要由用戶管理模塊、數(shù)據(jù)管理模塊、任務(wù)管理模塊和結(jié)果顯示模塊等幾大模塊構(gòu)成。采用分布式文件系統(tǒng)和分布式按列存儲數(shù)據(jù)庫,平臺將能進行大量數(shù)據(jù)的存儲,并且確保用戶能夠進行數(shù)據(jù)的快速訪問。利用Web界面,平臺則能向用戶展示數(shù)據(jù)挖掘結(jié)果。利用用戶管理模塊,平臺則能夠?qū)τ脩暨M行權(quán)限管理,從而使用戶只能進行有權(quán)限的數(shù)據(jù)的訪問和管理,并且進行相應(yīng)的數(shù)據(jù)挖掘功能的使用。利用任務(wù)管理模塊,用戶則能夠進行挖掘任務(wù)和監(jiān)控任務(wù)進度的查看。而平臺的各個模塊需要與后臺挖掘系統(tǒng)進行對接,才能夠?qū)崿F(xiàn)各種功能,并且最終利用圖形進行算法分析結(jié)果的展示。

1.2數(shù)據(jù)挖掘的實現(xiàn)

從數(shù)據(jù)挖掘?qū)崿F(xiàn)角度來看,云服務(wù)WMCS是并行數(shù)據(jù)挖掘系統(tǒng),其中含有40多種數(shù)據(jù)挖掘算法,能夠利用多種算法完成數(shù)據(jù)的預(yù)處理操作。在該系統(tǒng)中,包含有文本處理與建模系統(tǒng)、信息采集系統(tǒng)、數(shù)據(jù)挖掘系統(tǒng)和前臺接口。在系統(tǒng)運行的過程中,信息采集系統(tǒng)會將數(shù)據(jù)存儲至分布式文件系統(tǒng)中,然后將網(wǎng)頁描述信息存儲至分布式按列存儲數(shù)據(jù)庫中。而信息采集需要以基于MAP的并行網(wǎng)絡(luò)爬蟲為主體,可以為多種采集模式提供支持。在文本預(yù)測及建模系統(tǒng)中,則包含包括中文分詞模型建模、文本特征提取等多種文本挖掘預(yù)處理模塊[2]。利用數(shù)據(jù)挖掘系統(tǒng),則可以利用情感分析算法、關(guān)聯(lián)分析算法、摘要提取算法等多種數(shù)據(jù)挖掘算法完成海量數(shù)據(jù)的挖掘。而利用MAP,則可以使這些算法獨立運行。此外,在并行數(shù)據(jù)挖掘系統(tǒng)中,還包含基于內(nèi)存計算框架Spark的數(shù)據(jù)挖掘算法,可以為用戶提供開放服務(wù)。

2基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)的應(yīng)用研究

2.1應(yīng)用介紹

利用Hadoop的大數(shù)據(jù)挖掘云服務(wù)WMCS,可以從網(wǎng)絡(luò)數(shù)據(jù)信息中挖掘出有效的信息,從而為政府開展相關(guān)管理工作提供便利。就目前來看,社會熱點和重大新聞在網(wǎng)絡(luò)上的傳播速度較快。政府管理者在開展民情調(diào)查和社會調(diào)查等工作時,可以借助互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)進行管理決策的制定。而使用云服務(wù)WMCS,則可以利用較為簡便的數(shù)據(jù)挖掘流程進行網(wǎng)絡(luò)事件的話題分析。同時,通過簡單的配置,系統(tǒng)分析結(jié)果也將以多維度圖形呈現(xiàn)出來,從而為用戶開展相關(guān)管理工作提供便利。

2.2應(yīng)用流程

以2015年年末的國內(nèi)熱點事件“習(xí)馬會”為例,如果用戶想要了解該話題的分布情況,就可以直接在系統(tǒng)界面上輸入“習(xí)馬會”這一關(guān)鍵詞。而通過修改采集網(wǎng)頁數(shù)量等參數(shù),用戶就可以完成系統(tǒng)的簡單配置。在此基礎(chǔ)上,系統(tǒng)將開始運行挖掘任務(wù)。具體來講,就是以關(guān)鍵詞為檢索項進行搜索請求的發(fā)出。根據(jù)這一請求,搜索引擎進進行相關(guān)網(wǎng)頁的搜集,然后返回設(shè)定數(shù)量的網(wǎng)頁。所以,從云服務(wù)WMCS的應(yīng)用流程上來看,系統(tǒng)運行是一種話題分析流程。在系統(tǒng)運行的過程中,后臺將同時進行多個子話題的并行預(yù)處理,然后利用基于單掃描增量式聚類的并行主體發(fā)現(xiàn)算法完成數(shù)據(jù)的挖掘分析。通過將半結(jié)構(gòu)化的原始網(wǎng)頁處理成稀疏詞頻向量,系統(tǒng)將能利用并行主題發(fā)現(xiàn)算法實現(xiàn)向量的主題發(fā)現(xiàn),然后進行網(wǎng)頁文檔群隱含話題的自動挖掘。完成挖掘流程之后,系統(tǒng)就可以利用多維度呈現(xiàn)技術(shù)進行用戶關(guān)心熱點事件分析結(jié)果的呈現(xiàn)。

2.3應(yīng)用效果

從云服務(wù)WMCS的應(yīng)用效果上來看,系統(tǒng)將利用餅圖進行“習(xí)馬會”話題分析結(jié)果的展示。在執(zhí)行的話題分析任務(wù)中,分析的網(wǎng)頁將形成7個聚類,每個聚類所占的比例也將得到顯示。而在餅圖的下方,也會出現(xiàn)用于展示聚類內(nèi)部網(wǎng)頁文檔標題、內(nèi)部關(guān)鍵詞和相關(guān)統(tǒng)計信息的表格。針對網(wǎng)絡(luò)中大量存在的網(wǎng)頁,云服務(wù)WMCS還能夠進行話題關(guān)鍵詞檢索服務(wù)的提供。通過對超過167萬網(wǎng)頁進行話題分析,系統(tǒng)將完成超過100GB原始數(shù)據(jù)量的分析,并且最終形成5002個話題類。而通過將話題的關(guān)鍵詞進行倒排索引,則能夠為用戶提供關(guān)鍵詞檢索服務(wù)。

參考文獻

[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,07:103-108.

[2]余永紅,向曉軍,高陽等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計算機科學(xué)與探索,2012,01:46-57.

猜你喜歡
應(yīng)用
配網(wǎng)自動化技術(shù)的應(yīng)用探討
科技視界(2016年21期)2016-10-17 19:54:47
帶壓堵漏技術(shù)在檢修中的應(yīng)用
科技視界(2016年21期)2016-10-17 19:54:05
行列式的性質(zhì)及若干應(yīng)用
科技視界(2016年21期)2016-10-17 18:46:46
癌癥擴散和治療研究中的微分方程模型
科技視界(2016年21期)2016-10-17 18:37:58
紅外線測溫儀在汽車診斷中的應(yīng)用
科技視界(2016年21期)2016-10-17 18:28:05
多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
考試周刊(2016年76期)2016-10-09 08:45:44
微課的翻轉(zhuǎn)課堂在英語教學(xué)中的應(yīng)用研究
分析膜技術(shù)及其在電廠水處理中的應(yīng)用
科技視界(2016年20期)2016-09-29 14:22:00
GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
科技視界(2016年20期)2016-09-29 12:03:12
煤礦井下坑道鉆機人機工程學(xué)應(yīng)用分析
科技視界(2016年20期)2016-09-29 11:47:01
主站蜘蛛池模板: 午夜无码一区二区三区| 97国产一区二区精品久久呦| 欧美成人影院亚洲综合图| 激情综合婷婷丁香五月尤物| 久操中文在线| 精品国产自| 国内精品九九久久久精品| 全免费a级毛片免费看不卡| 日本亚洲成高清一区二区三区| 热99re99首页精品亚洲五月天| 亚洲精品国产日韩无码AV永久免费网| 欧美成人国产| 久久6免费视频| 97人妻精品专区久久久久| 国产精品短篇二区| 国产丝袜无码精品| 国产在线观看成人91| 操国产美女| 亚洲国产成人自拍| 亚洲天堂网在线播放| 99re在线免费视频| 99久久99视频| 日韩欧美91| 狠狠色综合久久狠狠色综合| 亚洲精品国产综合99| 日韩免费毛片视频| 国产一级精品毛片基地| 国产欧美网站| 中国一级特黄大片在线观看| 亚洲无码高清视频在线观看| 日韩在线视频网| 99久久国产综合精品女同| 亚洲精品免费网站| 国产精品免费p区| 欧美在线天堂| 国产jizzjizz视频| 国产区成人精品视频| 国产成人精品一区二区不卡 | 男女猛烈无遮挡午夜视频| 黄色网站在线观看无码| 国产精品白浆无码流出在线看| 无码高潮喷水专区久久| 99精品伊人久久久大香线蕉| 草草影院国产第一页| 免费a级毛片18以上观看精品| 无码内射在线| 黄色在线不卡| 婷婷激情亚洲| 亚洲自拍另类| 巨熟乳波霸若妻中文观看免费| 一区二区影院| 不卡午夜视频| 免费毛片视频| 久久精品娱乐亚洲领先| 国产免费羞羞视频| 九九视频免费在线观看| 欧美亚洲国产日韩电影在线| 婷婷中文在线| 亚洲午夜国产精品无卡| 中国特黄美女一级视频| 四虎国产精品永久一区| av色爱 天堂网| 天天干伊人| av色爱 天堂网| 香蕉精品在线| 91精品日韩人妻无码久久| 在线中文字幕日韩| 国产簧片免费在线播放| 亚洲色图欧美一区| 成年看免费观看视频拍拍| 色综合中文| 色呦呦手机在线精品| 九九这里只有精品视频| 国产精品尹人在线观看| 亚洲精品手机在线| 国产乱子伦无码精品小说| 丁香婷婷激情网| 19国产精品麻豆免费观看| 国产一区二区三区视频| 蜜桃视频一区二区| www.亚洲天堂| 国产尤物jk自慰制服喷水|