999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop海量數(shù)據(jù)挖掘技術(shù)分析

2014-09-21 17:13:57胡昕
企業(yè)導(dǎo)報 2014年11期
關(guān)鍵詞:挖掘數(shù)據(jù)處理

胡昕

摘 要:對現(xiàn)有多款云計(jì)算平臺做了分析與對比。之后選定 Hadoop 開源云平臺作為項(xiàng)目的基礎(chǔ)研究平臺,對其進(jìn)行深入的分析與討論。

關(guān)鍵詞:Hadoop;數(shù)據(jù)處理;挖掘

曾有一句話在互聯(lián)網(wǎng)業(yè)界廣為流傳:“大量的數(shù)據(jù)勝于好的算法”,這句話的意思是說對于某些應(yīng)用,相比與優(yōu)秀的算法,大量可用的數(shù)據(jù)能夠帶來更好的推薦效果。這就是數(shù)據(jù)處理和挖掘。數(shù)據(jù)處理的根本目的是利用有效的手段快速準(zhǔn)確的獲取數(shù)據(jù)、加工數(shù)據(jù)、應(yīng)用數(shù)據(jù)。這其中,數(shù)據(jù)挖掘技術(shù)是將收集到的數(shù)據(jù)得以有效應(yīng)用的核心技術(shù)。數(shù)據(jù)挖掘(Data Mining)技術(shù)又被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn),其核心就是從大量雜亂無章的、難以理解的數(shù)據(jù)中獲取有效的、新穎的、具有潛在應(yīng)用價值的信息的過程。

目前比較有研究價值的 Web 挖掘的方向有:(1)數(shù)據(jù)預(yù)處理技術(shù)方向。(2)現(xiàn)有挖掘算法改進(jìn)方向。(3)智能搜索引擎方向。(4)電子商務(wù)領(lǐng)域應(yīng)用方向。

海量數(shù)據(jù)處理雖然剛剛興起,但數(shù)據(jù)在企業(yè)中一直處于核心地位,傳統(tǒng)的數(shù)據(jù)產(chǎn)品,在企業(yè)中部署運(yùn)行多年,為企業(yè)的經(jīng)營決策貢獻(xiàn)巨大。企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商,排在前六位的分別是 Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle 以絕對優(yōu)勢拔得頭籌,可見其在數(shù)據(jù)庫、數(shù)據(jù)分析和大數(shù)據(jù)方面的地位。值得一提的是Hadoop 的普及水平已超出我們的想象,成為繼 Oracle、IBM和 Microsoft 之后又一主流平臺產(chǎn)品。

Hadoop 云平臺由分布式文件系統(tǒng) HDFS 與并行計(jì)算構(gòu)架MapReduce兩個核心組件構(gòu)成。接下來將對 Hadoop 的核心組件、主要構(gòu)造模塊及拓?fù)浣Y(jié)構(gòu)進(jìn)行分析與討論。

分布式文件系統(tǒng) HDFS。HDFS(Hadoop Distributed FileSystem)是為Hacloop項(xiàng)目開發(fā)的分布式文件系統(tǒng),它采用主/從( master/slave)架構(gòu)。HDFS 由一個NarneNode(文件索引服務(wù)器)以及眾多DataNode(數(shù)據(jù)節(jié)點(diǎn))組成。HDFS 提供給用戶相應(yīng)的文件命名空間供用戶將數(shù)據(jù)以文件的形式存放。HDFS 一般會把這些文件切分為幾個文件塊,切分后的文件塊將被存放在一組數(shù)據(jù)服務(wù)器上。然后由NameNode提供打開、關(guān)閉、重命名文件與目錄等基本功能,同時負(fù)責(zé)將文件塊映射到DataNode上。再由DataNode負(fù)責(zé)響應(yīng)客戶端具體文件的讀寫操作,同時處理由NameNode發(fā)起的創(chuàng)建、刪除和備份數(shù)據(jù)塊的請求。

一般而言 HDFS 在 Linux 操作系統(tǒng)上運(yùn)行。由于采用了Java語言,所以理論上任何支持Java語言的操作系統(tǒng)都可以運(yùn)行NameNode與DataNodeo HDFS 采用主/從式系統(tǒng)架構(gòu),其中的所有元數(shù)據(jù)都存儲在NameNode上,故客戶端可以方便地通過NameNode得到全局?jǐn)?shù)據(jù)存儲狀況,但如果出現(xiàn)NameNode死機(jī)的情況,用戶也將失去訪問數(shù)據(jù)的能力,為此 HDFS 在新版本中加入了備份NameNode功能,以防止上述故障。

并行計(jì)算架構(gòu)MapReduce。MapReduce是一種為多臺計(jì)算機(jī)并行處理大量數(shù)據(jù)而設(shè)計(jì)的并行計(jì)算框架。MapReduce通常工作的輸入數(shù)據(jù)分割成獨(dú)立的數(shù)據(jù)塊,分割后的數(shù)據(jù)一般由多個 Map 任務(wù)并行處理。Mapper 從 HDFS 上取出數(shù)據(jù),處理后將結(jié)果存儲在本地硬盤,Reducer 在本地硬盤或通過網(wǎng)絡(luò)方法取得Mapper 的輸出結(jié)果后進(jìn)一步計(jì)算,將結(jié)果輸出到 HDFS。

MapReduce框架關(guān)注調(diào)度任務(wù),并監(jiān)視任務(wù)的執(zhí)行狀況,如果執(zhí)行失敗,將重新執(zhí)行該任務(wù)。

在 Hadoop 中計(jì)算節(jié)點(diǎn)通常與存儲節(jié)點(diǎn)在一起。這就使得MapReduce框架可以根據(jù)數(shù)據(jù)的存儲分布。情況來調(diào)度任務(wù)。

MapReduce框架包含一個獨(dú)立的主服務(wù)器JobTracker(工作分配服務(wù)器)及一組與DataNode安裝在一起的從服務(wù)器TaskTracker(任務(wù)執(zhí)行服務(wù)器)。主服務(wù)器負(fù)責(zé)將任務(wù)調(diào)度到從服務(wù)器上,并監(jiān)控任務(wù),重新執(zhí)行失敗的任務(wù)。應(yīng)用程序在 HDFS 上指定輸入與輸出位置,并通過實(shí)現(xiàn)專門的接口來提供相應(yīng)的 Map 和 Reduce 方法。 Hadoop 客戶端負(fù)責(zé)發(fā)送工作相配置信息給JobTracker,由JobTracker來分發(fā)、調(diào)度任務(wù)給TaskTracker,并將相應(yīng)的狀態(tài)信息反饋給 Hadoop 客戶端。

首先由JobClient向部署于 Master節(jié)點(diǎn)上的JobTracker守護(hù)進(jìn)程提交MapReduce作業(yè)。JobTracker在接受到作業(yè)請求后計(jì)入隊(duì)列中去。駐留在 Slave 節(jié)點(diǎn)上的TaskTarcker守護(hù)進(jìn)程在完成自己分配到的作業(yè)后會不斷向JobTracker發(fā)送心跳信息,查詢 Job 隊(duì)列中是否有新的任務(wù)可做,若隊(duì)列中有新的任務(wù),JobTracker會在第一時間發(fā)送給空閑的TaskTracker進(jìn)行處理。

Hadoop 有 5 大構(gòu)造模塊構(gòu)成,其分別為:NameNode(名字節(jié)點(diǎn))、SecondaryNameNode(次名字節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))、TaskTracker(任務(wù)跟蹤)、JobTracker(作業(yè)跟蹤)。每個模塊具備不同的功能,共同完成分布式數(shù)據(jù)處理任務(wù)。

在 Hadoop 云平臺基礎(chǔ)上,進(jìn)行了海量 Web 日志數(shù)據(jù)預(yù)處理模型的研究,提出了改進(jìn)型預(yù)處理模型,并在單機(jī)及Hadoop分布式平臺下分別進(jìn)行了仿真驗(yàn)證,對仿真結(jié)果進(jìn)行了對比分析與研究。在海量 Web 日志數(shù)據(jù)預(yù)處理研究基礎(chǔ)上進(jìn)行了Apriori并行分層搜索算法的研究,分析傳統(tǒng) CD、DD 算法的優(yōu)劣、提出改進(jìn)型并行Apriori算法,并對其進(jìn)行MapReduce化,部署于 Hadoop 平臺下做仿真分析,最后對仿真結(jié)果進(jìn)行分析研究。

猜你喜歡
挖掘數(shù)據(jù)處理
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
使德育開花結(jié)果
將“再也沒有”帶向更有深度的思考中
古詩詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
挖掘檔案文化資源推進(jìn)檔案文化建設(shè)
資治文摘(2016年7期)2016-11-23 00:37:46
關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 亚洲综合极品香蕉久久网| AV不卡无码免费一区二区三区| 亚洲Av综合日韩精品久久久| 毛片a级毛片免费观看免下载| 精品久久香蕉国产线看观看gif| 狠狠ⅴ日韩v欧美v天堂| 亚洲Va中文字幕久久一区| 国产一级毛片yw| 欧美不卡二区| 伊人久久精品亚洲午夜| 国产在线视频欧美亚综合| 美女被操91视频| 国产成人综合亚洲网址| 色综合婷婷| 青草视频在线观看国产| 成人午夜视频免费看欧美| 在线欧美a| 欧美日本在线播放| 欧美日韩精品在线播放| 欧美国产另类| 97视频在线精品国自产拍| 亚洲精品国产综合99久久夜夜嗨| 国产免费网址| 欧美另类图片视频无弹跳第一页| 91蜜芽尤物福利在线观看| 一级一级一片免费| 日韩在线播放欧美字幕| 亚洲中文字幕精品| 不卡无码h在线观看| 92午夜福利影院一区二区三区| 亚洲欧美日韩动漫| 在线欧美一区| 又大又硬又爽免费视频| 久久伊伊香蕉综合精品| 丝袜亚洲综合| 国产手机在线观看| 日韩视频免费| 精品欧美一区二区三区久久久| 亚洲成人在线网| 午夜福利无码一区二区| 欧美日韩午夜视频在线观看| 五月婷婷丁香综合| 国产一区二区三区在线精品专区| 88av在线看| 国产美女丝袜高潮| 亚洲国产成人麻豆精品| 伊在人亞洲香蕉精品區| 欧美国产成人在线| 在线观看国产网址你懂的| 国产精品分类视频分类一区| 国产免费福利网站| 日韩av电影一区二区三区四区| 国产性爱网站| 亚洲欧美日韩综合二区三区| 色网在线视频| 国产乱人乱偷精品视频a人人澡| 成人福利视频网| 欧美中文字幕在线播放| 在线无码九区| 福利视频99| 日本精品视频一区二区| 日韩一区二区在线电影| 国产凹凸一区在线观看视频| 亚洲无码四虎黄色网站| 欧美成人h精品网站| 97久久人人超碰国产精品| 国产午夜一级淫片| 99成人在线观看| 国产成人一二三| a毛片在线免费观看| 国产欧美高清| 国产日韩欧美成人| 一本色道久久88| 精品91视频| 日韩毛片在线视频| 在线免费观看a视频| 91麻豆精品国产91久久久久| 中文字幕在线不卡视频| 免费国产高清精品一区在线| 91麻豆精品视频| 五月天久久婷婷| 国产成人狂喷潮在线观看2345|