999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop集群實現詞頻統計應用

2021-07-20 08:14:58羅利
網絡安全技術與應用 2021年6期
關鍵詞:單詞案例環境

◆羅利

(湖南信息職業技術學院 湖南 410299)

Hadoop 是Apache 基金會支持,采用Java 語言開發[1],以分布式文件系統HDFS 和分布式計算框架MapReduce 為核心[2],以及一些其他子項目組成的分布式系統架構。詞頻統計是大數據分析中經常要使用的功能,利用Hadoop 平臺可以實現詞頻統計,Wordcount 案例是Hadoop 的經典案例之一,以空格的形式對英文進行詞頻統計,初學者在學習Mapreduce 編程時都是以Wordcount 案例作為入門。本文利用Hadoop 分布式數據處理,實現Wordcount 案例統計單詞出現次數的功能。

1 Hadoop 集群搭建

1.1 環境配置

本實驗Hadoop 完全分布式集群搭建環境由3 臺服務器構成,需要的軟件和系統環境要求如表1所示。

表1 集群環境信息

1.2 集群搭建

Hadoop 集群主要有一個NameNode 節點和3 個DataNode 節點構成,搭建主要步驟如下:

(1)安裝Centos7 操作系統的虛擬機。

(2)安裝JDK。

(3)安裝Hadoop 2.7.2。

(4)SSH 免密登錄。

(5)配置集群。

(6)啟動集群。

2 詞頻統計實現

2.1 開發環境配置

用于開發的電腦需要安裝JDK 和hadoop2.7.2(本文在Win10 中開發),同時把hadoop2.7.2/bin 目錄下的hadooo.dll 文件拷貝到C:WindowsSystem32 目錄下。然后添加環境變量HADOOP_HOME,變量值為HADOOP 安裝路徑:E:hadoop-2.7.2。并在Path 環境變量中添加%HADOOP_HOME%in。在Windows 的控制臺下java-version、hadoop version 出現正確的jdk 版本和Hadoop 版本,說明環境準備成功。

然后在Eclipse 中配置Hadoop 開發環境,將下載的hadoop 插件hadoop-eclipse-plugin-2.7.2.jar 復制到eclipse 安裝目錄下的plugins 目錄下,重啟eclipse。

接著打開 Eclipse,增加 Map/Reduce 功能區,打開Window-Perspective-open Perspective-other,選擇Map/Reduce 選項,添加進來。然后導入 MapReduce 運行依賴的 jar 包,打開Window-Preferences,選擇 Hadoop Map/Reduce,瀏覽hadoop 的安裝路徑,點擊Apply,如圖1所示。

圖1 Hadoop 依賴設置

2.2 詞頻統計原理

把需要統計的文檔放入目錄src_data 中,運行程序,文檔執行Map 和Reduce 兩個階段。Map 和Reduce 階段的輸入輸出形式為鍵值對。Map 階段以單詞之間的空格分隔符作為分割,Map 階段輸入:Key 是行偏移量,Value 是一行的內容;Map 階段輸出:Key 是單詞,Key 是標記1;Map 階段完成后,進行Shuffle 過程,Shuffle 對< Key,Value >進行排序、歸并,將相同的鍵歸并到一起。reduce 函數接收一個如形式的輸入,然后對這個value 集合進行合并,即將1 的個數累加。Reduce 結束后返回程序的輸出,輸出形式為<單詞,統計次數>。

2.3 代碼實現

啟動hadoop 集群,Eclipse 連接集群編寫mapreduce 程序(基于Java 語言)統計單詞出現次數。改寫Mapper 類和Reducer 類,核心代碼如下:

編寫 WordcountMapper 、 WordcountReducer 類后,編寫WordcountDriver 驅動類(主類),然后設置輸入輸出目錄在Windows系統上,調試程序是否正確。

3 HDFS 上測試程序

在Eclipse 中導出wordcount 工程為wordcount.jar 包,將其放到HDFS 系統上運行。

(1)將wordcount.jar 放入/opt/module/hadoop2.7.2 下。

(2)新建目錄。在Linux 本地/opt/module/hadoop2.7.2 下新建目錄winput,在該目錄下創建測試文件word.txt,并寫入相應內容,代碼如下:

[root@master hadoop-2.7.2]# mkdir winput

[root@maste hadoop-2.7.2]# cd winput/

[root@maste winput]# touch word.txt

[root@master winput]# cat word.txt

hadoop hdfs yarn mapreduce

spark hbase hdfs

hadoop hadoop spark

(3)HDFS 系統上新建目錄。在HDFS 的根目錄下創建目錄testinput,代碼如下:

圖2 HDFS 查看輸出文件

圖3 單詞統計結果

至此,統計出了word.txt 文件中每個單詞出現的次數。Hadoop分布式集群的搭建、配置、運行測試全部完成。

猜你喜歡
單詞案例環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
孕期遠離容易致畸的環境
單詞連一連
隨機變量分布及統計案例拔高卷
環境
看圖填單詞
發生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
一個模擬案例引發的多重思考
中國衛生(2015年4期)2015-11-08 11:16:06
主站蜘蛛池模板: 超碰精品无码一区二区| 国产毛片网站| 18禁高潮出水呻吟娇喘蜜芽| 无码中文AⅤ在线观看| 国产精品女同一区三区五区| 亚洲国产理论片在线播放| 午夜成人在线视频| 国产人成午夜免费看| 亚洲第一香蕉视频| 人妻一本久道久久综合久久鬼色 | 国产流白浆视频| 国产在线一二三区| 中文字幕乱妇无码AV在线 | 又黄又湿又爽的视频| 精品视频免费在线| 91色爱欧美精品www| 91小视频在线观看免费版高清| 美女一区二区在线观看| 欧美成人一区午夜福利在线| 五月婷婷精品| 91成人免费观看| 东京热高清无码精品| 老司机精品一区在线视频| 亚洲日韩图片专区第1页| 日韩中文欧美| 日本国产在线| 五月天久久综合国产一区二区| 欧美亚洲欧美| 亚洲精品无码AV电影在线播放| 欧美在线综合视频| 亚洲av综合网| 欧洲精品视频在线观看| 国产成人综合久久| 亚洲综合色区在线播放2019| 亚洲系列无码专区偷窥无码| 好紧太爽了视频免费无码| 国产精品三区四区| 国产在线观看91精品亚瑟| 九九热精品视频在线| 亚洲国产日韩一区| 久久久精品久久久久三级| 草草影院国产第一页| 国产成人在线无码免费视频| a级毛片一区二区免费视频| 亚洲人妖在线| 国产麻豆va精品视频| 伊人无码视屏| 亚洲视频在线观看免费视频| 亚洲无码A视频在线| 色婷婷电影网| 久久国产av麻豆| 国产无人区一区二区三区| 国产农村1级毛片| 亚洲毛片在线看| 成人在线亚洲| 狠狠色丁香婷婷| 欧美全免费aaaaaa特黄在线| 亚洲精品中文字幕午夜| 狠狠做深爱婷婷综合一区| 国产成人高清精品免费| 99性视频| 91精品啪在线观看国产91| 五月天香蕉视频国产亚| 国产精品一线天| 热99精品视频| 国产精品99一区不卡| 亚洲天堂日韩在线| 欧美在线一二区| 亚洲天堂伊人| 在线日韩日本国产亚洲| 国产乱子伦视频在线播放| 久久国产V一级毛多内射| 99re这里只有国产中文精品国产精品| 一级在线毛片| 亚洲女同一区二区| 综合色婷婷| 亚洲欧美另类久久久精品播放的| 亚洲无码免费黄色网址| 亚洲欧美日韩综合二区三区| 久久亚洲国产最新网站| 国产成人艳妇AA视频在线| 成人午夜视频网站|