Hadoop集群實現詞頻統計應用

2021-07-20 08:14:58羅利

網絡安全技術與應用 2021年6期

◆羅利

（湖南信息職業技術學院湖南 410299）

Hadoop 是Apache 基金會支持，采用Java 語言開發[1]，以分布式文件系統HDFS 和分布式計算框架MapReduce 為核心[2]，以及一些其他子項目組成的分布式系統架構。詞頻統計是大數據分析中經常要使用的功能，利用Hadoop 平臺可以實現詞頻統計，Wordcount 案例是Hadoop 的經典案例之一，以空格的形式對英文進行詞頻統計，初學者在學習Mapreduce 編程時都是以Wordcount 案例作為入門。本文利用Hadoop 分布式數據處理，實現Wordcount 案例統計單詞出現次數的功能。

1 Hadoop 集群搭建

1.1 環境配置

本實驗Hadoop 完全分布式集群搭建環境由3 臺服務器構成，需要的軟件和系統環境要求如表1所示。

表1 集群環境信息

1.2 集群搭建

Hadoop 集群主要有一個NameNode 節點和3 個DataNode 節點構成，搭建主要步驟如下：

（1）安裝Centos7 操作系統的虛擬機。

（2）安裝JDK。

（3）安裝Hadoop 2.7.2。

（4）SSH 免密登錄。

（5）配置集群。

（6）啟動集群。

2 詞頻統計實現

2.1 開發環境配置

用于開發的電腦需要安裝JDK 和hadoop2.7.2（本文在Win10 中開發），同時把hadoop2.7.2/bin 目錄下的hadooo.dll 文件拷貝到C：WindowsSystem32 目錄下。然后添加環境變量HADOOP_HOME，變量值為HADOOP 安裝路徑：E：hadoop-2.7.2。并在Path 環境變量中添加%HADOOP_HOME%in。在Windows 的控制臺下java-version、hadoop version 出現正確的jdk 版本和Hadoop 版本，說明環境準備成功。

然后在Eclipse 中配置Hadoop 開發環境，將下載的hadoop 插件hadoop-eclipse-plugin-2.7.2.jar 復制到eclipse 安裝目錄下的plugins 目錄下，重啟eclipse。

接著打開 Eclipse，增加 Map/Reduce 功能區，打開Window-Perspective-open Perspective-other，選擇Map/Reduce 選項，添加進來。然后導入 MapReduce 運行依賴的 jar 包，打開Window-Preferences，選擇 Hadoop Map/Reduce，瀏覽hadoop 的安裝路徑，點擊Apply，如圖1所示。

圖1 Hadoop 依賴設置

2.2 詞頻統計原理

把需要統計的文檔放入目錄src_data 中，運行程序，文檔執行Map 和Reduce 兩個階段。Map 和Reduce 階段的輸入輸出形式為鍵值對。Map 階段以單詞之間的空格分隔符作為分割，Map 階段輸入：Key 是行偏移量，Value 是一行的內容；Map 階段輸出：Key 是單詞，Key 是標記1；Map 階段完成后，進行Shuffle 過程，Shuffle 對< Key，Value >進行排序、歸并，將相同的鍵歸并到一起。reduce 函數接收一個如形式的輸入，然后對這個value 集合進行合并，即將1 的個數累加。Reduce 結束后返回程序的輸出，輸出形式為<單詞，統計次數>。