999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的網絡輿情監控平臺的研究

2016-01-14 01:22:21
電子測試 2015年9期
關鍵詞:云計算

?

基于Hadoop的網絡輿情監控平臺的研究

史玉珍,單冬紅

(平頂山學院軟件學院,河南平頂山,467002)

摘要:根據信息時代輿情管理的要求,利用云計算的高效的分布式運算能力,本文構建了基于云平臺的網絡輿情監控系統。首先介紹了輿情監控與Hadoop技術,結合輿情監控工作流程,重點闡述了輿情監控系統的架構及關鍵算法的MapReduce實現,最終驗證了基于Hadoop的輿情分析處理的高效性。

關鍵詞:云計算;Hadoop;輿情監控;熱點話題;社會網絡分析

0 引言

網絡作為信息傳播的載體,因為信息內容多樣,具有實時快捷傳播的特點,已成為當前四大傳播媒體之一。互聯網開放、虛擬的特性讓言論達到了前所未有的活躍程度。網絡傳播中的各類信息,既有積極的、正面的,也有虛假的、反動的不良言論。人們可以隨時運用數字設備將發送信息至網上,部分社會矛盾在網民的關注下,會急劇放大、集聚、引爆,嚴重時可演變成突發公共事件,一旦失去將進一步危害國家安全和社會穩定。因此針對網絡輿論的管理及監控,政府部門需要進行有效的引導和治理,實現對網絡輿情的實時監控,防止事態惡化。

利用當前流行的云計算技術,可開發高性能應用程序,完成海量數據的存儲及高效的數據挖掘。傳統的輿情監控系統需要昂貴工作站或服務器集群,處理海量數據時存在成本高、通信維護困難、系統的擴展性差等弊端,同時需要處理海量數據時存在傳統數據庫難以維護管理的困難,基于此提出采用分布式文件系統和并行云計算進行海量輿情信息處理,設計開發基于Hadoop的輿情監控系統。

1 關鍵技術

1.1輿情監控系統

網絡輿情監測系統主要通過在線收集定位網絡信息,識別有害消息,利用統計分析進行輿情識別發現,然后發布預警公告。該類系統一般具有信息采集、信息預處理和分析與輿情服務三大功能。信息采集部分實現自動抓取數據源(論壇、博客、網站等)上新聞、帖子發布及回復、聊天記錄等信息;通過網頁去重、標準化、關鍵詞篩選、主題分析等工作對信息預處理后進行數據分析評測輿情情況;然后實現輿情趨勢分析、輿情正負面分析和預警等輿情預報服務工作。

1.2Hadoop技術

云計算,將網絡大量不同類型的存儲設備集合起來,對外提供數據存儲和業務訪問的功能。云計算可提供更加彈性、更加安全的存儲,以及更低的成本。當前國內外許多機構開展了關于云計算技術的研究,其中最為著名的是由Apache 開發,基于Google 文件系統設計思想的 Hadoop 開源框架。Hadoop 是當前較為流行的分布式計算框架,它為處理海量數據,充分發揮集群的處理能力以及存儲能力提供了方案。Hadoop平臺基礎架構由三大核心組件組成,分別是MapReduce、HDFS、HBase。

2 網絡輿情監控系統架構設計

2.1系統總體結構

輿情監控系統共分為五層,具體為分布式存儲層、分布式計算層、數據采集層、輿情分析層及用戶交

互層。基于前兩層的技術支撐,重點實現信息采集、存儲、分析與輿情信息展示模塊。基于Hadoop的網絡輿情監控系統架構設計如下圖1所示。

(1)信息采集模塊是利用云計算技術的Nutch 框架設置網絡爬取設置規則,依據輿情搜索爬取規則對所收集的網站、微信、微博、論壇等 URL 地址分析,建立白名單和黑名單,完成輿情信息的采集。

(2)信息存儲模塊提供對Hadoop 分布式數據(索引庫、HBase 庫、分析庫)的操作接口;主要實現已爬取輿情信息的源數據本地存儲、已經機器學習數據源的 HDFS分布式存儲和分析結果的數據庫存儲。

(3)輿情監控分析模塊利用聚類分析和分類預測處理,根據專家庫中建立的輿情搜索規則及存儲的URL地址,識別發現熱點輿情信息。也可利用對輿情信息的情感偏好分析,標記出信息的情感屬性,統計分析輿情情感歸屬類別,進行詞性(正面、負面、中立)的判斷,然后預測輿情未來的發展形勢及走向趨勢。

(4)輿情信息展示模塊將從輿情數據中分析出的熱點信息、情感偏好及輿情發展態勢,通過形式多樣的圖表形式發布展示到用戶界面。

2.2系統工作流程

輿情監控系統首先是通過數據采集模塊將定向的數據采集到本地;接著將采集回來的原始數據進行清洗加工,即去除垃圾數據并將數據格式規范,建立數據索引;然后根據輿情監控專業需求特點對數據進行分析,包括語義分析、聚類分析、網絡社會關系分析;最后通過客戶端調用數據進行呈現。

3 基于Hadoop的輿情監控系統的實現

3.1輿情信息采集

圖1 輿情監控系統架構圖

將來自于網站、微博、論壇等國內外著名網站的輿情數據,采用網頁抽取技術,可進行關鍵詞采集、語義話題采集,通過關鍵詞管理、URL管理、過濾詞典及分類管理等系統管理配置,進行輿情信息分類管理工作,將數據保存在HBase數據庫中。在采集輿情信息過程中同時進行網頁解析,利用Dom 解析html 和抽取信息;通過分布式爬蟲方法抓取網頁內容,利用多個獲取器和爬蟲器分布運行在多個slaver機器上,在master 機器上進行總調度。

3.2輿情信息存儲

Hadoop平臺上,通過HDFS就能實現文件的讀寫,但為了使數據更清晰、程序更簡便,選擇將數據寫入HBase。完全分布模式下HBase的運行基于HDFS文件系統,HBase處在HDFS和MapReduce的中間,可通過MapReduce實現算法對HBase進行操作,系統將經過預處理的用戶數據上傳到 HBase 分布式數據庫中。

3.3輿情監控分析

輿情監控分析是系統的關鍵模塊, 主要完成最新消息、熱點話題、活躍人物追蹤、熱點區域追蹤、傳播途徑分析、走勢分析、網絡社會關系分析等功能。利用Hadoop框架中的HDFS 分布式文件系統和 Map/Reduce 編程模型進行開發,實現抓取的新輿情信息分類,對熱點話題追蹤,并進行情感偏好分析,預測出輿情發展的趨勢。因篇幅有限,本文僅介紹熱點話題發現、社會網絡分析的MapReduce設計。

4 實驗環境

為檢驗輿情監控云模型的性能和效率,本文利用3臺CnetOS服務器搭建Hadoop集群,硬件配置為主頻2.93 GHz;內存4GB;500 G 硬盤;1 000 Mbps 網卡。軟件環境為Linux Fedora21;JDK1.7;Hadoop 2.2.0。

4.1實驗數據分析

利用網絡爬取論壇數據集,分別在單機與云計算集群運行,經多次運行并對性能進行分析,得出如下結論如下:當處理數據量較少時,Hadoop的信息處理速度不如單機,因為如果數據量太少,很多時間用于系統的初始化和通信,集群不能發揮自身優勢。當數據量增大時,單機處理時間增長幅度明顯增大,集群優越性顯形發揮。因此在海量數據處理時,隨著數據的增加,以及集群機器數量的增多,Hadoop大數據處理優勢顯而易見。

5 結束語

本文利用Hadoop 分布式存儲和MapReduce 并行計算模對輿情監控平臺研究分析,構建了基于HBase 的輿情信息監控系統,介紹了輿情監控系統設計中關鍵技術及設計過程。通過仿真實驗分析,利用Hadoop可有效地對大規模輿情數據進行分析、預測,提升了大數據運算分析的速度。今后可結合網絡輿情的特點,探索云模型中聚群設置規則,進一步提高輿情識別的精準度。

參考文獻

[1] 賀瑤,王文慶,薛飛.基于云計算的海量數據挖掘研究[J].計算機技術與發展,2013,02:69-72.

[2] 陳彥舟,曹金璇.基于Hadoop的微博輿情監控系統[J].計算機系統應用,2013,04:18-22+9.

[3] 洑云龍.云計算平臺下的數據挖掘研究[D].南京郵電大學,2013.

[4] 吳健.基于Hadoop的上市公司輿情挖掘系統的研究與實現[D].電子科技大學,2013.

史玉珍(1975-),女,河南舞陽人,碩士,平頂山學院軟件學院,副教授,研究方向web數據挖掘。

單冬紅(1976-),女,河南鄧州人,碩士,平頂山學院軟件學院,副教授,研究方向數據挖掘。

Research on Monitoring Public Opinio System Based on Hadoop

Shi Yuzhen,Shan Donghong

(College of Software,Pingdingshan University,Pingdingshan Henan,467002)

Abstract:Based on the management of public opinion with the needs of the information age, high performance distributed computing features using cloud computing technology,the construction of network public opinion monitoring system based on cloud platform.This paper firstly introduced the public opinion monitoring and Hadoop technology,according to a public opinion monitoring work flow,constructed the network public opinion monitoring system based on Hadoop framework;focused on the key algorithm of public opinion monitoring system MapReduce implementation.The system is finally verified using experimental platform,the efficiency of Hadoop public opinion analysis processing based on.

Keywords:Cloud computing;Hadoop;Public opinion supervision;Topic;Social network analysis

作者簡介

課題來源:河南省科技攻關項目(KJT142102210226)基于云計算的網絡輿情監控平臺研究,2011年度河南省高等學校青年骨干教師資助計劃資助項目(183) :網絡下犯罪社團的識別與發現研究

中圖分類號:TP393.08

文獻標志碼:A

猜你喜歡
云計算
云計算虛擬化技術在電信領域的應用研究
基于云計算的醫院信息系統數據安全技術的應用探討
談云計算與信息資源共享管理
志愿服務與“互聯網+”結合模式探究
云計算與虛擬化
基于云計算的移動學習平臺的設計
基于云計算環境下的ERP教學改革分析
科技視界(2016年22期)2016-10-18 14:33:46
基于MapReduce的故障診斷方法
實驗云:理論教學與實驗教學深度融合的助推器
大學教育(2016年9期)2016-10-09 08:54:03
云計算中的存儲虛擬化技術應用
科技視界(2016年20期)2016-09-29 13:34:06
主站蜘蛛池模板: 亚洲第一成年人网站| 亚洲第一成人在线| 97se亚洲综合| 青青操视频在线| 制服丝袜无码每日更新| 亚洲成肉网| 亚洲第一福利视频导航| 狠狠色综合久久狠狠色综合| 久久人人爽人人爽人人片aV东京热 | 久久青草热| 999国内精品久久免费视频| 免费毛片视频| 免费观看男人免费桶女人视频| 日韩在线1| 精品亚洲欧美中文字幕在线看| 成色7777精品在线| 一本久道久久综合多人| 欧美一级夜夜爽| 在线人成精品免费视频| 欧美19综合中文字幕| 91久久精品日日躁夜夜躁欧美| 国产成人成人一区二区| 久久久久亚洲精品成人网| 免费无码网站| 亚洲第一区精品日韩在线播放| 欧美成人a∨视频免费观看| 91最新精品视频发布页| 欧美日一级片| 久久人人爽人人爽人人片aV东京热| 91破解版在线亚洲| 91福利国产成人精品导航| 日本免费精品| 一级毛片免费不卡在线视频| 亚洲中文无码av永久伊人| 一本大道AV人久久综合| 国产不卡在线看| 亚洲区一区| 国产精品一区二区国产主播| 亚洲视频免| 97视频免费在线观看| 午夜国产精品视频黄| 亚洲v日韩v欧美在线观看| 波多野结衣无码视频在线观看| 91黄色在线观看| 国产呦精品一区二区三区下载 | 国产丰满成熟女性性满足视频| 久久久久久高潮白浆| 国产女同自拍视频| 91福利在线看| 国产精品hd在线播放| 女人18一级毛片免费观看| 2021国产精品自拍| 久久中文字幕不卡一二区| 精品无码国产自产野外拍在线| 亚国产欧美在线人成| 国产精品亚洲一区二区三区在线观看| 国产精品天干天干在线观看| 黄色网站不卡无码| 亚洲丝袜第一页| 嫩草影院在线观看精品视频| 中文精品久久久久国产网址| 日韩第一页在线| 日本AⅤ精品一区二区三区日| 成人福利免费在线观看| 国产办公室秘书无码精品| 国产精品永久不卡免费视频| 精品三级网站| 免费一级毛片在线播放傲雪网| 99九九成人免费视频精品| 欧美视频二区| 国产福利2021最新在线观看| 黄色a一级视频| 国产成人三级| 综合网久久| 国产亚洲欧美日本一二三本道| 2022国产无码在线| 中文字幕亚洲精品2页| 国产中文一区a级毛片视频 | 国产成人亚洲欧美激情| 青青草国产一区二区三区| 国产精品天干天干在线观看| 91啪在线|