999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)

2018-01-02 23:15:28諶志華
現(xiàn)代電子技術(shù) 2017年24期
關(guān)鍵詞:文本分析信息

諶志華

摘 要: 針對互聯(lián)網(wǎng)數(shù)據(jù)快速增長和輿情信息飛速傳播的問題,提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)包括數(shù)據(jù)采集、預(yù)處理、分析和報(bào)告匯總四個模塊,實(shí)現(xiàn)輿情信息的全網(wǎng)自動搜索與采集,大規(guī)模輿情數(shù)據(jù)的格式化存儲以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。該系統(tǒng)還使用Hadoop平臺進(jìn)行數(shù)據(jù)處理,并使用HDFS分布式文件系統(tǒng)存儲輿情數(shù)據(jù),使用MapReduce技術(shù)完成輿情分析和報(bào)告。仿真結(jié)果表明,該系統(tǒng)有助于及時、準(zhǔn)確地分析網(wǎng)絡(luò)輿情,能較好地滿足網(wǎng)絡(luò)輿情分析的需求。

關(guān)鍵詞: 大數(shù)據(jù); 網(wǎng)絡(luò)輿情; 輿情分析; Hadoop; HDFS; MapReduce

中圖分類號: TN711?34; G206.3 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)24?0015?03

Abstract: In allusion to the rapid growth of Internet data and the rapid spread of public opinion information, a network public opinion analysis system based on big data is proposed. Four modules of data collection, preprocessing, analysis and report aggregation are included in the system to realize the automatic search and collection of the overall network public opinion information, the formatted storage of large?scale public opinion data, and the analysis and statistical summary of public opinion information. In the system, the Hadoop platform is used for data processing, the HDFS distributed file system is used to store public opinion data, and the MapReduce technology is used to complete public opinion analysis and report. The simulation results show that the system can help analyze network public opinion timely and accurately, and meet the requirement of network public opinion analysis well.

Keywords: big data; network public opinion; public opinion analysis; Hadoop; HDFS; MapReduce

0 引 言

目前,我國互聯(lián)網(wǎng)普及率[1]已超過全球平均水平4.6個百分點(diǎn),達(dá)到54.3%。網(wǎng)民規(guī)模占全球網(wǎng)民總數(shù)的,達(dá)到7.51億,并有超過70%的網(wǎng)民使用微博、博客等參與話題討論并發(fā)表觀點(diǎn)?;ヂ?lián)網(wǎng)已逐漸成為熱門話題和事件討論的重要平臺以及輿情事件的放大器[2?3]。

網(wǎng)絡(luò)輿情[4]是指網(wǎng)絡(luò)媒體或網(wǎng)民使用互聯(lián)網(wǎng)對熱門話題和事件進(jìn)行討論,所產(chǎn)生的具有一定傾向性與影響力的言論或意見,通常具有開放性、迅速性、豐富性、互動性和落地性等特點(diǎn)。雖然正面積極的輿情信息具有示范效應(yīng)并能帶來良好的社會影響力,然而消極負(fù)面的輿情信息將嚴(yán)重威脅社會的穩(wěn)定和安全。因此,如何利用并控制網(wǎng)絡(luò)輿情已成為相關(guān)管理部門與政府機(jī)關(guān)所關(guān)注的核心問題。

傳統(tǒng)的輿情分析系統(tǒng)由輿情搜索和輿情分析兩部分組成,并使用B/S模式將輿情分析系統(tǒng)分為功能層、數(shù)據(jù)訪問層和業(yè)務(wù)邏輯層三層架構(gòu)。其中,功能層用于響應(yīng)用戶的請求、展現(xiàn)請求結(jié)果和轉(zhuǎn)發(fā)控制;數(shù)據(jù)訪問層實(shí)現(xiàn)數(shù)據(jù)庫的封裝訪問;業(yè)務(wù)邏輯層用于分離業(yè)務(wù)和邏輯。然而,當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)急劇增長,且具有價(jià)值巨大但密度低的特點(diǎn),如何全面抓取信息,并及時、準(zhǔn)確地分析網(wǎng)絡(luò)輿情已成為當(dāng)前網(wǎng)絡(luò)輿情分析亟需解決的問題[5]。

本文針對互聯(lián)網(wǎng)數(shù)據(jù)急劇增長和輿情信息傳播速度快的問題,提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng),將大數(shù)據(jù)及數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情分析中。該系統(tǒng)包括輿情信息采集、預(yù)處理、分析和報(bào)告四個模塊,實(shí)現(xiàn)了全網(wǎng)自動搜索、采集輿情信息、大規(guī)模輿情數(shù)據(jù)的格式化存儲以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。

1 網(wǎng)絡(luò)輿情分析系統(tǒng)架構(gòu)

本文將大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情分析中,實(shí)現(xiàn)了基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)使用Hadoop平臺進(jìn)行數(shù)據(jù)處理,使用HDFS文件系統(tǒng)存儲輿情數(shù)據(jù),并使用MapReduce技術(shù)完成輿情分析。系統(tǒng)整體包括數(shù)據(jù)采集、預(yù)處理、分析和報(bào)告匯總四個模塊,系統(tǒng)整體架構(gòu)如圖1所示。

2 系統(tǒng)實(shí)現(xiàn)

2.1 數(shù)據(jù)采集模塊

輿情數(shù)據(jù)采集模塊是本文輿情分析系統(tǒng)的基礎(chǔ)模塊,主要負(fù)責(zé)使用網(wǎng)絡(luò)爬蟲從新聞、論壇、貼吧、微信和微博等Web頁面采集輿情信息,具體流程如圖2所示。

基于大數(shù)據(jù)的輿情分析系統(tǒng)不僅需要使用傳統(tǒng)搜索引擎爬蟲保證所下載網(wǎng)頁的全面性,且還需要使用聚焦爬蟲保證所采集信息的精確性。通過設(shè)置黑白名單,保留有用的URL鏈接,并依據(jù)確定的搜索策略重復(fù)搜索,直至達(dá)到停止條件。在抓取Web信息時,主要采集網(wǎng)頁的文章內(nèi)容和版塊列表兩種信息。其中,文章內(nèi)容采集即通過分析網(wǎng)頁的HTML源碼抓取和保存網(wǎng)頁內(nèi)容,版塊列表采集即通過確定初始網(wǎng)頁的URL、設(shè)定爬行深度、制定爬行參數(shù)和采集規(guī)則等操作抓取初始網(wǎng)頁源文件[6]。endprint

2.2 預(yù)處理模塊

輿情信息預(yù)處理模塊是本文輿情分析系統(tǒng)的數(shù)據(jù)準(zhǔn)備階段,該模塊先將采集到的各種網(wǎng)頁信息進(jìn)行去重、去噪等預(yù)處理。然后,選擇文本特征并格式化為文本向量,最終得到文本向量集。其工作流程如圖3所示。

由于新聞、論壇和微博等的網(wǎng)頁結(jié)構(gòu)各不相同,因此需要清洗與文本無關(guān)的HTML源碼,并保留網(wǎng)頁標(biāo)題、內(nèi)容摘要、發(fā)布時間以及評論等與輿情相關(guān)的信息。過濾掉無意義或重復(fù)的網(wǎng)頁信息后,為了避免噪聲干擾并保證數(shù)據(jù)的完整性需要剔除或填補(bǔ)缺失數(shù)據(jù)。

為了便于后續(xù)的文本分析,本系統(tǒng)使用MapReduce技術(shù)和分詞工具并行處理格式化文本,提取詞頻特征,構(gòu)造文本向量集。同時,將其保存到HDFS分布式文件系統(tǒng)中。

2.3 輿情分析模塊

輿情分析模塊是本文輿情分析系統(tǒng)的核心模塊,主要完成識別、跟蹤輿情話題和評估輿情情感,其具體工作流程如圖4所示。

輿情分析模塊先使用聚類算法將預(yù)處理模塊得到的文本向量集進(jìn)行匯總,并識別出主要輿情話題;然后檢測后續(xù)更新的向量化文本,判斷其與已存在的話題的相關(guān)性,如果相關(guān)性達(dá)到一定的閾值則將其歸類到該話題中;最后分析各話題的情感傾向性。

本系統(tǒng)使用Hadoop平臺Mahout機(jī)器學(xué)習(xí)庫中MapReduce的K?means算法實(shí)現(xiàn)文本聚類[7?8]。只需要輸入文本向量集、聚類中心數(shù)和迭代終止條件即可得到歸類文件及中心點(diǎn)。其中,Map函數(shù)將文本向量集劃分為小塊并發(fā)送到各子節(jié)點(diǎn)的執(zhí)行程序中,并行執(zhí)行計(jì)算任務(wù),計(jì)算得到鍵值對形式的中間結(jié)果后傳遞給Reduce服務(wù)器;Reduce匯總各子節(jié)點(diǎn)的結(jié)果,并求和平均后得到聚類中心。

2.4 輿情報(bào)告模塊

為了滿足不同用戶的需求,本系統(tǒng)使用輿情報(bào)告模塊自動推送輿情熱點(diǎn)、統(tǒng)計(jì)匯總相關(guān)內(nèi)容、關(guān)鍵詞推薦和輔助采編。當(dāng)某一熱點(diǎn)或負(fù)面輿情達(dá)到預(yù)先設(shè)定的報(bào)警閾值后,輿情報(bào)告模塊可使用郵件、短信等方式通知檢測人員。

3 實(shí)驗(yàn)與結(jié)果分析

基于大數(shù)據(jù)的輿情分析系統(tǒng)使用1臺交換機(jī)和6臺普通PC機(jī)來搭建Hadoop集群,分別在6臺PC機(jī)上安裝Ubuntu 16.04系統(tǒng),并設(shè)置1臺Maste服務(wù)器和5臺Slave服務(wù)器。

為了驗(yàn)證本文提出的基于大數(shù)據(jù)技術(shù)的文本預(yù)處理效率,使用一份160 MB的預(yù)料文檔在不同規(guī)模的集群中運(yùn)行預(yù)處理程序,得到如表1所示的實(shí)驗(yàn)結(jié)果。

從表1可以看出,增加節(jié)點(diǎn)的數(shù)目可以加快預(yù)處理的速度,表明節(jié)點(diǎn)數(shù)越多,任務(wù)分塊數(shù)越多,具有更高的并發(fā)運(yùn)行程度。同時,加速比并不與節(jié)點(diǎn)數(shù)成正比,這是因?yàn)楣?jié)點(diǎn)數(shù)增加,節(jié)點(diǎn)間的通信所消費(fèi)的時間也在增加,從而影響了系統(tǒng)并行運(yùn)行的效率。

如圖5所示為文本預(yù)處理、特征提取和向量化三步驟的加速比對比。從圖5可以看出,文本向量化的加速比較小,原因是在計(jì)算詞頻時啟動各子任務(wù)需要占用一定的系統(tǒng)開銷。而特征選擇將計(jì)算分配在Mapper中并行執(zhí)行,故具有較大的加速比。

綜上所述,基于大數(shù)據(jù)的輿情分析系統(tǒng)使用分布式并行化處理技術(shù),能大幅提高輿情分析的速度和數(shù)據(jù)處理能力。

4 結(jié) 語

互聯(lián)網(wǎng)數(shù)據(jù)快速增長和輿情信息飛速傳播給輿情分析帶來了較大的挑戰(zhàn),本文使用分布式并行化處理技術(shù),提出一種基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)。該系統(tǒng)實(shí)現(xiàn)了輿情信息的全網(wǎng)自動搜索和采集,大規(guī)模輿情數(shù)據(jù)的格式化存儲以及輿情信息的分析、統(tǒng)計(jì)匯總等功能。仿真結(jié)果表明,該系統(tǒng)有助于及時、準(zhǔn)確地分析網(wǎng)絡(luò)輿情,能較好地滿足網(wǎng)絡(luò)輿情分析的需求。

參考文獻(xiàn)

[1] 周紅福,賈璐,張婷婷,等.微博輿情分析中信息轉(zhuǎn)發(fā)路徑提取方法研究[J].信息網(wǎng)絡(luò)安全,2016(4):61?68.

[2] 張昕,孫江輝.輿情監(jiān)測系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2015,38(11):98?102.

[3] 馬梅,劉東蘇,李慧.基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[J].情報(bào)科學(xué),2016,36(3):25?28.

[4] 孫彬,王東.微信息輿情的主動介入導(dǎo)引模式[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2016,38(5):584?589.

[5] 宮澤林,徐艷紅.大數(shù)據(jù)時代網(wǎng)絡(luò)輿情分析與研究[J].黑龍江科技信息,2016(17):169?169.

[6] 馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):246?258.

[7] 蘇毅娟,鄧振云,程德波,等.大數(shù)據(jù)下的快速KNN分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(4):1003?1006.

[8] 劉若冰.面向大數(shù)據(jù)云存儲系統(tǒng)的關(guān)鍵技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):21?24.endprint

猜你喜歡
文本分析信息
隱蔽失效適航要求符合性驗(yàn)證分析
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
電力系統(tǒng)及其自動化發(fā)展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 中文字幕1区2区| 国产成人超碰无码| 国产一区免费在线观看| 亚洲一区二区三区香蕉| 国产成人一二三| 3344在线观看无码| 精品撒尿视频一区二区三区| 亚洲制服丝袜第一页| 黄色福利在线| 国产又色又爽又黄| 欧美激情视频一区| 国产精品久久久久鬼色| 国产91小视频在线观看| 精品无码国产自产野外拍在线| 国产熟睡乱子伦视频网站| 亚洲一区二区成人| 国产一二三区在线| 成人日韩欧美| 国产综合亚洲欧洲区精品无码| 999国内精品久久免费视频| 欧美一区二区三区国产精品| 亚洲黄色视频在线观看一区| 欧美天堂在线| 久久综合色天堂av| 亚洲精品无码久久久久苍井空| 99这里精品| 九九九国产| 天堂av高清一区二区三区| 四虎国产精品永久一区| 伊人久久精品无码麻豆精品| 久久久久亚洲av成人网人人软件| 香蕉久久国产超碰青草| 一区二区理伦视频| www.亚洲一区二区三区| 免费欧美一级| 全色黄大色大片免费久久老太| 国产真实乱了在线播放| 亚洲国产91人成在线| 国产日韩精品欧美一区喷| 国产无码性爱一区二区三区| 最新国产精品第1页| 日韩精品视频久久| 99久久精品无码专区免费| 欧美成人精品高清在线下载| 波多野结衣一二三| 国产精品页| 国产第八页| 日日碰狠狠添天天爽| 人妖无码第一页| 欧美黄网在线| 99热这里只有精品在线观看| 青青久视频| 99久久免费精品特色大片| 国产一区二区三区精品久久呦| 国产乱子伦精品视频| 国产成人啪视频一区二区三区 | 九九免费观看全部免费视频| 国产在线一区视频| 亚洲精品自拍区在线观看| 国产精品片在线观看手机版| 在线精品视频成人网| 91亚洲视频下载| 欧美国产精品拍自| 日本在线欧美在线| 亚洲欧美日韩久久精品| 91国内视频在线观看| 欧美性色综合网| 亚洲欧美国产五月天综合| 新SSS无码手机在线观看| 青草视频免费在线观看| www.国产福利| 亚洲美女一级毛片| 女人爽到高潮免费视频大全| 国产一级在线观看www色 | 亚洲av综合网| 日韩不卡免费视频| 五月天在线网站| 国产午夜人做人免费视频| 国产成人综合日韩精品无码首页 | 99久久精品免费看国产免费软件| h网站在线播放| 亚洲欧美一区二区三区蜜芽|