基于大數據技術的網絡輿情文本挖掘研究

2017-10-21 00:15:49劉洪霞

科技信息·中旬刊 2017年7期

劉洪霞

摘要：本文對大數據、網絡輿情信息相關特征進行分析，并以大數據為基礎構建模塊對網絡輿情相關文本進行挖掘，同時對預警模型進行構建。此外，還使關系型、分布式兩種數據庫得到融合，使其能夠對從采集至查詢分析全過程進行適應，并擴展了Map Reduce這一核心技術。

關鍵詞：大數據技術；網絡輿情文本；挖掘研究

引言

Web時代不斷推進，使國內網絡以較快速度進行普及。現階段公眾通過互聯網這一平臺對信息進行獲取與表達，此外還是相關部門對公眾輿情進行獲取與了解的關鍵窗口。若想對網絡輿情進行準確獲取，必須配以相應信息技術。例如，可以對輿情預警模塊利用數學模型進行構建，使輿情預警可以實現定量分析。此外，外國學者對輿情傳播更為關注，而國內更多重視輿情本質及其預警的相關研究。下面通過利用大數據在處理數據方面的優勢來對輿情文本進行挖掘，同時以其為基礎對預警模型進行構建。

一、大數據基本概述

1、大數據、網絡輿情相應特征簡述

大數據并不僅限于海量數據，其還包含對于數據處理的相應方式。網絡輿情也沒有在網絡中直接存在，需要配套技術對其從網絡數據當中進行提取、分析。輿情獲取與大數據相關思想十分契合。例如，大數據“4V”這一特征便和輿情聯系十分密切。如下表所示。二者特征十分契合，很大程度上因為二者分析目標一致，也就實現更為準確預測。這便使大數據相關思想、技術等與輿情預警相契合這一猜想得到理論論證。但輿情輿情更多側重與發現輿情的及時性，其準確度與數據、算法模型相關，及時度則取決于相應平臺處理的效率。而傳統技術更多關注準確度，對時間并未有更多要求，因此無法與輿情預警相契合。

2、關系型、分布式兩類數據庫優缺點

數據庫主要有關系型、分布式兩類，前者（RDB）發展較久，因此其在對數據管理、分析等方面較為成熟，但其擴展性受到較大限制，并不能對大數據進行有效分析。后者（HBase）不論是擴展性還是容錯性等較高，其可以實現規?；牟⑿刑幚?，可以適應諸多數據領域，例如Map Reduce便是其中代表。RDB特征是其SQL語言較為標準并且約束較為完整，因此其在處理性能以及確保數據完成等方面較強。而HBase對擴展性有著較好考慮，其發展初期便對TB或者是PB等級別的數據進行存儲、讀寫等進行設計。而RDB則受到理論、實現等方面限制，其擴展性方面最多為擺個服務器的節點。而網絡輿情相關數據源自整個網絡，同時要確保各部門對檢測信息進行共享，若僅依賴RDB無法高效實現上述目標。二者優缺點如下表所示。

二、構建模塊對網絡輿情文本進行挖掘

1、使數據庫向著混合型發展

由于HBase在擴展性或者使對數據進行多樣化地存儲方面優勢較強，而RDB可以有效實現對后期數據進行查詢等目的，所以對構建模塊時應將二者進行結合，使其呈現混合化，該混合系統應包含關系型（RDBMS）、分布式（HDFS）兩類管理系統。這種混合系統較為明確地分為兩層，下層主要利用HDFS來分解、調度相關任務，上層則通過RDBMS來對數據進行查詢、處理。該系統可通過HDFS這一調度機制來提升自身擴展、容錯性，從而在對規模較大的數據進行分析時橫向擴展等問題進行解決，使多部分間信息得以共享。此外，通過RDBMS可以對數據進行存儲與查詢，從而使其查詢分析等性能得到提升。

2、對Map Reduce進行擴展

Map Reduce這一技術主要處理海量數據，而對以該技術為基礎的具有相關文本特征的向量進行提取則是預處理的重要步驟。Map任務中對文件的輸入操作可當做多元素（一篇文檔）構成，而其數據塊則是較多元素構成的集合，同時一個元素不可以跨越數據塊進行存儲。系統內全部Map輸入預計Reduce輸出都需要以key-value對形式進行，該方式可以確保后續過程可構成組合器。

Map函數能夠對文檔進行轉換，并且以key-value對來輸出，而鍵、值類型不定，同時鍵并不唯一，一個Map內可以存在多個key-value對含有相同鍵。

在全部Map任務完成之后，主控程序便分類聚合文件（一般以一個Reduce文件為基準），同時對各鍵k進行輸入，其中處理鍵輸入為，其中都來自Map中輸出結果是k的key-value對。

三、對預警模型進行構建

1、對系統功能相關框架進行構建

對其功能架構進行構建，該預警模型主要以三層結構為基礎進行設計，其邏輯為服務層、處理層以及查詢層。而其中一般將服務與處理層分開進行設計，從而對采集以及存儲等細節進行評比，確保輿情數據可以得到有效共享，實現大區域橫向形式的組合。此外，該模型把查詢層進行了獨立處理，確保模型在使用、查詢時更為靈活，便于信息共享的跨區域、部門目標的實現。

2、對功能模塊進行設計

該模型一般由數據采集、處理以及輿情分析和查詢三方面組成。其中采集模塊主要源于海量網頁，給模型輿情分析以數據支持。該模型通常對門戶網站以及微博等大流量網站進行監控。為使采集效率得以提升，該系統以MapReduce中的多個任務進程概念為基礎，進行了采集器任務的設計，各任務對單網頁進行采集，同時分別構成數據塊。該形式能夠確保數據由服務層至處理層時不必對數據進行重新分配，從而時時間得到極大節約。

處理模塊則主要對數據進行預處理，并對向量進行提取，計算各類輿情參數并對詞庫進行及時更新。數據清洗則對網頁內無用數據進行去除操作，一般通過DOM樹解析，而后對HTML標記進行瀏覽，從而得到所需網頁，并將其以文本進行保存。網絡話題所對應的輿情指數一利用矩陣-向量這一乘法來達到。對詞庫進行更新不但能夠備份數據，還可以給以后輿情評判作參考。

分析和查詢這一模塊極為關鍵，它以上述乘法為基礎對VSM進行計算，同時挖掘相關輿情信息，對輿情熱點進行有效識別并實現即時預警。

【總結】

大數據相關模型較為簡單，其不論是擴展性還是容錯性、并行性都較好，可以對網絡輿情進行有效處理。本文則以大數據為基礎來構建模塊對網絡輿情文本進行挖掘，其優勢如下：首先，混合數據庫能夠對傳統系統擴展性以及可靠性等問題進行處理，同時解決處理性能以及無法保持數據完整等問題。其次，通過對Map Reduce這一技術進行改進，可以將向量從大量文本中進行提取，其匹配的乘法能夠對高維VSM快速計算。該模型相對傳統方式而言，其準確性大致相同，但其時效性優勢顯著，因為大數據給網絡數據的處理帶來較大優勢，對其進行合理應用必然是未來趨勢。

參考文獻：

[1]張紅軍. 面向網絡輿情的文本分類系統研究與實現[D].電子科技大學，2017.

[2]陳雪剛. 基于大數據技術的微博輿情快速自聚類方法研究[J]. 情報雜志，2017，36（05）：113-117.

[3]何凌南，賴凱聲. 大數據時代的網絡輿情研究范式變革[J]. 現代傳播（中國傳媒大學學報），2017，39（05）：160-162.

[4]王志國. 網絡輿情監控過程中微博文本分類處理的實現方法[J]. 圖書情報導刊，2016，1（12）：129-133.

[5]王高飛，李明. 我國網絡輿情研究的回顧與展望[J]. 現代情報，2016，36（05）：172-176.

[6]李金海，何有世，熊強. 基于大數據技術的網絡輿情文本挖掘研究[J]. 情報雜志，2014，33（10）：1-6+13.