余宏,洪如霞,史文津
(豫章師范學院信息科學系,南昌 330103)
在互聯網大數據時代,隨著移動網絡技術的不斷發展,新媒體的應用日新月異,普通民眾通過自媒體散發、傳播和查閱網絡信息非常便捷,民眾對社會事件、現象的關注、評論與監督的熱情高漲,網絡信息的正向效應或負向效應容易放大,極易引發成公共熱點事件。然而,絕大多數企業并沒有相應的手段來及時發現、并處理網上與企業自身相關的有害信息,品牌口碑、產品市場反饋、消費者行為態度、行業信息、競爭情報等不能及時準確全面掌握,輿情應對能力不足,造成輿情危機處置困難重重,市場決策缺少數據支撐。產生的后果往往是企業形象破壞、品牌價值受損、市場決策失誤等,極易給企業發展帶來重大負面影響。
目前很多企業采取傳統的人工監測的方法開展輿情工作。但是由于互聯網應用日益廣泛、信息量成海量增長,經常出現涉及與企業自身相關的重要輿情信息已經在網上傳播,而不能及早發現、準確應對,導致一些非理性和不切實際的信息傳播開來,影響到企業的社會效益和經濟效益,因此,人工監測越來越不能滿足企業對輿情工作的需求,需要利用先進的網絡信息采集與處理、數據挖掘等技術構建先進的企業輿情分析系統,以服務于企業的網絡輿情檢測。
企業輿情分析系統的思想來源于話題檢測與追蹤TDT(Topic Detection and Tracking)。話題檢測與追蹤采用信息抽取、數據挖掘等技術,主要用于對網絡媒體信息流進行話題的自動識別和已知話題的持續跟蹤,它已成為自然語言信息處理領域的研究熱點。國內輿情研究的起源較早,但取得的成果集中在近幾年,從網絡輿情信息的采集與提取,到話題的發現與追蹤,再到傾向性分析,為我國網絡輿情的分析研究提供了有效的方法和手段。當前我國已經成熟應用的相關輿情分析系統主要針對某個輿情個案進行網絡輿情挖掘,能在一定程度上為輿情監管部門提供一個代替人工閱讀海量網絡輿情信息的工具,但網絡輿情分析系統中各個模塊的作用及相互關系的邏輯結構還有待進一步優化[1]。國內網絡輿情系統在技術優勢方面各不相同,如中科天璣擁有國內最完善的漢語分詞系統ICTCLAS,在自然語言處理和文本分析能力上具有優勢;北大方正的WISE知識處理系統,其文本處理能力很強。存在產品功能類同,語義分析能力精度不高,以文本分析為主而缺乏對圖像、音視頻等數據的關聯分析等問題。國外在輿情分析技術方面的研究主要集中在調查問卷數據分析、文本數據自動分析、輿情感情色彩分析、復雜社會網絡系統等方面。國外免費上網企業輿情監控軟件的功能重點在信息搜索上,通過搜索監控與企業相關的網絡信息來得到輿情結果,典型的如Google Alerts是Google的新聞定制自動發送工具,用戶可以用它來跟蹤一些新聞報道、業界動態等信息。Twitter搜索軟件可以幫助企業搜索以獲取Twitter中有關企業的各種信息。
對于大數據的概念,還沒有一個統一的定義。一個用得比較多的提法是:大數據(Big Data),指的是所涉及的數據規模大到無法通過當前主流的軟件工具在合理時間內達到獲取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊,具有量大(Volume)、產生速度快(Velocity)、數據類型多樣(Variety)、價值密度低(Veracity)等特點[2]。
海量數據處理是采用分布式方式來解決的,Hadoop是一個成熟的、被廣泛應用的分布式系統。Hadoop是一個開源的軟件體系、允許用戶自己修改代碼、硬件成本投入低等特點,同時能支持海量數據存儲和計算任務。HDFS是一個高度容錯性的分布式文件系統,為用戶提供流式的數據讀寫服務,有利于提高了系統的數據吞吐量,故特別適合于大數據應用。
MapReduce是一種分布式軟件編程框架,遵循“分而治之、移動邏輯、屏蔽底層、處理定制”的設計思想。把大規模數據拆成N個數據塊部分,由一個主節點將MapReduce函數分發到各個數據塊的分支節點機器上并行計算,然后通過合并各個分支節點的結果,得到最終結果,該處理過程被高度抽象為MapReduce的map()和reduce()兩個函數,map(映射)負責對每個部分數據進行分析,reduce(歸納)負責把各個結果匯總起來,這種并行計算方式極大提高了數據處理的速度。
關于輿情,沒有一個統一的定義,不同的學者對此定義的側重點不同,一個較全面的定義是劉毅在《網絡輿情研究概論》中的描述:“輿情是由個人以及各種社會群體構成的公眾,在一定的歷史階段和社會空間內,對自己關心或與自身利益緊密相關的各種公共事務所持有的多種情緒、意愿、態度和意見交錯的總和[3]?!?/p>
網絡輿情是社會輿情的一種具體表現形式,它是由網絡言論發展而來的,但網絡言論能否發展成為網絡輿情在很大程度上依賴于網絡言論議題是否具有強烈的活躍性和敏感性,其發展過程存在著網絡言論由潛在輿情向顯性輿情轉化的關鍵階段,網絡的開放性和隱匿性為潛在輿情提供了公開表達的場所[4]。網絡輿情信息多元、傳播快捷、方式互動,具有傳統媒體無法比擬的優勢,網絡輿情既有積極健康的一面,同時也有消極頹廢的一面,如果我們對初露端倪的不良輿論苗頭進行有效抑制,就可以掌握網絡輿論引導的主動權。
企業網絡輿情則是網絡輿情范圍的進一步縮小,限于跟某個企業主體相關的輿情內容,是廣大網民在特定的時期和網絡空間內,對特定企業發生的某個產品生產、或服務提供的事件,通過網絡表達的多種情感、態度和意見的集合。
隨著互聯網對人們生活影響的逐步深入,企業越來越重視與自己相關的網絡輿情傳播對自身形象的影響。網絡博客、社交網絡平臺(論壇、微信、QQ等)、網絡新聞評論,以及電子商務平臺是企業網絡輿情傳播的主要渠道。
越來越多的企業開始重視企業自身的口碑在網絡輿情傳播中的重要作用。包括網絡新聞媒體、社交網絡平臺(微博、微信、QQ等)以及電子商務平臺。企業網絡輿情具有網絡輿情的一般特征:輿情信息存在空間的虛擬性;輿情傳播的實時性;網絡參與主體發表、傳播和反饋輿情信息的交互性;互聯網結構的開放性所決定的企業網絡輿情傳播方式的開放性等。企業網絡輿情在管理上與社會網絡輿情又存在著明顯的不同:
(1)在網絡信息處理范圍上:企業網絡輿情管理僅針對網絡上與企業自身利益相關的輿情信息進行處理。因此,在從輿情信息源獲取原始信息時,可以有針對性地進行信息過濾,大大減少了企業輿情管理系統的信息處理量。
(2)在語料的積累和交互歷史的積累上:在社會網絡中企業與客戶的交互往往集中在企業的官方微博、微信公眾號、企業產品銷售平臺及行業論壇,所以很容易收集積累的語料;而政府級的輿情管理往往缺少相應的語料,因為輿情事件發生時,網民的留言是比較分散的。
(3)在輿情管理的時效上:企業網絡輿情往往因某個突發事件致使其在短時間內大規模的傳播與爆發,而且其影響會立刻傳導到企業的生產和銷售業績上,因此,企業對網絡輿情進行監控與管理的時效性方面要求比較高。而政府對社會輿情的管理相對來說所涉及的范圍更大,對網絡輿情進行正確引導的時間相對較長,輿情產生的影響力更加平均,因此,政府對社會輿情管理的時效性的要求不如企業輿情管理高[5]。
(4)在靶向目標方面:企業輿情管理有較強的靶向性,主要針對的是企業相關的人群,包括客戶、合作伙伴、主要競爭者、潛在目標客戶等。而政府級的社會輿情管理針對的是整個國家的、全方位的輿情管理,與企業相比廣度更寬,靶向性較企業較弱。
(5)在輿情的處理方式上:企業輿情管理偏向于積極的運用和發揮,而政府級的輿情管理則偏向于監督和防范。具體來說,企業輿情一般是對企業品牌的口碑、競爭對手動態、行業狀況和熱點事件等內容進行信息的收集、匯總分析及進一步的傳播,進而達到商業盈利的目的。而政府級的社會輿情管理則注重利用網絡及時發現對國家利益產生不利影響的信息及時進行監管和處理,把對社會造成的不利影響降到最低。
在大數據背景下,企業網絡輿情數據具有分布廣泛、數據類型多樣化、數據體量大、產生速度快等特點,對企業網絡輿情分析系統模型的設計提出了挑戰[6]。企業網絡輿情管理系統在大數據背景下應該滿足如下要求:
(1)輿情信息獲取的全面性。企業網絡輿情信息來源廣泛,作為數字化記錄的用戶內容,可能以文字、圖片、視頻等形式分布在相關新聞網站、論壇、銷售網站、點評網、聊天平臺中,而且這些內容在大數據環境下增長非???,為使獲取的企業網絡輿情信息比較全面,需要采用并行搜索技術和大數據處理技術。
(2)輿情信息獲取的針對性。企業網絡輿情信息管理系統相對社會輿情系統而言,所關注的信息面的廣度比較窄,只關心與企業有關的主題信息。因此,為提高系統的效率,需要對系統爬取的信息進行過濾。
(3)輿情信息處理的時效性。由于企業的輿情常常因為某一突發事件的觸發導致在短時間內大規模的爆發與傳播,因此,為減小輿情對企業業績的不良影響,留給企業進行輿情管理和控制的時間非常短。
網絡輿情分析包括通過網絡爬蟲等工具從互聯網上采集信息開始到最后將獲取的輿情信息服務于輿情管理的一系列流程,首先從網絡上采集輿情數據資源,對采集得到的Web頁面等數據進行預處理,抽取其中的關鍵信息,然后將關鍵信息進行建模并通過相關算法進行內容上的分析,最后將分析結果提供給用戶[3]。因此,結合上述要求進行企業網絡輿情分析模型的設計,設計的基本原則包括:利用Hadoop大數據平臺和HDFS及MapReduce技術實現企業網絡輿情海量數據的存儲與處理,提高企業輿情處理效率;對反映企業輿情的文字、圖片等信息能夠自動采集、處理和分析,并及時發現企業輿情熱點。企業網絡輿情分析模型的信息處理流程總體設計如圖1所示。

圖1 基于大數據的企業主題網絡輿情分析系統模型
(1)輿情數據采集:即從互聯網中抓取與企業輿情事件相關的數據,形成目標數據集。
數據采集完成從網絡信息資源中獲取頁面數據的工作,數據抓取過程中解決的主要問題是網絡爬蟲的實現以及優化,具體包括Deep Web下載、網頁腳本解析、爬行策略控制等。相對于通用輿情系統,企業輿情系統所關注的信息面比較窄,往往集中在和企業相關的信息,因此,我們將數據采集過程中獲得的原始數據通過“主題關鍵詞過濾”算法進行過濾。具體包括以下幾步:
①網絡爬蟲根據初始URL集合對相關新聞門戶網站、論壇、大眾點評網、微博平臺等進行爬行并下載相關的網頁。
②對爬取的原始頁面按“主題關鍵詞過濾”算法進行過濾,得到主題相關的頁面。
③在本地對每個網頁進行解析分塊,過濾掉無用信息塊后將有效信息塊的信息保存到數據庫,將塊內文本和圖片分別保存起來。
由于網絡輿情系統需要對多個不同網絡社群的網絡頁面進行采集,這在大數據環境下數據處理工作量非常大、而且數據集中存儲的壓力也很大。我們可以利用Hadoop技術將輿情數據采集和初步的預處理過程(例如分詞、關鍵詞統計等)從輿情計算中心分散到各個網絡社區計算節點上,基于HDFS文件系統構建HBase分布式存儲系統存儲輿情數據,利用MapReduce來處理HBase中的海量數據。
(2)數據預處理:網絡輿情的載體主要是網頁中的文本及圖片等信息,因此,企業網絡輿情信息預處理主要包括以下任務:
①網頁解析與分塊。首先利用網頁中的空間特征、內容特征及標簽信息對網頁進行分塊,然后對分塊的結果進行識別合并,最后過濾掉無用信息塊后將有效的信息塊保存到數據庫。利用Eclipse開發工具,擴展Heritrix中的頁面分析與信息抽取中的Extractor組件來實現網頁內容的解析和網頁的分塊,為基于DOM分塊的特征項權重計算提供依據。
②特征選擇與語義特征轉換。采用改進的NGram的特征項選擇方法對主題網絡輿情Web文本進行特征選擇;然后在輿情信息特征選擇的基礎之上,采用語義特征抽取轉換的方法得到企業主題網絡輿情Web文本的語義特征。
③頁面相關度計算。把經過分塊過濾后的頁面以特征詞文本向量的形式進行表示,計算企業網絡輿情主題庫中的特征向量和頁面文本向量間的相似度,從而確定相關頁面。
(3)企業主題網絡輿情分析模塊:主要完成企業主題網絡輿情話題檢測、話題追蹤、傾向性識別等功能。
輿情信息聚類子模塊:該子模塊是主題網絡輿情話題檢測的主要技術實現手段,采用基于語義的主題網絡輿情信息聚類方法對采集得到的Web文本進行自動聚類,得到輿情話題。
輿情信息分類子模塊:該子模塊是主體網絡輿情話題追蹤的主要技術實現手段,在輿情信息聚類的基礎之上,采用基于語義的主題網絡輿情信息分類方法對采集到的Web文本進行自動分類,得到與已有話題相關的后續報道,并將其歸入已有的話題之中。
情感傾向性識別子模塊:采用基于情感本體的主題網絡輿情傾向性分析方法對企業主題網絡輿情進行傾向性識別,得到Web文本的褒貶傾向類別。
圖像內容的識別。有研究表明,有圖像的微博、微信轉發率要明顯高于純文字的,因此,要分析企業的網絡輿情,圖像輿情是不可或缺的。圖像內容識別的困難在于從圖像像素中提取的視覺特征和用戶對圖像內容的含義的理解之間存在語義鴻溝。為消除語義鴻溝,對圖像識別分類器中的圖像訓練數據通過人工的方法標注類別信息標簽,然后新圖像在經過圖像識別分類器處理后自動添加上所屬類別的語義標簽。在這里,將企業的LOGO圖片、企業領導照片、企業名稱等圖片作為訓練數據,利用SIFT算法對圖像特征進行提取,然后應用SVM分類器實現對新收集的圖片進行分類并標注語義信息。
Sipo-Ontology管理維護模塊:采用基于本體的主題網絡輿情知識模型構建方法創建Sipo-Ontology,并對其進行管理維護。
情感Ontology管理維護模塊:采用情感本體構建方法創建情感Ontology,并對其進行管理維護。
(4)輿情報告與預警:利用相關的工具和技術對網絡輿情分析模塊挖掘出來的知識進行文字或圖形化的表示,并根據分析結果對企業網絡輿情管理的實踐提供決策參考。
本文在分析大數據和企業網絡輿情相關概念和技術的基礎上,根據企業網絡輿情的特點構建了大數據環境下的企業主題網絡輿情分析系統模型,并分析了模型各個模塊使用的關鍵技術:數據采集模塊采用主題爬蟲,通過主題關鍵字過濾法,使獲得的網頁數據聚焦于企業的主題相關;數據預處理模塊對文本向量轉換為語義特征表示;輿情分析模塊對采集的圖片進行內容識別,借助領域本體和情感本體進行基于語義的分類和聚類處理,獲取對企業輿情管理有價值的信息。本文的輿情分析處理的重點在所涉及的文本信息,對圖像內容識別做了初步分析,但是對其他多媒體信息、社會網絡關系所包含的輿情信息的挖掘還有待進一步研究。
[1]王蘭成.網絡輿情分析技術.國防工業出版社,2014,10.
[2]王靜婷,徐震.一種基于知識技術的網絡輿情內容分析系統框架.圖書情報導刊,2016,2.
[3]梁循,許媛等.社會網絡背景下的企業輿情研究述評與展望.管理學報,2017,6.
[4]王宇.基于云計算的網絡輿情熱點發現研究.內蒙古工業大學碩士論文,2016,6.
[5]梁循,楊小平,李志宇.社會網絡大數據下企業輿情建模和管理.清華大學出版社,2016,2.
[6]馬梅,劉東蘇,李慧.基于大數據的網絡輿情分析系統模型研究.情報科學,2016,3.