譚 旭,吳俊江,徐 磊,毛太田
1(深圳信息職業技術學院 軟件學院,廣東 深圳 518172)2(湘潭大學 公共管理學院,湖南 湘潭 411105)3(深圳職業技術學院 電子與通信工程學院,廣東 深圳 518055)
隨著互聯網的爆發式發展,龐大的網絡社交群體將會產生對自己關心或者與自身利益相關的公共事件發表帶有感情傾向的意見、態度和評論(即網絡輿情),其情感極其容易被傳播和感染.如何通過龐雜的輿情信息來捕捉分析民眾的情感趨勢,從而引導正向的輿情傳播,以避免重大群體性事件、保障社會的安定和諧,是一項極為重要的研究課題.顯然,輿情的情感分類是網絡輿情分析中的核心研究內容.目前大多數的情感分類研究主要圍繞淺層學習的詞典建模分析和機器學習算法推演而開展.如Rao等[1]基于情感詞典構建提出了話題建模方法,并將該方法用于社會情感監測分析;D.Dadiv等[2]提出了針對Twitter數據的監督情感分類框架,實現了情感句的自動識別和分類;Shen等[3]提出了不依賴人工標注的詞典建模分析方法,通過將情感詞進行分類,構建了帶權重的情感詞典來計算博文情感值,但其精準度稍顯欠缺;謝麗星等[4]研究了表情規則法、詞典建模法和SVM法,并深入對比三者在情感分類上的優劣.相關研究中,基于詞典的情感分類算法需要構建領域適用的情感詞典,而基于機器學習的情感分類算法需要人工選擇特征,兩類方法對于復雜文本數據的情感分類表現效果并不是特別理想.
2006 年,Geoffrey Hinton[5]通過剖析淺層機器學習的約束性,開啟了深度學習的浪潮,并指出了兩個觀點:其一,多隱層的人工神經網絡具備著優異的學習特征的能力,它學習到的特征對樣本數據有著更加本質的刻畫;其二,深度神經網絡在訓練的時候存在一定的難度,這些可通過“逐層初始化”的方法來有效的克服.由此,Socher[6-8]嘗試采用遞歸自編碼方法(RAE,Recursive Autoencoders)、RNTN(Recursive Neural Tensor Network)方法以及建立MV-RNN 模型,來實現文本的向量表示以及判斷文本的情感傾向,取得了較高的準確率.為提高分類性能,Lecun 等[9]嘗試構建基于卷積神經網絡(CNNs,Convolutional Neural Networks)的文本分析,在減少模型訓練訓練時間的同時,提升了情感分類的準確率;Socher[10]進一步提出了用LSTM的記憶功能來融合詞語信息,最終得到高準確率的句子分類;梁軍等[11]根據中文文本數據的特點,設計了一種半監督學習方法,利用遞歸自編碼算法兩兩組合詞向量,以此獲得句子向量.顯然,大多深度學習算法需要依賴豐富的標注數據,而對于現實中的復雜輿情情感分類而言(尤其是中文文本數據),標注信息難以大量自動獲取,需要根據人類意圖獲取特定的情感分類,這顯然干擾了精準的輿情信息分析結果.
“魏則西事件”是近期的熱點輿情事件,產生了海量的中文評論數據,但是由于該類網絡輿情事件的標注評論數據量少、中文文本數據處理復雜等難點,使得對其中的輿情分析存在著一定瓶頸.本文擬通過構建文本詞向量表示模型和RAE深度模型實現中文輿情的情感分類,同時構建LDA主題模型進行細粒度文本主題劃分,并分別給出主題維度和時間序列維度的輿情分析算法,以期多層次、多方面的把控輿情狀況走勢,追蹤其輿情熱點,刻畫該網絡輿情事件的情感演化過程.
面向自然語言的輿情分析中,需要將非結構化的文本轉換為計算機能夠理解的結構化形式,即將文本中的詞語通過模型轉換為詞向量形式.詞向量化有多種形式,其中基于Hierarchical Softmax框架的CBOW深度學習模型[12]考慮了上下文語境信息,并精簡了神經網絡模型的非線性部分,極大降低了計算量和復雜度,得到了廣泛的應用,圖1展示了CBOW模型的結構.

圖1 CBOW深度學習詞向量解析模型Fig.1 CBOW deep learning model for analyzing word vectors
定義1.設集合Y={d1,d2,…,dL}為語料集,dj={w1,w2,…,wN}(j=1…L)為有限詞語構成的文本,稱
VContext(w)=(vcontext(w-l),vcontext(w-l+1),…,vcontext(wl-1),vcontext(wl))
(1)
為當前詞w的上下文詞向量(其上下文窗口為2l),其中vcontext(wh)∈Rυ(h=-l…l)表示當前詞w上下文詞中第h個位置詞語的隨機詞向量.


(2)

根據定義2的描述,可進一步構建CBOW模型的優化目標函數:
(3)
通過對目標函數Γ取值最大的梯度優化,更新條件概率P(w|VContext(w))及VContext(w),經模型的優化迭代訓練,可求取VContext(w)的上下文詞向量最優數值解,即為詞集{w-l,w-l+1,…,wl-1,wl}對應的最終詞向量{c-l,c-l+1,…,cl-1,cl}.由此,對包含sm個詞的語料集Y,可求取得到最終的詞向量矩陣Csm×υ.
在中文文本信息處理和理解過程中,為了減少詞向量組合集成對句子向量理解的信息損耗,本文擬構建如圖2所示的樹結構圖[6],實現RAE深度學習的文本特征學習和情感分類.基于1.1節得到的詞向量矩陣Csm×υ,進一步將文本詞轉換為詞向量由此得到表示文本特征的向量集,并將該向量集作為模型的輸入,通過RAE模型進行文本特征的深層提取,最終利用Softmax分類器對得到的特征進行分類,可實現文本的情感傾向性判定.

圖2 基于深度學習的詞向量融合優化結構樹Fig.2 Tree model for optimizing sentence vectors
定義3.設c1,c2∈Rυ為兩個不同的詞向量,則定義兩個詞向量融合后的父節點向量為
F=f(ω(1)[c1;c2]+b(1))
(4)
其中[c1;c2]∈R2υ為詞語向量連接向量,ω(1)∈Rυ×2υ為參數矩陣,b(1)∈Rυ為偏置項,編碼器f(·)采用雙曲正切函數.



(5)
為詞向量c1,c2的重構誤差,其中l={ω(1),ω(2),b(1),b(2)}為參數集,n1和n2分別是詞向量c1,c2下的子節點數目.

為了進一步計算用于情感分類的交叉熵誤差,設有訓練文本句向量集TTW={μ1,μ2,…,μx},μx=((c1,c2,…,cr),flag)刻畫為標注了情感標簽flag的句向量二元組(其中cxr為μx中第r個詞向量,flag含有G類標簽),則給出定義5.
定義5.設T為句子樹,則對于根節點向量Fg,定義Fg的交叉熵誤差為
(6)

基于定義4和定義5的兩種誤差,在RAE深度學習模型中予以綜合考慮優化,得到構建RAE深度學習模型的目標函數J:
(7)

面對復雜的輿情分析問題,通常需要從多個主題的角度對輿情信息進行全面的分析,由此得到更為精準的輿情分析結果.為此,本文擬構建如圖3所示的LDA(Latent Dirichlet Allocation)概率主題模型[17]來識別大規模中文文本數據中潛藏的主題信息,進而實現對文本數據的主題劃分.

(8)


圖3 LDA概率主題分析模型Fig.3 LDA probabilistic topic model
(9)
隨后利用Gibbs抽樣算法進行參數估計,迭代抽樣直到收斂,可求得優化后的“主題-詞”分布矩陣Φ和“文本-主題”概率分布θm.
網絡輿情分析中,對輿情文本進行主題分類能夠發掘出輿情事件的關注焦點,更能細膩地剖析出輿情事件的關注方向及其輿情態勢.因此本文擬通過搭建LDA模型對輿情文本進行主題劃分,隨后通過RAE深度學習模型對不同主題下的輿情文本進行情感分類解析,獲得不同主題維度下輿情發展態勢的分析結果.具體步驟如下算法所示.
輸入:輿情文本訓練集TT,輿情文本測試集DT,語料集Y
輸出:文本情感分析結果FE,“文本-主題”情感分析結果TFE
Step1.對TT、DT、Y進行文本預處理(含中文分詞、去除停用詞、標點);
Step2.設置LDA模型主題數為K,給定DT為輸入數據,基于定義6求得K個主題下V個詞的“主題-詞”分布概率矩陣(TW)K×V以及K個主題下的M個文本句子的“文本-主題”概率矩陣(TZ)K×M、K個主題的主題相似度rK;轉Step 3;
Step3.FordjinY:
Forwindj:
由定義1構建w的上下文詞向量VContext(w);
由定義2計算w的條件概率P(w|VContext(w));
對式(3)進行隨機梯度上升法訓練,更新
VContext(w)
End for
End for
得到語料集Y的詞向量矩陣Csm×υ;
Step4.將TT和DT中詞轉換為詞向量,得到輿情文本訓練向量集TTW和輿情文本測試向量集DTW,轉Step 5;
Step5. ForsinTTW:
根據定義5得到句向量s的交叉熵誤差Ecf;
End for
根據公式(7)構建TTW的目標函數J;
對目標函數J進行隨機梯度下降優化各類參數ξ,得到訓練完畢的RAE模型;轉Step 6;
Step6. FordtwinDTW
將dtw作為Step 5訓練完畢的RAE模型輸入;
根據定義5求取dtw的softmax條件概率bη(Fg,τ);
選取bη(Fg,τ)中概率最大的類別為dtw的flag(情感類別);
End for
Step7.Form=1:|DT|


End for
得到DT“文本-主題”情感分析結果TFE.
為了能夠精準把握輿情演變和發展趨勢,下面給出基于時間序列維度的輿情分析算法,該算法在文本詞向量表示模型、RAE深度學習模型、LDA主題分析模型基礎上加載時間序列模型ARMA[15,16],進而對輿情事件實現多維度的時間序列情感傾向性預測分析.具體算法步驟如下.

輸出:文本數量時序預測結果DT_T、文本情感時序預測結果FE_T、“文本-主題”情感時序分析結果TFE_T
Step1.對FE中文本按DT_time中時間進行劃分,得到 “文本-時間”情感分析結果time_FE,轉Step 2;
Step2.將DT_time和time_FE分別作為ARMA的輸入數據,根據文獻[15]中ARMA模型步驟進行情感時間序列預測,分別求取文本數量時序預測結果DT_T和文本情感時序預測結果FE_T,轉Step 3;
Step3.對TFE中文本按DT_time中時間進行劃分,得到 “文本-主題”情感時序分析結果TFE_T.
2016年3月30日,魏則西在知乎網上記錄了自己求醫的經歷,其中關于武警二院和百度搜索的內容引發網民廣泛關注.2016年4月12日魏則西不幸病逝,2016年4月30日隨著多篇網絡熱文的傳播,“魏則西事件”迅速引爆網絡,引起及其廣泛的輿論關注,將百度、莆田系、部隊醫院以及政府醫療監管等話題推向了輿論的高潮.廣大網民通過論壇、微博等社交平臺來表達對“魏則西事件”這一熱點話題的見解和觀點,從而產生了大量的輿情評論.
為了深度解析“魏則西事件”背后的輿情信息,并進一步驗證本文的深度學習模型算法,本文以“魏則西”為搜索關鍵詞,抓取了天涯論壇、知乎網中有關“魏則西事件”的帖子750個,共計評論14630條,作為初步實驗數據.抓取的信息包括“評論時間”和“評論內容”,時間范圍為從2016年4月30日到2016年5月13日.通過數據預處理去除無意義評論和廣告評論,最終得到15699條中文文本評論數據,其中含情感標注的評論數據2500條.
將2500條帶標注的評論作為輿情文本訓練集TT,余下13199條評論作為輿情文本測試集DT.將“魏則西事件相關”的新聞報道以及TT和DT共同構建了語料集Y.
對輿情文本測試集DT進行主題分類,并利用3.1節算法的Step 2至Step 5的迭代計算LDA模型最優的主題數.經過4次次迭代計算,當主題數K=4時,rK=0.72,此時平均相似度達到最小值(如表1所示),優化后4個主題的“主題—詞”對應情況如表2所示.
經計算,主題1中概率最高的三個關鍵詞為:P(醫院)=0.0523、P(莆田系)=0.0323、P(軍隊)=0.0132,由此將主題1命名為“莆田系醫院”.同理,將主題2命名為“醫院醫生”,主題3命名為“中國社會”,主題4命名為“百度”.
基于3.1節算法中的Step 3和Step 4,易得到輿情文本訓練向量集TTW和輿情文本測試向量集DTW.將TTW做為RAE深度學習模型的訓練數據,最終得到DT的文本情感分析結果FE.對FE進行統計分析,得到如圖4 所示的情感傾向整體分布圖,顯然在該時間段內,“魏則西事件”整體網絡輿情極大程度地呈現出消極、批判的態度.
表1 “魏則西事件”主題迭代計算結果
Table 1 Iterative computation results of event Wei Zexi′s topics

主題數第1類第2類第3類第4類第5類第6類第7類平均相似度7中國醫院醫院醫院醫院莆田系百度0.885沒有莆田醫院百度醫院0.864醫院百度中國醫院0.723百度醫院醫院0.93
表2 “魏則西事件”的“主題-詞”優化結果對應表
Table 2 Topic-keyword optimization results of event Wei Zexi

關鍵詞1關鍵詞2關鍵詞3關鍵詞4關鍵詞5關鍵詞6關鍵詞7關鍵詞8關鍵詞9主題1醫院莆田系醫療民營承包軍隊武警騙子監管主題2醫院醫生治療患者現在錢沒有做給主題3中國社會國家問題百度監管樓主爛希望主題4百度谷歌廣告搜索魏則西責任推廣中國信息
為了進一步解析“魏則西事件”輿情評論數據的主題情感分布,利用3.1節算法 的Step 7得到“文本-主題”情感分析結果TFE.對TFE進行統計分析,得到如圖5所示的主題數量分布圖和圖6所示的主題情感傾向分布圖.

圖4 “魏則西事件”輿情情感傾向分析結果Fig.4 Sentiment analysis results of public opinion
由圖5可知,評論數量最多的是“百度”這一主題,占所有評論的33%;其次是“中國社會”、“醫院醫生”、“莆田系醫院”主題.因“醫院醫生”主題中迭代了大量關于莆田系醫院的信息,不難看出網民的輿情關注點主要集中于“百度”和“莆田系醫院”兩方,認為“百度”和“莆田系醫院”是“魏則西事件”主要責任方.由圖6可知,在14 天中,四個主題的負面評論遠遠多于其正面評論和中立評論,說明網民對于這四個主題都是帶有批判、消極的情感,其中“莆田醫院”和“醫院醫生”的消極評論率達到65%和58%,其次“百度”和“中國社會”的消極評論率分別為54%和56%,這一數據表明,莆田系醫院這一罪魁禍首受到網民的批判最多,而關于百度的評論最多,但是其消極評論率在四個主題中相對最小.

圖5 “魏則西事件”輿情主題分析結果Fig.5 Topic analysis results of public opinion

圖6 “魏則西事件”4個主題下的輿情情感傾向分析結果Fig.6 Sentiment analysis results of event Wei Zexi under 4 topics
為時序地把握“魏則西事件”輿情情感的變化態勢,根據3.1節算法,將文本情感分析結果FE按時間片進行解析,得到如圖7所示的“魏則西事件”輿情情感傾向走勢圖.并通過對“文本-主題”情感分析結果TFE按時間片進行解析,得到如圖8到圖11所示的4個主題下的輿情情感傾向走勢圖.

圖7 “魏則西事件”輿情情感傾向走勢圖Fig.7 Sentiment trend analysis of public opinion of event Wei Zexi

圖8 “莆田系醫院”時間序列情感分布Fig.8 Time series analysis results on topic of putian faction


圖9 “百度”時間序列情感分布Fig.9 Time series analysis results on topic of Baidu

圖10 “中國社會”時間序列情感分布Fig.10 Time series analysis results on topic of society

圖11 “醫院醫生”時間序列情感分布Fig.11 Time series analysis results on topic of hospitalist
依圖12,可看出整個“魏則西事件”的發展狀況:從4月30日到5月1日,隨著《醫療競價排名,一種邪惡的廣告模式》、《一個死在百度和部隊醫院之手的年輕人》、《魏則西的死,“百度”經年累月的惡》等熱傳文章出現和輿情傳播,“魏則西事件”得到廣泛的關注,因此從5月1號起網名的評論數據急劇上升,說明該事件具有廣大的影響力.隨著5月2日國家網信辦協同國家工商總局、國家衛生計生委成立合調查組進駐百度公司,5月3日國家衛計委、中央軍委聯合調查武警北京第二醫院,5月4日北京武警二院宣布停診以及魏則西主治醫生李志亮狂刪微博后失聯等一系列相關事件之后,網民的評論數據達到高峰,網民的關注度達到最高.5月4日之后,隨著相關輿情事件的減少,“魏則西事件”的關注度也隨之減少.模型預測在5月14日將有103條評論數據(而實際評論數據數量為94條).可見,該時間序列預測擬合的結果基本與實際評論數據結果保持相近,充分證明了本模型的預測效果.
表3 ARMA時間序列模型迭代優化結果
Table 3 Iterative optimization results under the ARMA model

估計方程取代系數檢驗量評論數量時間序列TEST1=0+[AR(2)=C(1),MA(3)=C(2)]TEST1=0+[AR(2)=0.632688721173,MA(3)=-0.968658283553]R2=0.89DW=2.3正面情感時間序列POS=0+[AR(2)=C(1),MA(3)=C(2),BACKCAST=2,ESTSMPL="213"]POS=0+[AR(2)=0.676015875644,MA(3)=-0.912837129348,BACKCAST=2,ESTSMPL="213"]R2=0.56DW=2.28中立情感時間序列MED=0+[AR(2)=C(1),MA(3)=C(2),BACKCAST=2,ESTSMPL="213"]MED=0+[AR(2)=0.631885106686,MA(3)=-0.954832378958,BACKCAST=2,ESTSMPL="213"]R2=0.8DW=2.16負面情感時間序列NEG=0+[AR(2)=C(1),MA(3)=C(2),BACKCAST=2,ESTSMPL="213"]NEG=0+[AR(2)=0.631616078381,MA(3)=-0.97747487213,BACKCAST=2,ESTSMPL="213"]R2=0.93DW=2.5

圖12 “魏則西事件”輿情評論數量走勢預測比較Fig.12 Result comparison of public opinion between predicted and actual
進一步依據算法模型,本文對5月14日的負面評論和中立評論數據的數量進行預測,得到如圖13和圖14的評論數量時序變化預測對比結果.模型預測5月14日負面情感評論將有144條,中立情感評論有77條;這與實際輿情數據的120條和60條保持基本的契合.

圖13 “魏則西事件”中立情感數量走勢預測比較Fig.13 Neutral sentiment prediction results

圖14 “魏則西事件”負面情感數量走勢預測比較Fig.14 Negative sentiment prediction results
文章針對復雜中文文本數據環境下網絡輿情分析技術的不足,嘗試提出了基于深度學習的網絡輿情情感分類方法,該方法能夠較好地處理中文文本數據的情感分類問題.具體地,本文在剖析LDA模型、時間序列ARMA模型的基礎上,給出了基于深度學習的多維度輿情分析算法,即基于主題維度和基于時間序列維度的輿情分析算法,該兩種算法能夠從粗粒度到細粒度、從靜態到動態的挖掘和分析輿情情感演化和趨勢.最后以“魏則西事件”這一熱點網絡輿情事件為實證分析背景,展示了對網絡輿情文本數據的多維度輿情分析及輿情演化預測,有效驗證了本文算法在一定程度上的精確性和較大的實用性.