夏夢婷 祁云嵩 朱 丹
(1.江蘇科技大學 鎮江 212000)(2.貴州師范大學 貴陽 550001)
隨著互聯網在全球范圍的快速發展,網絡已成為繼報紙、廣播、電視之后的“第四媒體”,成為反映社會輿情的主要載體之一[1],互聯網是人們獲取信息和言論發表的主要媒介。網絡輿情通過互聯網傳播,公眾對現實生活中某些熱點、焦點問題持有較強影響力[2]。網絡輿情是由于各種事件的刺激產生的通過互聯網傳播的,民眾對于該事件的認知、態度、行為和情感的傾向[3]。如果網絡輿情事件處理不當,會造成民眾的不良情緒,引爆輿情危機,更甚引發生命危險[4]。網絡輿情的情感強度研究,是對網民發表的文本信息進行分析研究,是對評論的褒貶的一個確定性度量,因此基于網絡輿情的情感強度研究能反映事件走向的程度,能抓住熱點事件,為政府決策提供數據支撐。
情感強度的研究是情感分析的一部分,情感分析是劃分用戶的觀點,是贊成還是反對,而情感強度是對評論的褒貶的強弱的分析,能很好地反映主觀性信息,能捕獲熱點事件的輿情。由于情感強度的主觀性能大,不同人對同一事件給出的情感強度值不一致。所以目前對情感強度的對比結果,主要采用分等級的方法,由連續的值變為區間的方式。
對于網絡輿情的研究,著眼于對所有評論的綜合而給出的情感強度,在情感傾向的基礎之上細化情感的強度。對于整篇報道的評論,包含每個人給出的評論(句子成分);句子成分中包含短語;短語中包含情感詞。所以基于這樣的結構,本文結合情感詞的模糊性,提出篇章,句子,短語,情感詞四粒度綜合分析網絡輿情的情感強度。
網絡輿情情感強度最基本要素是情感詞,本文也是基于情感詞的基礎上進行研究。詞匯的情感計算主要有基于詞匯知識庫和基于統計的方法[5]。在現有的情感詞匯知識庫中,《知網情感詞庫》,《臺灣大學中文通用情感詞典》和《互聯網非正式文本詞庫》詞匯庫僅標注了情感詞的情感傾向性信息,沒有給出情感詞的情感強度的信息[6];而由大連理工大學編著的《情感詞匯本體》和清華大學編著的《情感極性詞表》不僅標注情感詞的情感傾向性,還標注情感詞的情感強度。Jiang等[7]融合情感詞典,主題相關和內容特征進行主客觀和情感極性的分類;路斌等[8]利用《同義詞語林》來判斷詞語的褒貶;朱嫣嵐等[9]采用HowNet語義相似度的方法,計算目標詞語跟基準詞之間的緊密程度,來判定情感極性;何鳳英[10]以HowNet情感詞集為基礎,構建基礎情感詞典,語義相似度為基準,計算詞語的情感權值;傅向華等[11]提出基于Hownet詞典和LDA話題模型,識別出博客文本所涉及的多方面的子話題及每個子話題上的情感傾向;顧益軍等[12]利用綜合多種情感資源庫中的情感詞匯特征,融合情感詞匯的情感極性和極性強度,來構建情感詞庫。基于統計的方法,研究者可通過預先人為選定的種子詞與某些基于語言學的啟發式方法,給出情感詞的情感極性或極性強度。Mohammad等[13]結合詞的情感和極性,生成一個大規模的詞語情感聯合庫,考慮8種基本情緒。統計基本情緒中的頻率,來進行情感標注;Turney等[14]基于兩個不同的單詞關聯統計度量方法:點互信息(PMI)和潛在語義分析(LSA),確定目標詞與基準詞之間的緊密程度,從而獲取目標詞的情感傾向;王素格等[15]考慮到詞匯和同義詞的具有相同的情感傾向,通過統計詞頻找出區別類別能力強的詞語,并且結合構建的情感詞表,提出了基于同義詞的情感傾向判別方法,獲取情感詞情感傾向。
以上兩種方法的相同點都用到了情感詞,在情感詞的基礎上進行延伸,突破了以往基于情感詞累加的方法得出的情感傾向。對于網絡輿情的情感強度的分析還不夠準確,存在的局限在于:首先,已有的研究多傾向于情感的傾向性上,涉及到情感強度值得研究較少,大多使用準確率、召回率、F值判斷正向、負向、中性情感,沒有具體給出研究的情感強度值;其次,本身情感詞強度就是具有模糊性的,從詞匯,短語到句子,篇章。都不能很肯定地給出其強度值;同時,網絡輿情情感強度的研究對象中涉及的對象不止一個,也沒有針對到具體對象的情感強度。針對以上問題,本文提出了基于語義多角度、細粒度的網絡輿情情感強度研究。
一篇網絡輿情信息出來,評論的對象會不止一個,需要劃分多個對象,分別給出各對象的情感強度。例如手機商品的評價,涉及到外觀,價格,操作多個對象。
由于情感強度的劃分具有邊界模糊性,為了減少模糊,給情感強度劃分為11級強度。設置區間為[-10,10],(0,10]為正向情感強度,[-10,0)為負向情感強度,情感強度為0,是不帶任何感情傾向的。

表1 情感強度級別的劃分
網絡中主要人物的評論導向會帶動整個輿論的走向。這些人物在新聞評論的“贊”數量對評論的觀點傾向性影響較大,故抽取“贊”數 ≥N的評論作為評論簇,評論簇的閾值設為N(N設為100),“贊”設為M ≥ N;權值=1+(M-N)/N。
認識情感詞強度的模糊性,能有效地理解情感強度的模糊特征,提高本實驗分析的準確性[16]。單純地依據情感字典,不能正確地表達該詞的準確情感強度。例如:“痛并快樂著”,“你一定要快樂”,“親愛的,生日快樂”和“光棍節快樂”四句中的“快樂”情感強度明顯不一樣;“這樣的你真的好看”和“你再這樣,我會讓你好看”中,兩個“好看”的情感明顯相反。為了彌補這樣的缺陷,提出了情感詞模糊性規則,量化模糊的情感詞。訓練情感詞詞庫。規則如下:
1)從訓練語料中找出符合以下3種情形的輿情情感詞,褒貶詞個數分別為Np,Mn:
(1)評論中出現較多的情感詞,即高頻詞匯;(2)情感詞的情感強度明顯;(3)選出的情感詞組的情感強度跨度范圍廣。
2)人為的判斷情感詞在該句屬于的情感階段強度,對于k個不同人所給出的情感強度級別值,取其均值作為判別依據;
3)基準詞A在強度i的隸屬度,即是在語料庫中(數據足夠多),基本詞A在強度i的出現的概率:

qAi表示A在情感強度中出現的次數,nA為包含情感詞A的個數為總的情感強度級別數目,所以基準詞A的情感強度為

4)常用的情感詞作為基準詞,通過HowNet的語義相似度計算,HowNet中詞語相似度的計算以詞的義原為基礎。對于兩個中文詞語wi、wj,假設它們分別有 N、M義原,即,。那么情感詞wi和wj的語義相似度計算公式為

基本詞分為褒、貶詞,分為{(Api)},{(Anj)}。則情感詞w在基準詞的基礎上的情感強度為

其中sim(w,Api)是該詞與基準詞相似度前x大的詞(x設為10)。
5)為了便于計算分析,使情感詞能保持在相同約束區間內,本文采用線性的方法:

6)為了整體的情感強度效果,本文也綜合了現有的情感強度詞典,規則如下:
real_senti(wi)=αsenti′(wi)+(1-α)senti″(wi)(6)
α為可變參數,senti″(wi)為現有情感詞匯本體中的情感強度。測試時的整篇的情感強度在α=1時與人工評測時最符合,說明與現有情感強度庫中的詞典沒關聯。為了減少工作量,設定α為0.5。
1)程度副詞
程度副詞粘著性強[17],不會影響情感詞的傾向極性,但直接影響情感詞的情感傾向程度[18]。由于副詞的增強強度不一致,給出以下常見副詞的權值系數,參考藺璜[19]對程度副詞的分類以及根據訓練中的常見的程度副詞。

表2 程度副詞
2)否定詞
否定詞會直接導致情感詞的傾向性往返方向去,但是并不一定是詞匯的情感強度直接取反值,參考郝雷紅[20]對否定副詞范圍的界定。

表3 否定詞表
3)否定,程度詞情感詞修飾值
例如:這篇作文不是很好。(否定+程度副詞+情感詞)
這篇作文很是不好。(程度副詞+否定+情感詞)
雖然都有否定和程度副詞,但是表現的強度一定也不同,明顯后句的強度更強。對于這樣的句型,設定規則如下:本文用N(no)代表否定詞,D(degree)代表程度副詞,S(sentiment)代表情感詞,O(S)為情感詞的原極性,O(P)為情感詞的修飾極性,V(D)為程度副詞的強度值。
if短語S:O(P)=O(S)
else if短語 N+S:O(S)=-1/2*O(P)
else if短語 D+S:O(P)=V(D)*O(S)
else if短語 N+N+S:O(P)=O(S)
else if短語 N+D+W:O(P)=-1/2*V(D)*O(S)
else if短語D+N+W:若V(D)> 0,則 O(P)=-5/4 V(D)*O(S)
情感句子是一段話的完整表述,包含短語,標點符號,增強或改變句子的意思,表4列出句子中出現的句型的取值。

表4 句型取值
一篇輿情信息由句子,短語,詞遞進組成,由前面的工作,最后對句子的情感強度值進行累加得到。
本實驗分為兩個部分:一是情感詞的標注實驗,給出合理的情感詞強度;二是分析輿情信息的實驗,計算出情感強度。
隨著手機的普及,越來越多的人會通過微博看新聞,表達出對事情的看法,網絡輿情也能從中反映。為了驗證本實驗的可行性,從微博相似主題上獲取評論集,作為實驗數據。數據集也分為兩種用途:1)獲取微博的200萬條情感句中常用的情感詞,并計算其中的情感強度作為基準詞;2)獲取2篇有效輿情信息,其中的評論集做測試集。采用中科院分詞系統進行處理。
依據情感詞的規則,獲取正負各40個情感詞基準詞,并得出的情感詞強度,表5是部分結果。

表5 部分情感此取值
由本實驗的計算結果,與人工方法進行比對。邀請3人獨立閱讀2篇輿情新聞并給出每個的情感強度等級以及每句話的情感強度值。由此給出人工方法和本實驗計算的方法,以及看完評論的整體感受做出對比結果。
由圖1和圖2可看出,本文還是具有一定的有效性的。

圖1 “云南女子被打開庭”人工情感強度計算與本文方法比較

圖2 “醫患事件”人工情感強度計算與本文方法比較
1)對于一件網絡輿情事件的發生并不是只涉及到一個對象,涉及的對象也不局限于本事件中出現的,會帶出和該事件相關的對象。有時甚至評論者評價的對象不是該事件中的主要對象。例如云南女子開庭中,評論云南這個地區的評論相對多些。評論者對該對象的評價與以往中該對象的所樹立形象有關,有的會帶有地域差異,也和評論者的所見所聞有關。
2)評論數據的準確性和數據量的大小和評論情感強度分布情況有關,數據量大的并且評論的情感集中的會越接近真實情感強度。在“云南女子開庭”輿情信息中,涉及到本案被打女子的評論較少;對打人者的評論較多,并且評論的情感強度比較集中;在“醫患事件”中,對于患者的評論較多,但所給你的情感強度跨度相差較大;對醫生的評論少,但是評論相對集中。所以評論數據的準確性與數據量的大小和評論情感強度分布情況有關,但是也不起到決定性的作用,至少和人工方法的情感傾向性保持一致。
本文提出的方法不僅判別了情感的褒貶,也計算出情感強度的數值,其中的情感計算方式適應瞬息萬變的網絡社會的發展,為政府部門對網絡輿情事件的決策提供強有力的數據支撐。本文所構建的情感強度研究中的情感基準詞用的較少,仍有較大的擴展空間。另外情感詞詞典的標注內容還可以加入領域這一信息,例如:“垃圾”在環境這一領域,是中性詞,但是在其他領域多為貶義詞。“領域”信息的加入,不僅提高情感詞在領域內情感傾向的分歧,還能提高情感分析的準確率。