張琪



摘 要:針對微博評論文本的情感計算分析大多以情感詞語為出發點,因此與情感詞語有關的分析處理已經成為情感計算領域的重點。本文針對《我不是藥神》電影評論語料進行預處理,構建情感詞匯共現網絡,并對情感詞匯共現網絡的統計學特征進行分析和可視化,包括小世界效應、無標度特征、網絡社區結構特性、網絡抗毀性分析。實證研究結果表明,《我不是藥神》電影評論的情感詞匯共現網絡服從小世界效應,具有無標度特性,能夠劃分出明顯的社區結構。
關鍵詞:情感詞匯共現網絡;小世界特性;無標度特性;社區特性
中圖分類號:J905 文獻標識碼:A 文章編號:2096-5079 (2020) 16-0-02
一、引言
隨著智能手機的普及和互聯網技術的發展,互聯網平臺已經成為人們發表看法、抒發情感的場所。無論是對于中文還是英文文本,詞語都通常作為人類表達情感的最小單元,所以有關情感的計算都以情感詞為基礎,篩選情感詞和分析情感詞之間的關聯成為情感傾向計算的一個主要的方向。
近年來的研究表明,語言學的各個領域都表明具有復雜網絡的特性。當前,有關學者已經在詞匯共現網絡、詞法網絡以及語義網絡等方向展開研究,已經有了一定的成果,并且大多以情感詞匯為著手點。何天翔[1]基于大規模語料庫和同義詞集合構建詞—詞、詞—對象的情感詞網,提出了結合情感詞網的短文本情感分類方法,并將情感分析應用在網絡輿情演化分析中;張向陽[2]等人以詞匯共現理論為基礎,構建評論的有向網絡,根據網絡的拓撲性質及綜合衡量節點重要性來選擇情感分類特征的算法NTFS,效果顯著。本文結合情感詞匯共現網絡的統計學特征,為情感詞匯的研究提供統計學依據。
二、情感詞匯共現網絡構建及網絡特征分析
(一)情感詞篩選
一般情況下,獲取的評論源數據需將原始語料進行預處理,主要包括分詞、詞性篩選、多詞性情感詞處理、詞頻閾值設置、停用詞過濾等步驟。
本文選擇利用中科院計算所的NLPIR中文分詞系統對語料進行分詞和詞性標注。為改善分詞效果,在利用用戶詞典進行分詞時加入了語料中新詞發現結果。將經過詞性篩選、多詞性處理、停用詞過濾以及詞頻處理后的情感詞納入最終的情感詞匯集合。
(二)情感詞匯共現網絡構建
在大規模語料中,若兩個詞經常共同出現(共現)在截取的同一單元(如一定詞語間隔/一句話/一篇文檔等)中,則認為這兩個詞在語義上是相互關聯的,而且,共現的頻率越高,其相互間的關聯越緊密[3]。對于情感詞而言,情感詞匯的共現可以定義為在一個文本單元中兩個情感詞共同出現的情況。根據情感詞匯集合和情感詞匯共現網絡的定義,將情感詞定義為網絡中的節點,兩情感詞之間出現共現情況則定義為這兩個節點中存在一條邊,共現的次數為邊上的權值,這樣就構建出一個具有N個節點的無向加權網絡。
(三)情感詞共現的復雜網絡統計學特征分析
復雜網絡的統計學特征主要包括小世界效應、無標度特性、社區結構特性、網絡抗毀性以及節點度相關性,這些特性綜合反映了復雜網絡的結構。
1.小世界效應
小世界效應來源于“六度分離”現象,是指若在情感詞共現網絡中兩個情感詞匯的平均最短距離隨節點數呈對數增長趨勢,則認為該網絡具有小世界特性[4][5]。平均路徑長度L定義為網絡中兩個節點i和j之間的距離,dij是指連接這兩個節點的最短路徑上的邊數[5],可以表示為:
其中N表示該網絡的總結點數。
2.無標度特性
網絡的無標度特性是指網絡中各節點的度嚴重不均勻分布,度分布服從冪律分布。節點i的度ki定義為與該節點相連接的邊的數目。大量研究表明,許多實際網絡的度分布接近于冪律分布,即:
分布函數P(k)表示網絡中度數為k的節點的個數占節點總數的比例。在情感詞匯共現網絡中,如果節點的度服從冪律分布,那么可以判定其無標度特性。有時,也會通過判別累加度分布是否滿足冪律分布來分析網絡的無標度特性,累加度分布函數P(k)是指節點度大于k的節點個數占節點總個數的比例[6]。
3.網絡抗毀性
網絡抗毀性是指網絡在受到人為破壞時表現出的可靠性[7]。測試網絡的抗毀性通常有兩種策略,一種是隨機刪除節點以觀測對網絡的影響,稱為網絡的魯棒性分析;另一種是按照一定標準選取網絡中較為重要的節點進行刪除,觀察網絡性能指標的變化,稱為脆弱性分析。在進行網絡的脆弱性分析時,可以對節點的度中心度、介數中心度、接近度中心度三個特征參數的值較大的節點進行選擇性刪除。
網絡中度大的節點度中心度高,能夠與更多的節點直接相連。網絡的節點介數Bi和接近度Cci如公式3和4所示:
其中njk表示節點j,k的最短路徑的總個數,njk(i)表示節點i在節點j,k的最短路徑上的個數,dij表示節點i與節點j之間的平均路徑長度。
4.社區特性
復雜網絡的各個節點依據其性質特征和連接的情況可以將其分為不同的類型,滿足同一類型的節點以及這些節點之間的邊所構成的子圖稱為網絡中的社區。社區分類算法按照社區發現的結果形式可以分為不可重疊社區發現算法和可重疊社區發現算法[8]。當前針對不可重疊的社區的發現算法包括KL算法、譜平分法、GN算法、凝聚算法和分裂算法、貪心算法FN、Louvain快速社區發現算法等;可重疊社區發現算法主要包括派系過濾算法CPM、局部緊密性擴張算法LTE以及LFM算法等。
三、實證分析
(一)數據來源
2018年7月,《我不是藥神》電影上映,該電影在反映了尖銳的社會現實,引發了網友的熱議,一度登上熱搜榜。本研究在新浪微博上爬取電影評論數據,原始語料的數據量共30188條,經過預處理后,保留了1,078個情感詞,并構建了相應的情感詞匯共現網絡。
(二)情感詞匯共現網絡的小世界特征分析
由表1可知,情感詞匯共現網絡的平均路徑長度與相同規模的隨機網絡的平均路徑長度相當,其聚類系數遠大于相同規模的隨機網絡的聚類系數,符合小世界效應。
(三)情感詞匯共現網絡的無標度特性分析
圖1是情感詞匯共現網絡的累加度在雙對數坐標系下的分布圖,滿足冪律分布特點,具有無標度特性。該網絡中絕大部分節點的度都相對較小,即只有極少部分情感詞與其他情感詞聯系較為緊密,這些能與其他情感詞構成緊密聯系的節點在網絡中占據至關重要的地位,擁有很高的“權力”。
(三)情感詞匯共現網絡的網絡抗毀性分析
圖2反映表示按照蓄意攻擊和隨機攻擊的方式刪除節點對平均路徑長度的影響。從圖中可以看出,隨機刪除節點對網絡指標的影響不大,說明該網絡具有一定的魯棒性,其“容錯能力”較強。而針對網絡的脆弱性分析,刪除節點對網絡評價指標的影響呈現先緩慢增長后急劇增長的趨勢。
(四)情感詞匯共現網絡的社區特性分析
圖3是情感詞匯共現網絡的社區可視化分布圖,該社區發現結果是通過Louvain快速社區發現算法計算得到,并通過Gephi軟件將同一社區的節點填充相同的顏色,進而得到顏色突出顯示的社區呈現結果。各社區中特征參數較高的節點如“死” “病魔” “曝光” “天價藥”等詞語帶有明顯的消極情感傾向,而“無私” “溫暖”等詞語帶有積極的情感傾向。消極情感詞數量稍多于情感傾向為正的情感詞數量,可以基本判定本實驗語料的情感傾向偏于負向。
四、結論與展望
本文分析了情感詞匯共現網絡的小世界特性、無標度特性、抗毀性、社區特性,得出以下結論:該情感詞匯共現網絡符合小世界效應的特征,具有無標度特性;該網絡在面臨隨性的攻擊時,表現出較強容錯性,但網絡面臨蓄意攻擊時,其平均路徑長度明顯增加,說明其應對蓄意攻擊或大規模攻擊時表現出一定的脆弱性;該網絡具有明顯的社區特性,可以劃分成6個完整的社區,社區中參數較高的情感詞節點的情感傾向反映出該語料整體帶有一定的消極情感。本研究的不足在于受原始評論語句數量和規模的限制,情感詞共現網絡的節點數量和邊數量相對較少,下一步將嘗試在更大規模的原始語料中開展實證研究。
參考文獻:
[1]何天翔,張暉,李波,楊春明,趙旭劍.一種基于情感分析的網絡輿情演化分析方法[J].軟件導刊,2015,14(05):131-134.
[2]張向陽,那日薩,孫娜.基于有向網絡的在線評論情感傾向性分類[J].情報科學,2016,34(11):66-69+90.
[3]張紅月.自然災害事件的數據依賴性研究[D].北京.中國科學院大學(中國科學院遙感與數字地球研究所),2018.
[4]齊彬,呂婷.共現分析技術在生物醫學信息文本數據挖掘中的應用[J].中華醫學圖書情報雜志,2009,18(03):41-43.
[5]余傳明,周丹.情感詞匯共現網絡的復雜網絡特性分析[J].情報學報,2010,29(5):906-914.
[6]張珂.基于復雜網絡理論的BBS回復網絡研究[D].北京.首都師范大學,2011.
[7]吳敏.BBS用戶回復網絡演化模型及抗毀性研究[D].北京.首都師范大學,2012.
[8]趙麗娜.復雜網絡社區發現算法研究[D].北京.首都師范大學, 2014.