翁 捷宋正榮 李 旸
(1.安徽農業大學,安徽 合肥 230036;2.銅陵學院,安徽 銅陵 244000)
在2011年1月發布的《第27次中國互聯網絡發展狀況統計報告》里,中年和青少年成為了網民的最主要組成部分,而其中大多數是在校大學生。微博作為一種信息交流平臺,以其短小精悍、傳播速度快、用戶交互性強等優勢,逐步成為人們喜愛的信息交流空間。高校是一個充滿活力的場所,不僅僅在校學生,很多老師、部門也都開始使用微信參與學生和學校的話題交流。
微博的特點在于“微”。和BBS、Blog等相比,用戶發言的信息長度很短,語言更加口語化。同時,因為表情符號的活用,用戶樂于在微博上用帶有較強情感色彩的語言或表情,來表達自己的觀點、情感、興趣和對事件的看法等等。因此,“情感”成為了微博信息研究中很重要的一環,我們可以通過數據挖掘的方法,對微博的信息進行情感分析,判斷話題的傾向性和情感強度,便于我們了解學生的情感趨向。
1.數據預處理
對于獲得的微博信息文本,首先要做的工作就是對數據進行預處理,即通過中文分詞和排重過濾,獲得我們需要的數據。
首先,基于分詞字典進行中文分詞,把文本劃分為一個個詞單元,常用的中文分詞字典有《中國分類主題詞表》和《中科院分詞詞典》等,同時還可以添加自定義的詞表,比如新生的網絡詞匯或者特定事件發生后出現的詞匯等等。中文分詞后,會出現大量無意義、重復的數據,通過排重過濾可以去掉多余的噪聲數據,僅僅保留需要的關鍵字,比如帶有情感趨向的關鍵字、能夠作為該段文本主題詞的關鍵字等等。
2.基于情感詞字典計算情感強度和傾向性
情感字典是計算文本情感強度和情感傾向性的主要依據。國內外的學者在對大量的詞匯進行整理、研究后,制作出了專門的情感字典。比較著名的中文情感字典有知網(How Net)的情感詞語集、臺灣大學的NTUSD簡體中文情感極性詞典、大連理工大學信息檢索研究室的中文情感詞匯本體庫、哈爾濱工業大學信息檢索研究室的情感詞庫、中科院的漢語情感語料庫等等。在這些情感字典中,搜集并整理了貶義的負面情感詞語、褒義的正面情感詞語、情感表達強度的程度副詞等等,并對表達不同強度的詞語做了情感強度的劃分。
和中文分詞的分詞字典一樣,可以根據需求引入新的情感詞,并且給出這些情感詞匯的情感強度。這些情感詞一般以網絡中新生的網絡流行語為主,也包括一些標點符合或漢字的特殊組合(即日本網絡文化中出現的“顏文字”)。一些平常看似毫無意義的符號組合,往往在網絡中會有著表達特殊情感的功能,而這些顏文字在我們日常的中文分詞、斷句過程中,往往容易把它們按照無意義的符號文本處理,比如“(TДT)”表示傷心,“\(*T△T*)/”表示高興等等。
除了情感詞外,在微博的情感計算中,還需要考慮到在微博中廣泛使用的表情符號。微博中的表情往往以“/表情含義”來表示,因此有人提出只要根據表情含義對表情的情感傾向和情感強度進行分類和定義即可。但是實際上的結果卻是,在微博中出現的絕大多數的表情,其實都是中性化的表情,本身并不帶有絕對化的情感傾向。如果文本本身并沒有很強的情感傾向,大部分的表情符號都會以帶有調侃性質的中性情感出現;如果文本本身帶有比較強的情感傾向,表情符號的情感傾向會和文本的情感傾向保持一致,所表達的情感強度也僅僅是對文本的情感強度進行加強。所以,在計算表情符號對微博文本的情感影響時,可以進行有取舍的計算。如果微博文本的情感強度達到了一定的閥值,可以把表情符號的情感強度計算進去,否則就忽略表情符號的情感強度。
根據從微博文本中提取出來的情感詞、程度副詞、否定詞,可以在各個詞單元之間聯系的基礎上計算出整段微博文本的情感強度和情感傾向。
1.微博文本的情感強度計算
對于微博文本的情感度進行計算時,思路大致和通常的網絡文本一致。即先把每個獨立的微博文本T分成一個個單獨的句單元,即T={s1,s2,s3……,sn}。根據情感詞的情感強度和情感趨向、情感程度副詞對于情感詞情感強度的影響、否定詞對于情感詞情感傾向的影響,以及表情符號對于文本情感強度、情感傾向的影響,求出用戶發言中每個句子si的情感得分sentiment(i),再求出該發言中的整體情感得分。計算方法如下:
首先計算詞匯的情感傾向,其中p表示詞匯w的褒義傾向,n表示詞匯w的貶義趨向:

再引入否定詞對于情感的影響,u表示否定詞n出現的次數:

再引入程度副詞對于情感的影響,adv表示程度副詞,S(adv)表示程度副詞的強度:

話題T的情感強度計算方法如下,其中w表示沒有被否定詞和程度副詞修飾的情感詞,n表示有否定詞修飾的情感詞,adv表示有程度副詞修飾的情感詞:

2.對于擴展情感詞的情感強度和傾向性計算
由于網絡上會經常出現新興的網絡流行語,有些流行語是網民新造的詞匯,有些是把原有詞匯的意思做了引申或改變。或者是在某些事件發生后,和事件相關的一些詞匯會出現語義或情感傾向的改變。因此,需要對情感詞詞典進行更新,重新計算或者賦予某些詞相應的情感強度或者情感傾向。
計算的一種思路是,根據詞匯中各個字單元的情感傾向來計算該詞匯的情感度。即統計情感字典中,組成這個情感詞的各個字單元在不同情感傾向下出現的概率,再求出字單元各個情感傾向的權重,最終求出這個詞的完整情感傾向。計算方法如下:

其中,pci是字單元ci在情感字典中作為褒義詞的權重,nci是字單元ci在情感字典中作為貶義詞的權重。fpci是字單元出現在褒義詞詞典里的概率,fnci是字單元ci出現在貶義詞詞典里的概率。pn表示褒義詞詞表的字單元個數,nn表示貶義詞詞表的字單元個數。
通過情感詞的字單元情感強度和情感傾向的統計,可以求出新的情感詞的情感強度和情感傾向。
實驗的語料來自銅陵學院部份學生微博信息的收集。對于各條微博進行了情感傾向的分類分析。使用的分詞軟件是中科院的ICTCLAS2014,基礎情感字典是中科院的漢語情感語料庫。采用了通用的SVM算法進行分析。
收集的學生微博3531條,其中帶有褒義傾向的1274條,帶有貶義傾向的973條,中性的1284條。每次隨機從褒義傾向和貶義傾向的微博文本集中各抽取200條進行實驗,實驗抽取三次。得出的結果如下:

第一次 第二次 第三次正面 負面 正面 負面 正面 負面查準率 73.50%79.00%75.00%78.00%79.00%77.00%查全率 77.78%74.88%77.32%75.73%77.45%78.57%F1值 75.58%76.89%76.14%76.85%78.22%77.78%
查準率指正確分類的文本數與實際分類為該類文本數的百分比,查全率指正確分類的文本數與屬于該類別的文本數的百分比。F1值是由Van Rijsbergen提出的對查準率和查全率進行評判的標準指標。這三個數值越高,表示分類的準確度越高。
從實驗結果可見,通過SVM法對于微博話題情感傾向的判斷準確度還是比較高的。但是由于用戶在微博里的發言隨意性很大,新興的網絡用語層出不窮,需要不斷增加情感字典里的情感詞才能達到更高的準確度。但是在一般的情感字典基礎上,現有的傾向性分析已經可以作為我們對微博話題傾向性的一種參考,便于從微博的話題中,自動判斷話題的傾向性,作為輿情考量的一種參考。
作為國家人才培養者的高校,在教授學生專業知識外,還必須了解學生、引導學生,使其成為國家需要的合格人才。隨著網絡的日益發達、電子產品的日益成熟,學生越來越多地在網上發起話題、討論話題,網絡成為學校了解學生的一個重要舞臺。因此,高校在原有的學生管理模式上,需要增加信息化的方法去觀察、收集、處理各類網絡信息。通過信息化的方法,尋找更加科學有效的方法對學生進行管理和引導。
作為了解學生網絡行為的一種途徑,微博話題的情感度分析可以幫助學校了解學生對一些話題的態度及傾向性,對一些發生在學生身邊的事件進行輿情分析,或者對事件的發展進行預測,進而為學校處理一些事件提供參考。
目前對于微博話題的情感傾向研究還處于起步階段。原有的對BBS、Blog、WEB等平臺上的文字進行的情感傾向研究,雖然適用于微博話題的情感傾向研究,但由于微博話題更加短小明快,更加口語化和無規則化,因此還需要對微博話題的特點做更進一步的分析,特別是對于網絡用語的探索,將會是影響到微博話題情感傾向的關鍵因素。同時,對于微博話題的情感傾向性研究,也可以延伸到網絡文本及各種網絡社交平臺上,成為人們監控、分析輿情的有效輔助手段。
[1]張偉舒,呂云翔.微博情感傾向算法的改進與實現[J].知識管理論壇,2013,(9):21-27.
[2]曾佳妮,劉功申,蘇波.微博話題評論的情感分析研究[J].信息安全與通信保密,2013,(3):56-58.
[3]張魯民,賈焰,周斌.基于情感計算的微博突發事件檢測方法研究[J].信息網絡安全,2012,(8):143-145.
[4]張彬.文本情感傾向性分析與研究[D].鄭州:河南工業大學碩士學位論文,2011.
[5]喻琦.中文微博情感分析技術研究[D].杭州:浙江工商大學碩士學位論文,2013.
[6]張東霞.基于高校學生微博的輿情熱點分析與發現[J].東南傳播,2013,(6):87-89.
[7]王振浩.基于情感字典與機器學習相結合的文本情感分類[D].哈爾濱:哈爾濱工業大學碩士學位論文,2011.