摘 要 隨著藏文信息技術的發展,藏文文本情感分析是近年來迅速興起的一個研究課題,而藏文情感詞典的構建是藏文文本情感分析與文本挖掘領域中重要的基礎性工作。情感類別手工標注不但費時費力,且容易受到主觀性的影響,同時對領域性的過分關注也大大限制了情感詞典的適用性。因此,本文在分析國內外情感詞典擴充方法的基礎上,結合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構建方法”,其核心思想是在人工標注的基礎上定義基準詞;然后基于詞向量來擴充情感詞典,并實踐和驗證了幾種不同的擴充情感詞典的方法,并選取最優的KNN擴充法從語料中自動擴充藏文情感詞,建立了一部比較實用的藏文情感詞典。
【關鍵詞】詞向量 藏文情感詞典 情感詞典擴充 K近鄰方法
1 引言
在通常情況下,藏文文本情感分析主要通過藏文情感詞來體現,而藏文情感詞典的好壞直接影響情感分析的結果,因此,一個有效的情感詞典至關重要。徐琳宏等人于2008年發布了大連理工情感本體,該本體將情感分為樂、好、怒、哀、惡、懼、驚7類。全昌勤等人構建了博客情感語料庫,其中共提取了8類情緒,并通過矩陣空間的方式運用支持向量機實現情感分類。以上研究對藏文情感詞典的構建起到了巨大的推動作用。
情感類別手工標注不但費時費力,且容易受到主觀性的影響,同時對領域性的過分關注也大大限制了情感詞典的適用性。因此,本文在分析國內外情感詞典擴充方法的基礎上,結合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構建方法”,并依次構建藏文情感詞典,這不僅藏文本身的語言特點,而且能提高藏文文本情感分析的結果,為藏文文本情感計算奠定一定的基礎。
2 構建藏文情感詞典的方法
藏文情感詞典的構建是藏文文本情感分析和文本挖掘領域中重要的基礎性工作,且情感詞典的質量在很大程度上影響了文本情感分析的結果。隨著網絡詞語的流行和使用,完全依靠人工完善和擴充情感詞典的方法是不可行的。為了建立一部較完整、實用、準確的藏文情感詞典,需要分兩部分來完成:構建藏文基準情感詞典和動態擴充藏文情感詞典。首先人工收集和整理了一部藏文基準情感詞典,在此基礎上,基于詞向量擴充情感詞典,最終能建立一部比較實用的藏文情感詞典。
2.1 構建藏文基準情感詞典
本文參照大連理工大學信息檢索研究室構建的中文情感詞匯本體庫的相關標準來構建藏文情感詞典,利用詞語、詞性種類、情感類別、情感強度及極性等信息來描述情感詞,同時借助中文情感詞典,并結合藏文本身的特征構建了藏文情感計算的詞匯構建標準。其中,情感分為7大類21小類;情感強度分為1、3、5、7、9等五檔,9表示強度最大,1為強度最小;情感極性分為0、1、-1三種,0為中性詞,1為褒義詞、-1為貶義詞。程度副詞和轉折詞在藏文情感詞分析中起著非常重要的作用。否定詞和雙重否定詞在基于規則的藏文情感分析中有著至關重要的地位。若是只考慮情感詞而不考慮否定詞計算,情感傾向與實際的情感傾向不一致,甚至結果完全相反。因此,本文構建的藏文基準情感詞典主要包括兩個方面,即基礎情感詞和輔助詞表,具體內容如表1所示。
2.2 基于詞向量擴充藏文情感詞典
近年來,隨著深度學習的發展,詞向量被廣泛應用自然語言處理領域中。采用神經網絡訓練出來的詞語向量,能夠方便、快速的挖掘詞與詞之間的語義關系,詞語的相似度越高,其向量距離越近,情感詞典的擴充正是基于這一理論。
2.2.1 傳統的相似度擴充法分析
傳統相似度擴充法是按照詞語的相似度來擴充情感詞典,相似的詞語其詞向量的余弦距離會很接近,基于這一理論,研究者們提出了計算相似度擴充情感詞典的方法。其核心思想是對種子詞庫Train_Set中的每一個種子詞語w,計算w與目標詞庫Test_Set中的所有目標詞的相似度,選取相似度大于某一閾值的詞語,如果這些詞語不在種子詞庫中,那么按照w的情感類別進行標注。然后將這些新詞作為新的種子詞放入種子詞庫Train_Set中。相似度越高,說明兩個詞語的距離越近。模型框架如圖1所示。
這種方法是詞典擴充中最基本、最常用的方法,但它存在三個方面的問題:第一,對基準詞典的廣度和精度要求高,對語料的廣度要求高。種子詞庫的質量和相似度計算的優先順序都會對詞典質量產生影響,而迭代擴充會逐步加大誤差的范圍;第二,沒有進行一詞多考察,可靠性不高;第三,針對一般語義的詞向量本身具有一定的局限性。如“????????/??????????/??/????”(扎西喜歡德吉)和“????????/??????????/??/???????”(扎西討厭德吉)兩個句子中的“???”(喜歡)和“???????”(討厭)具有相同的上下文語境,如果訓練語料比較單一,有可能將“喜歡”和“討厭”歸為近義詞。為了改進和優化以上問題,本文結合KNN思想對基于詞向量擴充情感詞典的方法進行了研究。
2.2.2 KNN方法
KNN(K最近鄰居)算法的基本思想是在距離空間里,如果一個樣本的最接近的k個鄰居中,絕大多數屬于某個類別,則該樣本也屬于這個類別。俗稱為“隨大流”。針對情感新詞的識別,還要增加距離閾值的限制,保證找到的鄰居確實為“近鄰”,如果一個詞語與所有種子詞的相似度都低于閾值,則認為該詞不屬于情感詞。該理論用于情感詞典擴充中,首先對目標詞庫Test_Set中的每一個目標詞w,計算其與種子詞庫Train_Set中所有種子詞的相似度,選取與該目標詞w相似度大于閾值的前k個詞語存入top_k_set中;然后通過匹配情感詞典找出這k個詞語中出現次數最多的情感類別,將該目標詞標注為這個類別;最后將w放入種子詞庫Train_Set作為新的種子詞繼續進行擴充。模型框架如圖2所示。
該方法不同于傳統的相似度擴充法,KNN方法一次只能確定一個詞語的情感,雖然降低了效率,但可以有效避免傳統方法的迭代誤差,提高情感標注的準確率。另一方面,該方法對中性詞和非情感詞有較好的識別效果。特別是非情感詞,因為有了距離閾值的限制,非情感詞經過相似度計算,理論上應該找不到與其相似的種子詞,從而不對其進行情感標注。endprint
3 基于詞向量擴充藏文情感詞典的實現
基于以上理論,本文將KNN方法應用于藏文情感詞典的構件中。為了驗證方法的有效性,本文同時實現了基于詞向量擴充情感詞典的另外兩種方法:權重增益法和SVM方法。權重增益法是基于目標詞與整個種子詞庫的相似度來確定其情感分類;SVM方法是利用種子詞庫訓練分類器從而對目標詞進行情感分類。以便于實驗結果的對比和評估。
3.1 實驗準備
3.1.1 種子詞庫建立
從基準情感詞典中按照情感極性(正、負、中)和情感強度(1、3、5、7、9)分為15個類,從每個類別中各選取具有代表性的100個詞語,共1500個詞語作為種子詞。
3.1.2 目標詞庫建立
首先對訓練語料進行去噪、分詞。藏文字符編碼范圍為“0F00~0FFF”,其中包括了九十個藏文特殊符號。然后用‘/作為分詞標記,對文本進行分詞。然后針對分詞結果,查詢基準詞典,如果當前詞語不在基準情感詞典中,則可以作為目標詞。
從語料中得到的目標詞在實際擴充的時候才使用。在實驗階段要計算準確率、召回率等指標以衡量三種方法的效果,因此選擇了400個已知情感傾向的詞語作為目標詞,其中褒義詞150個,貶義詞150個,中性詞100個。為了使模型具有較好的實際應用效果,實驗中除了要衡量幾種方法對情感詞的識別效果,還要衡量方法對非情感詞的識別效果。因此,目標詞庫中還包括了100個非情感詞。
3.2 KNN方法在藏文情感詞典擴充上的應用
本文主要通過計算詞語間的余弦距離來實現藏文情感詞的擴充,其計算公式如(1)所示。
如以上公式所示,y是目標詞的向量表示,xi種子詞的向量表示,主要計算y和xi的cos值,如果cos值越大,說明兩個詞語越相似,經過多次試驗,發現閾值大于0.6時效果最佳。實驗的步驟如圖3所示。
核心算法描述如圖4所示。
由于詞向量是從語料中獲取詞語的語義關系,因此skip-gram的輸入為已分詞訓練語料,藏文語料的編碼格式為Unicode或UTF-8。本文在一萬多個已分詞的藏文文本上進行實驗,使用Word2vec工具訓練詞向量,經過多次試驗,發現詞向量維度為100,詞窗口大小為5的時候結果最優,共得到45469條藏文詞向量,將其以文本文檔的格式進行存儲。結果如表2所示。
3.3 實驗結果分析
本文對基于詞向量擴充情感詞典的幾種方法進行驗證,并選取最優的KNN擴充法,并使用該方法從語料中自動擴充藏文情感詞,實驗結果如表3所示。
該方法與SVM方法和權重遞增法的結果對比如圖5所示。
實驗結果表明,本文提出的方法綜合效果最佳,有效避免了SVM方法對非情感詞識別效果差的問題,同時解決了權重遞增法不能支持情感多分類的問題。
3.4 KNN方法擴充得到的藏文情感詞典
基于以上的探討和實驗分析,本文選擇KNN方法在一萬多個藏文文本上進行擴充藏文情感詞。共得到了2000個正向情感詞,2000個負向情感詞,1739個中性情感詞。部分結果的截圖如圖6所示。
4 總結
本文在分析國內外情感詞典擴充方法的基礎上,結合藏文本身的特點,提出了“基于詞向量的藏文情感詞典的構建方法”,并選取最優的KNN方法,其準確率為71.22%,與另外兩種方法相比高出七到十個百分點,這充分說明KNN方法比較適用于擴充藏文情感詞。今后將進一步完善基準詞典的質量,擴大訓練語料的范圍和類別,從而增加詞向量的規模和質量,以便獲得更實用的藏文情感詞典。
(通訊作者:高定國)
參考文獻
[1]梅莉莉,黃河燕等.情感詞典構建綜述[J].中文信息學報,2016(30).
[2]TURNEYP. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].Proc of the 40th Annual Meeting of the Association for Computional Linuistics,2002:417-424.
[3]QUAN Chang-qin,REN Fu-ji. Construction of a blog emotion corpus for Chinese emotional expression analysi[C].Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing; Volume 3,Association for Computational Linguistics,2009:1446-1454.
[4]楊小平,張中夏,王良,等.基于Word2Vec的情感詞典自動構建與優化[J].計算機科學,2017(44).
[5]王科,夏睿.情感詞典自動構建方法綜述[J].自動化學報,2016(42).
[6]楊奎,段瓊瑾.基于情感詞典方法的情感傾向性分析[J].計算機時代,2017.
[7]林思娟,林柏鋼,許為等.一種基于詞語能量值變化的微博熱點話題發現方法研究[J].信息網絡安全,2015(10):1671-1122.
[8]楊陽,劉飛龍.基于詞向量的情感新詞發現方法[J].山東大學學報(理學版),2014(49).
作者簡介
巴桑卓瑪(1991-),女,研究生,主要研究方向為藏文信息處理。
李苗苗(1988-),女,研究生,主要研究方向為藏文信息處理。
高定國(1972-),男,藏族,教授,碩士,主要研究方向為藏文信息處理。
作者單位
西藏大學信息科學技術學院 西藏自治區拉薩市 850000endprint