荊禮楠 曹永紅
摘 要:語料庫標注是發現語料庫潛在價值的重要方法。本文回顧已有語料庫標注,總結分析語料庫標注的作用及標準化趨勢,綜述國內外重要情感標注資源,針對情感標注過程中的主要問題,提出初步解決方案,以便更好地開展面向自然語言處理的情感標注研究。
關鍵詞:自然語言處理 標注 情感標注 情感分析
一、引言
自然語言處理是計算機科學及語言學關注計算機和人類語言間相互作用的領域。馮志偉(2006)[1]指出“隨著語料庫語言學崛起,大規模真實文本處理成為自然語言處理的主要目標。自然語言處理越來越多地使用機器自動學習獲取語言知識。”
實現自然文本機器可讀關鍵在于標注。隨著機器學習廣泛應用,標注的重要性日益顯現。本文結合國內外研究成果,總結情感標注研究概況,針對問題提出初步解決方案,便于今后面向自然語言處理的情感標注研究的開展。
二、標注概述
盡管學界對“標注”的定義不盡相同,但大都反映了語料標注實質——語言符號的轉換(邢富坤,2015 [ 2 ] )。
(一)作用
標注價值主要體現在:
1.語言學研究
通過統計分析大規模語料,可發現僅靠少數例子無法發現的語言現象,使語言知識顯性化,輔助語言規律研究,從而推動語言學深入研究。
2.自然語言處理
標注使語言實現計算機可讀,推動建立大型語料庫,促進開發基于語料庫的應用系統,推動信息檢索、機器翻譯及情感分析等新興領域發展。此外,機器學習方法應用廣泛,標注語料庫可用來訓練檢測及改進機器學習算法,經改進的算法可推動建立大型優質語料庫,節省人力物力,極大推動自然語言處理發展。
(二)標注模式標準化
自語料庫語言學誕生以來,標注模式多種多樣(見表一)。有些逐漸淘汰,如COCOA,有些則成為主流。ISO/TC37/SC4負責建設管理語言資源的國際標準。LAF是其工作核心,是協調現有語言資源及開發新資源的基礎。
三、情感標注及研究概況
目前語料庫正處于以互聯網為語料的第四個發展階段。隨著Web2.0興起,尤其微博、論壇、社交及購物網站等崛起,用戶自由表達觀點情感。因此,海量主觀文本迅速涌現,其中蘊含豐富情感。為方便信息查找,情感分析應運而生?;谡Z料庫的統計學習是情感分析的常用方法。因此,為實現自動情感分析,需要情感標注,構建大型語料庫作為數據支撐。情感分析結果很大程度取決于情感語料庫的規模與質量。
目前國外情感標注資源相對豐富,而國內研究剛剛起步,資源匱乏。情感標注資源主要包括:博客;新聞;書評;影評;產品評論;文學作品(見表二)。
情感標注大致可劃分為四類:
(1)主客觀分類(Wiebe, 2005[3]; Aman & Szpakowicz, 2007[4])
(2)情感極性分類:正面/負面(/中性)(Pang, 2002[5])
(3)情感分類(按范疇、維度或語言學理論分類)(Michal Ptaszynski, 2014[6]; 張冬瑜等, 2015[7])
(4)細致觀點劃分:實體;情感;觀點持有者等(Liu, 2012[8])
不難發現:為滿足應用,情感標注趨于細粒度化。
四、問題及解決方案
情感標注主要存在以下問題:
(一)情感分類
情感分類是情感分析領域的核心問題,旨在解決情感極性自動判斷問題(陳龍,2017[9])。對情感標注而言,情感分類一定程度上決定標注體系,影響標注質量和應用(Ide & Romary, 2004[10])。周明(1994[11])認為“若類別劃分過粗, 則難以全面描述復雜現象;若類別劃分過細,則增加標注難度、降低標注效率, 細微差別導致結果差異巨大。
如何選擇合適情感分類,是語料庫領域亟待解決的重點問題之一。此外,不同領域包含不同情感,同一詞匯在不同領域可能表達不同情感含義。
(二)標注標準
缺乏統一建設標準,尤其是標注標準,導致語料庫建設各自為政,阻礙資源共享。標注隨意性體現在:
(1)標注模式:COCOA / TEI / CES
(2)標記語言:SGML / XML / 自定義置標語言
(3)標簽集:同一標簽在不同語料庫中有不同含義
(4)標注形式:分離式標注/ 內嵌式標注
針對以上問題,可從兩方面改善:
(三)黃金標準情感語料庫
黃金標準語料庫可為語料庫建設提供借鑒標準,提高互用性;也可用來訓練改進機器學習算法,使機器實現自動學習,推動構建規模更大,質量更高的情感語料庫,為相關自然語言處理及語言研究提供充足語料。
(四)情感詞匯表
不同領域包含不同情感,需要專門情感分類體系。此外,同一詞匯在不同領域可表達不同情感。因此,今后研究應嘗試建立專門領域情感分類體系。
當前語料庫建設趨向小型化、專門化,亟須建立合理完善的專門領域情感詞匯表,以滿足語料庫建設需求。
五、總結與展望
目前情感標注工程在國內外如火如荼地開展。然而情感分類混亂,標注標準缺乏,導致情感語料庫建設各自為政,阻礙資源共享。亟需創建黃金標準情感語料庫及合理完善的專門領域情感詞匯表,以滿足語料庫建設需求,從而更好地開展面向自然語言處理的情感標注研究。
參考文獻
[1] 馮志偉.當前自然語言處理發展的幾個特點[J].暨南大學華文學院學報,2006(1):34-40.
[2] 邢富坤.面向語言處理的語料庫標注:回顧與反思[J].解放軍外國語學院學報, 2015,38(3):8-13.endprint
[3] Wiebe,J & Wilson,T.& Cardie,C.Annotating expressions of opinions and emotions in language[J].Language Resource and Evaluation,2005,39(2-3):164-210.
[4] Aman,S.& Szpakowicz,S.Identifying expressions of emotion in text[C].In:Proceedings of the 10th International Conference on Text,Speech,and Dialogue(TSD-2007),Lecture Notes in Computer Science,Springer-Verlag.
[5] Pang B.& Lee,L.Cornell movie-review corpus[DB/OL].http://www.cs.Cornell.edu/People/pabo/movie-review-data,
2002.
[6] Michal Ptaszynski et al.Automatically annotating a five-billion-word corpus of Japaneseblogs for sentiment and affect analysis[J].Computer Speech and Language,2014,28:38-55.
[7] 張冬瑜.林鴻飛等.情感隱喻語料庫構建與應用[J].中國科學:信息科學,2015,45(12):1574-1587.
[8] Bing Liu.Sentiment analysis and opinion mining[M].San Francisco:Morgan Claypool Publishers,2012:12.
[9] 陳龍.管子玉.何金紅.彭進業.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.
[10] Ide,N.& L,Romary.International standard for a linguistic annotation framework[J].Journal of Natural Language Engineering,2004,10(3):211-225.
[11] 周明.黃昌寧.面向語料庫標注的漢語依存體系的探討[J].中文信息學報, 1994,8(3):35-52.endprint