洛桑嘎登 仁增多杰



摘 要: 藏文詞性標注是藏文信息處理的首要問題。以條件隨機場模型為基本框架,首先構建398萬詞條(78.5M)的詞性標注模型,然后對條件隨機場模型的標注結果進行修正,歸納總結基于藏文自身語言特征的標注規則,形成詞性標注規則知識庫。詳細分析模型構建過程中所選取的每個特征項對標注結果的影響,最終確定最優特征模板。實驗結果表明,本文提出的基于知識反饋的藏文詞性標注方法可以顯著提高詞性標注效果,準確率達到98.75%,已基本滿足實際使用。
關鍵詞: 藏文; 詞性標注; 知識反饋; 條件隨機場
中圖分類號:N34 文獻標志碼:A 文章編號:1006-8228(2018)07-73-03
Abstract: Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper, based on the basic framework of Conditional random fields (CRFs), a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.
Key words: Tibetan; part-of-speech tagging; knowledge feedback; CRFs
0 引言
詞性標注(part-of-speech,POS)是根據句子的上下文信息確定詞的類型,是自然語言處理中一項非常重要的基礎性工作,被廣泛應用于信息檢索、機器翻譯、語義理解等領域[1]。漢語、英語等語言的詞性標注研究較為成熟,其準確率基本達到實用程度。藏文詞性標注研究基礎相對薄弱,且由于藏文自身的語言特征,也給藏文詞性標注研究帶來了困難[2-3]。比起藏文自動分詞研究,藏文詞性標注的研究起步相對較晚[4]。蘇俊峰[6]、史曉東[7]、扎西多杰[8]、于洪志[9]、華卻才讓[5];康才畯[10]、龍從軍[11]等人采用不同的方法對藏文的詞性標注進行研究。這些研究無疑對藏語文本詞性自動標注做出了重要的貢獻,但是也存在較多的問題。一是用于詞性標注的訓練語料、測試語料規模較小,二是研究直接使用現成的統計模型,未結合藏文自身的語言規則對詞性標注模型的結果進行修正,三是詞性標注規范不一致。
本文提出基于知識融合的藏文詞性標注方法,以條件隨機場模型為基本框架,構建大規模訓練語料,對基于條件隨機場的標注結果中的錯誤進行校正,歸納總結的藏文詞性標注規則,形成詞性標注規則知識庫,最終反饋到CRFs模型中以提高詞性標注效果。其次,計算每個特征項對藏文詞性標注效果的影響,最終得到最優特征模板組合,并利用最優特征組合作為特征模板實現藏文詞性自動標注,正確率達到98.75%,已基本滿足實用條件。
本文的結構安排如下:第1節為緒論部分,第2節介紹了基于知識反饋的藏文詞性標注具體研究內容,第3節闡述了詞性標注的實驗及分析,第4節為總結。
1 基于知識反饋的藏文詞性標注
1.1 詞類標記集的選擇
本文采用的詞類標記遵循2015年6月國家語言文字工作委員會發布的《信息處理用現代藏語詞類標記集規范(草案)》的規范[12]。該分類規范制定了多級標注體系,本文考慮到藏文信息處理系統的實用性,除名詞標注到二級類目外,其余詞類只標注到一級類目。
1.2 特征模板的選擇
特征函數主要有兩部分組成,即原子特征和復合特征兩部分。原子特征主要考慮一個觀察單元,本文所使用的原子特征有當前音節和前后各兩個位置的音節。
為了分析不同種類特征的詞性標注性能,挑選出標注效果最優的特征模板組合,本文對訓練語料進行封閉測試來比較各類特征的標注效果。為了便于表示,本文使用英文字母表示不同的特征組合。例如:A表示“中心詞特征”,用“U03:%x[0,0]”模板表示;B表示“藏文中心詞的前1個詞”和“藏文中心詞”,用“U02:%x[-1,0]”、“U03:%x[0,0]”兩個特征模板表示;C表示“藏文中心詞的前1個詞”、“藏文中心詞”、“藏文中心詞的后1個詞”,用“U02:%x[-1,0]”、“U03:%x[0,0]”、“U04:%x[1,0]”三個特征模板表示。以此類推,從中心詞不斷往外擴展。特征項組合如表1所示。
利用表1中的特征項做實驗,結果如圖1。可以看出,在中心詞特征基礎上,每增加一種特征模板,詞性標注的準確率就有所提高,直至K模板時達到最優值,K模板之后準確率、召回率和F值均開始下降。因此,本文采用K模板作為訓練詞性標注的CRFs特征模板。
1.3 對詞性標注統計模型結果的知識反饋
本文首先使用CRFs統計模型對藏文文本訓練,得出藏文詞性標注模型。然后對基于條件隨機場的詞性標注錯誤結果進行了統計分析。CRFs詞性標注結果中動詞(v)、形容詞(a)標注錯誤的比例較高,但是也有類似數詞(m)、標點符號(w)等的錯誤,而對于藏文文本而言,數詞和標點符號是相對完備的一個集合。因此,本文通過整理藏文語料中出現的數詞、標點符號以及在分詞階段整理的知識庫形成詞性標注知識庫,然后通過設計規則算法,對CRFs詞性標注結果進行校正,以此來提高藏文詞性標注準確率。
本文主要構建了非藏文字符知識庫,黏著詞知識庫,高頻常用詞知識庫以及未登錄詞庫等,標記其詞類標記。數詞和標點符號包括以下幾類:
1.3.1 對非藏文字符的識別錯誤修正
導致該類錯誤的原因有兩種,一是語料中存在一定量的非藏文字符,而本文所采用的基于CRFs的方法是對藏文音節序列的標注。二是訓練集中已存在藏文字符和非藏文字符的組合當成一個藏文音節的現象。
針對該類錯誤本文定義如下規則:設S表示待切分的藏文句子,表示每一個音節。用U表示非藏文字符集合,U={D,E,C,P},其中D是時間和數字的集合,例如:“123”,“3.14”,“30%”等,E、C分別表示英文和漢文字符,P表示標點符號,包括中英文標點符號、半全角標點符號。
規則1:
如果,則將wi單獨從集合S中切分出來。
該規則可以避免將語料交給CRFs模型參數去識別時,把藏文字符和其他文字當成一個藏文音節而導致的錯誤。
1.3.2 對黏著詞的識別錯誤修正
導致該類錯誤的原因是對藏文中黏著詞的識別不準確,針對這類錯誤本文首次引入了詞頻的信息。首先統計了在大規模的訓練語料中出現的所有包含黏著詞的音節的出現頻次,發現在訓練集中共出現了101265條包含黏著詞的音節,其中僅有305條不重復的包含黏著詞的音節。分別計算每個包含黏著詞的音節在訓練語料中所占的比例fc。fc的計算方法如下:
以前十個出現頻次最高的包含黏著詞的音節作為例子,如表2所示。
從表2可以看出,比如第一個藏文詞匯“????”在98%的情況語料中都以黏著形式出現,對于這類的詞匯本文對fc限定一個閾值,來推斷該詞是否是黏著詞。因此,定義如下規則。
規則2:
如果且fc>f,則將wi判斷為帶有黏著形式的藏文音節。
1.3.3 對高頻常用詞的錯誤修正
本文所指的高頻常用詞包括如下內容:
針對這類錯誤本文整理了藏語高頻常用詞表。并如下規則:設SW(stop words)表示高頻常用詞集合。
規則3:
如果:,則將wi單獨從集合S中分出來。
2 詞性標注實驗及結果
2.1 實驗準備
本文的實驗語料來源除了西藏新聞網、人民網藏語頻道、青海藏語廣播網和新華網等主流媒體的藏語網站外,還包括了一至九年級藏文教材的內容,語料涉及領域較全面。本文中的詞類分布都來源于真實的藏文語料,這種基于真實語料的統計模型,有利于解決兼類詞的標注錯誤問題。訓練語料、測試語料分配如表3所示。
2.2 系統性能
分別對僅使用CRFs進行藏文詞性標注結果和利用知識融合的方式校正之后兩次實驗的對比情況如表4所示。
3 結論
本文主要介紹了基于知識融合的藏文詞性標注系統,通過對每個特征模板的測試實驗,觀察分析之后得到最優的特征模板組合,利用該特征模板組合訓練出標注模板,之后分析介紹了CRFs分詞標注的錯誤類型,并針對一些特定錯誤利用知識融合的策略對CRFs標注錯誤進行校正。在開放測試中,本文的藏文詞性標注系統的準確率達到了98.75%。
參考文獻(References):
[1] 洪銘材,張闊,唐杰.基于條件隨機場(CRFs)的中文詞性標注方法[J].計算機科學,2006.
[2] 洛桑嘎登.藏文自動分詞與詞性標注研究[D].中央民族大學,2016
[3] 洛桑嘎登,趙小兵.藏文詞級處理研究現狀及熱點方法[J].電腦知識與技術,2015.32.
[4] 洛桑嘎登,楊媛媛,趙小兵.基于知識融合的CRFs藏文分詞系統[J].中文信息學報,2015.6.
[5] 華卻才讓,劉群,趙海興.判別式藏語文本詞性標注研究[J].中文信息學報,2014.28(3).
[6] 蘇俊峰.基于HMM的藏語語料庫詞性自動標注研究[D].西北民族大學碩士學位論文,2010.
[7] 史曉東,盧亞軍.央金藏文分詞統[J].中文信息學報,2011.25(4):54-56
[8] 扎西多杰,安見才讓.基于HMM藏文詞性標注的研究與實現[J].計算機光盤軟件與應用,2012.12:100-101
[9] 于洪志,李亞超,汪昆等.融合音節特征的最大熵藏文詞性標注研究[J].中文信息學報,2013.27(5):160-165
[10] 康才畯.康才藏語分詞與詞性標注研究[D].上海師范大學博士學位論文,2014.
[11] 龍從軍,劉匯丹.基于藏語字性標注的詞性預測研究[J].中文信息學報,2015.28(5).
[12] 國家語言文字工作委員會.信息處理用現代藏語詞類標記集規范(草案),2015.6.
[13] J Lafferty, A McCallum, F Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]. Proceedings of ICML,2011:282-289