摘要:在自然語言處理系統的應用過程中,很多系統允許用戶自由掛接一部或多部領域詞典。掛接領域詞典的方法不同,在分詞中引起二次分詞歧義的比率是不同的,因此,通過實驗,比較了兩種掛接領域詞典方法在分詞中引起二次分詞歧義現象的不同。
關鍵詞:二次分詞歧義;分詞;組合歧義;交集歧義
中圖分類號:G250.7 文獻標志碼:A 文章編號:1673-291X(2010)20-0158-02
在自然語言處理系統的應用過程中,為了方便用戶的使用,很多系統允許用戶自由掛接一部或多部領域詞典。在漢語分詞系統中為了能提高對于不同領域詞匯的識別,提高漢語分詞精度,通常會引入領域詞典。而一般來說,這些系統的漢語分詞模塊并不專門處理這一問題,只是在分詞結果的基礎上,直接應用用戶所指定的專業詞典,采用貪心策略(最大匹配)思想簡單地識別專業詞典中的詞串。這樣,在劃分存在組合型或交集型歧義的字段時,不能根據前后的語境來正確地選擇是何種劃分,以至于產生錯誤的劃分。例如:“他/具有/非凡/的/才/ 能/?!?“只有/他/才/能/舉起/這/個/重物/。”,如果用戶詞典中指定了“才能”這個詞,那么第二句話的劃分就會產生錯誤。
本文針對在漢語分詞系統引入領域詞典的實際應用,比較了兩種不同的掛接領域詞典的方法產生二次分詞歧義現象的不同。
一、二次分詞歧義的分布統計
本文中的二次分詞歧義是指在已經進行了分詞處理的結果基礎上,由于引入其他詞典(如專業詞典)而引起的類似分詞的詞典查找過程中產生的形如分詞歧義的問題。簡單地說,就是在分詞結果基礎上再引入另外的專業詞典進行漢語詞匯單元識別而產生二次分詞歧義問題。以下是對二次分詞歧義中組合歧義的分布統計。
利用一部包含199 857個詞的專業詞典pfDic.dic(包括心理學、商務、能源、農業、物理、環境、汽車、電信、物理等領域的專業詞匯),從一個規模為7 286 870個詞的漢語語料庫RCorpus(北京大學-富士通聯合開發的人民日報98年上半年分詞詞性標注語料庫)中無一遺漏地抽取出其中所有的組合歧義切分字段。最終得到不同的組合歧義切分字段3 966個。這些字段在RCorpus中累計出現了59 661次,覆蓋了整個RCorpus的0.818%左右。
表1-1給出了二次分詞歧義中組合歧義字段的長度分布情況。
為表述方便,這里引入兩個概念:歧義字段的靜態頻率和動態頻率。
設歧義字段(段型)的全集為I={S1,…,Si,…,Sn},其中字段Si在語料庫中的出現次數為Freq(Si)。又,C是某些歧義字段(段型)組成的集合,C={Si1,…,Sim} ,則C關于I的靜態頻率和動態頻率分別定義為:
靜態頻率=
動態頻率=
其中|C|和|I|分別表示集合的大小。
由表1可見,2、3、4字長的組合歧義字段的靜態頻率和動態頻率高達93.90%和89.35%,而2、3、4、5字長的組合歧義字段的靜態頻率和動態頻率更是高達97.86%和96.38%。顯然,這四種長度的組合歧義字段應成為我們加倍注意的重點。
利用上述專業詞典繼續對語料庫進行組合歧義基礎上的交集歧義查找。在查找組合型歧義的基礎上,在遇到連續的兩個組合型歧義字段時,即產生了交集型歧義。最后共得到不同的交集型歧義切分字段76個。這些字段在RCorpus中累計出現了168次,覆蓋了整個RCorpus的0.0022%左右。
表2中給出了二次分詞歧義中交集歧義字段的長度分布情況。由表1-2可見,3至6字長的交集歧義字段的靜態頻率和動態頻率高達96.04%和96.2%,而3和6字長的交集歧義字段又占其中的顯著一大部分。顯然,這四種長度的組合歧義字段應成為我們加倍注意的重點。
綜上所述,在二次分詞所產生的所有歧義中,交集歧義的類型只有76種,累計出現158次;組合型歧義的類型共有3966種,累計出現59 661次。由此可見,組合歧義占絕對比重,也將成為我們處理中要加倍注意的重點。
二、二次分詞歧義的處理
(一)引入領域詞典的兩種方法介紹
針對分詞詞典以外的領域詞典,一般有兩種處理方法:
方法一是目前各種系統中比較流行的做法:先進行分詞處理,然后在分詞結果中采用貪心策略,利用最大匹配技術再次識別出其他詞典中所指出的詞。
方法二是將所有詞典在分詞處理時就統一考慮,根據一個所有詞典構成的一張大詞表來進行分詞處理。但是這種方法用于基于統計的分詞模型中(如HMM),一般要考慮那些分詞詞表以外的單詞的統計數據進行某些處理,如參數平滑等等。
(二)引入領域詞典的兩種方法的二次分詞歧義率實驗
為了對比這兩種方法的優劣,我們采用基于本實驗室的漢語自動分詞詞性標注系統作為實驗平臺,從北京大學-富士通聯合開發的人民日報1998年1月份分詞詞性標注語料庫抽取出的原始文本共19 485句作為測試語料。
在此實驗平臺下,分別以上述兩種方法引入領域詞典的實驗被描述為:
實驗一:系統詞典分詞+領域詞典最大匹配法分詞;
實驗二:系統詞典+專業詞典+分詞一體化。
二次歧義比率可如下計算:
二次歧義比率=*100%
實驗結果如表3所示。
(三)引入領域詞典的兩種方法的實驗結論
從表格3中可以看出采用實驗一引入了較多的歧義現象。
另外,比較實驗一和實驗二產生的分詞結果時發現有2 874處不同,其中1 712句由于采用實驗二未能正確識別出專業詞典中的詞而產生,占59.57%;由于實驗一識別出專業詞典中的詞引入詞性不正確的比例是2.22%。
采用實驗一可以減少二次分詞歧義的產生,但同時降低了識別專業詞典詞匯的能力。
采用實驗二二次分詞歧義的比率大,但識別專業詞典詞匯的能力較強。
三、結論
漢語分詞是各種中文信息處理的基礎,在中文信息處理系統中具有廣泛的應用前景。本文全面深入地研究了漢語自動分詞中存在的歧義問題,并在統計框架下,通過一系列對比實驗,對基于隱馬爾可夫模型的漢語自動分詞和詞性標注模型的一體化算法和目前較流行的貪心算法進行了比較。具體地講,本論文的貢獻主要表現在以下方面:
本文所研究的是漢語分詞中的二次分詞歧義的分布情況及解決方法。在一部二十多萬詞數的領域詞典的基礎上對人民日報標注語料庫進行二次分詞歧義的查找,使我們對二次分詞歧義在語料庫中的分布情況上有了一定的了解,之后再引入一體化處理方法,對從語料庫中所得到的二次分詞歧義語段分別用一體化算法和貪心算法進行重新分詞,比較兩者在二次分詞歧義上的處理能力,從實驗結果上可以看出一體化算法在處理二次分詞歧義上的性能明顯高于貪心算法。但并不是說一體化算法在處理二次分詞歧義時不出錯,而且并不是極少,所以仍須繼續改進一體化算法。
參考文獻:
[1] 俞士汶,朱學鋒,王惠,張蕓蕓.現代漢語語法信息詞典詳解[M].北京:清華大學出版社,1998.
[2] 朱學鋒,俞士汶,王惠.現代漢語5萬詞語歸類的實踐[J].語言文字應用,1997,(4):88-94.
[3] 周強,張偉,俞士汶.樹庫的構建[J].中文信息學報,1997,(4):42-51.
[4] 黃昌寧.中文信息處理中的分詞問題[J].語言文字應用,1997,(1).
[5] 宋柔.分詞:漢語信息處理的基礎工程[J].計算機世界報:技術專題版,1997,(48).
[6] 劉源,等.信息處理用現代漢語分詞規范及自動分詞方法[M].北京:清華大學出版社,1994.
[7] 劉挺,吳巖,王開鑄.串頻統計和詞形匹配相結合的漢語自動分詞系統[J].中文信息學報,1998,12(1).