摘要:提出了一種基于范例的漢語(yǔ)短語(yǔ)標(biāo)注方法,通過對(duì)大量語(yǔ)料的人工標(biāo)注,提供了自動(dòng)標(biāo)注的前提。經(jīng)過對(duì)熟語(yǔ)料的統(tǒng)計(jì)分析,利用基于范例的方法實(shí)現(xiàn)短語(yǔ)自動(dòng)標(biāo)注,為自然語(yǔ)言的計(jì)算機(jī)處理提供基礎(chǔ)研究服務(wù)。
關(guān)鍵詞:基于范例;短語(yǔ)標(biāo)注;詞性序列
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)26-1812-03
The Automatic Tagging of Subject-predicate Phrases by the Method of Case-based Chinese Phrase-Tagging
TU Yun-Jie
(Information and Science Department, HuLunBeiEr College, HaiLaEr 021008, China)
Abstract: A case-based method used for Chinese phrase-tagging is introduced. Tagging large-volume corpus by hand has provided the basis for automatic tagging. Through the analysis of mature corpus, the automatic phrase-tagging is carried out by the method of case-based Chinese phrase -tagging and provides basic research service for natural language processing.
Key words: case-based; phrase-tagging; order of part of speech
1 前言
基于范例的漢語(yǔ)短語(yǔ)標(biāo)注是將基于范例的方法應(yīng)用于漢語(yǔ)的短語(yǔ)標(biāo)注中,利用相似性來進(jìn)行短語(yǔ)標(biāo)注的一種策略,也就是先根據(jù)人工標(biāo)注語(yǔ)料建立范例庫(kù),然后通過待分析的短語(yǔ)詞性序列與已有的范例庫(kù)中的范例進(jìn)行比較,利用相似性公式得出兩者的相似值,從而推導(dǎo)出待分析短語(yǔ)詞性序列的標(biāo)注結(jié)果。
2 短語(yǔ)分類與統(tǒng)計(jì)
現(xiàn)代漢語(yǔ)中,對(duì)短語(yǔ)分類一般采用下面兩種標(biāo)準(zhǔn):內(nèi)部結(jié)構(gòu)、外部功能。按照內(nèi)部結(jié)構(gòu),短語(yǔ)可分為聯(lián)合短語(yǔ),定中短語(yǔ),狀中短語(yǔ),動(dòng)賓短語(yǔ),述補(bǔ)短語(yǔ),主謂短語(yǔ),連謂短語(yǔ),兼語(yǔ)短語(yǔ),同位短語(yǔ)等幾類;而按照外部功能,短語(yǔ)則一般可分為名詞短語(yǔ),動(dòng)詞短語(yǔ),形容詞短語(yǔ)和副詞短語(yǔ)等幾類。我們標(biāo)注的語(yǔ)料容量近8萬字,其中從短語(yǔ)功能上統(tǒng)計(jì)得出如下數(shù)據(jù):名詞短語(yǔ)np共4515個(gè),動(dòng)詞短語(yǔ)vp共6982個(gè),形容詞短語(yǔ)ap共750個(gè),副詞短語(yǔ)dp共138個(gè),物量短語(yǔ)mp共744個(gè),動(dòng)量短語(yǔ)wp共34個(gè),介詞短語(yǔ)pp共646個(gè),主謂短語(yǔ)jp共2820個(gè)。
3 主謂短語(yǔ)的標(biāo)注及范例庫(kù)的建立過程
本文主要介紹主謂短語(yǔ)的標(biāo)注過程,人工標(biāo)注主謂短語(yǔ)組成及結(jié)構(gòu)分為以下幾種情況:
從標(biāo)注好的語(yǔ)料中抽取短語(yǔ)范例建立范例庫(kù),關(guān)于范例庫(kù)我們做一些必要的解釋:設(shè):cxxl:詞性序列;
jg: 標(biāo)注結(jié)果;
w1: 第一個(gè)詞的詞性標(biāo)記;
w2: 第二個(gè)詞的詞性標(biāo)記;
w3: 第三個(gè)詞的詞性標(biāo)記;(可以為空)
t1: 第一個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);
t2: 第二個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);
t3: 第三個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);(當(dāng)w3為空時(shí)取0)
et1:第一個(gè)詞的詞性總共出現(xiàn)次數(shù);
et2:第二個(gè)詞的詞性總共出現(xiàn)次數(shù);
et3:第三個(gè)詞的詞性總共出現(xiàn)次數(shù)(當(dāng)w3為空時(shí)取0)。
范例庫(kù)中范例結(jié)構(gòu):
cxxl-jg;
w1-w2-w3;
t1-t2-t3;
et1-et2-et3。
經(jīng)統(tǒng)計(jì),在近8萬的真實(shí)語(yǔ)料中,其中主謂短語(yǔ)共2820個(gè),共17種不同范例。n vt,rh vt,rw vt,rd vt,vt vt,mp vt只是其中的6種不同范例。
對(duì)于初建的范例庫(kù),應(yīng)通過歸并相似性計(jì)算公式對(duì)其中的范例進(jìn)行歸并。
歸并相似性計(jì)算公式:
dij [0,1] ,其中,n是屬性總數(shù)(n=1,2,3);
n=1:初建范例庫(kù)中每個(gè)范例的第一個(gè)詞詞性;
n=2:初建范例庫(kù)中每個(gè)范例的第二個(gè)詞詞性;
n=3:初建范例庫(kù)中每個(gè)范例的第三個(gè)詞詞性;
aih 初建范例庫(kù)中第i個(gè)范例的第h個(gè)屬性的值(i,j=1,2,…,k);
ai1 :初建范例庫(kù)中第i個(gè)范例的第一個(gè)詞詞性出現(xiàn)的頻率;
ai2 :初建范例庫(kù)中第i個(gè)范例的第二個(gè)詞詞性出現(xiàn)的頻率;
ai3 :初建范例庫(kù)中第i個(gè)范例的第三個(gè)詞詞性出現(xiàn)的頻率;(可以為0)
經(jīng)計(jì)算,n vt與rh vt兩個(gè)范例的相似值為0.457463。
我們統(tǒng)計(jì)階段主謂短語(yǔ)共出現(xiàn)了2820次,利用歸并相似性計(jì)算公式計(jì)算后,所得部分范例間的相似值如表4所示:
其中,colcase :初建范例庫(kù)中第i個(gè)范例;
rowcase:初建范例庫(kù)中第j個(gè)范例;
simzhi :第i個(gè)范例與第j個(gè)范例的相似值,同時(shí)simzhi={min(dij|j=1,2,…)}。
選取閾值為0.2時(shí),依據(jù)表4中部分范例的相似值,經(jīng)歸并運(yùn)算后所建立的范例庫(kù)部分范例如表5所示:
最后17種不同范例則歸并為10種不同范例。
4 短語(yǔ)自動(dòng)標(biāo)注
基于范例的短語(yǔ)自動(dòng)標(biāo)注用下圖加以描述。
5 結(jié)束語(yǔ)
本文的標(biāo)注系統(tǒng)可以解決部分歧義問題,但需要語(yǔ)義信息的介入才可以解決的歧義問題,使用我們的系統(tǒng)卻無能為力,今后的工作中需要進(jìn)一步完善。
參考文獻(xiàn):
[1] 周強(qiáng),黃昌寧.漢語(yǔ)短語(yǔ)規(guī)則的自動(dòng)構(gòu)造方法研究[J].中文信息學(xué)報(bào),1997,12(3):1-7.
[2] 張斌.現(xiàn)代漢語(yǔ)短語(yǔ)[M].上海:華東師范大學(xué)出版社,2000.
[3] 劉開瑛,郭炳炎.自然語(yǔ)言處理[M].北京:科學(xué)出版社,1991.
[4] 石純一,黃昌寧.人工智能原理[M].北京:清華大學(xué)出版社,2000:185-236.
[5] 楊沐昀,趙鐵軍,于浩.自底向上的漢語(yǔ)短語(yǔ)標(biāo)注體系設(shè)計(jì)與實(shí)踐[A].黃昌寧,張普.自然語(yǔ)言理解與機(jī)器翻譯[C].北京:清華大學(xué)出版社,2001:160-166.