999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于范例的漢語(yǔ)主謂短語(yǔ)的自動(dòng)標(biāo)注

2008-12-31 00:00:00凃云杰
電腦知識(shí)與技術(shù) 2008年26期

摘要:提出了一種基于范例的漢語(yǔ)短語(yǔ)標(biāo)注方法,通過對(duì)大量語(yǔ)料的人工標(biāo)注,提供了自動(dòng)標(biāo)注的前提。經(jīng)過對(duì)熟語(yǔ)料的統(tǒng)計(jì)分析,利用基于范例的方法實(shí)現(xiàn)短語(yǔ)自動(dòng)標(biāo)注,為自然語(yǔ)言的計(jì)算機(jī)處理提供基礎(chǔ)研究服務(wù)。

關(guān)鍵詞:基于范例;短語(yǔ)標(biāo)注;詞性序列

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)26-1812-03

The Automatic Tagging of Subject-predicate Phrases by the Method of Case-based Chinese Phrase-Tagging

TU Yun-Jie

(Information and Science Department, HuLunBeiEr College, HaiLaEr 021008, China)

Abstract: A case-based method used for Chinese phrase-tagging is introduced. Tagging large-volume corpus by hand has provided the basis for automatic tagging. Through the analysis of mature corpus, the automatic phrase-tagging is carried out by the method of case-based Chinese phrase -tagging and provides basic research service for natural language processing.

Key words: case-based; phrase-tagging; order of part of speech

1 前言

基于范例的漢語(yǔ)短語(yǔ)標(biāo)注是將基于范例的方法應(yīng)用于漢語(yǔ)的短語(yǔ)標(biāo)注中,利用相似性來進(jìn)行短語(yǔ)標(biāo)注的一種策略,也就是先根據(jù)人工標(biāo)注語(yǔ)料建立范例庫(kù),然后通過待分析的短語(yǔ)詞性序列與已有的范例庫(kù)中的范例進(jìn)行比較,利用相似性公式得出兩者的相似值,從而推導(dǎo)出待分析短語(yǔ)詞性序列的標(biāo)注結(jié)果。

2 短語(yǔ)分類與統(tǒng)計(jì)

現(xiàn)代漢語(yǔ)中,對(duì)短語(yǔ)分類一般采用下面兩種標(biāo)準(zhǔn):內(nèi)部結(jié)構(gòu)、外部功能。按照內(nèi)部結(jié)構(gòu),短語(yǔ)可分為聯(lián)合短語(yǔ),定中短語(yǔ),狀中短語(yǔ),動(dòng)賓短語(yǔ),述補(bǔ)短語(yǔ),主謂短語(yǔ),連謂短語(yǔ),兼語(yǔ)短語(yǔ),同位短語(yǔ)等幾類;而按照外部功能,短語(yǔ)則一般可分為名詞短語(yǔ),動(dòng)詞短語(yǔ),形容詞短語(yǔ)和副詞短語(yǔ)等幾類。我們標(biāo)注的語(yǔ)料容量近8萬字,其中從短語(yǔ)功能上統(tǒng)計(jì)得出如下數(shù)據(jù):名詞短語(yǔ)np共4515個(gè),動(dòng)詞短語(yǔ)vp共6982個(gè),形容詞短語(yǔ)ap共750個(gè),副詞短語(yǔ)dp共138個(gè),物量短語(yǔ)mp共744個(gè),動(dòng)量短語(yǔ)wp共34個(gè),介詞短語(yǔ)pp共646個(gè),主謂短語(yǔ)jp共2820個(gè)。

3 主謂短語(yǔ)的標(biāo)注及范例庫(kù)的建立過程

本文主要介紹主謂短語(yǔ)的標(biāo)注過程,人工標(biāo)注主謂短語(yǔ)組成及結(jié)構(gòu)分為以下幾種情況:

從標(biāo)注好的語(yǔ)料中抽取短語(yǔ)范例建立范例庫(kù),關(guān)于范例庫(kù)我們做一些必要的解釋:設(shè):cxxl:詞性序列;

jg: 標(biāo)注結(jié)果;

w1: 第一個(gè)詞的詞性標(biāo)記;

w2: 第二個(gè)詞的詞性標(biāo)記;

w3: 第三個(gè)詞的詞性標(biāo)記;(可以為空)

t1: 第一個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);

t2: 第二個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);

t3: 第三個(gè)詞在所處短語(yǔ)中出現(xiàn)的次數(shù);(當(dāng)w3為空時(shí)取0)

et1:第一個(gè)詞的詞性總共出現(xiàn)次數(shù);

et2:第二個(gè)詞的詞性總共出現(xiàn)次數(shù);

et3:第三個(gè)詞的詞性總共出現(xiàn)次數(shù)(當(dāng)w3為空時(shí)取0)。

范例庫(kù)中范例結(jié)構(gòu):

cxxl-jg;

w1-w2-w3;

t1-t2-t3;

et1-et2-et3。

經(jīng)統(tǒng)計(jì),在近8萬的真實(shí)語(yǔ)料中,其中主謂短語(yǔ)共2820個(gè),共17種不同范例。n vt,rh vt,rw vt,rd vt,vt vt,mp vt只是其中的6種不同范例。

對(duì)于初建的范例庫(kù),應(yīng)通過歸并相似性計(jì)算公式對(duì)其中的范例進(jìn)行歸并。

歸并相似性計(jì)算公式:

dij [0,1] ,其中,n是屬性總數(shù)(n=1,2,3);

n=1:初建范例庫(kù)中每個(gè)范例的第一個(gè)詞詞性;

n=2:初建范例庫(kù)中每個(gè)范例的第二個(gè)詞詞性;

n=3:初建范例庫(kù)中每個(gè)范例的第三個(gè)詞詞性;

aih 初建范例庫(kù)中第i個(gè)范例的第h個(gè)屬性的值(i,j=1,2,…,k);

ai1 :初建范例庫(kù)中第i個(gè)范例的第一個(gè)詞詞性出現(xiàn)的頻率;

ai2 :初建范例庫(kù)中第i個(gè)范例的第二個(gè)詞詞性出現(xiàn)的頻率;

ai3 :初建范例庫(kù)中第i個(gè)范例的第三個(gè)詞詞性出現(xiàn)的頻率;(可以為0)

經(jīng)計(jì)算,n vt與rh vt兩個(gè)范例的相似值為0.457463。

我們統(tǒng)計(jì)階段主謂短語(yǔ)共出現(xiàn)了2820次,利用歸并相似性計(jì)算公式計(jì)算后,所得部分范例間的相似值如表4所示:

其中,colcase :初建范例庫(kù)中第i個(gè)范例;

rowcase:初建范例庫(kù)中第j個(gè)范例;

simzhi :第i個(gè)范例與第j個(gè)范例的相似值,同時(shí)simzhi={min(dij|j=1,2,…)}。

選取閾值為0.2時(shí),依據(jù)表4中部分范例的相似值,經(jīng)歸并運(yùn)算后所建立的范例庫(kù)部分范例如表5所示:

最后17種不同范例則歸并為10種不同范例。

4 短語(yǔ)自動(dòng)標(biāo)注

基于范例的短語(yǔ)自動(dòng)標(biāo)注用下圖加以描述。

5 結(jié)束語(yǔ)

本文的標(biāo)注系統(tǒng)可以解決部分歧義問題,但需要語(yǔ)義信息的介入才可以解決的歧義問題,使用我們的系統(tǒng)卻無能為力,今后的工作中需要進(jìn)一步完善。

參考文獻(xiàn):

[1] 周強(qiáng),黃昌寧.漢語(yǔ)短語(yǔ)規(guī)則的自動(dòng)構(gòu)造方法研究[J].中文信息學(xué)報(bào),1997,12(3):1-7.

[2] 張斌.現(xiàn)代漢語(yǔ)短語(yǔ)[M].上海:華東師范大學(xué)出版社,2000.

[3] 劉開瑛,郭炳炎.自然語(yǔ)言處理[M].北京:科學(xué)出版社,1991.

[4] 石純一,黃昌寧.人工智能原理[M].北京:清華大學(xué)出版社,2000:185-236.

[5] 楊沐昀,趙鐵軍,于浩.自底向上的漢語(yǔ)短語(yǔ)標(biāo)注體系設(shè)計(jì)與實(shí)踐[A].黃昌寧,張普.自然語(yǔ)言理解與機(jī)器翻譯[C].北京:清華大學(xué)出版社,2001:160-166.

主站蜘蛛池模板: 欧美一级专区免费大片| 少妇极品熟妇人妻专区视频| 六月婷婷综合| 亚洲另类第一页| 多人乱p欧美在线观看| 久久久久无码精品国产免费| 中国美女**毛片录像在线| 69综合网| 国产福利免费观看| 亚洲成aⅴ人片在线影院八| 亚洲人成网7777777国产| 国产成人高清精品免费| 久久综合AV免费观看| 国产真实乱子伦视频播放| hezyo加勒比一区二区三区| 中文字幕在线日韩91| 国产无码制服丝袜| 国产一国产一有一级毛片视频| 国精品91人妻无码一区二区三区| 四虎永久免费在线| 97精品国产高清久久久久蜜芽| 色妞永久免费视频| 色悠久久久| 亚洲第一成年网| 亚洲首页在线观看| 久久久精品国产SM调教网站| 国产草草影院18成年视频| 久久性妇女精品免费| 亚洲无码不卡网| 91免费国产高清观看| 欧美激情视频一区二区三区免费| www亚洲精品| 亚洲欧美人成电影在线观看 | 国产系列在线| 欧美精品亚洲日韩a| 91原创视频在线| 免费一看一级毛片| 高清乱码精品福利在线视频| 亚洲中字无码AV电影在线观看| 在线免费亚洲无码视频| 五月激情综合网| 在线免费无码视频| 欧美精品综合视频一区二区| 成人国产精品一级毛片天堂| 国产成人av大片在线播放| 欧美中文字幕在线视频| 亚洲天堂免费观看| 天天综合网亚洲网站| 国产亚洲现在一区二区中文| 手机永久AV在线播放| 精品国产香蕉在线播出| 中文字幕亚洲无线码一区女同| 久久精品人人做人人爽电影蜜月| 亚洲第一视频网| 中字无码av在线电影| 99视频精品全国免费品| 国产成人亚洲毛片| 欧美激情伊人| 亚洲日韩在线满18点击进入| 久久亚洲黄色视频| 久久一本精品久久久ー99| h网址在线观看| 亚洲av无码人妻| 精品一区二区三区自慰喷水| 黑人巨大精品欧美一区二区区| 欧美在线精品一区二区三区| 国产成人亚洲无吗淙合青草| 国产欧美日韩综合在线第一| 亚洲精品无码AⅤ片青青在线观看| 欧美不卡视频在线| 日韩av资源在线| 无码AV日韩一二三区| 久久综合色88| 福利一区在线| 狠狠综合久久久久综| aa级毛片毛片免费观看久| 九九九精品视频| 日韩欧美网址| 青青操国产| 欧美午夜视频在线| 欧美激情视频二区| 日韩在线视频网|