999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于類向量模型的中文姓名識(shí)別研究

2007-01-01 00:00:00賈品貴楊一平

摘要:提出了一種基于類向量模型的中文姓名識(shí)別方法#65377;該方法通過(guò)類向量的生成來(lái)模擬人工識(shí)別姓名的過(guò)程,采用Viterbi算法對(duì)未經(jīng)切分的漢字串進(jìn)行類向量標(biāo)注得到類向量序列,通過(guò)檢查相鄰類向量中類別和向量分量的變化來(lái)最終識(shí)別出人名#65377;該方法是完全數(shù)據(jù)驅(qū)動(dòng)的,不需要姓名識(shí)別的模式和規(guī)則#65377;通過(guò)對(duì)互聯(lián)網(wǎng)上隨機(jī)抽取的1 000篇文章進(jìn)行測(cè)試,結(jié)果表明,中文姓名識(shí)別召回率為82.2%,準(zhǔn)確率為70.3%#65377;

關(guān)鍵詞:中文姓名識(shí)別; 類向量模型; Viterbi算法; 基于漢字

中圖法分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):10013695(2007)04011103

漢語(yǔ)自動(dòng)詞法分析是文本分類#65380;信息檢索#65380;對(duì)話問(wèn)答#65380;機(jī)器翻譯等中文信息處理任務(wù)的基礎(chǔ)#65377;由于漢語(yǔ)的詞與詞之間沒(méi)有明確的分割符,漢語(yǔ)詞法分析首先面臨著自動(dòng)分詞的問(wèn)題,而專名(人名#65380;地名#65380;機(jī)構(gòu)名#65380;時(shí)間表達(dá)#65380;數(shù)字表達(dá)等)識(shí)別則是漢語(yǔ)自動(dòng)分詞的難點(diǎn)之一#65377;專名能否正確識(shí)別直接影響分詞的效果#65377;中文姓名識(shí)別是專名識(shí)別的一個(gè)領(lǐng)域,姓名在專名中占有很大比例#65377;統(tǒng)計(jì)顯示:中文姓名占專名的15%[1]#65377;可見(jiàn),中文姓名的自動(dòng)識(shí)別對(duì)于漢語(yǔ)專名識(shí)別以及自動(dòng)分詞具有重要意義#65377;

1相關(guān)研究

針對(duì)中文姓名自動(dòng)識(shí)別問(wèn)題,人們已作了許多深入的研究,并提出了多種解決方法#65377;目前,中文姓名自動(dòng)識(shí)別過(guò)程大致可分為姓名候選和姓名確認(rèn)兩個(gè)階段#65377;采用的方法一般是統(tǒng)計(jì)加規(guī)則的方法[1~3],只是不同的方法統(tǒng)計(jì)與規(guī)則的側(cè)重不同#65377;中國(guó)人一般采用“姓氏+名字”的方式命名#65377;姓氏包括單姓(如張#65380;王)和復(fù)姓(如上官#65380;諸葛);名字由一個(gè)或兩個(gè)字組成(如鄧小平#65380;李鵬)#65377;因此,中文姓名最長(zhǎng)由四個(gè)字構(gòu)成#65377;利用中文姓名采用“姓氏+名字”方式命名的特點(diǎn),一些研究者[1,5]從大規(guī)模姓名庫(kù)或真實(shí)語(yǔ)料中獲得姓氏用字表和名字用字表,并統(tǒng)計(jì)某個(gè)字作為姓名組成部分的頻率,然后計(jì)算文本中某個(gè)字串作為姓名的概率,概率值大于某一閾值的字串候選或識(shí)別為姓名#65377;在計(jì)算姓名的概率時(shí),假定姓氏和名字用字的分布獨(dú)立;對(duì)于雙字名,假定雙名首字和雙名末字的分布獨(dú)立#65377;但由于取名傳統(tǒng)#65380;姓名讀音#65380;姓名寓意等方面的因素,上述的獨(dú)立性假設(shè)并不成立#65377;例如“孔”姓家族按照輩份有嚴(yán)格的取名規(guī)范(孔繁×#65380;孔令×);而“余”姓的人名字常與“水”有關(guān)(余得江#65380;余入海)#65377;

由于中文姓名中姓氏用字比較有限,一些研究者的姓名識(shí)別方法采用了姓氏驅(qū)動(dòng)的策略,即掃描文本時(shí)遇到姓氏用字才會(huì)觸發(fā)人名的候選或識(shí)別[1,4]#65377;但在真實(shí)文本中出現(xiàn)的人名并不限于“姓氏+名字”一種命名方式,還包括姓與前后綴(老劉#65380;張工)#65380;名與前后綴(大郅#65380;威子)#65380;有姓無(wú)名(楊永明向賈和張?zhí)岢?#65380;有名無(wú)姓(寶玉和黛玉)等多種形式#65377;采用姓氏觸發(fā)機(jī)制的人名識(shí)別方法無(wú)法識(shí)別真實(shí)文本中以這些方式出現(xiàn)的人名#65377;這是這類方法本身所固有的不足#65377;

文獻(xiàn)[2]中,研究者利用21條規(guī)則從文本中候選人名;文獻(xiàn)[3]的研究者利用隱馬爾可夫模型(HMM)來(lái)為句子中的每個(gè)詞標(biāo)注不同的人名構(gòu)成角色,然后將得到的角色序列與預(yù)先定義的12條姓名模板進(jìn)行最大匹配來(lái)識(shí)別人名,與其中一模板最匹配的序列片斷被識(shí)別為人名#65377;但是人名規(guī)則的覆蓋范圍是有限的,一旦增加了新的人名模式,就必須增加相應(yīng)的匹配規(guī)則,修改以前的匹配算法#65377;

文本中姓名前后的詞語(yǔ)構(gòu)成了姓名的上下文信息[1,2,4],它們往往對(duì)姓名的出現(xiàn)有指示作用#65377;常用的上下文信息包括稱謂(如參謀長(zhǎng)#65380;先生)#65380;行為動(dòng)作(如指出#65380;發(fā)表)#65380;標(biāo)點(diǎn)符號(hào)(如“#65380;”)等#65377;由于詞比漢字包含更豐富的語(yǔ)義信息,目前大多數(shù)的人名識(shí)別方法在識(shí)別人名前都進(jìn)行了分詞[1~3]#65377;但這種基于詞的人名識(shí)別方法面臨著姓名內(nèi)部成詞#65380;姓名與上下文成詞的問(wèn)題#65377;文獻(xiàn)[2,3]給出了姓名內(nèi)部成詞#65380;姓名與上下文成詞的幾種情況,包括姓與單名成詞#65380;雙名成詞#65380;姓與雙名首字成詞#65380;人名的上文與姓成詞#65380;單名用字或雙名末字與人名后接單字成詞等#65377;但是,真實(shí)文本中姓名的表現(xiàn)形式隨意性很大,絕不限于上述幾種情況#65377;此外,姓名與上下文成詞破壞了姓名存在的真實(shí)語(yǔ)境,上下文邊界信息的指示作用被弱化,甚至消失了#65377;基于漢字的姓名識(shí)別方法可以避免上述的問(wèn)題#65377;漢字是一種表意文字,一個(gè)漢字一般具有多種含義,也具有很強(qiáng)的成詞能力,且很多漢字可獨(dú)立成詞#65377;當(dāng)漢字成詞時(shí),詞的部分意思可以從構(gòu)成漢字的意思派生出來(lái)#65377;以漢字作為姓名的上下文邊界信息,其指示作用不會(huì)完全消失#65377;

文獻(xiàn)[6]對(duì)人工識(shí)別姓名的過(guò)程進(jìn)行了研究,發(fā)現(xiàn)人在識(shí)別文本中的人名時(shí),最先找到姓名用字,然后查看其后的一個(gè)或兩個(gè)字,同時(shí)結(jié)合上下文信息來(lái)判斷是否構(gòu)成人名#65377;如果將構(gòu)成人名的各部分看做類別,則姓名可以看做一個(gè)類向量,姓名的識(shí)別過(guò)程就可以看做類向量的生成過(guò)程#65377;本文提出的基于類向量模型的姓名識(shí)別方法正是基于這種思想的#65377;此外,該方法是基于漢字的,人名識(shí)別之前不需要分詞,只需進(jìn)行簡(jiǎn)單的預(yù)處理#65377;

2基于類向量的中文姓名識(shí)別

中文姓名識(shí)別可以看做是一個(gè)分類問(wèn)題#65377;將中文姓名看成一個(gè)大類,姓名的構(gòu)成部分看成小類#65377;分類的目標(biāo)就是標(biāo)志句子中的每個(gè)詞或字是否屬于姓名類或姓名構(gòu)成類#65377;將隱馬爾可夫模型(HMM)的思想應(yīng)用于姓名識(shí)別并進(jìn)行擴(kuò)展#65377;傳統(tǒng)的HMM是為句子中的每個(gè)字或詞分配一個(gè)類別標(biāo)記;HMM擴(kuò)展為句子中的每個(gè)字標(biāo)記一個(gè)類向量#65377;類向量由幾個(gè)類別標(biāo)記組成,因此該模型叫做類向量模型#65377;下文首先給出類向量模型的類別定義,然后給出類向量模型的形式化定義及基于類向量模型的姓名自動(dòng)識(shí)別算法#65377;

2.1類向量模型類別的定義

類別標(biāo)記根據(jù)中文姓名的構(gòu)成#65380;姓名的上下文邊界信息來(lái)定義#65377;具體的定義如表1所示#65377;由于姓名稱謂對(duì)姓名的出現(xiàn)有很強(qiáng)的指示作用,將姓名稱謂單獨(dú)劃分為一類#65377;類別的定義借鑒了文獻(xiàn)[3]的人名構(gòu)成角色定義和文獻(xiàn)[2]的人名屬性特征角色定義#65377;與它們相比,本文的類別定義存在以下不同:①將中文姓名的姓劃分為一類;②將中文姓名的名劃分為一類;③沒(méi)有為姓名內(nèi)部成詞#65380;姓名與上下文成詞單獨(dú)定義類別;④姓名稱謂單獨(dú)劃分為一大類,并增加了相應(yīng)的小類別#65377;

表1定義的類別可以組成類向量,但只有屬于同一個(gè)大類的類別可以組合#65377;因此,大類(Name#65380;Title#65380;Other)就是類向量的類型#65377;本文規(guī)定,類向量中分量的個(gè)數(shù)最多不超過(guò)四個(gè),這與中文姓名的字?jǐn)?shù)不超過(guò)四個(gè)是一致的;姓名稱謂的字?jǐn)?shù)一般也不超過(guò)四個(gè)#65377;對(duì)于“副總工程師”這類超過(guò)四個(gè)字的稱謂,可以分解為兩個(gè)小于四字的稱謂“副總”和“工程師”#65377;

表1用于中文姓名識(shí)別的類別

類 別解 釋例 子

中文姓名Name

N.s姓賈#65380;王#65380;張#65380;諸葛

N.m名江澤民#65380;李鵬

N.qz姓或名前綴老劉#65380;大郅

N.hz姓或名后綴馬老#65380;亮子

稱謂Title

T.hc稱謂首字司令員彭德懷

T.mc稱謂中間字司令員彭德懷

T.tc稱謂末字司令員彭德懷

其他Other

O.lc姓名間的連接成分張藝謀和劉德華

O.sc姓名的上文漢字看 見(jiàn) 張 旭 珍

O.xc姓名的下文漢字胡 錦 濤 發(fā) 表

O.w非上述類別胡 錦 濤 發(fā) 表

圖1是一個(gè)用類向量標(biāo)注漢字串的例子#65377;圖1的上面是類別標(biāo)注的情況,下面是類向量標(biāo)注的情況#65377;由圖1可見(jiàn),如果能得到一個(gè)漢字串的類向量標(biāo)注序列,只需檢查每個(gè)類向量的類型及相鄰類向量分量個(gè)數(shù)的變化就可識(shí)別出姓名,不需要任何姓名識(shí)別規(guī)則和模板#65377;

2.2類向量模型

給定輸入的漢字序列W=(w1,w2,…,wT),求隱藏在背后最可能的類向量序列CV=(CV1,CV2, …,CVT)是HMM的解碼問(wèn)題[7]#65377;Viterbi算法是求解這類問(wèn)題的經(jīng)典算法[7]#65377;算法的關(guān)鍵是如何計(jì)算W和CV的聯(lián)合概率P(W,CV)#65377;將P(W,CV)的計(jì)算分解為下面的三個(gè)步驟:

(1)給定以前的類向量序列及漢字序列,當(dāng)前類向量是否需要新的類別標(biāo)記加入的概率#65377;

(2)給定以前的類向量序列及漢字序列,并確定了類向量是否需要新的類別標(biāo)記加入,產(chǎn)生新的類別標(biāo)記的概率#65377;

(3)給定以前的類向量序列#65380;漢字序列及當(dāng)前的類向量,產(chǎn)生當(dāng)前漢字的概率#65377;

將最可能類向量序列的解碼問(wèn)題及上面的三個(gè)步驟形式化如下:

CV#=arg maxCVP(CV,W)=

arg maxCV∏Tt=1P(bt|Wt-11,CVt-11)P(cvt|Wt1,CVt-11,bt)P(wt|Wt-11,CVt1)(1)

其中,bt是一個(gè)二值隨機(jī)變量;bt =1表示t位置處的類向量需要新的類別標(biāo)記(分量)加入;

Wt1表示位置1到t的漢字序列;wt表示位置t的漢字;

CVt1表示位置1到t的類向量序列;CVt表示位置t的類向量;cvt表示位置t的類別標(biāo)記;且有(Dt表示t時(shí)刻類向量中分量的個(gè)數(shù)1≤Dt≤4):

將類似HMM的獨(dú)立性假設(shè)引入到式(1)得到如下的近似估計(jì):

P(bt|Wt-11,CVt-11)≈P(bt|wt-1,CVt-1)

P(cvt|Wt-11,CVt-11,bt)≈P(cvt|wt-1,CVt-1,bt)(2)

P(wt|Wt-11,CVt1)≈P(wt|wt-1,CVt)

2.3模型參數(shù)的訓(xùn)練

采用最大似然估計(jì)來(lái)學(xué)習(xí)訓(xùn)練式(2)中的概率:

這里C()表示事件在訓(xùn)練數(shù)據(jù)中發(fā)生的次數(shù)#65377;

訓(xùn)練的語(yǔ)料庫(kù)需要經(jīng)過(guò)人工修正來(lái)標(biāo)志其中人名的姓#65380;名#65380;姓名稱謂#65380;姓名的前后綴等信息#65377;姓名稱謂#65380;姓名的前后綴完全從語(yǔ)料庫(kù)獲得,不需要額外的字典#65377;此外,類向量及類向量中的類別也完全從語(yǔ)料庫(kù)中獲得#65377;

2.4數(shù)據(jù)平滑

訓(xùn)練語(yǔ)料庫(kù)再大也是一個(gè)有限的集合,數(shù)據(jù)稀疏問(wèn)題不可避免,因此引入了數(shù)據(jù)平滑機(jī)制#65377;采用回退(Backoff)技術(shù)來(lái)進(jìn)行數(shù)據(jù)平滑[7]#65377;

P(bt |wt-1,CVt-1)可以使用回退模型 P(bt |CVt-1)來(lái)近似#65377;P(cvt |wt-1,CVt-1, bt) 可以回退到P(cvt |wt-1,CVt-1) 甚至P(cvt |CVt-1)#65377; P(wt |wt-1,CVt) 可以利用P(wt|CVt)來(lái)代替#65377;

2.5中文姓名識(shí)別的算法流程

(1)對(duì)文本中的句子進(jìn)行預(yù)處理,合并相鄰的字母或數(shù)字#65377;

(2)利用Viterbi算法對(duì)預(yù)處理后的句子進(jìn)行類向量標(biāo)注,得到最可能的類向量序列#65377;

(3)檢查類向量序列識(shí)別人名#65377;如果類向量序列在位置t的類型為姓名類,一直到位置t+k(0≤k≤3)的類向量類型都為姓名類,且從t~t+k的類向量分量漸次增1,則位置t~t+k處的漢字串識(shí)別為人名#65377;

3實(shí)驗(yàn)結(jié)果及分析

本文從互聯(lián)網(wǎng)上下載了1 000篇各類新聞網(wǎng)頁(yè)作為實(shí)驗(yàn)語(yǔ)料#65377;采用召回率R#65380;準(zhǔn)確率P以及Fmeasure三個(gè)指標(biāo)來(lái)評(píng)估實(shí)驗(yàn)結(jié)果,其中Fmeasure包含相等權(quán)重的召回率R和準(zhǔn)確率P#65377;實(shí)驗(yàn)結(jié)果如表2所示#65377;

表2測(cè)試結(jié)果

召回率R準(zhǔn)確率PFmeasure

82.2%70.3%75.8%

實(shí)驗(yàn)結(jié)果與文獻(xiàn)[1~3]相比要低一些,但由于測(cè)試語(yǔ)料來(lái)自互聯(lián)網(wǎng),測(cè)試結(jié)果不具備可比性#65377;另外本文方法是基于漢字的,漢字?jǐn)y帶的信息少于詞也是測(cè)試指標(biāo)偏低的一個(gè)原因#65377;

4結(jié)束語(yǔ)

本文給出了一種基于類向量模型的中文姓名識(shí)別方法#65377;該方法是基于漢字的,它通過(guò)類向量的生成來(lái)模擬人工識(shí)別人名的過(guò)程#65377;該方法對(duì)句子進(jìn)行類向量標(biāo)注,通過(guò)檢查類向量的類型及分量變化來(lái)識(shí)別人名,不需要任何人名識(shí)別的規(guī)則和模板,模型的參數(shù)完全通過(guò)語(yǔ)料庫(kù)學(xué)習(xí)訓(xùn)練得到#65377;試驗(yàn)表明,識(shí)別結(jié)果的召回率為82.2%,準(zhǔn)確率為70.3%#65377;

基于漢字的方法面臨著漢字?jǐn)y帶信息少的問(wèn)題#65377;在今后的工作中,將在識(shí)別出人名后把人名上下文的漢字根據(jù)詞典組合成詞,對(duì)識(shí)別出來(lái)的人名作進(jìn)一步的篩選#65377;

本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

主站蜘蛛池模板: 91久久国产成人免费观看| 国产尤物视频在线| 激情综合婷婷丁香五月尤物| 亚洲成a人片| 日本精品视频| 久久国产毛片| 高清无码一本到东京热| 久久亚洲天堂| 日韩第一页在线| 综合人妻久久一区二区精品 | 黄色三级网站免费| 成人免费黄色小视频| 午夜福利免费视频| www.狠狠| 国产成人三级| 人妻中文字幕无码久久一区| 国产簧片免费在线播放| 日本一本正道综合久久dvd| 久久精品日日躁夜夜躁欧美| 四虎成人精品| 色噜噜久久| 四虎成人在线视频| 精品亚洲国产成人AV| 国产成人喷潮在线观看| 波多野吉衣一区二区三区av| 国产午夜不卡| 欧美激情视频一区二区三区免费| 欧美三级日韩三级| 一本无码在线观看| 麻豆精品久久久久久久99蜜桃| 在线观看亚洲国产| 欧美一区中文字幕| 久久精品无码专区免费| 无码人妻免费| 国产毛片基地| 午夜色综合| 亚洲人成网址| 久久公开视频| 亚洲天堂啪啪| 国产成人凹凸视频在线| 久久一级电影| 亚洲欧美另类日本| 日本亚洲国产一区二区三区| 国产sm重味一区二区三区| 亚洲男人天堂久久| 一本久道久综合久久鬼色| 亚洲欧美另类专区| 国产午夜福利在线小视频| 日韩午夜福利在线观看| 成人伊人色一区二区三区| 天堂网国产| 黄色在线网| 免费一级无码在线网站| 国产在线八区| 波多野结衣国产精品| 一级黄色欧美| 免费一级毛片| 色屁屁一区二区三区视频国产| 久久久久亚洲精品成人网| 亚洲人成亚洲精品| 免费a在线观看播放| 亚洲不卡网| 99久久人妻精品免费二区| 国产h视频免费观看| 国产SUV精品一区二区6| 国产极品美女在线| 成年av福利永久免费观看| 久久久久中文字幕精品视频| 欧美日韩va| 日韩成人在线网站| 日本成人在线不卡视频| 成人福利在线免费观看| 国产麻豆永久视频| 亚洲第一极品精品无码| 亚洲精品无码久久久久苍井空| 热思思久久免费视频| 制服丝袜国产精品| 五月婷婷欧美| 婷婷亚洲视频| 67194亚洲无码| 亚洲综合片| 操操操综合网|