999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM的中文姓名識別方法研究此

2009-03-30 04:52:54黃陳英
新媒體研究 2009年3期
關鍵詞:自動識別模型

楊 霞 黃陳英

[摘要]以2000年1月-12月《人民日報》大約80萬漢字語料為基礎,利用基于隱馬爾可夫模型并結合統計來評價在真實文本中構成中文姓名的能力,實現中文姓名的自動識別。實驗測試表明;準確率達91.5%,召回率為89.5%。

[關鍵詞]中文姓名識別隱馬爾可夫模型中文信息處理

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0210064-01

一、引言

在漢語的書面表現形式中,詞與詞之間是沒有自然界限的,自動分詞就成了中文信息處理的基礎工程[1],而未登錄詞(人名、地名、機構名、新詞和專業術語)的識別是漢語自動分詞的難題之一,其識別率和識別速度的高低將直接影響分詞的效果。中文姓名在未登錄詞中占很大比例,統計顯示:中文姓名占未登錄詞的15%[2],可見,中文姓名的自動識別對未登錄詞識別是極其重要的。傳統的姓名識別方式主要包括:基于統計[3-4]、基于語料庫[5]、結合決策樹等。

姓名識別也是一種分類問題,每一個字或者是或者不是姓名的一部分。近年來,隱馬爾可夫模型(HMM,Hidden Markov Models)在文字分類尤其是標注中取得了很大的成功。本文以《人民日報》2000年的語料為基礎,基于HMM建立了中文姓名的識別模型,開發了中文姓名自動識別實驗系統,經測試準確率達91.5%,召回率為89.5%。

二、基于HMM的中文姓名識別

(一)隱馬爾可夫的基本概念

隱馬爾可夫模型(Hidden Markov Model,HMM)是馬爾可夫鏈的一種,它的狀態不能直接觀察到,但能通過觀測向量序列觀察到每個觀測向量都是通過某些概率密度分布表現為各種狀態,每一個觀測向量是由一個具有響應概率密度分布的狀態序列產生。所以,隱馬爾可夫模型是一個雙重隨機過程具有一定狀態數的隱馬爾可夫鏈和顯示隨機函數集。HMM創立于20世紀70年代。80年代得到了傳播和發展,成為信號處理的一個重要方向,現已成功地用于語音識別,行為識別,文字識別以及故障診斷等領域。

HMM有5個組成部分,記為一個五元組(N,M,π,A,B),其中:N是模型狀態集的狀態數目;M是每個狀態可能的觀察值數目;π是初始狀態空間的概率分布;A是與時間無關的狀態轉移概率矩陣;B是給定狀態下,觀察值概率分布。

(二)模型框架

首先定義文字的屬性,在上下文中每一個詞只能有一個屬性,要么是姓名的一部分,要么就是非姓名。相應地,在隱馬爾可夫模型的狀態中,對中文姓名的識別其實只包含兩種類型:中文姓名(Person-Name)與非姓名(Non-Person-Name)。另外,還有兩個特殊的狀態,分別是句子起始狀態(start-0f-Sentence)和句子結束狀態(End-0f-Sentence)。我們使用一個二元統計語言模型來計算詞在每個區域內(name-class)的似然值。

本系統中所用的模型包括三個部分:(1)模型選擇Name-class;(2)模型產生Name-class內部的第一個詞;(3)模型產生Name-class內部的所有其它詞。

相應的公式分別是:

其中Nc表示當前的Name-class,NC-I表示前一個Name-class,w-I表示前一個類中最后一個字或者詞,wfirst表示當前類中的第一個字或者詞。

Name-class內部產生所有非第一個詞的模型:

還有一個特殊的詞“+end+”,在Name-class內部如下公式計算最后一個詞的概率:

其中,c()表示事件在訓練數據中出現的次數。當然統計的時候需要用某種平滑方法例如Good-Turning來解決數據稀疏的問題。

(三)識別

中文姓名識別的任務可歸結為:給定一個句子W=wlw2…Wn2,要求找出NC=NCINC2…NCn使得P(Nclw)最大,其中NCi是詞,它的狀態有兩種:中文姓名PN或NPN。

由貝葉斯法則,P(Nc|w)=P(NC,W)/P(w),對于給定的句子,P(W)是固定的,所以只需要考慮P(NC,w),展開即如公式(1)-(4)所示。這樣,姓名的提取可以看成特殊的分詞過程,系統在解碼或識別過程中采用Viterbi束搜索算法。

用一個各態遍歷HMM作為產生句子的模型,稱為PNHMM。該模型有四種狀態,PN,NPN,Start-Of-Sentence和End-0f-Sentence。使P(Nc,w)最大化可轉化為P(Path,W)最大化,Path=S1S2…Sn是狀態轉移路徑。

PNHMM產生一個句子的過程如圖1所示。

三、實驗結果及討論

分詞采用的也是Viterbi束搜索算法,用來訓練的語料為2000年《人民日報》約80萬字;從中文網站上下載50篇文章作為測試系統性能的測試數據,總共有2000句話,大約有5萬字。其中含有中文姓名304個。統計結果,共識別出中文姓名272個,未識別出的中文姓名32個,召回率89.5%。識別為中文姓名的共有297處,誤報為19個,準確率91.5%。

識別錯誤的例句:

1.候選人為何齊魯。(漏識別)

2、受聘于張氏律師事務所。(錯召回)

基于HMM的各態遍歷過程對中文姓名進行識別,可以提高識別的精度,但仍存在一些需要解決的問題:(1)構造模型的語料有限,中文姓名在真實文本中的覆蓋率不完全,對識別產生很大影響;(2)對于那些小概率稀疏事件沒有較好考慮,造成識別錯誤;(3)外國人名和中文姓名有些具有相似的語言特征,在識別中容易引起錯誤。

猜你喜歡
自動識別模型
一半模型
中國自動識別技術協會
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
船舶自動識別系統對船舶救助的影響
水上消防(2019年3期)2019-08-20 05:46:08
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
3D打印中的模型分割與打包
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产免费羞羞视频| 在线观看亚洲天堂| 毛片免费试看| 1024国产在线| 欧美人在线一区二区三区| 国产视频你懂得| 欧美激情视频二区| 自慰网址在线观看| 草逼视频国产| 中国特黄美女一级视频| 无码日韩视频| 亚洲成人精品久久| 黄色三级网站免费| 日韩成人午夜| 国产jizzjizz视频| 国产麻豆91网在线看| 精品福利国产| 免费人成黄页在线观看国产| 日本三级欧美三级| 国产成人一区在线播放| 美女啪啪无遮挡| 国产不卡一级毛片视频| 国产97视频在线| 伊人大杳蕉中文无码| 91无码人妻精品一区二区蜜桃| 国产精品露脸视频| 综合色天天| 国产免费一级精品视频| 中文字幕乱码二三区免费| 国产人碰人摸人爱免费视频| 国产草草影院18成年视频| 国产波多野结衣中文在线播放| 波多野结衣视频一区二区| 国产亚洲精| 久草国产在线观看| 久久久久无码精品| 亚洲欧洲国产成人综合不卡| 热九九精品| 在线视频一区二区三区不卡| 亚洲精品黄| 免费A级毛片无码无遮挡| 日韩在线网址| 免费Aⅴ片在线观看蜜芽Tⅴ| 日本国产精品一区久久久| 在线观看免费AV网| 波多野结衣久久高清免费| 欧美v在线| 日韩美女福利视频| 91探花在线观看国产最新| 亚洲侵犯无码网址在线观看| 一本色道久久88亚洲综合| 精品欧美一区二区三区久久久| 国产亚洲欧美日本一二三本道| 免费人成网站在线高清| 极品尤物av美乳在线观看| 思思热在线视频精品| 婷婷亚洲天堂| 日韩欧美中文| 国产麻豆另类AV| 波多野结衣第一页| 欧美视频在线不卡| 四虎AV麻豆| 国产欧美日本在线观看| 亚洲欧美成人网| 国产精品国产主播在线观看| 国产成人喷潮在线观看| 国产视频 第一页| 国产一二视频| 欧美a级完整在线观看| 色婷婷丁香| 亚洲欧洲日产无码AV| 亚洲精品制服丝袜二区| 国产精品综合久久久| 日韩av电影一区二区三区四区| 成人午夜网址| 国内精自线i品一区202| 欧美日韩一区二区三区四区在线观看 | 91久久精品日日躁夜夜躁欧美| 亚洲三级电影在线播放| 热re99久久精品国99热| 亚洲美女一区二区三区| 在线免费看片a|