999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的蒙古文地名識別

2017-03-02 05:55:02包烏格德勒鮑薇
現代計算機 2017年3期
關鍵詞:單詞特征實驗

包烏格德勒,鮑薇

(1.中央民族大學,北京100081;2.呼和浩特民族學院,呼和浩特010051)

基于條件隨機場的蒙古文地名識別

包烏格德勒1,2,鮑薇1

(1.中央民族大學,北京100081;2.呼和浩特民族學院,呼和浩特010051)

蒙古文地名識別是命名實體識別的一個子任務,也是蒙古文信息處理的一個基礎任務。實現基于條件隨機場的蒙古文地名識別。首先,分析蒙古文地名構成特點和蒙古文地名識別難點,實現基于多種特征的蒙古文地名識別方法。在蒙古文新聞語料庫上進行測試,蒙古文地名識別的召回率和正確率分別達到60.8%和90.8%。

蒙古文;地名識別;條件隨機場

0 引言

蒙古文信息處理經過30多年的研究,取得了一系列豐碩的研究成果,如:大規模語料庫的建立、國際標準編碼的制定、各種詞典的建設、辦公軟件的開發等。這些成果為這些成果為內蒙古自治區及全國推廣應用蒙古文信息處理技術創造了良好條件。當前,蒙古文的詞法分析、句法分析、語義分析等研究取得了較好的成績,但是命名實體研究還處于相當薄弱的地位。

所謂的命名實體(Named Entity)主要包括實體(組織名、人名、地名)、時間表達式(時間、時間)、數字表達式(貨幣值、百分數)等。命名實體識別是對文本進行理解的前提工作,屬于文本信息處理的基礎研究領域,它的研究成果將對后續的一系列工作產生影響[1]。目前已有的命名實體識別方法可以大致分為基于規則的方法、基于統計的方法和規則與統計混合的方法、基于統計的方法。其中典型的方法有隱馬爾可夫模型(HMM),支持向量機(SVM),最大熵(ME),條件隨機場(CRF)等[2]。在中文地名識別方面,何炎祥等人利用基于CRF和規則相結合的方法進行識別和修正,F值達到91%[3]。

在蒙古文命名實體識別研究方面,那順烏日圖等利用規則的方法對蒙古文人名進行了自動識別,在20萬詞語料庫中經過測試,召回率達89%,準確率達86%[4]。蘇依拉等運用本體技術構建內蒙古行政區劃地名本體,完成了蒙文文檔中地名的識別與標注工作[5]。通拉嘎在26萬詞的語料庫上使用統計的方法對蒙古文人名進行了識別,在封閉集上進行測試,正確率94.56%,召回率85.15%,F值89.61%,取得了較好的結果[6]。

統計方法中條件隨機場模型方法提供了一個特征使用靈活全局最優的標注框架,它解決了標記偏置問題,本文采用該模型對蒙古文新聞語料中的地名進行識別。本文詳細介紹了基于CRF的蒙古文地名識別方法并通過實驗進行驗證。

1 蒙古文地名構成

1.1 蒙古語語法特點

蒙古語屬阿爾泰語系蒙古語族,屬于黏著語。現行的蒙古文有33個字母,其中有7個元音、17個基本輔音和9個借詞輔音,蒙古文單詞由各個字母拼寫而成,每個字母在字首、字中、字尾有不同的變體。蒙古文的詞語可分為“有詞形變化的詞類”和“無詞形變化的詞類”。“有詞形變化的詞類”又可分為“體詞”和“動詞”。體詞包含名詞、形容詞、代詞、數詞和時位詞等。蒙古文的構形附加成分包括數、格、領屬、級范疇以及數詞變化形式;動詞的式、態、體范疇和形動詞、副動詞變化形式。因此蒙古文詞法形態變化豐富且復雜。

蒙古文單詞由詞干和詞綴組成,其結構為:

蒙古文單詞=詞根+構詞詞綴/構形詞綴+構詞詞綴/構形詞綴…

1.2 蒙古文地名構成類型

在蒙古文新聞語料中蒙古文地名可分為以下3類:

(1)蒙古語來源地名:地名來自蒙古語,主要表示內蒙古地區地名。

例如:VLAGAN(由一個蒙古文單詞構成)、HOHEH0TA(兩個蒙古文單詞構成,連寫)、SILVGVN HOBEGETU CAGAN HVSIGV(多個蒙古文單詞構成,分寫)等;

(2)漢語來源地名:地名來自漢語,主要表示國內地名。

例如:$ANGHAI(兩個漢語單詞組成,連寫)、$I JIYA JVWANG(多個漢語單詞組成,分寫)等;

(3)拉丁語來源地名:地名來自拉丁語,主要表示外國地名。

例如:eUiR0PA、AMeRIKA等。

漢語來源地名和拉丁語來源地名用蒙古文表示時主要采用音譯方式,其中漢語來源地名把漢語拼音轉換為拉丁字母表示,有時連寫(省份直轄市名多數連寫),有時分寫;拉丁語來源地名直接音譯表示,多數時候是連寫,經常包含蒙古文借詞輔音。蒙古文人名也可分為以上三種類型。

1.3 蒙古文地名識別難點

蒙古文地名識別是蒙古文命名實體識別的一個難點,主要表現在:

(1)無大小寫區分:蒙古文與漢文一樣,不存在首字母大寫的情況;

(2)具有二義性:部分蒙古文地名本身就是一個普通單詞,它的詞類可以是名詞、動詞、形容詞、數詞等,例如:“JIRUHE”作為普通單詞表示名詞“心臟”,“VLAGAN”作為普通單詞表示形容詞“紅”;

(3)有些地名單詞較多,這對識別工作帶來一定難度,例如:OBOR M0NGG0L-VN OBERTEGEN JASAHV 0R0N(內蒙古自治區)。

(4)蒙古與人名與地名在構詞規則上相近,二者易混淆。

2 基于CRF的蒙古文地名識別方法

條件隨機場模型(Conditional Random Fields)是一種基于統計的無向圖模型,在序列標注和分割方面有著出色的表現。

2.1 條件隨機場介紹

在序列標注任務中,隨機變量X={X1,X2,…,Xn}表示可觀測序列;隨機變量Y={Y1,Y2,…,Yn}表示觀測序列對應的標記序列。在本文中X表示蒙古文新聞語料的文本序列,Y表示該文本序列的標記序列。

在序列標注任務中,我們可以觀測序列整體作為一個單元結點考慮,每個標記作為一個結點考慮。

圖1 條件隨機場模型

在序列標注任務中,可以觀測序列整體作為一個單元結點考慮,每個標記作為一個結點考慮。由于觀測序列X的復雜性,估計勢函數Z需要一定的獨立性假設。所以,在己知隨機變量X的情況下,使用條件式:

其中,Zx是只依賴于觀測序列的歸一化函數,其公式為:

公式(2)即為條件隨機場模型。

2.2 特征選擇

本文充分考慮蒙古語語法特點,在單詞特征基礎上添加了詞性特征、常用地名和人名特征、常用地名和人名的前綴后綴特征、構詞特征等。

(1)單詞特征

以單詞以及上下文為特征進行識別。

(2)詞性特征

本文遵循了《GBT 26235-2010信息技術信息處理用蒙古文詞語標記》標準的詞語分類體系,確定了名詞(N)、形容詞(A)、動詞(V)、數詞(M)、量詞(Q)、代詞(R)、時位詞(O)、副詞(D)、情態詞(H)、模擬詞(U)、后置詞(G)、語氣詞(S)、連接詞(C)、感嘆詞(I)、時間詞(T)等15類基本詞,還使用了字母(E)、附加成分(F)、標點符號(W)、不確定詞(P)等標記單位,未使用復合詞(Y)、固定詞(J)、成語(K)、習用語(X)、縮略語(L)等標記。

所以語料庫中共使用了共19種詞類標記,并且使用的都是第一級標記。

(3)常用地名和人名特征

為了提高識別的準確率建立了蒙古文常用地名詞典,其中包括了內蒙古地區地名、中國常用地名和世界常用國家和地區地名。為了區別人名與地名,同時建立了蒙古文常用人名詞典。

(4)常用地名和人名的前綴后綴特征

通過分析新聞語料發現,很多地名的前面和后面會出現一些常用詞,例如:TIB(洲)、VLVS(國)、M0JI(省)、XIAN(縣)等,這些單詞對識別地名有一定的幫助。而人名的前面和后面也會跟一些常用詞,例如:TERIGULEGCI(主席)、YERUNGHEYILEGCI(總統)、$UJI(書記)等,這些單詞有助于區別地名和人名。

(5)構詞特征

根據蒙古文地名構成特點,漢語來源地名和拉丁語來源地名有一定的構詞規則,它們都采用拉丁轉寫形式。對語料庫中的單詞分為3類進行標記:

①漢語拼音(P):單詞由漢語拼音拉丁轉寫形式構成;

②借詞(L):單詞包括借詞輔音;

③其他(Y):其他單詞。

2.3 特征模板

在CRF模型的特征中上下文是以當前單詞為中心的一個觀察窗口,窗口的大小會直接影響識別的效果和效率。為了達到最佳的識別效果,本文選擇不同的窗口長度對每個特征進行對比實驗,根據F值確定窗口的大小。

本文采用的特征模板如下:

①上下文單詞特征w:

w0:當前單詞,w-i:前第i個單詞,wi:后第i個單詞。

②上下文詞性特征p:

p0:當前單詞詞性,p-i:前第i個單詞詞性,pi:后第i個單詞詞性。

③上下文地名人名特征n:

n0:當前單詞是否為常用地名人名,n-i:前第i個單詞是否為常用地名人名,ni:后第i個單詞是否為常用地名人名。

④上下文地名人名前綴/后綴特征s:

s0:當前單詞是否為常用地名人名前綴/后綴單詞,s-i:前第i個單詞是否為常用地名人名前綴/后綴單詞,si:后第i個單詞是否為常用地名人名前綴/后綴單詞。

⑤上下文構詞特征f:

f0:當前單詞的構詞特征,f-i:前第i個單詞的構詞特征,fi:后第i個單詞的構詞特征。

⑥組合特征:

上面5個特征進行組合生成的特征模板。

3 實驗

3.1 實驗語料

本文實驗所用語料來自人民網蒙古文版的國內新聞和國際新聞兩個板塊,包含350句,其中訓練語料有250句,測試語料100句。對語料庫首先進行了校對、詞性標注、常用地名和人名標注、常用地名和人名前綴/后綴標注和構詞標注。

語料中用于地名識別的標注有3個:B(地名開始)、I(地名內部)和O(其他)。

3.2 評測指標

實驗評測標準為準確率P、召回率R和F值3種指標:

3.3實驗結果

(1)上下文單詞特征實驗

表1

(2)上下文詞性特征實驗

表2

(3)組合特征實驗

由以上2個實驗結果可知,上下文單詞特征窗口長度3時效果最好,上下文詞性特征窗口長度為6時效果最好,實驗1將以上兩個特征模板組合使用,實驗2在實驗1的特征模板中添加常用地名人名前綴/后綴特征,實驗3中添加常用地名人名特征,實驗4中添加構詞特征。

3.4 實驗分析

分析實驗結果可知,單詞特征和詞性特征對蒙古文地名識別貢獻最大,加入常用地名和人名特征、常用地名和人名的前綴后綴特征對提高識別效果有很大幫助,構詞特征對提高識別效果貢獻最小。

表3

對測試結果分析,錯誤主要表現在以下幾點:①對兼類的地名識別效果較差,特別是其左右不出現常用前綴/后綴的情況下;②詞性標注錯誤導致的識別錯誤。可以從擴充語料規模、擴充地名人名詞典、優化特征模板、校對詞性標注等入手減少識別錯誤。

4 結語

本文提出了采用CRF模型對蒙古文新聞語料中的地名進行識別的方法,并采用單詞、詞性、常用地名人名、常用地名人名前綴/后綴、構詞等多種特征,準確率和召回率分別達到了60.8%和90.8%。目前的實驗結果發現召回率和準確率還有很大提升空間,還有很多問題需要深入研究,如擴充語料、擴充詞典、加入更多的特征等。

[1]李佳正,劉凱,麥熱哈巴·艾力,等.維吾爾語中漢族人名的識別及翻譯[J].中文信息學報,2011,25(4):82-87.

[2]宗成慶.統計自然語言處理[M].北京清華大學出版社,2008.

[3]何炎祥,羅楚威,胡彬堯.基于CRF和規則相結合的地理命名實體識別方法[J].計算機應用與軟件,2015,32(1):179-185,202.

[4]那順烏日圖,雪艷,淑琴,等.蒙古文人名自動識別研究[C].全國第七屆計算語言學聯合學術會議,2003:97-102.

[5]蘇依拉,孫日旺,譚艷梅,等.基于本體標注的蒙文地名識別研究[J].計算機工程與科學,2013,35(8):156-162.

[6]通拉嘎.基于蒙古文語料庫的人名自動識別[D].北京:中央民族大學,2013.

Approach to Recognizing Mongolian Location Names Based on Conditional Random Fields

BAOWugedele1,2,BAOWei1

(1.Minzu University of China,Beijing 100081;2.Hohhot Minzu College,Hohhot 010051)

The recognition ofMongolian location names is one of the subtasks of the named entity recognition,as a basic task ofMongolian information processing.Presents amethod to recognize Mongolian location names based on conditional random fields(CRFs).Firstly,introduces the agglutinative characteristics of Mongolian location names and the difficulties of the recognition of Mongolian location names,presents amethod to recognize Mongolian location names based onmulti-features.Tested on the Mongolian news corpus,the results show that the recall rate can reach 60.8%and the accuracy rate can reach 90.8%.

Mongolian;Location Names Recognition;Conditional Random Fields(CRFs)

2014 年國家語委科研項目(No.YB125-89)

1007-1423(2017)03-0006-05

10.3969/j.issn.1007-1423.2017.03.002

包烏格德勒(1979-),男,內蒙古興安盟人,博士研究生,呼和浩特民族學院副教授,研究方向為計算語言學、蒙古文信息處理鮑薇(1990-),女,江蘇徐州人,博士研究生,研究方向為計算語言學

2016-12-07

2017-01-10

猜你喜歡
單詞特征實驗
記一次有趣的實驗
單詞連一連
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
看圖填單詞
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产aⅴ无码专区亚洲av综合网| 好吊日免费视频| 四虎精品国产AV二区| 色综合网址| 人妻无码中文字幕第一区| 波多野结衣久久高清免费| 色天天综合久久久久综合片| 欧美亚洲另类在线观看| 99九九成人免费视频精品| 亚洲人在线| 一级毛片免费的| 欧美视频免费一区二区三区| 亚洲国产成人精品青青草原| 秋霞午夜国产精品成人片| 免费a级毛片18以上观看精品| 成人日韩视频| swag国产精品| 亚洲自偷自拍另类小说| 真实国产精品vr专区| 亚洲第一区在线| 亚洲精品无码专区在线观看 | 毛片在线播放a| 国产自在自线午夜精品视频| 午夜天堂视频| 亚洲精品桃花岛av在线| 国产成人91精品免费网址在线| WWW丫丫国产成人精品| 国产91精品调教在线播放| 污污网站在线观看| 亚洲天堂日韩av电影| 国产精品永久免费嫩草研究院| 视频一区亚洲| 亚洲欧美天堂网| 美女被狂躁www在线观看| 欧美成人日韩| 一本久道久综合久久鬼色| 又大又硬又爽免费视频| 色亚洲成人| 国产福利小视频高清在线观看| 国产伦精品一区二区三区视频优播 | 精品福利视频网| 欧美在线一二区| 亚洲成人www| 国产欧美日韩另类精彩视频| 国产乱人视频免费观看| a天堂视频在线| 欧美曰批视频免费播放免费| 男女男免费视频网站国产| 国内嫩模私拍精品视频| 欧美一区二区三区不卡免费| 国产欧美中文字幕| 91久久夜色精品| 久久99热这里只有精品免费看| 国产色婷婷| 亚洲一道AV无码午夜福利| 久久久久88色偷偷| 欧美综合区自拍亚洲综合天堂| 成人福利在线观看| 国产成人精品亚洲77美色| 毛片在线播放a| 日本欧美一二三区色视频| 日本一区二区三区精品国产| 69av免费视频| 中文字幕有乳无码| 亚洲国产清纯| 国产综合无码一区二区色蜜蜜| 欧美中文字幕在线播放| 亚洲女同欧美在线| 操操操综合网| 干中文字幕| 欧美成人二区| 久久夜夜视频| 久久无码免费束人妻| 这里只有精品在线播放| 亚洲福利片无码最新在线播放| 国产迷奸在线看| 精品国产免费观看一区| 91无码人妻精品一区| 日本三级欧美三级| 亚洲视频三级| 天堂成人在线| 国产成人喷潮在线观看|