999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規則的維吾爾語命名實體識別研究

2015-10-31 11:03:17于光磊徐毅馬明達俞珍珍米克然阿依艾爾肯
中國科技縱橫 2015年15期
關鍵詞:數據庫文本信息

于光磊 徐毅 馬明達 俞珍珍 米克然阿依·艾爾肯

(大連民族大學理學院,遼寧大連 116600)

基于規則的維吾爾語命名實體識別研究

于光磊徐毅馬明達俞珍珍米克然阿依·艾爾肯

(大連民族大學理學院,遼寧大連116600)

命名實體(Named Entity, NE)是指文本中承載著人名、地名、組織機構名等重要信息的詞語。命名實體識別(Named Entity Recognition,NER)是指在正確理解文本意義的基礎上,對文本中的命名實體進行識別,并按照其類型進行歸類。本次主要是基于對維吾爾語中的人名、地名進行研究,通過此次的研究,能夠使更多的人了解到維吾爾語,同時對了解維吾爾族人民的文化也起到積極的作用。維吾爾族語言中的人名、地名等都有相關的特征詞,通過特征詞能夠迅速而有效的找出文本中的人名、地名等信息,所以此次研究的方法主要依據基于規則的方法。

命名實體命名實體識別特征詞

1 引言

從研究范圍方面來說,早期的命名實體識別研究主要集中在西方國家,以研究英文為主。1995年后學者開始了對中文、德文、日文等語言的研究。中國在中文命名實體識別研究上取得了較好成績,并且展開了對少數民族語言如維語、蒙語等語言的命名實體的研究。

本次的研究目的在于通過該軟件對我國少數名族中的維語能夠起到一個推動的作用,使更多的人能夠了解維語,同時在閱讀維語文章中能夠快速找到該文章的人名,地名,組織機構等重要信息,對閱讀者起到一個非常重要的幫助。

2 系統的設計與實現

2.1系統設計功能及實現原理

命名實體識別過程中,通過信息檢索,在一篇文章中能夠快速找到有用的信息。此次研究,主要針對數字,人名,地名等信息,由此,該系統的設計功能主要分為以下七大模塊:

(1)分詞功能:通過分詞功能,把讀取的文本數據進行分詞,方便取詞和查找人名地名時進行詞與詞之間的比對。

(2)數字識別:通過程序的控制,對數字進行直接的判斷,從而找出文本信息中出現的數字以及數字出現的位置。

(3)人名識別:在維語命名中,人們習慣把名字命名為具有一定寓意的詞語。因此,在人名中,我們提前建立一個人名數據詞庫,通過查找那些具有一定寓意的詞語,把它們總結起來進行錄入,然后通過分詞功能把文章中的每個詞語進行讀取和比對,再加上句子的語法構成結構,從而判斷該詞是否屬于人名,如果文章中出現過的人名不在數據庫中,那么我們需要手動錄入該詞,使該詞保存到數據庫中,以便在下次使用中出現該詞語時會自動識別為人名。

(4)地名識別:地名識別的方法類似于人名的識別方法,不同的是,地名的詞語組成種類比較多,可分為以下四種:①單個詞語組成地名;②由地名首詞語+規則詞共同組成地名;③由地名首詞語+中間詞+規則詞共同組成地名;④多個連續地名組成一個特定地名。

通過程序的判斷,得出該詞屬于哪一種地名構成的結構,從而得出一個較為完整和準確的地名。

(5)詞語添加:在使用的期間,用戶會發現有的人名或是地名在數據庫中沒有存在,那么為了下次使用時能夠判斷該詞屬于人名或是地名,我們需要手動的進行錄入,因此該軟件系統具有添加信息的功能。

(6)文本讀?。涸谌绱硕嗟奈谋靖袷街校枰獙Χ喾N文本格式的支持,例如.txt,.doc等。

表1 人名識別結果統計表

表2 地名識別結果統計表

(7)編輯功能:編輯為文本提供常見的文本編輯功能,例如字號、顏色的設置、查找、選擇、導入/導出等功能。

2.2系統技術支持

后臺技術:通過Java語言的控制與判斷,實現對文本的讀取,同時找出文本中的所要的信息,包括數字、人名、地名等。

前臺技術:通過Java中的Swing組件與AWT組件,完成對前臺可視化的編輯,從而有一個更好的用戶體驗。

數據庫技術:MySql數據庫是一個小型的,用戶數量最多、最廣的數據庫,因此,此系統通過MySql數據庫進行數據存儲,同時還能夠方便、快捷的對數據進行操作。

3 系統識別結果與分析

對系統的識別性能評估,我們用:準確率(P),召回率(R),綜合指標(F)值3個評測指標,其識別結果如表1,表2所示。

通過數據可以看出,我們這次完成的軟件系統對維語識別的正確率是很高的,但是還有好多的沒有識別出來,原因是數據庫中所存儲的人名、地名有限,我們不能完完整整的把所有數據都保存在數據庫中,只能通過后期的不斷應用,不斷的添加數據,完善自己的數據。對于這些問題,我們今后會對其改進,使正確率更高,更能有效地幫助人們在閱讀維語文章中找到有用的信息。

4 結語

通過此次實驗研究,我們不但完成了軟件系統的功能實現,還對維吾爾語的語言特點以及人名、地名構成規則進行了深入研究,總結出維語人名、地名中的規則。與此同時,我們還建立了維語人名詞典庫和地名詞典庫,通過詞典庫中的信息,能夠在使用軟件時,快速而有效地找出文本中存在的人名、地名。

[1]劉群.機器翻譯研究新進展[J].當代語言學,2009,02:147-158+190.

[2]鄧尚民,孫玉偉.信息抽取系統的研究現狀[J].現代圖書情報術,2006.

[3]張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997.

[4]Dimitra Farmakiotou, Vangelis Karkaletsis, et al. Rule-based named entity recognition for Greek financial texts[C]//Proc. of the Workshop on Computational lexicography and Multimedia Dictionaries (COMLEX 2000). 2000: 75-78.

猜你喜歡
數據庫文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 91久久国产综合精品| 国产导航在线| 国产在线视频自拍| 91久久偷偷做嫩草影院免费看| 国产无码性爱一区二区三区| 亚洲国产综合自在线另类| 日韩午夜伦| 久久久久久高潮白浆| 波多野结衣一区二区三区四区视频 | 免费在线a视频| 99视频在线免费| 国产欧美高清| 美女视频黄又黄又免费高清| 97国产在线播放| 亚洲精品无码av中文字幕| 久久久精品国产SM调教网站| 久久精品娱乐亚洲领先| 亚洲第一极品精品无码| 不卡网亚洲无码| 青青青视频蜜桃一区二区| 国产成人免费视频精品一区二区 | 九色在线观看视频| 国产精品lululu在线观看 | 亚洲精品午夜天堂网页| 久久久久久尹人网香蕉 | 国产精品久久精品| 久久中文字幕2021精品| 欧美日韩中文字幕在线| 香蕉久久国产超碰青草| 亚洲综合色吧| 2018日日摸夜夜添狠狠躁| 亚洲狠狠婷婷综合久久久久| 欧美激情,国产精品| 亚洲区视频在线观看| 日韩免费毛片| 在线中文字幕日韩| 国产精品女主播| 日韩免费成人| 女人av社区男人的天堂| 国产真实乱人视频| 在线欧美日韩国产| 男女精品视频| 91精品国产福利| 亚洲成人播放| 精品无码一区二区三区电影| 久久免费视频6| 欧美在线视频不卡第一页| www成人国产在线观看网站| 国产幂在线无码精品| 亚洲资源站av无码网址| 精品国产成人高清在线| 亚洲中文字幕在线一区播放| 日韩av电影一区二区三区四区| 一区二区日韩国产精久久| 国产自无码视频在线观看| 伊人久久久大香线蕉综合直播| 国产在线观看一区精品| 亚洲激情区| 自慰高潮喷白浆在线观看| 国产欧美日韩精品综合在线| 国产伦精品一区二区三区视频优播| 久久综合婷婷| 亚洲二区视频| 欧美全免费aaaaaa特黄在线| 午夜一级做a爰片久久毛片| 伊人成人在线视频| 91精品专区国产盗摄| 91精品aⅴ无码中文字字幕蜜桃| 人人爽人人爽人人片| 区国产精品搜索视频| 亚洲国产成人久久77| 国产白浆在线| 中国国产A一级毛片| 色丁丁毛片在线观看| 最新精品久久精品| 国产亚洲精品yxsp| 天天色天天综合网| 67194在线午夜亚洲| 麻豆精品视频在线原创| 美女潮喷出白浆在线观看视频| 精品無碼一區在線觀看 | 玖玖精品在线|