999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本未登錄詞識別的研究

2019-09-19 11:34:52方玉萍萬榮方達
電腦知識與技術(shù) 2019年20期
關(guān)鍵詞:文本方法模型

方玉萍 萬榮 方達

摘要:未登錄詞作為一類特殊詞出現(xiàn),在中文文本處理中常常帶來識別歧義,未登錄詞的識別好壞往往會影響到文本處理系統(tǒng)的整體性能。未登錄詞識別方法各有千秋,但對于識別未登錄詞都沒有最有效的方法,研究發(fā)現(xiàn)利用未登錄各類別的特點和難點進行方法的組合使用,可以提高其歧義的處理能力。本文研究中文文本未登錄詞的識別,以期能在各文本處理中能減少歧義達到提高識別的正確率和召回率。

關(guān)鍵詞:詞;方法;名;識別

中圖分類號:TP18? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)20-0203-02

開放科學(xué)(資源服務(wù))標識碼(OSID):

Abstract: Unlogged words appear as a kind of special words, which brings the ambiguity of recognition in Chinese text processing. The recognition of unlogged words often affects the overall performance of text processing system. Unlogged word recognition methods are different, but there is no most effective method for identifying unlogged words. The combination of methods is used using the characteristics and difficulties of unlogged categories. This paper studies the recognition of unlogged words in Chinese text in order to reduce ambiguity in each text processing to improve the correct rate and recall rate of recognition.

Key words: Words; Methodology; Name; recognition

中文文本處理涵蓋了字、詞、句、段和篇章等多層面信息來處理,在研究過程中發(fā)現(xiàn)中文的詞更能精準表達句子的含義,所以現(xiàn)在的研究重點都放在詞語的處理上,而詞的識別是文本處理工作中最基本的工作,也是影響整個文本信息最突出的地方。未登錄詞對詞法分析影響最大,在處理過程中,未登錄詞往往會被錯誤識別,給后續(xù)的句法與語法分析帶來很大困難,有時會造成文本處理技術(shù)的一個瓶頸。

1 未登錄詞

未登錄詞即沒有被收錄在分詞詞表中但必須切分出來的詞,包括各類專有名詞(人名、地名、機構(gòu)名等)、縮寫詞、新增詞匯等等 [1]? 。

現(xiàn)有文本識別面臨的基本問題有:歧義詞和未登錄詞的識別。研究發(fā)現(xiàn),未登錄詞識別所造成的錯分數(shù)量遠遠大于歧義切分的錯分數(shù)量,所以研究未登錄詞可以提高文本分詞的效率。當前把未登錄詞分為以下三大類:(1)專用名詞即命名實體,一般指人名、地名、機構(gòu)名等,有時也包含時間或數(shù)值表達式。(2)網(wǎng)絡(luò)新詞,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展而出現(xiàn)的一些非正式語言,如“藍瘦”“手游”等。(3)專業(yè)術(shù)語:包含一些專業(yè)上的縮略詞。由各行各業(yè)涌現(xiàn)出的特定領(lǐng)域內(nèi)的術(shù)語稱謂。

2 未登錄詞識別方法

目前,未登錄詞的識別方法主要有以下三大類:

2.1基于統(tǒng)計的文本識別方法

基于統(tǒng)計的文本識別方法是在給定大量的訓(xùn)練文本集的前提下,利用機器學(xué)習(xí)模型的統(tǒng)計知識來學(xué)習(xí)詞語識別的規(guī)律,從而實現(xiàn)對未知文本的識別。這種方法只需統(tǒng)計語料中的字詞頻率,而不需要詞典,因而又叫作無詞典分詞法。隨著大規(guī)模語料庫的建立,統(tǒng)計機器學(xué)習(xí)方法的研究和發(fā)展,基于統(tǒng)計的中文識別方法漸漸成了主流方法。主要的統(tǒng)計模型有:N元文法模型,隱馬爾可夫模型,最大熵模型,條件隨機場模型等。

在實際的應(yīng)用中,基于統(tǒng)計的文本識別系統(tǒng)都需要使用分詞詞典來進行字符串匹配分詞,同時使用統(tǒng)計方法識別一些新詞,即將字符串頻率統(tǒng)計和字符串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結(jié)合上下文識別生詞、自動消除歧義的優(yōu)點。

2.2基于詞典的文本識別方法

該方法是建立一個詞典,然后按照一定的策略進行文本掃描,若在詞典掃描到某個字符串,則識別出字符串為詞,將其從文本中切分出來。所以該方法也稱為機械的文本識別方法。按照掃描方向的不同,基于文本識別方法分為正向匹配法和逆向匹配法;按照字符串長度優(yōu)先匹配,可以分為最大字符串匹配法和最小字符串匹配法。由于中文文本每個字都可以成詞,而最小字符串匹配法識別出的文本太多,不提倡使用。所以基于詞典的文本識別方法一般使用正向最大字符串匹配法和逆向最大字符串匹配法或者是雙向(正向和逆向)匹配法。對于詞典的文本識別方法的改進方法主要還有設(shè)立切分標志法和結(jié)合詞性標注法。

2.3基于理解的文本識別方法

基于理解的文本識別方法是試圖通過模擬人類的大腦思維來理解句子,達到識別詞的目的。在識別文本的時候進行句子的句法、語法分析,然后利用大量的詞語信息來處理歧義內(nèi)容。由于中文構(gòu)成的復(fù)雜性,難以將語言信息組織成機器可直接讀取的形式,因此基于理解的文本識別方法目前仍處于實驗階段。基于理解分詞的方法包括專家系統(tǒng)分詞法和神經(jīng)網(wǎng)絡(luò)分詞法。

基于詞典的文本識別方法是最早使用的,算法簡單易行,在各個領(lǐng)域均有應(yīng)用,但消除歧義信息基于無法執(zhí)行,所以準確率不高?;诮y(tǒng)計的文本識別方法在消除歧義中有較好的處理能力,但它需要大量的語料庫作為基礎(chǔ),耗時較大?,F(xiàn)在研究方法都是把兩者的優(yōu)缺點綜合考慮后進行組合來處理文本識別。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 黄色国产在线| 欧美一区精品| 中国一级特黄大片在线观看| 99久久精品免费视频| 国产一区在线观看无码| 丁香婷婷在线视频| 精品国产福利在线| 亚洲天堂色色人体| 狠狠做深爱婷婷综合一区| 国产精品无码一二三视频| 天天色综合4| 波多野结衣无码视频在线观看| 日韩免费毛片| 免费国产一级 片内射老| 欧美国产在线看| 99视频精品全国免费品| 日韩人妻无码制服丝袜视频| 国产精品白浆无码流出在线看| 青青操视频在线| 欧美精品一区二区三区中文字幕| 日韩中文精品亚洲第三区| h网址在线观看| 999精品在线视频| 亚洲制服丝袜第一页| 欧美精品在线视频观看 | 亚洲综合精品第一页| 亚洲男人天堂网址| 久久精品丝袜高跟鞋| 宅男噜噜噜66国产在线观看| 成人午夜亚洲影视在线观看| 免费一看一级毛片| 国产精品乱偷免费视频| 国产午夜看片| 亚洲国产清纯| 国产成人艳妇AA视频在线| 亚洲日韩精品伊甸| 国内精自线i品一区202| 91欧美在线| 欧美A级V片在线观看| 日韩欧美国产成人| www.91中文字幕| 偷拍久久网| 亚洲成人免费看| 亚洲国产91人成在线| 中文字幕亚洲精品2页| 国产av色站网站| 免费播放毛片| 亚洲午夜国产片在线观看| 黄片一区二区三区| 69精品在线观看| 大香伊人久久| 亚洲乱码视频| 第一页亚洲| 国产免费网址| 香蕉综合在线视频91| 亚洲二三区| 久久免费视频播放| 国产h视频在线观看视频| 亚洲一区二区三区中文字幕5566| 91色在线视频| 亚洲看片网| 亚洲美女高潮久久久久久久| 91青青草视频在线观看的| www.亚洲色图.com| 亚洲黄网在线| 国产一区亚洲一区| 午夜三级在线| AV在线天堂进入| 欧美激情视频在线观看一区| 婷婷六月综合网| 欧洲欧美人成免费全部视频| 日本高清免费一本在线观看 | 97在线免费| 久久不卡精品| 免费不卡在线观看av| 丝袜亚洲综合| 激情在线网| 2021国产乱人伦在线播放| 久久免费精品琪琪| 国产成人久久777777| 亚洲成人福利网站| 58av国产精品|