999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合信息雙數(shù)組的未登錄詞動態(tài)識別模型

2021-10-18 00:59:22陳皓宇洪嘉偉陳致然
電腦知識與技術(shù) 2021年26期

陳皓宇 洪嘉偉 陳致然

摘要:未登錄詞是影響命名實體識別效果的重要因素,現(xiàn)有分詞工具在處理未登錄詞時不僅識別效果欠佳,且存在識別時間較長等問題。為提高分詞效果,在現(xiàn)有分詞器基礎(chǔ)上結(jié)合未登錄詞識別模型,提出了一種基于改進雙數(shù)組Trie的混合信息未登錄詞動態(tài)識別模型MIDAT,將雙數(shù)組Trie擴展為字符雙數(shù)組與概率雙數(shù)組,利用字符雙數(shù)組存儲字符串詞段信息,概率雙數(shù)組存儲字符串節(jié)點間的成詞概率信息,通過不斷識別未登錄詞,動態(tài)更新兩個雙數(shù)組Trie。實驗結(jié)果表明,在相同的數(shù)據(jù)集下,結(jié)合MIDAT的分詞器后對于未登錄詞的分詞效果要優(yōu)于結(jié)巴等常用分詞器,同時在時間效率上相比傳統(tǒng)的未登錄詞識別模型提升約8倍。

關(guān)鍵詞: 未登錄詞; 雙數(shù)組Trie; 互信息; 信息熵 ; N-gram

中圖分類號:TP18? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)26-0001-05

開放科學(xué)(資源服務(wù))標識碼(OSID):

Dynamic Recognition Model of Unknown Words Based on Mixed Information Double Array Trie

CHEN Hao-yu,HONG Jia-wei,CHEN Zhi-ran

(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)

Abstract:Unknown words are an important factor affecting the recognition effect of named entities. When existing word segmentation tools deal with unknown words which not only have poor recognition results, but also have problems such as longer recognition time. In order to improve the effect of word segmentation,combined the unregistered word recognition model on the basis of the existing word segmenter, and proposes a dynamic unregistered word recognition model MIDAT based on the improved double array trie. On the basis of expanding the double array trie into a character double array and a probability double array, the character double array is used to store the word segment information of the string, and the probability double array is used to store the word formation probability information between the string nodes. Through continuous identification of unknown words , dynamically update the two double array trie. The experimental results show that under the same data set, the word segmentation effect of the word segmenter combined with MIDAT is better than that of common word segmenters such as stuttering. At the same time, the time efficiency is improved by about 8 times compared with the traditional unknown word recognition model.

Key words:unknown words ;double array trie ;mutual information ; nformation entropy ; N-gram

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)新聞媒體中的熱點話題與重大新聞層出不窮,其中蘊含著豐富的未登錄詞[1],然而現(xiàn)有的分詞器并不能有效地識別出這些詞,分詞后容易產(chǎn)生字符串碎片,而大量的未登錄詞和字符串碎片會導(dǎo)致命名實體識別[2]的準確率降低,因此在自然語言處理任務(wù)中,如何有效識別出未登錄詞便成為一個熱點和難點問題。

其根本體現(xiàn)在下述兩個方面,一方面現(xiàn)有的未登錄詞發(fā)現(xiàn)算法效果不太理想,算法在實體識別過程中存在一定的偏差。另一方面,由于文本數(shù)據(jù)中存在大量的重復(fù)前綴,使得原有識別算法的時間復(fù)雜度非常高,進行識別需要花費大量時間。故本文在改進雙數(shù)組Trie的基礎(chǔ)上提出了一種基于改進混合雙數(shù)組、互信息和信息熵的混合信息雙數(shù)組未登錄詞識別模型MIDAT。

1 相關(guān)工作

目前未登錄詞識別[3]的研究方法大致有兩類:基于規(guī)則的方法和基于統(tǒng)計學(xué)的方法。基于規(guī)則的方法是通過字符串詞段間的結(jié)構(gòu)與構(gòu)詞原理,結(jié)合詞性與語義信息[4]來進行匹配,對文本語料中的未登錄詞進行識別[5]。這種方法精確率較高,但是針對性較強,適用的領(lǐng)域較為單一,適用度受限,并且維護十分困難。而基于統(tǒng)計的方法,通過使用統(tǒng)計模型對語料中的各種信息[6]進行未登錄詞識別,這種方法靈活性較高,具有較好的普適性,但需提前對統(tǒng)計模型進行大量的訓(xùn)練,準確率也有待提高。

主站蜘蛛池模板: 熟妇无码人妻| 爱色欧美亚洲综合图区| 亚洲欧美日韩中文字幕在线| 五月婷婷综合在线视频| 四虎影视国产精品| 精品一区二区三区无码视频无码| 精品久久国产综合精麻豆| 国产在线98福利播放视频免费| 成人一区在线| 久久综合伊人 六十路| 免费三A级毛片视频| 影音先锋丝袜制服| 真人高潮娇喘嗯啊在线观看| 久久精品只有这里有| 国产成人1024精品| 国产无码精品在线播放| 亚洲日韩每日更新| 欧美性精品不卡在线观看| 亚洲欧美成人综合| 91色综合综合热五月激情| 国产精品视频3p| 亚洲午夜18| 亚洲欧洲日韩国产综合在线二区| 国产99在线| 精品国产福利在线| 国产91高跟丝袜| 91成人免费观看| 国产门事件在线| 麻豆精品在线视频| 国产欧美日韩一区二区视频在线| 久久综合色天堂av| 国产传媒一区二区三区四区五区| 狠狠做深爱婷婷综合一区| 欧美亚洲综合免费精品高清在线观看| 福利在线一区| 99偷拍视频精品一区二区| 亚洲视频免费在线看| 国产制服丝袜91在线| 亚洲伊人久久精品影院| 亚洲二区视频| 成人精品亚洲| 五月婷婷导航| 免费人成黄页在线观看国产| 人人91人人澡人人妻人人爽| 亚洲三级视频在线观看| 亚洲成A人V欧美综合| 亚洲第一视频网站| 大香网伊人久久综合网2020| 日日噜噜夜夜狠狠视频| 伊人成人在线| 欧美精品导航| 欧美日韩午夜| 国产精品亚洲五月天高清| 香蕉综合在线视频91| 97se亚洲综合在线天天| 婷婷六月在线| 精品色综合| 美女视频黄频a免费高清不卡| 国产欧美又粗又猛又爽老| 二级毛片免费观看全程| 99在线视频免费观看| 国产第一页屁屁影院| 日韩国产 在线| 亚洲最大福利视频网| 国产91高跟丝袜| 亚洲女同欧美在线| 热思思久久免费视频| 制服丝袜国产精品| 99在线视频免费| 毛片免费视频| 中文字幕在线观| 先锋资源久久| 天天婬欲婬香婬色婬视频播放| AV在线天堂进入| 毛片a级毛片免费观看免下载| 成人精品免费视频| 国产在线98福利播放视频免费| 午夜福利免费视频| 成人午夜精品一级毛片| 婷婷丁香在线观看| 国产一国产一有一级毛片视频| 成人福利在线看|