999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種適用于中文NER的自適應(yīng)混合編碼模型*

2020-01-18 06:21:28劉凱洋
關(guān)鍵詞:信息模型

劉凱洋

一種適用于中文NER的自適應(yīng)混合編碼模型*

劉凱洋

(深圳職業(yè)技術(shù)學(xué)院 人工智能學(xué)院,廣東 深圳 518055)

由于具有特征自學(xué)習(xí)性特性,LSTM被越來(lái)越多地應(yīng)用在自然語(yǔ)言處理(NLP)中的命名實(shí)體識(shí)別(NER)領(lǐng)域,并取得較優(yōu)的性能.本文提出一種新穎的詞語(yǔ)-字符自適應(yīng)混合編碼算法,在已有的字符和詞語(yǔ)信息的基礎(chǔ)上,突破詞語(yǔ)信息的局部性限制,基于語(yǔ)料庫(kù)進(jìn)行詞語(yǔ)全局特征的提取與選擇,并將此全局特征與局部特征(字符信息)進(jìn)行疊加,幫助WC-LSTM捕獲更多的文本特征.實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果表明,與最新的WC-LSTM相比較,本文提出的自適應(yīng)編碼可以較為明顯地提升LSTM在NER上的性能.

NLP;NER;LSTM;深度學(xué)習(xí)

1 問(wèn)題概述

作為自然語(yǔ)言處理(NLP)中一個(gè)重要的領(lǐng)域,命名實(shí)體識(shí)別(Named Entity Recognition,NER)受到越來(lái)越多的關(guān)注.NER問(wèn)題可以轉(zhuǎn)換為標(biāo)簽序列標(biāo)注問(wèn)題,從而利用已有的序列標(biāo)注和預(yù)測(cè)方法,包括樸素貝葉斯方法、隱馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)等.最新的研究表明,針對(duì)常見(jiàn)的英語(yǔ)NER問(wèn)題,通過(guò)利用字符與單詞混合編碼,LSTM-CRF模型能夠取得較優(yōu)的性能[1-4].與英文NER問(wèn)題相比較,中文NER問(wèn)題具有一些不同特性,導(dǎo)致LSTM-CRF模型的性能下降較為明顯.以“李朝陽(yáng)先生訪(fǎng)問(wèn)了北京大學(xué)”為例,因?yàn)橹形闹胁淮嬖诿黠@的詞語(yǔ)界限,如果采取先分詞的方法,則存在歧義性.例如,“李朝陽(yáng)”可能會(huì)被切分為“李”、“朝陽(yáng)”,因?yàn)槌?yáng)在漢語(yǔ)中是一個(gè)常用的詞語(yǔ),表示早晨的太陽(yáng)或者北京的一個(gè)區(qū).如果仍然采用英文NER中的詞語(yǔ)切分-序列標(biāo)注方法,則詞語(yǔ)切分步驟中引入的歧義性會(huì)影響后續(xù)的序列標(biāo)注步驟,可能引起錯(cuò)誤傳遞問(wèn)題從而導(dǎo)致性能下降.例如,如果“李朝陽(yáng)”被切分為“李”、“朝陽(yáng)”,則有可能被標(biāo)注為李-O,朝陽(yáng)-O或朝陽(yáng)-Loc,但是正確的標(biāo)注應(yīng)該是李朝陽(yáng)-Per.“北京大學(xué)”也存在同樣的問(wèn)題,如有可能切分為“北京”和“大學(xué)”,而不是作為一個(gè)整體對(duì)待.

最新的中文NER模型同時(shí)考慮字符信息和詞語(yǔ)信息(混合模型)[1,5-7].這些模型在基于字符LSTM的基礎(chǔ)上,將詞語(yǔ)信息作為額外的輸入,從而提升模型性能.Lattice LSTM存在的主要問(wèn)題在于其輸入數(shù)據(jù)長(zhǎng)度可變,并在極端情況下會(huì)退化成為基于字符的LSTM.文獻(xiàn)[5]提出基于詞語(yǔ)-字符的混合編碼策略,分別是Shortest Word First、Longest Word First、Average和Self-Attention,從而改進(jìn)了Lattice LSTM的上述問(wèn)題,但只考慮了詞語(yǔ)集合的局部信息,沒(méi)有考慮詞語(yǔ)在語(yǔ)料庫(kù)中的全局信息.

本文提出一種自適應(yīng)的混合編碼方式,通過(guò)對(duì)全局信息進(jìn)行考慮,從而挑選出重要的詞語(yǔ),提升中文NER性能.自適應(yīng)的混合編碼建立在如下的直覺(jué)感覺(jué):給定一個(gè)詞語(yǔ)集合中,在訓(xùn)練集中出現(xiàn)概率高的詞語(yǔ)具有更多的信息量,在測(cè)試集出現(xiàn)的概率也更高.因此,我們更多的考慮這些相對(duì)出現(xiàn)概率高的詞語(yǔ)信息,從而實(shí)現(xiàn)既考慮局部信息(字符信息),同時(shí)也包含全局信息(重要詞語(yǔ)).通過(guò)對(duì)實(shí)際語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)表明,與目前最優(yōu)文獻(xiàn)[1]的局部編碼方式相比,本文提出的自適應(yīng)混合編碼能取得較好的中文NER性能.

2 問(wèn)題定義與自適應(yīng)混合編碼

與文獻(xiàn)[5]相同,本文提出模型基于文獻(xiàn)[1]的算法,因此先引入Lattice LSTM模型定義.

2.1 BiLSTM定義

2.2 Lattice LSTM及混合編碼

如圖1中(a)和(b)所示,與BiLSTM相比較,Lattice LSTM增加了一個(gè)捕捉詞語(yǔ)信息的神經(jīng)元(圖1(b)中標(biāo)注為“w”神經(jīng)元),從而提升模型性能.圖1(b)同時(shí)也展示了Lattice LSTM的潛在問(wèn)題,即神經(jīng)元的輸入數(shù)量可能不一致,如最后一個(gè)和字符“學(xué)”對(duì)應(yīng)的神經(jīng)元有3個(gè)輸入,其原因在于匹配的詞語(yǔ)數(shù)量有差異.

為解決上述的Lattice LSTM問(wèn)題,文獻(xiàn)[1]提出一種基于詞語(yǔ)-字符混合編碼的模型WC-LSTM,對(duì)于每個(gè)字符神經(jīng)元,增加一個(gè)固定的詞語(yǔ)信息輸入,解決了Lattice LSTM的神經(jīng)元輸入數(shù)量不一致的問(wèn)題及神經(jīng)網(wǎng)絡(luò)退化問(wèn)題,其對(duì)應(yīng)的模型如圖2所示.

圖1 BiLSTM與Lattice LSTM模型對(duì)比

圖2 基于混合編碼的WC-LSTM示例

2.3 自適應(yīng)合編碼

圖2所示的WC-LSTM的主要改進(jìn)之處是為每個(gè)字符神經(jīng)元增加了一個(gè)記錄詞語(yǔ)信息的輸入.匹配一個(gè)字符的詞語(yǔ)可能有多個(gè),我們以最后一個(gè)字符“學(xué)”為例,其匹配的詞語(yǔ)集合包括“大學(xué)”、“北京大學(xué)”,因此模型需要采用一定的策略,實(shí)現(xiàn)從匹配的詞語(yǔ)集合中挑選一個(gè)或者多個(gè)詞語(yǔ),并生成固定長(zhǎng)度的詞語(yǔ)向量.

為解決上述問(wèn)題,我們提出一種自適應(yīng)編碼,并用如下的例子解釋其主要?jiǎng)?chuàng)新點(diǎn):以“北”字為例,匹配的詞語(yǔ)集合包括{“東北”,“華北”,“山東北”}等.其中,“東北”與“山東北”兩個(gè)詞語(yǔ)在不同的語(yǔ)境中可能有不同的含義,例如“我們到達(dá)了山東北”,這句話(huà)可以理解為“我們到達(dá)了 山東北”(山東的北部),也可以理解為“我們到達(dá)了山 東北”(山的東北面).選擇哪個(gè)詞語(yǔ)取決于語(yǔ)境和語(yǔ)料庫(kù)特征.如果語(yǔ)料庫(kù)中更多的是有關(guān)山東的語(yǔ)句,則我們期望“山東北”出現(xiàn)的概率比“東北”出現(xiàn)的概率要高;反之,則“東北”出現(xiàn)的概率要比“山東北”出現(xiàn)的要高.因此,我們提出的自適應(yīng)的含義在于可以依據(jù)語(yǔ)料庫(kù)的全局統(tǒng)計(jì)特征而傾向于選擇最合適的詞語(yǔ).

自適應(yīng)編碼的正式定義如下:

定義兩個(gè)集合:

基于以上的自適應(yīng)編碼定義,一個(gè)基于自適應(yīng)混合編碼LSTM定義如下:

我們?cè)贚STM后添加一個(gè)CRF層,并使用Viterbi算法用來(lái)對(duì)CRF的輸出進(jìn)行解碼,具體算法見(jiàn)文獻(xiàn)[1].

3 實(shí)驗(yàn)結(jié)果與分析

在2個(gè)真實(shí)語(yǔ)料庫(kù)對(duì)比本文提出的自適應(yīng)混合編碼LSTM和WC-LSTM[1]:Weibo NER[8]及MSRA[9],其對(duì)應(yīng)的統(tǒng)計(jì)信息見(jiàn)表1.

由于Weibo語(yǔ)料庫(kù)記錄數(shù)較少,因此我們采取70/15/15的方式分配訓(xùn)練/調(diào)試/測(cè)試數(shù)據(jù)集,而MSRA的比例為80/10/10.MSRA是中文新聞?wù)Z料庫(kù),而Weibo語(yǔ)料庫(kù)記錄了微博網(wǎng)站上的社交媒體數(shù)據(jù).

表2展示本文提出的自適應(yīng)LSTM與WC-LSTM[1]的性能對(duì)比,可以看到基于自適應(yīng)編碼的模型在各指標(biāo)上均要優(yōu)于WC-LSTM[1],本文提出的自適應(yīng)編碼實(shí)現(xiàn)了更高的準(zhǔn)確率,同時(shí)召回率下降幅度較小,從而達(dá)到了較高的F1.

表3展示了幾種模型在Weibo語(yǔ)料庫(kù)上的性能對(duì)比.

對(duì)比表2和表3的數(shù)據(jù),我們發(fā)現(xiàn)自適應(yīng)編碼在Weibo語(yǔ)料庫(kù)上的性能提升較為明顯,準(zhǔn)確率、召回率及F1都達(dá)到了目前的最優(yōu).通過(guò)對(duì)語(yǔ)料庫(kù)及模型、實(shí)驗(yàn)結(jié)果進(jìn)行分析可見(jiàn),Weibo語(yǔ)料庫(kù)中的數(shù)據(jù)為社交媒體數(shù)據(jù),熱點(diǎn)話(huà)題、熱點(diǎn)區(qū)域、特點(diǎn)人物名字等出現(xiàn)概率較高.這些熱點(diǎn)話(huà)題、熱點(diǎn)區(qū)域、熱點(diǎn)人物詞語(yǔ)長(zhǎng)短不一,WC-LSTM[1]無(wú)法充分利用這些信息.本文提出的自適應(yīng)編碼對(duì)詞語(yǔ)長(zhǎng)度不敏感,只對(duì)詞語(yǔ)出現(xiàn)概率敏感,因此能夠更多地選擇這些詞語(yǔ)作為輔助的輸入信息碼,提升模型的性能.

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

表2 MSRA語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果對(duì)比

表3 Weibo NER語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果對(duì)比

[1] Zhang Y, Yang J. Chinese NER Using Lattice LSTM [C]/Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics, 2018:1554-1564.

[2] Hammerton J. Named Entity Recognition with Long Short-term Memory [J]., 2003(4):172-175.

[3] Huang Z, Xu W, and Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. arXiv: 1508.01991. 2015.

[4] Lample G, Balltesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition [C]/ NAACL-HLT, 2016:260-270.

[5] Liu W, Xu T, Xu Q, et al. An Encoding Strategy Based Word-Character LSTM for Chinese NER [C]/ Proceedings of NAACL-HLT, 2019:2379-2389.

[6] Chen X, Qiu X, Zhu C, et al. Long Short-term Memory Neural Networks for Chinese Word Segmentation [C]/Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015:1197-1206.

[7] Peng N, Dredze M. Improving Named Entity Recogni- tion for Chinese Social Media with Word Segmentation Representational Learning [C]/Proceedings of ACL, 2016.

[8] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings [C]/ EMNLP, 2015:548-554.

[9] Levow G. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition [C]/Proceedings of the Fifth Workshop on Chinese Language Processing, 2006:108-117.

An Adaptive Hybrid Coding Model for Chinese NER

LIU Kaiyang

()

As self-learning has its own distinctive features, LSTM has recently been widely employed to solve the Named Entity Recognition (NER) problem in Natural Language Processing (NLP), and has achieved good performance. In this paper, we propose an adaptive encoding strategy, to further improve the performance of LSTM on NER. Compared with the latest encoding strategy, our approach derives global feature of words by scanning through the entire corpus, gains insight into how to select an effective word efficiently. Besides, we enhance the ability of a LSTM to capture useful features of samples by feeding the combined information of globally selected words and character to it. Experiments on various real corpora have shown that an adaptive encoding strategy based on LSTM can significantly outperformother state-of-the-arts models.

NLP; NER; LSTM; deep learning

2019-09-02

深圳職業(yè)技術(shù)學(xué)院校級(jí)重點(diǎn)資助項(xiàng)目(6018-22K200019991)

劉凱洋,男,湖南人,博士,副教授.研究方向:大數(shù)據(jù)技術(shù)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí).

TP318

A

1672-0318(2020)01-0003-05

10.13899/j.cnki.szptxb.2020.01.001

猜你喜歡
信息模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
展會(huì)信息
一個(gè)相似模型的應(yīng)用
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 2022国产无码在线| 91在线高清视频| 无码粉嫩虎白一线天在线观看| 亚洲综合香蕉| 国产地址二永久伊甸园| 午夜视频www| 高清亚洲欧美在线看| 91在线播放免费不卡无毒| 男女性午夜福利网站| av一区二区人妻无码| 国产毛片高清一级国语 | 成人福利在线免费观看| 尤物精品国产福利网站| 99久久婷婷国产综合精| 91精品小视频| 成人福利在线免费观看| 亚洲中文字幕在线观看| 国产一区二区免费播放| 亚洲欧美另类视频| 麻豆精品国产自产在线| 99久久精品国产精品亚洲| 女同国产精品一区二区| 四虎影视国产精品| 伊人激情综合网| 午夜不卡视频| 亚洲三级视频在线观看| 国产精品偷伦视频免费观看国产| 国产性生大片免费观看性欧美| 欧美一级高清视频在线播放| 亚洲网综合| 国产精品嫩草影院av| 精品综合久久久久久97| 日韩高清成人| www.av男人.com| 国产流白浆视频| 国产一二视频| 精品无码一区二区三区在线视频| 伊人久久综在合线亚洲91| 国产精品xxx| 风韵丰满熟妇啪啪区老熟熟女| 成人av手机在线观看| 日韩av无码精品专区| 国产成人毛片| 99视频国产精品| 老司机久久精品视频| 亚洲欧美日韩中文字幕在线一区| 亚洲视频无码| 国产精品人莉莉成在线播放| 久久综合一个色综合网| 国产欧美网站| 国产精品一区在线观看你懂的| 九九视频免费在线观看| 亚洲精品无码抽插日韩| 99久久婷婷国产综合精| 亚洲成网站| 国产激爽大片在线播放| 国产在线第二页| 欧美成人日韩| 97影院午夜在线观看视频| 99九九成人免费视频精品| 欧美高清三区| 欧美日韩成人在线观看| 欧美午夜网| 国产男女免费完整版视频| 亚洲午夜福利精品无码不卡 | 日韩不卡免费视频| 五月天在线网站| 国产午夜人做人免费视频| 人妻精品全国免费视频| 2021国产乱人伦在线播放| 成人午夜免费观看| 永久在线播放| 欧洲亚洲一区| 视频一区视频二区日韩专区 | 亚洲成人黄色在线| 亚洲开心婷婷中文字幕| 精品视频免费在线| 国产v精品成人免费视频71pao| 在线国产资源| 国产无码精品在线播放| 欧美区在线播放| 亚洲一道AV无码午夜福利|