一種適用于中文NER的自適應(yīng)混合編碼模型*

2020-01-18 06:21:28劉凱洋

深圳職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2020年1期

關(guān)鍵詞：信息模型

劉凱洋

劉凱洋

（深圳職業(yè)技術(shù)學(xué)院人工智能學(xué)院，廣東深圳 518055）

由于具有特征自學(xué)習(xí)性特性，LSTM被越來(lái)越多地應(yīng)用在自然語(yǔ)言處理（NLP）中的命名實(shí)體識(shí)別（NER）領(lǐng)域，并取得較優(yōu)的性能．本文提出一種新穎的詞語(yǔ)-字符自適應(yīng)混合編碼算法，在已有的字符和詞語(yǔ)信息的基礎(chǔ)上，突破詞語(yǔ)信息的局部性限制，基于語(yǔ)料庫(kù)進(jìn)行詞語(yǔ)全局特征的提取與選擇，并將此全局特征與局部特征（字符信息）進(jìn)行疊加，幫助WC-LSTM捕獲更多的文本特征．實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果表明，與最新的WC-LSTM相比較，本文提出的自適應(yīng)編碼可以較為明顯地提升LSTM在NER上的性能．

NLP；NER；LSTM；深度學(xué)習(xí)

1 問(wèn)題概述

作為自然語(yǔ)言處理（NLP）中一個(gè)重要的領(lǐng)域，命名實(shí)體識(shí)別（Named Entity Recognition，NER）受到越來(lái)越多的關(guān)注．NER問(wèn)題可以轉(zhuǎn)換為標(biāo)簽序列標(biāo)注問(wèn)題，從而利用已有的序列標(biāo)注和預(yù)測(cè)方法，包括樸素貝葉斯方法、隱馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)等．最新的研究表明，針對(duì)常見(jiàn)的英語(yǔ)NER問(wèn)題，通過(guò)利用字符與單詞混合編碼，LSTM-CRF模型能夠取得較優(yōu)的性能[1-4]．與英文NER問(wèn)題相比較，中文NER問(wèn)題具有一些不同特性，導(dǎo)致LSTM-CRF模型的性能下降較為明顯．以“李朝陽(yáng)先生訪(fǎng)問(wèn)了北京大學(xué)”為例，因?yàn)橹形闹胁淮嬖诿黠@的詞語(yǔ)界限，如果采取先分詞的方法，則存在歧義性．例如,“李朝陽(yáng)”可能會(huì)被切分為“李”、“朝陽(yáng)”，因?yàn)槌?yáng)在漢語(yǔ)中是一個(gè)常用的詞語(yǔ)，表示早晨的太陽(yáng)或者北京的一個(gè)區(qū)．如果仍然采用英文NER中的詞語(yǔ)切分-序列標(biāo)注方法，則詞語(yǔ)切分步驟中引入的歧義性會(huì)影響后續(xù)的序列標(biāo)注步驟，可能引起錯(cuò)誤傳遞問(wèn)題從而導(dǎo)致性能下降．例如，如果“李朝陽(yáng)”被切分為“李”、“朝陽(yáng)”，則有可能被標(biāo)注為李-O，朝陽(yáng)-O或朝陽(yáng)-Loc，但是正確的標(biāo)注應(yīng)該是李朝陽(yáng)-Per．“北京大學(xué)”也存在同樣的問(wèn)題，如有可能切分為“北京”和“大學(xué)”，而不是作為一個(gè)整體對(duì)待．

最新的中文NER模型同時(shí)考慮字符信息和詞語(yǔ)信息（混合模型）[1,5-7]．這些模型在基于字符LSTM的基礎(chǔ)上，將詞語(yǔ)信息作為額外的輸入，從而提升模型性能．Lattice LSTM存在的主要問(wèn)題在于其輸入數(shù)據(jù)長(zhǎng)度可變，并在極端情況下會(huì)退化成為基于字符的LSTM．文獻(xiàn)[5]提出基于詞語(yǔ)-字符的混合編碼策略，分別是Shortest Word First、Longest Word First、Average和Self-Attention，從而改進(jìn)了Lattice LSTM的上述問(wèn)題，但只考慮了詞語(yǔ)集合的局部信息，沒(méi)有考慮詞語(yǔ)在語(yǔ)料庫(kù)中的全局信息．

本文提出一種自適應(yīng)的混合編碼方式，通過(guò)對(duì)全局信息進(jìn)行考慮，從而挑選出重要的詞語(yǔ)，提升中文NER性能．自適應(yīng)的混合編碼建立在如下的直覺(jué)感覺(jué)：給定一個(gè)詞語(yǔ)集合中，在訓(xùn)練集中出現(xiàn)概率高的詞語(yǔ)具有更多的信息量，在測(cè)試集出現(xiàn)的概率也更高．因此，我們更多的考慮這些相對(duì)出現(xiàn)概率高的詞語(yǔ)信息，從而實(shí)現(xiàn)既考慮局部信息（字符信息），同時(shí)也包含全局信息（重要詞語(yǔ)）．通過(guò)對(duì)實(shí)際語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)表明，與目前最優(yōu)文獻(xiàn)[1]的局部編碼方式相比，本文提出的自適應(yīng)混合編碼能取得較好的中文NER性能．

2 問(wèn)題定義與自適應(yīng)混合編碼

與文獻(xiàn)[5]相同，本文提出模型基于文獻(xiàn)[1]的算法，因此先引入Lattice LSTM模型定義．

2.1 BiLSTM定義

2.2 Lattice LSTM及混合編碼

如圖1中（a）和（b）所示，與BiLSTM相比較，Lattice LSTM增加了一個(gè)捕捉詞語(yǔ)信息的神經(jīng)元（圖1（b）中標(biāo)注為“w”神經(jīng)元），從而提升模型性能．圖1（b）同時(shí)也展示了Lattice LSTM的潛在問(wèn)題，即神經(jīng)元的輸入數(shù)量可能不一致，如最后一個(gè)和字符“學(xué)”對(duì)應(yīng)的神經(jīng)元有3個(gè)輸入，其原因在于匹配的詞語(yǔ)數(shù)量有差異．

為解決上述的Lattice LSTM問(wèn)題，文獻(xiàn)[1]提出一種基于詞語(yǔ)-字符混合編碼的模型WC-LSTM，對(duì)于每個(gè)字符神經(jīng)元，增加一個(gè)固定的詞語(yǔ)信息輸入，解決了Lattice LSTM的神經(jīng)元輸入數(shù)量不一致的問(wèn)題及神經(jīng)網(wǎng)絡(luò)退化問(wèn)題，其對(duì)應(yīng)的模型如圖2所示．

圖1 BiLSTM與Lattice LSTM模型對(duì)比

圖2 基于混合編碼的WC-LSTM示例

2.3 自適應(yīng)合編碼

圖2所示的WC-LSTM的主要改進(jìn)之處是為每個(gè)字符神經(jīng)元增加了一個(gè)記錄詞語(yǔ)信息的輸入．匹配一個(gè)字符的詞語(yǔ)可能有多個(gè)，我們以最后一個(gè)字符“學(xué)”為例，其匹配的詞語(yǔ)集合包括“大學(xué)”、“北京大學(xué)”，因此模型需要采用一定的策略，實(shí)現(xiàn)從匹配的詞語(yǔ)集合中挑選一個(gè)或者多個(gè)詞語(yǔ)，并生成固定長(zhǎng)度的詞語(yǔ)向量．

為解決上述問(wèn)題，我們提出一種自適應(yīng)編碼，并用如下的例子解釋其主要?jiǎng)?chuàng)新點(diǎn)：以“北”字為例，匹配的詞語(yǔ)集合包括{“東北”，“華北”，“山東北”}等．其中，“東北”與“山東北”兩個(gè)詞語(yǔ)在不同的語(yǔ)境中可能有不同的含義，例如“我們到達(dá)了山東北”，這句話(huà)可以理解為“我們到達(dá)了山東北”(山東的北部)，也可以理解為“我們到達(dá)了山東北”（山的東北面）．選擇哪個(gè)詞語(yǔ)取決于語(yǔ)境和語(yǔ)料庫(kù)特征．如果語(yǔ)料庫(kù)中更多的是有關(guān)山東的語(yǔ)句，則我們期望“山東北”出現(xiàn)的概率比“東北”出現(xiàn)的概率要高；反之，則“東北”出現(xiàn)的概率要比“山東北”出現(xiàn)的要高．因此，我們提出的自適應(yīng)的含義在于可以依據(jù)語(yǔ)料庫(kù)的全局統(tǒng)計(jì)特征而傾向于選擇最合適的詞語(yǔ)．

自適應(yīng)編碼的正式定義如下：

定義兩個(gè)集合：

基于以上的自適應(yīng)編碼定義，一個(gè)基于自適應(yīng)混合編碼LSTM定義如下：

我們?cè)贚STM后添加一個(gè)CRF層，并使用Viterbi算法用來(lái)對(duì)CRF的輸出進(jìn)行解碼，具體算法見(jiàn)文獻(xiàn)[1]．

3 實(shí)驗(yàn)結(jié)果與分析

在2個(gè)真實(shí)語(yǔ)料庫(kù)對(duì)比本文提出的自適應(yīng)混合編碼LSTM和WC-LSTM[1]：Weibo NER[8]及MSRA[9]，其對(duì)應(yīng)的統(tǒng)計(jì)信息見(jiàn)表1．

由于Weibo語(yǔ)料庫(kù)記錄數(shù)較少，因此我們采取70/15/15的方式分配訓(xùn)練/調(diào)試/測(cè)試數(shù)據(jù)集，而MSRA的比例為80/10/10．MSRA是中文新聞?wù)Z料庫(kù)，而Weibo語(yǔ)料庫(kù)記錄了微博網(wǎng)站上的社交媒體數(shù)據(jù)．

表2展示本文提出的自適應(yīng)LSTM與WC-LSTM[1]的性能對(duì)比，可以看到基于自適應(yīng)編碼的模型在各指標(biāo)上均要優(yōu)于WC-LSTM[1]，本文提出的自適應(yīng)編碼實(shí)現(xiàn)了更高的準(zhǔn)確率，同時(shí)召回率下降幅度較小，從而達(dá)到了較高的F1．

表3展示了幾種模型在Weibo語(yǔ)料庫(kù)上的性能對(duì)比．

對(duì)比表2和表3的數(shù)據(jù)，我們發(fā)現(xiàn)自適應(yīng)編碼在Weibo語(yǔ)料庫(kù)上的性能提升較為明顯，準(zhǔn)確率、召回率及F1都達(dá)到了目前的最優(yōu)．通過(guò)對(duì)語(yǔ)料庫(kù)及模型、實(shí)驗(yàn)結(jié)果進(jìn)行分析可見(jiàn)，Weibo語(yǔ)料庫(kù)中的數(shù)據(jù)為社交媒體數(shù)據(jù)，熱點(diǎn)話(huà)題、熱點(diǎn)區(qū)域、特點(diǎn)人物名字等出現(xiàn)概率較高．這些熱點(diǎn)話(huà)題、熱點(diǎn)區(qū)域、熱點(diǎn)人物詞語(yǔ)長(zhǎng)短不一，WC-LSTM[1]無(wú)法充分利用這些信息．本文提出的自適應(yīng)編碼對(duì)詞語(yǔ)長(zhǎng)度不敏感，只對(duì)詞語(yǔ)出現(xiàn)概率敏感，因此能夠更多地選擇這些詞語(yǔ)作為輔助的輸入信息碼，提升模型的性能．

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息

表2 MSRA語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果對(duì)比

表3 Weibo NER語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果對(duì)比

[1] Zhang Y, Yang J. Chinese NER Using Lattice LSTM [C]/Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics, 2018：1554-1564．

[2] Hammerton J. Named Entity Recognition with Long Short-term Memory [J]., 2003（4）：172-175．

[3] Huang Z, Xu W, and Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. arXiv: 1508.01991. 2015．

[4] Lample G, Balltesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition [C]/ NAACL-HLT, 2016：260-270．

[5] Liu W, Xu T, Xu Q, et al. An Encoding Strategy Based Word-Character LSTM for Chinese NER [C]/ Proceedings of NAACL-HLT, 2019：2379-2389．

[6] Chen X, Qiu X, Zhu C, et al. Long Short-term Memory Neural Networks for Chinese Word Segmentation [C]/Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015：1197-1206．

[7] Peng N, Dredze M. Improving Named Entity Recogni- tion for Chinese Social Media with Word Segmentation Representational Learning [C]/Proceedings of ACL, 2016．

[8] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings [C]/ EMNLP, 2015：548-554．

[9] Levow G. The Third International Chinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition [C]/Proceedings of the Fifth Workshop on Chinese Language Processing, 2006：108-117．

An Adaptive Hybrid Coding Model for Chinese NER

LIU Kaiyang

（）

As self-learning has its own distinctive features, LSTM has recently been widely employed to solve the Named Entity Recognition (NER) problem in Natural Language Processing (NLP), and has achieved good performance. In this paper, we propose an adaptive encoding strategy, to further improve the performance of LSTM on NER. Compared with the latest encoding strategy, our approach derives global feature of words by scanning through the entire corpus, gains insight into how to select an effective word efficiently. Besides, we enhance the ability of a LSTM to capture useful features of samples by feeding the combined information of globally selected words and character to it. Experiments on various real corpora have shown that an adaptive encoding strategy based on LSTM can significantly outperformother state-of-the-arts models.

NLP; NER; LSTM; deep learning

2019-09-02

深圳職業(yè)技術(shù)學(xué)院校級(jí)重點(diǎn)資助項(xiàng)目（6018-22K200019991）

劉凱洋，男，湖南人，博士，副教授．研究方向：大數(shù)據(jù)技術(shù)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)．

TP318

1672-0318（2020）01-0003-05

10.13899/j.cnki.szptxb.2020.01.001