999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文命名實(shí)體識(shí)別研究綜述

2023-02-18 07:16:10王穎潔張程燁白鳳波汪祖民季長(zhǎng)清
計(jì)算機(jī)與生活 2023年2期
關(guān)鍵詞:特征文本方法

王穎潔,張程燁,白鳳波,汪祖民+,季長(zhǎng)清,2

1.大連大學(xué) 信息工程學(xué)院,遼寧 大連116622

2.大連大學(xué) 物理科學(xué)與技術(shù)學(xué)院,遼寧 大連116622

3.中國(guó)政法大學(xué) 證據(jù)科學(xué)研究院,北京100088

命名實(shí)體識(shí)別(named entity recognition,NER)是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),主要用于識(shí)別文本中實(shí)體的類別和邊界。該任務(wù)最初是在信息理解會(huì)議(message understanding conference,MUC)任務(wù)[1]上作為實(shí)體關(guān)系分類的一個(gè)子任務(wù)被提出,其中關(guān)注的實(shí)體類型主要包括組織名、人名、地名等。命名實(shí)體識(shí)別的主要思想是先將待識(shí)別文本轉(zhuǎn)換為嵌入向量的形式,然后將嵌入向量輸入到識(shí)別模型中,最終將模型的輸出通過(guò)分類器得到實(shí)體分類的結(jié)果。將文本中的實(shí)體進(jìn)行準(zhǔn)確的劃分和分類,可以有效地為接下來(lái)關(guān)系抽取、情感分析和文本分類等下游任務(wù)提供可靠的支撐,因此,如何有效提高命名實(shí)體識(shí)別的效果,成為當(dāng)前工業(yè)界關(guān)注和研究的焦點(diǎn)。

本文從當(dāng)前中文命名實(shí)體識(shí)別的研究成果出發(fā),首先對(duì)命名實(shí)體識(shí)別各個(gè)階段的研究成果進(jìn)行了概述,同時(shí)從漢字和單詞兩個(gè)角度,對(duì)當(dāng)前中文NER 熱門(mén)的字詞特征融合方法進(jìn)行了論述和總結(jié)。然后,針對(duì)當(dāng)前中文NER 的研究成果,在模型方法優(yōu)化和模型預(yù)處理兩個(gè)優(yōu)化方向上進(jìn)行了總結(jié)。最后,對(duì)中文NER 任務(wù)中常用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)進(jìn)行了歸納和整理,并對(duì)中文NER 任務(wù)未來(lái)的研究方向和研究重點(diǎn)進(jìn)行了展望。

1 命名實(shí)體識(shí)別方法

命名實(shí)體識(shí)別的主要任務(wù)是從海量的文本數(shù)據(jù)中識(shí)別不同類型的實(shí)體。這不僅是構(gòu)建知識(shí)圖譜或智能問(wèn)答系統(tǒng)的基礎(chǔ)技術(shù)環(huán)節(jié),而且也是進(jìn)行文本信息挖掘的第一步。命名實(shí)體識(shí)別的方法按照發(fā)展歷程可以分為基于規(guī)則的方法、基于統(tǒng)計(jì)模型的方法和基于深度學(xué)習(xí)的方法三類。

1.1 基于規(guī)則的方法

基于規(guī)則的方法由于易于實(shí)現(xiàn)且無(wú)需訓(xùn)練的特點(diǎn),在早期的實(shí)體抽取任務(wù)中取得了很好的效果。基于規(guī)則的方法在已有知識(shí)庫(kù)和詞典的基礎(chǔ)上,通過(guò)特定領(lǐng)域的專家手工制定規(guī)則模板,以標(biāo)點(diǎn)符號(hào)、指示詞、位置詞、方向詞、關(guān)鍵字、中心詞等特征作為抽取的依據(jù)。常見(jiàn)的基于規(guī)則的實(shí)體抽取方式包括基于實(shí)體詞典的最大匹配算法和基于正則表達(dá)式的規(guī)則模板設(shè)計(jì)。基于規(guī)則的方法的優(yōu)點(diǎn)是在特定領(lǐng)域內(nèi)的準(zhǔn)確率高,且召回率很低,適用于數(shù)據(jù)集較小且更新不頻繁的領(lǐng)域。Feng 等人[2]針對(duì)在數(shù)據(jù)集實(shí)例較少時(shí),單一基于條件隨機(jī)場(chǎng)(conditional random field,CRF)的提取器準(zhǔn)確率和召回率效果不好的情況,將CRF、規(guī)則模板和中文實(shí)體詞典結(jié)合使用,實(shí)現(xiàn)了良好的性能。Pan[3]通過(guò)將識(shí)別規(guī)則引入統(tǒng)計(jì)方法,減少了對(duì)大規(guī)模語(yǔ)料庫(kù)的依賴。Yan[4]從實(shí)體內(nèi)部組成和上下文語(yǔ)境入手,針對(duì)姓名構(gòu)建了相應(yīng)的識(shí)別規(guī)則,極大地提高了中文人名識(shí)別的準(zhǔn)確率。但同時(shí)基于規(guī)則的方法也存在著泛化能力差、詞典構(gòu)造成本高的問(wèn)題。因此在面向海量文本數(shù)據(jù)的今天,基于規(guī)則的方法大多情況下與選用的訓(xùn)練模型結(jié)合使用,以提高模型的準(zhǔn)確率。

1.2 基于統(tǒng)計(jì)模型的方法

基于統(tǒng)計(jì)模型的方法的核心在于針對(duì)特定的研究背景來(lái)選擇合適的訓(xùn)練模型。與基于規(guī)則的方法相比,這種方法省略了諸多繁瑣的規(guī)則設(shè)計(jì),可以花費(fèi)更短的時(shí)間訓(xùn)練人工標(biāo)注的語(yǔ)料庫(kù),提高了訓(xùn)練效率。同時(shí),面對(duì)特定領(lǐng)域規(guī)則不同的問(wèn)題,基于統(tǒng)計(jì)模型的方法只需要針對(duì)特定領(lǐng)域的訓(xùn)練集,重新對(duì)模型進(jìn)行訓(xùn)練即可。因此這種方法的可移植性很高,使用方便。目前常用的模型有隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機(jī)場(chǎng)模型、支持向量機(jī)(support vector machine。SVM)和最大熵模型(maximum entropy,ME)等。而HMM 和CRF 在序列標(biāo)注領(lǐng)域效果突出,因此被廣泛應(yīng)用于實(shí)體抽取領(lǐng)域。以下對(duì)HMM 模型進(jìn)行簡(jiǎn)要的介紹。

隱馬爾可夫模型是一種針對(duì)序列標(biāo)注的概率模型,能夠通過(guò)觀測(cè)序列來(lái)預(yù)測(cè)隱含的狀態(tài)序列。它的基本思想是根據(jù)觀測(cè)序列找到隱藏的狀態(tài)序列,同時(shí)服從于齊次馬爾可夫假設(shè)和觀測(cè)獨(dú)立假設(shè)。按照所研究的基本問(wèn)題可以將其分為三類,即概率計(jì)算問(wèn)題、參數(shù)學(xué)習(xí)問(wèn)題和解碼計(jì)算問(wèn)題。

(1)概率計(jì)算,即給定模型參數(shù)λ=(A,B,π)和觀測(cè)序列Z=(z1,z2,…,zN),計(jì)算觀測(cè)序列Z的條件概率P(Z|λ)。其中A為狀態(tài)轉(zhuǎn)移矩陣,B為觀測(cè)矩陣。以前向算法為例,其流程描述如圖1 所示。

圖1 序列標(biāo)注問(wèn)題流程描述Fig.1 Description of sequence labeling problem process

設(shè)有T個(gè)序列,定義前向概率αt(i)表示t時(shí)刻的狀態(tài)以及第1,2,…,t時(shí)刻的觀測(cè)在給定參數(shù)下的聯(lián)合概率;bi(x)表示由狀態(tài)xi生成給定觀測(cè)數(shù)據(jù)的概率。經(jīng)推導(dǎo)后可得第t+1 時(shí)刻的前向概率為:

其中,aij表示在當(dāng)前時(shí)刻處于狀態(tài)xi的條件下,下一時(shí)刻轉(zhuǎn)移到狀態(tài)xj的狀態(tài)轉(zhuǎn)移概率。則觀測(cè)序列Z的條件概率為:

(2)參數(shù)學(xué)習(xí),即在給定觀測(cè)序列Z=(z1,z2,…,zN)的情況下,求模型中的最優(yōu)參數(shù)λ*:

其實(shí)質(zhì)上就是對(duì)模型進(jìn)行訓(xùn)練并調(diào)參的過(guò)程,一般通過(guò)最大期望算法進(jìn)行求解,具體的數(shù)學(xué)推導(dǎo)這里不做贅述,可以參考Rabiner[5]的文章或者其他相關(guān)書(shū)籍。

(3)解碼計(jì)算,即在給定模型參數(shù)λ=(A,B,π)和觀測(cè)序列Z=(z1,z2,…,zN)的情況下,求最可能出現(xiàn)的狀態(tài)序列X=(x1,x2,…,xN)。常用的解決方法是將其看作一個(gè)最短路徑問(wèn)題,采用Viterbi 算法的思想,首先尋找概率最大的路徑,其次在得到概率最大路徑之后,從最優(yōu)路徑終點(diǎn)開(kāi)始,回溯地尋找最優(yōu)路徑上當(dāng)前點(diǎn)的上一個(gè)點(diǎn),直到找到最優(yōu)路徑的起點(diǎn)。因此解碼計(jì)算問(wèn)題也可以認(rèn)為是一個(gè)模型預(yù)測(cè)問(wèn)題。

HMM 模型訓(xùn)練速度快,復(fù)雜度低,但容易在訓(xùn)練過(guò)程中陷入局部最優(yōu)解。為了解決標(biāo)注偏置問(wèn)題,得到序列標(biāo)注問(wèn)題的全局最優(yōu)解,Lafferty 等人[6]提出使用CRF 來(lái)解決序列標(biāo)注問(wèn)題。現(xiàn)階段存在海量的文本數(shù)據(jù),因此基于統(tǒng)計(jì)模型的實(shí)體抽取方法由于可以面向大規(guī)模語(yǔ)料而占據(jù)了一定的研究地位。Wang 等人[7]提出了一種帶有回路的條件隨機(jī)場(chǎng)(conditional random field with loop,L-CRF)來(lái)研究句子級(jí)別的序列特征,能夠?qū)ι舷挛闹g的關(guān)聯(lián)進(jìn)行更精準(zhǔn)的推斷,得到更為合理的序列。Yang 等人[8]提出了一種基于注意力機(jī)制的Attention-BiLSTM-CRF模型,發(fā)現(xiàn)在BiLSTM(bi-directional long short-term memory)層中單獨(dú)的詞特征要比單獨(dú)的字符特征好,且二者同時(shí)運(yùn)用能進(jìn)一步提高性能。Li 等人[9]將HMM 與Transformer 模型結(jié)合,增加了模型的穩(wěn)定性和魯棒性。Alnabki 等人[10]通過(guò)使用局部近鄰算法尋找語(yǔ)義上與模糊術(shù)語(yǔ)相似的標(biāo)記,與BiLSTM-CRF相結(jié)合后,F(xiàn)1 值在特定實(shí)體類型上有明顯提高。

但是基于統(tǒng)計(jì)模型的實(shí)體抽取方法也存在一定的局限性,所使用的模型只與當(dāng)前時(shí)刻的狀態(tài)和所觀察的對(duì)象有關(guān)。在模型的實(shí)際訓(xùn)練過(guò)程中,序列的標(biāo)注不僅和單獨(dú)的某個(gè)詞相關(guān),而且和這個(gè)詞所在的位置和序列總長(zhǎng)度都有關(guān)聯(lián)。因此為了與上下文進(jìn)行語(yǔ)境的結(jié)合,提出了基于深度學(xué)習(xí)的實(shí)體抽取方法。

1.3 基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)的概念由Hinton 等人于2006 年提出,起源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)覆蓋領(lǐng)域多,涉及到的知識(shí)面廣,可以解決以往的機(jī)器學(xué)習(xí)難以解決的大量問(wèn)題,但其實(shí)質(zhì)仍然是機(jī)器學(xué)習(xí)的一個(gè)子集。常見(jiàn)的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)、深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、Transformer 和BERT(bi-directional encoder representation from transformers)等。

神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)由輸入層、隱藏層、輸出層三部分組成,其中輸入層的每個(gè)神經(jīng)元(neuron)可以看作待研究對(duì)象的一個(gè)特征;隱藏層用于將輸入層傳遞的數(shù)據(jù)通過(guò)內(nèi)部的函數(shù)進(jìn)行處理后傳遞給輸出層,具體的實(shí)現(xiàn)細(xì)節(jié)對(duì)用戶透明;輸出層將隱藏層的計(jì)算結(jié)果進(jìn)行處理后輸出。其中隱藏層的層數(shù)應(yīng)當(dāng)適中,過(guò)少的層數(shù)會(huì)導(dǎo)致需要增加更多的訓(xùn)練集,而過(guò)多的層數(shù)會(huì)產(chǎn)生過(guò)擬合的現(xiàn)象。

1.3.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)隸屬于一種循環(huán)神經(jīng)網(wǎng)絡(luò),在時(shí)序數(shù)據(jù)預(yù)測(cè)、語(yǔ)音識(shí)別、文本翻譯等領(lǐng)域均表現(xiàn)出不錯(cuò)的效果。在命名實(shí)體識(shí)別領(lǐng)域,LSTM可以有效提取上下文的語(yǔ)義信息,從而能夠更好地理解文本內(nèi)容。LSTM 的單元結(jié)構(gòu)如圖2 所示。

圖2 LSTM 單元結(jié)構(gòu)Fig.2 Unit structure of LSTM model

可以看出,相較于RNN 而言,LSTM 的每個(gè)單元結(jié)構(gòu)增加了圖2 所示的遺忘門(mén)、更新門(mén)和輸出門(mén)三種門(mén)控制結(jié)構(gòu),從而解決了對(duì)上文長(zhǎng)期依賴的問(wèn)題。因此LSTM 可以具有較長(zhǎng)的短期記憶,與RNN 相比具有更好的效果。

LSTM 遺忘門(mén)的結(jié)構(gòu)如圖3(a)所示,其作用是決定上一時(shí)刻的單元狀態(tài)有多少會(huì)保留到當(dāng)前時(shí)刻。設(shè)輸入數(shù)據(jù)為i維列向量xt,上一時(shí)刻的隱藏狀態(tài)為j維列向量ht-1,則參數(shù)矩陣Wif和Whf的維度分別為j×i和j×j,偏置矩陣bif和bhf的維度均為j×1。最終,遺忘門(mén)的輸出ft的計(jì)算公式如下:

LSTM 更新門(mén)的結(jié)構(gòu)如圖3(b)所示,其作用是決定當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入有多少會(huì)更新到單元狀態(tài)中。更新門(mén)首先對(duì)輸入數(shù)據(jù)xt和上一時(shí)刻的隱藏狀態(tài)ht-1進(jìn)行計(jì)算,其中參數(shù)矩陣Wii和Wig的維度為j×i、Whi和Whg的維度為j×j,偏置矩陣bii、bhi、big、bhg的維度均為j×1。最終,更新門(mén)的輸出it和gt計(jì)算公式如下:

計(jì)算出it和gt后,即可和遺忘門(mén)的輸出ft與前一時(shí)刻的狀態(tài)Ct-1進(jìn)行計(jì)算,得到更新的單元狀態(tài)Ct,其計(jì)算公式如下:

其中⊙表示哈達(dá)瑪乘積運(yùn)算。

LSTM 輸出門(mén)的結(jié)構(gòu)如圖3(c)所示,其作用是決定從更新后的單元狀態(tài)中輸出的信息。輸出門(mén)根據(jù)輸入數(shù)據(jù)xt和上一時(shí)刻的隱藏狀態(tài)ht-1計(jì)算得到輸出門(mén)的輸出ot,其計(jì)算公式如下:

圖3 LSTM 門(mén)控結(jié)構(gòu)Fig.3 Gate control structure of LSTM model

其中參數(shù)矩陣Wio和Who的維度分別為j×i和j×j,偏置矩陣bio和bho的維度均為j×1。

最后,根據(jù)ot和更新后的單元狀態(tài)Ct,得到該時(shí)刻的輸出ht,并傳遞到下一個(gè)LSTM 單元中,ht的計(jì)算公式如下:

LSTM 相較于RNN 而言,在一定程度上解決了梯度消失和梯度爆炸問(wèn)題。但是為了更好地捕捉雙向的語(yǔ)義依賴,通常會(huì)在NER 任務(wù)中選擇使用由前項(xiàng)LSTM 和后項(xiàng)LSTM 組合而成的雙向Bi-LSTM,并與CRF 結(jié)合使用以提高識(shí)別準(zhǔn)確率。

1.3.2 中英文NER 相互借鑒關(guān)系

相對(duì)于中文命名實(shí)體識(shí)別而言,英文文本的NER 技術(shù)由于文本分詞界限清晰,相關(guān)研究起步較早,對(duì)應(yīng)的成果和產(chǎn)品均已經(jīng)處于成熟期。中文文本和英文文本同時(shí)具有相似的詞性類型和語(yǔ)法結(jié)構(gòu),因此國(guó)內(nèi)外的學(xué)者近年來(lái)逐步嘗試將英文命名實(shí)體識(shí)別的相關(guān)技術(shù)應(yīng)用到中文命名實(shí)體識(shí)別中。并且中文命名實(shí)體識(shí)別面臨的問(wèn)題在英文文本中也有類似的體現(xiàn)。例如,對(duì)于原始數(shù)據(jù)的標(biāo)注大多停留在原始的手工標(biāo)注階段,需要一種相對(duì)穩(wěn)定且可靠的標(biāo)注手段。同時(shí),隨著大數(shù)據(jù)時(shí)代的到來(lái),每天都會(huì)出現(xiàn)大量的互聯(lián)網(wǎng)新詞,需要尋找一種能夠使詞典不斷更新的方式,以避免出現(xiàn)OOV(out of vocabulary)問(wèn)題。因此,從已有的英文命名實(shí)體識(shí)別研究中尋找思路是極有必要的。

Zhao 等人[11]提出了一種多標(biāo)簽CNN 方法,將實(shí)體識(shí)別任務(wù)作為分類任務(wù)處理,在原有的輸出層上加入多標(biāo)簽機(jī)制,用于捕獲相鄰標(biāo)簽之間的相關(guān)信息,在疾病名和化合物識(shí)別任務(wù)中取得了更好的效果。Wang 等人[12]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)算法,可以在不使用外部資源的情況下,生成更加多樣化的訓(xùn)練數(shù)據(jù)擴(kuò)大數(shù)據(jù)集,同時(shí)可以自動(dòng)生成標(biāo)注。為了解決文本數(shù)據(jù)中噪聲的干擾,Aguilar 等人[13]提出了一種多任務(wù)神經(jīng)網(wǎng)絡(luò),將CNN和BiLSTM 并行使用,能夠從字詞序列、語(yǔ)法信息和地名詞典信息中學(xué)習(xí)到更高階的特征。但該方法對(duì)于實(shí)體邊界的處理效果仍然不太理想。為了解決這個(gè)問(wèn)題,Guo 等人[14]在模型中加入了注意力機(jī)制,同時(shí)針對(duì)中文語(yǔ)料,將部首嵌入集成到字符嵌入中作為輸入,以豐富語(yǔ)義信息。

在某些專業(yè)領(lǐng)域中,文本類型的語(yǔ)料庫(kù)規(guī)模較小,訓(xùn)練的效果明顯降低。針對(duì)文本數(shù)據(jù)集較少的問(wèn)題,Zhang 等人[15]提出使用GAN 模型所生成的注釋數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),同時(shí)采用光滑近似逼近思想處理離散類型的文本數(shù)據(jù),解決了標(biāo)注數(shù)據(jù)缺乏和同一實(shí)體標(biāo)注不一致的問(wèn)題。通常在處理不同領(lǐng)域的數(shù)據(jù)集時(shí),需要對(duì)模型進(jìn)行重新訓(xùn)練,在模型比較復(fù)雜且語(yǔ)料庫(kù)規(guī)模較大時(shí)會(huì)花費(fèi)大量成本。Das等人[16]基于圖聚類算法,采用無(wú)監(jiān)督方法提取語(yǔ)料庫(kù)中的實(shí)體關(guān)系,可以有效地將實(shí)體進(jìn)行分類,并且適用于一般數(shù)據(jù)集。由于實(shí)體抽取的效果依賴于前期對(duì)文檔分詞的效果,有學(xué)者提出在文檔級(jí)別對(duì)文本進(jìn)行實(shí)體抽取。Zhao 等人[17]使用基于文檔級(jí)的注意力機(jī)制,采用連續(xù)詞袋模型(continuous bag of words,CBOW)對(duì)輸入字向量進(jìn)行預(yù)訓(xùn)練,保證了實(shí)體標(biāo)簽的一致性。Yang 等人[18]將雙向RNN 與膠囊網(wǎng)絡(luò)結(jié)合,提出了文檔級(jí)的BSRU-ATTCapsNet(bi-directional simple recurrent unit-attention-based capsule network)模型,不僅可以提取文檔中復(fù)雜結(jié)構(gòu)的遠(yuǎn)距離依賴信息,而且可以從多個(gè)維度學(xué)習(xí)實(shí)體對(duì)的更深層次的關(guān)系。

相較于傳統(tǒng)的深度學(xué)習(xí)模型,預(yù)訓(xùn)練模型訓(xùn)練的時(shí)間較短,同時(shí)訓(xùn)練結(jié)果也通常優(yōu)于傳統(tǒng)模型。預(yù)訓(xùn)練模型是指已經(jīng)用數(shù)據(jù)集訓(xùn)練好的模型,在遇到相似的問(wèn)題時(shí),可以在調(diào)整模型中的參數(shù)后直接使用,大大縮短了模型訓(xùn)練的時(shí)間。目前應(yīng)用較多的主流預(yù)訓(xùn)練模型有ELMo(embedding from language model)、BERT、GPT-2(generative pretrained transformer)、ALBERT 和Transformer 等。然而,預(yù)訓(xùn)練模型的參數(shù)量并非越大越好,過(guò)多的參數(shù)量會(huì)產(chǎn)生推理速度慢、內(nèi)存空間占用大的問(wèn)題,從而增加了不必要的訓(xùn)練時(shí)間。常見(jiàn)的預(yù)訓(xùn)練模型參數(shù)量如圖4所示。

圖4 預(yù)訓(xùn)練模型參數(shù)量對(duì)比Fig.4 Comparison of parameters of pre-training model

Guo 等人[19]提出了一種字級(jí)別的中文NER 方法,將BiLSTM 和Transformer-XL(Transformer-extra long)模型結(jié)合使用,解決了Transformer 位置和方向信息缺失的問(wèn)題,大大提高了實(shí)體邊界識(shí)別的準(zhǔn)確率。Cai[20]使用多準(zhǔn)則融合方法構(gòu)建BERT-DNN-CRF 模型以挖掘語(yǔ)料庫(kù)間的共有信息,從而提高中文命名實(shí)體識(shí)別的準(zhǔn)確率和召回率。Liu 等人[21]將兩個(gè)BiLSTM 網(wǎng)絡(luò)以點(diǎn)對(duì)點(diǎn)的方式合并后與ALBERT 結(jié)合使用,提高了中文實(shí)體識(shí)別任務(wù)的細(xì)粒度,可以實(shí)現(xiàn)高精度的序列標(biāo)注,在CLUENER 2020 數(shù)據(jù)集上可以達(dá)到91.56%的準(zhǔn)確率。針對(duì)在命名實(shí)體識(shí)別時(shí)概念不夠明確或?qū)嶓w數(shù)量較少,導(dǎo)致F 值下降的問(wèn)題,Chen 等人[22]提出了一種融合BERT 的多層次司法文書(shū)實(shí)體識(shí)別模型,使用掩碼語(yǔ)言模型(Masked LM)在BERT 層進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,在中國(guó)裁判文書(shū)網(wǎng)上公開(kāi)的裁判文書(shū)訓(xùn)練中,F(xiàn)1 值達(dá)到了89.12%,明顯優(yōu)于對(duì)照模型。

2 文本預(yù)處理

2.1 序列標(biāo)注方法

序列標(biāo)注(sequence tagging)是自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù),其目標(biāo)是對(duì)句子中每個(gè)單詞的實(shí)體或詞性進(jìn)行標(biāo)注,并在此基礎(chǔ)上預(yù)測(cè)給定的文本序列中的標(biāo)簽類型。對(duì)于中文文本而言,序列標(biāo)注任務(wù)即是對(duì)文本中每一個(gè)漢字給出一個(gè)對(duì)應(yīng)的標(biāo)簽。在命名實(shí)體識(shí)別任務(wù)中,常用的序列標(biāo)注方法有三種,分別為三位序列標(biāo)注的BIO 方法、四位序列標(biāo)注的BMES 和BIOES 方法。表1 列出了標(biāo)注的標(biāo)簽類型所表示的含義。

表1 常用標(biāo)注標(biāo)簽類型含義Tabel 1 Meaning of common label annotation types

相較于BIO 方法,BIOES 方法額外提供了實(shí)體結(jié)束位置的信息,并給出了針對(duì)單字實(shí)體的標(biāo)簽,因此可以提供更多的信息;但它需要預(yù)測(cè)的標(biāo)簽更多,效果也可能因此而受到影響。在BIOES 的基礎(chǔ)上,衍生了針對(duì)于特定領(lǐng)域數(shù)據(jù)集的標(biāo)注方法BILOU 和BMEWO,其表示含義如表2 所示。

表2 BILOU 和BMEWO 標(biāo)簽類型Tabel 2 Annotation label types of BILOU and BMEWO

2.2 中文文本詞匯分割

在執(zhí)行自然語(yǔ)言處理任務(wù)中,對(duì)于整段的文本,首先需要以字或詞為單位進(jìn)行分割。分詞的準(zhǔn)確率會(huì)對(duì)下游任務(wù)產(chǎn)生直接影響,分詞產(chǎn)生的誤差也將在接下來(lái)的過(guò)程中逐級(jí)傳遞。因此,作為自然語(yǔ)言處理的基礎(chǔ),分詞是文本預(yù)處理環(huán)節(jié)的關(guān)鍵技術(shù)。

在以英語(yǔ)為代表的印歐語(yǔ)系語(yǔ)言中,每個(gè)單詞之間都以空格進(jìn)行分割,因此可以相對(duì)簡(jiǎn)單和準(zhǔn)確地提取單詞,極大地降低了文本分詞的難度。然而,中文文本將漢字作為基本單位,使用連續(xù)的字符序列進(jìn)行書(shū)寫(xiě),文本中的短語(yǔ)和詞組無(wú)法直接通過(guò)文本的外在屬性進(jìn)行切分,在一定程度上影響了分詞的準(zhǔn)確率。因此,近年來(lái)對(duì)于中文分詞(Chinese word segmentation,CWS)的研究受到了極大的關(guān)注。在國(guó)際計(jì)算語(yǔ)言協(xié)會(huì)(ACL)下屬的中文特殊興趣研究小組SIGHAN 舉辦的國(guó)際中文分詞比賽中[23-24],所使用的SIGHAN Bakeoff 2005/2008 依然是當(dāng)前中文分詞研究的主要數(shù)據(jù)集。目前對(duì)于中文分詞任務(wù),主要采用開(kāi)源的中文分詞系統(tǒng)進(jìn)行處理。圖5 列出了主要采用的中文分詞系統(tǒng)及其特性,并通過(guò)四類數(shù)據(jù)測(cè)試了不同分詞系統(tǒng)的分詞準(zhǔn)確度。

圖5 不同分詞系統(tǒng)對(duì)比Fig.5 Comparison of different word segmentation systems

CWS 方法分為兩類:基于詞典的方法[25],根據(jù)預(yù)先定義的分詞規(guī)則,從字符串中切出單詞,然后與詞典中的單詞匹配以完成分詞。基于詞典的方法簡(jiǎn)單有效,但這種方法無(wú)法處理不在詞匯表中的單詞,同時(shí)對(duì)于多義詞的切分效果不佳。基于統(tǒng)計(jì)的方法,依賴于從語(yǔ)料庫(kù)中學(xué)習(xí)的統(tǒng)計(jì)模型或特征[26-27],本質(zhì)是將分詞視為一個(gè)概率最大化問(wèn)題。統(tǒng)計(jì)方法在表外詞識(shí)別和多義詞分割方面有了很大的改進(jìn),但其分詞性能依賴于訓(xùn)練語(yǔ)料庫(kù)的質(zhì)量。并且基于統(tǒng)計(jì)的方法對(duì)于一些共現(xiàn)頻率高的單字符詞的識(shí)別精度較差,大多情況下有較高的時(shí)間復(fù)雜度。近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的連續(xù)小波分解方法,由于其非線性映射能力、自學(xué)習(xí)能力以及有效減少特征工程工作量的優(yōu)勢(shì),多次被用于解決CWS 問(wèn)題[28-30]。

中文分詞相較于英文分詞,存在著以下四個(gè)難點(diǎn):第一,在漢語(yǔ)中,同一個(gè)漢字在不同的語(yǔ)境中可能有不同的語(yǔ)義;第二,漢語(yǔ)中的詞不僅可以是一個(gè)字符,也可以由兩個(gè)或多個(gè)字符組成;第三,漢語(yǔ)句子中的每個(gè)字之間處于緊密連接的狀態(tài),詞組之間沒(méi)有明顯的切分特點(diǎn)和詞性變化;第四,許多新詞匯的出現(xiàn)和中英文混合詞匯的加入給分詞帶來(lái)了挑戰(zhàn)。針對(duì)上述問(wèn)題,國(guó)內(nèi)外的學(xué)者展開(kāi)了深入研究。

Wang 等人[31]和Li 等人[32]利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),自動(dòng)學(xué)習(xí)和提取CWS 深度特征,極大地降低了傳統(tǒng)機(jī)器學(xué)習(xí)序列標(biāo)記模型中,稀疏特征向量和維數(shù)過(guò)大導(dǎo)致內(nèi)存和計(jì)算資源的浪費(fèi)。對(duì)于跨域CWS,Zhang 等人[33]提出了一種用于聯(lián)合CWS 和詞性標(biāo)記的監(jiān)督域自適應(yīng)方法。Qiu 等人[34]基于連續(xù)小波分解方法,提出了一種使用雙傳播算法自動(dòng)挖掘小說(shuō)名詞實(shí)體的方法。Zhang 等人[35]將外部字典集成到CWS 模型中,提高了跨域CWS 的準(zhǔn)確率。

作為一種替代表示學(xué)習(xí)模型,自注意力網(wǎng)絡(luò)(self-attention network,SAN)[36]已被證明對(duì)一系列自然語(yǔ)言處理任務(wù)非常有效,例如機(jī)器翻譯[37]、選區(qū)解析[38]、語(yǔ)義角色標(biāo)記[39]和語(yǔ)言建模[40-42]。Gan 等人[43]首次使用SAN 模型處理CWS 任務(wù),不僅可以實(shí)現(xiàn)高度并行化,而且在域內(nèi)和跨域中文分詞數(shù)據(jù)集上都能夠?qū)崿F(xiàn)良好的效果。然而,現(xiàn)有的中文自動(dòng)分詞研究成果還不能完全滿足實(shí)際應(yīng)用的需要。在一些專業(yè)領(lǐng)域中,對(duì)于分詞規(guī)范化、分詞歧義、非語(yǔ)料庫(kù)詞識(shí)別、分詞順序等問(wèn)題,仍然需要進(jìn)一步研究。

2.3 中文NER 任務(wù)常用數(shù)據(jù)集

為了準(zhǔn)確地評(píng)估中文NER 模型識(shí)別的效果,研究人員嘗試采用一種可以通過(guò)理論證明的模型評(píng)價(jià)方法。在通常情況下,同一模型在不同環(huán)境下的效果存在較大的差異,因此需要提供一個(gè)基準(zhǔn)評(píng)估數(shù)據(jù)集,從而客觀地評(píng)價(jià)當(dāng)前模型的實(shí)體識(shí)別效果,進(jìn)而開(kāi)展下一步模型分析和改進(jìn)的研究。

對(duì)于中文命名實(shí)體識(shí)別任務(wù)而言,數(shù)據(jù)集中標(biāo)簽的標(biāo)注準(zhǔn)確率可以對(duì)模型的識(shí)別效果產(chǎn)生很大的影響。圖6 列出了近年來(lái)在中文命名實(shí)體識(shí)別任務(wù)中常用的數(shù)據(jù)集,并列舉了其年份、來(lái)源和實(shí)體類型數(shù)量。

圖6 中文NER 常用數(shù)據(jù)集Fig.6 Commonly used Chinese NER datasets

2.4 模型評(píng)價(jià)指標(biāo)

模型在構(gòu)建完成后,需要對(duì)其執(zhí)行結(jié)果進(jìn)行評(píng)估。模型評(píng)估不僅為了確認(rèn)該模型是否符合實(shí)際的需求,而且在評(píng)估的同時(shí),模型的參數(shù)和特征值都需要根據(jù)評(píng)估結(jié)果進(jìn)行相應(yīng)的修正,從而對(duì)模型進(jìn)一步優(yōu)化。對(duì)于同一個(gè)模型,需要從各個(gè)角度進(jìn)行評(píng)估,而非從某個(gè)單一的角度判斷其性能優(yōu)劣。當(dāng)多種模型進(jìn)行橫向?qū)Ρ葧r(shí),使用不同的評(píng)價(jià)方法往往會(huì)導(dǎo)致不一樣的測(cè)試結(jié)論。因此,在評(píng)估具體模型時(shí),評(píng)估結(jié)果的好壞通常是相對(duì)的。總體而言,模型的好壞不僅取決于測(cè)試數(shù)據(jù)的質(zhì)量和使用算法的性能,還決定于所完成任務(wù)的具體需求。

在知識(shí)抽取任務(wù)中,常見(jiàn)的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(precision)、召回率(recall)和F 值(F-score),這三個(gè)指標(biāo)常被用來(lái)衡量所采用的知識(shí)抽取系統(tǒng)的性能。由于在二元分類任務(wù)中,預(yù)測(cè)結(jié)果和真實(shí)情況之間存在四種不同的組合,即預(yù)測(cè)為正例的正樣本TP、預(yù)測(cè)為正例的負(fù)樣本FP、預(yù)測(cè)為負(fù)例的正樣本FN 和預(yù)測(cè)為負(fù)例的負(fù)樣本TN,這四者組成了二元分類任務(wù)的混淆矩陣(confusion matrix)。

準(zhǔn)確率:指在所有預(yù)測(cè)為正例的樣本中,真實(shí)值也為正例的概率。

召回率:指在真實(shí)值的所有正樣本中預(yù)測(cè)為正例的概率。

F 值:用來(lái)衡量二分類模型精確度的一種指標(biāo),當(dāng)準(zhǔn)確率和召回率發(fā)生相互矛盾的情況時(shí),可以同時(shí)兼顧分類模型的精確率和召回率兩個(gè)評(píng)價(jià)指標(biāo)。

當(dāng)準(zhǔn)確率和召回率都很重要時(shí),可以認(rèn)為二者有相同的權(quán)重,即β=1,則稱此時(shí)的F 值為F1 值。

模型的評(píng)估檢驗(yàn)方式眾多,以下對(duì)其中常用的三種檢驗(yàn)方式進(jìn)行介紹。

(1)Holdout檢驗(yàn)

Holdout檢驗(yàn)是一種最為簡(jiǎn)單也最為直接的驗(yàn)證方法。它將原始的數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和驗(yàn)證集兩個(gè)互斥的集合。這種方式的缺點(diǎn)也很明顯,計(jì)算出來(lái)的評(píng)估指標(biāo)與劃分方式有很大的關(guān)系,并且當(dāng)數(shù)據(jù)集中數(shù)據(jù)不平衡時(shí),無(wú)法進(jìn)行劃分。為了消除這種隨機(jī)性,引入了交叉檢驗(yàn)的方式。

(2)交叉檢驗(yàn)

交叉驗(yàn)證的核心思想是在已有數(shù)據(jù)集規(guī)模較小的情況下重復(fù)使用數(shù)據(jù)。首先對(duì)數(shù)據(jù)集進(jìn)行切分,并將切分后的子集歸為訓(xùn)練集和測(cè)試集兩類,最終基于訓(xùn)練集和測(cè)試集反復(fù)進(jìn)行模型的訓(xùn)練和優(yōu)化,從而對(duì)模型進(jìn)行檢驗(yàn)。從數(shù)據(jù)切分的方式上看,交叉檢驗(yàn)分為簡(jiǎn)單交叉驗(yàn)證和K-fold交叉驗(yàn)證兩種方式。

簡(jiǎn)單交叉驗(yàn)證首先將給定的數(shù)據(jù)劃分為訓(xùn)練集與測(cè)試集兩部分,接著用訓(xùn)練集在不同的條件下對(duì)模型進(jìn)行n次訓(xùn)練,從而得到n個(gè)不同的模型;最后在測(cè)試集上對(duì)當(dāng)前n個(gè)模型進(jìn)行測(cè)試,計(jì)算其測(cè)試誤差,并選取誤差最小的模型作為最優(yōu)訓(xùn)練模型。

K-fold 交叉驗(yàn)證首先將全部樣本劃分成k個(gè)大小相等的樣本子集;接著依次遍歷這k個(gè)子集,每次遍歷利用k-1 個(gè)子集的數(shù)據(jù)作為訓(xùn)練集,余下的子集作為測(cè)試集,進(jìn)行模型的調(diào)參和優(yōu)化;最后把k次評(píng)估指標(biāo)的平均值作為最終的評(píng)估指標(biāo)。

(3)自助檢驗(yàn)法

不管是Holdout 檢驗(yàn)還是交叉檢驗(yàn),其原理都是基于劃分訓(xùn)練集和測(cè)試集的方法來(lái)進(jìn)行模型評(píng)估。然而在實(shí)際情況中,訓(xùn)練數(shù)據(jù)集的規(guī)模通常較小,因此無(wú)論如何進(jìn)行劃分都會(huì)減少訓(xùn)練集的規(guī)模,從而影響模型的訓(xùn)練效果。此時(shí)基于自主采樣的自助法成為了目前針對(duì)小規(guī)模樣本模型評(píng)估的主流選擇。

自助法首先對(duì)總數(shù)為N的樣本集合進(jìn)行N次有放回的隨機(jī)抽樣,根據(jù)抽樣結(jié)果得到大小為N的訓(xùn)練集。由于采樣過(guò)程隨機(jī),必定會(huì)存在從未被抽取的樣本。自助法將這些沒(méi)有被抽取過(guò)的樣本作為驗(yàn)證集,進(jìn)行模型驗(yàn)證。

當(dāng)采用自助法進(jìn)行模型評(píng)估時(shí),訓(xùn)練數(shù)據(jù)集越大,其訓(xùn)練集和驗(yàn)證集的比例越會(huì)趨近于一個(gè)穩(wěn)定值。其證明過(guò)程如下:

由于在一次抽樣過(guò)程中,某一樣本未被抽中的概率Pval為:

則N次抽樣均未被抽中的概率為:

當(dāng)訓(xùn)練集較大時(shí),N可以視作趨近于無(wú)窮大,則當(dāng)樣本數(shù)較大時(shí)有:

也即當(dāng)樣本數(shù)很大時(shí),樣本中約有36.8%的數(shù)據(jù)會(huì)作為驗(yàn)證集使用。

3 中文字詞特征融合

傳統(tǒng)的中文命名實(shí)體識(shí)別方法根據(jù)固定的轉(zhuǎn)換編碼,將每個(gè)漢字轉(zhuǎn)換為特征向量輸入到網(wǎng)絡(luò)模型中。然而,這種方法存在著較為嚴(yán)重的局限性。首先,該類方法僅利用了漢字自身的特征,并沒(méi)有結(jié)合字在詞中的位置信息,會(huì)導(dǎo)致出現(xiàn)上下文語(yǔ)義缺失的問(wèn)題。同時(shí),與英文單詞不同,漢字自身具有豐富的象形特征,而這種固有的特征信息并沒(méi)有被充分利用。為了解決上述問(wèn)題,在中文特征融合這一方面有超過(guò)百篇的文章來(lái)討論如何解決語(yǔ)義缺失問(wèn)題。根據(jù)所融合的特征對(duì)象進(jìn)行劃分,大體上可以分為兩類特征融合:詞語(yǔ)特征融合和漢字特征融合。

3.1 詞語(yǔ)特征融合

在中文文本中,分詞的錯(cuò)誤引起的錯(cuò)誤傳播會(huì)導(dǎo)致命名實(shí)體識(shí)別的效果變差,使用常規(guī)的通用分詞方法甚至?xí)?dǎo)致基于詞語(yǔ)的NER 方法的準(zhǔn)確率低于基于字符的方法[44]。因此,為了有效利用單詞序列信息,可以采用一種格結(jié)構(gòu)[45]進(jìn)行處理,通過(guò)詞開(kāi)始和結(jié)束的字符來(lái)確定所在的位置。該方法的主要缺點(diǎn)在于只適用于LSTM 模型,存在一定的信息損失且無(wú)法使用GPU 進(jìn)行并行化計(jì)算。

為了解決這些問(wèn)題,Sui 等人[46]構(gòu)建了三種不同的字詞連接圖網(wǎng)絡(luò),并使用生成式對(duì)抗網(wǎng)絡(luò)提取三種圖網(wǎng)絡(luò)中的前n個(gè)字符節(jié)點(diǎn)的特征,證明了該方法可以有效避免詞級(jí)別特征融合時(shí)的信息損失。為了避免信息損失而導(dǎo)致的詞沖突問(wèn)題,Gui 等人[47]將中文NER 視為一個(gè)圖節(jié)點(diǎn)分類任務(wù),通過(guò)圖結(jié)構(gòu)實(shí)現(xiàn)局部信息的聚合,并增加全局節(jié)點(diǎn)進(jìn)行全局信息融入。Ma 等人[48]將特定長(zhǎng)度的單詞放在特定的層中,并加入整個(gè)句子的語(yǔ)境信息和更高維度的信息,不僅減少了單詞之間的沖突,而且實(shí)現(xiàn)了模型的并行計(jì)算。Kong 等人[49]將每個(gè)字能夠?qū)?yīng)的標(biāo)簽匯成一個(gè)分詞標(biāo)簽嵌入向量,在融合詞典的嵌入向量與字向量直接連接,可以極大地提高訓(xùn)練速度。

為了捕捉長(zhǎng)距離的依賴,Transformer 模型采用了自注意力機(jī)制以保持位置信息。由于自注意力機(jī)制具有無(wú)偏性,可以使用位置向量來(lái)提取位置信息。Li 等人[50]根據(jù)自注意力機(jī)制的無(wú)偏性,對(duì)文獻(xiàn)[45]的結(jié)構(gòu)進(jìn)行了重構(gòu)。具體而言,該方法對(duì)于所有漢字和詞都提供了一個(gè)位置向量,以包含其開(kāi)始和結(jié)束位置。因此,所提出的FLAT(flat lattice transformer)模型可以直接實(shí)現(xiàn)字符與所匹配的全部詞匯的交互。

3.2 漢字特征融合

作為世界上最古老的文字之一,漢字由于其濃縮性和聯(lián)想性的特點(diǎn),使得單一漢字可以包含極大數(shù)量的隱含信息。與其他語(yǔ)言相同,漢字的語(yǔ)義會(huì)隨著說(shuō)話者的語(yǔ)氣、說(shuō)話的時(shí)間和場(chǎng)合以及上下文語(yǔ)境的不同而變化。同時(shí),漢字作為一種象形文字,文字本身也蘊(yùn)含著大量的特征信息,例如漢字的筆畫(huà)、筆順、偏旁部首以及語(yǔ)調(diào)。這些特征信息交融在一起,共同構(gòu)成了漢字豐富的語(yǔ)義信息。在Zhang 等人[51]的研究中已經(jīng)證明,筆畫(huà)、結(jié)構(gòu)和拼音相似的漢語(yǔ)單詞具有相似的語(yǔ)義。因此,對(duì)漢字的固有字形特征進(jìn)行提取是很有必要的。在現(xiàn)有的研究中,主流方法包括融合漢字字形特征、漢字筆畫(huà)特征、漢字偏旁特征和漢字讀音特征等。

3.2.1 漢字字形特征

基于傳統(tǒng)的命名實(shí)體識(shí)別方法,Li等人[52]結(jié)合漢字的詞性特征,對(duì)中文文本進(jìn)行命名實(shí)體識(shí)別,并證明了詞性特征可以有效提高中文命名實(shí)體識(shí)別的準(zhǔn)確率。作為一種象形文字,漢字自身固有的形態(tài)也可以視作一種特征。因此有學(xué)者嘗試將漢字視為圖像進(jìn)行處理[53]。

Su 等人[54]對(duì)漢字的位圖進(jìn)行處理,通過(guò)自動(dòng)編碼器直接從字符的位圖中學(xué)習(xí),并依據(jù)漢字圖向量進(jìn)行語(yǔ)義增強(qiáng)。Meng 等人[55]使用了一種改進(jìn)的CNN 處理漢字位圖,有效提高了模型的泛化性。

3.2.2 漢字筆畫(huà)特征

為了得到單詞和字符是如何構(gòu)造的先驗(yàn)假設(shè),以自動(dòng)獲取與漢語(yǔ)單詞相關(guān)的有意義的潛在表示,有學(xué)者提出利用漢語(yǔ)單詞所傳達(dá)的筆畫(huà)信息,來(lái)捕捉單詞的形態(tài)和語(yǔ)義信息。Cao 等人[56]首次提出了使用漢字的筆畫(huà)特征信息進(jìn)行語(yǔ)義增強(qiáng)的思想,將漢字筆畫(huà)分為五種不同的類型,并為每個(gè)筆畫(huà)分配一個(gè)整數(shù)類型的ID 值作為特征標(biāo)識(shí)。實(shí)驗(yàn)證明引入筆畫(huà)特征后可以得到更好的中文實(shí)體識(shí)別效果。Zhang 等人[57]對(duì)中文和日文的筆畫(huà)特征進(jìn)行特征提取和比對(duì),并應(yīng)用在機(jī)器翻譯中,識(shí)別率得到了顯著提高。

3.2.3 漢字偏旁特征

在中文文本中,漢字的偏旁是由筆畫(huà)所組成,因此可以包含筆畫(huà)特征的一部分特征信息。同時(shí),漢字的偏旁在一定程度上可以反映漢字所屬的類別。由此可見(jiàn),對(duì)漢字的偏旁特征進(jìn)行提取可以實(shí)現(xiàn)更好的識(shí)別效果。

Sun 等人[58]通過(guò)使用漢字的詞根特征,在中文命名實(shí)體識(shí)別任務(wù)中的識(shí)別率得到了顯著提高。同時(shí),Shao 等人[59]也通過(guò)實(shí)驗(yàn)證明,在中文自然語(yǔ)言的理解任務(wù)中,對(duì)詞根和偏旁這類漢字的固有特征進(jìn)行提取可以起到良好的改進(jìn)作用。

在文獻(xiàn)[55-56]的基礎(chǔ)上,Chen 等人[60]對(duì)漢字的偏旁特征進(jìn)行提取,并結(jié)合GRU-GatedConv(gated recurrent unit with gated convolution)網(wǎng)絡(luò),在公開(kāi)數(shù)據(jù)集上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明提取偏旁特征對(duì)中文命名實(shí)體識(shí)別起到了積極的作用。在中醫(yī)領(lǐng)域,Yang 等人[61]將筆畫(huà)特征和偏旁特征結(jié)合使用進(jìn)行命名實(shí)體識(shí)別,其F1 值高于單獨(dú)使用筆畫(huà)特征或偏旁特征。

3.2.4 漢字讀音特征

在中文文本中,即使是同樣的漢字,在不同的語(yǔ)境下所代表的含義也有所差異,有的時(shí)候甚至代表了完全相反的含義。其中,漢字的讀音在一定程度上可以反映說(shuō)話人的情感或所處語(yǔ)境的類型。同時(shí),從語(yǔ)言學(xué)的角度來(lái)看,口語(yǔ)是一種更直接的語(yǔ)義表達(dá),文本只有作為口語(yǔ)的記錄時(shí)才具有實(shí)際意義。因此,漢字的讀音也作為漢字的固有特征之一,得到了廣泛的研究。

Zhang 等人[51]在Cao 等人[56]研究的基礎(chǔ)上,將漢字的拼音特征嵌入到漢字的特征向量中,并通過(guò)實(shí)驗(yàn)證明了融合拼音特征、字形特征和偏旁特征的識(shí)別準(zhǔn)確率高于僅使用字形特征和偏旁特征。Zhu 等人[62]在漢語(yǔ)文本中引入漢字的讀音特征向量,并采用相同的模型進(jìn)行比對(duì),結(jié)果表明讀音特征的引入對(duì)文本的識(shí)別可以起到良好的改進(jìn)效果。Chaudhary等人[63]同樣將漢字的拼音特征融入網(wǎng)絡(luò)模型中,使模型的識(shí)別效果得到顯著的提升。Zhang 等人[64]結(jié)合上述特征,將漢字的結(jié)構(gòu)、偏旁、筆畫(huà)和拼音特征融合到漢字的字符向量中,并通過(guò)設(shè)計(jì)特征子序列來(lái)學(xué)習(xí)這些特征之間的相關(guān)性。該方法在融合了四種漢字固有特征后,在中文命名實(shí)體識(shí)別任務(wù)和文本分類任務(wù)中的結(jié)果均優(yōu)于目前最先進(jìn)的方法。

4 中文命名實(shí)體識(shí)別方法改進(jìn)

中文命名實(shí)體識(shí)別相較于英文而言,首先面臨的問(wèn)題就是如何對(duì)文本中的詞語(yǔ)進(jìn)行正確的分割。同時(shí)中文的詞語(yǔ)數(shù)量龐大,且更新速度快,時(shí)效性較強(qiáng),因此基于詞典的模型往往會(huì)出現(xiàn)無(wú)法識(shí)別新詞的問(wèn)題。并且一詞多義和多音字的問(wèn)題在中文文本中廣泛存在,需要進(jìn)行特殊的標(biāo)記處理。最后,對(duì)于識(shí)別性能較好的模型,需要對(duì)其中的算法進(jìn)行優(yōu)化,以縮短模型的訓(xùn)練時(shí)間和模型泛化性。

4.1 模型結(jié)構(gòu)優(yōu)化

近年來(lái),基于深度學(xué)習(xí)的模型逐漸成為命名實(shí)體識(shí)別主流的解決方案。與基于特征的方法[65]相比,基于深度學(xué)習(xí)的模型有助于發(fā)現(xiàn)文本中隱含的深層特征。根據(jù)單詞在句子中的形式,可以把基于深度學(xué)習(xí)的模型分為處理字和處理詞兩類。

對(duì)于處理字的模型,輸入的句子被視為一個(gè)字符序列,該序列通過(guò)相應(yīng)模型結(jié)構(gòu),輸出各個(gè)字符對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽。Peters等人[66]提出了ELMO 模型對(duì)中文文本進(jìn)行處理,該模型在具有字符卷積的兩層雙向語(yǔ)言模型的基礎(chǔ)上計(jì)算,具有較高的準(zhǔn)確率。對(duì)于處理詞的模型,輸入的每個(gè)單詞都由其單詞嵌入表示。Yadav 等人[67]提出了一個(gè)詞級(jí)別LSTM 結(jié)構(gòu),并使用CRF 層處理預(yù)測(cè)的標(biāo)簽向量以提高模型性能,在CoNLL 2003 數(shù)據(jù)集上獲得了84.26%的F1 分?jǐn)?shù)。在實(shí)際的應(yīng)用環(huán)境中,需要減少模型的訓(xùn)練時(shí)間,針對(duì)這個(gè)問(wèn)題,Yohannes 等人[68]使用CNN 進(jìn)行語(yǔ)義信息的降維,極大地減少了模型的參數(shù)量。

在醫(yī)學(xué)命名實(shí)體識(shí)別領(lǐng)域,Xie 等人[69]使用skipgram 編碼引入漢字詞匯特征,在CCKS 2019 公開(kāi)數(shù)據(jù)集中取得了較好的醫(yī)學(xué)實(shí)體識(shí)別效果。Lee 等人[70]基于一種改進(jìn)的圖神經(jīng)網(wǎng)絡(luò),并結(jié)合多特征融合方法,在保證模型識(shí)別效果的情況下提高了模型的識(shí)別效率。華為諾亞方舟實(shí)驗(yàn)室首創(chuàng)了一種預(yù)訓(xùn)練語(yǔ)言模型哪吒NEZHA[71],該模型首次使用了函數(shù)式相對(duì)位置編碼。通過(guò)對(duì)比實(shí)驗(yàn)可發(fā)現(xiàn),采用了函數(shù)式相對(duì)位置編碼的方式明顯優(yōu)于其他位置的編碼方式。

4.2 基于BERT 的預(yù)處理方法

BERT 是在2018 年由谷歌公司的Devlin 等人[40]提出的一種基于深度學(xué)習(xí)的語(yǔ)言表示模型,其主要的模型結(jié)構(gòu)是Transformer 編碼器。BERT 模型使用掩詞模型和相鄰句預(yù)測(cè)兩個(gè)方法完成文本字詞特征的預(yù)訓(xùn)練。其中,掩詞模型通過(guò)將單詞掩蓋,從而學(xué)習(xí)其上下文內(nèi)容特征,來(lái)預(yù)測(cè)被掩蓋的單詞;相鄰句預(yù)測(cè)通過(guò)學(xué)習(xí)句子間關(guān)系特征,預(yù)測(cè)兩個(gè)句子的位置是否是相鄰的。由于BERT 在做文本處理類任務(wù)時(shí),不需要對(duì)模型做過(guò)多修改,在中文命名實(shí)體識(shí)別的研究中受到了廣泛的關(guān)注。谷歌公司在2018 年發(fā)布了用于處理中文文本的BERT 模型,該模型僅含有1.1×108的參數(shù)量,并可以識(shí)別簡(jiǎn)體中文和繁體中文。該模型一經(jīng)問(wèn)世,便有眾多學(xué)者嘗試將它用于中文命名實(shí)體識(shí)別任務(wù)中。

Li 等人[72]將外部詞典知識(shí)直接集成到BERT 層中,實(shí)現(xiàn)詞典增強(qiáng)型BERT 做預(yù)訓(xùn)練。直接使用BERT 雖然可以提升識(shí)別的準(zhǔn)確率,但是由于BERT內(nèi)部參數(shù)過(guò)多,會(huì)導(dǎo)致內(nèi)存不足和訓(xùn)練時(shí)間過(guò)長(zhǎng)等問(wèn)題。因此,Lan 等人[73]提出了一種簡(jiǎn)化的BERT 模型ALBERT,該模型使用跨層參數(shù)共享方法,在略微犧牲模型性能的情況下極大地減少了模型的參數(shù)量和訓(xùn)練時(shí)間。Xiong等人[74]將ALBERT 和雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合,并用于中國(guó)政府公文的處理,在各類政府文書(shū)實(shí)體上均實(shí)現(xiàn)了良好的識(shí)別效果。

在醫(yī)學(xué)領(lǐng)域,同樣開(kāi)展了一系列關(guān)于醫(yī)學(xué)中文實(shí)體識(shí)別的研究。Wen 等人[75]使用BERT 對(duì)中醫(yī)文本進(jìn)行了實(shí)體識(shí)別,根據(jù)比對(duì)識(shí)別效果,證明了預(yù)訓(xùn)練的語(yǔ)言模型在中醫(yī)命名實(shí)體識(shí)別任務(wù)中的有效性。Xiao 等人[76]對(duì)多源詞典信息進(jìn)行了融合,不僅提高了中醫(yī)實(shí)體識(shí)別的效果,而且模型具有良好的領(lǐng)域遷移性。Zhang 等人[77]將字符與所對(duì)應(yīng)的詞匯相結(jié)合,在CCKS 2019數(shù)據(jù)集中實(shí)現(xiàn)了84.98%的F1值。

對(duì)于臨床醫(yī)療診斷文本,Zhu 等人[78]將多個(gè)Bi-LSTM 模型與BERT 結(jié)合,并通過(guò)實(shí)驗(yàn)證明以交錯(cuò)的方式堆疊Bi-LSTM 模型相對(duì)于直接堆疊可以實(shí)現(xiàn)更好的識(shí)別效果,并可以花費(fèi)更少的訓(xùn)練時(shí)間。針對(duì)臨床醫(yī)療診斷文本標(biāo)注量少的問(wèn)題,Chen 等人[79]結(jié)合BERT 模型,采用半監(jiān)督方法進(jìn)行訓(xùn)練,減少了對(duì)大量標(biāo)記數(shù)據(jù)的依賴。同時(shí),對(duì)比研究表明,在已有模型的基礎(chǔ)上,使用BERT 模型作為編碼器進(jìn)行預(yù)訓(xùn)練,可以在醫(yī)學(xué)實(shí)體的識(shí)別任務(wù)中取得良好的效果。表3 列出了在CCKS 2020 數(shù)據(jù)集上表現(xiàn)良好的幾種模型,其相應(yīng)的實(shí)現(xiàn)效果使用F1 值作為評(píng)價(jià)指標(biāo)[80-83]。

表3 基于BERT 的模型在CCKS 2020 上的效果Tabel 3 Effect of BERT-based models on CCKS 2020

4.3 實(shí)際應(yīng)用優(yōu)化

相對(duì)于實(shí)驗(yàn)環(huán)境中的理想情況,實(shí)際工程應(yīng)用中的因果結(jié)構(gòu)常常會(huì)存在各種偽相關(guān)的路徑。由于預(yù)訓(xùn)練數(shù)據(jù)和所使用測(cè)試集之間的偽相關(guān)性,預(yù)訓(xùn)練模型會(huì)對(duì)特定標(biāo)簽有一定的預(yù)測(cè)偏好。一旦對(duì)預(yù)訓(xùn)練數(shù)據(jù)或測(cè)試集進(jìn)行很小的干預(yù),性能就會(huì)迅速下降,極大地影響命名實(shí)體識(shí)別的準(zhǔn)確率。同時(shí),同一概念可以存在多種表達(dá)方式,這也導(dǎo)致了預(yù)訓(xùn)練模型在不同測(cè)試集上的效果極不穩(wěn)定。目前主流的方法是在文本中引入更多的信息,主要分為加入示例的類比信息[84]和加入上下文推理信息[85]兩類。

加入上下文推理信息是指在原有基礎(chǔ)上,增加通過(guò)檢索得到的相關(guān)上下文[86]。上下文推理信息分為顯式和隱式兩種推理方式。顯式推理指上下文中已經(jīng)包含了答案的詞語(yǔ);隱式推理指上下文中雖然沒(méi)有明確給出具體的答案,但是同樣可以根據(jù)詞性等方式預(yù)測(cè)答案。這種方式可以對(duì)文本的各種表述有更高的適應(yīng)能力,在一定程度上提高模型的預(yù)測(cè)穩(wěn)定性。加入示例的類比信息是指在原有基礎(chǔ)上,增加一些示范性的樣例[87]。這種方式可以借助示例的類比,幫助模型更好地識(shí)別實(shí)體類別,同時(shí)也提升了答案的類別準(zhǔn)確率,從而提升了NER的準(zhǔn)確率[88]。這種方式也存在著不足之處。所加入的示例只能幫助預(yù)訓(xùn)練模型更好地識(shí)別實(shí)體的類別,對(duì)于某一個(gè)類別內(nèi)部的實(shí)體識(shí)別效果,并沒(méi)有實(shí)質(zhì)性的提升。并且,預(yù)測(cè)偏好的問(wèn)題在示例類比過(guò)程中同樣存在。預(yù)訓(xùn)練模型同樣傾向于選擇示例中的標(biāo)簽,導(dǎo)致預(yù)測(cè)存在整體的偏差[89]。同時(shí),錯(cuò)誤的示例標(biāo)簽對(duì)模型的性能影響并不明顯。Min 等人[89]在12 個(gè)不同的主流模型上進(jìn)行了測(cè)試,發(fā)現(xiàn)即使僅有格式正確的輸入或輸出時(shí),模型的識(shí)別效果依然可以達(dá)到95%以上。因此,加入示例的類比信息導(dǎo)致的模型性能提高,主要是因?yàn)槟P蛯W(xué)習(xí)了輸出的大致分布,而并非輸入和輸出的對(duì)應(yīng)關(guān)系。

目前,命名實(shí)體識(shí)別在大型網(wǎng)商平臺(tái)的應(yīng)用包括搜索召回、情感分析等。在網(wǎng)商平臺(tái)的O2O(online to offline)搜索中,對(duì)商家的描述是商家名稱、地址等多個(gè)互相之間相關(guān)性并不高的文本域,如果采用簡(jiǎn)單取交集的方式,必然會(huì)產(chǎn)生大量的誤召回。國(guó)內(nèi)的某電商技術(shù)團(tuán)隊(duì)采用實(shí)體詞典匹配和模型預(yù)測(cè)相結(jié)合的框架,使模型預(yù)測(cè)具備泛化能力,同時(shí)解決了詞典匹配的歧義問(wèn)題。整體識(shí)別架構(gòu)如圖7 所示。

圖7 實(shí)體識(shí)別整體架構(gòu)Fig.7 Entity recognition overall architecture

同時(shí),用戶數(shù)據(jù)的吞吐量極大,因此存在搜索性能和訓(xùn)練數(shù)據(jù)質(zhì)量的要求。針對(duì)以上問(wèn)題,該電商技術(shù)團(tuán)隊(duì)采用模型蒸餾、算子融合、混合精度和批處理推理的方式,在不影響效果的基礎(chǔ)上,極大提升了模型訓(xùn)練和預(yù)測(cè)的速度。同時(shí),通過(guò)弱監(jiān)督標(biāo)注數(shù)據(jù)生成的方法,解決了標(biāo)注數(shù)據(jù)難以獲取的問(wèn)題,在搜索召回的實(shí)際應(yīng)用中取得了良好的效果。

5 中文命名實(shí)體識(shí)別實(shí)際應(yīng)用

5.1 中文命名實(shí)體識(shí)別在醫(yī)療領(lǐng)域的應(yīng)用

電子病歷作為一種重要的醫(yī)學(xué)信息資源,是衛(wèi)生健康領(lǐng)域信息化的重要組成部分之一。研究者通過(guò)利用其中蘊(yùn)含的大量關(guān)于疾病癥狀、診斷和治療信息,使用自然語(yǔ)言處理和人工智能技術(shù)來(lái)挖掘和發(fā)現(xiàn)電子病歷中的有效知識(shí),可以有效優(yōu)化就醫(yī)流程和降低醫(yī)療成本。近年來(lái),隨著“互聯(lián)網(wǎng)+醫(yī)療”概念的引入,電子病歷系統(tǒng)廣泛應(yīng)用于各級(jí)醫(yī)院,電子病歷文本的數(shù)量也隨之呈爆炸式的增長(zhǎng)。然而,當(dāng)前對(duì)于醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別仍然存在著許多問(wèn)題。首先,現(xiàn)階段暫時(shí)沒(méi)有系統(tǒng)化的中文醫(yī)學(xué)語(yǔ)料庫(kù),對(duì)醫(yī)療領(lǐng)域命名實(shí)體識(shí)別的研究造成了許多困難;同時(shí),在醫(yī)療領(lǐng)域內(nèi)傳統(tǒng)使用的RNN 模型在文本序列較長(zhǎng)時(shí),容易損失大量的有價(jià)值信息;并且,現(xiàn)有方法大多僅將一個(gè)文本序列映射為單一的向量表示,無(wú)法從多個(gè)維度分析文本序列的特征;最后,當(dāng)前醫(yī)療領(lǐng)域命名實(shí)體識(shí)別的研究對(duì)標(biāo)注訓(xùn)練數(shù)據(jù)集的數(shù)量和質(zhì)量依賴極大。但是,醫(yī)療領(lǐng)域數(shù)據(jù)集中大量的醫(yī)學(xué)專有名詞、非標(biāo)準(zhǔn)化的名詞縮寫(xiě)、大量專業(yè)名詞的英文縮寫(xiě)和書(shū)寫(xiě)或表達(dá)錯(cuò)誤產(chǎn)生的噪聲,都對(duì)當(dāng)前的研究帶來(lái)了巨大的挑戰(zhàn)。

針對(duì)醫(yī)學(xué)語(yǔ)料庫(kù)較少的問(wèn)題,美國(guó)國(guó)家集成生物與臨床信息研究中心針對(duì)不同疾病危險(xiǎn)因素,在2006 年建立了較為完善的生物疾病信息語(yǔ)料庫(kù)。我國(guó)的知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)從2017 年開(kāi)始,組織了多次面向中文電子病歷的命名實(shí)體識(shí)別評(píng)測(cè)任務(wù),并構(gòu)建了中文電子病歷的語(yǔ)料庫(kù)。Su 等人[90]所在的研究團(tuán)隊(duì)在國(guó)內(nèi)外電子病歷標(biāo)注規(guī)則的基礎(chǔ)上,提出了一套相對(duì)完整的中文電子病歷命名實(shí)體標(biāo)注方案。

同時(shí),國(guó)內(nèi)外的學(xué)者對(duì)所使用的模型也進(jìn)行了相應(yīng)的優(yōu)化。Luo 等人[91]將領(lǐng)域詞典和多頭注意力機(jī)制相結(jié)合,不僅捕獲了語(yǔ)境、語(yǔ)義等潛在特征,而且減少了數(shù)據(jù)不均衡導(dǎo)致的精確度降低問(wèn)題。Wang等人[92]采用了RNN-CNN 的混合式結(jié)構(gòu),并使用RoBERTa(robustly optimized BERT pretraining approach)進(jìn)行向量嵌入表示,在處理長(zhǎng)短交替的序列文本時(shí)實(shí)現(xiàn)了更高的準(zhǔn)確率和更短的訓(xùn)練時(shí)間。Tian等人[93]使用泛化的通用語(yǔ)料庫(kù)對(duì)當(dāng)前基于Transformer 的衍生模型和基于BiLSTM-CRF 的衍生模型進(jìn)行了評(píng)估,證明了基于Transformer 的衍生模型擁有更為優(yōu)秀的泛化性。Li等人[81]采取了特征融合的思路,使用BiLSTM 和IDCNN(iterated dilated CNN)分別提取文本的上下文特征和局部特征,F(xiàn)1 值在CCKS 2020 的數(shù)據(jù)集中達(dá)到了89.68%。

針對(duì)中文電子病歷數(shù)據(jù)集質(zhì)量存在的問(wèn)題,Zhang等人[94]采用RoBERTa 與WWM(whole word masking)方法結(jié)合的方式進(jìn)行預(yù)訓(xùn)練,有效減少了數(shù)據(jù)集中文本噪聲的影響。Jing 等人[95]針對(duì)小樣本電子病歷數(shù)據(jù)集,采取了半監(jiān)督的方式,顯著降低了人工標(biāo)注的工作量,對(duì)相關(guān)項(xiàng)目的實(shí)際應(yīng)用開(kāi)發(fā)有較大的指導(dǎo)意義。

5.2 中文命名實(shí)體識(shí)別在政法領(lǐng)域的應(yīng)用

近年來(lái),隨著國(guó)家司法和政務(wù)改革的持續(xù)開(kāi)展,政法領(lǐng)域智能化平臺(tái)的建設(shè)受到了廣泛的關(guān)注,對(duì)海量的政法類文書(shū)進(jìn)行智能分析和處理已成為當(dāng)前研究的重要內(nèi)容。在目前政法領(lǐng)域命名實(shí)體識(shí)別的研究中,主要存在以下兩點(diǎn)問(wèn)題:首先,現(xiàn)有的政法命名實(shí)體識(shí)別大多傾向于識(shí)別實(shí)體的固有屬性,而并沒(méi)有落實(shí)到政法屬性,限制了諸如政法知識(shí)圖譜下游任務(wù)的展開(kāi)。同時(shí),相對(duì)于通用領(lǐng)域的NER 任務(wù),政法領(lǐng)域要求實(shí)體識(shí)別的細(xì)粒度更高。例如,對(duì)于地理實(shí)體的識(shí)別,通用領(lǐng)域的NER 只要求提取出大體的行政區(qū)即可。然而政法領(lǐng)域所需要提取的地理實(shí)體常常需要精確到街道和樓宇一級(jí),因此使用現(xiàn)有的方法會(huì)導(dǎo)致準(zhǔn)確率降低,并產(chǎn)生很大的誤差。

針對(duì)上述問(wèn)題,國(guó)內(nèi)外的學(xué)者近年來(lái)對(duì)此展開(kāi)了一系列的研究。Li 等人[96]通過(guò)手工的方式構(gòu)建法律文本語(yǔ)料庫(kù),在司法領(lǐng)域中取得了86.09%的F1值。Liu 等人[97]采取自監(jiān)督的方式,在迭代過(guò)程中擴(kuò)展標(biāo)注詞典,只需要手工標(biāo)注小部分?jǐn)?shù)據(jù)即可達(dá)到良好的效果。針對(duì)政法領(lǐng)域?qū)嶓w的高細(xì)粒度要求,Ding 等人[98]使用ELECTRA 模型對(duì)電信網(wǎng)絡(luò)詐騙案件文本進(jìn)行處理,可以得到細(xì)粒度較高的識(shí)別實(shí)體。然而,噪聲和一詞多義的問(wèn)題仍然沒(méi)有得到有效解決。Roegiest等人[99]提出使用句子的邏輯傾向進(jìn)行標(biāo)記,從而縮小實(shí)體識(shí)別的范圍。在文獻(xiàn)[99]的基礎(chǔ)上,Donnelly 等人[100]提出了一種雙層結(jié)構(gòu)的篩選器,其中一層對(duì)可能包含實(shí)體的句子進(jìn)行篩選,另一層對(duì)句子中實(shí)體的位置進(jìn)行篩選。這種方式不僅緩解了數(shù)據(jù)不均衡的問(wèn)題,而且提高了實(shí)體識(shí)別的細(xì)粒度。

6 結(jié)束語(yǔ)

對(duì)于中文命名實(shí)體識(shí)別任務(wù)而言,目前所提出的模型和方法基本可以滿足實(shí)際生產(chǎn)環(huán)境的需要,并且在特定領(lǐng)域中能夠達(dá)到令人滿意的識(shí)別準(zhǔn)確率。但是,當(dāng)前中文NER 的研究仍然受到諸多因素的制約,主要存在以下四點(diǎn)的不足:第一,現(xiàn)有的中文NER 模型參數(shù)量十分龐大,模型的訓(xùn)練需要消耗大量的時(shí)間,因此需要一種輕量化的模型來(lái)彌補(bǔ)這一不足之處。第二,當(dāng)前的研究大多集中在特定領(lǐng)域,也即所提出的模型大多具有領(lǐng)域?qū)R恍裕谶w移領(lǐng)域數(shù)據(jù)集后,模型的效果可能會(huì)明顯降低,因此需要提出一種具有良好泛化性的模型。第三,當(dāng)前大多神經(jīng)網(wǎng)絡(luò)模型對(duì)于訓(xùn)練詞表外的詞的識(shí)別效果不佳。第四,目前所使用的網(wǎng)絡(luò)模型大多是基于人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),因此可以嘗試與生物神經(jīng)學(xué)相結(jié)合,使用基于脈沖神經(jīng)網(wǎng)絡(luò)的方法開(kāi)展進(jìn)一步研究。

猜你喜歡
特征文本方法
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
如何快速走進(jìn)文本
主站蜘蛛池模板: 在线99视频| 91午夜福利在线观看| 精品综合久久久久久97超人| 国产超薄肉色丝袜网站| 伊人久久婷婷五月综合97色| 丰满少妇αⅴ无码区| 婷婷色丁香综合激情| 国产在线97| 成年女人a毛片免费视频| 精品国产自在现线看久久| 精品国产三级在线观看| 老司国产精品视频91| 国产好痛疼轻点好爽的视频| 中文字幕不卡免费高清视频| 2020极品精品国产 | 国产尹人香蕉综合在线电影| 国产情精品嫩草影院88av| 久久网欧美| 99伊人精品| 精品视频91| 无码一区二区波多野结衣播放搜索| 国产一区二区三区在线精品专区| 风韵丰满熟妇啪啪区老熟熟女| 在线精品欧美日韩| 91福利在线观看视频| 日日拍夜夜操| 国产成人精品18| 久操线在视频在线观看| 日韩精品毛片| 97色婷婷成人综合在线观看| 国产在线观看一区精品| 国产免费精彩视频| 九色在线观看视频| 成人福利在线免费观看| 日韩欧美国产区| 欧美人与动牲交a欧美精品| 999福利激情视频| 在线观看免费AV网| 人妻丰满熟妇αv无码| 视频一区亚洲| 亚洲欧美天堂网| 国产三级毛片| 欧美一区福利| AV老司机AV天堂| 国产欧美日韩91| 亚洲一区二区视频在线观看| 亚洲AⅤ永久无码精品毛片| 亚洲一区国色天香| 日本免费a视频| 免费人成网站在线观看欧美| 亚洲色图欧美在线| 无码日韩精品91超碰| 亚洲精品视频免费看| 69免费在线视频| 日本人妻丰满熟妇区| 综合色亚洲| 91亚洲精品第一| 亚洲成人一区二区三区| 亚洲国产AV无码综合原创| 女人毛片a级大学毛片免费| 日本免费精品| 草草影院国产第一页| 久久久久国产精品嫩草影院| 国产一区二区三区在线观看免费| 亚洲第一中文字幕| 亚洲精品制服丝袜二区| 超碰91免费人妻| 二级毛片免费观看全程| 国产激爽大片高清在线观看| 青青草原国产av福利网站| 日日拍夜夜操| 亚洲欧美自拍一区| 国产在线精品香蕉麻豆| 国产成人久久综合777777麻豆| 天天躁夜夜躁狠狠躁躁88| 激情综合网激情综合| 老色鬼久久亚洲AV综合| 中文字幕av无码不卡免费| 国产免费羞羞视频| 国产九九精品视频| 久久精品人人做人人综合试看| 国禁国产you女视频网站|