999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

命名實體識別技術(shù)綜述

2020-05-09 09:43:58陳曙東歐陽小葉
無線電通信技術(shù) 2020年3期
關(guān)鍵詞:文本方法

陳曙東,歐陽小葉

(1.中國科學(xué)院微電子研究所,北京 100029;2.中國科學(xué)院大學(xué),北京 100049)

0 引言

命名實體識別技術(shù)(Named Entity Recognition,NER)是人工智能領(lǐng)域的核心基礎(chǔ)技術(shù)之一。1956年由麥卡錫、明斯基、羅徹斯特和香農(nóng)共同組織召開的用機器模擬人類智能的專題討論會上指出,人工智能主要研究用人工的方法和技術(shù)模仿、延伸、擴展智能,最終實現(xiàn)機器智能,而人工智能的長期目標(biāo)是實現(xiàn)達(dá)到人類智力水平的人工智能[1]。為實現(xiàn)人工智能的目標(biāo),建造一個可以支撐自然語言處理和理解的大規(guī)模全方位知識庫非常重要,但是當(dāng)前由于人類知識存在的龐雜性、多樣性、開放性等特性,建造輔助人工智能建設(shè)的大規(guī)模全方位知識庫依舊任重道遠(yuǎn)。命名實體識別技術(shù)可以檢測出文本中的新實體和相應(yīng)類型,并加入到現(xiàn)有知識庫中,為推動人工智能發(fā)展提供可靠的知識和技術(shù)基礎(chǔ)。

由此可見,文本中的實體包含了豐富的語義,是至關(guān)重要的語義單元,從原始文本中識別有意義的實體或?qū)嶓w指代項在自然語言理解中起著至關(guān)重要的作用。這個過程通常被稱為命名實體識別,即在文本中標(biāo)識命名實體并劃分到相應(yīng)的實體類型中,通常實體類型包括人名、地名、組織機構(gòu)名、日期等。舉例說明,“當(dāng)?shù)貢r間14日下午,敘利亞一架軍用直升機在阿勒坡西部鄉(xiāng)村被一枚惡意飛彈擊中。”這句話中包含的實體有:日期實體“14日下午”、組織機構(gòu)實體“敘利亞”、地名實體“阿勒坡西部鄉(xiāng)村”、裝備實體“軍用直升機”和“飛彈”。由此可見,實體識別是文本意義理解的基礎(chǔ)。

1991年Rau等學(xué)者[2]首次提出了命名實體識別任務(wù),隨后自1996年開始,命名實體識別任務(wù)被加入到信息抽取領(lǐng)域,它作為一個子任務(wù)被引入各類測評任務(wù)中,如MUC-6,MUC-7,IEER-99,CoNLL-2002,CoNLL-2003等[3]。這些任務(wù)大多針對英文數(shù)據(jù)集開展研究,英文數(shù)據(jù)集句子中的每個詞都是通過空格自然分開便于研究,當(dāng)下在一些常見的公開數(shù)據(jù)集中準(zhǔn)確率、召回率、F1值均可達(dá)90%左右。而中文數(shù)據(jù)集中漢字排列緊密,中文句子由多個字符組成且單詞之間沒有空格,這一自身獨特的語言特征增大了命名實體識別的難度,但亦有學(xué)者在開展此方面研究并取得了不錯的成果[4-5]。除此之外,西班牙語、德語、蒙古語等語言研究也有學(xué)者開展[6-7]。在不同語言的命名實體識別任務(wù)上,主要區(qū)別在于更多考慮不同語言特征對模型進(jìn)行調(diào)整,而基礎(chǔ)的技術(shù)理念和手段大多相似。因此本文不針對不同語言進(jìn)行分別探討,而從全局角度分析命名實體識別的任務(wù)難點、技術(shù)進(jìn)展和當(dāng)下研究熱點。

綜上所述,命名實體識別技術(shù)是海量文本數(shù)據(jù)分析的關(guān)鍵技術(shù),可以用于解決互聯(lián)網(wǎng)文本數(shù)據(jù)的爆炸式信息過載問題,以及處理互聯(lián)網(wǎng)中存在的海量虛假、冗余、噪聲數(shù)據(jù)導(dǎo)致的有效信息查找和瀏覽問題。命名實體識別技術(shù)從最初的規(guī)則和字典方法到傳統(tǒng)的統(tǒng)計學(xué)習(xí)方法再到現(xiàn)在的深度學(xué)習(xí)方法,為非結(jié)構(gòu)化的文本分析處理提供了有效的技術(shù)手段。目前命名實體識別技術(shù)在多種自然語言處理任務(wù)中有著廣泛應(yīng)用,例如知識圖譜構(gòu)建[8]、機器翻譯[9]、知識庫構(gòu)建[10-11]、自動問答[12]、網(wǎng)絡(luò)搜索[13]等。

1 研究難點

當(dāng)前,一些學(xué)術(shù)界學(xué)者認(rèn)為命名實體識別在很多開放數(shù)據(jù)集上已經(jīng)取得了很高的準(zhǔn)確率,被認(rèn)為是一個不具有研究價值的問題。然而,我們在非常多的自然語言處理實際應(yīng)用中發(fā)現(xiàn),命名實體識別依舊具有很大的挑戰(zhàn)性,還遠(yuǎn)沒有得到很好的解決。經(jīng)調(diào)研,我們認(rèn)為命名實體識別在以下幾個方向上仍然具有很強的應(yīng)用研究價值。

1.1 領(lǐng)域命名實體識別局限性

目前命令實體識別只是在有限的領(lǐng)域和有限的實體類型中取得了較好的成績,如針對新聞?wù)Z料中的人名、地名、組織機構(gòu)名的識別。但這些技術(shù)無法很好地遷移到其他特定領(lǐng)域中,如軍事、醫(yī)療、生物、小語種語言等。一方面,由于不同領(lǐng)域的數(shù)據(jù)往往具有領(lǐng)域獨特特征,如醫(yī)療領(lǐng)域中實體包括疾病、癥狀、藥品等,而新聞領(lǐng)域的模型并不適合;另一方面,由于領(lǐng)域資源匱乏造成標(biāo)注數(shù)據(jù)集缺失,導(dǎo)致模型訓(xùn)練很難直接開展。因此,采用半監(jiān)督學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)方法實現(xiàn)資源的自動構(gòu)建和補足,以及遷移學(xué)習(xí)等技術(shù)的應(yīng)用都可作為解決該問題的核心研究方向。

1.2 命名實體表述多樣性和歧義性

自然語言的多樣性和歧義性給自然語言理解帶來了很大挑戰(zhàn),在不同的文化、領(lǐng)域、背景下,命名實體的外延有差異,是命名實體識別技術(shù)需要解決的根本問題。獲取大量文本數(shù)據(jù)后,由于知識表示粒度不同、置信度相異、缺乏規(guī)范性約束等問題,出現(xiàn)命名實體表述多樣、指代不明確等現(xiàn)象。因此,需要充分理解上下文語義來深度挖掘?qū)嶓w語義進(jìn)行識別。可以通過實體鏈接、融合對齊等方法,挖掘更多有效信息和證據(jù),實現(xiàn)實體不同表示的對齊、消除歧義,從而克服命名實體表述多樣性和歧義性。

1.3 命名實體的復(fù)雜性和開放性

傳統(tǒng)的實體類型只關(guān)注一小部分類型,例如“人名” “地名”“組織機構(gòu)名”,而命名實體的復(fù)雜性體現(xiàn)在實際數(shù)據(jù)中實體的類型復(fù)雜多樣,需要識別細(xì)粒度的實體類型,將命名實體分配到更具體的實體類型中。目前業(yè)界還沒有形成可遵循的嚴(yán)格的命名規(guī)范。命名實體的開放性是指命名實體內(nèi)容和類型并非永久不變,會隨著時間變化發(fā)生各種演變,甚至最終失效。命名實體的開放性和復(fù)雜性給實體分析帶來了巨大的挑戰(zhàn),也是亟待解決的核心關(guān)鍵問題。

2 命名實體識別研究進(jìn)展

命名實體識別從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機器學(xué)習(xí)的方法,后來采用基于深度學(xué)習(xí)的方法,一直到當(dāng)下熱門的注意力機制、圖神經(jīng)網(wǎng)絡(luò)等研究方法,命名實體識別技術(shù)路線隨著時間在不斷發(fā)展,技術(shù)發(fā)展趨勢如圖1所示。

圖1 命名實體識別技術(shù)研究發(fā)展趨勢Fig.1 NER technology research development trend

2.1 基于規(guī)則和字典的方法

基于規(guī)則和字典的方法是最初代的命名實體識別使用的方法,這些方法多采用由語言學(xué)家通過人工方式,依據(jù)數(shù)據(jù)集特征構(gòu)建的特定規(guī)則模板或者特殊詞典。規(guī)則包括關(guān)鍵詞、位置詞、方位詞、中心詞、指示詞、統(tǒng)計信息、標(biāo)點符號等。詞典是由特征詞構(gòu)成的詞典和外部詞典共同組成,外部詞典指已有的常識詞典。制定好規(guī)則和詞典后,通常使用匹配的方式對文本進(jìn)行處理以實現(xiàn)命名實體識別。

Rau等學(xué)者[8]首次提出將人工編寫的規(guī)則與啟發(fā)式想法相結(jié)合的方法,實現(xiàn)了從文本中自動抽取公司名稱類型的命名實體。這種基于規(guī)則的方法局限性非常明顯,不僅需要消耗巨大的人力勞動,且不容易在其他實體類型或數(shù)據(jù)集擴展,無法適應(yīng)數(shù)據(jù)的變化情況。

2.2 基于傳統(tǒng)機器學(xué)習(xí)的方法

在基于機器學(xué)習(xí)的方法中,命名實體識別被當(dāng)作是序列標(biāo)注問題。與分類問題相比,序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標(biāo)簽相關(guān),即預(yù)測標(biāo)簽序列之間是有強相互依賴關(guān)系的。采用的傳統(tǒng)機器學(xué)習(xí)方法主要包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、最大熵(Maximum Entropy,ME)[14]、最大熵馬爾可夫模型(Maximum Entropy Markov Model,MEMM)[15]、支持向量機(Support Vector Machine,SVM)、條件隨機場( Conditional Random Fields,CRF)[16]等。

在這5種學(xué)習(xí)方法中,ME結(jié)構(gòu)緊湊,具有較好的通用性,其主要缺點是訓(xùn)練時間復(fù)雜性非常高,甚至導(dǎo)致訓(xùn)練代價難以承受,另外由于需要明確的歸一化計算,導(dǎo)致開銷比較大。HMM對轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計共現(xiàn)概率。ME和SVM在正確率上要HMM高一些,但是HMM在訓(xùn)練和識別時的速度要快一些。MEMM對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計條件概率,但由于只在局部做歸一化容易陷入局部最優(yōu)。CRF模型統(tǒng)計全局概率,在歸一化時考慮數(shù)據(jù)在全局的分布,而不是僅僅在局部進(jìn)行歸一化,因此解決了MEMM中標(biāo)記偏置的問題。在傳統(tǒng)機器學(xué)習(xí)中,CRF被看作是命名實體識別的主流模型,優(yōu)點在于在對一個位置進(jìn)行標(biāo)注的過程中CRF可以利用內(nèi)部及上下文特征信息。

還有學(xué)者通過調(diào)整方法的精確率和召回率對傳統(tǒng)機器學(xué)習(xí)進(jìn)行改進(jìn)。Culotta和 McCallum[17]計算從CRF模型提取的短語的置信度得分,將這些得分用于對實體識別進(jìn)行排序和過濾。Carpenter[18]從HMM計算短語級別的條件概率,并嘗試通過降低這些概率的閾值來增加對命名實體識別的召回率。對給定訓(xùn)練好的CRF模型,Minkov等學(xué)者[19]通過微調(diào)特征的權(quán)重來判斷是否是命名實體,更改權(quán)重可能會獎勵或懲罰CRF解碼過程中的實體識別。

2.3 基于深度學(xué)習(xí)的方法

隨著深度學(xué)習(xí)的不斷發(fā)展,命名實體識別的研究重點已轉(zhuǎn)向深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),該技術(shù)幾乎不需要特征工程和領(lǐng)域知識[20-22]。Collobert 等學(xué)者[23]首次提出基于神經(jīng)網(wǎng)絡(luò)的命名實體識別方法,該方法中每個單詞具有固定大小的窗口,但未能考慮長距離單詞之間的有效信息。為了克服這一限制,Chiu和Nichols[24]提出了一種雙向LSTM-CNNs架構(gòu),該架構(gòu)可自動檢測單詞和字符級別的特征。Ma和Hovy[25]進(jìn)一步將其擴展到BiLSTM-CNNs-CRF體系結(jié)構(gòu),其中添加了CRF模塊以優(yōu)化輸出標(biāo)簽序列。Liu等[26]提出了一種稱為LM-LSTM-CRF的任務(wù)感知型神經(jīng)語言模型,將字符感知型神經(jīng)語言模型合并到一個多任務(wù)框架下,以提取字符級向量化表示。這些端到端模型具備從數(shù)據(jù)中自動學(xué)習(xí)的功能,可以很好地識別新實體。

部分學(xué)者將輔助信息和深度學(xué)習(xí)方法混合使用進(jìn)行命名實體識別。Liu等[27]在混合半馬爾可夫條件隨機場(Hybrid Semi-Markov Conditional Random Fields,HSCRFs)的體系結(jié)構(gòu)的基礎(chǔ)上加入了Gazetteers地名詞典,利用實體在地名詞典的匹配結(jié)果作為命名實體識別的特征之一。一些研究嘗試在標(biāo)簽級別跨數(shù)據(jù)集共享信息,Greenberg 等[28]提出了一個單一的CRF模型,使用異構(gòu)標(biāo)簽集進(jìn)行命名實體識別,此方法對平衡標(biāo)簽分布的領(lǐng)域數(shù)據(jù)集有實用性。Augenstein 等[29]使用標(biāo)簽向量化表示在任務(wù)之間進(jìn)一步播信息。Beryozkin等[30]建議使用給定的標(biāo)簽層次結(jié)構(gòu)共同學(xué)習(xí)一個在所有標(biāo)簽集中共享其標(biāo)簽層的神經(jīng)網(wǎng)絡(luò),取得了非常優(yōu)異的性能。

近年來,在基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上加入注意力機制、圖神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等熱門研究技術(shù)也是目前的主流研究方向,在下面研究熱點中會穿插介紹。

3 研究熱點

通過調(diào)研近三年來ACL,AAAI,EMNLP,COLING,NAACL等自然語言處理頂級會議中命名實體識別相關(guān)的論文,我們總結(jié)并選擇了若干具有代表性的研究熱點進(jìn)行展開介紹,分別是匱乏資源命名實體識別、細(xì)粒度命名實體識別、嵌套命名實體識別、命名實體鏈接。

3.1 匱乏資源命名實體識別

命名實體識別通常需要大規(guī)模的標(biāo)注數(shù)據(jù)集,例如標(biāo)記句子中的每個單詞,這樣才能很好地訓(xùn)練模型。然而這種方法很難應(yīng)用到標(biāo)注數(shù)據(jù)少的領(lǐng)域,如生物、醫(yī)學(xué)等領(lǐng)域。這是因為資源不足的情況下,模型無法充分學(xué)習(xí)隱藏的特征表示,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法的性能會大大降低。

近來,越來越多的方法被提出用于解決低資源命名實體識別。一些學(xué)者采用遷移學(xué)習(xí)的方法,橋接富足資源和匱乏資源,命名實體識別的遷移學(xué)習(xí)方法可以分為兩種:基于并行語料庫的遷移學(xué)習(xí)和基于共享表示的遷移學(xué)習(xí)。利用并行語料庫在高資源和低資源語言之間映射信息,Chen和Feng等[31-32]提出同時識別和鏈接雙語命名實體。Ni和Mayhew等[33]創(chuàng)建了一個跨語言的命名實體識別系統(tǒng),該系統(tǒng)通過將帶注釋的富足資源數(shù)據(jù)轉(zhuǎn)換到匱乏資源上,很好地解決了匱乏資源問題。Zhou等[34]采用雙對抗網(wǎng)絡(luò)探索高資源和低資源之間有效的特征融合,將對抗判別器和對抗訓(xùn)練集成在一個統(tǒng)一的框架中進(jìn)行,實現(xiàn)了端到端的訓(xùn)練。

還有學(xué)者采用正樣本-未標(biāo)注樣本學(xué)習(xí)方法(Positive-Unlabeled,PU),僅使用未標(biāo)注數(shù)據(jù)和部分不完善的命名實體字典來實現(xiàn)命名實體識別任務(wù)。Yang等學(xué)者[35]采用AdaSampling方法,它最初將所有未標(biāo)記的實例視為負(fù)實例,不斷地迭代訓(xùn)練模型,最終將所有未標(biāo)注的實例劃分到相應(yīng)的正負(fù)實例集中。Peng等學(xué)者[36]實現(xiàn)了PU學(xué)習(xí)方法在命名實體識別中的應(yīng)用,僅使用未標(biāo)記的數(shù)據(jù)集和不完備的命名實體字典來執(zhí)行命名實體識別任務(wù),該方法無偏且一致地估算任務(wù)損失,并大大減少對字典大小的要求。

因此,針對資源匱乏領(lǐng)域標(biāo)注數(shù)據(jù)的缺乏問題,基于遷移學(xué)習(xí)、對抗學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)等方法被充分利用,解決資源匱乏領(lǐng)域的命名實體識別難題,降低人工標(biāo)注工作量,也是最近研究的重點。

3.2 細(xì)粒度命名實體識別

為了智能地理解文本并提取大量信息,更精確地確定非結(jié)構(gòu)化文本中提到的實體類型很有意義。通常這些實體類型在知識庫的類型層次結(jié)構(gòu)中可以形成類型路徑[37],例如,牛頓可以按照如下類型的路徑歸類:物理學(xué)家/科學(xué)家/人。知識庫中的類型通常為層次結(jié)構(gòu)的組織形式,即類型層次。

大多數(shù)命名實體識別研究都集中在有限的實體類型上,MUC-7[38]只考慮了3類:人名、地名和組織機構(gòu)名,CoNLL-03[39]增加了其他類,ACE[5]引入了地緣政治、武器、車輛和設(shè)施4類實體,Ontonotes[40]類型增加到18類,BBN[41]有29種實體類型。Ling和Daniel[42]定義了一個細(xì)粒度的112個標(biāo)簽集,如圖2所示,將標(biāo)簽問題表述為多類型多標(biāo)簽分類。

圖2 定義的112個細(xì)粒度標(biāo)簽集Fig.2 Defined 112 fine-grained label sets

學(xué)者們在該領(lǐng)域已經(jīng)進(jìn)行了許多研究,通常學(xué)習(xí)每個實體的分布式表示,并應(yīng)用多標(biāo)簽分類模型進(jìn)行類型推斷。Neelakantan和Chang[43]利用各種信息構(gòu)造實體的特征表示,如實體的文字描述、屬性和類型,之后,學(xué)習(xí)預(yù)測函數(shù)來推斷實體是否為某類型的實例。Yaghoobzadeh等[44]重點關(guān)注實體的名稱和文本中的實體指代項,并為實體和類型對設(shè)計了兩個評分模型。這些工作淡化了實體之間的內(nèi)部關(guān)系,并單獨為每個實體分配類型。Jin等[45]以實體之間的內(nèi)部關(guān)系為結(jié)構(gòu)信息,構(gòu)造實體圖,進(jìn)一步提出了一種網(wǎng)絡(luò)嵌入框架學(xué)習(xí)實體之間的相關(guān)性。最近的研究表明以卷積方式同時包含節(jié)點特征和圖結(jié)構(gòu)信息,將實體特征豐富到圖結(jié)構(gòu)將獲益頗多[46-47]。此外,還有學(xué)者考慮到由于大多數(shù)知識庫都不完整,缺乏實體類型信息,例如在DBpedia數(shù)據(jù)庫中36.53%的實體沒有類型信息。因此對于每個未標(biāo)記的實體,Jin等[48]充分利用其文本描述、類型和屬性來預(yù)測缺失的類型,將推斷實體的細(xì)粒度類型問題轉(zhuǎn)化成基于圖的半監(jiān)督分類問題,提出了使用分層多圖卷積網(wǎng)絡(luò)構(gòu)造3種連通性矩陣,以捕獲實體之間不同類型的語義相關(guān)性。

此外,實現(xiàn)知識庫中命名實體的細(xì)粒度劃分也是完善知識庫的重要任務(wù)之一。細(xì)粒度命名實體識別現(xiàn)有方法大多是通過利用實體的固有特征(文本描述、屬性和類型)或在文本中實體指代項來進(jìn)行類型推斷,最近有學(xué)者研究將知識庫中的實體轉(zhuǎn)換為實體圖,并應(yīng)用到基于圖神經(jīng)網(wǎng)絡(luò)的算法模型中。

3.3 嵌套命名實體識別

通常要處理的命名實體是非嵌套實體,但是在實際應(yīng)用中,嵌套實體非常多。大多數(shù)命名實體識別會忽略嵌套實體,無法在深層次文本理解中捕獲更細(xì)粒度的語義信息。如圖3所示,在 “3月3日,中國駐愛爾蘭使館提醒旅愛中國公民重視防控,穩(wěn)妥合理加強防范。” 句子中提到的中國駐愛爾蘭使館是一個嵌套實體,中國和愛爾蘭均為地名,而中國駐愛爾蘭使館為組織機構(gòu)名。普通的命名實體識別任務(wù)只會識別出其中的地名“中國”和“愛爾蘭”,而忽略了整體的組織機構(gòu)名。

圖3 嵌套實體示例Fig.3 Example of nested entity

學(xué)者們提出了多種用于嵌套命名實體識別的方法。Finkel和Manning[49]基于CRF構(gòu)建解析器,將每個命名實體作為解析樹中的組成部分。Ju等[50]動態(tài)堆疊多個扁平命名實體識別層,并基于內(nèi)部命名實體識別提取外部實體。如果較短的實體被錯誤地識別,這類方法可能會遭受錯誤傳播問題的困擾。嵌套命名實體識別的另一系列方法是基于超圖的方法。Lu和Roth[51]首次引入了超圖,允許將邊緣連接到不同類型的節(jié)點以表示嵌套實體。Muis和Lu[52]使用多圖表示法,并引入分隔符的概念用于嵌套實體檢測。但是這樣需要依靠手工提取的特征來識別嵌套實體,同時遭受結(jié)構(gòu)歧義問題的困擾。Wang和Lu[53]提出了一種使用神經(jīng)網(wǎng)絡(luò)獲取分布式特征表示的神經(jīng)分段超圖模型。Katiyar和Cardie[54]提出了一種基于超圖的計算公式,并以貪婪學(xué)習(xí)的方式使用LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)嵌套結(jié)構(gòu)。這些方法都存在超圖的虛假結(jié)構(gòu)問題,因為它們枚舉了代表實體的節(jié)點、類型和邊界的組合。Xia等[6]提出了MGNER架構(gòu),不僅可以識別句子中非重疊的命名實體,也可以識別嵌套實體,此外不同于傳統(tǒng)的序列標(biāo)注任務(wù),它將命名實體識別任務(wù)分成兩部分開展,首先識別實體,然后進(jìn)行實體分類。

嵌套實體識別充分利用內(nèi)部和外部實體的嵌套信息,從底層文本中捕獲更細(xì)粒度的語義,實現(xiàn)更深層次的文本理解,研究意義重大。

3.4 命名實體鏈接

命名實體鏈接主要目標(biāo)是進(jìn)行實體消歧,從實體指代項對應(yīng)的多個候選實體中選擇意思最相近的一個實體。這些候選實體可能選自通用知識庫,例如維基百科、百度百科[55],也可能來自領(lǐng)域知識庫,例如軍事知識庫、裝備知識庫。圖4給出了一個實體鏈接的示例。短文本“美海軍陸戰(zhàn)隊F/A-18C戰(zhàn)斗機安裝了生產(chǎn)型AN/APG-83雷達(dá)”,其中實體指代項是“生產(chǎn)型AN/APG-83雷達(dá)”,該實體指代項在知識庫中可能存在多種表示和含義,而在此處短文本,其正確的含義為“AN/APG-83可擴展敏捷波束雷達(dá)”。

圖4 實體鏈接示例Fig.4 Example of named entity linking

實體鏈接的關(guān)鍵在于獲取語句中更多的語義,通常使用兩種方法。一種是通過外部語料庫獲取更多的輔助信息,另一種是對本地信息的深入了解以獲取更多與實體指代項相關(guān)的信息[56]。Tan等[57]提出了一種候選實體選擇方法,使用整個包含實體指代項的句子而不是單獨的實體指代項來搜索知識庫,以獲得候選實體集,通過句子檢索可以獲取更多的語義信息,并獲得更準(zhǔn)確的結(jié)果。Lin等[58]尋找更多線索來選擇候選實體,這些線索被視為種子實體指代項,用作實體指代項與候選實體的橋梁。Dai等[59]使用社交平臺Yelp的特征信息,包括用戶名、用戶評論和網(wǎng)站評論,豐富了實體指代項相關(guān)的輔助信息,實現(xiàn)了實體指代項的歧義消除。因此,與實體指代項相關(guān)的輔助信息將通過實體指代項和候選實體的鏈接實現(xiàn)更精確的歧義消除。

另一些學(xué)者使用深度學(xué)習(xí)研究文本語義。Francis-Landau等[60]使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的表示形式,然后獲得候選實體向量和文本向量的余弦相似度得分。Ganea和Hofmann[61]專注于文檔級別的歧義消除,使用神經(jīng)網(wǎng)絡(luò)和注意力機制來深度表示實體指代項和候選實體之間的關(guān)系。Mueller和Durrett[62]將句子左右分開,然后分別使用門控循環(huán)單元和注意力機制,獲得關(guān)于實體指代項和候選實體的分?jǐn)?shù)。Ouyang等[4]提出一種基于深度序列匹配網(wǎng)絡(luò)的實體鏈接算法,綜合考慮實體之間的內(nèi)容相似度和結(jié)構(gòu)相似性,從而幫助機器理解底層數(shù)據(jù)。目前,在實體鏈接中使用深度學(xué)習(xí)方法是一個熱門的研究課題。

4 公開數(shù)據(jù)集和評價指標(biāo)

4.1 數(shù)據(jù)集

常用的命名實體識別數(shù)據(jù)集有CoNLL 2003,CoNLL 2002,ACE 2004,ACE 2005等。數(shù)據(jù)集的具體介紹如下:

① CoNLL 2003數(shù)據(jù)集[35]包括1 393篇英語新聞文章和909篇德語新聞文章,英語語料庫是免費的,德國語料庫需要收費。英語語料取自路透社收集的共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集中標(biāo)注了4種實體類型:PER,LOC,ORG,MISC。

② CoNLL 2002數(shù)據(jù)集[63]是從西班牙EFE新聞機構(gòu)收集的西班牙共享任務(wù)數(shù)據(jù)集。數(shù)據(jù)集標(biāo)注了4種實體類型:PER,LOC,ORG,MISC。

③ ACE 2004多語種訓(xùn)練語料庫[5]版權(quán)屬于語言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium,LDC),ACE 2004多語言培訓(xùn)語料庫包含用于2004年自動內(nèi)容提取(ACE)技術(shù)評估的全套英語、阿拉伯語和中文培訓(xùn)數(shù)據(jù)。語言集由為實體和關(guān)系標(biāo)注的各種類型的數(shù)據(jù)組成。

④ ACE 2005多語種訓(xùn)練語料庫[5]版權(quán)屬于LDC,包含完整的英語、阿拉伯語和漢語訓(xùn)練數(shù)據(jù),數(shù)據(jù)來源包括:微博、廣播新聞、新聞組、廣播對話等,可以用來做實體、關(guān)系、事件抽取等任務(wù)。

⑤ OntoNotes 5.0數(shù)據(jù)集[37]版權(quán)屬于LDC,由1 745 K英語、900 K中文和300 K 阿拉伯語文本數(shù)據(jù)組成,OntoNotes 5.0的數(shù)據(jù)來源也多種多樣,來自電話對話、新聞通訊社、廣播新聞、廣播對話和博客等。實體被標(biāo)注為PERSON,ORGANIZATION,LOCATION等18個類型。

⑥ MUC 7數(shù)據(jù)集[34]是發(fā)布的可以用于命名實體識別任務(wù),版權(quán)屬于LDC,下載需要支付一定費用。數(shù)據(jù)取自北美新聞文本語料庫的新聞標(biāo)題,其中包含190 K訓(xùn)練集、64 K測試集。

⑦ Twitter數(shù)據(jù)集是由Zhang等[64]提供,數(shù)據(jù)收集于Twitter,訓(xùn)練集包含了4 000 推特文章,3 257條推特用戶測試。該數(shù)據(jù)集不僅包含文本信息還包含了圖片信息。

大部分?jǐn)?shù)據(jù)集的發(fā)布官方都直接給出了訓(xùn)練集、驗證集和測試集的劃分。同時不同的數(shù)據(jù)集可能采用不同的標(biāo)注方法,最常見的標(biāo)注方法有IOB,BIOES,Markup,IO,BMEWO 等,下面詳細(xì)介紹幾種常用的標(biāo)注方法:

① IOB標(biāo)注法,是CoNLL 2003采用的標(biāo)注法,I表示內(nèi)部,O表示外部, B表示開始。如若語料中某個詞標(biāo)注B/I-XXX,B/I表示這個詞屬于命名實體的開始或內(nèi)部,即該詞是命名實體的一部分,XXX表示命名實體的類型。當(dāng)詞標(biāo)注O則表示屬于命名實體的外部,即它不是一個命名實體。

② BIOES標(biāo)注法,是在 IOB方法上的擴展,具有更完備的標(biāo)注規(guī)則。其中 B表示這個詞處于一個命名實體的開始,I表示內(nèi)部,O表示外部,E表示這個詞處于一個實體的結(jié)束, S表示這個詞是單獨形成一個命名實體。BIOES 是目前最通用的命名實體標(biāo)注方法。

③ Markup標(biāo)注法,是OntoNotes數(shù)據(jù)集使用的標(biāo)注方法,方式較簡單。例如:ENAMEX TYPE=”O(jiān)RG”>LondonENAMEX> is an international metropolis,它直接用標(biāo)簽把命名實體標(biāo)注出來,然后通過TYPE字段設(shè)置相應(yīng)的類型。

4.2 評價指標(biāo)

目前,命名實體識別任務(wù)常采用的評價指標(biāo)有精確率(Precision)、召回率(Recall)、F1值(F1-Measure)等。

精確率:對給定數(shù)據(jù)集,分類正確樣本個數(shù)和總樣本數(shù)的比值。即:

式中,TP指將正預(yù)測為真,F(xiàn)N指將正預(yù)測為假,F(xiàn)P指將反預(yù)測為真,TN指將反預(yù)測為假。

召回率:用來說明分類器中判定為真的正例占總正例的比率,即:

F1值:是精確率和召回率的調(diào)和平均指標(biāo),是平衡準(zhǔn)確率和召回率影響的綜合指標(biāo)。

5 結(jié)束語

命名實體識別是自然語言處理應(yīng)用中的重要步驟,它不僅檢測出實體邊界,還檢測出命名實體的類型,是文本意義理解的基礎(chǔ)。本文指出了命名實體識別研究存在的難點,包括領(lǐng)域命名實體識別局限性、命名實體表述多樣性和歧義性、命名實體的復(fù)雜性和開放性。還闡述了命名實體識別的研究進(jìn)展,從早期基于規(guī)則和詞典的方法,到傳統(tǒng)機器學(xué)習(xí)的方法,到近年來基于深度學(xué)習(xí)的方法,神經(jīng)網(wǎng)絡(luò)與CRF模型相結(jié)合的NN-CRF模型依舊是目前命名實體識別的主流模型。同時,本文還介紹了當(dāng)下的多個熱門研究點,其中匱乏資源領(lǐng)域的命名實體識別在NLP領(lǐng)域應(yīng)用有著非常巨大的價值,遷移學(xué)習(xí)、對抗學(xué)習(xí)、遠(yuǎn)監(jiān)督學(xué)習(xí)方法以及圖神經(jīng)網(wǎng)絡(luò)、注意力機制等新型技術(shù)都是未來研究的重點。

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學(xué)習(xí)方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 无码中文字幕精品推荐| 午夜电影在线观看国产1区| 青青热久免费精品视频6| 99热这里只有成人精品国产| 国产区91| 日本在线亚洲| 欧美在线精品怡红院 | 最新国产精品第1页| 国产91色在线| 777国产精品永久免费观看| 欧洲亚洲欧美国产日本高清| 无码区日韩专区免费系列| 国产一级小视频| 欧美笫一页| 亚洲欧美日本国产综合在线| 日韩小视频网站hq| 久久国产V一级毛多内射| 欧美激情福利| 亚洲成在人线av品善网好看| 久久永久精品免费视频| 最新午夜男女福利片视频| 中文字幕丝袜一区二区| 精品剧情v国产在线观看| 一本综合久久| a级毛片免费看| 欧美国产三级| 国产在线观看一区精品| 日韩免费中文字幕| 国产激爽爽爽大片在线观看| 国产91麻豆免费观看| 亚洲男人天堂久久| 一本大道无码日韩精品影视| 97色伦色在线综合视频| 91精品在线视频观看| 免费AV在线播放观看18禁强制| 看你懂的巨臀中文字幕一区二区| 亚洲欧美精品一中文字幕| 99在线视频精品| 国产精品香蕉| 国产成人精品一区二区三区| 国产精品青青| 成人午夜视频免费看欧美| 特级毛片8级毛片免费观看| 色婷婷成人| 国内精品小视频福利网址| 亚洲国产成人精品青青草原| 国产视频入口| 精品国产一区二区三区在线观看| 国产亚洲视频中文字幕视频| 日韩免费成人| 国产精品播放| 自偷自拍三级全三级视频| 996免费视频国产在线播放| 国产精品无码久久久久AV| 欧美国产日韩在线播放| 久久久久国产精品免费免费不卡| 欧美午夜在线视频| 国产剧情国内精品原创| 99视频全部免费| 中国一级特黄视频| 美美女高清毛片视频免费观看| 国产男人天堂| 99资源在线| 国产一级片网址| AV片亚洲国产男人的天堂| 91亚洲免费视频| 国产小视频a在线观看| 多人乱p欧美在线观看| 国产欧美性爱网| 三级欧美在线| 人人爽人人爽人人片| 国产精品久久自在自线观看| 亚洲V日韩V无码一区二区| 欧美三级自拍| 国产区成人精品视频| 国产99视频精品免费观看9e| 国产成人亚洲综合a∨婷婷| 国产精品视频系列专区| 国产第一页亚洲| 国产乱子伦视频三区| 国产精品七七在线播放| 亚洲人成网站在线播放2019|