張文韓 劉小明,4 楊 關,2 劉 杰
1 (中原工學院計算機學院 鄭州 450007)
2 (河南省網絡輿情監(jiān)測與智能分析重點實驗室(中原工學院) 鄭州 450007)
3 (北方工業(yè)大學信息學院 北京 100144)
4 (國家語委中國語言智能研究中心(首都師范大學) 北京 102206)(2020107234@zut.edu.cn)
命名實體識別是文本處理和信息抽取中的一個基本任務,其作用是識別文本中具有特殊意義的實體,是知識圖譜、實體關系抽取、人機對話系統等的前置任務[1-2].由于特定目標領域標注數據難以獲取,領域之間存在數據分布和標注類型的差異,源領域上訓練好的模型難以直接被應用于目標領域.所以,能夠將模型應用于數據資源匱乏的跨域命名實體識別(cross-domain named-entity recognition,CD-NER)引起了廣泛關注[3].
CD-NER 任務主要面臨2 個問題:1)數據資源匱乏導致模型無法充分學習隱藏的特征表示;2)由于不同領域中相同實體代表不同的含義,實體歧義導致模型遷移時出現負遷移.為了解決領域數據資源匱乏導致的模型效果不佳問題,Jia 等人[4]設計了一個利用語言模型的參數生成網絡作為跨域之間的領域自適應來執(zhí)行跨域之間的知識遷移,同時通過學習相關領域的知識來增強模型的泛化能力;Wang 等人[5]提出了一個跨領域的標簽感知雙遷移學習框架,通過少量標記數據將訓練好的模型應用于特定目標領域.為解決實體歧義性問題,Jia 等人[6]設計了一個多細胞組成的長短期記憶(multi-cell compositional long short-term memory,multi-cell LSTM)網絡,對不同實體類型分別建模處理,在實體層面進行跨域知識的遷移.另有相關學者使用預訓練與微調相結合、參數分享[7-8]等方法實現跨域遷移,也取得了顯著效果.但是,文獻 [4-8]的方法通常利用語義特征之間的域不變知識來實現跨領域知識的遷移,對語義特征中的結構化知識未能很好地利用.
關于結構化知識,其在很多領域已有廣泛研究[9].例如,化合物和分子建模[10]、大腦連通性[11]、社交網絡[12]中都包含了結構化知識.另外,Yang 等人[13]提出遷移學習的一個關鍵問題是如何識別并利用不同領域中共性的結構化知識來提升遷移的效果.如Alvarez-Melis 等人[14]將結構化信息融入最優(yōu)傳輸的框架,且框架利用特征表示中的結構化信息,在USPS 和MNIST 數字分類任務上取得了明顯的提升.Chen 等人[15]認為好的模型不僅需要考慮域之間的節(jié)點關系(特征信息),還應該考慮域內實體特征間的關系(結構化信息).
本文認為文本表示中的結構化信息可以促進跨域任務中相關知識的遷移,同時提出將結構化語義知識應用于跨域命名實體識別任務,設計一種基于多層結構化語義知識增強的跨領域命名實體識別(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型.具體而言,在MSKE-CDNER 架構中,構建多層結構化對齊機制,在不同層中將具有相似結構的文本特征進行對齊,充分獲取語義特征的結構化信息.對齊機制如圖1 所示,模型在嵌入層對文本的語義和句法特征進行對齊,獲取和遷移結構化的語義表示;在隱藏層對上下文特征進行結構化的對齊,獲取和遷移領域之間結構化的域不變知識,進一步提高目標領域實體識別能力.

Fig.1 Multi-level structural alignment mechanism for feature representation圖1 特征表示的多層結構化對齊機制
綜上所述,本文的主要貢獻有3 點:
1) 提出一種利用文本序列中蘊含的結構化知識增強跨領域實體識別模型遷移能力的方法,利用結構化知識跨領域不變的穩(wěn)定性促進跨領域知識的遷移.
2) 設計一個基于多層結構化語義知識增強的跨領域命名實體識別模型.對于多層結構化對齊機制,模型在嵌入層設計了結構特征表示模塊,使用圖最優(yōu)傳輸(graph optimal transport,GOT)[15]獲取實體特征的結構化知識,充分挖掘文本原語義信息;在隱藏層設計了潛層對齊模塊,利用對齊度量準則獲取結構化域不變知識,促進實體識別能力向目標領域遷移.
3) 通過在5 個英文數據集和特定的跨域NER 數據集上進行實驗,表明利用特征表示中的結構化語義信息可以促進跨域命名實體識別中知識的遷移,驗證了所提模型的有效性.
本節(jié)將從跨域命名實體識別、領域自適應和結構化知識3 個方面介紹相關工作.
跨域命名實體識別旨在利用從標注數據豐富的源領域中學習到的知識來提高目標領域的實體識別能力,因其可以緩解深度學習中數據依賴和訓練數據不足的問題,引起了眾多學者的關注.例如,張晗等人[16]通過引入生成式對抗網絡和文檔層面的全局變量,來解決領域內標注數據匱乏和實體歧義性問題.Jia 等人[4]設計了一個新的參數生成網絡,將從命名實體識別或者語言模型任務中獲得的參數分解成一個由元參數與任務嵌入向量和一個域嵌入向量組成的集合,通過域向量和任務向量之間的相似性來學習各個域和任務之間的相關性,進而在域之間進行知識的遷移.Li 等人[17]結合元學習和對抗學習的策略,獲取序列標注中穩(wěn)健、通用和可轉移的特征,并用于領域自適應.該策略的主要優(yōu)勢在于它能夠通過域中少量的數據快速適應新的領域.Chen 等人[18]將數據特征表示從高資源轉移到低資源,從而達到利用高資源數據特征的目的,在低資源環(huán)境下取得了顯著的提升.但是,文獻[16-18]的方法僅考慮了序列的特征信息,對于特征信息中的結構化信息未能很好地利用.
領域自適應是遷移學習中的一個熱點,其中學習域不變知識是無監(jiān)督場景中的一個主流方法.由于實現預期質量和數量的標注數據消耗過高,所以領域自適應對于許多NLP 任務非常重要.例如Hao等人[19]提出了一個半監(jiān)督的解耦框架,通過使用3種互信息正則化項,分別最大化域特定潛變量和域不變潛變量與原始嵌入之間的互信息、最小化域特定潛變量與域不變潛變量之間的互信息,將特定域信息和域不變信息進行分解.Nozza 等人[20]提出了一種適應詞嵌入的方法,通過增加用于源領域到目標領域特征空間適應的語義信息,來提高模型的領域自適應能力.李鑫等人[21]提出一個更穩(wěn)定的訓練風險函數來分離出更優(yōu)的真實特征,提高模型的泛化能力.Gu 等人[22]通過引入公共的編碼器以及解碼器、特定的編碼器以及解碼器來對領域內公共信息和特定領域信息進行顯式建模,以便在域內訓練時利用域外數據增強模型的泛化能力.Dong 等人[23]針對多模態(tài)中存在的語義差異和領域差異提出一個多級對齊網絡,通過多級對齊網絡減少相關差異、提高領域自適應能力.Zhang 等人[24]提出一種利用詞級和篇章級域不變特征的領域自適應提取方法,并以漸進式的預訓練模型提高域不變特征的提取能力,從而實現知識遷移.但是,該方法缺少對文本結構化知識的提取和利用.本文認為,跨領域遷移時,不僅要利用詞匯、語句和篇章等各級的域不變特征,還應該進一步利用各層級的結構化域不變知識.因此,本文針對特征之間的結構差異和領域之間的差異設計了2 個對齊模塊,通過利用各層級的域不變知識來增強模型的領域自適應能力.
結構化知識因其具有穩(wěn)定的跨領域不變性,可用于促進跨域知識的遷移[13].例如,Swarup 等人[25]使用一個多層、稀疏連接的神經網絡來學習任務間的結構表示,促進跨域知識的遷移.Lee 等人[26]利用表示學習識別圖的結構化知識,然后遷移源領域中的結構化知識,構造一個不需要收集和重新訓練數據的目標領域模型.Yang 等人[13]基于3 種遞進形式的實驗,將復雜的結構化知識從源領域遷移到目標領域,充分證實了結構化知識可以促進跨域知識的遷移.Zheng 等人[27]提出一種標簽結構遷移的跨域NER 新方法,在源標簽空間和目標標簽空間中構造圖,將跨域問題表示為圖匹配問題,從而解決標簽不匹配問題.但是,該方法僅利用了標簽中的結構化知識,對于特征表示中的結構化知識未能很好地利用.Courty 等人[28]指出,在進行領域自適應時,使用結構化信息約束可以將相同結構的特征匹配到目標空間中的緊湊區(qū)域,而不是不相交的區(qū)域.Chen 等人[15]提出了一個使用最優(yōu)傳輸(optimal transport,OT)的跨域對齊框架圖最優(yōu)傳輸,在框架內同時使用2 種不同類型的OT 距離,將跨域對齊問題轉化為圖匹配問題,實現更好的跨域對齊.以視覺問答(visual question answering,VQA),任務為例,將GOT 應用于跨模態(tài)對齊,可以學習到圖像和問題之間的潛在對齊關系,更好地理解圖像和問題的上下文.在VQA 中使用GOT將跨模態(tài)對齊轉化為圖匹配問題,圖匹配作為一個有效的正則化項來促進VQA 的語義理解.圖像和文本屬于跨域問題中不同的領域,所以,在跨域任務中使用圖最優(yōu)傳輸可以進一步促進跨域知識的遷移.因此,在本文中引入GOT 來獲取并利用特征表示中的結構化知識,促進跨域知識的遷移,進而提高目標領域實體識別能力.
跨領域序列標注:分別從源領域和目標領域中獲取對應的數據集DSrc=和DTgt=(x(j),,其中NSrc和NTgt分 別為數據 集DSrc和DTgt的 樣本數量.對于任意的數據樣本 (x(i),y(i))∈DSrc,定義符號序列x(i)=(x1,x2,…,xt)作 為輸入,標簽序列y(i)=(y1,y2,…,yt)作為對應的輸出,其中下標t為數據樣本的長度.
針對CD-NER 任務,通常先在源領域DSrc上訓練出一個實體識別模型MSrc,任務的目標是在目標領域數據集DTgt上 對MSrc進行訓練,得到一個目標領域上的實體識別模型MTgt.模型MTgt能在給定輸入序列和模型參數的情況下最大化標簽序列中的條件概率分布,即
其中YSrc,YTgt為 經過最大化標簽之后的輸出序列,ySrc,xSrc代 表 源 領 域 的 輸 出 序 列 與 輸 入 序 列,yTgt,xTgt代表目標領域的輸出序列和輸入序列.
本文提出了MSKE-CDNER,在文本表示的詞嵌入層利用GOT 獲取特征表示中的結構化語義信息,并在潛層空間中利用結構化對齊度量準則獲取結構化域不變知識,在多個層級通過結構化對齊促進跨域知識的遷移,進而提高模型對結構化信息的利用.
如圖2 所示,MSKE-CDNER 架構分為4 層:第1層為輸入層,由源領域、目標領域的數據集組成;第2 層為結構特征表示層,包括特征表示層和結構對齊層,用于將詞向量進行編碼并進行結構化對齊,獲取文本的結構化語義表示;第3 層為模型的主體部分,由編碼器、潛層結構化對齊等組成,用于將文本的結構化語義表示對齊獲取結構化域不變知識;第4 層為解碼層,對源領域和目標領域采取不同條件隨機場來獲取最優(yōu)的結果.

Fig.2 Overall framework of MSKE-CDNER圖2 MSKE-CDNER 整體框架
為了更好地識別、遷移特征表示中的結構化域不變知識,MSKE-CDNER 利用多層結構化對齊機制,分別在嵌入層和隱藏層對特征表示進行結構化對齊.
3.2.1 結構特征表示層
特征表示結構化對齊如圖3 所示.在對齊時,不僅對相似的實體特征進行對齊(黑色實線對齊部分為節(jié)點對齊,其中節(jié)點指的是句子中的實體),而且對相似的特征關系也進行對齊(灰色虛點線對齊部分為邊對齊,其中邊指的是句子中實體和實體之間的相關信息),使得模型在獲取實體特征信息時能夠獲取到實體特征之間的結構化信息,從而學習到更能代表原語義信息的特征表示.

Fig.3 Features represent structural alignment圖3 特征表示結構化對齊
模型在嵌入層使用GOT[15]作為一種結構化對齊方法,獲取特征表示中的結構化知識,如圖4 所示.圖最優(yōu)傳輸針對跨域對齊結合了2 種形式的最優(yōu)傳輸距離,一種用于節(jié)點(實體)匹配的沃瑟斯坦距離(Wasserstein distance,WD),一種用于邊(結構)匹配的GWD(Gromov-WD)[29],使用2 種結合的最優(yōu)傳輸框架將跨域遷移轉換為從一個域分布到另一個域分布的轉移嵌入表示,實現自我標準化對齊,進而提高特征信息的可解釋性.首先,模型分別將源領域數據和目標領域數據送入嵌入層,獲取到對應的源領域語義特征和目標領域語義特征,在結構對齊模塊中,對和進行規(guī)格化處理得到和,計算規(guī)格化后的向量和原始特征向量的余弦相似度,得到相似度矩陣CSrc和CTgt.相似度矩陣包含實體和實體之間的關聯信息,因此,將其看作文本的結構化表示.之后構建對應的圖結構 Gx(Vx,Ex),其中節(jié)點i∈Vx代 表一個特征向量xi,添加圖中節(jié)點之間的余弦相似性(相似度矩陣)作為邊Ex.為獲取源領域和目標領域之間的相似性,將源領域特征和目標領域特征進行余弦相似性計算,得到跨域相似度矩陣CST.具體計算為:

Fig.4 Structural alignment layers圖4 結構對齊層
其中 ?設 置為1E-12, max(‖·‖2,?)代表向量 的2 范數.然后,WD 通過測量節(jié)點之間的距離,用于對語義特征進行節(jié)點對齊;GWD 通過測量圖中邊之間的距離,用于邊節(jié)點對齊.對于WD 的計算有:
其中 (xi,x′i)和 (yj,y′j)分別 代表源領域和目 標領域中不同節(jié)點之間的邊結構,L(·)是評估不同域之間2 對節(jié)點 (xi,x′i)和(yj,y′j)結 構 相 似 性 的 消 耗 函 數,例 如L(xi,yj,x′i,y′j)=‖‖c1(xi,x′i)-c2(yj,y′j)‖‖,c1和c2是 在 同一個圖中評測節(jié)點相似性的函數,在此處選取余弦函數,矩陣為學習得到.綜上所述,將圖最優(yōu)傳輸中計算得到的2 種距離作為結構化對齊的損失函數LCDA,具體計算為
3.2.2 潛層對齊層
MSKE-CDNER 編碼器使用雙向門控循環(huán)單元(gate recurrent unit,GRU)神經網絡提取文本序列中上下文特征表示,同時編碼器也適用于Transformer Encoder 等通用方法.為了在實驗對比中更加公平地證明多層結構化對齊方法與現有方法對比的有效性,在本文模型中未采用Transformer Encoder 作為模型編碼器.為獲取文本序列中的結構化域不變知識,將獲取的特征表示在潛層空間中利用WD 進行度量對齊.即把編碼器獲取的上下文特征hSrc,hTgt映射到潛層空間,在潛層空間中利用WD 減少源領域、目標領域特征分布和標準正態(tài)分布之間的差異,促進不同領域中共性知識的對齊,從而獲取域之間的不變知識.特別地,為了方便計算,使用最大均值差異(maximum mean discrepancy,MMD)來近似WD.以源域為例,具體計算公式為:
其中zSrc是 通過將hSrc映射到潛層空間中獲得的,p(zS rc)為 先驗假設的標準正態(tài)分布p(zSrc)=N(0,1),q(zSrc)表 示 為q(zSrc)=N(μzSrc,σ2zSrc), μzSrc=f(Wμhn+bμ),σ2zSrc=f(Wσhn+b2σ).[Wμ;bμ], [Wσ;bσ]分 別 表 示 μzSrc和σ2zSrc可訓練的參數.
在潛層空間中,模型通過重構后的潛變量hz獲取含有域不變知識的上下文語義特征表示.即q(zSrc)在潛層空間中經過重新參數化獲取到新的潛變量z,將z通過映射得到新的隱變量hz,然后將獲取到的隱變量hz和編碼器的基本輸出再次送入編碼器GRU,重新學習獲取序列的上下文特征表示,從而獲取含有結構化信息的域不變知識.具體計算公式為:
其中[WzSrc;bzSrc]為hzSrc可 訓練的參數,bzSrc為偏差.
模型的解碼層針對源領域和目標領域采用不同標準的條件隨機場(conditional random field,CRF)[30].CRF 是一個序列標注算法,通過增強標簽之間的約束,獲取序列全局最優(yōu)解碼[31].采用標準條件隨機場中的負對數似然損失作為損失函數,具體計算有:
不同領域的實體類型不同,但是邊界信息是一樣的,可以適應于任何領域.所以,在實體識別任務中增加邊界預測任務來學習共享知識中的邊界信息.對于實體邊界預測的輔助任務使用交叉熵作為損失函數,將其表示為Lbio,具體計算有:
綜上所述,模型相關損失函數可以定義為
MSKE-CDNER 的整體損失函數表示為
其中 α , β , γ分別代表相關任務的權重.
算法1.MSKE-CDNER 的優(yōu)化算法.
輸入:源領域和目標領域數據集Sner,Tner;
輸出:適應于目標領域的模型MTgt.
① while 訓練步驟沒有結束
② forDinSner,Tnerdo
③X,Y←D;
④ forxi,yjinX,Ydo
/*計算域內節(jié)點相似性*/
⑤[CSrc]ij=cos(xi,xj);/*式(3)(5)*/
⑥[CTgt]ij=cos(yi,yj);/*式(4)(6)*/
⑦ [CST]ij=cos(xi,yj);/*式(7)*/
/*計算域外相似性*/
⑧ 計算LCDA; /*式(8)~(10)*/
⑨ end for
⑩ forxt,ytinX,Y
? {ht,ct}=fencoder(e1:N);
? end for
?{hz,cz}←{qz}←{hn,cn}
?X′=(x′1,x′2,···,xn)←{hz,cz}
? ifDisSnerthen
? else ifDisTnerthen
? 計算;/*式(13)*/
? end if
? 計算Lbio;/*式(14)*/
? 計算LMMD;/*式(11)*/
? 計算Lner,Lbio;/*式(15)(16)*/
?L←Lner+α×Lbio+β×LMMD+γ×LCDA;
? end for
? 根據L更新網絡參數 θ ;
? end while
為了驗證本文方法MSKE-CDNER 對于CD-NER的有效性,在5 個英文數據集和專門的跨域數據集上進行實驗.分別從消融實驗、顯著性檢測、參數分析、細粒度分析4 個方面進行實驗分析并展示實驗效果.
5 個 英 文 數 據 集 分 別 為CoNLL-2003(Conll03),Twitter(T), Broad Twitter(BT), BioNLP13PC(PC),BioNLP13CG(CG).其 中CoNLL-2003,Twitter,Broad Twitter 數據集是相似的領域,實體類型大致類似,都包含人名(person,PER)、地名(location,LOC)、組織(organization,ORG),其 中CoNLL-2003 比Twitter 多含有其他(miscellaneous,MISC)實體.BioNLP13PC 數據集和BioNLP13CG 數據集屬于醫(yī)療和生物領域,實體類型主要包含簡單化學(simple chemical,CHEM)、細胞成分(cellular component,CC)、基因和基因產物(gene and gene product,GGP),BioNLP13CG 中還包括了物種(species,SPE)和細胞(cell,CELL),具體的數據集統計信息如表1 所示.跨域數據集為Liu 等人[1]提出的專門跨域NER 數據集CrossNER,其包含5 個領 域, 分 別 為 政 治(politics)、 自 然 科 學(natural science)、音樂(music)、文學(literature)和人工智能(artificial intelligence,AI),每個領域中含有特定的實體類型,具體的數據集統計信息如表2 所示.

Table 1 English Dataset Statistics表1 英文數據集統計信息

Table 2 CrossNER Dataset Statistic表2 CrossNER 數據集統計信息
根據數據集中實體類型的不同以及相關領域的差異,可分為2 組實驗.第1 組:從5 個英文數據集中選取與Jia 等人[6]相同的實驗分組,例如,當Twitter,Broad Twitter 作為目標領域數據集時,選用CoNLL-2003 作為源領域數據.當BioNLP13PC,作為目標領域數據集時,選用CoNLL-2003 作為源領域數據集,從不同領域和相似領域之間進行實驗來驗證MSKECDNER 在不同領域差異之間遷移的效果.第2 組:選用與CrossNER 中相同的實驗分組將5 個不同的特定領域數據作為目標領域數據集,CoNLL-2003 作為源領域數據.
對于5 個公開的英文數據集,參照NCRF++[36]中模型的參數進行初始化設置.隨著不同組實驗中源領域和目標領域數據集的改變,模型的參數也隨之改變.例如,源領域為BioNLP13PC、目標領域為BioNLP13CG 時,優(yōu)化器選用SGD 算法,學習率設置為0.005,學習率衰退設置為0.01,批次大小設置為10,隱狀態(tài)維度為250,潛變量維度為200,為防止過擬合將dropout 設置為0.5.在實驗中采用與Jia 等人[6]相同的初始化詞向量和字符向量的方法.Twitter,Broad Twitter 作為目標領域數據集時,使用Glove 100-dim[37]進行初始化獲取詞向量(word vector)的特征表示;當BioNLP13PC 和BioNLP13CG 作為目標領域時,詞向量選用PubMed 200-dim[38]進行初始化.字符向量(char vector)采用隨機初始化的形式,通過卷積神經網絡來提取字符特征表示,最后將獲取到的單詞特征表示和字符特征表示進行拼接得到最終特征表示.
基于CrossNER 數據集,參照5 個英文數據集上參數進行初始化設置,經過參數調整發(fā)現,在大多數領域中使用相同參數時,MSKE-CDNER 性能已較優(yōu),證明模型魯棒性較強.同時,在某些域中模型參數隨著目標域數據集的改變而微調時,模型性能進一步提升.例如,在Music 域中優(yōu)化器選用SGD 算法,學習率設置為0.003,學習率衰退設置為0.03,批次大小為32,隱狀態(tài)維度為250,潛變量維度為200,為防止過擬合將dropout設置為0.5.在實驗中均使用Glove 100-dim[37]進行初始化獲取詞向量(word vector)的特征表示,Bert 優(yōu)化獲取到的詞向量特征表示.字符向量采用隨機初始化的形式,通過卷積神經網絡來提取字符特征表示,將獲取到的單詞特征表示和字符特征表示進行拼接作為最終特征表示.
特別地,在5 個英文數據集的實驗訓練過程中,當獲取到目標領域的結束信號時標志著一個批次結束.源領域數據的讀取操作不會因為批次的結束而進行重置,它會繼續(xù)加載數據,直至加載到源領域數據的結束符號時再進行重置.在CrossNER 數據集上進行實驗時,一個批次的結束替換為同時讀取到源領域和目標領域數據中的結束符號.
本文采用與文獻[4,6]等一致的評測指標,該指標認為只有當實體的類型與邊界都識別正確時才認定預測準確.采用準確率(precision,P)、召回率(recall,R)和F1 值計算最終得分.具體計算方式為:
其中TP代表識別正確的實體個數,FP代表識別錯誤的實體個數,FN代表未識別出的實體個數.
為了驗證MSKE-CDNER 在跨域NER 上的效果,在不同的數據集上與相關模型進行對比實驗.
1)BILSTM-CRF.BILSTM-CRF[39]結 合 雙 向LSTM 和條件隨機場進行命名實體識別,將源領域數據和目標領域數據結合,共同訓練模型.
2)Coach.Liu 等人[40]提出了一個用NER 域適配的框架Coach,它將任務分為2 個階段,首先檢測出實體,然后對實體進行分類來解決特定領域數據稀缺問題.
3)MULTI-TASK+PGN.Jia 等人[4]在源領域和目標領域中集成語言模型任務來執(zhí)行跨域知識的遷移,從而解決模型無法在無監(jiān)督環(huán)境下進行訓練的問題.
4)MULTI-TASK+GRAD.Zhou 等 人[41]提 出 一 種新的傳輸方法,通過對抗傳輸網絡來進行高資源和低資源下特征的融合,同時引入廣義資源對抗判別器來提高模型的泛化能力.
5)MULTI-CELL-LSTM.Jia 等人[6]基于Bert 表示提出了一個多細胞LSTM 結構,針對不同實體類型分別建模,在實體層面進行跨域知識的遷移,解決實體在不同領域中含義不同的問題.
在5 個英文數據集和CrossNER 數據集上將MSKECDNER 和其他相關方法進行實驗對比,結果如表3和表4 所示.整體來看, MSKE-CDNER 在不同數據集中都取得了不錯的結果.

Table 3 F1 Experimental Results of the English Datasets表3 英文數據集F1 實驗結果 %

Table 4 F1 Experiments Results of CrossNER Dataset表4 CrossNER 數據集F1 實驗結果 %
如表3 所示,MULTI-TASK(LSTM)相比于單任務的BILSTM 在Conll03→T 上F1值提高了2.37%,在Conll03→BT 上F1值 提高了0.86%,在PC→CG 上F1值提高了1.82%,說明多任務架構可以提高CD-NER中實體識別能力.MULTI-TASK+PGN、MULTI-TASK+GRAD 和MULTI-CELL-LSTM 相比于MULTI-TASK(LSTM)在PC→CG 上F1值分別提升了0.11%,0.57%,0.95%,說明充分學習、利用特征間的域不變知識可以緩解因數據資源缺乏導致的模型效果不佳問題.MSKE-CDNER 相比于當前熱門模型MULTI-CELL-LSTM 在PC→CG 上F1值提高了0.92%,說明結構化語義知識可以促進跨域知識的遷移,緩解實體歧義性的問題.其中,在Broad Twitter 域中模型效果不佳,考慮是因為Broad Twitter 屬于Twitter 中的新聞領域,Conll03 也屬于新聞領域,領域之間的差異性較小,在進行跨域對齊時圖匹配對領域遷移之間的約束性較差,導致遷移效果不佳.而在Conll03→PC 這組實驗中,BioNLP13PC 屬 于 醫(yī) 療 領 域, Conll03 數 據 和BioNLP13PC 這兩者之間的數據差異性較大,在進行跨域遷移時圖匹配對其約束性較好.實驗對比表明:領域之間差異性越大,模型遷移效果越好,這也更能說明語義特征中的結構化信息能夠促進跨域知識的遷移,領域差異越大,結構化知識的約束作用越強,遷移效果越佳.然而,現有研究方法中缺少對該類信息的挖掘和利用,MSKE-CDNER 的多層次結構遷移方法,可以利用結構化信息實現了對模型跨領域遷移能力的增強.
在特定的CD-NER 數據集CrossNER 上進行驗證,結果如表4 所示.MULTI-CELL-LSTM 相比BILSTMCRF 在5 個不同領域中的F1值均有所提升,F1 平均值提升了18.96%.由于BILSTM-CRF 為單任務模型,不能很好地利用源域中跨域不變的知識,而MULTICELL-LSTM 以多任務架構為基礎搭建網絡,能夠充分地利用源域中跨域不變的知識,所以構建MSKECDNER 時采用多任務學習范式為基礎框架.相比MULTI-CELL-LSTM,MSKE-CDNER 在5 個不同領域中F1值 均有明顯提升.其中在Politics 中F1值提高了0.69%,在Science 中F1值 提高了0.60%,在Music 中F1值提高了2.55%,在Litera 中F1值提高了0.91%,在AI 中F1值 提高了2.61%,F1平均值提高了1.47%.由于MULTI-CELL-LSTM 僅考慮實體層面的特征信息,忽略了特征信息中的結構化知識,而MSKE-CDNER能夠有效地利用特征信息中的結構化知識,從而取得更優(yōu)的性能.
為了更好地檢驗模型的可靠性,在不同數據集上采用與Baziotis 等人[42]一樣的方式,重復3 次實驗,記錄實驗結果的平均值和標準差,結果如表3 和表4中MSKE-CDNER*行所示.對比現有的跨域方法,MSKE-CDNER 在2 個不同的數據集下整體實驗結果優(yōu)于對比方法,說明學習、利用特征的結構化知識可以促進跨域知識的遷移.
在本節(jié)中,選取PC→CG 這組實驗從消融實驗、顯著性檢驗、參數分析以及細粒度4 個方面對實驗進行分析.PC,CG 數據集屬于醫(yī)療領域,領域中已標注的實體資源較少,選取這組實驗進行分析更能說明MSKE-CDNER 在數據資源匱乏領域下實體識別的有效性.
4.6.1 消融實驗
為了驗證多級結構化對齊機制的有效性,在PC→CG 這組實驗中進行消融實驗,得到的對比結果如表5 所示,可以看出機制中3 個模塊對實體識別性能提升均有所幫助, Δ代表消融不同方法后F1值的對比差值.

Table 5 Ablation Study on PC→CG Dataset表5 在PC→CG 數據集上的消融實驗 %
表5 中 -Lbio代表消去邊界檢測模塊時得到的結果,P下降了0.06%,R下降了0.93%,F1值下降了0.37%,其中R在3 個消融實驗中下降最多,說明學習共性邊界信息能幫助模型正確地識別實體類型,提升模型的性能,加入此模塊可以改善跨域命名實體識別的效果.同樣地, -Lmmd表示消去潛層對齊模塊的實驗結果,P下降了0.01%,R下降了0.4%,F1值下降了0.21%,表明遷移源領域和目標領域中的共性知識可以促進實體識別能力跨領域遷移.-LCDA代表消去結構化對齊模塊的結果,P下降了0.55%,R下降了0.21%,F1值下降了0.51%,其中F1值在3 個消融實驗中下降最多.因為結構化對齊模塊在獲取特征表示的同時獲取到了結構化知識,在進行遷移時結構化信息因其跨域穩(wěn)定性可以顯著地提升目標領域的實體識別性能.
4.6.2 顯著性檢驗
在PC→CG 實驗中進行顯著性檢驗,結果如表6所示.其中表中P值為Prob>F,當P≤0.05 時,說明PC 和CG 之間有顯著性差異.表6 中P= 0.027 7,表明MSKE-CDNER 有顯著性差異;F為檢驗的統計量;P為用于檢驗的P值.

Table 6 ANOVA of MSKE-CDNER on PC→CG Dataset表6 MSKE-CDNER 在PC→CG 數據集上的方差分析
4.6.3 參數分析
為探討結構化表示模塊中參數 λ1, λ2對實驗的影響,設置不同的參數值進行多輪試驗,PC→CG 這組實驗的參數調優(yōu)如圖5 所示.在結構化表示模塊中,Loss值由WD 的距離和GWD 的距離共同組成,其中λ1代 表WD 的權重, λ2代表GWD 的權重,我們對其占比進行參數調優(yōu),對于 λ1和 λ2,取值分別設置為0.1,1,10,100.從圖5 中可以明顯地看出,當 λ1值固定時,隨著 λ2值的增加,結構化信息的比值在整個特征表示中的比值也在增加.此時,可以看出隨著結構化信息權重的增加,模型識別能力也隨之提高,模型性能越來越好,說明結構化信息可以促進跨域知識的遷移,在λ2=100 時取得最優(yōu)結果.經過參數調優(yōu),最終選取λ1= 0.1, λ2=100 作為PC→CG 這組實驗中的最優(yōu)參數.同理,選取 λ1= 100, λ2=1 作為Conll03→PC 這組實驗的最優(yōu)參數.

Fig.5 Parameter analysis in the graph optimal transmission圖5 圖最優(yōu)傳輸中的參數分析
4.6.4 細粒度分析
表7 統計了MSKE-CDNER 在PC→CG 這組實驗中的細粒度實驗結果,表7 中記錄了相關實體的準確率、召回率與F1值.由于相關數據集中的實體種類較多,為便于討論,隨機選取實體類型進行示例說明.與當前的跨域模型相比所有模型的F1值均有所提升,總體F1值提升了近0.92%,證實了MSKE-CDNER 的有效性.

Table 7 Fine-Grained Analysis on PC→CG Dataset表7 PC→CG 數據集上的細粒度分析 %
為了能夠清晰地對比出MSKE-CDNER 在實體類型級別取得更優(yōu)的結果,在不同類型的實體中將其與原模型進行細粒度分析對比,結果如圖6 所示.在相同的實體類型下,MSKE-CDNER 結果明顯優(yōu)于其他2 種方法,這得益于實體內部的結構化知識在進行跨域遷移時有效緩解了不同域中實體歧義性的問題.
本文提出了一種基于多層結構化語義知識增強的跨領域命名實體識別模型MSKE-CDNER,設計了多級結構化對齊機制,利用文本序列的結構化語義信息,分別將嵌入層獲取的特征表示和隱藏層獲取的上下文特征表示以結構化的形式對齊,通過獲取、遷移不同層次的結構化知識,促進模型實體識別能力的跨領域遷移.在5 個英文數據集以及CrossNER數據集上進行實驗,并與當前跨域方法相比,結果表明,MSKE-CDNER 在跨域任務中取得了較好的結果,表明學習和利用結構化知識能夠更好地促進跨域知識的遷移.在將來的工作中,我們會對域不變知識和特定域知識進行更優(yōu)的解耦,來獲取更優(yōu)的特征表示.
作者貢獻聲明:張文韓調研文獻、設計實驗、撰寫和修訂論文;劉小明提出研究思路、模型框架、內容規(guī)劃、指導意見和修訂論文;楊關負責實驗指導、修訂論文;劉杰提出指導意見、審閱和修訂論文.