鐘維幸,王海榮,王 棟,車 淼
(北方民族大學計算機科學與工程學院,寧夏銀川 750021)
關鍵字:多模態命名實體識別 圖文數據 多模態注意力 圖像描述 語義融合
自媒體的廣泛應用致使互聯網上的海量數據呈現圖像、文本、視頻等多模態交融態勢,這些數據具有語義互補性,因此,多模態數據的知識抽取和應用成為研究熱點,作為基礎任務的多模態命名實體識別(Multimodal Named Entity Recognition,MNER)方法研究受到關注。
MNER領域的初期工作旨在將圖像信息利用起來以提升命名識別的效果,通過將單詞與圖像區域對齊的方式,獲取與文本相關的有效視覺上下文。Esteves等[1]首次在MNER任務中使用了視覺信息,將圖文聯合命名實體識別帶入研究者的視野。隨后,Zhang等[2]提出了一種基于雙向長短時記憶(Long Short-Term Memory,LSTM)網絡模型(BiLSTM)和共注意力機制的自適應共注意網絡,這是首個在MNER研究上有突出表現的工作。同年,Moon等[3]、Lu等[4]也相繼提出自己的MNER方法,前者提出一個通用的注意力模塊用于自適應地降低或增強單詞嵌入、字符嵌入和視覺特征權重,后者則提出一個視覺注意模型,以尋找與文本內容相關的圖像區域。在之前的工作中僅用單個單詞來捕捉視覺注意,該方式對視覺特征的利用存在不足,Arshad等[5]將自注意力機制擴展到捕獲兩個詞和圖像區域之間的關系,并引入門控融合模塊,從文本和視覺特征中動態選擇信息。但是在MNER中融合文本信息和圖像信息時,圖像并不總是有益的,如在Arshad等[5]和Lu等[4]的工作中均提及不相關圖像所帶來的噪聲問題,因此,如何在MNER中減小無關圖像的干擾成為研究重點。如Asgari-Chenaghlu等[6]擴展設計了一個多模態BERT來學習圖像和文本之間的關系。Sun等[7,8]提出一種用于預測圖文相關性的文本圖像關系傳播模型,其可以幫助消除模態噪聲的影響。為了緩解視覺偏差的問題,Yu等[9]在其模型中加入實體跨度檢測模塊來指導最終的預測。而Liu等[10]則結合貝葉斯神經網絡設計一種不確定性感知的MNER框架,減少無關圖像對實體識別的影響。Tian等[11]提出分層自適應網絡(Hierarchical Self-adaptation Network,HSN)來迭代地捕獲不同表示的子空間中更多的跨模態語義交互。
上述方法學習了粗粒度的視覺對象與文本實體之間的關系。但粗粒度特征可能會忽略細粒度視覺對象與文本實體之間的映射關系,進而導致不同類型實體的錯誤檢測。為此,一些研究開始探索細粒度的視覺對象與文本實體之間的關系。Zheng等[12]提出一種對抗性門控雙線性注意神經網絡,將文本和圖像的不同表示映射為共享表示。Wu等[13]提出一種針對細粒度交互的密集協同注意機制,它將對象級圖像信息和字符級文本信息相結合來預測實體。Zhang等[14]提出一種多模態圖融合方法,充分利用了不同模態語義單元之間的細粒度語義。除了直接利用圖像的原始信息,一些額外信息的加入也有益于MNER任務,如Chen等[15]在其模型中引入圖像屬性和圖像知識,Chen等[16]則將圖像的描述作為豐富MNER的上下文的一種方法。
當前,MNER仍面臨兩大挑戰:一是無關的圖像信息帶來的噪聲干擾,二是圖文語義交互中有效語義信息的丟失。為此,本文提出一種新的多模態語義協同交互的圖文聯合命名實體識別(Image-Text Joint Named Entity Recognition,ITJNER)模型,引入圖像描述以增強視覺數據的特征表示,建立多注意力機制耦合的多模態協同交互模塊,通過多個跨模態注意力機制實現模態間語義的充分交互并過濾錯誤圖像所帶來的噪聲信息,實現圖文聯合下命名實體的有效識別。
ITJNER模型通過協同表示學習圖像、文本的深層特征,使用自注意力、跨模態注意力、門控機制通過協同交互的方式實現跨模態語義交互,并加入條件隨機場,利用標簽間的依賴關系得到最優的預測標簽序列。具體模型如圖1所示。圖1展示了本方法的核心處理流程,其主要包含多模態特征表示、多模態協同交互與序列標注兩個核心模塊。

圖1 圖文聯合命名實體識別模型的整體架構
對圖像與文本進行多模態特征表示是圖文聯合命名實體識別工作的基礎,大量研究表明,將文本表示和視覺表示作為多模態特征相結合,可以提高語義提取任務的性能[17,18]。為方便描述對圖文特征的抽取與表示工作,將圖文對數據集形式化地表示為
(1)
其中,I為圖像,S為文本,N為圖像-文本數。
對文本特征的抽取是命名實體識別任務的基本,更加輕量化且不影響性能的模型有助于降低后續從算法模型到應用落地的難度,因此本文采用ALBERT模型[19]對文本進行特征提取。ALBERT是一個輕量級的BERT模型,其參數比BERT-large更少且效果更好,為了降低參數量和增強語義理解能力,其引入詞嵌入矩陣分解和跨層參數共享策略,并使用句子順序預測(Sentence Order Prediction,SOP)任務替換原先的下一句預測(Next Sentence Prediction,NSP)任務。在模型中使用多層雙向Transformer編碼器對輸入序列進行編碼,其模型結構見圖2。圖2展示了ALBERT模型的核心結構,包含輸入層、編碼層、輸出層,其中每一個Trm對應一個Transformer編碼器。

圖2 ALBERT模型結構圖
由于數據集文本可能存在無用的特殊字符,需要對數據進行預處理,對每個輸入句子S進行標記處理,對不存在的字符使用[UNK]替代,并分別在每個句子的開頭和結尾插入兩個特殊的標記即[CLS]和[SEP]。形式上,設S=[S0,S1,S2,…,Sn+1]為修改后的輸入句子,其中S0和Sn+1表示插入的兩個令牌。設E=[E0,E1,E2,…,En+1]為句子S的標記表示,其中Ei為字符向量、分段向量和位置向量的和。將E作為ALBERT編碼層的輸入。
T=ALBERT(E),
(2)
T=[T0,T1,T2,…,Tn+1]為模型的輸出向量,其中Ti∈d為Ei生成的上下文感知表示,d是向量的維數。在獲得文本特征表示的同時,對圖像與圖像描述特征進行特征抽取。
2.2.1 圖像特征抽取
卷積神經網絡(Convolutional Neural Networks,CNN)的最新研究進展顯示,更強的多尺度表示能力可以在廣泛的應用中對圖像特征的提取帶來性能增益,因此本文采用預訓練過的Res2Net[20]來提取圖像特征。Res2Net在粒度級別表示多尺度特征,并增加了每個網絡層的感受野,相比于傳統ResNet網絡,其在不增加計算復雜度的情況下,提高了網絡的特征表示能力。更深層次的網絡已經被證明對視覺任務具有更強的表示能力[21],在綜合考慮模型的性能與模型訓練效率后,本文最終選擇采用101層的Res2Net (Res2Net-101)用于圖像特征的提取與表示。
不同圖文對數據中的圖像大小可能不同,因此首先將它們的大小統一縮放為224×224像素,并經隨機剪切、歸一化等圖像預處理方法進行數據增強;然后將調整后的圖像輸入Res2Net-101,如式(3)所示。
U=Res2Net(I),I∈D。
(3)
本文在預訓練的Res2Net-101中保留了最后一個卷積層輸出,以表示每幅圖像,遵循大部分研究對卷積核大小的設置,經Res2Net進行特征抽取后,獲得7×7=49個視覺塊特征U=(u1,u2,…,u49),其中ui是第i個視覺塊,由2 048維向量表示。在將圖文特征輸入多模態協同交互模塊前需保持圖文特征向量的維度一致,因此對視覺塊特征U應用線性變換得到V=(v1,v2,…,v49),如式(4)所示。
(4)
其中,Wu∈2048×d是一個權重矩陣。
2.2.2 圖像描述特征抽取
為了加強圖像與文本間的語義融合,本文加入圖像描述,并將其視為圖文間的過渡信息特征,描述可以幫助過濾掉從圖像特征中引入的噪聲,同時也可以更好地總結圖像的語義。本文使用包含視覺注意力的編解碼框架的描述生成模型來生成圖像描述,如圖3所示。

圖3 圖像描述模型
使用圖像特征提取到的視覺塊特征U作為長短時記憶(LSTM)網絡的輸入,LSTM網絡通過動態地選擇圖像特征,提取句子內部單詞之間的句法特征、單詞位置編碼信息,學習圖像特征與句法特征、單詞特征之間的映射關系,同時加入注意力機制,賦予不同視覺區域以不同的權重,以此緩解視覺噪聲干擾。將加權圖像特征輸入LSTM,將圖像信息逐字轉換為自然語言,輸出目標為
L=[L0,L1,L2,…,Ln+1],Li∈k
(5)
其中k是詞匯表的大小,n是描述句的長度,Li代表句子中的第i個單詞。再將描述L作為輸入,使用ALBERT編碼器,得到C=[C0,C1,C2,…,Cn+1],其中Ci∈d是Li生成的上下文表示,d是向量的維數。在得到多模態表示后將其作為協同交互模塊的輸入,實現多模態特征的語義交互。
多模態協同交互模塊獲取圖像、文本、圖像描述特征,利用圖像引導進行文本模態融合、文本引導進行圖像模態融合,實現不同特征的語義交互,減少視覺偏差。圖4展示了多模態協同交互模塊的具體框架結構,其中包括了以文本向量為鍵值的跨模態注意力、以圖像向量為鍵值的跨模態注意力、以原始文本向量為鍵值的非標準自注意力、視覺門控機制。
如圖4所示,在ALBERT模型得到的輸出后添加一個標準的自注意力層,以獲得每個單詞的文本隱藏層表示R=(r0,r1,…,rn+1),其中ri∈d為生成的文本隱藏層表示。對圖像描述特征C和視覺塊特征U線性變換所得的視覺塊特征V各添加一個標準自注意力層,分別得到圖像描述與圖像的隱藏層表示:
O=(o0,o1,o2,…,on+1),
(6)
W=(w1,w2,…,w49),
(7)
其中oi∈d為生成的圖像描述隱藏層表示,wi∈d為生成的圖像隱藏層表示。
如圖4左側所示,為了利用相關圖像學習更好的文本表示,本文采用多頭跨模態注意力機制,先利用圖像描述來引導文本融合,將O∈d×(n+1)作為查詢,將R∈d×(n+1)作為鍵和值,將m設為多頭數:
Ai(O,R)=
(8)
MHA(O,R)=WO[A1(O,R),…,Am(O,R)]T,
(9)
其中Ai指跨模態注意力的第i個頭,MHA表示多頭注意力,{Wqi,Wki,Wvi}∈d/m×d和W0∈d×d分別表示查詢、鍵、值和多頭注意力的權重矩陣。在跨模態注意層的輸出后堆疊前饋網絡和層歸一化等,另外3個子層得到描述感知文本表示P=(p0,p1,…,pn+1),如式(10)-(11)所示:

(10)

(11)
其中FFN表示前饋網絡,LN表示層歸一化。在利用圖像描述填補了文本與相關圖像間的語義空白后,再利用圖像與描述感知文本做跨模態注意力,將W∈d×49作為查詢,將P∈d×(n+1)作為鍵和值,與文本和描述的融合方法相似,疊加3個子層后輸出Z=(z1,z2,…,z49),由于以視覺表示作為查詢,所以生成的向量zi都對應于第i個視覺塊,而非第i個輸入字符,因此另外加入一個跨模態注意力層,以文本表示R作為查詢,并將Z作為鍵和值,該跨模態注意力層生成最終的圖像感知文本表示H=(h0,h1,…,hn+1)。

圖4 多模態協同交互模塊的框架結構
為了將每個單詞與其密切相關的視覺塊對齊,加入跨模態注意力層為視覺塊分配不同的注意力權重。將P作為查詢,W作為鍵和值。與圖像引導的文本模態融合對稱,文本引導的圖像模態融合會生成具有單詞感知能力的視覺表示,用Q=(q0,q1,…,qn+1)表示。
相關圖像中,部分文本中的一些視覺塊可能與單詞沒有任何關聯,同時,文本中的一些單詞如助詞、數詞等也與視覺塊少有關聯。因此,本文應用一個視覺門控來動態控制每個視覺塊特征的貢獻,如式(12)所示:
g=σ((Wh)TH+(Wq)TQ),
(12)
其中{Wh,Wq}∈d×d是權重矩陣,σ是元素級的S型激活函數?;趧討B視覺門控,得到最終的文本感知視覺表示為G=(g0,g1,…,gn+1)。
在得到最終的圖像感知文本表示H和最終的文本感知視覺表示G后,本文將H和G拼接,得到圖像與文本最終融合的隱藏層表示A=(a0,a1,…,an+1),其中ai∈2d。
在命名實體識別任務中,輸出標簽對其鄰域有著強依賴性,如I-LOC不會出現在B-PER后。多模態協同交互只考慮了圖文對數據中上下文的信息,而沒有考慮標簽間的依賴關系,因此,本文添加了一個條件隨機場(Conditional Random Field,CRF)來標記全局最優序列,并將隱藏層表示A轉化為最佳標記序列y=(y0,y1,…,yn+1),CRF可以有效提升此類任務的性能。本文對給定的輸入句子S及其關聯圖像I的標簽序列y計算如下:
(13)
(14)
(15)


(16)
經上述學習得到全局最優標注序列。
為驗證本文提出的方法,使用python語言,利用pytorch等技術在Ubuntu系統上搭建實驗環境,在Twitter-2015和Twitter-2017兩個公共數據集上進行實驗,數據集信息如表1所示。
對于實驗中比較的每種單模態和多模態方法,考慮到文本數據的實際輸入范圍,將句子輸入的最大長度設置為128??紤]到訓練速度的內存大小,將批處理大小設置為8。對于本方法,對預訓練語言模型的參數設置大多數遵循原始論文設置。使用ALBERT-Base模型進行文本抽取初始化,使用預訓練的Res2Net-101來初始化視覺表示,并在訓練中保持大小固定。對于多頭自注意力層和多頭跨模態注意力層,考慮訓練效率與精度,在經過調整訓練后使用12個頭和768個隱藏單元。同時,經過對超參數多次微調,將學習率、dropout率和權衡參數λ分別設置為5e-5,0.1和0.5,可以在兩個數據集的開發集上獲得最好的性能。

表1 數據集詳情
本實驗使用召回率(Recall)、準確率(Precision)、F1值作為實驗評價指標,與HBiLSTM-CRF-GVATT[5]、BERT-CRF-GVATT[5]、AdaCAN-CNN-BiLSTM-CRF[3]等12種方法的對比結果如表2所示。

表2 對比實驗結果

續表
實驗結果表明,圖文聯合方法通??梢垣@得更好的性能,本文方法在Twitter-2017數據集上的準確率、召回率、F1值較對比方法中的最優方法UMGF分別提高了0.67%、2.26%和0.93%;在Twitter-2015數據集上,召回率提高了0.19%。
對于單模態方法,預訓練的方法明顯優于傳統的神經網絡。例如,BERT-CRF在Twitter-2017數據集上準確率、召回率、F1值的表現比HiBiLSTM-CRF分別高出0.29%、6.3%和3.34%,表明預訓練模型在NER中具有明顯的優勢。使用CRF解碼的BERT-CRF的性能優于使用softmax的BERT-softmax,說明CRF層對NER的有效性。通過對比單模態與多模態方法,可以看到多模態方法的性能明顯優于單模態方法。例如,加入視覺門控注意力后,在兩個數據集上HBiLSTM-CRF較之前的F1值分別提高了1.63%和1.5%。此外,相較于AGBAN、UMT-BERT-CRF等未使用圖像描述的模型,本文方法的性能表現更好,表明結合圖像描述有助于完成NER任務。
針對本文方法在Twitter-2015數據集上表現不佳的情況,本文對數據集的內容進行分析,統計兩個數據集的實體分布狀態,通過對比圖文間實體分布的不同,反映出數據集的圖文關聯程度,并人工抽樣統計數據集的圖文關聯度,如圖5所示。
從圖5可以看到數據集中文本實體分布與圖像實體分布之間的差異,圖像實體與文本實體并不是完全對應的,圖像中的實體對象總量一般會多于其對應的文本所含的命名實體數量,這一差別也體現了數據集中圖像文本對之間存在無關聯或弱關聯情況。對比數據集的圖文內容后發現,Twitter-2015中圖文無關聯或弱關聯現象比Twitter-2017中更多,而對本文所提出的方法,圖像描述與圖像本身有著更高的關聯性,因此,在圖文無關聯或弱關聯的圖文對數據中,圖像描述與文本的語義差距會更大,這也意味著在進行命名實體識別時,帶入了無關的噪聲數據。由此分析,本文提出的加強圖文間融合的方法可以為圖文存在相關性的MNER帶來益處,但對于圖文顯著無關的情況仍有待改進。

圖5 數據集實體量對比圖
為了研究本文圖文聯合命名實體識別模型中模塊的有效性,對模型的核心部件進行消融實驗。如表3所示,圖像描述、視覺門控、圖像感知文本融合均對模型生效起重要影響,在去掉圖像描述后,模型在Twitter-2017數據集上的表現明顯變差,而在Twitter-2015數據集上的表現卻并沒有下滑甚至略有提升,這佐證了4.2節的觀點,即加入圖像描述所帶來的影響會因圖文數據關聯度不同而不同,圖文間關聯度更大,可以為NER任務提供幫助;若圖文間關聯度不足則可能會起到相反的作用。在多模態協同交互模塊中,去除圖像感知文本表示后性能明顯下降,顯示它對模型有不可或缺的作用。而去除視覺門控也會導致輕微的性能下降,這體現了它對整個模型有著一定的重要性。

表3 消融實驗
本文針對現有MNER研究中存在的噪聲影響和圖文語義融合不足的問題,提出了一種多模態語義協同交互的圖文聯合命名實體識別(ITJNER)模型。以圖像描述豐富多模態特征表示和圖像語義信息的表達,減少圖文交互中有效語義信息的丟失,提出一種將多頭跨模態注意力、多頭自注意力、門控機制相互耦合的多模態協同交互方法,可以在實現圖文語義間有效融合的同時,抑制多模態交互中的不完整或錯誤的語義信息。實驗結果表明,本模型有助于提取圖文間的共同語義信息且在圖文關聯度更高的數據中表現更優,但本模型對于圖文關聯度較低的數據的準確率仍有待提升。
在未來的工作中,考慮增強模型對圖文不相關數據的處理能力,能夠排除過濾無關數據噪聲對模型的影響,以獲得一個更健壯的NER模型,同時考慮通過融合知識圖譜實現多模態數據的語義表達,并反向推動知識圖譜的構建。