吳海鵬,錢育蓉,3,冷洪勇
(1.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.新疆維吾爾自治區信號檢測與處理重點實驗室,新疆 烏魯木齊830046;3.新疆大學軟件學院,新疆 烏魯木齊 830046)
關系抽取是知識圖譜構建的基本任務,也是自然語言處理(NLP)的重要任務之一,旨在從給定句子中抽取出實體間的關系。傳統的關系抽取方法主要是純文本的單模態方法,只利用文本信息進行關系抽取。傳統關系抽取方法通常從一段文本中提取出指定的關系三元組,具體表現形式為
近些年,社交網絡發展迅速,單模態的關系抽取方法已經無法滿足海量多模態數據抽取的需求,因此多模態關系抽取技術應運而生。多模態關系抽取任務的輸入為一個多模態實例L,它包含一個文本T和一個與文本關聯的圖像I。文本T由一個單詞序列組成,即T={w1,w2,…,wi,…,wn},其中,wi表示第i個單詞。在文本T中,有2個被標記的實體E1和E2,任務的目標是利用文本T以及圖像I的信息預測實體E1和E2之間的關系類型r。
現有的多模態關系抽取方法利用圖像數據作為文本數據的補充,以輔助模型進行關系抽取,但實際上圖像中往往存在與文本無關的冗余信息,而在現有方法下這些冗余信息最終會影響關系抽取的結果。
為了解決這一問題,本文提出一種基于雙向注意力機制的多模態關系抽取模型。與僅計算圖像到文本的單向注意力的現有模型不同,該模型利用雙向注意力機制計算圖像到文本與文本到圖像2個方向上的注意力分布。這樣圖像中與文本更相關的物體將被賦予較高的權重,而與文本無關的冗余信息被賦予較低的權重。通過該模型可以在多模態關系抽取中削弱冗余信息的影響,從而提高抽取結果的準確性,并且在公開的用于神經關系提取的多模式數據集(MNRE)[1]上進行了實驗驗證。
關系抽取作為知識圖譜構建的關鍵環節[2],長期以來都是學者們關注和研究的重要領域。早期的關系抽取方法主要是基于統計學[3],近年來隨著神經網絡與深度學習的興起,大量基于深度學習與神經網絡的方法開始出現。
基于神經網絡的關系抽取方法起初多數依賴于外部NLP工具[4],容易受到NLP工具帶來的錯誤影響,學者們對此進行了大量研究。WANG等[5]提出一個基于多級注意力卷積神經網絡的抽取模型,該模型在不使用NLP工具的前提下依然取得了較好的效果。ZHANG等[6]提出一種基于長短期記憶(LSTM)網絡的關系抽取模型,該模型可以有效地從文本中挑選相關內容而摒棄無關內容,從而提升了抽取效果。ZENG等[7]利用多示例學習有效地解決了抽取過程中的噪聲問題。WEI等[8]提出一個重疊式的指針網絡較好地解決了關系抽取中存在的實體重疊問題。SOARES等[9]通過在來自Transformer的雙向編碼器表示(BERT)預訓練過程中額外添加匹配空白(MTB)任務,有效地提升了關系抽取性能。
雖然以上方法在面向純文本的關系抽取任務上都取得了良好的效果,但面對多模態數據時卻往往因為文本中信息缺失而表現不佳。
已有抽取方法主要是針對純文本信息進行抽取,一般只利用了文本的單模態信息,隨著社交平臺的盛行,面對大量的多模態信息,面向純文本的單模態抽取方法已經無法滿足社交媒體等多模態場景下的關系抽取需求[10-12],并且多模態關系抽取數據集也極為缺乏。為此,ZHENG等[1]提出MNRE數據集以解決多模態關系抽取數據集匱乏的問題,之后ZHENG等[10]又提出高效圖對齊的多模式關系抽取(MEGA)模型。該模型將圖像信息視為對文本信息的補充,利用視覺信息輔助模型進行關系抽取并利用注意力機制對齊語義,在獲得對齊后的文本表示后再進行關系抽取。
MEGA在多模態數據集上的抽取效果明顯優于傳統單模態抽取模型,然而存在信息冗余問題,圖像中與文本語義無關的物體也被學習到對齊后的文本表示中,對抽取結果造成干擾。為解決這一問題,本文利用雙向注意力機制緩解無關信息對抽取結果的干擾,進一步提升了關系抽取效果。
雙向注意力機制由SEO等[13]提出,之后被廣泛應用于機器閱讀理解領域。傳統的注意力機制只通過查詢項(query)到鍵(key)進行單向查詢,從而得出匯總值(value)所需的權重,建模的是查詢項到鍵之間的單向關系,而雙向注意力機制通過計算雙向查詢建模了查詢項與鍵之間的雙向關系。在很多場景下,查詢項與鍵往往是2種平行的數據,如多模態場景中平行的圖像和文本、平行的語音和文本等,在這樣的情況下,另一個方向上的查詢,即鍵到查詢項的查詢也具有實際含義。近年來,學者們開始探索將雙向注意力機制應用于相關領域。LI等[14]將雙向注意力機制應用于神經網絡強制對齊,實驗結果表明雙向注意力機制應用在2種平行的數據上能夠提升任務效果。黃宏展等[15]將雙向注意力機制引入多模態情感分析任務,實驗結果證明了雙向注意力機制在多模態場景下可以更充分地利用2種模態間的交互信息。
根據以上研究,本文提出基于雙向注意力機制的多模態關系抽取模型,將雙向注意力機制應用于多模態關系抽取任務,以緩解無關信息對抽取結果的干擾,使模型能更準確地抽取關系。
基于雙向注意力機制的多模態關系抽取模型由特征表示層、多模態特征對齊層、多模態特征融合層和輸出層4個部分組成,如圖1所示(彩色效果見《計算機工程》官網HTML版)。特征表示層分為語義特征表示層和結構特征表示層,通過BERT模型和依存句法樹分別提取文本的語義特征表示和文本的結構特征表示,并利用一個以Faster R-CNN為骨干網絡的場景圖生成模型同時提取圖像的語義特征與結構特征。多模態特征對齊層分為語義特征對齊層與結構特征對齊層,分別進行結構特征的對齊與語義特征的對齊。多模態特征融合層將結構特征與語義特征整合成對齊后的視覺特征,再將文本中實體的語義表示與對齊后的視覺表示連接起來形成文本與圖像的融合特征。輸出層對融合特征計算所有關系分類的概率分數并輸出預測關系。

圖1 基于雙向注意力機制的多模態關系抽取模型結構Fig.1 Structure of multimodal relation extraction model based on bidirectional attention mechanism
2.1.1 語義特征表示層
MNRE數據集中每條數據都包含了一段文本描述和一張與其對應的圖片。對數據中的文本信息,采用BERT模型作為編碼器提取特征,具體步驟如下:
1)將文本信息轉換為一個token序列s1,在序列頭部增加“[CLS]”標記,在序列尾部增加“[SEP]”標記。

3)通過對數據集的觀察以及對實驗效果的權衡取n=128作為token序列的最大長度,用“[PAD]”標記將小于最大長度n的輸入序列填充到最大長度n。
4)通過設置segment序列區分序列中的有效部分與填充部分,segment序列可以表示為s2=(1,1,…,1,…,0,0),數字“1”表示有效部分,數字“0”表示填充部分。
5)通過詞嵌入與字符嵌入相結合來表示輸入文本中的詞,以充分獲取文本特征。


(1)
為了獲取視覺信息,采用對象級視覺特征(OLVF)作為圖像信息表示[16],OLVF是一種自下而上的圖像信息表示方式,通過提取視覺對象表示獲取輸入圖像的語義特征。為了提取圖片中的視覺對象,利用以Faster R-CNN為骨干網絡的場景圖生成模型,將圖像輸入場景圖生成模型獲取輸入圖像的場景圖。在場景圖中包含多個節點以及與節點相關的邊,節點包含視覺對象的特征,而邊則表示不同視覺對象之間的視覺關系。
輸入圖像被表示為所提取的場景圖中的一組區域視覺特征,其中每個區域視覺特征代表圖像中的一個視覺對象,并以一個維度為dy的向量yi來表示。為檢測到的視覺對象設置一個置信度閾值,若大于該閾值則將其視為視覺對象,該閾值的具體取值由深度神經網絡訓練得到。為盡量減少圖像中無關對象對抽取結果的干擾,取置信度較大的前m個視覺對象作為圖像的視覺特征,通過對實驗效果的觀察,在實驗中取m=10能取得較好的效果。最后,輸入圖像被轉換為矩陣Y,若圖像中檢測到的視覺對象數量少于m,則通過零填充將矩陣Y擴充到最大尺寸m,如式(2)所示:
Y= [y1,y2,…,ym]m×dy
(2)
2.1.2 結構特征表示層
在以往的工作中,句子的結構(如依存句法樹)能為關系抽取提供重要信息[17],因此利用依存句法樹和場景圖生成模型分別為輸入文本和圖像生成2個單向圖,以提供協助多模態關系抽取的結構特征信息。
依存句法樹是一種表示詞與詞之間關系的結構,依存句法樹能夠為關系抽取提供重要信息,句子中2個詞之間對應的依賴可以被表示為如式(3)所示的依存關系三元組:
Rdependency=(wg,rtype,wd)
(3)
其中:wg是支配詞;wd是從屬詞;rtype表示從屬詞對支配詞的修飾關系。使用ELMo模型[18]作為句法樹提取工具,獲取輸入文本的依存句法樹及對應的依存關系三元組。生成的依存樹的圖表示記作G1,如式(4)所示:
G1=(V1,E1)
(4)
其中:V1是圖中點的集合,代表句子中的支配詞和從屬詞;E1是圖中邊的集合,代表2個詞之間的依賴關系。
通過場景圖生成模型獲取輸入圖像中的m個視覺對象以及視覺對象間的視覺關系,由于視覺對象間的關系都是單向的,因此類似于依賴樹,在圖像中的每個視覺對象也會被它的關聯對象所指向,最后獲得輸入圖像的圖表示G2。G2由圖像中檢測到的視覺對象及視覺對象間的關系組成,如式(5)所示:
G2=(V2,E2)
(5)
其中:V2是圖中點的集合,代表圖像中檢測到的視覺對象;E2是圖中邊的集合,代表視覺對象間的視覺關系。
通過生成圖G1和G2得到輸入文本和圖片的結構特征信息。
為了充分利用文本與圖像間的交互信息,從語義和結構2個方面對齊多模態特征,利用雙向注意力機制對齊語義特征,并利用節點間的相似性對圖G1和G2進行結構對齊。
2.2.1 語義對齊
現有的多模態關系抽取模型主要依賴注意力機制,實現圖像到文本方向的單向對齊,以獲取對齊后的文本語義表示。然而,實際上圖像中往往存在與文本無關的冗余信息。例如,在圖1中,輸入圖像中檢測到的視覺對象“cup”顯然與對應文本無關,但在單向對齊過程中,對象“cup”的信息也會被學習到對齊后的文本表示中,從而影響關系抽取的準確性。
為解決這一問題,本文提出一種基于雙向注意力機制的多模態關系抽取模型,通過同時建立圖像到文本方向和文本到圖像方向的雙向對齊,通過賦予圖像中冗余信息較低的權重來降低其對文本語義表示的影響。這種雙向注意力機制有助于獲取包含雙向語義信息的文本語義表示,從而提高了關系抽取的準確性。
雙向注意力機制的輸入由query、key、value組成,其中,query為輸入圖像的語義表示,key和value為輸入文本的語義表示。為方便計算,將query、key和value的特征維度均設置為da,雙向注意力機制計算過程如圖2所示。

圖2 雙向注意力機制計算過程Fig.2 Calculation process of bidirectional attention mechanism
在圖2中,K1和V1為query矩陣Q∈m×da,K2為key矩陣K∈n×da,V2為value矩陣V∈n×da,m為圖像中檢測到的視覺對象的最大數量,n為文本最大長度。
首先,計算匹配矩陣A∈n×m,Ai,j表示輸入文本中第i個字與輸入圖像中第j個視覺對象間的相似性,匹配矩陣計算公式如式(6)所示:
A=Q×KT
(6)
通過匹配矩陣A計算圖像到文本方向與文本到圖像方向2個方向的注意力權重。圖像到文本方向的注意力權重W12的計算如式(7)所示:
W12=Softmax(A)
(7)
文本到圖像方向的注意力權重W21的計算如式(8)所示:
W21=Softmax(AT)
(8)
然后,計算得到圖像到文本方向上對齊后的文本語義表示O1和文本到圖像方向上對齊后的圖像語義表示O2,如式(9)所示:

(9)
其中:O1∈n×da;O2∈m×da。
最后,通過式(10)計算得到對齊后的語義權重β。

(10)
其中:da為文本語義表示O1與圖像語義表示O2的特征維度。
相較于現有的單向對齊機制,所提出的雙向對齊機制能夠增強文本語義表示的準確性,從而提升模型的性能。
2.2.2 圖結構對齊
利用節點信息來提取用于結構對齊的多模態圖表示的結構相似性。從2個圖集合G1(V1,E1)與G2(V2,E2)中提取節點集合V1與V2,通過計算2個圖集合間的節點相似性以獲取2個圖的結構相似性。具體計算步驟如下:
1)令集合U為節點集合V1、V2的并集,如式(11)所示:
U=V1∪V2
(11)
2)為提取節點間的結構相似性,對集合U中的每個節點u,計算其k跳鄰居的出度和入度,如式(12)、式(13)所示:

(12)

(13)
其中:k∈[1,K],K是圖直徑;δ∈(0,1]是折扣因子。
3)通過式(14)計算集合U中節點m∈V1和節點n∈V2之間的相似性:

(14)

4)計算2個圖之間的節點相似度,如式(15)所示,在計算完成后得到包含了結構相似性特征的矩陣α。
α=(αi,j)V1×V2
(15)
其中:αi,j表示文本中第i個詞與圖片中第j個視覺對象間的結構相似性。
采用圖結構對齊方法來捕捉文本與圖像之間的結構相似性。通過計算2個圖集合間的節點相似性,能夠獲取2個圖的結構相似性。這種方法有助于模型更好地捕捉多模態數據中的關系信息。
為充分利用對齊的語義信息β與結構信息α,首先,利用式(16)整合對齊信息,以獲取對齊后的視覺特征Y*。
Y*=(αT+β)V=αTV+YS
(16)
其中:V是視覺特征表示,通過整合語義對齊信息與結構對齊信息,由文本引導的視覺特征最終表示為矩陣Y*∈m×da;YS代表經過語義對齊處理后得到的視覺特征。
然后,將視覺對象特征整合為向量表示,作為多模態信息融合的視覺信息表示,如式(17)所示:

(17)



(18)

(19)
在多模態特征融合層中,通過整合對齊的語義信息與結構信息,得到了對齊后的視覺特征表示。將視覺對象特征整合為向量表示,并與文本中的實體表示拼接,以獲取最終的多模態特征表示。這種融合方法有效地將視覺信息和文本信息相結合,有助于捕捉多模態數據中的關聯信息,進而提高關系抽取的準確性和模型性能。
如式(20)所示,輸出層使用一個多層感知機(MLP)作為分類器來預測關系類別,并輸出各個關系對應的分類概率。
poutput=Softmax(MLP(z))
(20)
其中:poutput∈nr表示nr個預定義關系的分類概率。
實驗通過BERT模型初始化文本語義表示,特征維度dx為768,該取值是基于BERT預訓練模型的標準設置,已被證明在各種自然語言處理任務中能夠有效地學習文本特征。在場景圖中提取的視覺對象的特征維度dy為4 096,該取值是基于Faster R-CNN模型的設置,已被證明在各種視覺任務中能夠有效地檢測和提取目標對象的特征。語義對齊維度da為1 536,該維度是對文本和視覺特征進行整合的需要,使得多模態特征能夠在相同的語義空間中進行對齊和融合。通過對數據集的觀察和實驗效果的權衡,將token序列的最大長度n設置為128,經實驗驗證,將場景圖視覺對象最大數量m設置為10能夠取得較好的效果。模型采用AdamW優化器訓練目標函數,經實驗驗證,將初始學習率設置為0.000 02和批量大小設置為10能夠在訓練速度和模型性能之間達到較好的平衡。本文模型在NVIDIA RTX 3060顯卡上進行訓練。
目前,關于多模態關系抽取任務的相關研究較少,完全公開的數據集僅有MNRE數據集,本文所有實驗均在MNRE數據集上進行。MNRE數據集原始數據來源于多模態命名實體識別數據集Twitter15[19]與Twitter17[20],以及一些從推特上爬取的數據。ZHENG等[1]通過人工標記實體對間的關系并濾除原始數據中的部分錯誤樣本,構建了MNRE數據集。MNRE數據集包括音樂、運動、社會事件等主題,包含15 848個樣本、9 201張圖片與23種預定義的關系。
關系抽取工作的最終效果評價體系是在自動內容抽取(ACE)會議上提出的,以精確率(P)、召回率(R)及F1值(F1)為衡量指標,其計算公式如下:

(21)

(22)

(23)
其中:NTP表示被正確預測為關系r的樣本數;NFP表示被錯誤預測為關系r的樣本數;NFN表示被錯誤預測為其他關系的樣本數。
為驗證所提模型的有效性,與一些經典的單模態關系抽取模型和主流多模態關系抽取模型進行對比實驗,對比模型介紹如下:
1)分段卷積神經網絡(PCNN)模型[7]:是一種遠程監督關系抽取模型,利用外部知識圖自動標記包含相同實體的句子,利用文本信息進行關系抽取。
2)MTB模型[9]:是一種基于BERT的預訓練關系抽取模型,利用文本信息進行關系抽取。
3)統一多模態Transformer(UMT)模型[21]:將Transformer應用于多模態場景,利用圖文信息進行關系抽取。
4)統一多模態圖融合(UMGF)模型[22]:利用圖文信息進行關系抽取。
5)自適應共同注意力的預訓練關系抽取模型(AdapCoAtt-BERT)[23]:設計多模態場景下的共同注意力網絡,利用圖文信息進行關系抽取。
6)視覺預訓練關系抽取模型(VisualBERT)[24]:是基于BERT預訓練的多模態模型,利用圖文信息進行關系抽取。
7)視覺-語言預訓練關系抽取模型(ViLBERT)[25]:擴展了BERT以聯合表示圖像和文本,利用圖文信息進行關系抽取。
8)基于高效圖對齊的多模態關系抽取(MEGA)模型[1]:利用圖文信息進行關系抽取。
將所提模型與8個基準模型進行對比實驗,實驗結果如表1所示,其中最優指標值用加粗字體標示。

表1 在MNRE數據集上的實驗結果Table 1 Experimental results on the MNRE dataset %
由表1的實驗結果可以看出,多模態關系抽取模型一般優于單模態模型,這是因為多模態模型可以利用圖像信息作為文本信息的補充,得到更豐富的語義信息再進行關系抽取。通過表1中標注的最優指標值可以得知:所提模型較單模態關系抽取模型MTB的F1值提升了6.36個百分點;所提模型較表現最好的多模態關系抽取模型MEGA的F1值提升了0.91個百分點,這一提升歸功于所提模型采用雙向注意力機制來對齊多模態語義特征,使得模型能夠更有效地捕捉文本和圖像之間的相互依賴關系,從而提高關系抽取的準確性;所提模型相較于其他多模態關系抽取模型,在捕捉圖像和文本間關聯信息方面更加準確和高效。
為了進一步驗證雙向注意力機制的有效性,在MNRE數據集上進行了消融實驗,其中,-Biatt表示將所提模型中的雙向注意力機制替換為普通的單向注意力機制,-Att表示不使用注意力機制對齊圖像文本特征,只將圖像特征與文本特征直接相連作為語義特征。消融實驗結果如表2所示,在將雙向注意力機制替換為單向注意力機制后模型表現明顯下降,在去掉注意力機制之后,模型表現進一步下降,從而驗證了雙向注意力機制能夠有效地捕捉圖像和文本間的關聯信息。

表2 消融實驗結果Table 2 Results of ablation experiment %
本文提出基于雙向注意力機制的多模態關系抽取模型,將雙向注意力機制應用于多模態關系抽取任務,利用雙向注意力機制降低了圖像中冗余信息對關系抽取的影響,進一步提升了關系抽取效果。實驗結果表明,與一些經典的單模態關系抽取模型和主流多模態關系抽取模型相比,所提模型在精確率、召回率、F1值3項指標上均表現出明顯的優勢,驗證了所提模型的有效性。在未來的工作中,將考慮把一些傳統關系抽取模型引入多模態關系抽取任務以更充分地挖掘多模態語義信息,以不斷提升多模態關系抽取的性能,為相關領域的研究和應用提供有力支持。