999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT和注意力引導圖卷積網絡的關系抽取

2023-02-27 09:49:52徐瑞涓高建瓴
智能計算機與應用 2023年2期
關鍵詞:文本模型

徐瑞涓, 高建瓴

(貴州大學 大數據與信息工程學院, 貴陽 550025)

0 引 言

隨著互聯網技術的發展和日益激增的網絡數據,從大量數據中獲取關鍵信息是當前自然語言處理(Natural Language Processing,NLP)任務中的一個研究熱點,良好的關系抽取(Relation Extraction,RE)表現為自然語言處理的下游任務奠定了基礎。實體關系抽取的任務的目標是從非結構化文本中抽取出實體關系三元組(SPO)。傳統的關系抽取方法主要有兩種主流框架,第一種是流水線的方法,第二種是聯合抽取的方法。流水線的方法首先識別句中的實體,然后進行實體關系的抽取,該方法形式簡單,操作靈活,但缺點仍然很明顯,其級聯特性在進行實體抽取時產生的誤差會一直延續到關系抽取任務中,造成錯誤傳播[1]。針對流水線方法存在的缺點,聯合抽取的方法將實體識別和關系抽取兩個任務合并在一個模型中進行統一建模,但是此方法模型的復雜性比較高。

雖然傳統的流水線方法和聯合抽取的方法已經在實體關系抽取任務中有出色的表現,但都不能處理歐幾里得空間數據,并且在文本中存在重疊關系時,往往只能預測出一種關系,因此傳統的關系抽取模型依舊面臨挑戰。

在通過圖卷積網絡進行關系抽取任務中,依存分析圖是常用的構圖方式之一,依存分析圖展示了文本之間的依賴關系?;谝来骊P系的模型,能夠捕獲字面形式上比較模糊的遠距離句法關系(如從句比較長或者有著復雜的范圍限定的情況)[2]。2018年Zhang等人[3]針對依存樹中包含大量無關系信息,提出一種基于修剪依存樹的圖卷積神經網絡,并用于實體關系抽取問題,將修剪后的句法依存樹引入圖卷積網絡進行實體關系抽取任務。2019年,Guo等人[4]提出了注意力引導的圖卷積網絡模型AGGCN,將完整的依存樹作為模型的輸入,結合多頭注意力機制使模型自動學習不同特征空間有用的子結構,再通過注意力引導層使用多頭注意力機制構造N個注意力引導鄰接矩陣,將輸入依存樹轉換為N個不同的全連接加權圖后進行關系分類任務。Tian等人[5]提出一種依賴驅動的方法,將基于圖卷積網絡的注意力機制應用于從現成的依賴解析器獲得的依賴樹中的不同上下文詞匯,以區分不同詞匯依賴的重要性。本文提出一種基于BERT和注意力引導圖卷積網絡的關系抽取的方式。首先,在模型表示層摒棄傳統的詞向量表示方法,引入預訓練模型BERT結合Bi-LSTM網絡,訓練出更適應上下文信息的詞向量,經過微調后的BERT模型將更適應于當前語料并具備更好的語義信息,增強模型的泛化能力;其次,在構建的依存圖中,采用最短路徑的修剪樹的方式,修剪掉圖中的無關信息,降低噪聲詞的影響,增強其魯棒性;最后,將多頭注意力機制與圖卷積網絡融合,使得模型能夠學習到不同子空間的特征和不同重要程度的信息,結合密集連接,使模型能夠更好地學習圖形表示。

1 方法介紹

本文的模型ASP-GCN(shortest path attention-guided graph convolutional network)總體框架如圖1所示。模型主要由BERT詞向量表示模塊,Bi-LSTM網絡模塊,融合最短路徑注意力引導圖卷積網絡模塊(graph convolutional network ,GCN)構成。

圖1 ASP-GCN總體框架

1.1 基于BERT的表示層

在自然語言處理任務中,模型執行任務的第一步是將文本轉化為計算機能夠理解的表達形式,輸入到模型中進行接下來的操作。2018年Devlin等[6]提出BERT預訓練模型,以Transformer模型的編碼器作為基模型和多頭注意力機制構建的模型,保存深層的特征信息,具有很好的泛化能力。

例如輸入句子L={w1,w2,…,wn}是帶有“[CLS]”和“[SEP]”的句子序列,n為模型設置的輸入句子的最大長度,其輸入表示包含3個部分,分別是詞嵌入(token embedding),位置嵌入(position embedding)和分割嵌入(segment embedding)3個嵌入特征的單位和,如圖2所示。BERT模型處理每一個wi的輸出向量ei計算方式,式(1):

ei=Etoken(wi)+Eseg(wi)+Epos(wi)

(1)

圖2 BERT模型輸入結構

將模型輸出的[e1,e2,…,en]向量作為BERT模型內部Transformer編碼網絡部分的輸入表示,如圖3所示。

圖3 BERT模型網絡結構

BERT通過預訓練完成模型參數的微調,得出輸入序列的詞嵌入表示為[T1,T2,…,Tn]。相比傳統的Word2vec,Glove等預訓練模型來說,BERT更能夠充分考慮抽取文本的上下文信息,獲得更為精確的詞向量。

1.2 Bi-LSTM層

長短期記憶神經網絡(Long Short Term Memory,LSTM)是一種改進型的RNN模型,該模型有效地解決了傳統RNN模型存在的梯度消失,從而限制網絡學習長期依賴的問題[7]。Bi-LSTM模型是由結構相同的前向LSTM和后向LSTM構成,如圖4所示。

圖4 Bi-LSTM網絡結構

將前向LSTM的隱藏向量[hL1,hL2,…,hLn]和后向LSTM的隱藏向量[hR1,hR2,…,hRn]拼接得到Bi-LSTM網絡的隱藏向量矩陣H=[h1,h2,…,hn],H∈Rn×2h。

現有GCN模型高度依賴從正確的解析樹中提取關鍵信息,而現有的解析算法在許多情況下產生的并不是一棵完美的樹,為了解決這些問題,本文在模型中加入Bi-LSTM層,通過BERT預訓練后每個詞表示為一個向量Tn,將詞向量表示Tn輸入到Bi-LSTM中,得到句中每個單詞基于上下文的特征向量hn計算如式(2):

hn=BiLSTM(Tn;θ)

(2)

其中,Tn為Bi-LSTM的隱藏狀態向量,θ為網絡參數。

通過加入Bi-LSTM層,模型中包含了除關鍵路徑以外的其他信息,與僅僅只用最短路徑的方法相比,其魯棒性得到了很大的提升。

1.3 GCN模塊

此模塊包含兩個部分,第一部分是多頭注意力機制,用以分別關注文本中來自不同子空間的特征,生成不同的全連通圖;第二部分是將全連通圖輸入圖卷積網中進行特征提取。

1.3.1 依存句法分析

在圖卷積網絡進行關系抽取任務中,無用信息過多會引起噪聲傳播,導致句子中的有效信息很難被關系抽取模型有效地學習,依存句法分析是自然語言處理中傳統的分析方法之一,在關系抽取任務中已經取得不錯的效果。

依存關系主要通過有向弧來體現句子成分支配與被支配關系,句中的動詞往往被認為是支配語句的核心。因此,本文所構建的依存句法圖是以句中單詞作為節點,依存關系作為邊的結構圖,例如:對句子“John hit the ball with the bat ”進行語義依存分析,得到語義依存圖如圖5所示,用7條從中心詞指向依存詞的有向邊表示存在7對依存關系,依存邊上標注的標簽為依存關系類型,其中單詞“hit”為根節點, “John”和“hit”具有依存關系,“hit”是中心詞,“John”是依存詞,二者之間的關系標簽是“NSUBJ”(名詞充當主語)。

圖5 語義依存樹

為了去除語法依存圖中的冗余信息,消除噪聲對后續關系抽取的影響,本文在依存句法圖的基礎上,獲取句子最短依存路徑(SDP)。大量研究證明最短路徑可以有效表示實體之間的語義關系結構,路徑中包含的詞匯信息足夠表征大多數文本的主要信息,對于句中存在否定關系的特殊情況,最短路徑的修剪方法容易忽略句中的否定關系詞,因此本文模型中融合了最短路徑為中心的修剪樹方式,最大限度保留有關內容的同時,刪除樹中的無關信息,提高模型的魯棒性。

1.3.2 多頭注意力機制引導層

多頭注意力機制可以學習不同特征空間詞之間的依賴關系和句中不同成分對詞的重要程度[8]。本文將修剪好的樹融合多頭注意力機制分別關注文本中來自不同子空間的特征,并將不同特征的依賴樹轉換為完全連通的加權圖,得到每個連通圖的鄰接矩陣A,圖中每條邊對應相應的權重。如:A(1)為圖G(1)的鄰接矩陣,A(n)為圖G(n)的鄰接矩陣。將任意鄰接矩陣A(t)與Bi-LSTM網絡的輸出hn作為后面圖卷積層的輸入。通過注意力引導層使用注意力來誘導節點之間的關系,對于通過間接多跳路徑連接的節點,可以通過模型中的可微分函數來捕捉這些關系。

在本文提出的模型中,通過使用多頭注意力機制來計算屬于鄰接矩陣A(t)的信息,A(t)表示通過第t個頭注意力得到的鄰接矩陣,這使得模型能夠關注來自不同表示子空間的信息,計算公式(3):

(3)

通過注意力引導層,經過密集連接層得到一個更大的全連接圖,可以更好地學習圖表示。

1.3.3 圖卷積網絡

本文在特征提取和依存樹后引入圖卷積網絡(Graph Convolutional Network,GCN)進一步對特征進行處理,通過構建依存句法圖,獲取最短路徑為中心的依存圖,結合多頭注意力機制關注不同子空間的信息,生成多個帶有權重的全連通圖,并各自轉化為相應的鄰接矩陣A(t)。通過BERT預訓練模型對輸入文本進行編碼,Bi-LSTM網絡融合上下文信息,得到輸入文本的詞嵌入表示,將鄰接矩陣A(t)作為輸入詞嵌入的權值,將加權結果輸入到GCN中進行特征提取。

(4)

1.4 線性連接層

在本文的模型中包含了一個線性連接層,當依存樹通過多頭注意力層后,可以得到n個不同的注意力權重矩陣A(t),相當于在圖卷積網絡的輸入鄰接矩陣輸入模型中進行特征提取,可以得到N個不同的輸出結構,本文利用線性連接層集成n個不同的結果,整合成最終的輸出特征hcomb, 其輸出的數學定義如式(5)所示:

hcomb=Wcombhout+bcomb

(5)

其中,hout表示注意力引導層的輸出結果,hout=[h(1),h(2),…,h(n)];Wcomb為權重矩陣;bcomb為線性偏置向量。

1.5 關系抽取

應用本文模型的數據,獲得了所有標記的隱藏表示,關系抽取的任務就是預測兩實體之間的關系。連接句子表示和實體表示,得到關系分類的最終表示[10]。首先,需要獲得句子表示hsent,計算公式(6)如下:

hsent=f(hmask)=f(ASP-GCN(x))

(6)

其中,hmask表示被mask所有隱藏表示,這里mask的意思是只選擇在句子中不是實體標記的標記表示,f:Rd×n→Rd×1是一個最大池化函數,其將n個輸出向量映射到1個句子向量。

類似的,也可以獲得實體表示。對于第i個實體的隱藏表示,其表示為式(7):

hei=f(hei)

(7)

實體表示與句子表示連接起來形成新的表示,新的表示應用于前饋神經網絡(Feed Forward Neural Network,FFNN),hfinal作為logistic回歸分類器的輸入進行關系的預測,式(8):

hfinal=FFNN([hsent;he1;...;hei])

(8)

2 實驗數據及分析

2.1 數據集和參數設置

本文使用TACRED數據集,該數據集包含41種關系類型和一種特殊的關系類型,即“無關系”類型,其中訓練集106 264條,驗證集22 631條,測試集15 509條。

自然語言處理任務中準確率(precise),召回率(recall),F1值是模型的評價指標。訓練過程中,為了使模型的效果更佳,需要對模型的參數進行調節,本文的模型中對于超參數的設置見表1。

表1 模型超參數設置

2.2 基線模型及評估方案

將本文模型與以下幾種模型進行對比:邏輯回歸分類器模型(LR),最短路徑模型(SDP-LSTM),樹結構神經網絡模型(Tree-LSTM),均使用修剪樹過后的GCN模型和C-GCN模型,最先進的位置感知模型(PA-LSTM),注意力導向圖卷積神經網絡模型(AGGCN),實驗結果見表2。

表2 各模型在TACRED數據集上的實驗結果比較

由表2可知,回歸分類器(LR)的準確率在所有模型中最高,但是召回率相對較低;與神經網絡模型(SDP-LSTM),(Tree-LSTM)和(PA-LSTM)的準確率相比,ASP-GCN模型的優勢較為明顯;以模型SDP-LSTM為例,ASP-GCN模型的準確率得到了10.2%的提高,這主要得益于GCN對于圖的特征提取能力;對于綜合指標F1值,ASP-GCN模型明顯優于同樣使用GCN網絡的C-GCN模型和AGGCN模型,說明本文模型中結合BERT預訓練,Bi-LSTM網絡,最短路徑為中心的修剪方法,多頭注意力機制對模型的抽取性能是有幫助的。由此可見,本文提出的模型也是關系抽取任務中一個具備一定競爭力的模型。

2.3 消融實驗

為了檢驗模型中各因素對關系抽取的影響,采用控制變量法進行實驗。實驗步驟如下:

(1)檢驗BERT預訓練模型對本模型抽取性能的影響,主要與glove詞嵌入模型進行比較;

(2)檢驗Bi-LSTM對本模型抽取性能的影響;

(3)檢驗最短路徑修剪樹方法對本模型抽取性能的影響;

(4)檢驗多頭注意力機制對本模型抽取性能的影響。

4種模型的抽取結果見表3。由表3可知:

(1)將ASP-GCN模型中BERT預訓練模型換成glove模型后F1值降低了1.1%,這說明BERT強大的語義表征能力對于模型后續任務有很大的幫助;

(2)刪除Bi-LSTM層后,ASP-GCN模型的F1降低了2.7%,這說明Bi-LSTM對文本特征進行初次提取有益于模型后續的處理;

(3)刪除最短路徑為中心的剪枝方式后,ASP-GCN模型的F1值降低了1.1%,說明篩選出文本中的無用信息,不僅可以提高模型的運行速率,還能提高模型的抽取性能;

(4)刪除多頭注意力時,模型F1值降低了2%,說明通過關注不同子空間的特征對模型的抽取任務有很大的作用。

2.4 注意力多頭數分析

為了驗證模型中多頭注意力機制對模型結果的影響,實驗分別對比了注意力頭數N的不同取值的不同模型效果,實驗結果見表4所示,由表4可以看出,不同頭數的注意力機制會對模型產生不同的影響,模型的最優值屬于一定的范圍,取值較小時,模型的特征提取能力較弱,取值較大時,可能會帶來信息冗余,當N=3時,模型效果相對較好。

表4 不同多頭取值模型效果

2.5 以路徑為中心的剪枝效果

為證明本文提出的剪枝方法的有效性,比較了GCN模型,Tree-LSTM模型和本文模型的剪枝距離L變化對模型的影響。在TACRED數據集上分別采用L={0,1,2,3}時得到的結果如圖6所示。

圖6 以路徑為中心的修剪距離(K)

當K=1時,3個模型的性能都達到了峰值,優于各自模型的其他依賴路徑模型。表明通過K=1的路徑為中心的修剪方式可以使模型得到改善。

3 結束語

本文提出了一種基于BERT和注意力引導圖卷積網絡的關系抽取模型,通過實驗證實了在使用圖卷積進行關系抽取的任務中,通過BERT預訓練模型與Bi-LSTM結合對文本進行表征,加入最短路徑修剪樹,以及利用多頭注意力機制等方式對于整個圖卷積模型進行關系抽取任務來說是有益的,得到的結果均優于本文提及的其它基于深度學習的基線模型,從而證明了本文模型的合理性。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 97久久免费视频| 成人午夜亚洲影视在线观看| 在线另类稀缺国产呦| 毛片手机在线看| 中文成人在线| 亚洲水蜜桃久久综合网站| 亚洲黄色片免费看| 亚洲综合天堂网| 欧美精品在线观看视频| 影音先锋亚洲无码| 妇女自拍偷自拍亚洲精品| 亚洲不卡无码av中文字幕| 狼友av永久网站免费观看| 亚洲三级a| 第一区免费在线观看| 8090成人午夜精品| 欧美亚洲香蕉| 在线色国产| 日本午夜精品一本在线观看| 亚洲天堂精品视频| 欧美亚洲一区二区三区导航| 97se亚洲综合| 911亚洲精品| 亚洲成a人片在线观看88| 国产精品毛片一区| 欧美日韩国产综合视频在线观看| 天天摸夜夜操| 99伊人精品| 亚洲国产中文在线二区三区免| 日本91视频| 欧美伦理一区| 原味小视频在线www国产| 国产男人的天堂| 国产在线观看一区精品| 人妻丰满熟妇啪啪| 99热这里只有精品国产99| 欧美一级夜夜爽www| 国产日韩丝袜一二三区| 亚洲国产第一区二区香蕉| 国产一级二级在线观看| 在线国产欧美| 成人国产精品一级毛片天堂| 日韩在线成年视频人网站观看| lhav亚洲精品| 免费jjzz在在线播放国产| 网久久综合| 亚洲午夜福利在线| 亚洲伊人电影| 狠狠操夜夜爽| 人人看人人鲁狠狠高清| 美女无遮挡被啪啪到高潮免费| 在线欧美a| 麻豆精品视频在线原创| 亚欧美国产综合| 一区二区在线视频免费观看| 91系列在线观看| 亚洲国产成人久久精品软件 | 国产一区二区三区精品久久呦| 国产高清在线观看| 亚洲性网站| 欧美国产菊爆免费观看 | 在线观看免费人成视频色快速| 国产激情无码一区二区免费| 找国产毛片看| 1024国产在线| 看av免费毛片手机播放| 亚洲午夜国产精品无卡| 热这里只有精品国产热门精品| 欧美一区二区丝袜高跟鞋| 国产另类视频| 欧美区日韩区| 97se亚洲综合在线| 99热这里只有成人精品国产| 欧美专区在线观看| 日本在线国产| 伊人久久综在合线亚洲2019| 狼友av永久网站免费观看| 视频一本大道香蕉久在线播放 | 亚洲一区二区日韩欧美gif| 精品人妻无码中字系列| 国产不卡一级毛片视频| 玖玖精品在线|