999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Multi-head Attention和Bi-LSTM的實體關系分類①

2019-07-23 02:08:04于碧輝郭放達
計算機系統應用 2019年6期
關鍵詞:分類特征實驗

劉 峰,高 賽,于碧輝,郭放達

1(中國科學院大學,北京 100049)

2(中國科學院 沈陽計算技術研究所,沈陽 110168)

3(東北大學,沈陽 110819)

信息抽取是自然語言處理領域的一項重要任務,其目標是從普通的非結構化文本中抽取易于機器或程序理解的結構化信息,從而將互聯網上大量的信息存儲成一個龐大的知識庫,提供給用戶查看或者為其它自然語言處理任務提供服務.隨著信息技術的高速發展,網絡上的信息越來越龐大,信息抽取任務就變得愈發重要.

關系抽取作為信息抽取的一個重要組成部分,它旨在從語義層面發現實體之間的關系.關系抽取可以使用一組三元組來描述<Entity1,Relation,Entity2>,其中Entity1 和Entity2 表示實體,Relation 表示兩個實體之間的關系.例如“<e1>葉莉</e1>是<e2>姚明</e2>的妻子”.其中“<e1>”和“</e1>”這兩個符號聲明第一個實體為“葉莉”,“<e2>”和“</e2>”則聲明第二個實體為“姚明”.可以看出,兩個實體之間的關系是"配偶".在無監督或半監督學習領域,關系抽取是指從沒有任何預先確定的實體和關系類別中提取事實以及關系短語;在監督學習領域,關系抽取又可以看作一項關系分類任務,是指將包含已知實體對的文本的實體關系分類到一組已知的關系類別上.本文的研究是在具有既定關系和已知實體對的數據集上進行關系抽取任務,因此本文的關系抽取任務就是一項關系分類任務.

傳統的關系分類方法常用的有兩種,基于規則的方法和基于特征向量的方法.基于規則的方法需要領域專家的介入且需要人工構建大量的匹配規則,可擴展性差.基于特征的方法需要人工構建大量的特征,費時費力,且人工提取的特征都停留在詞法和句法層面,模型無法很好地捕獲文本的語義特征.近年來,隨著深度學習的發展,神經網絡模型開始應用在各類關系分類任務上,并取得出色表現.本文在此研究基礎上,提出基于多頭注意力機制(multi-head attention)和雙向長短時記憶網絡(Bi-LSTM)相結合的實體關系分類模型.本文主要貢獻如下:

(1)引入aulti-head Attention.它是self-attention的一種拓展,能夠從多個不同維度計算attention,從而使模型在不同子空間學習特征.

(2)模型的輸入在已有的詞向量和位置向量的基礎上,進一步引入依存句法特征和相對核心謂詞依賴特征作為輸入,可以使模型更好地捕獲句法信息,進一步提高模型分類的精度.

1 相關研究

目前,已有的關系分類方法包括:基于規則的方法、基于特征向量的方法、基于核函數的方法和基于深度學習模型的方法.

基于規則的方法需要依賴領域專家,通過構建大量的模式匹配規則進行關系分類,適合于特定領域的關系分類任務.Aone[1]等通過人工構建匹配規則開發了REES 系統,該系統可識別100 多種關系.Humphreys[2]等對文本進行句法分析,通過構建復雜的句法規則來識別實體間的關系.基于規則的方法需要領域專家的指導,耗時耗力,且系統可移植性差.

基于特征向量的方法需要人工構造特征,然后將特征轉化為向量,利用機器學習算法構建模型,將特征向量作為模型的輸入對實體對之間的關系進行分類.Kambhatla[3]等人通過結合詞匯特征、句法特征和語義特征,利用最大熵模型作為分類器,在ACE RDC2003的評測數據集上,最終分類的F值達到了52.8%.車萬翔[4]等人通過引入實體類型、兩個實體的出現順序、實體周圍的w個詞等特征,利用支持向量機(SVM)作為分類器,在ACE RDC2004 的評測數據集上,最終分類的F值達到了73.27%.基于機器學習的方法依賴于人工構造特征,其效果的好壞也嚴重依賴于特征選取的好壞,且為達到較高的分類性能往往需要從不同層次構造大量特征.

基于核函數的方法不需要顯示構造特征,因此避免了人工構造特征的過程.它將文本的字符串或者文本的句法樹作為輸入實例,使用核函數計算實例間的相似度來訓練分類器.在關系分類任務中使用核函數的方法最早是由Zelenko[5]等人引入的,他們在文本的淺層解析表示上定義核函數,并將核函數與支持向量機(SVM)和投票感知器學習算法相結合.實驗表明,該方法取得了良好的效果.

近年來,隨著深度學習的興起,越來越多的研究工作都嘗試使用神經網絡模型去解決問題,從而避免顯式的人工構造特征的過程.Liu CY 等人[6]在關系分類任務中最早嘗試使用卷積神經網絡自動學習特征.它建立了一個端到端(End-to-End)的網絡,該網絡利用同義詞向量和詞法特征對句子進行編碼,實驗結果表明,該模型在ACE 2005 數據集上的性能比當時最先進的基于核函數的模型的F值高出9 個百分點.Zeng DJ 等人[7]也使用了卷積神經網絡模型來進行關系分類,他們使用了預先在大型未標記語料庫上訓練的詞向量(Word Embedding),并首次將位置向量(Position Embedding)引入模型的輸入.最終該模型在SemEval-2010 任務8 的評測數據集上的F值達到了82.7%.

卷積神經網絡(CNN)雖然在關系抽取任務中取得了不錯的表現,然而CNN 不適合具有長距離依賴信息的學習.循環神經網絡(RNN)適用于解決具有長距離依賴的問題,但是它存在梯度消失問題,對上下文的處理就受到限制.為了解決這個問題,Hochreiter 和Schmidhuber 在1997年提出長短時記憶網絡(LSTM),該網絡通過引入門控單元來有效緩解RNN 的梯度消失問題.另外,近年來基于神經網絡和注意力機制(attention)相結合的模型也被廣泛應用在關系分類任務上.注意力機制是對人類大腦注意力機制的一種模擬,最早應用在圖像處理領域,Bahdanau 等人[8]最早將其應用在機器翻譯任務上.此后注意力機制就被廣泛地應用到各種NLP 任務中.Zhou P 等人[9]提出一種用于關系分類的神經網絡ATT-BLSTM.該模型利用長短時記憶網絡對句子進行建模,并結合自注意力機制(self-attention)來進一步捕捉句子中重要的語義信息.通過計算self-attention,可以得到句子內部詞之間依賴關系,捕獲句子內部結構.本文的研究在文獻[9]工作的基礎上,引入多頭注意力機制(multi-head attention),其本質是進行多次self-attention 計算,可以進一步提高實體關系分類精度.

2 基于Multi-head Attention 和Bi-LSTM 的關系分類算法

本文采用雙向長短時記憶網絡(Bi-LSTM)對文本特征進行建模.在將詞向量和相對位置向量作為網絡層輸入的基礎上,進一步考慮將依存句法特征和相對核心謂詞依賴特征引入網絡輸入層.將這兩個特征引入輸入層的原因是:

(1)依存句法分析可以很好地揭示文本句法結構,并且反映出兩個實體之間直接或間接的關系特征.

(2)大量研究表明,對一個句子的所有謂詞,核心謂詞對于識別實體邊界、承接實體關系起著至關重要的作用[10].因此每個詞與核心謂詞的相對依賴也是一種隱含特征,這種依賴關系必然也能反映出實體間的關系特征.

同時在網絡輸出層引入multi-head attention.Multi-head attention 由Vaswani[11]等人提出,基于Self-Attention.Self-Attention 通過計算每個詞和所有詞的注意力概率來捕獲句子的長距離依賴.所謂multi-head,就是進行多次Self-attention 計算,每次計算時使用的映射矩陣不同,最后將每一次計算結果進行拼接,作為最終multi head 計算結果.容易看出multi head attention 和單頭self-attention 相比,它可以學習多個映射器,進而從不同維度,不同子空間來表征特征.最后通過將多個特征進行拼接進行特征融合,可以使模型進一步提高特征表達能力.文獻[11]中的實驗結果表明,使用單頭注意力機制可以學習得到句子內部詞的某些長距離依賴關系,而multi-head attention 除了能夠加強這種學習能力以外,甚至能夠理解句子的句法和語義結構信息.因此本文引入multi-head attention思想,來進一步提高模型建模能力,從而提高實體關系分類的精度.

圖1 模型框架圖

本文的模型包含以下5 個部分,模型結構圖如圖2所示.

(1)文本預處理、特征提取.

(2)Embedding 層:將網絡輸入的各種特征全部映射為低維向量表示.

(3)Bi-LSTM 層:使用Bi-LSTM 對輸入信息進行建模,獲取高層特征表示.

(4)Multi-head attention 層:進行多次selfattention 計算,并將多次計算結果進行拼接和線性映射,獲取最終句子級特征表示.

(5)輸出層:采用SoftMax 函數作為分類器,將上一步得到的特征向量作為輸入,可以得到最終的關系類別.

圖2 模型結構圖

2.1 文本預處理、特征提取

以"<e1>葉莉</e1>是<e2>姚明</e2>的妻子"為例,使用哈工大的LTP 對句子進行分詞和依存句法分析,結果如下圖所示,抽取以下三個特征:

(1)相對位置特征PF.即句子中每個詞分別到實體1 和實體2 的距離.如例句中兩個實體分別是“葉莉”、“姚明”.每個詞到實體1“葉莉”的距離PF1={0,1,2,3,4};每個詞到實體2“姚明”的距離PF2={-2,-1,0,1,2}

(2)依存句法特征DP.特征DP 包含兩部分DP_NAME 和DP_PAR.DP_NAME 要獲取每一個詞在句子中的依存句法屬性值,那么例句的DP_NAME={SBV,HED,ATT,RAD,VOB};DP_PAR 要獲取每一個詞所依賴的詞在句子中的索引值,那么例句的DP_PAR={2,0,5,3,2}

(3)相對核心謂詞依賴特征DEP.根據句子中每個詞與核心謂詞是否存在依賴關系,將DEP 特征取值分為三類:DEP_S(核心謂詞本身),DEP_C(核心謂詞子節點),DEP_O(其它).容易看出例句的核心謂詞為“是”,那么例句的DEP={DEP_C,DEP_S,DEP_O,DEP_O,DEP_C}.

2.2 Embedding 層

假定句子S由T個詞組成,S={w1,w2,···,wT},對于每個詞wi都 要提取五種特征,用表示,其中1 ≤j≤5.每個特征所對應的特征向量矩陣分別為:{Wword,Wpf,Wdp_name,Wdp_par,Wdep}.Wword∈Rdw×|V|,Wf∈Rdv×|Vf|,dw是詞向量的維度,|V|表示數據集詞匯量大小.f∈{pf,dp_name,dp_par,dep},dv是相應特征向量的維度,Vf表示特征f取值類別個數.Wword使用一個預訓練好的詞向量矩陣[12],其余特征向量矩陣都采用隨機初始化的方式賦予初始值.使用式(1)對每個詞的各個特征進行Embedding,得到每個特征的向量化表示.

2.3 Bi-LSTM 層

LSTM 是RNN 的一種變體,它通過引入門控單元克服RNN 長期依賴問題從而緩解梯度消失.一個LSTM 單元由三個門組成,分別是輸入門it,遺忘門ft和輸出門ot.以特征embs={e1,e2,···,eT}作為輸入,將t作為當前時刻,ht-1表 示前一時刻隱層狀態值,ct-1表示前一時刻細胞單元狀態值,計算第t時刻詞對應的LSTM 各個狀態值:

通過以上計算,最終得到t時刻LSTM 隱層狀態的輸出值ht.在本文中使用的是Bi-LSTM.將前向LSTM 中t時刻隱層狀態值記為f_ht,將后向LSTM中t時刻隱層狀態的輸出值記為b_ht,則最終Bi-LSTM 第t時刻輸出值為:

2.4 Multi-head Attention 層

Multi-head attention 本質就是進行多次selfattention 計算,它可以使模型從不同表征子空間獲取更多層面的特征,從而使模型能夠捕獲句子更多的上下文信息.Multi-head attention 模型結構如圖3所示.

圖3 Multi-head attention

(1)單次self-attention 計算.使用符號H表示一個矩陣,它由Bi-LSTM 層所有時刻輸出向量組成[h1,h2,···,hT].使用符號r表示該層最終的輸出值,計算過程如下:

其中,H∈Rdh×T,dh是隱藏層節點數,w是一個參數向量.w,?和r的維度分別是dh,T,dh.經過selfattention 計算,可以得到單次attention 輸出特征值為:

(2)Multi-head attention 計算.即進行k次selfattention 計算.在計算過程中,針對式(10),在每次使用H時,需要先將H進行一次線性變換[11],即,其中這樣,每次在進行單次self-attention 計算時,都會對H的維度進行壓縮,且multi-head attention 計算可以并行執行.另外,本文使用的是乘法注意力機制,乘法注意力機制在實現上可以使用高度優化的矩陣乘法,那么整體計算成本和單次注意力機制的計算成本并不會相差很大,同時又提升了模型的特征表達能力.使用式(10)~(12)進行k次計算,注意每次計算使用的w均不相同.將結果h?進行拼接和線性映射,得到最終結果hs:

其中,向量ws的 維度是k×dh,?表示逐元素點乘.

2.6 輸出層

在本文中,關系分類為一個多分類問題.使用SoftMax 函數計算每一個類別的條件概率,然后選取條件概率最大值所對應的類別作為預測輸出類別.計算過程如下:

其中,Wo∈Rc×kdw,c表示數據集的類別個數.目標函數是帶有L2 正則化的類別標簽y的負對數似然函數:

其中,m是樣本的個數,ti∈Rm是一個關于類別的onehot 向量,y′i是SoftMax 的輸出概率向量,λ是L2 正則化因子

3 實驗結果與分析

3.1 實驗數據

本次實驗采用SemEval-2010 任務8 的數據集.該數據集共包含10 種關系類別,其中有9 種是明確的關系類別,一種是未知類別“Other”.數據集中共有10 717 條人工標注實體和關系類別的數據,包括8000 條訓練數據,2717 條測試數據.關系類別如表1所示.

表1 關系類別

3.2 實驗評價指標

在本次實驗中采用官方評測標準F1 值(F1-Score)作為模型性能評價指標.表2為分類結果的混淆矩陣.

表2 分類結果混淆矩陣

在計算F1值之前,需要先計算查準率P、查全率R,計算公式如下:

根據P、R值計算最終的F1值:

3.3 參數設置

本文神經網絡模型的優化方法采用Adam,其學習率設置為1.0,激活函數使用relu 函數,隱層節點數dh設 置為300,每個單詞嵌入向量大小dw為50,輸入的batch 大小為50.另外,為了緩解過擬合現象,在目標函數中加入L2 正則化項,正則化因子取值為1 0-5,同時引入dropout 策略.將dropout 應用在Embedding 層、Bi-LSTM 層,經過多輪實驗(采用5 折交叉驗證),當丟碼率(dropout rate)分別為0.3,0.3,模型可以達到一個比較好的性能.Multi-head 層中的參數k的值過大或過小都不好,參考文獻[11]的實驗,取[1,2,4,6,10,15,30]作為候選值(k要能被 dh整除),采用5 折交叉驗證方法評估模型性能,實驗結果如下表所示.易知,最終當k值為4 的時候模型可以達到一個較好的性能.單次self-attention 要比k= 4 時multi-head attention 的效果差,但隨著k值的不斷增加,模型性能會下降.故最終選取k的值為4.

表3 k值實驗結果

3.4 實驗結果

為將本文模型與其它模型效果進行對比實驗,所有模型均采用同一數據集,關系類別個數為10.RNN 模型、ATT-LSTM 模型的輸入詞向量和位置向量、網絡隱層節點數、網絡激活函數、模型優化方法等均與本文實驗中的參數設置保持一致.另外CNN 中與本文無關的參數設置參考其原論文.實驗結果如表4.

CNN:該模型是文獻[7]提出的.使用CNN 對句子進行建模,同時引入位置特征和詞匯特征,使用SoftMax作為分類器.最終實驗結果F1值達到80.3%.

RNN:該模型是文獻[13]提出的.使用雙向RNN來進行關系分類,使用SoftMax 作為分類器.最終實驗結果F1值達到81.5%.

ATT-LSTM:該模型文獻[9]提出.使用雙向LSTM對句子進行建模,并引入自注意力機制,使用SoftMax 作為分類器.最終實驗結果F1 值達到83.4%.

表4 實驗結果

以上四種模型相比,本文提出的方法最終F1值達到85.4%,均高于以上三種模型.本文模型與以上三種模型相比,在embedding 層,進一步引入了句法層面的信息.與CNN 和RNN 方法相比,本文神經網絡結構采用雙向LSTM.雙向LSTM 相比CNN 更能捕獲具有長期依賴的信息,更適合處理文本序列;與RNN 相比,LSTM 通過引入門控機制,緩解了模型的梯度消失問題.與ATT-LSTM 模型相比,本文的模型將單層selfattention 改為multi-head attention.綜上所述,本文方法在embedding 層融入了更加豐富的句法特征,通過使用雙向LSTM 使模型學到更多具有長期依賴的上下文信息,在最后的attention 層,通過使用multi-head attention 進一步提高了模型的特征表達能力.通過實驗驗證,本文方法進一步提高了實體關系分類模型的精度.

4 結語

本文從現有的基于深度學習模型的關系抽取方法出發,使用Bi-LSTM 和multi-head attention 機制對文本進行建模,同時為了使模型更好地學習到文本句法結構信息,進一步引入句法結構特征和相對核心謂詞依賴特征.在公共評測語料上的實驗結果證明該方法相較于其他深度學習模型性能有進一步提升.未來的工作可考慮如何進一步改進attention 以及如何將模型應用到無監督關系抽取研究上.

猜你喜歡
分類特征實驗
記一次有趣的實驗
分類算一算
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 亚洲欧美日韩中文字幕在线| 91国内在线视频| 国产第四页| 2021国产精品自拍| 日韩一区精品视频一区二区| 欧美日本在线播放| 午夜视频在线观看区二区| 国产精品天干天干在线观看| yy6080理论大片一级久久| 欧美国产成人在线| 欧美97色| 91麻豆精品国产高清在线| 国产理论一区| 综合久久五月天| 4虎影视国产在线观看精品| 日本在线欧美在线| 亚洲中文字幕无码爆乳| 亚洲欧美极品| 亚洲av日韩综合一区尤物| 日韩精品亚洲一区中文字幕| 欧美第一页在线| 欧洲免费精品视频在线| 国产免费人成视频网| 四虎精品国产AV二区| a毛片免费看| 国产午夜一级淫片| 精品国产三级在线观看| 国产成人无码AV在线播放动漫 | 亚洲无码高清免费视频亚洲| 久久这里只有精品免费| 国产h视频在线观看视频| 在线中文字幕网| 99ri国产在线| 亚洲午夜片| 视频国产精品丝袜第一页| 高清色本在线www| 国产黄在线观看| 丁香五月婷婷激情基地| 日本精品影院| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美亚洲国产精品第一页| 青青草欧美| 国产经典免费播放视频| 免费av一区二区三区在线| 久久精品国产电影| 国产一级特黄aa级特黄裸毛片| 亚洲狠狠婷婷综合久久久久| 国产嫖妓91东北老熟女久久一| 青草精品视频| 996免费视频国产在线播放| 国产精品思思热在线| 欧美成人精品欧美一级乱黄| 色天堂无毒不卡| 日韩性网站| 国产成人精品18| 亚洲高清在线天堂精品| 欧美日韩v| 国产又粗又猛又爽| 欧美成人午夜视频| 国产精品成| 精品视频在线一区| 亚洲精品第1页| 中国美女**毛片录像在线| 国产菊爆视频在线观看| 免费国产福利| 亚洲午夜国产精品无卡| 18禁高潮出水呻吟娇喘蜜芽| 人妻少妇乱子伦精品无码专区毛片| 国产精品黄色片| 黑人巨大精品欧美一区二区区| 中文字幕无码制服中字| 少妇被粗大的猛烈进出免费视频| 久久无码av三级| 久久人妻系列无码一区| 精品无码日韩国产不卡av | 一区二区日韩国产精久久| 亚洲婷婷丁香| 国产成人高清在线精品| 亚洲黄色高清| 国产在线91在线电影| 国产精品福利导航| 国产97色在线|