999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于實體圖路徑聚合的多實體關系抽取

2020-09-04 04:58:50喬晶晶段利國
計算機工程與設計 2020年8期
關鍵詞:語義方法模型

喬晶晶,溫 政,段利國+,王 莉

(1.太原理工大學 信息與計算機學院,山西 太原 030024;2.太原理工大學 大數據學院,山西 太原 030024)

0 引 言

實體關系抽取是自然語言處理(NLP)領域中信息抽取的一個重要子任務,其目的是抽取命名實體之間的語義關系,廣泛應用于知識庫構建、語義搜索、智能問答等領域,受到了研究者的廣泛關注。關系類型確定的關系抽取通過給實體對劃分一個預先定義好的關系類型完成關系抽取任務。已有的研究大多在僅包含一個標注實體對的句子中進行關系抽取,這種情況過于理想化,現實句子中往往包含多個實體。多實體關系抽取的相關研究仍處于起步階段,其研究對構建商業應用并落地具有重要的意義。

本文針對多實體關系抽取進行研究,主要貢獻如下:① 提出一種基于神經網絡的多實體關系抽取模型。②在基于實體圖的多實體關系抽取時提出一種具有良好解釋性的路徑聚合算法。③在ACE 2005英文數據集的關系抽取任務上取得了很好的效果。

1 相關工作

單一實體對關系抽取的研究方法主要分為基于知識工程和基于機器學習兩種。基于知識工程的方法高度依賴專家構建的規則庫,通過與規則的匹配進行關系抽取。這種方法的優點是在限定領域表現卓越,缺點是構建規則過度依賴專家知識和經驗,因此工作量巨大,而且領域界限明顯,通用性不足。

越來越多的研究者將機器學習的方法應用于關系抽取。一種方法是基于特征的方法,結合啟發式方法提取詞匯、句法、語義等特征,對特征向量化,利用機器學習算法完成關系抽取。實體詞義、詞性、相鄰實體信息等詞匯特征,語塊、句法樹等句法特征,實體類型、語義角色等語義特征被關系抽取研究者廣泛采用,特別是多特征融合對關系抽取性能的提升效果明顯。基于核函數的方法通過核函數比較語料之間的句法結構相似性進行關系分類,節省了基于特征工程的方法構建高維復雜特征工程的工作。常用的核函數有卷積核函數、實體對間最小公共子樹核函數、實體對間最短依存路徑核函數等。結構信息的隱形特征中可能存在的噪聲、語義多樣性產生不同句法結構樹、長短語料處理能力不同等都影響該方法的性能。

近年來,基于深度學習的關系抽取方法成為主流。相關研究如下:文獻[1]從特定的標記數據中學習到重要的特征,利用注意力機制計算句子中每個詞對于實體關系類別的重要程度,將詞嵌入、詞性嵌入、位置嵌入作為卷積神經網絡的輸入實現語義關系抽取。文獻[2]將關系抽取擴展到了多種語言,考慮到多語言文本中信息的一致性和完整性,使用跨語言注意力機制,提出多語言神經網絡關系抽取模型。由于遠程監督方法構造的數據集中存在大量的噪聲,文獻[3]用生成式對抗網絡(GAN)來過濾數據,將生成器生成的正樣本視為負樣本,用以訓練判別器,選擇判別器的判別能力達到最低時的生成器作為最優的生成器,然后用這個生成器來過濾掉假陽性句子,最終生成低噪聲的關系抽取數據集。針對傳統方法未考慮深度學習模型輸入與輸出之間相關性這一問題,文獻[4]在長短期記憶網絡模型中加入注意力機制,提取了更有效的文本特征,提高了關系抽取的準確率。文獻[5]提出基于全局優化的端到端關系抽取模型,充分考慮上下文的作用,通過雙仿射關注解析器的長短期記憶網絡學習并獲取輸入句子的特征。孫紫陽等[6]首先使用雙向長短期記憶網絡學習最短依存路徑的表示信息,然后用卷積神經網絡在長短期記憶網絡的輸出上訓練分類模型。文獻[7]提出一種基于最短依存路徑的雙通道深度學習模型,將使用Word2vec表示的句子最短依存路徑作為卷積神經網絡的輸入,將使用GloVe表示的句子最短依存路徑作為雙向長短期記憶網絡的輸入,拼接兩個網絡學習的特征,通過softmax分類器得出所屬關系的類型。實驗結果表明結合順序記憶和卷積學習會有更好的效果。

多實體對的研究由于數據集匱乏、難度高,目前相關研究比較少,是關系抽取研究的新趨勢。已有的研究有:文獻[8]提出了采用復制機制的端到端模型,在New York Times(NYT)數據集和WebNLG數據集的多實體關系抽取上均取得不錯的效果。常規的關系抽取都是先進行命名實體識別,然后確定實體間的關系類型。文獻[9]提供了新思路,在命名實體識別和關系抽取的聯合學習中,先進行關系檢測,然后識別該關系的兩個實體;將任務分為關系指示符識別和關系中實體提取兩個分層強化學習過程,解決了關系抽取中一個句子存在多個關系和關系重疊的問題。文獻[10]考慮了句子中不同實體之間的關聯,構建有向圖并迭代的更新實體對之間邊的表示,為多實體關系抽取提供了新的啟發,文中提出的路徑聚合算法雖然取得了不錯的效果,但缺乏可解釋性,不符合節點間路徑的定義。

本文基于以上研究,在實體間路徑聚合時提出一種方法,同時考慮實體間不同長度的路徑,將相同長度的路徑通過注意力機制表示成單一向量,不同長度路徑的單一向量表示拼接,作為特征,進行關系抽取。

2 關系抽取模型

本文研究多實體關系抽取,針對文獻[10]的路徑聚合算法可解釋性不足,不符合對路徑直觀理解這一情況,提出一種路徑聚合算法。在路徑聚合時將實體間不同長度的路徑通過注意力機制聚合為單一向量,然后進行關系抽取。圖1為多實體關系抽取的模型結構,包含向量層、雙向LSTM層、實體對及實體對上下文提取層、邊表示層、路徑聚合層和分類層。

2.1 向量層

向量層由兩部分組成:分別為詞向量和詞相對目標實體對位置的位置向量。詞向量技術將詞語轉換成一個包含豐富語義信息的低維實值向量,語義相似的詞會有相似的詞向量,是基于深度學習的自然語言處理領域取得重大突破的關鍵技術。Word2vec是谷歌開發的目前最為通用的詞向量預訓練模型。由于本文實驗數據集規模較小,在數據集上訓練的詞向量不夠充分,語義表示能力差,因此本文使用Mikolov等用Word2Vec在Google News語料上訓練得到的詞向量對語句鏡像向量化表示。詞相對目標實體對位置的位置向量定義為文檔中的詞與兩個實體詞之間距離的向量化表示,對判別兩個實體之間的語義信息有所幫助。

2.2 BLSTM層

長短期記憶網絡是一種特殊的RNN結構,通過自適應門控機制決定記憶單元保留上一級記憶狀態和提取當前輸入特征的程度,可以處理RNN面臨的長期依賴問題。長短期記憶網絡由遺忘門、輸入門、輸出門和記憶單元組成。雙向長短期記憶網絡同時考慮前向和后向的詞信息,能夠捕捉雙向語義信息。本文將文檔中每個詞的詞向量表示輸入雙向長短期記憶網絡,為每個詞編碼上下文信息,BLSTM網絡的輸出為考慮了詞序列信息的新的詞級別的向量表示。對于每個詞w,將LSTM網絡從左到右和從右到左的輸出進行拼接,作為該詞的BLSTM表示,如式(1)所示

圖1 基于實體圖路徑聚合的多實體關系抽取模型

(1)

2.3 邊表示層

利用實體對及實體對上下文提取層得到的實體對及實體對上下文表示實體對之間的邊。假設實體對包含實體ei和ej,如果一個實體由多個詞組成,將這些詞的BLSTM表示的平均作為該實體的BLSTM表示,如式(2)所示,其中in為實體ei包含詞的個數,bik為實體ei的第k個詞的BLSTM向量表示

(2)

實體ei的向量表示由其BLSTM表示bi、實體類型表示ti及其與實體ej相對位置的位置向量pij拼接而成。同理,表示ej時,使用其與ei的相對位置的位置向量pji。式(3)、式(4)所示為實體ei和實體ej的向量表示

vi=[bi;ti;pij]

(3)

vj=[bj;tj;pji]

(4)

實體對ei和ej的上下文詞wz由其BLSTM表示bz及相對實體ei和ej位置的位置向量pzi和pzj拼接而成,如式(5)所示

vijz=[bz;pzi;pzj]

(5)

將實體對不同上下文詞的表示通過注意力機制轉化為單一表示。過程為先計算每個上下文詞的權重,然后將其加權平均。如式(6)、式(7)、式(8)、式(9)所示

(6)

u=qTtanh(Cij)

(7)

α=softmax(u)

(8)

cij=CijαT

(9)

其中,m是上下文詞的個數,q是一個可訓練的注意力向量,維數為dc,dc=db+2dp,db是上下文詞BLSTM表示的維數,dp是位置向量的維數。α是權重向量,cij為經過加權平均的實體對上下文表示。

最后,拼接實體和實體對上下文的表示,作為節點i到節點j有向邊的向量表示,如式(10)所示

edgeij=[vi;vj;cij]

(10)

2.4 路徑聚合層

路徑聚合的目的是將實體對間不同長度的路徑整合為單一表示,因此本文把文檔表示為有向圖,圖中的節點為文檔中的實體。當實體個數為n時,兩個實體間的路徑長度可以為1,2,3,…,n-1,選取路徑長度為1,2,…,m(m

(11)

u=Wp·tanh(Pathj)

(12)

α=softmax(u)

(13)

pathj=PathjαT

(14)

圖2 路徑長度為2時的路徑

當某種路徑長度的路徑不存在時,用零向量作為該路徑長度的表示。最后,將不同路徑長度的向量表示拼接,作為實體對間關系的表示,如式(15)所示

R=[path1,path2,…,pathl]

(15)

2.5 分類層

將上一節考慮實體對、實體類別、實體位置、實體上下文的實體對間關系的表示輸入到帶softmax分類函數的全連接層,完成關系抽取,如式(16)所示。

y=softmax(Wr(R°r)+br)

(16)

其中,Wr∈Rnr×nb,nr表示關系類型總數,nb表示路徑聚合后向量的維度,br是偏差向量,符號°表示逐元素相乘,r∈Rnr是服從概率為ρ的零一分布的遮掩向量。

模型的優化目標是最小化預測關系類型與實際關系類型之間的交叉熵損失函數。損失函數如式(17)所示

(17)

其中,Θ表示模型的超參數,S表示訓練集中所有的實體對集合,yi取值為1或0,表示實體對s與關系類別i對應或不對應。

模型使用dropout避免過擬合,使用反向傳播計算梯度,采用Adam優化器進行優化。

3 實驗與結果分析

3.1 數據集

本文使用標準數據集ACE 2005評測基于實體圖路徑聚合的多實體關系抽取模型,該數據集包含來自博客、新聞稿、廣播等不同來源的599篇文檔,7種關系類型,其中METONYMY、PER-SOC和PHYS是對稱的、沒有方向的,其余4種ART、GEN-AFF、ORG-AFF、PART-WHOLE是有方向的,加上Other類型,共12種關系類型。使用精確率、召回率和F1值作為評價標準。

3.2 超參數設置

本文從訓練集中隨機劃分出1/10的數據作為驗證集,在驗證集上得出模型的超參數取值,見表1。

表1 模型超參數及取值

3.3 實驗結果分析

3.3.1 不同模型的結果分析

為充分驗證基于實體圖路徑聚合的多實體關系抽取模型的性能,本文選擇近年來在ACE 2005數據集上進行實體關系抽取取得較好成績的方法進行比較。

Meishan Zhang等[5]提出全局優化的關系抽取模型Global Optimization,該方法通過背景知識獲取語義信息,并且將其用于全局優化。Miwa和Bansal[11]提出SPTree system,該方法在詞序列和依存樹結構上堆疊雙向LSTM,在實體識別和關系抽取時共享權重參數。Fenian Christopoulou和Makoto Miwa[10]提出基于路徑聚合的方法Walk Aggregation,該方法在實體圖路徑聚合時采用線性變換,然后迭代地更新路徑。

表2為不同方法的實驗結果對比。由表可知,隨著采用路徑長度的增加,關系抽取的F1值會提高,在路徑長度為4時,F1值最高,達到66.1,比Global Optimization方法高8.6,比SPTREE方法高0.8,比原始路徑聚合方法Walk Aggregation最高的F1值高1.9。表明本文提出的路徑聚合算法能夠有效抽取多實體關系。當路徑長度繼續增加時,F1值緩慢下降,經過分析,可能原因如下:一方面,數據集中半數樣本包含5個及以下實體,這部分樣本路徑長度小于等于4。若繼續增加對這部分樣本的路徑,反而會增加模型參數的數量,增大過擬合的風險,使模型在測試集上表現變差。另一方面,實體之間較短的路徑會蘊含關系類型信息,而過長的路徑由于相隔距離遠,可能不再包含關系類型信息。

表2 不同算法實驗結果對比

3.3.2 不同實體數目的結果分析

為探究本文方法在實體數目不同時的表現,本部分對實體數目不同時的F1值進行分析,結果見表3。由表3,隨著句子中包含實體對數的增多,模型抽取效果下降,該結果符合常識,因為實體對數多的句子中,不同實體錯綜復雜,對關系抽取造成干擾。

圖3為實體數為4~6、6~12、12~23時的實驗結果。由圖可知,路徑長度從2增加到4時,F1值均有所提升,表明對于包含實體數目較多的文檔,當路徑長度增加時,由于本文方法充分考慮了實體間不同長度路徑蘊含的語義信息,能夠更好表示實體間的關系,抽取效果有所提升。

圖3 路徑長度對結果的影響

3.3.3 不同關系類型結果分析

為探究本文方法在不同關系類別上的表現,本部分對除other類之外的11種關系類型的F1值進行分析,實驗結果如圖4所示,橫坐標中大寫字母為關系類型首字母的縮寫。

圖4 不同關系類別上的實驗結果

由圖4可知,由于關系類型METONYMY和PHYS是對稱的,不需要考慮方向,比需要考慮方向的關系類型容易判斷,所以其F1值最高。PER-SOC結果最差,經過分析發現數據集中該關系類型的樣本較少,導致學習不充分。

4 結束語

本文提出一種改進的基于實體圖路徑聚合的多實體關系抽取模型,在基于實體圖的多實體關系抽取時,同時考慮實體間不同長度的路徑,采用注意力機制聚合長度相同的不同路徑,綜合不同路徑蘊含的語義信息。實驗結果表明,在ACE 2005數據集上,本文方法性能優于當前已有的方法。

與RNN相比,transformer有更強的捕獲長距離特征的能力,并且訓練速度更快。下一步,我們將嘗試使用transformer特征抽取器或者多層自注意力代替LSTM,用抽取的結果表示實體圖中的邊,以期進一步提高多實體關系抽取效果。

猜你喜歡
語義方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 88av在线播放| 精品无码国产自产野外拍在线| 免费无遮挡AV| 二级毛片免费观看全程| 福利一区在线| 国产欧美日韩在线一区| 国内精品小视频在线| 日韩高清无码免费| 亚洲aaa视频| 青草视频久久| 久久人体视频| 色噜噜狠狠色综合网图区| 青青青伊人色综合久久| 国产精品无码AⅤ在线观看播放| 欧美成人h精品网站| 国产欧美视频综合二区| 九九久久99精品| 亚洲视频四区| 日本一本正道综合久久dvd| 国产va免费精品观看| 麻豆精品视频在线原创| 国产精彩视频在线观看| 精品国产一区二区三区在线观看| 免费a在线观看播放| 性欧美在线| 在线欧美日韩国产| 在线免费看黄的网站| 午夜视频www| 97一区二区在线播放| 99视频在线免费| 9啪在线视频| 色噜噜狠狠狠综合曰曰曰| 久久公开视频| 国产成人欧美| 在线免费不卡视频| 精品久久人人爽人人玩人人妻| 亚洲啪啪网| 国产福利在线免费| 亚洲男人的天堂在线| 最新国产麻豆aⅴ精品无| 亚洲视频四区| 国产真实乱了在线播放| 免费无码网站| 国产成人精品优优av| 91网址在线播放| 亚洲综合亚洲国产尤物| 亚洲无码精彩视频在线观看| 99草精品视频| 国产美女在线观看| 网友自拍视频精品区| 国产精品爽爽va在线无码观看| 久久不卡国产精品无码| 久久青青草原亚洲av无码| 91免费精品国偷自产在线在线| 欧美一区国产| 中文纯内无码H| 亚洲天堂网2014| 中文成人在线视频| 国产在线精品香蕉麻豆| 免费精品一区二区h| 国产丰满大乳无码免费播放| 亚洲无卡视频| 国产精品亚欧美一区二区| 夜夜操国产| 亚洲人成网站在线观看播放不卡| 成人福利在线看| 欧美a在线看| 国模极品一区二区三区| 九九九精品成人免费视频7| 小说 亚洲 无码 精品| 国产一级在线播放| 国产在线观看91精品亚瑟| 欧美不卡在线视频| 欧美日一级片| A级全黄试看30分钟小视频| 国产一级妓女av网站| 日韩成人免费网站| 欧美在线精品一区二区三区| 国内精品久久久久久久久久影视 | 亚洲精品桃花岛av在线| 亚洲欧美日韩成人高清在线一区| 中文字幕有乳无码|