999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

ENT-BERT:結合BERT和實體信息的實體關系分類模型

2020-12-09 09:45:04張東東彭敦陸
小型微型計算機系統 2020年12期
關鍵詞:分類效果信息

張東東,彭敦陸

(上海理工大學 光電信息與計算機工程學院,上海200093)

1 引 言

隨著網絡信息資源的日漸豐富,信息數據呈現出規模巨大、模態多樣和高速增長等特點.在互聯網搜索領域中,當用戶輸入查詢信息時,希望計算機能夠從語義層面理解用戶想要獲取的信息,而不僅是關鍵字的提取和搜索.這就迫切要求計算機能快速、準確地返回用戶真正所需信息.Google在2012年推出知識圖譜并將它應用到搜索引擎中增強搜索結果準確性,這標志大規模知識圖譜在互聯網語義搜索中的成功應用[1].

信息抽取是構建知識圖譜的第1步.它是一種從不同來源、不同結構的數據中抽取實體、關系以及實體屬性等信息的技術[2].從應用的廣泛程度以及研究的深入程度來看,信息抽取任務主要包含兩個主要的子任務:命名實體識別任務和實體關系抽取任務[3].提高命名實體識別的準確率,在信息抽取、語篇理解、句法分析以及機器翻譯等任務中具有重要意義,但僅僅進行實體識別只能得到以離散形式存在的實體,進一步的任務還需要發掘實體之間的關系.

在深度學習有監督領域中,對于實體關系的抽取研究現階段大部分都是通過已知實體對來判斷實體對之間的所屬關系,即將實體關系抽取看作是關系分類任務.對于有監督領域的實體關系分類研究早期采用的是傳統非深度學習方法,根據關系實例的表示方式不同,可以分為基于特征的方法[3]和基于核函數的方法[4].傳統方法一個最大的不足是過于依賴自然語言處理NLP(Natural Language Processing)工具(例如WordNet、詞性標記、依存句法分析等),這可能會導致隱式錯誤的積累,同時人工構造的特征無法捕獲所需的所有相關信息.深度學習近年來發展迅猛,因為通過深層神經網絡可以對大規模的文本語料進行學習.在這些網絡模型中,在卷積神經網絡CNN(Convolutional Neural Network)或循環神經網絡RNN(Recurrent Neural Network)中加入注意力機制(Attention mechanism)被認為是目前關系分類任務中主流和最佳的解決方法[5-10].新近提出的BERT模型[11]刷新了多項NLP任務的最佳效果,緊接著便有相關研究將它應用于文本分類和實體關系分類,但實體關系分類與文本分類最大的區別就是關系分類更關注兩個實體的信息.因此,針對現有實體關系分類方法所存在的缺陷,本文試圖將BERT模型與實體對信息相結合從而構建基于有監督領域的實體關系分類模型ENT-BERT.本研究的主要貢獻如下:

·將預訓練模型BERT應用于實體關系分類任務,采用句子向量與實體向量相結合的方式來突出實體信息,從而提出新的關系分類模型.

·在句子向量和實體向量的結合過程中引入了注意力機制,使得不同特征向量對預測實體間關系的貢獻度不同.

·分別在中英文數據集上進行實驗驗證.實驗結果表明,與大部分模型相比,ENT-BERT模型能更有效地提高實體關系分類效果.

論文其余部分的結構如下:第2部分介紹近年來國內外有監督領域關系分類任務的研究現狀;第3部分介紹了本文的實體關系分類模型ENT-BERT;第4部分通過實驗證明模型的性能;第5部分給出論文的結論和展望.

2 相關工作

2.1 關系抽取與分類

近年來得益于深度學習的發展,CNN是第一個被應用于關系分類任務的深度學習模型.Zeng等人[12]將詞向量和相對位置信息作為輸入,然后利用CNN提取局部特征,最終在英文數據集上達到了較好的效果.但是CNN卻無法捕獲句子的層次信息和語法信息,Li等人[13]結合依存樹和層次卷積方法提出了改進的CNN模型并應用于關系分類任務.Santos等人[14]是在CNN模型基礎上做出改進,引入新的損失函數后更容易區分開一些易于分錯的類別.在Socher等人[15]的工作中,他們沒有使用CNN作為基本結構,而是開始嘗試將RNN用于關系分類.Zhou等人[5]更是結合更簡單的位置特征信息PI(Position Indicators)來突出兩個實體的位置,再使用Att-BLSTM(Attention-Based Bidirectional Long Short-Term Memory Network)模型架構來捕獲句中更加重要的語義信息.鑒于注意力機制在圖像領域中的表現,其在文本領域中也用于獲得詞級別和句子級別的權重特征.Sheng和Huang[10]利用詞級別的注意力機制使得與實體對相關的詞語擁有更高的權重系數,再結合CNN使得分類效果得到進一步提升.為了區分文本中不同句子對關系分類的貢獻程度,Meng等人[6]在加入詞級別的注意力機制后還引入了句子級別的注意力機制來提高分類效果.由于CNN能提取詞級別的特征和RNN能提取句子級別的特征,Guo等人[9]提出將CNN、RNN和注意力機制相結合的Att-RCNN(Attention-Based Combination of CNN and RNN)模型.Wang等人[7]更是通過兩個注意力層結合CNN來更好識別異構的上下文中的模式從而提出Att-Pooling-CNN模型,最終使得實體關系分類效果達到新高.以上介紹的都是關于英文關系分類的研究,對于中文實體關系分類而言,Wu等人[16]將所提出的PCNN_ATT模型應用于第8屆中文傾向性分析評測(COAE2016)任務3中并取得較好成績.Li等人[17]提出基于多特征自注意力的實體關系抽取方法,充分考慮詞匯、句法、語義和位置特征,其在COAE2016任務3的數據集上取得最佳效果.

2.2 BERT

BERT是最近提出的語言預訓練模型,該模型使用雙向Transformer模型結構[18]對大型的未標記語料庫進行預訓練,然后通過對下游任務進行微調的方式在一些NLP任務(例如分詞、命名實體識別、情感分析和問題解答)上展現模型優異性能.但它仍然缺少特定領域相關知識,為了解決這樣的問題,Xu等人[19]通過構造輔助語句從而提出基于BERT的文本分類模型BERT4TC,多個數據集上的實驗結果表明具有適當輔助語句的BERT4TC明顯優于典型的基于特征的方法和微調方法.Ma等人[20]直接將BERT所得到的句子向量表示用于中文實體關系分類并獲得較好的分類效果.

3 方 法

3.1 實體關系分類問題形式化

3.2 模型架構

圖1是整體模型架構,模型主要由3個部分組成:(i)BERT層對句子進行編碼得到句子表示H(ii)將組成實體的字向量取平均得到兩個實體向量表示He1,He2(iii)再通過注意力機制將所得到的句子向量H[CLS]與兩實體向量相結合,最終通過全連接層和softmax函數進行分類.

圖1 ENT-BERT模型架構Fig.1 Architecture of ENT-BERT model

在深度學習領域,RNN及其改進模型LSTM、GRU(Gated Recurrent Unit)都適用于對序列進行建模,但是它們的缺點就是無法并行處理,它們需要遞歸才能獲得全局信息因而計算速度較慢.CNN盡管計算速度快,但事實上它只能獲取局部信息.谷歌提出基于多頭自注意力機制的Transformer模型[18],并在機器翻譯任務領域取得較佳效果,而BERT模型實際上就是多層的雙向Transformer模型的編碼器部分.BERT[11]作為語言模型在處理模型輸入時還在詞向量的基礎上加入了段落向量和位置向量.同時,序列的首位置還加入了特殊標記[CLS],H[CLS]是[CLS]經過BERT后對應的文本表示,而對于一個任務中擁有多個句子時,[SEP]則用于分隔句子.不同于以往的從左往右或者從右往左的預訓練方式,又或者將兩者結合使用的方式,BERT采用的是遮蔽詞預測和下一句判斷方式來進行訓練,這樣獲得的向量表示擁有更全局的表達.

如圖1所示,給定帶有兩個實體e1,e2的文本sk,輸入文本經過BERT模型后的最終輸出為H.不同于一般的文本分類直接利用句子表征向量H[CLS]結合全連接、softmax函數得出分類概率,本文為了突出實體信息,通過注意力機制將句子向量表征與兩個實體向量進行結合.首先將實體中的字向量取平均得到兩個實體向量He1和He2,其計算方式為公式(1)和公式(2),其中i,j對應實體e1的首字下標和尾字下標,m,n對應實體e2的首字下標和尾字下標.

(1)

(2)

(3)

(4)

α=softmax(wTM)

(5)

(6)

接下來對H"[CLS]用激活函數tanh使其非線性化,然后進行全連接,其中,W,b是待學習的權重矩陣和偏置項.

(7)

最終采用softmax函數來得到關系類別輸出概率:

(8)

公式(8)中yl是目標關系類別,θ表示所有需要學習的參數.實體關系分類任務屬于多分類任務,所以本文采用交叉熵損失函數作為目標函數,其公式中|D|的表示訓練集樣本數量.同時為了避免過擬合問題,公式(9)中還加入L2正則項.

(9)

4 實 驗

本研究進行實驗的操作系統是Ubuntu16.04,其它設備信息是Intel(R) Core(TM) i7-8700K CPU @ 3.70GHz,64GB內存以及兩塊NVIDIAGeForce 1080Ti顯卡,然后在深度學習框架Keras-GPU 2.2.4下使用Python3.6編程完成實驗.

4.1 數據集

本研究實驗部分采用的英文數據集來源于SemEval-2010任務8[21],該數據集已被廣泛用于關系分類任務,通過與其他方法的比較可以驗證模型的分類效果.該數據集包含10717條文本,其中8000條作為訓練集,2717條作為測試集,各種關系分布如圖2所示,其中“Other”類別表示實體對之間沒有關系.根據官方評價標準,在SemEval-2010任務8數據集中總共需要考慮19種關系類型,因為關系類別Cause-Effect(e2,e1)和關系類別Cause-Effect(e1,e2)是不同的,下文實驗皆使用SemEval-2010-Task8來表示SemEval-2010任務8中的數據集.

圖2 SemEval-2010-Task8關系類別及其分布Fig.2 SemEval-2010-Task8 relation type and distribution

現有開放的關系抽取中文標記語料庫相對稀缺,第8屆中文傾向性分析評測增加了知識抽取關系分類的任務,本文中文實驗是在該任務提供的數據集上進行的.數據集是由988條文本的訓練集和483條文本的測試集組成.在這個任務中,有10種類型的關系,但是該任務當時是參賽者提交測試集預測結果后由官方組織人員驗證結果的準確性,所以該任務提供的測試集是沒有關系類別標簽的.本文在采用人工標注測試集語句關系的過程中,發現訓練集和測試集中并未出現有語句對應“組織機構的成立時間(Cr35)”關系,所以實驗部分僅考慮剩余9種關系類別,下文實驗皆使用COAE-2016-Task3來表示COAE 2016任務3中的數據集.

4.2 評價指標

針對每個關系類別,一般用精確率P(Precision)、召回率R(Recall)和F1(F1_score)值來衡量模型分類效果.實體關系分類屬于多分類任務,從圖2關系類別分布情況看可知數據分布大致平衡,因此本文采用macro-F1來衡量模型性能.首先分別計算每個類別樣本的P、R和F1值,公式(10)-公式(12)中i表示第i類樣本,TP表示正確預測的正樣本數,TN表示正確預測的負樣本數,FP表示錯誤預測的正樣本數,FN表示錯誤預測的負樣本數:

(10)

(11)

(12)

宏觀精確率Pma就是所有類別精確率的均值,宏觀召回率Rma也是所有類別召回率的均值,宏觀F1值F1ma也是所有類別F1值的均值.

(13)

(14)

(15)

4.3 參數設置

實驗中,因為官方所提供的數據集缺少驗證集,考慮到模型超參的選擇,本文使用十折交叉驗證法來驗證不同超參對模型性能的影響.在訓練過程中,訓練數據按照9:1的比例劃分為訓練集和驗證集,并將10次驗證結果的均值作為當前模型的評估.實驗結果表明當模型取得最優效果時,其主要相關參數設置如下.在數據預處理的過程中,中英文數據集的最大句子長度分別為220和100,在模型訓練階段,中英文數據集的Batch_size都是16.為了防止過擬合,本實驗將L2正則項系數λ設為10-5,全連接層的dropout設為0.1,最終采用Adam算法來優化更新迭代參數.

4.4 實驗結果與分析

實驗1.SemEval-2010-Task8上關系分類方法比較

本組實驗將ENT-BERT模型和其它方法在不同特征支持下的分類效果進行對比,這些方法包括機器學習方法代表SVM,卷積神經網絡相關方法CNN和CR-CNN,CNN或者RNN與注意力機制相結合的方法有Att-CNN、BGRU-Att、Att-BLSTM、Att-RCNN、Att-Pooling-CNN、BLSTM-Entity_Att.以上多種方法采用的特征集WE、POS、NER、PF、PI分別對應著詞嵌入WE(Word Embedding)、詞性標注POS(Part-of-speech)、命名實體識別NER(Name Entity Recognition)、PF(Position feature)、PI(Position indicators).

表1中可以看出除了第1種方法SVM外,其它都是基于神經網絡的關系分類方法.SVM[3]利用人工構造特征在所有的傳統方法中取得最好的結果,其F1ma值達到了82.2%.CNN[12]利用原始語句序列作為輸入,并利用位置特征來突出實體對的位置信息.顯而易見PF對于實體關系分類任務很重要,因為F1ma從69.7%增加到82.7%.CR-CNN[14]更多地考慮“Other”關系類別的影響,改進損失函數后達到84.1%的F1ma值.注意力機制在圖像、文本和語音等不同領域取得的有效成果,使得Att-BLSTM[5]、Att-CNN[10]和BGRU-Att[6]在關系分類任務上取得更好效果.

表1 SemEval-2010-Task8上關系分類方法比較Table 1 Comparison of relation classification methods on SemEval-2010-Task 8

與本文模型最為相關的模型是BLSTM-Entity_Att[8],Att-RCNN[9]和Att-Pooling-CNN[7].BLSTM-Entity_Att論文中的注意力機制就是Transformer模型中所提出的多頭注意力機制,而本文模型中BERT就是多層雙向Transformer的編碼器部分,由實驗數據對比可知多層Transfomer的結合比單層多頭注意力機制效果好.對于Att-RCNN和Att-Pooling-CNN,這是目前基于CNN和RNN方法在關系分類任務上表現較佳的代表,而本文模型是基于BERT和Transformer模型,即完全基于注意力機制,并未使用CNN或RNN來提取特征,其實驗數據表明在SemEval-2010-Task8上取得88.9%的宏觀F1值.

實驗2.實體信息對實體關系分類的影響

文本經預訓練模型BERT后會得到句子向量和字向量,文本分類任務一般解決方法是將得到的句子向量表示與softmax函數結合,這樣便可取得優異的分類效果.但實體關系分類與文本分類任務主要區別在于它更需要突出實體信息,本研究為了突出實體從而引入注意力機制將句子向量表示與兩個實體向量相結合,因而設計出圖1的實體關系分類模型架構.為了突出本文貢獻,進一步設計相關實驗2.

圖3 模型不同特征組合的影響Fig.3 Influence of different feature combinations of the model

圖3中Sen_PI_ENT就是本文所采用模型架構,其中Sen表示輸入的句子序列,PI是通過e1和e2來指明Sen中的兩個實體,ENT表示將句子向量與兩實體向量相結合,所以Sen_PI代表直接將帶有PI特征的句子序列經過BERT模型后得到的句子向量用于分類的結果,Sen_ENT代表將不帶有PI特征的句子序列經過BERT模型得到句子向量后再結合兩實體向量用于分類.Sen_PI與Sen的數據對比可以表明PI特征對與實體關系分類任務的重要性.與此同時,Sen_PI與Sen_ENT實驗效果相差無幾,即表明通過句子向量和兩實體向量的結合方式同樣使得分類效果提升顯著,這也說明本文引入注意力機制將句子向量與實體向量相結合的方式對于實體關系分類任務具有重要意義.因此,在結合PI特征和特征向量結合操作后,本文所設計的模型在SemEval-2010-Task8上取得較佳效果.

實驗3.句子向量與實體向量結合方式的比較

表2 句子向量與實體向量結合方式的比較Table 2 Comparison of the combination manner of sentence vector and entity vector

目前對于特征向量的哪種結合方式較好的相關研究較少,基本都是通過實驗結果來選擇結合方式.盡管采用相加的方式會使得所訓練的參數相對少一點,但從表2中的數據可以看出直接將實體向量加入句子向量效果并沒有采用連接的方式好,而且也不如引入注意力機制的效果.

造成該現象的主要原因是經過BERT模型所得到的句子向量其實已經包含實體對的信息,當特征向量采取直接相加的結合方式時,這會使得后續神經網絡無法將句子向量信息與實體向量信息分隔開.當特征向量采用連接的方式時,這會使得在訓練過程中會有額外的參數對兩實體向量進行擬合.當引入注意力機制后會賦予實體向量和句子向量不同的權重,進一步提升實體關系分類的效果.

實驗4.COAE-2016-Task3上關系分類方法比較

表3中ET(Entity Type)表示實體類型,EO(Entity Order)表示實體順序,*表示論文數據未列出.實驗數據表明使用多種特征的SVM算法[22]的Pma和Rma值差異較大,這是因為該方法在常見關系類別上的效果較佳,而在一些稀有關系類別上的表現較差.CNN模型中Pma和Rma較為平衡,但是因為COAE-2016-Task3中訓練樣本較少導致效果不佳,當訓練樣本較大時CNN仍有很大提升空間.PCNN_ATT模型[16]不僅優于基于SVM的方法,而且相比CNN模型它相對提升了11.6%的F1ma值,因為它引入了詞級別的注意力機制和采用了分段最大池化操作的策略,同時也證明了ET有助于區分某些關系類別.

表3 COAE-2016-Task3上關系分類方法比較Table 3 Comparison of relation classification methods on COAE-2016-Task3

相比PCNN_ATT和SelfAtt-BLSTM模型,ENT-BERT模型在中文實體關系分類任務COAE-2016-Task3上分類效果能有如此大的提升,其主要原因如下:1)其它方法使用的詞向量需要對文本序列進行分詞,所以分詞過程所帶來的錯誤積累會影響實體關系分類準確性;2)因為經過BERT預訓練的詞向量已經是基于上下文特征的字向量,其句子向量含有豐富的文本信息,3)是本文的創新所在,即在句子向量與實體向量的結合過程中引入注意力機制使得中文實體關系分類效果進一步提升.以上種種原因使得ENT-BERT模型在COAE-2016-Task3上取得最優效果,而且F1ma比SelfAtt-BLSTM模型提高7.39%.

5 結 論

本文利用預訓練語言模型BERT獲得輸入文本的句子向量和字向量,然后通過字向量取平均的操作得到實體向量,再引入注意力機制將句子向量和實體向量相結合再用于實體關系分類任務,從而提出了ENT-BERT模型.該模型不需要任何背景知識和句法特征作輔助信息,僅通過原始文本作為輸入,更加有效地利用實體信息.在SemEval-2010-Task8和COAE-2016-Task3上的實驗效果表明所提出的模型對于實體關系分類任務具有更好的效果.

然而有監督的實體關系分類任務需要大量人工來標注數據集,進而訓練出相應模型.然而工作量的大小限制了數據集的規模,同時當模型面向不同領域時,往往需要重新進行數據標注,這無疑會大大增加模型移植的困難.最后,有關半監督的實體關系分類任務的研究將會是接下來的工作.

猜你喜歡
分類效果信息
按摩效果確有理論依據
分類算一算
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 精品少妇人妻一区二区| 中文字幕无码av专区久久 | 免费观看男人免费桶女人视频| 中文字幕在线一区二区在线| 国产黑丝视频在线观看| 亚洲无码视频一区二区三区| 亚洲品质国产精品无码| 40岁成熟女人牲交片免费| 91偷拍一区| 国产高清免费午夜在线视频| 亚洲无码视频一区二区三区| 欧美www在线观看| 免费观看成人久久网免费观看| 国产综合色在线视频播放线视| 在线国产综合一区二区三区| 亚洲精品久综合蜜| 中文字幕不卡免费高清视频| 欧美成人精品在线| 国产视频久久久久| 日韩少妇激情一区二区| 在线中文字幕日韩| 亚洲中文字幕久久无码精品A| 国产精品毛片一区| 国产在线啪| 亚洲va精品中文字幕| 制服丝袜无码每日更新| 欧美日韩免费观看| 99精品免费在线| 欧美日韩国产综合视频在线观看 | 亚洲一区免费看| 日韩123欧美字幕| 久久久久免费看成人影片 | 国产无吗一区二区三区在线欢| 伊人久久影视| 激情综合网址| 国产浮力第一页永久地址| 久久精品人妻中文系列| 亚洲精品午夜无码电影网| 谁有在线观看日韩亚洲最新视频| 国产又黄又硬又粗| 国产女人综合久久精品视| 香蕉在线视频网站| 国产91色| 久久国产热| 69视频国产| 欧美一区二区人人喊爽| 日韩一级毛一欧美一国产| 国内精品视频区在线2021| 色综合手机在线| 亚洲一级毛片在线观| 亚亚洲乱码一二三四区| 亚洲国产无码有码| 丰满人妻中出白浆| 亚洲美女一区二区三区| 免费一级毛片| 欧美一级在线| 欧美亚洲激情| 思思热精品在线8| 国产精品尤物在线| 亚洲av无码专区久久蜜芽| 日韩AV手机在线观看蜜芽| 99久久人妻精品免费二区| 国产日韩欧美中文| 久久永久免费人妻精品| 欧美一级高清片欧美国产欧美| 亚洲男人的天堂在线观看| 精品久久久久久久久久久| 欧美成人日韩| 国产极品美女在线观看| 国产成人精品男人的天堂| 国产日韩欧美视频| 丁香婷婷在线视频| 久久一色本道亚洲| 国产欧美性爱网| 久久亚洲综合伊人| 日韩激情成人| 国产福利一区在线| 欧美专区日韩专区| 另类专区亚洲| 日韩麻豆小视频| 国产在线视频自拍| 国产欧美视频在线|