基于BERT的實體關系抽取研究

2021-02-11 05:57:22劉成漢童斌斌

時代人物 2021年32期

劉成漢何慶童斌斌

（1.貴州大學大數(shù)據(jù)與工程學院貴州貴陽 550025；2.貴州省公共大數(shù)據(jù)重點實驗室貴州貴陽 550025）

信息抽取（Information Extraction，IE）目的是從大量非結構或半結構的文本中抽取結構化信息[1]，其主要任務包括：實體消歧、時間抽取、命名實體識別和實體關系抽取等。關系抽取任務是將目標實體的關系抽取出來，為下游復雜系統(tǒng)的構建提供數(shù)據(jù)支撐[2]，其應用包括，自動問答、機器翻譯等。隨著近年來研究的深入，關系抽取問題得到廣泛的關注。

近年來，深度學習方法被廣泛地應用到實體關系抽取任務中。徐躍峰等人[3]通過卷積深度神經(jīng)網(wǎng)絡(CDNN)提取原始文本中詞級和句級特征，解決了傳統(tǒng)抽取方法在特征提取過程中的錯誤傳播問題。王凱等人[4]提出了基于長短期記憶網(wǎng)絡的方法，在句法依存樹的最短路徑基礎上，融入詞性、句法等特征進行關系分類。以上學者在文本表征模塊主要采用了Word2Vec語言模型，但這種表征方法對于后續(xù)任務的效果提升非常有限，因為該方法只能學習到文本無關上下文的淺層表征。為了解決Word2Vec為代表的文本表征方法的缺陷，BERT語言模繼出現(xiàn)并得到廣泛的應用，例如，趙旸等人[5]利用BERT進行中文醫(yī)學文獻分類研究，體現(xiàn)了BERT模型的分類優(yōu)越性；王昆等人[6]針對長文本噪聲大和冗余性為標題，提出了一種基于文本篩選和改進BERT的情感分析模型。雖然上述方法取得了較好的效果，但目前針對關系抽取任務的性能有待進一步提高。

綜上所述，本文提出了一種BERT-BiLSTM-Attention模型，首先通過研究BERT微調(diào)的方法學習到文本的深層次特征，然后引入字級注意力機制提高對關系抽取任務和情感分類任務起決定性作用的字權重，降低無關詞的作用，同時避免了在靜態(tài)詞向量上直接添加注意力機制導致無法充分理解句子語義的問題，進而提升整個分類模型的性能。通過在英文公共數(shù)據(jù)集SemEval2010 Task8上的實驗結果表明，與BiLTSM-Attention主流模型相比，本文所提出的模型具有更高的性能。

BERT-BiLSTM-Attention模型

BERT-BiLSTM-Attention模型如圖1所示，主要分為三部分：先通過BERT模型訓練獲取每則文本的語義表示；再將文本中每個字的向量表示輸入到BiLSTM-Attention模型中，進行進一步語義分析；最后利用softmax層進行輸出。

圖1 本文模型

BERT

對于自然語言處理任務，首先要將文本向量化，這一過程稱為詞嵌入，但之前提出的word2Vec模型只能學到本文的表層特征，用靜態(tài)的詞向量來表示詞的多個語義，所以不能更好的理解文本語義。與Word2Vec相比，BERT模型(如圖2所示)采用的編碼方式為雙向的Transformer結構，“雙向”代表了模型在處理一個詞時，會根據(jù)該詞的上下文關系來表征該詞在本文中的具體語義信息。

BERT的訓練是BERT模型最關鍵的階段，通過對海量的文本進行訓練，學到到每個詞的表征，用向量W表示，如公式1所示：

式中，W(i)表示第i個文本的向量矩陣，N代表每則本文的最大句子長度，WN(i)表示文本中每個單詞的表征向量。在英文數(shù)據(jù)集上，本文采用的是BERT預訓練的模型表征，在其基礎上進行微調(diào)。

BiLSTM

長短期記憶網(wǎng)絡(LSTM)作為一種序列模型，在眾多的NLP任務中都取得了較好的效果，它解決了循環(huán)神經(jīng)網(wǎng)絡(RNN)的梯度消失以及無法獲取長距離文本信息的問題。但是，LSTM只能獲取單向的語義信息，無法同時得到文本的上下文信息，而在實際的文本中，前后信息都蘊含著豐富的語義信息。為此，本章引入了LSTM的擴展模型雙向長短期記憶網(wǎng)絡(BiLSTM)，它可以充分的利用前向和后向的上下文信息，使得模型能夠更好的理解句子語義特征。在本章模型中，BiLSTM作為動態(tài)預訓練模型BERT的下一層，能對BERT輸出的文本向量進行雙向?qū)W習并拼接，以得到句子進行更深層次的理解，下述公式2～公式12詳細的闡述了BiLSTM的計算過程。

式中，→和←分別表示神經(jīng)網(wǎng)絡的前向計算和后向計算的過程，it、ft和ot分別表示在t時刻神經(jīng)網(wǎng)絡的輸入門、遺忘門和輸出門。ct表示的是在t時刻細胞狀態(tài)中的計算公式，ht是t時刻雙向長短期記憶網(wǎng)絡的完整輸出，它是由t時刻前向輸出和后向輸出進行向量拼接得到的。

Attention

在經(jīng)過Embedding層和解碼層之后，由于長短期記憶網(wǎng)絡信息傳遞的梯度消失和信息傳遞的容量限制問題，只能夠提取到輸入信息的局部依賴關系。所以為了增強模型對于長句的建模能力，同時增強信息之間的依賴關系，本章在模型的頂層加入Attention層，目的是為了提高模型捕捉句子內(nèi)部語義信息的相互聯(lián)系，同時增強對關系抽取任務起關鍵性作用的字的權重，從而降低無關字詞的權重值，通常注意力機制中的權重采用公式13進行計算：

式中，f是一個將待計算向量mt和影響權重因子n聯(lián)系起來的函數(shù)，l表示需要分配權重的向量個數(shù)，at是注意力機制中自動計算的mt向量的權重，采用Softmax歸一化，使得所有權重的和為1。

本節(jié)模型中注意力計算公式如公式14～公式17所示，在得到BiLSTM隱層輸出H={h1,h2,…,hn}之后，字級注意力層可以通過下述公式進行計算：

式中，先將隱層輸出H變換到[-1,1]之間，W是注意力機制的權重參數(shù)，是一個可訓練參數(shù)，h＊則是通過注意力層加權求和后的句子表示。

實驗和分析

數(shù)據(jù)集。本文采用的英文數(shù)據(jù)集SemEval2010 Task8包含了12717條數(shù)據(jù)。其中，訓練集包含8000個樣例，測試集包含2717個樣例。

實驗環(huán)境與參數(shù)。本文所有的實驗均在 Ubuntu Server 18.04操作系統(tǒng)，顯卡為TITAN-XP 12G ＊ 6，內(nèi)存為32GB ＊ 4的計算機上進行，本文中所有模型都是基于TensorFlow1.15.0搭建的，同時為了增強模型之間的可比性，所有模型的參數(shù)均保持一致，其中，包括最大句子長度設置為90，詞向量維度設置為768維，batchsize大小設置為64等。

實驗結果和分析。為了檢驗本文所提關系抽取方法的有效性，將BiLSTM-Attention、BERT-Fine-tuning、BERTBiLSTM、BERT-BiLSTM-Attention、At_LSTM和PNAtt_LSTM模型進行對比，實驗結果如表4所示。

表2 實驗結果對比

本文實驗部分的目的一方面是為了證明基于BERT微調(diào)方法可以得到更好的詞向量表征，同時有效地提高模型的性能上限；另一方面是為了驗證字級注意力機制對于實體關系抽取的有效性。

從表4結果可以看出，與文獻[7]的At_LSTM模型相比，本章模型在準確率、召回率和F1值上比At_LSTM改進算法都高近4%，證明了本文算法與其他優(yōu)化算法相比，具有更優(yōu)越的性能；與文獻[8]的PNAtt_LSTM改進算法相比，本文模型的性能在準確率上與PNAtt_LSTM改進算法相近，但是在召回率和F1值上比PNAtt_LSTM改進算法高1%。

本文針對常見的文本表征模型不能很好地處理不同語境下多義詞，以及無法涵蓋上下文語義信息問題，提出了一種基于BERT的關系抽取模型，利用BERT微調(diào)后的詞向量作為雙向長短期記憶網(wǎng)絡的詞嵌入層，通過字級注意力機制對雙向長短期記憶網(wǎng)絡解碼后的輸出進行注意力計算，提升神經(jīng)元之間的關聯(lián)性。從實驗結果可以看出，字級注意力機制有效提升了模型的性能，同時也證明了基于BERT微調(diào)方法可以有效地提高模型的性能上限。本文方法先是在關系抽取英文數(shù)據(jù)集上證明了模型有較好的性能，但本文在數(shù)據(jù)收集方面未能考慮事件的時序性，后續(xù)將著重針對不同時段某一輿情事件的發(fā)展趨勢。