劉麗
(上海對外經貿大學 上海市 201600)
隨著互聯網和信息技術的不斷發展,沉淀出海量的非結構化數據,如何將這些數據更加智能化地應用在信息服務中成了大數據時代熱門的研究課題。谷歌在2012年提出知識圖譜項目,旨在實現搜索引擎的智能化搜索,得到質量更高的搜索結果。
信息抽取是知識圖譜構建的關鍵環節和核心任務,從海量數據中提取出實體、實體關系和屬性等知識元素,為下游智能化應用提供數據支撐。實體識別和實體關系抽取是信息抽取的核心關鍵任務,近年來,深度學習方法被廣泛應用于信息抽取,抽取效率和效果均有明顯的提升。
本文首先介紹關系抽取的基本概念,然后總結出基于深度學習方法的實體關系抽取技術框架,最后系統地介紹了聯合學習方法的分類以及對應的研究現狀。
實體抽取任務首次出現在1998年的MUC-7 會議[1],涌現出模板方法和機器學習方法等實體關系抽取方法。早期的關系抽取任務大多采用模板方法[2]和機器學習[3]方法,而這些方法都需要具備一定的領域知識,通過構造出的模板或者提取出的語義特征來預測實體對之間存在的語義關系。
深度學習技術興起后,因其具備較好的領域遷移性以及能夠自動學習語義特征等優勢,被廣泛應用于信息抽取等自然語言處理任務,并取得較好的效果。
實體關系抽取是為了抽取非結構化數據中實體對之間的語義關系,得到實體關系三元組
根據實體識別和關系抽取實現的先后順序,可以將信息抽取分為流水線方法和聯合學習方法。流水線方法是在識別出實體的基礎上判斷實體對之間的關系,聯合抽取方法是在同一個模型中同時識別出實體和實體關系。
以句子“北京是中國的首都”為例,使用流水線方法需要首先識別出實體對“北京”和“中國”,然后再根據預定義的關系集合,判斷該實體對最有可能的語義關系。使用聯合學習方法則在同一個模型中,同時識別出實體對和實體關系。
根據數據標注的程度,基于深度學習的流水線方法可以分為有監督方法和遠程監督方法兩類。有監督方法是在標注好訓練數據的情況下開展模型的訓練,遠程監督方法則不需要進行數據標注,可以大大地減低數據標注的成本。主流的流水線學習方法主要采用卷積神經網絡[4](CNN)和循環神經網絡[5](RNN)兩大類結構,在此類結構的基礎上發展出長短時記憶網絡[6](LSTM)、雙向長短時記憶網絡[7](BiLSTM)以及圖卷積神經網絡[8](GCN)。
在關系抽取任務中使用流水線學習方法通常會出現實體冗余和錯誤傳播的問題,另外,流水線方法也難以解決關系重疊和復雜關系問題。關系重疊問題可以看作是一對多的問題,即一個實體與語料中的其他實體存在多個語義關系。復雜關系問題指的是一個實體對之間存在多種語義關系,通常是由于存在嵌套實體,導致實體對之間出現復雜關系。
聯合學習方法能夠解決流水線方法中實體識別和實體關系抽取兩個子任務之間聯系不緊密的問題,避免子任務之間的錯誤累積。同時,可以解決實體重疊或關系重疊問題,提高關系抽取的效果。目前,聯合學習方法的實體關系抽取技術可以分為基于參數共享的方法,基于序列標注的方法和基于圖結構三類方法。
基于參數共享的聯合學習方法分別對實體和實體關系建模,共享模型中的部分參數,將實體識別的損失與關系抽取的損失相加作為聯合模型的整體損失。
Miwa 等人[9]將兩個BiLSTM-RNN 模型應用于聯合抽取實體和關系,該方法在第一個LSTM 模型中預測出實體標簽,在下一個LSTM 單元上連接樹結構LSTM 模型,從而實現兩個子任務共享LSTM 編碼層的輸出。Katiyar 等人[10]將注意力機制融合到聯合學習模型中,首先利用BiLSTM+softmax 得到實體標簽,再利用注意力機制進行關系分類。這兩個模型中的關系分類子任務和實體識別子任務都共享了編碼層的雙向序列LSTM 表示,但是沒有解決實體重疊問題,會出現匹配不到語義關系的實體冗余和計算復雜度高等問題。Zheng 等人[11]將BiLSTM 模型和CNN 模型融合成一個實體關系抽取的聯合模型,共享BiLSTM 編碼層,在實體識別和關系抽取模塊中,分別采用LSTM 模型和CNN 模型解碼,解決了實體冗余和錯誤累計的問題,但是無法是別處復雜實體中的實體重疊問題。Giannis 等人[12]將一對多的關系抽取看作是多頭選擇的問題,搭建了基于參數共享的多頭選擇聯合抽取模型,在聯合模型中同時得到一個實體與其他實體存在的多個語義關系,解決了關系重疊問題。
基于序列標注的聯合學習方法同時對實體和實體關系建模,在同一個模型中得到實體關系三元組。對實體和實體對同時做標注,在一個模型中共同編碼,將實體與實體關系的聯合抽取轉換成序列標注的問題。
Zheng[13]等人提出了一個新的標注策略,同時標注實體的位置信息、實體關系類型信息和實體角色信息。采用BIOES 標注集標注實體詞的位置信息,預定義關系類型并編碼,如{CF,CP…..},并對實體角色編號。Dai 等人[14]提出了一種新穎的聯合抽取模型,該模型為n 個單詞的句子生成n 個標記序列,根據查詢詞位置P 標記實體和關系標簽。同時,引入位置注意力機制為每個查詢位置生成不同的句子表示,該模型可以同時提取實體以及實體類型和所有重疊關系。Yu 等人[15]將實體關系抽取任務看作是頭實體的標記以及對應尾實體的標記任務,對每個實體關系標記相應的頭尾實體。劉雅璇等人[16]提出了基于頭實體注意力的聯合抽取模型JSA,將實體關系抽取分為兩個互相影響的實體抽取子任務,第一個子任務對頭實體的起止位置進行標記,第二個子任務分別對每個頭實體標記對應的尾實體起止位置。該方法解決了流水線模型中的實體冗余和實體重疊問題,同時學習頭實體和尾實體之間的依賴關系。Duan等人[17]設計了一種基于多頭自注意力和稠密連通圖卷積網絡的關系自適應實體關系聯合提取模型(MA-DCGCN),利用多頭注意機制為實體之間的多種關系類型分配權重,以保證多個關系的概率空間不互斥。該機制還可以靈活預測各種關系類型和實體對之間的關系強度,通過稠密連通圖卷積網絡提取文本圖中更深層次的結構信息。
基于圖結構的方法利用圖對實體和實體關系建模,充分考慮實體和實體關系之間的依賴。實體和關系構成的圖結構能夠充分地考慮到所有實體對之間的關系,對于實體重疊和關系重疊問題具有一定的改善作用。
Wang 等人[18]設計了一種轉化框架將實體關系抽取轉化成有向圖,便于捕獲實體與關系之間的聯系和實體之間的聯系,交叉進行實體抽取和關系抽取任務。Fu 等人[19]提出了一種基于圖卷積網絡(GCNs)的聯合抽取模型GraphRel,通過堆疊的BiLSTM 編碼器和GCN 依賴樹編碼器自動學習特征,利用線性和依賴結構圖提取文本的序列特征和區域特征,使用詞圖提取文本所有詞語之間的隱含特征。該模型通過對實體關系賦權建立全連接圖,考慮到了所有詞對之間的關系以及實體與關系之間的相互作用,有效地解決實體重疊和關系重疊問題。
聯合學習方法將實體識別與實體關系抽取兩個子任務合并成一個任務,在同一個模型中同時得到所有的實體關系三元組,有效減少流水線模型存在的錯誤累積和錯誤傳播問題,也能夠減少冗余實體的出現。同時,聯合學習方法可以在不同程度上解決實體重疊以及關系重疊問題,基于圖結構的關系抽取方法為研究人員提供了新的聯合抽取思路,整體來說,聯合抽取方法的模型性能還有待提升。