殷纖慧,古麗拉·阿東別克
(1.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046;2.新疆多語種信息技術實驗室,新疆 烏魯木齊 830046;3.國家語言資源監測與研究少數民族語言中心哈薩克和柯爾克孜語文基地,新疆 烏魯木齊 830046)
關系抽取[1]旨在識別文本中實體詞之間的語義關系.它是信息抽取中的一個重要組成部分.新疆旅游領域實體關系抽取的研究為構建旅游領域知識圖譜奠定了基礎.目前研究關系抽取的方法包括傳統方法和深度學習的方法.傳統的方法包括基于特征的方法和基于核函數的方法[2].傳統方法手工依賴性較高,導致額外的傳播錯誤且增加計算成本.近年來,循環神經網絡(RNN)、卷積神經網絡(CNN)等方法[3-4]被用于實體關系抽取任務中,可自動學習簡單的特征,能夠發現更多隱含的特征.但仍然存在以下問題:(1)文本特征提取不充分.且對于新疆旅游領域而言,語料中包含大量復雜的人名地名,僅考慮某個單個特征,不足以充分捕捉文本信息.(2)核心詞表現弱.不同詞語對于整個句子的語義信息影響大小不同,對所有詞一視同仁,影響關系預測的結果.(3)大多用于普通領域,缺乏新疆旅游領域相關研究.缺少領域語料庫,領域針對性較小.
近年來,大量傳統方法被用于解決實體關系抽取問題.主要為基于特征的方法和基于核函數的方法.
(1) 基于特征的方法:該方法利用通過特征提取構造特征向量.常用的特征包括詞匯特征、句法特征和語義特征.文獻[5]使用了依存句法分析、詞性標注兩個特征,以支持向量機作為分類器.但沒有考慮到位置特征及實體標簽,特征提取不充分.
(2) 基于核函數的方法:該方法利用解析樹、核函數等豐富句子的句法信息.文獻[6]將語義相似度嵌入樹核中實現關系抽取.這些方法增強了模型的泛化性,但特征提取耗時耗力,擴展性不強.
目前,解決實體關系抽取問題所用的兩大主流的深度學習方法為卷積神經網絡(CNN)、循環神經網絡(RNN),它們是解決實體關系抽取問題的兩大主流的深度學習方法.
Zhang等[7]提出BiLSTM來模擬一個完整的、連續的單詞信息的句子.但LSTM無法進行平行化輸入,局部信息表示不充分.Zeng等[8]采用CNN實現關系抽取,且首次引入位置標簽.Zhou等[9]2016年將注意力機制與雙向LSTM相融合,使用位置特征作為輸入特征.Wang等[10]提出將注意力機制引入到CNN中.這些方法的提出驗證了注意力機制和CNN模型在解決實體關系抽取任務中的有效性.
因此本文將注意力機制與卷積神經網絡相融合,提高核心詞的影響力.并使用多特征融合的方法解決特征提取不充分的問題.
本文提出了一種基于多特征注意力CNN的實體關系抽取方法.其主要優點:(1)引入多個特征進行特征表示,如位置、詞性及實體標簽,充分提取特征;(2)將句子級的注意力機制與CNN相結合,提高核心詞的權重;(3)面向新疆旅游領域,結合歸納15種實體關系.設計語料標注系統,建立小型語料關系庫;(4)設計對比實驗,驗證本文模型優勢.
本文模型由特征層、嵌入層、卷積層、池化層和全連接層組成,如圖1所示.

圖1 實體關系抽取模型
1.1.1 特征層
本文特征層用多個離散特征進行特征表示.
(1) 位置標簽:文本中每個詞距離實體e1和實體e2的距離.以圖2中句子為例,“美麗”距離實體詞“新疆”“天池”的距離分別為3和-2.

圖2 表示位置關系的例子
(2) 詞性特征:詞性為基本語法屬性,詞的詞性蘊含著重要信息.本文采用基于統計模型的標注方法.
(3) 實體類型:旅游領域涉及大量的地名、景點名等,且較為復雜,例如:“霍爾果斯口岸”“江布拉克”等.本文采用命名實體的標注方法,即BMEO標注.
1.1.2 嵌入層

(1)

(2)
1.1.3 卷積層
卷積層對輸入文本進行卷積操作,以提取句子的局部特征[11].w1,w2,…,wm是所輸入句子的特征向量序列,其中wi∈Rd第i個詞所包含所有特征向量.假設有一個權重向量參數化的濾波器,權重向量由Wconv∈Rcd表示,其中c表示濾波器的長度,因而輸出序列為
hi=f(Wconv·wi:i+c-1+b).
(3)
其中i=1,2,…,m-c+1,操作“·”代表點乘,b是偏倚項,f是線性整流函數(ReLU).
1.1.4 池化層
本文使用最大池化層將卷積層中每個濾波器的輸出轉化為一個大小固定的向量[12],卷積層的輸出長度(m-c+1),依賴于句子中詞m的個數.
z=max[hi].
(4)
通過池化層操作得到句子的全局特征,保留句子中最有用的全局特征.
1.1.5 全連接層
本文使用池化層的輸出來預測實體關系的類型[13],使用權重矩陣Wfconn∈Ro×le將z轉化為分數
s=Wfconnz.
(5)
其中zi∈Rle表示池化層的輸出,s表示得分.使用softmax函數將s轉化為關系概率
(6)
其中且s=[s1,…,so],o表示為待分類的關系總數.當已知分類標簽為y時,損失函數Lsoftmax定義為
Lsoftmax=-∑ylogp.
(7)
其中:p表示關系概率;y表示one-hot向量.
本文發現句子中每個詞語對于整個句子的語義信息影響不同,一部分詞影響較小,而另一部分詞則能決定整個句子的語義信息.因此本文采用注意力機制,如圖2上部分所示.計算注意力公式為:
(8)
(9)
(10)
其中:函數βi表示當前詞與設定關系的匹配程度;E={e1,e2};ai,1表示實體1的權重;ai,2表示實體2的權重;bα為偏倚項;權重為ai.
本文采用L2正則避免過擬合問題,使用目標函數Lsoftmax與L2合并,對損失函數權重進行正則化.
(11)
其中:λ表示正則化參數,‖‖F表示Frobenius范式.需要優化的參數為Wemb,Wconv,Wfconn,b,bα.使用Kingma和Ba在2015年提出的Adam算法作為優化器.
為評估本文模型在新疆旅游領域進行實體關系抽取研究的有效性,在建立的新疆旅游領域小型語料關系庫中進行實驗.
本文實驗從去哪兒網、新疆旅游官網等旅游型網站中爬取有關新疆旅游領域的數據,通過對語料的預處理操作,最終獲得標注數據5 028條.訓練數據3 028條,其余2 000條為測試數據.
(1) 定義實體對:總結定義了15種旅游領域實體關系對,其中“民族-美食”、“民族-習俗”等實體對均為新疆文化特色.如表1所示.

表1 實體關系對
(2) 開發語料標注系統:設計并開發語料標注系統,進行半自動化的語料標注,如圖3所示.

圖3 語料標注系統
(3)參數設置:詞向量為300,位置向量為20,詞性向量為17,實體標簽向量為20,卷積窗口大小為[3,4],卷積核數目為100,L2正則化參數為0.000 1.
2.2.1 多特征的有效性驗證
本文共使用了多個特征進行特征表示,為了研究每個特征對本文模型的貢獻,依次加入不同的特征對模型的性能進行比較,結果如表2所示.

表2 特征對于訓練模型的影響效果 %
表2中,WV為使用詞訓練模型訓練好的旅游領域詞向量.PF(位置特征)、POS(詞性特征)、NER(實體標簽),在WV的基礎上添加其他特征.其中位置特征最有效,F1值提高了4.03%.詞性影響不明顯.實體類型考慮了領域復雜名詞等,使F1值提高了1.95%.
2.2.2 注意力機制的有效性驗證
為了驗證注意力機制對關系抽取模型的性能影響,本文模型與未加注意力機制的CNN做了對比試驗(見圖4).

圖4 模型驗證
本文方法相較于CNN效果更佳,迭代次數在5~15次內有大幅度提升,迭代次數大于20趨于穩定.最終ATT-CNN的F1值比CNN高3.19%.驗證了引入注意力機制能夠提升實驗F1值.
2.2.3 與同類實驗對比
為了比較本文提出的關系抽取模型的性能,與目前關系抽取模型進行了對比實驗.
本文實驗與表3中的實驗進行了對比,本組實驗中分別選了SVM、CNN、ATT-CNNN、ATT-BiLSTM 等模型做了對比,不同的模型所選的特征不同,實驗結果表明:本文提出的多特征融合的ATT-CNN模型,在實體關系抽取任務中F1值高于其他方法.

表3 同類實驗對比
本文采用了ATT-CNN模型,并使用了位置、詞性、實體類型3個特征進行特征表示.針對新疆旅游領域進行實體關系抽取研究.此外,建立關于新疆旅游領域的小型語料關系庫,并總結使用15種關系對.通過實驗分析驗證了本文模型的有效性.
未來的工作主要為:(1)擴展語料庫,研究其他特征對模型的影響.(2)本文通過預先定義的關系對來實現關系抽取任務,今后研究如何將本文方法引入到開發領域,并且自動發現實體關系對.