999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

民航突發事件領域本體關系提取方法的研究*

2020-02-20 03:42:16李浩飛
計算機與生活 2020年2期
關鍵詞:語義文本方法

王 紅,李 晗,李浩飛

中國民航大學 計算機科學與技術學院,天津 300300

1 引言

信息抽取[1-2]的主要目的是將非結構化或半結構化描述的自然語言文本轉化成結構化數據,關系抽取是其子任務,主要負責從文本中抽取實體之間的語義關系,在問答系統、知識圖譜構建等許多自然語言處理任務中起著重要作用。近年來,研究人員提出了各種方法來實現面向非結構化文本的關系抽取,其中深度學習的方法相較于傳統方法可以獲取更多有效的語義信息,準確率和召回率得到較大提升,因此廣泛應用于各個領域,包括民航突發事件領域本體的關系抽取。

本文提出將注意力機制與雙向門控循環單元(bidirectional gated recurrent unit,BiGRU)相結合的模型(用Att-BiGRU表示),通過前向和后向網絡抽取詞語序列的上下文語義信息,同時在詞語層面和句子層面上引入注意力機制,為具有語義關系的詞語和句子分配更大的權重,旨在提取更有價值的詞語和句子特征,有效減少無關數據的影響。將該模型應用在民航突發事件領域本體的關系提取中,相較于之前的其他方法具有更好的提取效果,驗證了該模型的有效性。

2 相關工作

傳統的關系抽取方法[3-6]主要有基于模式匹配的方法和基于機器學習的方法,這些方法不能充分提取潛在的文本特征,而深度學習方法則可以充分利用文本語義信息,取得更好的提取效果,因此近幾年成為了研究熱點。

Zeng等人[7]利用卷積神經網絡(convolutional neural network,CNN)方法進行關系抽取,效果優于傳統方法,然而該方法無法對時間序列數據進行建模。Socher等提出循環神經網絡(recurrent neural network,RNN)[8-9]可以對序列數據進行精確建模,在自然語言處理的多個領域,如序列標注、機器翻譯等任務上均取得了顯著效果。Zhang等人[10]采用雙向RNN(bidirectional RNN)的方法從原始數據中學習關系模式,盡管該方法可以考慮到詞語序列的上下文語義信息,但在具體的迭代過程中會出現梯度消失問題,所能利用的信息范圍有限。為解決RNN的長距離依賴問題,Hochreiter和Schmidhuber[11]對RNN模型的隱藏單元進行了改進,提出了長短時記憶單元(long short term memory network,LSTM),它通過在隱藏層增加三個門控記憶單元來存儲歷史信息,使得LSTM處理長序列數據的能力大幅提升,對長句子的處理取得了很好的效果。由于LSTM模型的特點和優勢,出現了很多LSTM的改進模型,如雙向LSTM[12](bidirectional LSTM)等。針對訓練時大量標注數據的問題,可采用遠程監督的方法進行關系抽取,Banerjee等人[13]提出多編碼方式的雙向LSTM網絡,可減少噪聲數據的影響,在公共數據集上取得了較好效果。

在自然語言處理領域,國內外學者對注意力機制[14]做了大量研究。其中,Bahdanau等人[15]將注意力機制應用在機器翻譯任務上。Lin等人[16]提出了基于句子級注意力機制的神經網絡,該模型根據不同示例在表達語義關系中的貢獻大小分配不同權重,充分利用句子信息。由Google機器翻譯團隊提出的自注意力機制[17-18],是對注意力機制的一種改進,減少了對外部信息的依賴,能夠更好地學習數據或特征的內部相關性。

在民航領域,基于領域本體的突發事件應急管理已經取得了初步的成果[19-23],民航突發事件領域本體的關系提取方法主要有基于NNV(noun-noun-verb)關聯規則的方法[20]、基于改進的層次聚類H_cluster的方法[21]、基于LDA(latent Dirichlet allocation)的方法[22]和基于LSTM的方法[23]。其中,基于NNV的方法將關聯規則與自然語言處理方法相結合,完善了領域詞典的構建方法,增添同義詞表,豐富領域術語的過濾過程,利用關聯規則法提取事務集,計算概念和非分類關系的支持度和置信度,解決了領域本體非分類關系獲取中無法自動獲取關系名稱的問題,相較于模式匹配方法提取結果更好。但由于中文概念的多義性對非分類關系種類的影響等原因,該方法的準確率和召回率都很低;基于改進的層次聚類H_cluster的方法在概念獲取的基礎上,根據領域概念的上下文構建概念向量空間,計算概念相似度,解決了聚類結果的粒度過細問題,使其更加符合本體層次結構的需要,實現了概念間分類關系的提取,但該方法的自動化程度有限,且準確率和召回率均提升較?。换贚DA的方法以航空安全事件文本信息作為數據源,采用NLPIR(natural language processing and information retrieval)自適應分詞與過濾方法獲取候選術語集,設計了領域本體的LDA主題模型,通過吉布斯采樣進行LDA模型訓練與主題推斷,實現了領域本體核心概念與關系的提取,可以有效解決大規模領域本體的自動更新問題。由于領域本體所有概念及其語義關系的復雜性,基于LDA概率分布的規則構建與本體實例自動獲取的方法應進一步深入研究;基于LSTM的方法將深度學習模型LSTM應用于領域本體關系提取,首先將文本信息向量化,提取文本局部特征,然后將文本局部特征導入LSTM模型中,獲取文本整體特征,再將局部特征和整體特征進行特征融合,通過分類器進行分類。相較于傳統方法,該方法能更加充分利用句子中的語義信息,更準確地表達深層語義,因此關系提取的F值有了較大提升,但還可以進一步優化。此外,當前互聯網上包含越來越多的民航突發事件信息,涉及不同信息源(微博、微信、航空安全自愿報告系統等)對事件的不同評論,結構和內容越來越復雜,且民航突發事件領域本體的,因此迫切需要更加有效的關系抽取方法來支撐領域本體的自動構建。

由于LSTM實現了遺忘門、輸入門和輸出門三個門的計算,結構復雜,Chung等人提出LSTM的一個變體——門控循環單元(gated recurrent unit,GRU)[24],它相較于LSTM結構更加簡單,減少了訓練參數和計算的復雜性,能提升關系提取的效果。本文將注意力機制與雙向GRU相結合,應用在民航突發事件領域本體的關系提取中。

3 基于注意力機制與BiGRU的關系抽取模型

為了更好地利用句子的語義信息,對詞語和句子的特征分別進行抽取,本文提出了Att-BiGRU模型,該模型總共包含5部分:輸入層、雙向GRU層、詞語級注意力層、句子級注意力層、輸出層,其結構如圖1所示。

(1)輸入層(input layer):將詞語向量與實體對之間的位置向量相拼接得到的向量序列輸入網絡模型。

(2)雙向GRU層(BiGRU layer):采用BiGRU抽取詞語序列的上下文語義信息。

(3)詞語級注意力層(word-attention layer):計算句子中詞語與關系之間的相關程度,建立詞語層面權重。

(4)句子級注意力層(sentence-attention layer):根據句子與分類關系相關程度的大小為句子分配不同權重,建立句子層面權重,得到最終的文本向量表示。

(5)輸出層(output layer):根據文本向量表示,利用分類函數進行分類。

3.1 輸入層

將輸入句子中的每個詞語映射為向量,該向量由文本詞向量和實體位置向量兩部分組成。

3.1.1 詞向量

一個長度為m的句子s={w1,w2,…,wm},將每個詞語wi由詞向量矩陣映射為一個實值向量ei:

3.1.2 位置向量

Fig.1 Overall diagram of Att-BiGRU model圖1 Att-BiGRU模型整體框圖

在關系抽取任務中,靠近實體的單詞通常更能突顯出句子中兩個實體之間的關系,因此為了更加充分地利用句子語義信息,將句子中每個詞到兩個實體相對距離的位置向量拼接到該單詞的詞向量表示中。例如,在句子“Bill-Gates is the founder of Microsoft.”中,founder到實體Bill-Gates和Microsoft的相對距離分別為3和2。

若在句子向量化中,詞向量維度為dw,位置向量維度為dp,則將每個詞的詞向量和位置向量相拼接得到向量序列x={x1,x2,…,xm},其中xi∈?d(d=dw+dp×2)。

3.2 雙向GRU層

GRU的工作原理如圖2所示,它實現了兩個門的計算,分別為更新門zt和重置門rt。

Fig.2 Work principle of GRU圖2 GRU工作原理

具體計算過程如下:

(1)前向推算

其中,xt為t時刻的向量表示;更新門zt,fwd用于控制前一時刻的狀態信息傳遞到當前狀態中的程度,更新門的值越大說明前一時刻隱含狀態對當前狀態的影響越大;重置門rt,fwd用于控制忽略前一時刻狀態信息的程度,如果重置門近似為0,上一個隱含狀態將被丟棄;候選隱含狀態使用重置門rt,fwd來控制包含過去時刻信息的上一個隱含狀態的流入;隱含狀態ht,fwd使用更新門zt,fwd來對上一個隱含狀態ht-1,fwd和候選隱含狀態進行更新;Wxz,fwd、Whz,fwd、Wxr,fwd、Whr,fwd、Wxh,fwd、Whh,fwd表示權值矩陣,bz,fwd、br,fwd、bh,fwd表示偏置量;⊙為向量點乘操作。

(2)后向推算

正向輸出向量和反向輸出向量分別為:

本文采用BiGRU來得到詞語序列的上下文語義信息,即詞語的向量表示ht由正向輸出向量和反向輸出向量相拼接得到:

3.3 詞語級注意力層

注意力機制廣泛應用在自然語言處理領域,它通過計算句子中每個詞語的注意力概率分布,突出關鍵性輸入的影響。由BiGRU輸出的詞語向量構成的矩陣為H=[h1,h2,…,hm],先通過激活函數tanh將詞語表示各維壓至(-1,1),則句子向量表示r為詞語向量的加權:

其中,H∈?2u×m,u為BiGRU隱藏層節點數,m是句子的長度,w是訓練的參數向量,α為詞語權重,w、α、r的維度分別為2u、m、2u。

3.4 句子級注意力層

將文本看成是由句子組成的序列,假設文本包含的句子數目為n,即T={s1,s2,…,sn}。為了得到整個文本的語義特征,將上文得到的句子向量表示再次輸入到BiGRU網絡,在第i時刻的狀態由當前時刻的輸入ri和上一時刻的隱含狀態共同決定,通過BiGRU網絡得到序列之間的語義關聯信息,實現文本特征的提取,具體描述為:

將BiGRU的正向輸出向量和反向輸出向量相拼接可得:

在一個文本中,不同的句子對于文本分類的重要程度不同,為了充分利用每個句子的語義信息,本文加入了句子級的注意力層,對每個句子給予不同權重。

首先,通過激活函數tanh將句子si的向量表示的各個維度值壓至(-1,1):

然后,將文本轉化為向量表示的形式t,計算公式如下:

其中,βi是每個句子向量的權重,t為的加權求和,為對于分類更重要的句子賦予較高權重,采用softmax函數給出每個句子si所占的權重,令βi為:

其中,u是參數向量,隨機初始化,在訓練過程中進行學習。由此可得文本T的向量形式t:

3.5 輸出層

輸出層用來輸出具體的類別,在得到向量表示t后,定義線性函數來計算各個類的概率。

本文使用softmax分類器,softmax是logistic回歸模型在多分類問題上的推廣,其假設函數形式如下:

其中,θ為模型參數,t(i)為第i個輸入實例的向量表示,y(i)為第i個實例所屬的類別,k為類別數。

采用交叉熵函數作為損失函數,定義如下:

其中,m為語料集的數目,1{?}是示性函數,其取值規則為:1{值為真的表達式}=1,1{值為假的表達式}=0。

在訓練階段,采用mini-batch梯度下降算法,每次迭代僅使用一小批訓練數據,選取Adam[25]的優化方法更新參數來最小化損失函數,利用L2正則化和Dropout[26]方法防止過擬合。

4 實驗與分析

本章將上述方法應用到民航突發事件領域本體的關系提取中,實驗平臺的配置采用TensorFlow深度學習框架,使用Python語言編程實現,運行環境為PyCharm軟件、Win10操作系統、內存8 GB、Intel i5-6200處理器。具體關系提取過程如圖3所示。

Fig.3 Relation extraction process of domain ontology圖3 領域本體關系提取過程

4.1 數據預處理

實驗數據來源于中國民用航空安全信息系統[27]發布的世界航空安全事故調查跟蹤報告,共收集了民航突發事件文本信息869個。每一條文本記錄一個民航突發事件,數據預處理過程如下:

(1)將突發事件的文本信息整理為標題、時間、航班號、事件描述的半結構化形式,將事件發生時間和航班號作為事件的唯一標識;

(2)實體標注,對突發事件信息中表征事件特征的實體進行標注(如e1、e2等);

(3)關系標注,將屬性關系標注為attribute-of,事件原因標注為reason-of,事件結果標注為result-of,標注后的結果如表1所示;

(4)以7∶3的比例將該標注數據分為訓練集和測試集,以評估提取方法的有效性。

測試數據集示例如表1所示。

Table 1 Example of test dataset表1 測試數據集示例

4.2 關系提取過程

領域本體關系的提取主要涉及事件屬性、事件原因和事件結果的關系提取,并對領域本體的實例數據進行擴充。實現過程如下:

步驟1進行數據預處理,按照3.1節所述的方法進行實體及實體間關系的標注,將標注好的文本進行分句,得到句子集合。

步驟2采用訓練好的詞向量對詞語進行向量化處理,將每個詞的詞向量和位置向量相拼接可得到向量序列。

步驟3將步驟2生成的詞向量序列作為BiGRU的輸入,并引入詞語級注意力機制對詞向量進行加權求和得到句子的向量表示。

步驟4將文本看成是由句子組成的序列,引入句子級注意力機制對句子向量進行加權求和,得到文本的整體特征。

步驟5將步驟4生成的文本整體特征導入softmax分類器得出被分到每一個類別的概率。

步驟6對模型進行訓練,并對模型的隱藏層大小、詞向量、位置向量的維度以及正則項等參數進行調優。

步驟7將測試數據集在上述設定好參數的模型上進行測試,抽取出事件的屬性、原因、結果三類關系并進行評估。

步驟8將經過步驟7抽取出的事件屬性、原因、結果關系添加到民航突發事件領域本體的實例數據中。圖4為更新后的局部效果圖,實線橢圓代表事件的唯一標識,虛線橢圓代表抽取出的屬性和原因、結果關系,虛線箭頭標注為attribute-of的代表事件屬性關系,標注為reason-of的代表原因,標注為result-of的代表結果。

4.3 參數設置與實驗評價指標

通過反向傳播算法訓練模型,采用mini-batch梯度下降算法來最小化損失函數,利用L2正則化方法和Dropout方法消除模型過擬合的影響,參數設置如表2所示。

采用正確率(precision)、召回率(recall)和F值三個標準作為性能評價指標,計算公式如下:

其中,out_right表示正確預測的關系個數,out表示所有預測的關系個數,all表示測試集中所有的關系個數。在準確率相同的情況下,召回率越高越好;在召回率相同的情況下,準確率越高越好。

4.4 實驗效果分析

在民航突發事件領域數據集上進行實驗,對事件屬性、事件原因、事件結果這三類關系進行抽取,具體結果如表3所示。

由實驗結果可以分析出,事件屬性比事件原因和事件結果抽取的準確率和召回率更高,原因是屬性關系包括航班號、機型、航空公司、始發機場、降落機場等多種屬性關系,而事件原因和結果關系的標注數量相對于屬性關系較少,標注數量的不均衡使得關系提取的結果存在差異,因而屬性關系的提取結果更好。

Fig.4 Relation extraction result of civil aviation emergency domain ontology圖4 民航突發事件領域本體關系提取結果

Table 3 Relation extraction result of domain ontology表3 領域本體關系提取結果 %

為驗證本文方法的有效性,將本文方法(Att-BiGRU)與基于NNV關聯規則的方法(NNV)、基于層次聚類的關系提取方法(H_cluster)、基于主題模型的關系提取方法(LDA)和基于雙向LSTM的關系提取方法(BiLSTM)進行對比,對事件屬性、原因和結果的提取結果綜合評估,實驗結果如表4所示。

實驗結果表明,深度學習方法BiLSTM和Att-BiGRU均比傳統方法NNV、H_cluster和LDA表現出更好的提取結果,因為傳統方法未能充分提取文本的深層語義,導致分類結果的準確率低。而深度學習的方法相較于傳統方法可以更充分利用句子中的信息提取語義。其中,BiLSTM取得了較高的準確率和召回率,說明LSTM通過構建專門的記憶單元可以更好地存儲歷史信息,同時使用正反兩方向LSTM充分提取句子序列的信息;Att-BiGRU方法比BiLSTM方法效果更好,因為Att-BiGRU方法在詞語層面和句子層面上分別使用了注意力機制,為具有語義關系的詞語和句子分配更大的權重,使得提取的特征更全面,說明在訓練過程中引入注意力機制能有效減少無關數據的影響,從而可以提高分類的準確性。

Table 4 Comparison of extraction results of different methods表4 不同方法提取結果對比 %

將本文提出的模型與其他兩個典型模型進行對比實驗,對比模型情況介紹如下:

(1)BiGRU,該模型將文本向量化后,使用雙向GRU進行語義信息的提取,并在雙向GRU層后面加入平均池化層,將得到的最終文本特征向量送進分類器進行分類。

(2)Att-BiLSTM,該模型將Att-BiGRU模型中的BiGRU層換成BiLSTM層,其他實驗設置均相同。

實驗結果如表5所示,可以看出,Att-BiGRU和Att-BiLSTM模型的準確率優于BiGRU,區別在于前兩者加入了注意力機制,而BiGRU在雙向GRU層后加入平均池化層,這說明了利用注意力機制可以分配不同的權重參數來突出文本中重要的詞語和句子,在突出重要信息方面相較于平均池化更有效;Att-BiGRU模型在評價指標方面優于Att-BiLSTM,這兩個模型結構基本相同,均存在注意力機制,不同之處在于后者將Att-BiGRU模型中的BiGRU層換成了BiLSTM層,可見BiGRU在提取深層次語義信息方面比BiLSTM表現更優。

Table 5 Extraction results of different models表5 不同模型提取結果 %

綜上,基于注意力機制的BiGRU模型的關系提取方法可以為民航突發事件領域本體關系的自動獲取提供新的方法支持。

5 結束語

本文針對民航突發事件領域本體關系抽取準確率低的問題,提出了一種結合注意力機制與BiGRU的關系抽取模型。利用BiGRU充分提取詞語序列的語義信息,同時通過在詞語層面和句子層面分別引入注意力機制來提取更多的隱含特征,實驗表明該方法能夠有效地提升領域本體的關系抽取效果。但是,該方法在自動識別實體信息方面還存在不足,需要進行實體的手工標注,針對實體與關系的聯合抽取有待進一步研究。

猜你喜歡
語義文本方法
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲经典在线中文字幕| 国产亚洲精品yxsp| 日本三级欧美三级| 国产成人三级| 免费A∨中文乱码专区| 午夜福利无码一区二区| 2021亚洲精品不卡a| 亚洲av无码人妻| 免费看美女自慰的网站| 人妻中文久热无码丝袜| 91亚洲精选| 午夜福利视频一区| 天天综合天天综合| 欧美日韩在线观看一区二区三区| 亚洲欧美日本国产综合在线| a毛片免费在线观看| 99ri国产在线| 欧美一区二区三区国产精品| 亚洲国模精品一区| 浮力影院国产第一页| 国产哺乳奶水91在线播放| 国产福利免费在线观看 | 久久亚洲国产最新网站| 亚洲有无码中文网| 国产精品性| 国产九九精品视频| a色毛片免费视频| 伊人久久精品无码麻豆精品| a天堂视频| 午夜啪啪网| 国产极品嫩模在线观看91| 91麻豆国产在线| 99青青青精品视频在线| 日韩精品无码免费专网站| 国产精品久久国产精麻豆99网站| 国产精品视频公开费视频| 亚洲AV无码乱码在线观看代蜜桃| 国产爽歪歪免费视频在线观看| 婷婷综合缴情亚洲五月伊| 91福利免费| 亚洲福利视频网址| 色婷婷成人| 欧美影院久久| 无码人妻热线精品视频| 99久久精品久久久久久婷婷| 精品一区二区久久久久网站| 综合色天天| 国产99精品视频| 高潮毛片免费观看| 99热这里只有精品5| 白浆视频在线观看| 亚洲视频免费在线| 久热re国产手机在线观看| 亚洲欧洲日产国码无码av喷潮| 国产精品jizz在线观看软件| 波多野结衣视频一区二区| 日本精品一在线观看视频| 久久精品无码国产一区二区三区| 色窝窝免费一区二区三区 | 日本亚洲成高清一区二区三区| 国产乱子精品一区二区在线观看| 综合人妻久久一区二区精品 | 国产女主播一区| 99在线观看国产| 青青青国产精品国产精品美女| 黄色网页在线观看| 久草视频一区| 男人的天堂久久精品激情| 久久美女精品| 国产精品浪潮Av| 波多野结衣第一页| 国产一二三区视频| 视频二区中文无码| 国产成年无码AⅤ片在线 | 亚洲高清日韩heyzo| 亚洲无码熟妇人妻AV在线| 亚洲一级无毛片无码在线免费视频| 91在线中文| h网站在线播放| 在线欧美日韩| 毛片在线播放网址| 欧美成人免费一区在线播放|