999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向民航事故報告的異構(gòu)圖摘要模型研究

2023-06-08 08:10:12何元清
現(xiàn)代計算機 2023年8期
關(guān)鍵詞:語義報告文本

何元清,鄭 鑫

(中國民用航空飛行學(xué)院計算機學(xué)院,廣漢 618307)

0 引言

民用航空事故跟蹤調(diào)查報告記錄事故發(fā)生全過程,監(jiān)管者會通篇閱讀報告,提煉總結(jié)要旨,為本次事故提出原因分析和安全建議,同時指出監(jiān)管疏漏之處,確定下一步工作重點。事故報告內(nèi)容繁雜且專業(yè)性極強,目前主要依靠民航領(lǐng)域?qū)<胰斯ぞ帉懯鹿拾l(fā)生原因概要,但面對海量且迅速增長的航空事故跟蹤調(diào)查報告,僅依靠專家不僅面臨效率困境還容易出現(xiàn)分析疏漏。如何快速、深入、準確地整理事故原因提煉事件詳情是制約事故報告利用率的關(guān)鍵問題。實現(xiàn)民航事故報告自動摘要可極大減輕專家閱讀工作量,自主篩選出重點信息,對提升民航專家工作效率,推理事故影響因素,調(diào)整民航監(jiān)管工作重點具有重大意義。

目前文本摘要技術(shù)已經(jīng)廣泛應(yīng)用于新聞、微博用戶發(fā)言、商業(yè)服務(wù)評價等領(lǐng)域。Cheng等[1]在CNN/Daily Mail 中檢索出大量新聞文章構(gòu)建出新聞?wù)Z料庫,并為每個句子打上標準標簽,以及創(chuàng)建了來自此新聞?wù)Z料的詞匯數(shù)據(jù)集。Zhou[2]等提出了端到端模型NEUSUM,首次將選擇策略融入打分模型中,并在CNN/Daily Mail數(shù)據(jù)集中達到當時最好效果。Zhong 等[3]細分析數(shù)據(jù)集對神經(jīng)網(wǎng)絡(luò)摘要模型的影響因素,探討通用領(lǐng)域模型移植到專業(yè)領(lǐng)域的可能性,展示了充分挖掘數(shù)據(jù)集以及增添外部知識對模型的重要性。隨后,Zhong 等[4]提出Summary?level(篇章級)抽取式摘要的思想,即高質(zhì)量摘要應(yīng)當整體與原始文檔在語義空間上盡可能相似,并在CNN/Daily Mail 數(shù)據(jù)集上得到驗證。研究者盡管在摘要領(lǐng)域取得不斷進步,但大多集中在新聞領(lǐng)域。Zhong 等[5]從美國退伍軍人受傷后應(yīng)激障礙訴訟案例中構(gòu)建了法律領(lǐng)域摘要數(shù)據(jù)集,采用深度學(xué)習(xí)的抽取式方法獲取摘要,但出現(xiàn)語義缺失的問題;程坤等[6]針對中文新聞文本特點提出增加線索詞、標題相似度等因素來改進MMR(maximal marginal relevance)[11]算法;施國梁等[7]提出專利文本領(lǐng)域摘要模型,指出專利文本結(jié)構(gòu)復(fù)雜、內(nèi)容繁多,而當前通用領(lǐng)域下的模型所生成的摘要內(nèi)容單一重復(fù)且不夠簡潔流暢。以上研究工作主要集中在公共領(lǐng)域,部分研究者開展法律、專利等特殊領(lǐng)域文本摘要,但卻難以直接移植模型,須對領(lǐng)域內(nèi)數(shù)據(jù)集詳細分析。

與上述領(lǐng)域研究相比,民航事故調(diào)查報告內(nèi)容繁雜,包含事故詳情,事故原因總結(jié)、專家意見等內(nèi)容,文本中經(jīng)常出現(xiàn)“飛行器名稱、故障名稱、零部件名稱”等一系列專業(yè)詞匯,這些內(nèi)容直接影響摘要生成質(zhì)量。這些因素導(dǎo)致現(xiàn)有的文本摘要模型在民航事故領(lǐng)域難以取得高質(zhì)量摘要。因此,面向航空事故跟蹤調(diào)查報告的自動文本摘要技術(shù)成為了切實且緊迫的需求。

針對上述問題,為深度挖掘航空事故跟蹤調(diào)查報告文中語義關(guān)系,融入專業(yè)詞匯指導(dǎo)摘要生成,提出基于實體要素異構(gòu)圖的抽取式文本摘要模型。基于圖神經(jīng)網(wǎng)絡(luò)構(gòu)建實體節(jié)點與句子節(jié)點多粒度異構(gòu)圖,結(jié)合注意力機制構(gòu)建EHGA(entity heterogeneous graph abstract model)模型。針對EHGA 模型有效性實驗所采用的文本數(shù)據(jù)來自各個國家飛行事故調(diào)查局發(fā)布的民航事故調(diào)查跟蹤報告,使用真實事故報告中事故詳情部分作為輸入。實驗結(jié)果表明,EHGA模型通過引入實體節(jié)點內(nèi)部信息補充,在進行抽取式摘要時能取得較不錯的結(jié)果。于ROUGE[8]評分體系下顯示出較好的摘要抽取能力,極大減輕摘要的冗余程度,擴大摘要信息覆蓋范圍,相比傳統(tǒng)的序列到序列模型,在ROUGE?1、ROUGE?2 和ROUGE?L 上平均取得6.23%,4.67%和6.01%的性能提升。

1 EHGA 模型介紹

針對民航事故調(diào)查跟蹤報告文本設(shè)計基于實體要素異構(gòu)圖的文本摘要方法,總體架構(gòu)如圖1 所示。模型分為3 個主要部分,分別是實體抽取模塊、融合實體要素的異構(gòu)圖注意力模塊和句子抽取模塊,本節(jié)將分別對以上部分進行詳細介紹。

圖1 實體要素異構(gòu)圖摘要模型

1.1 實體抽取模塊

為使用實體要素來豐富句子之間的關(guān)聯(lián)關(guān)系,采用BERT?BiGRU?CRF 模型的方法獲取民航事故調(diào)查跟蹤報告中實體元素,其優(yōu)勢在于結(jié)合了BERT[9]模型和BiGRU(Bi?directional gate recurrent unit)模型的優(yōu)點。BERT 是已經(jīng)在大型文本語料庫中訓(xùn)練過的模型,其基于雙向Trans?former Encoder連接,內(nèi)部采用多頭注意力機制,可以高效獲取文本中的語法結(jié)構(gòu)和語義特征;之后利用BiGRU?CRF[10?11]模型標注實體,此模型充分考慮文本中上下文語句的連貫信息,從而使抽取的實體不是獨立分類。

圖2是實體抽取模塊的總體架構(gòu)圖,以“泛非航空A332 的黎波里復(fù)飛過程中墜毀”為例,輸入“泛非航空A332 的黎波里復(fù)飛過程中墜毀”在BERT 層映射為token 值,然后在BERT層進行特征抽取獲得輸出向量,再到BiGRU 層理解上下文語境,經(jīng)過前后雙向傳播得到包含雙層維度的輸出向量,最后經(jīng)過CRF 層計算路徑分數(shù)最大值,獲得準確度最高的標注序列。

圖2 BERT?BiGRU?CRF模型結(jié)構(gòu)

在獲取實體要素的同時,所輸入的文本數(shù)據(jù)被送入預(yù)訓(xùn)練模型BERT中生成對應(yīng)向量,為更加充分地對上下文語義內(nèi)容進行學(xué)習(xí),將預(yù)訓(xùn)練獲取到的向量送入基于BiGRU 的特征提取層進一步凝合信息,之后便得到圖模型所需的句向量。

1.2 異構(gòu)圖構(gòu)建

傳統(tǒng)圖模型直接在句子間建立連接,而EHGA 模型構(gòu)建一個多粒度信息的異構(gòu)圖,以實體要素作為句子間的中介節(jié)點,由此形成的異構(gòu)圖擁有更豐富的語義信息。在此圖中,有兩種基本粒度類型節(jié)點:句子和實體,其中實體來自實體抽取模塊。實體節(jié)點作為基本語義節(jié)點,代表詞級信息;句子節(jié)點對應(yīng)文檔句子,代表全局信息。若實體出現(xiàn)在句子中,則將實體節(jié)點與句子節(jié)點連接,而句子結(jié)點間不直接相連,采用TF?IDF值作為邊的初始值。

因此給定圖G={V,E},其中V表示節(jié)點集,E表示節(jié)點之間的邊,則異構(gòu)圖可以被定義為V=Vw∪Vs和E={e11,…,emn}。其中,Vw={w1,…,wm}表示文檔中m個唯一實體,Vs={s1,…,sn}對應(yīng)文檔中n個句子。E為邊的權(quán)重矩陣且eij≠0(i∈{1,…,m} ,j∈{i,…,n}),其含義為第j個句子包含第i個實體。

1.2.1 圖節(jié)點表示

與其他模型相比,BERT 通過位置編碼和MLM(mask language model)得到符合上下文語境的詞向量,使其更符合原文含義,因而采用BERT 生成實體向量,句向量則需要充分考慮文本前后文采用BERT+BiGRU 訓(xùn)練。令Xw∈?m×dw和Xs∈?n×ds表示實體向量和句子向量特征矩陣,dw表示實體向量維度,ds表示句向量維度。經(jīng)過實體提取模塊得到實體向量表示Xz∈?p×dz,可以得到由BERT 所學(xué)習(xí)到的實體語義特征lw,和經(jīng)過BiGRU 獲取句子級全局特征gs,最后經(jīng)過Average?polling 層拼接,得到句向量的最終表示,具體如下:

詞節(jié)點出現(xiàn)的程度可以衡量文檔的冗余程度,實體節(jié)點可以聚合更多句子的信息來豐富圖結(jié)構(gòu)信息。Xz∈?q×dz表示實體節(jié)點語義特征矩陣,q是實體節(jié)點數(shù)量,dz是在民航事故調(diào)查跟蹤報告中抽取實體的特征矩陣維數(shù)。

1.2.2 邊表示

為進一步概括句子節(jié)點之間的關(guān)系,定義句子-實體邊(如果一個句子包含一個實體)來模擬句子之間存在的豐富聯(lián)系。句子節(jié)點可以通過實體節(jié)點建立彼此之間的聯(lián)系,從全局層面觀察全文句子隱含關(guān)聯(lián),實體與句子構(gòu)成的邊被稱為wTs。

由此得到異構(gòu)圖G={V,E},V=Xw∪Xs,E=wTs。

1.3 異構(gòu)圖注意力機制模塊

EHGA 模型通過引入圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)[12]來更新語義節(jié)點表示,具體表現(xiàn)如圖3所示。

圖3 融入實體節(jié)點異構(gòu)圖注意力模型

民航事故調(diào)查跟蹤報告正文作為輸入,第i句的向量表示記為hi∈?dh(i∈(1,…,n)),hz∈?dh(z∈(1,…,m))表示實體節(jié)點向量,eiz∈?n×m表示實體節(jié)點與句子節(jié)點的邊特征矩陣,則整個圖注意力層設(shè)計如下:

其中,Wa,Wq,Wk是可訓(xùn)練參數(shù),γiz表示句子節(jié)點i與實體節(jié)點z之間的注意力權(quán)重計算,EHGA 模型對γiz進行歸一化操作得到αiz便于不同句子節(jié)點的重要性比較,如公式(3)。對于句子節(jié)點hi與其他相連的所有實體節(jié)點hz進行信息聚合, GAT 層整體運算過程如以下表達式所示:

其中μi是句子節(jié)點hi在其所有鄰接實體節(jié)點上學(xué)習(xí)到的向量表示,因此也具有特定的語義信息。為了在學(xué)習(xí)過程中提取更多特征,EHGA模型采用多頭注意力機制,如下所示:

考慮到圖神經(jīng)網(wǎng)絡(luò)常見的過渡平滑以及梯度消失問題,EHGA 模型參考transformers 中殘差連接設(shè)計,避免因迭代次數(shù)過多而引起的梯度消失問題。因此在圖注意力網(wǎng)絡(luò)中句子節(jié)點hi的特征向量表示為

在每個圖注意力層后,引入一個前饋網(wǎng)絡(luò)(FFN)層對特征進行進一步壓縮,獲得最終的句子稠密向量表示,其計算過程如下。

1.4 句子選擇模塊

在真實句子選擇時,往往會出現(xiàn)句子級分數(shù)較低但是整體摘要分數(shù)較高的情況,為了保證最終摘要結(jié)果的可讀性和重要信息的覆蓋度,EHGA 模型采用Trigram blocking 策略。對所有候選句子依據(jù)概率排序,依次選擇概率最高的句子,如果被選擇的句子與當前摘要存在三元組重疊(trigram overlapping)[13],則認為其冗余,反之則將其加入摘要,并從剩余候選句子中排除此句,反復(fù)進行以上操作直到滿足摘要所設(shè)定的長度閾值。EHGA 模型采用交叉熵作為損失函數(shù)衡量真實摘要和預(yù)測結(jié)果之間的距離,損失函數(shù)公式為

其中:yi表示對應(yīng)句子hi的真實標簽,yi= 1 表示第i個句子應(yīng)該包含在摘要中。

2 實驗及結(jié)果分析

2.1 數(shù)據(jù)集及實驗環(huán)境介紹

2.1.1 數(shù)據(jù)集構(gòu)建

本次實驗使用來自各個國家飛行事故調(diào)查局所發(fā)布的民航事故調(diào)查跟蹤報告數(shù)據(jù)集,包含由2010—2016 年世界各地民航事故調(diào)查跟蹤報告共861篇,并對文本進行清洗、標注,構(gòu)建航空事故報告數(shù)據(jù)集,有效數(shù)據(jù)842對,數(shù)據(jù)集統(tǒng)計結(jié)果如表1所示。

表1 數(shù)據(jù)集統(tǒng)計

實體數(shù)據(jù)集則通過民航局頒布的《民用航空器事故征候》《民用航空器征候等級劃分辦法》《事件樣例》《民用航空器事故和飛行事故征候調(diào)查規(guī)定》《民用航空安全信息管理規(guī)定》等規(guī)范性文件確定實體名稱,包括航空事件、航空事件原因、航空地面事件等類型規(guī)范實體名和報告中一些不規(guī)范實體名稱,因此實體要素對于摘要的生成具有科學(xué)性與準確性。

2.1.2 實驗環(huán)境介紹

本次實驗CPU 使用Intel Core I9-10900X,內(nèi)存96 GB,GPU 為Nvidia GeForce RTX 3090 24 GB 一塊。采用深度學(xué)習(xí)框架PyTorch,實驗環(huán)境PyCharm,Python 3.8 版本。EHGA 模型使用預(yù)訓(xùn)練語言模型BERT 初始化句子節(jié)點表示,其詞向量的維度是768。對于實體的選擇,每個文檔選擇前10 個關(guān)鍵短語。在異構(gòu)圖注意力模塊設(shè)置頭數(shù)K= 8。每個頭中句子節(jié)點的隱藏向量維度為128,最終連接節(jié)點向量的維度為768。采用ROUGE(Recall?Oriented Un?derstudy for Gisting Evaluation)中的RG?1、RG?2和RG?L。

在訓(xùn)練過程中,實驗設(shè)置訓(xùn)練的批量大小為32,訓(xùn)練輪次24,使用Adam 優(yōu)化器,設(shè)置學(xué)習(xí)率為5e-4。

2.2 實驗結(jié)果分析

2.2.1 基準模型

為證明EHGA 模型的有效性,將其與幾個優(yōu)秀的文本摘要模型進行比較。

(1)Lead?n:選取文中前n個句子作為文章摘要,常用于新聞領(lǐng)域。

(2)TextRank[14]:以句子間相似度構(gòu)建圖模型。

(3)Summer RuNNer[15]:是基于序列分類器的循環(huán)神經(jīng)網(wǎng)絡(luò)對句子分類訓(xùn)練模型,采用兩層雙向GRU(gate recurrent unit)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來對句子進行編碼。

(4)BERTSum[16]:采用預(yù)訓(xùn)練模型BERT 獲取文檔中每個句子的句向量編碼,通過貪心策略選擇最優(yōu)的top?n個句子。

2.2.2 模型檢測

本實驗以ROUGE 評分體系作為文本自動摘要的評價標準,采用ROUGE?N(N 為N?gram),ROUGE?L,ROUGE?S 等數(shù)值作為對當前所得摘要的評價,其計算方式如下:

2.2.3 基線模型結(jié)果分析

本組實驗是在民航事故調(diào)查跟蹤報告數(shù)據(jù)集上進行EHGA 模型與上述4 個模型對比,結(jié)果如表2 所示。可以看到,EHGA 模型與其他模型相比ROUGE 指標提升顯著,證明EHGA 具有更好的摘要效果。

表2 基線模型對比試驗

EHGA 模型通過采用異構(gòu)圖來融入內(nèi)部信息實體節(jié)點,可以有效豐富模型的語義信息,提高摘要性能,并且依照實體更貼近原文內(nèi)容;同時圖結(jié)構(gòu)可以跨越簡單上下文的關(guān)系而獲得更遠距離的語義信息,對抽取處更貼近原文的句子具有指導(dǎo)作用。與Lead?n 模型相比,選取前n句作為摘要時更適合有總結(jié)句的文本,而航空事故報告是平鋪直敘,顯然不適合。與Text?Rank 相比,EHGA 模型以實體要素作為句子關(guān)鍵程度的指標,重點關(guān)注的是句子,而TexkRank 更加關(guān)注關(guān)鍵詞,偏離原文主旨。與SummaRuNNer 相比,EHGA 模型引入實體要素輔助模型理解文本含義,而SummaRuNNer 則只依靠神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本特征,使得模型會過分關(guān)注某一方面而造成文本冗余。

2.2.4 消融實驗

為驗證EHGA 模型中各個模塊的效果而開展了消融實驗,實驗結(jié)果如表3所示。EHGA 是在圖神經(jīng)網(wǎng)絡(luò)(GNN)的基礎(chǔ)上增加了實體要素節(jié)點,效果較GNN 在ROUGE?1,ROUGE?2 和ROUGE?L 3 種評價指標上均有明顯提高。說明增加實體要素可以使模型盡可能關(guān)注到與實體相關(guān)的句子,而達到專有名詞指導(dǎo)文本摘要生成效果。其實驗結(jié)果如表3所示。

表3 消融實驗對比

2.2.5 案例展示

為進一步展示EHGA 模型的實驗效果,以“美國航空公司MD-82 飛機圣路易斯發(fā)動機起火事故調(diào)查報告”為例對輸出摘要進行評價分析,具體如表4。

表4 抽取式摘要樣例展示

通過表4的樣例展示,EHGA 模型依據(jù)實體要素能夠較為全面地概括報告內(nèi)容,實體要素的加入能夠在圖注意力機制中篩選出與事故關(guān)聯(lián)性強的句子,能夠擴大信息的覆蓋范圍,關(guān)注不同層次信息,多維度概括文本內(nèi)容,因此可見實體信息對于文本摘要的生成具有指導(dǎo)意義。

3 結(jié)語

EHGA 模型針對民航事故調(diào)查跟蹤報告,提出基于實體要素異構(gòu)圖注意力機制抽取式摘要模型。把詞語、實體和句子構(gòu)建為異構(gòu)圖,以注意力機制獲得句子重要程度,聯(lián)合評分機制獲得最終摘要。實驗證明,針對事故報告這一特定領(lǐng)域的摘要任務(wù),融入實體要素能夠提升摘要選擇覆蓋度和準確性,生成高質(zhì)量摘要。同時也驗證了,基于異構(gòu)圖網(wǎng)絡(luò)進行文本數(shù)據(jù)分析,更加關(guān)注句子間隱含的深層關(guān)系。

同樣,在研究過程中發(fā)現(xiàn)人工摘要存在大量總結(jié)式、概括式和推理式詞語,這些無法在原文中找到對應(yīng),無疑給抽取式摘要帶來極大的挑戰(zhàn)。因此在下一步研究中,擬繼續(xù)在異構(gòu)圖中添加更多外部知識,提升摘要性能。

猜你喜歡
語義報告文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一圖看懂十九大報告
報告
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
報告
報告
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲av无码专区久久蜜芽| 欧美笫一页| 亚洲国产成人超福利久久精品| 久久久久免费看成人影片 | 毛片在线播放a| 欧美第九页| 亚洲资源站av无码网址| 国产美女久久久久不卡| 国产女人18水真多毛片18精品| 无码专区在线观看| 国产精品久久自在自线观看| 亚洲日韩精品无码专区97| 亚洲综合天堂网| 免费人成在线观看视频色| 无码国产伊人| 午夜高清国产拍精品| 免费 国产 无码久久久| 丁香六月激情综合| 国产精品第5页| 99九九成人免费视频精品 | 成人在线不卡| 精品久久久久成人码免费动漫| 欧美a在线看| 精品午夜国产福利观看| 国产av一码二码三码无码| 日韩午夜片| 亚洲精品高清视频| 无码乱人伦一区二区亚洲一| 91在线播放免费不卡无毒| 欧美亚洲国产精品久久蜜芽| 亚洲欧美日韩中文字幕一区二区三区| 国产凹凸视频在线观看| 91亚洲精选| 青青青视频免费一区二区| AV网站中文| 精品国产Av电影无码久久久| 日本在线视频免费| 久久国产毛片| 日本免费福利视频| 国产精品福利导航| 一级毛片在线直接观看| 中文成人在线| 亚洲水蜜桃久久综合网站| 欧美不卡视频一区发布| 91久久偷偷做嫩草影院| 色综合热无码热国产| а∨天堂一区中文字幕| 四虎亚洲国产成人久久精品| 欧美www在线观看| 日本午夜三级| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美亚洲欧美区| 亚洲AV电影不卡在线观看| 在线观看91精品国产剧情免费| 亚洲区欧美区| 91国语视频| 色丁丁毛片在线观看| 99re精彩视频| 黄色网址免费在线| 亚洲天堂视频在线免费观看| Jizz国产色系免费| 国产欧美日韩综合在线第一| 中文字幕永久在线看| 四虎成人精品| 亚洲日韩久久综合中文字幕| 亚洲最新地址| 国产草草影院18成年视频| 国产一级一级毛片永久| 久久人人妻人人爽人人卡片av| 国产精品网址你懂的| 亚洲欧美日韩另类| 伊大人香蕉久久网欧美| 亚洲欧美h| 99国产精品免费观看视频| 成人国内精品久久久久影院| 亚卅精品无码久久毛片乌克兰 | 亚洲无码精品在线播放| 国产成人亚洲无码淙合青草| 黄色三级网站免费| 免费在线视频a| 亚洲欧美日韩中文字幕在线| 手机永久AV在线播放|