999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT-Bi-LSTM-CRF模型的機場類中文航行通告要素實體識別

2024-05-08 02:03:38郝寬公董兵吳悅彭自琛羅創
科學技術與工程 2024年10期
關鍵詞:文本模型

郝寬公, 董兵, 吳悅, 彭自琛, 羅創

(中國民用航空飛行學院空中交通管理學院, 廣漢 618307)

隨著中國經濟的高速發展和機場數量的增加,民用航空情報領域逐漸呈現出數據量大、內容復雜、處理難度大等特點,尤其在中文航行通告的處理方面較為顯著。航行通告是對飛行安全影響最大的飛行前信息通報,其報文主要由航行通告標志、限定行(Q項)、發生地(A項)、生效時間(B項)、失效時間(C項)、分段時間(D項)、航行通告正文(E項)、下限(F項)和上限(G項)等[1]部分組成,其中除E項外的各項均有嚴格且固定的編發規范,屬于結構性文本,而E項報文以明語的形式進行編寫,用于豐富與補充事件的其他要素信息,屬于自由文本,沒有固定的編寫格式,故E項內容無法利用統一的格式進行處理。同時,中文報文內容存在一詞多義、語義混淆等問題。因此,如何對中文航行通告中E項內容要素實體的識別成為民航情報領域迫切需要解決的問題。

在航行通告E項內容處理上,項恒等[2]針對航行通告內容不規范的問題,提出一種基于word2vec模型計算Q項和E項內容相似度的識別方法,并制定了相應的識別標準;潘正宵等[3]利用分詞令牌化的詞嵌入的方法,解決了航行通告中難以統一格式內容的命名實體抽取問題,并通過改進KMP算法進行實體關系的抽取;Mi等[4]將注意力機制引入航行通告文本分析中,構建了ATT-BIGRU模型對文本內容進行分類處理,并通過與多種模型的對比實驗驗證了模型的有效性。

命名實體識別(named entity recognition, NER)作為信息抽取的一個任務,能夠從非結構化數據中識別出所需要的實體信息。目前,命名實體識別在各個領域得到了廣泛的應用,Qiu[5]通過構建Bi-LSTM-CRF模型來獲取上下文序列信息,在地質報告中進行地質實體的識別;孫鑫瑞等[6]通過對事故模塊進行預定義,識別并提取交通事件中車輛、時間、環境等要素信息;褚燕華等[7]基于BERT模型提出了數控機床故障領域內的實體標注策略,解決該領域識別過程中實體不規范的問題;趙鵬飛等[8]針對識別過程中字向量單一表征、缺失局部特征和陌生實體識別率低等問題,結合農業領域知識提出一種基于BERT的外部詞典特征與雙向字級特征的命名實體識別方法;姜同強等[9]在食品安全實體識別上,利用雙向編碼器的基礎上結合了注意力機制,提高了識別的準確率;謝騰等[10]在中文實體識別上提出基于BERT-Bi-LSTM-CRF模型的方法,解決了中文實體中存在的上下文語義分析及一詞多義表征等問題,并在人民日報語料庫上得到較好的實驗驗證結果;焦凱楠等[11]制訂了反恐領域細粒度實體標簽體系并構建該領域實體語料庫,提出基于MacBERT-Bi-LSTM-CRF的實體識別模型;李洋等[12]提出了一項整合對抗訓練與BERT嵌入的實體識別方法,旨在解決復合材料檢測領域內復雜專業術語頻繁出現以及邊界模糊不清等問題;唐進君等[13]將BERT-Bi-LSTM-CRF模型應用于交通系統參與主體的識別上,根據收集該領域相關數據進行實體識別對比實驗,驗證了該模型的有效性和優越性。

針對上述問題,現構建機場類航行通告語料庫并制定要素實體識別標準,提出一種BERT-Bi-LSTM-CRF模型在中文航行通告領域進行要素實體識別的方法,以解決機場類航行通告E項中要素信息識別問題,為構建航行通告知識圖譜提供要素數據基礎。

1 機場類中文航行通告結構

中文航行通告報文包括結構化文本和非結構化文本,其中結構化文本以數字與字母組成,具體格式如下:Q項以“Q)”開始,連接8個子項信息,各部分用斜線“/”隔開,其中第二個子項為航行通告代碼;A項以項目編號“A)”起,連接符合國際民航組織要求的四字地名代碼,表示發生地的機場或飛行情報區;B項和C項分別表示該報文的生效和失效時間,其中十位數字以兩位數字一組依次為年、月、日、時和分;D項在編號后接生效期間的分段時間;F項和G項分別在相應的項目編號后填寫該航行通告所影響的最小和最大高度值。而E項是以中文明語和縮略字填寫的航行通告具體內容。具體如圖1所示。

圖1 航行通告基本結構Fig.1 Basic structure of navigational notices

航行通告根據涉及范圍分為機場類、通信導航和監視類、空中交通管理類、航空警告類4類,可通過報文中主題代碼區分[14],本文研究主要以機場類航行通告進行研究。機場類航行通告主要告知燈光設施、著陸區和活動區及相關設施和服務的變更,在主題代碼區域分別以L、M、F作為第一個字母呈現。其中Q項中的主題代碼和狀況代碼分別與E項內容所包含的設施要素和狀態要素實體信息對應,故Q項可在E項要素實體識別中作為驗證集,對設施和狀態要素信息的識別效果進行評價。機場類中文航行通告E項文本由漢字、專業字母、數字、單位等復雜元素組成,共同表示跑道(runway)、設施(facilities)、狀態(state)、原因(reason)、數據(data)等要素實體。E項要素實體示例如圖2所示。

圖2 E項內容要素實體分析示例Fig.2 Example of entityanalysis of content element E

利用正則表達式可以實現對航行通告結構化文本中要素實體的提取[15],而非結構化文本中要素實體的識別需要借助機器學習的方法實現。

2 模型構建

2.1 模型概述

本文研究提出了一種基于BERT-Bi-LSTM-CRF模型的航行通告要素知識識別方法,整體模型框架如圖3所示,該模型依次由BERT模型、Bi-LSTM模型和CRF模型三大模塊組成。整體過程分為6個階段:①首先根據航行通告Q項中主題代碼對數據進行篩選和清洗,建立有效的機場類航行通告數據集;②在輸入層對數據進行人工標注,將預處理后的航行通告E項文本序列轉換成向量;③在BERT層進行預訓練,將每個漢字及專業縮略語編碼,同時生成所對應的字向量;④建立Bi-LSTM模型,捕獲航行通告正文中上下文和長距離語義特征;⑤根據注意力機制得到的關鍵特征,使文本向量序列調整成標注概率矩陣;⑥在CRF層中,通過模型對輸出預測的實體標簽之間進行解碼關系,最后輸出效果最佳的標簽序列。

圖3 整體模型框架Fig.3 The overall model framework of this paper

2.2 BERT模型

BERT模型是Goolge團隊于2018年提出的面向自然語言處理任務的無監督預訓練語言模型。Bert模型基于雙向的Transformer編碼器,可在大量語料中自監督學習特征表示,增強字向量的語義表示來獲取高質量詞向量,有效解決了Word2Vec模型無法解釋一詞多義的問題。BERT模型結構如圖4所示。

[CLS]為一個句子的開始;[SEP]為兩個句子間的分隔; [MASK]為掩蓋句子中的詞圖4 BERT模型結構圖Fig.4 BERT model structure diagram

BERT模型在預訓練過程中有掩碼語言模型(masked language model,MLM)和下句預測(next sentence prediction,NSP)兩個任務[16]。基于航行通告大量無標注的數據特點,避免優化預測與訓練過程中數據偏差所產生的性能損失問題,本文研究采用MLM進行預訓練,在每個生成訓練樣本句子中隨機抽取15%進行掩碼后,對80%的樣本用掩碼標記[Mask]替換掩碼詞,對另外10%的樣本不做任何替換,對最后10%的樣本從模型詞表中隨機抽取單詞來替代掩碼詞[17]。

通過預訓練國內航行通告要素知識,多個Transformer雙向編碼器用于編碼文本字符和縮略語,利用注意力計算詞匯與其他所有詞匯之間的關系和重要程度,以獲取詞匯之間的相互關系和內部結構,從而對樣本句子進行編碼。計算式為

(1)

式(1)中:Q為查詢向量矩陣;K為查詢向量矩陣;V為內容向量矩陣;QKT為用于計算輸入字向量之間的關系;dk為編碼器的輸入向量矩陣維度。

在BERT預訓練中,序列X={x1,x2,…,xn}對應的輸入E={E1,E2,…,En}由三個嵌入特征疊加而成,xi為序列X的第i個字,如圖5所示。

圖5 BERT模型輸入表示Fig.5 BERT model input representation

2.3 Bi-LSTM模型

LSTM(long-short term memory)長短期記憶網絡,解決了普通循環神經網絡(recurrent neural network,RNN)[18]對長距離文本信息學習不足的問題。針對訓練過程中可能產生的梯度消失或梯度爆炸現象,通過門限制來捕捉語料長遠上下文序列依賴信息。LSTM的單元狀態由輸入(input)、輸出(output)和遺忘(forget)三個門控制, 其中遺忘門和輸入門共同作用,實現重要信息保留和過濾無用信息的過程,單元結構如圖6所示。

圖6 LSTM單元結構圖Fig.6 LSTM cell structure diagram

各個門控制單元的計算公式為

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(2)

zt=tanh(Wxcxt+Whcht-1+bc)

(3)

ft=σ(Wxfxt+Whcht-1+Wcfct-1+bf)

(4)

ct=ftct-1+itzt

(5)

ot=tanh(Wxoxt+Whoht-1+Wcoct+bo)

(6)

ht=ottanh(ct)

(7)

式中:Wxi、Wxc、Wxf、Wxo分別為輸入門、記憶細胞、遺忘門和輸出門中輸入層連接隱藏層的權重;Whi、Whc、Whf、Who分別為輸入門、記憶細胞、遺忘門和輸出門中輸出層的權重;Wci、Wcf、Wco分別為輸入門、遺忘門和輸出門在連接記憶細胞的權重;bi、bc、bf、bo分別為輸入門、記憶細胞、遺忘門和輸出門中的偏置項;zt為在t時刻的增量。

由于LSTM對前向文本序列信息進行單向考慮,而后向信息被忽略。針對該問題,Bi-LSTM模型在LSTM模型基礎上增加了一層反向傳輸過程,對上下文信息同時進行處理,最終的輸出由前向傳輸與反向傳輸的輸出拼接而成。

2.4 CRF模型

在航行通告要素識別任務中,雖然Bi-LSTM模型可以對E項中長距離文本信息進行捕獲,并能夠獲取樣本中分值最高的實體標簽,但由于通告正文存在相似實體標簽,很難保證實體標簽的合法性和準確預測實體與標簽之間的相鄰和依賴關系。針對以上問題,引入CRF模型用于預測序列。

CRF模型屬于一種判別式概率無向圖模型,利用實體標簽之間存在的轉移關系計算全局標簽序列的概率,進而得到整體最優的標簽序列。

對于隨機一個序列X=(x1,x2,…,xn),設定Bi-LSTM的輸出分值矩陣為P,P的維度為n×m,n表示詞的數量,m表示標簽的數量,Pij表示第i個詞的第j個標簽的得分。預測序列Y=(y1,y2,…,yn)的得分函數為

(8)

式(8)中:Ayi,yi+1為標簽yi轉移到標簽yi+1的得分;Pi,yi為第i個字符為標簽yi的概率。

預測序列Y產生的概率為

(9)

式(9)進行前后取對數,獲得預測序列的似然函數為

(10)

得到解碼后的最高分值輸出序列為

(11)

3 實驗數據處理

3.1 數據獲取

目前,在國內民航業中尚無標準的航行通告相關要素知識的語料庫。在本文實驗中,首先根據《民用航空情報航行通告E項要素編寫指南(系列文件)》文件對面向民用航空情報領域的專業語料庫進行了人工標注,然后通過在中航材導航技術有限公司獲取的2020—2022年國內的航行通告數據為基礎數據源。經過數據篩選,實驗共收集8 720份機場類中文航行通告,按6∶2∶2的比例分別分配給訓練集、測試集及評價集。具體語料規模如表1所示。

表1 實驗語料規模Table 1 Experimental corpus size

為了避免專業詞匯和英文縮寫對要素識別過程的影響,根據要素編寫指南等文件建立機場類航行通告語料庫。部分語料如表2所示。

表2 機場類航行通告語料庫示例Table 2 Examples of airport-based navigational notice corpus

3.2 語料標注

中文實體命名識別中,BIO、BMES、BIOES均為常用的標注體系,為了降低人工標注的工作量,本文采用較為簡單的BIO標注體系。由于中文航行通告中跑道與燈光也使用英文,所以本次標注任務采用支持中英文的brat文本標注工具。語料標注如表3所示。

表3 語料標注示例Table 3 Example of corpus annotation

4 實驗對比分析

4.1 實驗環境

實驗采用Tensorflow1.14框架和keras2.3.1框架,Python3.7環境,顯卡 3060,內存為12 GB,預訓練模型keras4bert的網絡層數L=12,多頭注意力個數為12。避免過擬合現象的發生,在Bi-LSTM中加入dropout。具體超參數如表4所示。

表4 模型超參數設置Table 4 Model hyperparameter settings

4.2 評價指標

評估航行通告要素識別實驗結果的有效性,評價指標主要采用精確率(precision,P)、召回率(recall,R)、準確率(accuracy,A)和F1[19]。計算式為

(12)

(13)

(14)

(15)

式中:TP為真實體的預測結果為真實體的實體個數;FP為非實體的預測結果為真實體的數量;FN為未預測出的實體量;TN為被正確預測的非實體個數。

4.3 實驗結果分析

為了驗證不同模型的性能,選擇Bi-LSTM、CNN+CRF、Bi-LSTM+CRF三種模型與BERT+ Bi-LSTM+CRF模型進行對比實驗。通過Bi-LSTM與Bi-LSTM+CRF模型的對比實驗,可對CRF模型進行必要性分析;CNN+CRF與Bi-LSTM+CRF模型對比結果,可驗證Bi-LSTM模型在識別過程中的重要性;為突出BERT模型的優越性,可利用Bi-LSTM+CRF與本文模型實驗結果對比分析。4種模型對比實驗結果如表5所示。

表5 不同模型實體識別結果Table 5 Entity identification results of different models

在4種模型的比較中,BERT+ Bi-LSTM+CRF模型在精確率、召回率、F1、準確率方面均比前3個模型具有優勢。其中,本文模型的F1為85.54%,相比Bi-LSTM、CNN+CRF、Bi-LSTM+CRF三種模型分別提升了5.70%、8.49%、3.39%。對各模型F1的迭代效果進行分析,如圖7所示。BERT+ Bi-LSTM+CRF模型與其他3個模型在相同的迭代次數中有明顯的性能優勢。

圖7 F1結果對比Fig.7 Comparison of F1 value results

為深入分析文本中各實體的識別效果,對4種模型在不同實體識別中的F1進行分析,如圖8所示。

圖8 4種模型各要素實體F1Fig.8 Four models of each element entity F1

由于專業語料庫的建立,各模型在跑道、設施等要素實體中識別效果較好,同時,原因要素實體具有固定的形式,所以在實體識別中表現出色。但數據要素實體存在內容格式混雜、變化頻繁等問題,在各模型中識別性能較差。整體來看,BERT+Bi-LSTM+CRF模型在各實體識別中擁有較好表現,驗證了本文模型在機場類航行通告要素識別中的有效性。

5 結論

中文航行通告正文的事件要素實體識別中存在專業語料庫缺乏、內容復雜及一詞多義等問題,分析機場類航行通告E項文本特點,整理并建立該領域的數據集,提出BERT-Bi-LSTM-CRF實體識別模型。通過數據清洗過程將不屬于機場類的航行通告數據剔除,并對專業名詞及字母進行數據預處理,有效減少不規范文本數據對識別效果的影響。在BERT編碼層對輸入字序列進行預訓練,解決了文本中一詞多義的問題,之后通過Bi-LSTM層對字向量編碼提取上下文特征,最后在CRF層解碼并對實體標簽進行預測。實驗結果表明,本文模型能有效識別出機場類中文航行通告正文中要素實體,相比現有模型擁有更好的F1。航行通告要素識別性能的提升,有助于探索事件要素間的關系,進一步構建和完善該領域的知識圖譜。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲最大情网站在线观看| 最新国产精品第1页| 青青热久免费精品视频6| 欧美精品v| 欧美国产在线一区| 五月激情婷婷综合| 国产中文一区a级毛片视频 | 国产精品视频久| 一级福利视频| 伊人无码视屏| 91在线一9|永久视频在线| 高清不卡一区二区三区香蕉| 性视频一区| 日本久久久久久免费网络| 国产日韩精品欧美一区灰| 久久99国产视频| 四虎影视库国产精品一区| 一级成人a做片免费| 亚洲欧美日本国产专区一区| 全午夜免费一级毛片| 中文字幕久久亚洲一区| 国产精品人人做人人爽人人添| 超碰精品无码一区二区| 欧美精品啪啪| 孕妇高潮太爽了在线观看免费| 精品亚洲欧美中文字幕在线看| 国产一区亚洲一区| 福利片91| 制服丝袜国产精品| 免费人成在线观看视频色| 亚洲丝袜中文字幕| 久久精品国产在热久久2019 | 国产一区二区人大臿蕉香蕉| 国产在线视频导航| 日韩成人在线一区二区| 国产区精品高清在线观看| 午夜不卡视频| 岛国精品一区免费视频在线观看| 欧美黄色a| 亚洲成人在线网| 亚洲swag精品自拍一区| 69免费在线视频| 免费国产不卡午夜福在线观看| 凹凸国产熟女精品视频| 91外围女在线观看| 在线日韩日本国产亚洲| 免费观看三级毛片| h网址在线观看| 日韩精品无码免费一区二区三区 | 久久久久久国产精品mv| 理论片一区| 国产精品亚洲专区一区| 99在线观看免费视频| 国产91精品最新在线播放| 成人在线观看不卡| 91po国产在线精品免费观看| 国产色伊人| 成人91在线| 亚洲日韩AV无码一区二区三区人| 毛片手机在线看| 欧美一级在线看| 亚洲制服中文字幕一区二区| 精品少妇三级亚洲| 亚洲欧美国产五月天综合| 伊人福利视频| 婷婷99视频精品全部在线观看| 久久夜色精品国产嚕嚕亚洲av| AV老司机AV天堂| 青草视频免费在线观看| 亚洲第一成人在线| 中文字幕在线免费看| 国产精品偷伦在线观看| a级毛片在线免费观看| jizz亚洲高清在线观看| 丁香婷婷综合激情| 国产欧美在线观看一区| 激情五月婷婷综合网| 国产呦视频免费视频在线观看 | 欧美成人午夜视频免看| 成人午夜久久| 最新无码专区超级碰碰碰| 国产亚洲欧美另类一区二区|