999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的演訓文書事件提取技術

2025-04-12 00:00:00賈春秋竇林濤曾清
指揮控制與仿真 2025年2期
關鍵詞:深度學習

摘 要:演習訓練過程中會產生海量的文本信息,其復雜性和多樣性給訓練評估人員帶來巨大的認知壓力,如何充分挖掘演訓文書中的非結構化數據,為分析評估人員提供高效的服務,是演訓數據處理的重難點問題。針對演訓文書中專業名詞多、中英文共存、短句關鍵信息密集等特點,提出一種基于深度學習的事件提取技術。結合ALBERT強大的文本特征提取、CRF序列標注的結構化預測等優勢,構建了演習訓練文書方面的事件提取模型。為檢驗模型的性能,在演訓數據集上進行實驗,實驗結果表明,利用該模型文本提取效果良好,對從演訓文書提取信息來說,具有一定的應用意義。

關鍵詞:深度學習;演訓文書;事件提取

中圖分類號:E919 文獻標志碼:A DOI:10.3969/j.issn.1673-3819.2025.02.009

Event extraction technology of training documents based on deep learning

JIA Chunqiu, DOU Lintao, ZENG Qing

(Jiangsu Automation Research Institute, Lianyungang 222061,China)

Abstract:A large amount of textual information will be generated in the exercise training process, and enormous cognitive pressure will be exerted on training evaluators due to complexity and diversity of such information.How to fully extract unstructured data from exercise training documents and provide efficient services for analysis and evaluation personnel is a challenging issue in data processing. In this paper, we propose a deep learning-based event extraction technique for exercise training documents, which addresses the characteristics of abundant professional terminology, coexistence of Chinese and English, and dense key information in short sentences. By leveraging the powerful text feature extraction of ALBERT and the structured prediction of CRF sequence labeling, we construct an event extraction model for exercise training documents. Experimental results on the training data set demonstrate that this model performs well in text extraction and has practical applications for extracting information from exercise training documents.

Key words:deep learning; training documents; event extraction

現代戰爭已步入智能化時代,軍事演習過程中會產生海量數據,給予事后評估機構及其相關人員巨大的分析壓力,若處理不當,則會造成重要信息丟失、數據混亂等問題。面對新時代的戰場環境,研究人員急需一種能夠自動識別提取文本關鍵信息的技術,從海量數據中提取關鍵事件,挖掘軍事演習訓練文本的潛在價值。而事件提取作為一種能夠自動化、智能化提取文本關鍵信息的技術,對提升軍事決策的科學性、演習訓練的有效性以及作戰指揮的高效性都具有重要意義。

軍事演習訓練文書是指導演習實施的重要文件,進入智能化時代后,演訓文書處理的準確性和時效性需滿足更高的要求。但多種不同來源的演訓數據在格式上并不統一,存在大量非結構化和半結構化的數據。針對上述演訓文書海量數據來源多、格式亂等問題,迫切需要一種自動化地提取演訓文書中關鍵事件信息的技術,通過演訓數據處理,為導調控制、裁決評估和復盤分析提供支撐。

目前,國內在軍事事件提取領域應用較少[1],僅在軍事命名實體識別[2-4]、作戰文書事件提取[5-7]領域有所涉及。提取方法隨著命名實體識別算法發展而快速發展,逐步由基于規則和統計的算法向機器學習算法、深度學習算法演變[8],而基于深度學習的事件提取算法憑借出色的精準度已成為主流。

在軍事命名實體識別領域,李健龍等[2]采用一種循環神經網絡RNN的雙向LSTM算法,利用其長距離依賴和上下文信息捕捉的優點,對特征提取后的軍事文本進行模型訓練,通過多次修改實驗參數,提升了軍事命名實體識別的準確率等指標;劉衛平等[3]提出一種基于遷移學習的BERT-Bi-LSTM-CRF算法,融合BERT、Bi-LSTM、CRF的優勢,通過結合字符、位置、詞性和語義四類信息,在小樣本條件下達到較高的軍事命名實體識別準確率;金浩哲等[4]基于預訓練模型BERT,結合Bi-LSTM、CRF算法以及Attention機制,提出新的BERT-Bi-LSTM-ATT-CRF算法,對軍事人物、軍事地點等六類實體識別,并實驗對比其他3種基準算法,得到最高的準確率。

在作戰文書領域,張曉海等[5]針對傳統規則、統計算法識別率不高的問題,提出基于Bi-LSTM-CRF的算法,在手工標注的訓練集上,對7類實體要素識別進行測試,顯著提升實體識別準確率;王學峰等[6]針對人工構建模版在作戰文書事件提取中出現的通用性和泛化性不強的問題,提出一種基于深度學習的作戰文書事件抽取方法ELMo+Bi-LSTM+CRF,結合動態字向量ELMo對漢語語義的多重表示能力、BiLSTM網絡對較長句子上下文記憶能力和條件隨機場CRF對標注規則的學習能力,在演習導調文書語料集方面取得良好效果;陳勇等[7]提煉五類作戰文書中的關鍵信息,提出一種以BERT+Bi-LSTM+CRF為基礎的作戰情報文本關鍵抽取算法,提高各類信息的流轉效率。

但是,在演訓領域的命名實體識別與其他非軍事領域[8-10]中的關鍵信息實體并不一致,需要總結歸納出演訓領域的事件要素。而且命名實體識別模型在處理復雜語境時仍存在挑戰[11],模型魯棒性仍需提升。

本文提出一種基于深度學習的事件提取技術ALBERT+CRF,總結歸納出演訓領域特有的事件要素,拓展了演訓領域實體范圍,增加編成和屬性要素,并通過預訓練模型ALBERT強大的特征提取能力,使得在軍事演訓的語境條件下仍然有較好的魯棒性,提升了抽取結果的準確性、可用性。

1 演訓文書事件要素特點

演訓文書是軍事演習或訓練過程中產生的一系列文檔,是演訓分析評估的主要數據來源,這類文本信息詳細記錄了演訓計劃、執行和評估過程。演訓文書包括演習方案計劃、文書文電、小結、要報、詳報、人工采集表、評估報告等。演習方案計劃中包括演訓目的、時間、地點、參訓兵力、任務計劃等消息。文書文電是作戰指揮信息的主要載體,包含指揮信息、通報信息、戰場態勢信息、環境信息等。小結、要報和詳報是參訓部隊每天或每個演習回合專門記錄主要作戰過程的文檔,包含了大量作戰關鍵事件信息。人工采集表是專為分析評估制定的格式化的采集表,記錄分析評估所需的關鍵事件及相關參數屬性信息。評估報告記錄演習評估結果、成績和評價信息。

不同于醫學[12]、金融[13]等領域的實體識別,軍事領域演訓文書的實體有其自身的特點。結合軍事詞典、演訓實際文書等資料,總結歸納出軍事演訓領域涵蓋全部文本特征的五類實體,分成時間、地區、動作、屬性、編成,如圖1所示。

(1)時間

大量出現在文書每段開頭以準確記錄動作對應的時間。通常以兩種形式出現:一是按月日,如“10月1日”;一是按時分秒,如“090807”是按24小時制,代表9時8分7秒。

(2)地區

一般以坐標和地點形式出現,來描述演訓過程中艦艇及飛機的精確點位,也會出現“01號空域10點”等范圍信息。

(3)屬性

屬性實體可分為自身屬性和目標屬性,對應演訓過程中的紅藍對抗雙方,進一步細分為數量、方位、速度、高度、距離等要素。文書中的發射導彈數量、目標所在方位、目標距離、目標速度都屬于屬性類別。

(4)動作

在軍事領域中,根據不同的演訓內容分成不同的事件類型,具體指偵察、探測、通信、指揮、電子對抗、攻擊、防御、部署等行為,體現為部隊在活動中的運動情況。

(5)編成

軍隊編成是指軍隊的組織構成,包括組成的力量和編組形式。本文的編成類要素包含部隊名稱、武器型號、平臺設施等。

部隊名稱類要素,一般以阿拉伯數字起始,后接部隊編制詞,如“第17旅第1營”,且一般以簡稱出現,如“防空第7旅”表示為“防空7旅”。武器型號類要素,一般以型號命名,由阿拉伯數字、大寫字母、漢字等符號組成。平臺設施類要素,主要指艦艇、飛機、車輛等設施及其對應的型號,其中艦艇以舷號命名,飛機和車輛主要以型號命名。

演訓文書中,對不同事件要素提取有以下難點:

①短句中關鍵信息密集,演訓小結、要報詳報中對戰斗過程的描述多采用短句子,句子中屬性信息較多,如“某艦位北緯110度21分點8、東經23度10分點5,航向25度、航速10節,對1001批目標模擬發射X型導彈1枚,目標方位20度、距離10 km,臨空時間141210”,上述短句包含時間、地域、屬性、動作、編成等五類關鍵要素。

②中英文共存,演訓文本中經常出現軍事設備及設施的型號,一般都為英文加阿拉伯數字,如“YJ-x”、“SAN-x”等,而型號前后常為中文,如“某艦參加活動,模擬發射YJ-x型號艦艦導彈1枚,人員安全,武備良好。”

③專業名詞多,軍事演訓領域文本有大量專業術語和詞匯,需要根據預先制定的詞典進行分詞,提高精確度。

通過對大量演訓文書內容的研究,以及演訓人員決策信息需求的分析,以要素中的不同動作作為劃分事件類型的依據,總結出演訓文書中5類事件類型及其論元角色,如表1所示。

2 演訓文書事件抽取模型結構

針對上述三個演訓文書難點,本文提出一種新的基于深度學習的事件提取模型ALBERT+CRF。通過ALBERT(A Lite BERT)預訓練模型進行演訓事件特征提取,經Softmax層得到輸入文本序列對應的最大概率標簽,并結合條件隨機場(conditional random field, CRF)學習得到標簽之間的關系,進一步提高模型的準確率,如圖2所示。

2.1 ALBERT層

ALBERT是一個基于Transformer編碼器輕量化的預訓練語言模型,通過多項數學優化,在保持模型性能的同時,顯著減少了計算資源需求和內存占用。Transformer核心機制為自注意力機制(self-attention),通過為文本序列中每個元素分配不同的權重,提高關系性強的權重,減少關系性弱的權重,最終捕捉詞與詞之間的長距離依賴關系。

在BERT基礎上,ALBERT進行跨層參數共享,包括注意力機制共享和前饋網絡共享。跨層參數共享使得所有層的注意力機制中的查詢、鍵和值矩陣是共享的,每一層的這些矩陣都是相同的。前饋網絡共享是所有層的前饋網絡中的全連接層的權重和偏置是共享的。ALBERT通過跨層參數共享,顯著減少了模型的參數量和計算復雜度,使得模型在訓練過程中更加穩定,減少了過擬合的風險。

訓練中,ALBERT整合字符級(詞嵌入)、句子級和位置信息作為輸入,通過遮蔽中間字符并利用前后字符進行預測,使模型深入理解上下文。

2.2 CRF層

ALBERT的輸出只是經過softmax層以后的最大概率標簽,未考慮標簽之間的前后關系,會出現“I-Time”在“B-Time”前的常識性錯誤,影響結果的準確率。

CRF算法則能夠考慮相鄰標簽之間的關系,獲得全局最優的標簽序列,對不合理的輸出進行“矯正”。將ALBERT的表示能力與CRF的序列建模能力結合,可以在保持上下文理解的同時,確保序列標注的準確性和一致性。

3 模型訓練方法及步驟

本文采用演訓文書文本與公開軍事新聞數據集作為數據源輸入,經數據預處理、數據標注等操作后進行模型訓練,通過ALBERT+CRF算法提取演訓事件的五類要素。本文作者引入交叉驗證來驗證模型以及對準確率、召回率、F1值3個性能指標進行評估。模型訓練流程如圖4所示。

3.1 數據源輸入

數據源包括公開軍事新聞數據集與多類演訓文書,其中使用公開軍事新聞數據集15 000條包含演訓計劃、評估反饋等種類的數據,去除標點和特殊字符后,標注5類關鍵信息用作模型訓練。演訓文書以某部隊實際演練活動后產生的文書為主,包含要報、詳報、小結等多種類型,一共40份,用于模型預測。實驗將各類文書中的坐標、時間、地點、編成等,經過數據清洗后用于模型提取。處理后的樣例數據如表2所示。

將公開軍事新聞類數據集15 000條全部用于模型訓練,對40份演訓文書隨機取樣,按0.75、0.15、0.15的比例劃分成訓練集、驗證集和測試集。

3.2 數據預處理及訓練集標注

本文采用哈工大LTP分詞工具實現對演訓文書的分詞處理,使用ALBERT生成詞向量,并以人工的形式對訓練集進行不同實體元素標注。本文使用“BIO”策略進行標注,其中B代表實體元素的開頭,I代表實體元素中間及結尾部分,O表示非實體元素。根據演訓文書事件提取的需求,選擇標注5類實體,以“121412時,X型雷達加高壓,加強對方位050-100度低空快速小目標搜索。”為例,BIO標記結果如表3所示。

3.3 模型訓練與輸出

深度學習算法由ALBERT+CRF組成,輸入分詞后的演訓文書語句,通過ALBERT中文預訓練模型獲取輸入的字符級特征向量,然后利用softmax得到輸入的最大概率標簽,最后利用CRF對輸出進行優化,得到全局最優標記。根據輸入的文本序列,經模型輸出為標簽序列,采用交叉驗證方法,在驗證集中得到輸出的準確率等指標。

4 實驗分析

4.1 實驗環境

實驗以適用Python語言的編譯軟件Pycharm作為調試工具,主要調用Pytorch深度學習框架進行開發,以下是訓練模型所用的環境,如表4所示。

4.2 實驗結果

實驗使用BiLSTM+CRF、BERT+CRF、ALBERT、ALBERT+CRF等模型進行試驗對比,神經網絡參數如表5所示。

在訓練過程中,研究人員使用Adam優化器對網絡參數進行優化,并采用Warm Up策略,使得開始時以較小學習率0.001進行訓練,緩慢到達預設值0.02,避免陷入局部最優解。模型也通過使用Dropout減少一部分不必要參數,達到快速收斂的目的,在1 000 Epoch之后,最終選擇訓練過程中在驗證集上損失最低的模型參數作為訓練結果。對4組模型進行訓練,結果如表6所示。

為評估本文提出事件提取算法ALBERT+CRF性能,研究人員采用精確率(Precision)、召回率(Recall)、F1(F1 Score)分數作為評價指標,3個性能指標對應公式如下。

其中,精確率是指被預測為正,實際也為正的樣本占被預測為正的樣本的比例;召回率是指實際為正的樣本中被預測為正所占的比例;F1值是綜合精確率和召回率的調和平均式。

研究人員通過對比BiLSTM+CRF、BERT+CRF和ALBERT+CRF算法,可見基于深度學習的算法為事件提取帶來較高的準確率、召回率、F1值提升。ALBERT與ALBERT+CRF實驗結果表明,CRF能更好利用前后相鄰標簽之間的關系,使得模型有更好的識別效果。從上述實驗結果可以看出,使用ALBERT預訓練模型與CRF,能夠有效提升演訓文本中關鍵信息的抽取能力。

5 結束語

本文根據演訓文書存在中英文共存、短句關鍵信息密集等問題,提出一種基于ALBERT+CRF模型的深度學習演訓文書事件提取方法,通過對自建演訓數據集實驗,最終使整體準確率、召回率、F1值分別達到94.78%、95.60%、95.20%,證明了模型的有效性和可靠性。模型融合ALBERT與CRF各自的優點,自動抽取演訓文書時間、地區、編成、動作、屬性等5類關鍵信息,能夠幫助演訓保障人員自動提取文本中關鍵事件,提升信息的利用效率,并為下游數據提供來源。

參考文獻:

[1] 吳蕾, 鄧甡屾, 柳少軍, 等. 事件提取方法在軍事領域的應用趨勢[J]. 指揮控制與仿真, 2021, 43(6): 122-127.

WU L, DENG S S, LIU S J, et al. Event extraction methods and development trend in military field[J]. Command Control amp; Simulation, 2021,43(6): 122-127.

[2] 李健龍, 王盼卿, 韓琪羽. 基于雙向LSTM的軍事命名實體識別[J]. 計算機工程與科學, 2019, 41(4): 713-718.

LI J L, WANG P Q, HAN Q Y. Military named entity recognition based on bidirectional LSTM[J]. Computer Engineering amp; Science, 2019,41(4): 713-718.

[3] 劉衛平, 張豹, 陳偉榮, 等. 基于遷移表示學習的軍事命名實體識別[J]. 指揮信息系統與技術, 2020, 11(2): 64-69.

LIU W P, ZHANG B, CHEN W R, et al. Military named entity recognition based on transfer representation learning[J]. Command Information System and Technology, 2020,11(2): 64-69.

[4] 金浩哲, 董寶良, 楊誠. 基于預訓練模型與神經網絡的軍事命名實體識別[J]. 電子設計工程, 2022, 30(20): 51-55.

JIN H Z, DONG B L, YANG C. Military named entity recognition based on pre-trained modelsand neural networks[J]. Electronic Design Engineering, 2022, 30(20): 51-55.

[5] 張曉海, 操新文, 彭雙震, 等. 基于BI-LSTM-CRF的作戰文書命名實體識別[J]. 信息工程大學學報, 2019, 20(4): 502-506, 512.

ZHANG X H, CAO X W, PENG S Z, et al. Named entity recognition for combat documents based on BI-LSTM-CRF[J]. Journal of Information Engineering University, 2019,20(4): 502-506, 512.

[6] 王學鋒, 楊若鵬, 李雯. 基于深度學習的作戰文書事件抽取方法[J]. 信息工程大學學報, 2019, 20(5): 635-640.

WANG X F, YANG R P, LI W. Operational document event extraction approach based on deep learning[J]. Journal of Information Engineering University, 2019,20(5): 635-640.

[7] 陳勇, 邢欣, 張錦文. 面向文書的情報關鍵信息抽取算法[J]. 火力與指揮控制, 2023, 48(1): 142-148, 157.

CHEN Y, XING X, ZHANG J W. Document-oriented intelligence key information extraction algorithm[J]. Fire Control amp; Command Control, 2023,48(1): 142-148, 157.

[8] 楊飄, 董文永. 基于BERT嵌入的中文命名實體識別方法[J]. 計算機工程, 2020, 46(4): 40-45, 52.

YANG P, DONG W Y. Chinese named entity recognition method based on BERT embedding[J]. Computer Engineering, 2020,46(4): 40-45, 52.

[9] 余丹丹, 黃潔, 黨同心, 等. 基于ALBERT的中文簡歷命名實體識別[J]. 計算機工程與設計, 2024, 45(1): 261-267.

YU D D, HUANG J, DANG T X, et al. Recognition of named entity in Chinese resume based on ALBERT[J]. Computer Engineering and Design, 2024,45(1): 261-267.

[10]丁澤源, 楊志豪, 羅凌, 等. 基于深度學習的中文生物醫學實體關系抽取系統[J]. 中文信息學報, 2021, 35(5): 70-76.

DING Z Y, YANG Z H, LUO L, et al. Chinese biomedical entity relation extraction system based on deep learning[J]. Journal of Chinese Information Processing, 2021,35(5): 70-76.

[11]丁建平, 李衛軍, 劉雪洋, 等. 命名實體識別研究綜述[J]. 計算機工程與科學, 2024, 46(7): 1 296-1 310.

DING J P, LI W J, LIU X Y, et al. A review of named entity recognition research[J]. Computer Engineering amp; Science, 2024,46(7): 1 296-1 310.

[12]張華麗, 康曉東, 李博, 等. 結合注意力機制的Bi-LSTM-CRF中文電子病歷命名實體識別[J]. 計算機應用, 2020, 40(S1): 98-102.

ZHANG H L, KANG X D, LI B,et al. Medical Name entity recognition based on Bi-LSTM-CRF and attention mechanism[J]. Journal of Computer Applications, 2020, 40(S1): 98-102.

[13]劉宇瀚, 劉常健, 徐睿峰, 等. 結合字形特征與迭代學習的金融領域命名實體識別[J]. 中文信息學報, 2020, 34(11): 74-83.

LIU Y H, LIU C J, XU R F, et al. Utilizing glyph feature and iterative learning for named entity recognition in finance text[J]. Journal of Chinese Information Processing, 2020,34(11): 74-83.

(責任編輯:胡前進)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 美女啪啪无遮挡| 免费国产不卡午夜福在线观看| 亚洲国产综合精品一区| 国产一级一级毛片永久| 97视频在线精品国自产拍| 国产精品开放后亚洲| 亚洲伊人天堂| 国产毛片不卡| 青青青视频蜜桃一区二区| 国产xxxxx免费视频| 尤物精品国产福利网站| 日本免费一区视频| 国产精品漂亮美女在线观看| 日本影院一区| 精品一区国产精品| 欧美第二区| 亚洲午夜福利在线| 一级毛片在线免费视频| 国产亚洲欧美在线中文bt天堂 | 欧美伊人色综合久久天天| 狠狠操夜夜爽| 2021天堂在线亚洲精品专区| 国产女人喷水视频| 国产白浆在线| 亚洲第一区精品日韩在线播放| 国产成人禁片在线观看| 青青草原国产免费av观看| 免费在线国产一区二区三区精品| 中文字幕一区二区人妻电影| 国产99精品视频| 青草午夜精品视频在线观看| 国产亚洲精品va在线| 欧美精品另类| 不卡视频国产| 国产精品成人AⅤ在线一二三四 | 国产99在线| 国产精品不卡永久免费| 全部毛片免费看| 青青国产视频| 天天摸天天操免费播放小视频| 亚洲精品午夜无码电影网| 日韩a级片视频| 亚洲人成电影在线播放| 午夜精品久久久久久久无码软件 | 国产精品hd在线播放| 国产精品55夜色66夜色| 色久综合在线| 久久毛片网| 视频一区视频二区日韩专区| 日本伊人色综合网| 99精品伊人久久久大香线蕉| 精品超清无码视频在线观看| 亚国产欧美在线人成| AV熟女乱| 国产精品亚洲va在线观看| 成人一区专区在线观看| 浮力影院国产第一页| aⅴ免费在线观看| 激情综合网址| 成人在线综合| 亚洲视频二| 欧美成人手机在线观看网址| 成年午夜精品久久精品| 国产成人精品一区二区免费看京| 婷婷色婷婷| 欧美成人精品一区二区| 亚洲人成影院午夜网站| 国产黄在线观看| 成人精品区| 国产小视频网站| 91麻豆久久久| 一级毛片a女人刺激视频免费| 看国产一级毛片| 思思热在线视频精品| 亚洲一区网站| 日本道综合一本久久久88| 九九热免费在线视频| 国产精品自拍合集| 亚洲福利视频网址| 亚洲精品在线观看91| 亚洲视屏在线观看| 亚洲第一中文字幕|