潘衛軍, 蔣培元, 李煜琨, 王騰, 陳寬明
(中國民用航空飛行學院空中交通管理學院, 廣漢 618307)
國際民航組織指出,2025年以后,空中交通流量預計將以每年3%~6%的速度增長[1],因此,對空中交通管制員(air traffic controllers, ATCO)的需求也將逐年增加。空中交通管制員通過甚高頻無線電向飛行員發出管制指令來實現對空中交通的管理。根據空中交通管制(air traffic control, ATC)中安全和可靠性規定,收到指令的飛行員必須要對管制指令進行正確快速的復誦以確保飛行員正確理解了管制員發出的指令[2]。對于管制人員而言,ATCO需要完成相應的基礎課程以及模擬設備方面的實訓才能獲得在真實ATC場景下的工作資質。中國管制模擬機培訓設置了兩個席位,管制培訓席位以及飛行員席位。完成一次管制員培訓,需要一名專職人員來控制飛行員席位實現管制指令的復誦和響應,這會產生額外的培訓成本(包括設備和人員成本)。針對此問題,人工智能技術的發展和應用為解決此問題提供了可能[3-5]。在外國,研究人員的側重點主要是使用深度學習技術來構建智能系統來輔助ATCO工作。歐盟(European Union, EU)為了減少ATCO的工作量,將語音識別技術應用于空中交通管制中以減少ATCO的工作量[6],提高工作效率[7-8]。Helmke等[9]通過人工智能技術實現了管制員輔助決策系統的構建,緩解ATCO人員的工作壓力。然而,這些智能系統對語音識別系統的識別準確率要求較高。一般而言,其識別的詞錯誤率要低于5%才能滿足實際應用需求[10]。相較于外國,中國學者主要從管制員培訓環節出發,致力于使用人工智能技術提高管制員的培訓效率和專業水平,從源頭降低錯誤的產生。陳亞青等[11]基于統計學習技術,采用模版匹配的方法構建了一套模擬機長培訓系統來替代機長席位,為自動飛行員研究打下了基礎。鐘如秀[12]基于科大訊飛語音識別引擎實現了智能管制模擬機自動飛行員系統的設計,結果表明:該系統可以替代模擬機中的飛行員席位,能較好地提升管制學員培訓質量。為了促進使用計算機代替人工飛行員席位進行指令應答,黎蘭[13]提出了改進的序列到序列(sequence-to-sequence, Seq2Seq)陸空通話對話模型,實驗結果表明,復誦指令生成的準確率可以達到93%。Zhang等[14]采用多任務學習來優化深度神經網絡模型,實現了管制復誦指令的生成,其復誦準確率為97.19%。然而,上述研究采用的模型較為傳統,其模型性能在當前已經進入了瓶頸階段,進一步打破瓶頸,推動本領域發展迫在眉睫。鑒于此,構建高性能深度學習模型來實現自動飛行員復誦指令的生成,針對中外研究的不足,通過對基于Transformer以及Seq2Seq架構的大規模預訓練語言模型進行微調,實現飛行員復誦指令的生成?;诖?為保證模型復雜度處于一定范圍同時提高模型準確率,使用集成學習策略來改進模型,實現模型性能的提升。最后,為促進本領域相關工作進展,提出一種新的評價標準來衡量復誦指令生成的質量,該評價標準可在模型的改進方面為研究者提供有價值的參考。
當前,ATCO培訓主要依賴于管制模擬機,具體的培訓流程如圖1所示。在管制員模擬機培訓中,采用智能計算機程序來取代飛行員席位,也即使用智能計算機程序來實現飛行員復誦指令的生成并對指令進行響應,可以有效降低培訓成本,提高培訓效率。如果將該程序集成到管制員培訓系統中還可以克服培訓地點這一限制,能夠應對實際出勤的困境,提高ATCO培訓設備的利用能力。使用人工智能技術來實現自動飛行員復誦指令的生成以及響應其核心技術包括:語音識別(automatic speech recognition, ASR)、管制指令理解(controlling instruction understanding, CIU)、信息抽取(information extraction, IE)、飛行員復誦生成(pilot repetition generation, PRG)、語音合成(text to speech, TTS)以及人機交互技術[15]。其技術框架流程圖如圖2所示。

圖2 自動飛行員復誦指令生成技術流程圖Fig.2 Automatic pilot repetitive instruction generation technology workflow diagram
為了研究自動飛行員系統,首先要對飛行員復誦指令進行深入了解。飛行員復誦指令的一般特征為:①復誦指令文本長度一般小于管制指令文本長度,對于強制性管制指令,其復誦指令要與管制指令含義保持一致;②持續性對話次數少(符合人機對話中屬于單輪對話特點)?;谏鲜鎏攸c,可將飛行員復誦指令生成從人機對話任務轉化為文本摘要生成任務來處理。當前階段,文本摘要技術按摘要生成方法分為提取式摘要和生成式摘要[16]。提取式摘要根據詞語的重要性來提取關鍵詞,形成摘要。但它只考慮詞語的詞頻,而不考慮句子的語義信息,這導致生成的句子連貫性較差。生成式摘要則通過釋義和同義替換來總結句子的重要信息,與提取摘要相比,生成摘要具有更好的表示能力,能夠理解句子的上下文語義。在自動文本摘要的任務中,由于輸入和輸出都是文本序列,這要求模型要更加關注生成句子的語義信息和句子連貫性之間的關系[17]。
長期以來,由于基于統計學的方法在文本表示、理解和生成能力方面的局限性,自動文本摘要的發展緩慢[18]。隨著神經網絡理論和技術的不斷改進,深度學習在許多任務上實現了最優的效果[19-22],尤其是基于編碼器-解碼器架構的自動文本摘要模型出現之后,基于深度學習的自動文本摘要迎來了新的發展[23]。在當前的背景下,隨著序列到序列框架的進步,生成式模型往往優于提取式模型[24]。
對于生成式摘要的研究大多是關于序列到序列的編碼器-解碼器結構,通過添加各種注意機制、指針生成機制和覆蓋機制,或者用卷積神經網絡代替循環神經網絡來解決摘要生成過程中的各種問題。Rush等[25]第一次在Seq2Seq模型上使用注意力機制來解決標題生成問題。為了進一步提高模型的性能,Nallapati 等[26]提出了指針生成器模型來成功處理詞匯量不足(out of vocabulary, OOV)的單詞。該模型之后又通過使用覆蓋機制[27]進行了改進。由于先前的Seq2Seq架構中的編碼器、解碼器是由卷積神經網絡或遞歸神經網絡來充當,因此這些架構的特征提取能力遠不如Transformer模型。基于自注意力架構的Transformer的出現,開啟了自然語言處理的新紀元,它確保模型能夠學習到更深的語言邏輯和單詞的語義信息。相應的模型如BERT (bidirectional encoder representations from transformers) 模型[28]及其變體Roberta (a robustly optimized BERT pretraining approach)模型、GPT-2 (generative pre-trained transformer 2) 模型[29]、BART (bidirectional and auto-regressive transformers) 模型、T5 (text-to-text transfer transformer) 模型等。BERT使用單詞的上下文來預測單詞,而GPT-2通過前文的單詞來預測下文的單詞。因此,BERT適合于自然語言理解任務,GPT-2更適合于自然語言生成(natural language generation, NLG)任務。受啟發于BERT和GPT-2,BART模型融合二者優點,這使得它比BERT更適合文本生成的場景,相比GPT-2也多了雙向上下文語境信息,在生成任務上取得了最優的效果[30]。Google Brain團隊設計出一個基于prompt策略的預訓練語言模型T5[31],該策略通過引導模型在預訓練階段學到的特定任務相關知識,來降低微調的難度,減少訓練時間,使得模型性能得更好的發揮。
(1)隨著深度學習模型參數的增加,對于監督學習,需要用大量的數據訓練性能優越的模型。在空中交通管制領域,由于數據的保密性,數據的獲取非常困難。此外,獲得的原始ATC語音數據必須經過專業人員標記后才能使用,使得標注的成本變的昂貴。這使得深度學習技術在該領域的應用和發展帶來了很大的挑戰。
(2)飛行員復誦指令生成任務既屬于摘要生成任務又屬于對話響應生成,如何構建合適的模型來適應飛行員復誦指令生成任務是一個難點。
(3)當前常用的評估文本生成質量的方法不能很好地適應飛行員復誦指令生成任務,急需構建一種用于評價飛行員復誦指令生成質量的標準。
(4)在空中交通管制工作中,安全是最重要的考量。因此,評估模型性能的首要標準是模型的準確率。盡管當前基于Transformer架構的大規模預訓練語言模型在許多領域都表現出色,但在管制領域的應用中,其性能仍然無法滿足實際需求。因此,如何進一步提升模型的性能,且不增加模型的復雜度是需要解決的關鍵問題。
針對2.1節(1),采用遷移學習的方法,先將模型在其他領域數據上進行訓練再應用到本領域進行微調來達到復誦指令生成的目的。針對2.1節(2),NLG任務中又包含神經機器翻譯(neural machine translation, NMT)、文本摘要和對話響應生成[32],這三項任務的共同點在于輸入和輸出都是文本序列,除此之外,相互間又有區別。文本摘要和機器翻譯的區別在于,在文本摘要中,生成的摘要通常非常短,不受原文長度的影響。此外,摘要生成的一個關鍵點是以有損失的方式壓縮源文本并保留關鍵概念,這與機器翻譯要求的無損相違背[33]。對話響應生成和文本摘要的區別在于,對話響應生成的文本上下具有邏輯性,對于生成結果的質量,目前沒有統一的評判標準[34]。文本摘要中的原文本和生成的摘要文本在語義上要求一致的且摘要長度一般小于源文本的長度[35]。飛行員復誦指令文本生成是一種特殊的NLG任務,既屬于對話響應生成任務、又屬于文本生成任務。對于一些詢問性指令(如收到請回答),其復誦指令的性質屬于對話,前后文具有邏輯關系;但大多數管制指令屬于強制性指令,其復誦指令的性質屬于摘要生成任務,前后文含義保持一致?;谏鲜鲲w行員復誦指令文本生成任務的特點,采用摘要生成任務中的預訓練模型進行微調的策略來進行飛行員復誦指令的生成是合適的。針對2.1節(3),為實現詳細的對生成結果進行評價,首先構建了管制指令文本詞典,借助分詞工具,對生成的指令文本按粗細粒度信息進行了分割,用于后續指標的計算??紤]到管制指令的特殊性,提出了一種新的評價標準來評估生成的復誦指令文本的質量,該標準比傳統的ROUGE(recall-oriented understudy for gisting evaluation)評價標準能更加精確地反映模型的性能。針對2.1節(4),為了實現不增加模型復雜度同時提高模型的性能,采用了機器學習中的集成學習策略。選取4個基礎模型構建集成學習模型,將管制指令數據集調整為4個數量不變但內容不同的訓練集,每個基礎模型在不同類別的訓練集上進行訓練以確保各基礎模型能夠學習到不同的文本處理能力。將訓練好的4個模型進行裝袋,最終輸出結果采用基于準確率的加權投票策略。實現了利用多個模型的優勢,提高模型的準確率同時避免模型復雜度增加的目的。
集成學習是一種機器學習方法,旨在通過結合多個模型的預測結果來提高預測準確度和泛化能力。該方法使用各種投票機制融合不同基礎模型的預測結果,從而得到比單個基礎模型更準確且模型復雜度不增加的集成模型[36]。圖3展示了模型復雜度和誤差之間的關系??梢钥闯?在開始階段模型的總誤差一直在下降,直到達到底部,然后隨著模型復雜度的增加而迅速上升。

圖3 學習曲線和模型復雜之間的關系Fig.3 Direct relationship between learning curve and model complexity
目前,基于Transformer架構的預訓練語言模型參數量已達到億的級別,模型的復雜度達到了較高水平。因此,進一步提高基礎模型的復雜度并性價比不高。集成學習的目標是將不同的模型算法無縫集成到一個統一的框架中,以便有效利用每種算法的互補信息,提高性能的同時確保了模型的復雜度處于穩定水平[37]。常用的集成分類方法包括Bagging、AdaBoost、隨機森林、隨機子空間和梯度增強[38-40]。在飛行員復誦指令生成任務中,使用Bagging集成分類方法進行集成學習模型的構建。圖4說明了典型的Bagging集成分類模型的主要思想,該模型由兩個步驟組成:①使用多個弱分類器生成結果;②將多個結果集成到一致性函數中,以使用投票方案獲得最終結果。其中投票可以是簡單的多數表決,也可以是加權投票。這里采用基于準確率的加權投票方式,對每個基礎模型的預測結果按照它們的準確率權重進行加權投票。

圖4 集成學習模型架構Fig.4 Integrated learning model architecture
對于飛行員復誦指令生成任務而言,對于強制性復誦指令是有標準答案的,因此可以將復誦結果看作字符串,從分類問題的角度進行投票處理。具體投票過程如下。

(1)
式(1)中:k=0,1,2,3分別為字符串str0、str1、str2、str3類別,這4個類別的內容可以相同;(yi=k)為指示函數,當yi=k時為1,否則為0;wi為第i個分類器的權重,其計算公式為
(2)
式(2)中:Accui為第i個分類器的準確率。
本實驗依托國家重點研發計劃項目中構建的真實陸空通話數據集,其中數據中包含少量管制指令對應的飛行員復誦文本。飛行員復誦文本為實驗室人員,基于《空中交通無線電通話用語》(MH/T 4014—2003)標注。最終,得到經預處理后的指令文本數據共11 049對,并將數據集劃分為3個子集,其中8 949對用于訓練,995對用于驗證,1 105對用于測試。其數據涵蓋塔臺、進近及區調對話,能較好地反映ATC領域中的陸空通話數據分布。表1為摘錄數據集中的部分數據實例。
ROUGE通過計算生成摘要和參考摘要之間的重疊單元(如n-grams、單詞序列和單詞對)來衡量摘要質量[41],該評價標準已經被廣泛用于自動摘要生成任務的評估中。其中,ROUGE-1和ROUGE-2作為評估信息性的手段,最長ROUGE-L作為評估流暢性的手段[42]。ROUGE-1和ROUGE-2得分已被證明是最符合人類的判斷評估指標。
ROUGE-N的計算公式為
(3)
式(3)中:下標N常取1、2;n為n-grams的長度;Ref為參考摘要的集合;S為參考摘要中的n-gram集合;式(3)中,分子表示生成摘要中的n-grams在參考摘要中出現的次數之和,分母表示參考摘要中的n-grams的總數;Co,match(gn) 為生成摘要和對應的參考摘要中同時出現的n-gram的最大數量;Co(gn) 為參考摘要中的n-gram 數量。
ROUGE-L的計算公式為
(4)
(5)
(6)
式中:LCS為最長公共子序列;len為序列的長度;C為標準序列;S為生成序列;RLCS為召回率;PLCS為精確率;FLCS為ROUGE-L值;β為用于衡量召回率和精確率之間重要性的參數,一般β會設置為較大的值,此時FLCS會更加關注RLCS,β取1,表示準確率和召回率被同等看待。
由于本領域的特殊性,復誦指令必須完全正確才能記作一條合格的復誦指令。飛行員復誦指令要求在不丟失關鍵信息的情況下,根據ATC規則對管制指令進行響應。根據ATC規則[43],ATCO的指令必須以飛機識別號(aircraft identification, ACID)開始,以明確所通信航空器,而飛行員的指令則要以其ACID結束,以區分ATCO的指令。基于上述復誦指令的特點,僅使用ROUGE評價標準來衡量模型,不能全面的評價模型的性能。如在管制指令數據集中,管制員下達指令:東方五四兩四, 由于沖突,加速上到六千九。參考復誦指令為:加速上到六千九,東方五四兩四。分詞工具分詞后:東方五四兩四/由于/沖突/加速/上/到/六千九;加速/上/到/六千九/東方五四兩四。 當模型生成結果為“加速/上/到/六千九/由于/沖突/東方五四兩四”時,使用ROUGE-N及ROUGE-L評價方法計算結果分別如表2、表3所示。但從飛行員復誦指令評價標準的角度來說,該復誦指令是正確的復誦。

表2 示例的ROUGE-1、ROUGE-2計算結果Table 2 Example ROUGE-1 and ROUGE-2 calculation results

表3 示例的ROUGE-LTable 3 Example ROUGE-L
由表2、表3結果可知,雖然ROUGE指標一定程度上可以反映模型性能,但不能更加精細化反映模型性能。因此,針對管制指令文本的特點以及復誦標準,引入針對本領域的一種新的評價標準,關鍵詞評價標準,其評價指標包括:呼號準確率(call sign accuracy, CSA)、動作指令準確率 (action instruction accuracy, AIA)、參數準確率(parameter accuracy, PA)。最后,計算總準確率(total accuracy, TA)。只有當一個指令具有所有3個正確的子因子時,該復誦指令才能被視為正確的指令。具體指標的定義及計算公式如下。
(1)呼號由航空公司簡稱和航班號組成,呼號準確率計算公式為
(7)
(2)動作指令為ATC指令中的包含動作,如上升、下降、保持等,動作指令準確率計算公式為
(8)
(3)參數是指ATC指令的關鍵要素包括速度、高度、航向和航路點等指令動作的關鍵補充信息,參數準確率計算公式為
(9)
式中:N為待測樣本的數量;g(i)、q(i) 、h(i)分別為呼號、動作指令和指令參數的特征函數,可表示為
(10)
式(10)中:predi=truthi是指示函數的條件,其中,predi為生成的第i條復誦指令中,呼號、動作參數的值;truthi為參考復誦指令中,呼號、動作參數的值,當二者完全對應匹配時,指示函數值為1,否則為0。
(4)總準確率為有效復誦指令占總的復誦指令的比值。只有當所有呼號、參數和指令動作都與基本事實相同時,該復誦指令才是有效的??倻蚀_率的計算公式為
(11)
式(11)中:T(i)為總精確度的特征函數,其計算公式為
(12)
為便于針對管制指令進行ROUGE評價以及關鍵詞評價,基于收集的某地區空管局標注后的語音數據,參考《空中交通無線電通話用語》,使用Jieba分詞工具構建了中文陸空通話分詞詞典?;诠苤浦噶畹慕Y構特點,構建的詞典包含:航空公司簡稱、數字、字母、高度、速度、航向、航路點、專有名詞等內容,共計詞匯量14 756個。其詞匯實例分析如表4所示。

表4 詞典實例分析Table 4 Analysis of dictionary case
實驗室環境及配置如下:操作系統為Windows10,CPU采用E5-2680 V4@2.40 GHz,GPU為RTX 2080Ti,深度學習框架為Pytorch。各基礎模型超參數設置如表5所示。

表5 基礎模型超參數Table 5 Basic model hyperparameters
采用預訓練加微調的策略來實現飛行員復誦指令的生成。使用10折交叉驗證來評估各基礎模型性能,各微調模型實驗結果如表6、表7所示,集成學習模型試驗結果如表8、表9所示。為了進一步增強對基于注意力機制模型的理解,選擇一些測試樣本來展示模型在生成任務過程中的注意力分布,圖5、圖6展示了T5模型在預測過程中的注意力分布??梢钥闯?模型能夠較好地輸出標準答案。

表6 各模型在管制指令文本數據集上的ROUGE得分Table 6 ROUGE scores of each model on the control instruction text data set

表7 各模型在管制指令文本數據集上的關鍵詞準確率得分Table 7 Key word accuracy score of each model in control instruction text data set

表8 集成學習模型在管制指令文本數據集上的ROUGE得分Table 8 ROUGE scores of the integrated learning model on the regulatory instruction text dataset

表9 集成學習模型在管制指令文本數據集上的關鍵詞準確率得分Table 9 Keyword accuracy scores of the integrated learning model on the regulatory instruction text dataset

垂直軸表示輸入的ATC指令文本;水平軸表示標準復誦結果;每一行色塊表示對應步數的輸出在標準結果詞上的關聯程度,顏色越亮,關聯越深圖5 高度調整指令注意力分布熱力圖Fig.5 Highly adjusted instruction attention distribution heatmap
由表6、表7可知,GPT-2模型在任務中表現最差,可能原因是GPT-2在進行預測時使用的是具有掩碼的注意力機制,這導致模型產生輸出時沒有將后文的有用信息考慮進來,使得模型在處理輸入與輸出含義一致的文本生成任務時時效果不佳。而Roberta、T5、BART、Nezha模型則表現相當,這說明了提供雙向信息有助于提高復誦生成的準確率。由表8、表9可知,基于加權的投票策略的集成學習模型性能優于不考慮權重僅考慮得票數的集成模型。
(1)通過將機器學習中集成學習策略應用于深度學習中,實現了高質量的飛行員復誦指令生成。在管制指令文本數據集上,所采用的方法在飛行員復誦指令生成任務中取得了最先進的效果,模型在基于關鍵詞的評價指標中,整體準確率達到0.987,并且對呼號復誦的準確率達到0.998。
(2)使用10折交叉驗證對5個基礎模型進行了性能評估。結果表明,基于Transformer解碼器構建的預訓練模型GPT-2在復誦指令生成任務中存在生成的結果隨機性過大的缺點,其可能原因是GPT-2在預測時使用了具有掩碼的注意力機制,導致模型在產生輸出時不會考慮下文信息,因此在進行輸入與輸出含義一致的文本生成時表現出較差的性能。此外,基于Transformer架構的預訓練語言模型NEZHA、Roberta、T5與基于Seq2Seq架構的預訓練語言BART相比,都表現出較好的性能。表明這4個預訓練語言模型能夠很好地適應輸入與輸出含義一致的文本生成任務。
(3)目前,文本生成結果的評價標準主要基于ROUGE-N,ROUGE-L,然而,在ATC領域使用這種標準會導致評價結果的偏差,并且無法精細反映模型的性能。因此,針對管制指令的特點,提出一套基于關鍵詞的評價指標體系。通過建立管制指令詞典,實現對管制指令文本的分詞,來對管制指令文本進行粗細顆粒度劃分,最后對各關鍵詞指標進行計算。結果表明,基于關鍵詞的評價指標體系能夠克服ROUGE評價方法中存在評價偏差,更全面地反映模型性能。
盡管目前的模型能夠準確地完成對管制指令的復誦,但是在回答一些非復誦的指令時,模型仍然不夠出色,這主要是由于數據多樣性少以及模型本身存在的局限性導致。后續可對多模態數據融合技術以及構建復誦對話管理模塊進行研究,以實現更好地非強制性復誦指令的生成。