郭成龍,廖 偉,田 晨,林 毅,吳九州,趙雅珺,游學杭,李錦恒
(1.中國民用航空西南地區空中交通管理局,四川 成都 610065;2.四川大學計算機學院,四川 成都 610065)
空中交通管制是空中交通運輸過程中的重要環節,空中交通管制員(以下簡稱“管制員”)通過無線電通信對飛行員發送指令,對航空器飛行活動進行干預,以保證航空器安全高效通過指定空域,維護空中交通秩序。合格的管制員是保證空中交通安全有序的必要條件。中國民用航空局2022 年5 月發布的《2021年民航行業發展統計公報》顯示,2021年民航全行業完成旅客運輸量44 055.74萬人次,起飛395.20萬架次[1]。隨著民航運輸業的發展,航空運輸量將逐年增加,而在現有管制模式和空域資源有限的條件下,管制員工作量也會遞增,這將導致管制員在管制過程中可能出現漏、忘、錯等情況。因此,有必要進一步提高管制員的業務水平。
根據我國《民用航空空中交通管制培訓管理規則》[2]規定,管制員培訓一般要經過基礎培訓和崗位培訓。傳統管制模擬培訓流程如圖1所示。在訓練過程中,管制員的管制指令通過模擬機設備發送至飛行員席位,飛行員通過設備向管制員復誦指令,并輸入管制指令,驅動模擬設備中航空器飛行。

圖1 傳統模擬機培訓示意圖Fig.1 Diagram of traditional simulator training
隨著航空器飛行量逐年增長,對管制員數量和質量的要求也越來越高。傳統管制模擬培訓無法滿足日益增長的管制培訓需求,主要體現在以下2個方面。
1) 傳統的模擬機設備設有機長席位,需要有人扮演飛行員角色協同管制員完成管制培訓,每一次管制員培訓,至少需要1個人來擔當飛行員角色,因而會產生額外的人力成本,導致設備資源利用率低。
2) 由于模擬機設備價格昂貴,目前,只在國內設有樞紐機場的城市建立了管制員培訓模擬中心,培訓資源有限。基于現有培訓體系及方式,每次培訓前需要對培訓人員、時間等進行安排協調,培訓效率不高。
針對目前管制員培訓面臨的各種問題,研究者提出線上培訓和智能機長的概念:文獻[3]提出了基于深度學習的自動機長框架,并對指令生成、語音合成技術進行論述;文獻[4]提出利用“互聯網+”技術設計顯示空管智能學習平臺;文獻[5]利用卷積神經網絡和循環神經網絡設計了空管語音識別模型。但現有相關工作主要聚焦于空管語音識別、指令解析、語音合成等單模塊上。關于語音識別、指令解析以及語音合成技術發展如下所述。
1) 語音識別。20 世紀50 年代,貝爾實驗室研發的能夠對0~9 單個數字進行識別的AUDERY 語音識別系統[6],揭開了語音識別研究工作的序幕。進入21世紀后,隨著計算機算力的不斷提高,研究人員將深度學習算法[7-8]應用于語音識別領域,并取得了大量成果。2009 年,Hinton 等利用深度前饋網絡建立聲學模型,掀起了將深度學習應用于語音識別的浪潮,大大提高了語音識別的準確率[9]。
隨著深度學習的出現,語音識別技術雖然有了突破性的進展,但是目前仍然存在一些難以解決的問題,例如識別過程中的噪聲處理,在一些復雜環境下的語音識別難度依然很大。
2) 文本指令處理。目前,對空管通話指令的研究大多集中于指令語義學習上:文獻[10]使用卷積神經網絡以及余弦相似度分類器判斷復誦指令與管制指令的語義是否一致;文獻[11]通過雙向長短期記憶網絡進行語義匹配;文獻[12]利用語義網絡構建三元組,將空管語音解析為結構化的指令;文獻[13]在1 個空管安全監控的框架中使用1 個聯合模型,用于意圖識別與語義槽填充任務,推斷出文本指令的意圖并將指令轉換為1種預定義的數據格式,用于檢測復誦告警。
3) 語音合成。傳統的語音合成技術主要有波形拼接法、參數合成法。波形拼接法需要的語音語料庫龐大,使用成本巨大,可擴展性差;參數合成法則是通過設計聲碼器,根據發音特征合成波形,傳統的參數合成法如共振峰合成[14]、Griffin-Lim 算法。隨著深度學習算法的廣泛應用,研究人員嘗試使用神經網絡模型代替傳統統計模型,建立聲碼器、聲學模型等,其中,典型的方法有Google 推出的Wavenet 聲碼器[15]、Tacotron模型[16]和Baidu的Deep Voice[17]等。
針對目前空管培訓中出現的各種問題,前序研究[3]提出了1 個完整的應用框架,攻克了相關技術難點。而實際應用中,智能機長系統仍面臨以下挑戰:
1) 基于深度學習的飛行員復誦文本及對應指令文本[3]對數據依賴性較強,在未見環境下泛化能力不足,復誦效果有待提升;
2) 語音合成模塊無法對中英文混合的文本進行合成;
3) 現有系統的復誦性能都是基于實驗條件的測試,缺乏真實場景下的性能驗證。
本文在前序研究[3]的基礎上,針對上述問題,設計了面向空管模擬機培訓的智能應答機長系統。
本文主要對智能機長的智能應答系統展開研究,分析、總結真實空管對話特點及規律,具體研究內容及創新點如下:
1) 設計了1 套完整的智能應答機長系統,減少了人力成本,簡化了傳統模擬培訓的流程,并為線上培訓、智能培訓提供了技術支撐;
2) 設計了1 套應對不同場景的指令復誦規則,該規則能夠適應不同的管制階段,可對中英文管制語音以及中英文混合語音進行復誦生成;
3) 在智能機長系統中添加了人為觸發模式下的特情場景,可對管制員應對特情處置能力進行針對性的訓練及考核;
4) 本文智能應答機長系統集成在中國民用航空西南地區空中交通管理局成都區管中心管制模擬培訓系統上,在真實模擬培訓場景下完成了測試,并能較好地實現管制員指令復誦需求。
基于管制員訓練程序標準,智能機長系統是1 個面向任務的對話系統,對外包含1個輸入接口、輸出接口以及1個人機交互界面。智能機長的邏輯處理流程如圖2所示。
1) 語音輸入:接收由麥克風采集的管制員語音數據,并對語音數據進行歸一化處理,轉為內部數據結構,同時通過消息中間件發送至下一模塊并保存至數據庫。
2) 語音識別:將管制員的語音數據轉換成計算機和人類可讀的文本數據。
3) 指令理解:對管制員語音文本進行再處理,生成與空中交通管制相關的結構化數據,數據包括管制意圖、航空器呼號、高度、速度以及其他必要參數。
4) 指令復誦:根據空中交通管制的標準程序,生成與管制員結構化數據對應的飛行員復誦文本以及模擬機系統可識別的指令數據。同時,還增加了特情場景下復誦模式。在人工干預下,觸發預定義的特情場景,智能機長系統根據相關特情場景生成對應的特情指令。
5) 語音合成:將飛行員復誦文本數據轉換為語音數據,再傳輸給管制員,形成管制培訓對話協商回路閉環。
語音識別系統通常包括聲音特征提取、聲學模型、語言模型等幾個模塊。將輸入的語音信號轉換為與之對應的文字序列,其數學表達[18]如下:
式(1)中:P(X|W)為語音識別系統中的聲學模型;P(W)為語言模型。
隨著深度學習的快速發展,學者們將深度學習技術應用到語音識別領域進行了深入研究,取得了許多重大成果,本文參考部分研究,應用深度學習技術,采取了1 種基于端到端的語音識別網絡模型,包含CNN(Convolutional Neural Network)、FC(Fully Connection Layer)以及改進的BiLSTM(Bidirectional Long Short-Term Memory)結構,如圖3 所示。其中,CNN 用于提取語音局部特征,BiLSTM用于提取時序特征[19-21]。

圖3 語音識別模型結構圖Fig.3 Structure of automatic speech recognition model
空管語義解析主要包括文本分詞、語義槽填充以及意圖識別3個子任務。
語義槽填充是對文本序列進行語義成分分析,將預先定義好的語義標簽填充到對應的分詞位置上。語義槽填充是1 個序列標注任務,即對于給定的文本序列[22]W= (w1,w2, …,wt),需要在預定義的語義標簽集中找到1 組對應的語義標簽序列S= (s1,s2, …,s3),使得:
式(2)中:S?表示給定文本序列W對應的語義標簽。
意圖識別的本質是1 個分類任務,其目的是將輸入的文本序列分類為1 個或多個具體的意圖類別,其數學表達[23]為:
式(3)中:P(C|W)表示在給定文本序列W條件下指令意圖為C的概率;C?表示最終的意圖分類結果。
本文基于前人工作研究成果,對意圖識別和語義槽填充2 個任務進行聯合建模,提出了1 個基于交叉注意力的文本指令理解模型(Cross-Attention based Text Instruction Understanding,CA-TIU),它包含2 個BiLSTM 模型,分別用于語義槽填充以及意圖識別,如圖4所示。

圖4 語義解析網絡模型圖Fig.4 Structure of instruction understanding model
1.3.1 指令復誦
指令復誦是智能機長系統中智能應答模塊的關鍵步驟,也是本文研究的重點。
根據對真實空管場景下地空對話內容的研究,本文將管制員指令分為3種類型:常規陳述指令、管制識別指令和協商疑問指令。根據不同類型指令,本系統以不同方式復誦應答。在1.2 節中,語義解析模塊輸出格式化數據(包括指令文本、意圖參數字典以及語義標簽)如下:
式(4)中:It表示意圖參數字典;I1,I2, …,In是語義解析模 塊 提 取 的 指 令 意 圖 ;P1(x1,x2, …,xn)、P2(x1,x2, …,xn),…,Pn(x1,x2, …,xn)是提取的每一類意圖指令的意圖參數,該參數為不定參數,具體由實際意圖指令決定。指令類別見表1。

表1 管制指令復誦樣本Tab.1 Sample of controlling instruction repetition
1) 常規陳述指令。它是以陳述性語句向飛行員發布的交通干預指令。這類指令通常要求飛行員對航空器飛行狀態做出調整。常見的陳述性管制指令有高度調整指令、速度調整指令、飛行目的地指令、航向調整指令、航跡偏置指令、取消偏置指令、起飛及復飛指令、放行許可以及其他管制許可、聯系頻率等?;诳罩薪煌ü苤七\行規則,此類陳述性指令的復誦規則是重復指令關鍵要素信息,以航空器呼號為結束。因此,通過調整管制員指令文本中航空器呼號順序來實現復誦,其復誦規則如下:
針對常規性陳述性管制指令,本系統參考大量空管指令復誦實例,建立了指令文本、指令意圖、意圖參數列表及與其相關意圖與參數的匹配關系,實現復誦規則如下:
①提取指令解析結果的意圖參數,包括指令意圖和相關重要參數;
②根據預先設計的復誦規則,將管制文本中的航空器呼號和其他指令進行分割,并重新排序,以航空器呼號作為結束,生成復誦文本。
2) 管制識別指令。管制識別指令是航空器進入某管制扇區時首次與管制員聯系后接收到的管制指令,通常為雷達識別或廣播式自動相關監視(Automatic Dependent Surveillance-Broadcast,ADSB)識別。如表1中管制識別指令示例,依據我國《空中交通無線電通話用語》規定,當管制員指令意圖為雷達識別時,飛行員需要復誦航空器呼號作為回應。
3) 協商疑問指令。在地空通話中,管制員除了直接向飛行員下達陳述性指令外,還可能向飛行員發出詢問。本文將管制員向飛行員發出的詢問稱之為協商疑問指令。協商疑問指令大致可分為證實類指令和協商類指令。證實類指令是飛行員向管制員發出請求后,管制員向飛行員請求的重復確認;協商類指令是當發生特情或者面對飛行員請求時,管制員向飛行員詢問所發管制指令的可行性。針對不同類型指令,復誦方式不同。
如圖5所示,當判定管制指令為協商詢問指令后,指令復誦模塊會判定該指令具體類型,其判定依據是指令意圖I1,I2, …,In及指令文本。

圖5 指令復誦邏輯流程圖Fig.5 Flow chat of instruction repetition logical processing
依據管制規則,針對證實類指令,飛行員需要復誦陳述指令,如表1中示例,其復誦規則同常規陳述指令一樣,詳見式(5)。證實類指令的復誦程序與陳述性指令的復誦基本相同,根據語義標簽判定管制指令為重復確認類指令后,根據提取的意圖及其相關參數,生成陳述類指令文本,然后以航空器呼號作為結束,生成完整的指令復誦文本。針對協商類指令,飛行員需依據實際飛行狀態對管制員的協商類指令進行復誦。本系統接入模擬機系統數據,通過模擬機系統中的飛機飛行態勢與提取到的管制指令意圖及參數進行對比判斷,確定管制員發出的指令是否合法:若合法則復述管制指令;否則,與管制員協商。如表1示例,其復誦規則同常規陳述指令一樣,詳見式(5)。
1.3.2 特情處理
本文針對實際空中交通中可能存在的突發狀況或者緊急情況等,設計了1 套特情模式下機長復誦方案,旨在培訓和考察管制員或學員在特情突發狀態下的臨時應變能力。在可視化的人機交互面板中,設置了1 個特情觸發按鈕供教員選擇。觸發按鈕后,系統會彈出1個特情選擇窗口,按照“航空器故障”“機組突發狀況”“外部環境干擾”分類設置特情,具體特情及復誦方案如表2所示。

表2 特情類別及復誦方案Tab.2 Categories of flight emergency and repletion program
當教員選擇某個具體特情時,系統通過提前建立的特情處置語音庫,向管制員主動報告相關特情并且向模擬機系統發送相關特情指令,得以讓管制員在可視化模擬界面中看到相關狀態,使特情盡可能真實。系統處理特情指令復誦時,按表2中的復誦方案向管制員復誦。
基于空管語音涉及大量專業術語、特殊名詞,中英文混合,發音特殊、韻律語速等情況,具有強烈行業特殊性,本文通過對大量真實空管語音進行研究分析,制作了專業空管語音合成訓練數據庫,極大提高了空管語音合成模型合成語音的質量,合成語音可更真實反映空管語音特點。
本文參考前人研究工作,采用1個端到端神經網絡模型,使用自建空管語音語料庫,對文本進行分詞、標注等預處理后,與詞匯表進行匹配,將其轉為音素;然后,傳入編碼器模型和解碼器模型生成語音頻譜;最后,通過聲碼器轉換為語音波形。
本文涉及的深度學習模型均基于開源框架Py-Torch,編程語言為Python# 3.7。本文訓練及測試服務器環境配置如下:2×Intel Core i7,2×NVIDIA GeForce GTX 1080Ti和64GB內存,操作系統為Ubuntu 16.04。
本文收集來自成都區管采集的真實空中交通管制歷史通話數據,其中,管制員語音指令包含進近、塔臺以及區管指令。本文對這些語音進行篩選、切割、文本標注、意圖標注、語義槽填充,構建了1個專用的空管語音數據集,共100 000 條語音數據,總時長為100 h。其中,中文語音67 586 條,合計72.5 h,英文數據32 414條,合計27.5 h。按照8 ∶1 ∶1 的比例將數據集分為訓練集、測試集和驗證集。
本文使用字錯誤率(Character Error Rate,CER)作為識別精度,衡量模型性能。Cer定義如下[18]:
式(6)中:CI、CD、CS分別表示將語音識別模型預測結果轉換為真實文本過程中,替換、刪除以及插入的字/字母數;C表示字/字母總數。
實驗中,使用2.1 節介紹的空管語音數據集中的管制員語音作為語音識別模型的輸入,對應的識別文本作為模型的輸出。為驗證本文語音識別模型性能,同時對當前流行的3 個語音識別模型Wav2letter++、Deep Speech 2(DS2)、Jasper 進行訓練與測試,與本文模型作對比使用,實驗結果如表3所示。

表3 語音識別實驗結果Tab.3 Experimental results of automatic speech recognition
從實驗結果可知,與當下流行的3個語音識別模型相比,本文ASR 的中文及英文語音識別性能更加優異,表明本文ASR 模型采用LSTM 結構提升語音識別精度的策略是有效的。與英文識別相比,本文ASR 模型中文的識別效果更加優異。但是,通過對實驗結果的進一步分析,ASR 模型還存在一些不足,比如對航班號的識別精度不高,這是由于中文發音特殊性導致,如數字6 和9 發音相近,容易識別混淆。未來將通過對數據集進行擴充及優化,同時對模型結構進一步調整,以增強本文ASR模型的識別性能。
本節實驗中,使用2.1 節介紹的空管語音數據集中的管制員語音文本作為指令解析模型的輸入,對應的語義槽標注、指令意圖識別作為模型的輸出,使用準確率作為評價標準,衡量語義槽填充任務以及意圖分類任務的效果。準確率定義如下[22]:
式(7)中:Sc為預測正確的樣本數;S為總樣本數。
為驗證本文指令理解模型的語義槽標注及意圖分類效果,本文同時使用2個用于自然語言理解任務的模型BiGRU-CRF 和Slot-gated 來對本文的指令解析進行實驗,實驗結果如表4所示。

表4 指令解析實驗結果Tab.4 Experimental results of instruction understanding
從表4中可以看出,本文指令理解方法在語義槽填充任務和意圖識別任務中的表現性能均優于BiGRUCRF 和Slot-gated 模型,表明本文指令理解模型所采用的自注意編碼器加深了對輸入指令的語義編碼,基于詞級別的意圖識別,提高了意圖識別的準確率。使用交叉注意力機制加強了意圖與語義槽的信息交互與融合的策略,能有效地提升語義槽填充及意圖識別的準確率。
為了驗證本文智能應答機長系統在智能復誦應答上的實際效果,將本系統作為子系統連接在成都區管中心管制員培訓模擬機上,供管制員測試。本文對測試數據進行統計分析。本次測試時間為10 d,共5 000條指令。其中包括進近指令1 000 條,塔臺指令1 000條,區管指令3 000 條,所有指令涵蓋了從起飛到進近、降落的完整的飛行模擬場景。本文使用管制員指令語音作為輸入,系統的復誦文本作為輸出,對比復誦指令與管制員指令之間的意圖類別、參數等信息,制定了專門針對復誦準確率的評價標準,其定義如下式所示[22]:
式(8)中:Ic為預測正確的樣本數;I為總樣本數。
由于目前沒有現成可用的模擬機自動應答系統,本節沒有設計對照實驗。實驗結果如表5所示。

表5 指令復誦實驗結果Tab.5 Experimental results of instruction repetition
從實驗結果可以看出,本文智能機長自動應答的準確率達到88.6%,在管制員培訓中可以充當代理機長,對管制員指令做出回應。從表5 可以看出,本文智能機長系統對進近指令和區管指令的應答準確率較高,表現明顯優于對塔臺指令的復誦應答。通過對實驗過程分析發現,這是不同類型指令的復雜度的差異性導致的。
如表6所示,進近指令、區管指令內容比較簡短,意圖類型、參數相對較少,易于識別和提取。而塔臺指令相對比較復雜,需要飛行員完成的動作比較多。因此,對意圖的分類識別要求以及參數提取的要求更高,這就導致系統在對塔臺指令復誦時可能出現參數或意圖遺漏的情況,因而復誦準確率要低一些。

表6 指令樣本數據示例Tab.6 Sample of instruction data
本文通過對空管管制指令及復誦業務的分析,制定了管制指令相應復誦方案,并通過對語音識別技術、指令解析技術以及語音合成技術的綜合運用,設計了1套面向空管模擬機管制員培訓的智能應答機長系統,同時設計了1 套特情處理復誦方案。通過實驗測試及分析,發現本文系統能在一定程度上代替機長角色,降低管制員培訓過程中的人力成本。后續工作中,將進一步增加指令解析訓練樣本數據量,并對復誦方案進行優化,使本文系統能適應更復雜的空管管制場景。