蔣秋華,陳華龍,趙黃凱,韓可可,王亞軍
(1.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;2.北京經緯信息技術有限公司,北京 100081)
隨著我國鐵路客貨運輸能力的不斷提升,尤其是鐵路12306 互聯網售票系統售票量的大幅增長,面向廣大旅客和貨主客戶的鐵路客服中心已經成為鐵路提高服務質量的一個重要窗口和平臺。中國鐵路客服中心自2010年建設以來,已經建成了18個區域性客服中心,單日人工呼入話務峰值達到14萬通,鐵路客戶服務水平得到了極大的提升[1]。
鐵路客服語音導航系統是鐵路客服中心重要組成部分,主要服務于旅客,通過交互式語音應答(IVR,Interactive Voice Response)自動向旅客提出語音提示,引導旅客選擇所需要的服務,最后由專業的客服人員進行解答。這種方式為半自動客戶服務方式,通過專業人員解決專業問題的方式提高服務效率,但是存在引導層次過深、用戶體驗差、服務標準不一致、人工服務成本高等不足[2]。
隨著自然語音處理(NLP,Natural Language Processing)技術尤其是智能語音識別技術的飛速發展,智能語音服務技術及系統日臻成熟。谷歌、微軟、蘋果、阿里巴巴、科大訊飛等國內外公司都開發了商用的智能語音服務系統[3]。智能語音服務已經成為客服中心發展的必然趨勢。
由此可知,應用智能語音服務技術改進現有鐵路客服語音導航系統具有十分重要的意義。本文針對現有系統的不足,結合鐵路客服語音應用場景的特點,應用智能語音識別技術設計了鐵路客服智能語音導航系統,實現了全自動的智能語音服務,可在降低人工成本的同時,提升中國鐵路客戶服務中心熱線的客服效率和品質。
鐵路客服智能語音導航系統是融合了NLP、信息檢索、語音合成(TTS,Text To Speech)、語音識別(ASR,Automatic Speech Recognition)等技術的人工智能產品。為了改善信息檢索的用戶體驗,系統以自然語音為輸入,理解用戶的查詢意圖后,通過檢索、分析與處理,將以自然語言的形式表述的準確答案返回給用戶,從而提供一種更加方便、友好和精準的服務。
鐵路智能語音導航系統依托基礎運行環境提供線性伸縮的計算存儲資源,采用ASR、TTS、NLP等技術構建導航引擎層[4],通過對接電話自助服務系統,實現人機語音交互對話控制,涵蓋業務邏輯處理、語音交互流程設計、識別處理等功能,如圖1所示。

圖1 智能語音導航系統架構
(1)基礎架構層:實現系統語音識別、合成、自然語言處理和數據存儲。
(2)導航引擎層:包括端點檢測、聲紋識別、語音識別、語音合成、語義理解等智能語音識別的核心模塊,實現語音信號的起止端點檢測、語音識別和語音理解,將旅客的語音轉換為文字。語音合成引擎實現將文字按照選擇的聲學模型轉換為語音信號播報給旅客[5]。
(3)導航服務層:主要實現將核心引擎功能封裝成服務接口方式供上層應用調用。
(4)導航應用層:集成電話自助服務系統,設計業務交互流程,提供人機自助對話交互能力。
(5)語音接入層:對外提供接口適配、語音流適配、多渠道適配、協議適配。
為實現系統全業務語音導航、節點間自由跳轉、菜單扁平化,系統需具備智能打斷、全局命令(重聽、轉人工、返回)、多輪交互、上下文理解、業務指引提示、錯誤處理等功能。
(1)智能打斷:旅客無需等待提示音播放完成,可以隨時打斷、說出自己的需求。打斷的方式支持語音打斷和按鍵打斷。
(2)全局命令:旅客在任何識別狀態下,都可以說出一組特定的命令詞,每個特定命令詞對應特定的功能,從而方便用戶快速回到主菜單、上一層,獲得系統幫助。例如,用戶可以在任何支持識別的環境中說“轉人工”,系統都可以轉到人工服務,具體命令詳見表1。

表1 命令及作用
(3)多輪交互:以余票票價查詢為例,余票票價多輪交互流程如圖2 所示。

圖2 余票票價多輪交互流程
(4)上下文理解:用戶在系統交互過程中,需要通過多次會話交互才能獲取想要的答案,因此,需要系統具備上下文理解功能,避免用戶重復問答,影響用戶交互體驗。
(5)業務指引提示:用戶根據提示說完需求后,系統會立即返回相應的業務指引,發出提示音(業務名稱),使用戶可以明確目前所處的業務及業務狀態。對于用戶而言,業務指引提示音能使用戶了解自己現在“在哪里”,要“去哪里”,更加明了自己當前的操作狀態,提升了用戶的體驗。此外,對于系統而言,及時對用戶進行業務指引,相當于對用戶當前的需求進行再次確認,保證了系統下一步進入的流程正是用戶所需要的,避免系統資源的浪費。
(6)錯誤處理:在用戶與系統交互的過程中,用戶操作不當或者周邊環境因素干擾等原因都可能會影響識別的精確性,導致系統出現拒識或者超時的情況。在這些情況下,系統就不能正確響應用戶的需求。此時,系統必須具備柔和且準確的錯誤提示功能,以便更好地引導用戶進行正確的操作,從而正確識別用戶的需求。
系統工作流程如圖3 所示,包括:提示旅客開始服務,識別旅客語音,理解旅客意圖,解答旅客問題,播報解答語音。

圖3 系統工作流程
針對鐵路客服的語音環境和問題特點,在系統實現過程中,采用的關鍵技術包括語音識別算法和問題求解算法。
混合高斯模型?隱馬爾科夫(GMM-HMM)模型是一種得到廣泛應用的語音識別算法。該算法通過GMM 把語音信號幀轉換為狀態,通過HMM 來計算該狀態對應音素的最大概率,其主要優點是訓練速度快,聲學模型較小,缺點是沒有利用幀的上下文信息,難以學習到深層非線性特征[6]。
針對GMM-HMM 算法的不足,本文采用深度全序列卷積神經網絡(DFCNN)進行語音識別[7]。其結構如圖4 所示,將每幀語音轉換為時頻圖像,通過深度網絡模型(非常多的卷積層和池化層)對整句語音建模,最終輸出音節或者漢字,從而解決了傳統算法中頻率丟失和上下文信息利用的問題。

圖4 DFCNN 結構
為了進一步提高DFCNN 的識別精度,采集了大量鐵路客服語音樣本進行標記,對模型進行微調訓練,從而提高了該模型在鐵路客服語音應用場景下的性能。
為了正確回答旅客提出的問題,采用知識庫問答技術(KB-QA)進行信息搜索,得到答案。該技術包括知識庫構建和自動回答。知識庫構建包括兩個任務:(1)通過實體鏈指法將自然語言中的多個實體指引到知識庫中特定的實體上;(2)通過關系抽取法抽取出自然語言中的實體關系,生成知識圖譜。自動回答技術有語義解析、信息抽取和向量建模等[8]。
深度學習技術也被廣泛應用到KB-QA 的研究中,包括采用卷積神經網絡(CNN)對實體鏈指、語義解析、向量建模等進行提升[9]。
以2019年運行數據為基礎,分析鐵路客服業務歷史數據,可以發現旅客咨詢的業務類型和業務量。排名前35 的業務包括退票、改簽、退票時間規定、身份核驗、營業時間、兒童票、賬戶注冊等,共占比90%以上。收集這些業務的相關文檔,采用實體鏈指和關系抽取構建了鐵路語音客服知識庫。
2019年4月,完成了鐵路客服智能語音服務系統原型開發。2019年7月,在上海鐵路局集團有限公司客服中心試點運行。試運行期間,系統普通話語音識別準確率達90%以上,分擔的話務量占比約30%,取得了很好的應用效果。
智能語音服務是鐵路客服發展的必然趨勢,下一步將不斷結合鐵路客服場景的特點,進一步提高語音識別準確率和問題回答的準確性,為該系統在全國鐵路的推廣應用奠定良好的基礎。