王興寶 雷琴輝 梅林海 張亞 邢猛
(科大訊飛股份有限公司 智能汽車事業部,合肥230088)
主題詞:語音交互 人機交互 語音識別 多模態
近年來隨著車聯網系統迅速發展,汽車人機交互越受車企重視,其中語音作為最便捷的交互入口,在人機交互中發揮至關重要的價值,分析汽車行業近百年發展史,從早期的物理按鍵到觸屏以及發展到現在的語音多模態等交互模式,每次變革都是圍繞如何提升人機交互的體驗為目標。語音交互全鏈路包括語音增強、語音識別、語義理解等多個環,如果其中一環亮紅燈則會導致整體交互失敗,但近幾年由于深度學習算法改進,在各個算法模塊都進行了升級,語音交互在部分垂類場景達到可用門檻。從汽車市場分析報告得出2020年中國汽車保有量將超過2億輛,其中網聯化備受人們關注,人機交互也面臨著重大挑戰,用戶不再滿足于基礎的功能可用,期望更智能的交互模式。因此,未來的人機交互模式發展是重要研究課題。
智能化和網聯化已經成為汽車行業發展的必然趨勢,越來越多的汽車企業正在積極向人工智能、軟件服務、生態平臺等方向發展,在汽車安全、性能全面提升的同時,讓駕駛更智能、更有趣[1]。在此過程中,汽車與人之間的交互變的更為重要,如何讓人與汽車之間更便捷和更安全的交互一直是各大車企及相關研究機構的研發方向。
1.2.1 物理按鍵
汽車在早期主要是以駕駛為目的,內飾也比較單一,主要集中在中控儀表盤上。車載收音機和CD 機的出現,成為了第一代車機主要娛樂功能,人與汽車交互開啟了物理按鍵時代。在上世紀90年代,車內主要靠大量的物理開關按鍵進行控制車載影音娛樂系統,并且這些物理開關和按鈕在空間設計上進行了一系列優化,由最初全部集中在中控儀表,慢慢遷移到駕駛員方向盤上。這些設計優化使人機交互的安全性和便捷性得到提升。
物理按鍵雖然是最原始的交互模式,但是在車內是最可靠的方式,車內安全性較高的部位還是使用物理按鍵,如:發動機起動、駐車以及車門開關等。隨著汽車電子技術的發展及大規模的應用,汽車功能越來越豐富,收音機、空調、音響及電子系統開關按鍵分區排列,單一的物理按鍵方式已經不能滿足用戶的駕駛體驗,于是屏幕顯示開始引入車機。
1.2.2 觸屏
在上世紀80年代觸摸屏被大規模商用化,但是觸摸屏根據材料不一樣可分為:紅外線式、電阻式、表面聲波式和電容式觸摸屏4 種。1986 年別克推出全觸屏中控的量產車型Riviera,內部使用了一塊帶有觸摸傳感器的CRT(陰極射線顯像管)顯示屏,該屏幕在功能上集成了比傳統物理按鍵更多的控制功能,包括:電臺、空調、音量調節、汽車診斷、油量顯示等功能,使得整個車內人機交互體驗上升一個檔次。2007 年,iPhone 手機將觸摸屏做到了極致的交互體驗,開創了手機正面無鍵盤觸摸屏操作的時代。之后各家車企也著手中控屏幕的設計,以及相應的人機交互系統的設計。大屏支持音、視頻播放,觸屏操控的交互方式成為第2代車機的標配。
2013年,特斯拉全新推出了采用垂直定向搭載17英寸車載顯示屏的電動車—MODEL S,全面取消中控物理按鍵,幾乎可利用屏幕操控所有的車載功能。2018 年,比亞迪第2 代唐推出了支持90°旋轉功能大尺寸的懸浮式中控屏。中控屏也朝著大尺寸、可移動、多屏幕方向發展。
1.2.3 語音交互
在互聯網通信技術以及智能交通快速發展的環境下,汽車本身也逐漸演變成能集成各種信息源的載體,隨著人工智能技術的突飛猛進和車聯網應用的大范圍普及,語音交互的準確率、響應速度、便利性上有了很大提高。
在國際上,寶馬、奔馳、福特、大眾等多家車企已經將語音交互技術整合到車機內,為用戶提供方便、安全、高效的車內人機交互方案。而在2012 年之前,中國汽車市場的語音交互幾乎都是由國外公司定義的。隨著2010 年科大訊飛發布了全球首個智能語音云開放平臺,自主語音技術占據市場主導。2011~2013年,云+端技術架構、全球首個車載麥克風陣列降噪模塊的發布,標志著中國自主的車載語音交互產品效果已經反超國外,到2014年在行車高噪環境下識別率已經超過90%。吉利、長安、奇瑞、上汽等自主品牌積極與語音技術和產品公司合作,深度定制搭載語音交互技術的車載系統。
2015年,科大訊飛和奇瑞汽車聯合打造的iCloudrive 2.0智能車載系統上市發布,產品以高效的語音體驗顛覆了人們對于交互場景的認知,以語音交互深度打通了車機功能和信息娛樂服務,成為了業內追捧的人車交互標桿產品。
2016 年,上汽和阿里聯合打造的斑馬智行1.0 搭載榮威RX5上市發布,通過集成豐富的互聯網生態服務和內容,以語音交互的方式作為連接用戶的橋梁,成了當時行業內公認的互聯網汽車標桿。
2017 年,蔚來ES8 首次在車內搭載Nomi 機器人,讓人機交互更形象好,用戶對人機交互助理的熱度提升,定位開車旅途中的伙伴更擬人化。
隨著技術的發展,第3代車機在往信息化、智能化發展,采用更好、兼容性更強的安卓等車機系統。通過快速集成免喚醒、語音增強、聲源定位、聲紋識別、自然語音交互、主動式交互、智能語音提示等新的技術,全面增強了駕駛空間的安全性、趣味性,互動性[2],打造了沉浸式交互體驗的智能駕艙。
1.2.4 多模態交互
人與人交流除聽覺外,還有許多感官通道,為了提供更好的人機交互體驗,需充分利用人的多種感知通道(聽覺通道、視覺通道、觸覺通道、嗅覺通道、意識通道等),以不同形式的輸入組合(語音、圖像、手勢、觸摸、姿勢、表情、眼動、腦電波等)為人機交互通道提供多種選擇,提高人機交互的自然度和效率。多模態并非多個模態的集合,而是各單一模態之間的有機協同和整合[3]。
機器利用電腦視覺技術,識別人類的姿勢和動作,理解其傳遞的信息、指令,使得人機交互體驗更加自然、高效。而識別人類的面部表情和目光,更重要的意義在于傳遞的情感,進而增強語言、手勢傳遞的含義,這也解釋了為什么我們在面對面交流時,會試圖注視對方的表情和目光,就是為了準確判斷對方的意圖和情緒。因此,使機器從“能聽會說”到“理解思考”再到“察言觀色”,才能全面提高人機交互的智能化水平。
在2019 年北美CES 展上,奔馳CLA 車型搭載的最新人機交互系統,支持復雜語音指令和手勢識別。拜騰保留了48寸的車載大屏,同時將觸摸屏、語音控制、手勢控制、物理按鍵進行了充分的融合。日產展示了全新的車載AR 概念,應用了無形可視化、I2V 技術。豐田發布了搭載個性化、情感化感知的全新汽車駕艙。圍繞語音識別、手勢識別、圖像識別等多模態融合交互方式必將成為新的制高點,成為下一代人機交互勢不可擋的發展趨勢。
從語音交互整個處理鏈路來看(圖1),可將其分為3部分:語音輸入、語音處理和語音輸出,其中語音輸入包括:語音增強;語音處理包括:語音喚醒、語音識別、語義理解;語音輸出包括:語音合成和音效增強。在2006年人工智能第3次浪潮推動下,利用深度學習理論框架將語音交互鏈路中各模塊算法得到升級,并且配合大量數據持續迭代,語音交互成功率得到較大提升,達到可用的門檻,另外隨著芯片算力的顯著提升以及5G 的普及,提高語音交互整體交互成功率。

圖1 語音交互全鏈路
2.2.1 語音增強
聲音的信號特征提取的質量將直接影響語音識別的準確率。車內環境噪音源包含發動機噪聲、胎噪、風噪、周圍車輛噪聲、轉向燈噪聲以及媒體播放聲等,這些噪聲源都會減弱人聲的信號特征,從而加大識別難度。

圖2 語音增強處理流程
基于麥克風陣列的語音增強算法如圖2、圖3,包括:波束形成、語音分離、遠場拾音與去混響、多通道降噪、聲源定位和回聲消除等技術,可有效抑制周圍環境噪音,消除混響、回聲干擾,判斷聲源的方向,保障輸入較干凈的音頻,提高識別準確率,做到機器能“聽得清”[4-5]。目前最新采用基于神經網絡的降噪技術在高噪環境下取得較好效果[6]。

圖3 麥克風陣列結構
2.2.2 語音喚醒
語音喚醒是現階段語音交互的第一入口,通過指定的喚醒詞來開啟人機交互對話,其技術原理是指在連續語流中實時檢測說話人特定語音片段,要求高時效性和低功耗。語音喚醒在技術發展上也經歷3個階段(圖4):啟蒙階段、新技術探索階段和大規模產業化階段。從最初的模板規則到最新基于神經網絡的方案[7]。另外,配合語音增強中聲源定位技術,可實現車內主副駕、前后排等多音區喚醒。

圖4 語音喚醒技術發展史
2.2.3 語音識別
語音識別是將人的語音內容轉成文字,其技術原理主要包括2大模型(圖5):聲學模型和語言模型,在技術從最初的基于模板的孤立詞識別,發展到基于統計模型的連續詞識別,并且在近幾年深度學習爆發,將語音識別率達到新水平[8-9]。當前語音識別中重點需解決如下3類問題。
(1)語音尾端點檢測問題,能量VAD(Voice Active Detection)、語義VAD和多模態VAD;
(2)多語種和多方言統一建模問題;
(3)垂類場景和針對單獨人群的個性化識別問題。

圖5 語音識別處理流程
2.2.4 語義理解
語義理解是當前語音交互中最難的一環,將人類的表達抽象成統一表示形式以讓機器能夠理解,在語音交互對話系統中,主要包括:語義抽取、對話管理和語言生成;在技術方案上(圖6),近幾年隨著詞向量模型、端到端注意力模型以及谷歌最新BERT 模型進步[10-11](圖7),語義理解正確率在部分垂直領域達到基本可用,如汽車領域頭部技能“導航、音樂、車控、收音機和電話”等[12]。但是,語義理解最核心的難點是語義表示問題和開放性說法等問題,導致在語義效果評判上很難統一,也是未來人機交互中最核心板塊。

圖6 對話理解技術方案
2.2.5 語音合成
語音合成是將文字信息轉化為可聽的聲音信息,讓機器會說話,其技術原理上將文字序列轉換成音韻序列,再用語音合成器生成語音波形(圖8)。語音合成的方法主要有共振峰合成、發音規則合成、波形拼接合成和基于HMM 參數合成4 種。前2 種是基于規則驅動,后2種基于數據驅動,目前主要以數據驅動為主。近年來基于神經網絡技術的語音合成,在主觀體驗MOS 分達4.5 分,接近播音員水平[13-14]。另外,當前在個性化合成、情感化合成以及方言小語種合成等方面繼續探索。

圖7 自然語言處理[10-11]

圖8 語音合成處理流程
2.2.6 音效增強
音效增強是語音交互全鏈路最后一環,在基于車內復雜噪聲環境及揚聲器位置造成的復雜聲場環境,進行專業的聲學系統設計與調教,還原出自然清晰舞臺感明確的音響效果。未經過專業聲學處理的音響系統,會丟失聲音的定位信息,不能還原音樂的左右空間感和前后縱深感。聲音出現雜亂無章,從各個地方出來并互相干擾。根據不同場景包括:3D沉浸環繞聲、EOC(Engine Order Cancellation)、超重低音、高精度聲場重建、聲浪模擬、提示音播報優化、延時修正、聲場重建、虛擬低音、限幅調整和車速補償等音效算法技術[15]。通過加入高級環繞算法,音量隨車速動態增益,主動降噪,引擎聲優化,能為汽車打造音樂廳級的聽感體驗(圖9)。

圖9 音效增強的優勢
從當前的市場和行業發展趨勢可預測,到2020年中國汽車的保有量也將超過2億輛,市場增長空間依然巨大。智能化、網聯化、電動化、共享化已成為汽車產業發展的趨勢,國家層面陸續發布一系列政策推動汽車產業變革。根據中國汽車流通協會發布的《2019中國汽車消費趨勢報告》[16]得出,消費者正從基礎功能滿足延伸至科技智能追求,智能化、網聯化越來越受到關注,2019 年智能化關注度相比2018 年同比增長30.8%,網聯化關注度同比增長52.3%,其中網聯化最關注語音和導航體驗,另外消費者對語音識別的準確性和反應速度比較看重,而從具體配置上來看,消費者對CarLife、CarPlay 和語音識別的需求上升趨勢較為明顯,這也說明消費者對汽車聯網有訴求,但是對原生車機應用效果不滿(圖10)。

圖10 消費者對汽車網聯化的需求[16]
目前,中國在汽車智能化網聯方面處于領先水平,這涉及到“中國汽車市場規模全球最大”、“中國互聯網和移動互聯網發展迅速”、“國家政策傾向”和“自主車企進步較大”等眾多因素影響。面對重大的機遇與挑戰,車聯網人機交互作為整個智能化的入口,如何給用戶提供最便捷和安全的交互方式,對于其未來的發展至關重要。
在人機交互方面的升級將會為未來汽車產生革命性的消費體驗,車云研究院發布的《2020 智能汽車趨勢洞察及消費者調研報告》[17]中,提到智能汽車3大體驗革命:個性化體驗、智能交互體驗和車路協同體驗,其中智能交互1.0基本圍繞功能交互、觸控交互和初級語音交互,智能汽車2.0 應建立起以人為中心的個性化服務全新體驗,多模、主動和情感交互將成為智能交互典型特征。
3.2.1 從“基本可用”到“好用易用”
語音交互的整個鏈條,包括了語音增強-語音喚醒-語音識別-語義理解-語音合成-音效增強。優秀的語音交互系統,需要全閉環的技術鏈條上每一個環節都是優秀的,如果過程中某一技術環節出問題,則會導致整個交互過程失敗,用戶體驗效果不好。

圖11 消費者對汽車網聯化具體配置需求[16]

圖12 智能汽車2.0未來發展典型特征[17]
當前語音交互已經達到基本可用狀態,用戶已經可以通過語音做垂類領域信息查詢以及車輛控制等,但還有許多待解決的問題,主要體現如下3個方面。
(1)核心技術上需要繼續突破,包括高噪環境、方言、口音、童聲等因素下語音識別魯棒性問題,語義理解的泛化性以及歧義性問題,個性化和情感化語音合成問題等;
(2)語音交互模式上的持續優化,從最初單輪one-shot 模式到全雙工免喚醒模式,需要在系統誤觸發方面技術突破;
(3)信源內容深度對接和打磨,語音交互只是入口,用戶希望通過語音便捷的獲取到更有價值以及更有趣的內容,則需要語音交互各模塊能力與信源內容深度耦合。
3.2.2 從“主副駕交互”到“多乘客交互”
目前智能汽車中應用場景交互主要考慮的是主駕駛方位和副駕駛方位2側,而對于后排的乘車人員的交互過程和交互效果沒有得到很好的保證,例如,在功能范圍內,主駕駛和副駕駛人員基本可以自由的與車機對話,實現相應的功能,但是對于后排乘客,就有很多制約條件,后排人員距離麥克風位置較遠,語音指令不能被很好的檢測到,整體交互效果較差。
基于整車多乘客需求,未來將會在車內實現“多乘客交互”的目標,所謂“多乘客交互”就是說,將以往采用的雙音區技術更改為四音區技術,在每一個位置前都裝1個麥克風,可以讓各自位置的乘客通過語音或者其他交互方式控制各自的交互設備,即使在同一時間說出指令也互不影響。例如,當后排右后座位乘客想要打開或者關閉自側車窗時,可以直接語音指令說“打開車窗/關閉車窗”就可以打開右后側車窗,其它方位不受影響,而駕駛員(主駕駛)語音指令說“打開車窗”時也只會打開主駕駛一側的車窗,不會打開車內全部車窗,這也是未來智能汽車更智能更人性化的一種表現。
3.2.3 從“被動式執行機器人”到“擬人化貼心助理”
隨著智能化技術的不斷進步,單純的功能型產品已經不能滿足用戶的需求了,用戶想要在保證功能的前提下也可以感受到更多的“以人為中心”的產品服務,真正實現讓汽車越來越理解人,越來越有溫度的理念。通過用戶交互的歷史數據生成用戶的知識圖譜和交流風格畫像,生成一個針對用戶的個性化人機交互策略,該策略具備調動車載系統各項服務(比如車控、音樂、導航、游戲等)的能力,以虛擬形象或實體機器人的方式生成符合用戶個性化需求的外表和聲音特性與用戶主動或被動的進行交流。例如,用戶在車上說“查找附近的餐館”,機器會依據用戶的口味和習慣自動推薦符合該用戶餐館;另外駕駛員在開車過程中,機器預測到駕駛途中天氣情況惡劣,則主動告知駕駛員天氣信息注意開車;車輛發生故障,機器主動告知車輛故障情況,并引導駕駛員到最近的4S店維修;心情不好時候,能夠推薦一些喜歡的歌曲或者講一些笑話等等。
3.2.4 從“車內交互”到“跨場景交互”
物聯網的出現可以讓所有能行使獨立功能的普通物體實現互聯互通,借助于物聯網的浪潮,汽車內跨場景交互也將是智能汽車未來發展的必然趨勢。
當前,汽車人機交互的使用場景過于單一,車機系統放在車內只可以控制車內的設備,而對于車外其他場景的控制卻無能為力。比如在車內控制自己家中的設備,在車內控制自己辦公室的設備,在家中控制車內的設備,在公司控制自己車內的設備,未來“智能汽車-智能家居”、“智能汽車-智能公司”的跨場景交互的實現,不僅可以給車主提供一體化的車-家、車-公司的互聯生活,也讓智能汽車的發展達到了一個嶄新的制高點。
3.2.5 從“語音交互”到“多模態交互融合協同”
語音交互的方式已經成為汽車內人機交互的主流方式,但是當車內的噪音比較大時,單純的語音交互方式就不能完全滿足用戶的需求,此時多模態融合的交互方式就顯得尤為重要,此時用戶的訴求就可以通過手勢識別、表情識別等多模態相協作的方式來更好的完成交互過程。
多模態融合的交互方式可以根據用戶當前所處的場景需要給用戶提供不同的交互過程。當駕駛員正在行駛時,眼動跟蹤技術會持續檢測駕駛員的眼睛,表情識別會隨時檢測駕駛員臉部表情,當檢測出現眼皮下垂、眨眼次數頻繁或者駕駛員正在打哈欠時,就會對駕駛員執行語音提示,并自動打開空調設備或者是打開車窗,做一系列給車內通風的動作來幫助駕駛員恢復清醒的意識。如果在高速行駛會自動導航至附近的休息站或者是服務區,不在高速行駛時就會語音提示駕駛員臨時靠邊停車,以確保駕駛員的行車安全。表情識別可以實時檢測駕駛員的面部表情,進而根據駕駛員當前所處的場景來判斷其心理情緒,并根據其情緒自動語音打開合適類型的音樂,開啟相對應的氛圍燈,調節車內氛圍以適應車內用戶的當下心情,給用戶更親和、更智能化、更沉浸式的體驗感受。
汽車領域在基于人工智能的人機交互整體還算剛起步階段,語音交互雖然取得較大進步但是還不夠穩定,許多場景下替代不了觸摸和按鍵等操作,目前需要在語音、圖像以及語義方面擁有技術上的突破,多模態融合和協同的交互模式將成為下一代汽車人機交互的重點。此外,隨著無人駕駛和智能駕艙的發展,人們對人機交互的要求越來越高,需要在保障交互的安全性前提下,不斷提升交互體驗,使駕駛更安全、更便捷和更有趣。