3.2.2語音合成發展方向
目前語音合成有高自然度語音合成、芯片級語音合成、多語種合成、分布式語音合成、口語化的語音合成等發展方向。
(1)高自然度語音合成
為了使基于智能通信終端的服務更加人性化,讓交互更加自然,高自然度的語音合成仍然是主要追求的目標。近年來基于語音庫的合成方法被證明可以獲得高自然度的合成語音。在這個方法中,合成語音的單元選自一個很大的自然語流語音庫,只要精心設計語音庫,使它能有效地包含各種可能出現的語言現象,并找到正確地選取所需語音單元的手段,無疑將能得到高自然度的合成語音。但是語音庫究竟應該包含哪些語音現象,語音單元應該怎么選取,都還有許多問題需要解決。
(2)芯片級語音合成
為了在越來越多的微型終端中集成語音合成技術,必須確保在芯片級硬件平臺支持水平上能夠實現語音合成的完整應用,因此無論是在語音庫尺寸、算法復雜度還是在文本分析規模和資源消耗上,都必須具有小型化、輕量級的特征。如果基于語音庫的合成被稱為重量級語音合成,需要很大的存儲空間,那么,如何提高輕量級語音合成的高自然度,則更加任重而道遠。
(3)多語種合成
在現實社會信息條件下,很多的內容都是以不同語種詞匯、甚至短句互嵌的形式出現的,例如,在電子郵件和網上消息里中文中經常會夾帶著英語單詞,而傳統的多系統分流技術又存在發音人發音不一致、銜接差等問題,因此同一系統內混合處理、多語種合成是一個實際的需要,特別是在中、英文混讀方面有很多工作要做。
(4)分布式語音合成
在基于網絡應用特別是在客戶機/服務器的典型模式下,終端的輕量級實現與服務端的高質量、重量級實現必然存在矛盾,加上信道、處理資源與用戶體驗多方面的綜合影響,語音合成的分布式實現呼之欲出。分布式語音合成技術將傳統的語音合成處理環節分解為標準化的實現模塊,并將其間數據傳輸格式形成標準,從而為網絡條件下非對稱應用提出一個高性價比的解決方案。
(5)口語化的語音合成
語音合成中與自然度相對應的就是表現力,為了在對話模式中體現出更多的人性化,一般的疑問、感嘆、強調等特征需要得到體現。一方面,需要合成算法能夠表現出這些語言的聲學特性;另一方面,必須具有一套在文本上描述所需表現力的標注體系。
3.3自然語言理解
語音識別與語音合成都離不開自然語言理解。語音識別中的音/字轉換和語音合成中的字/音轉換的正確率都取決于對語言理解的深度。從智能通信終端的應用看,有時系統不僅要正確識別用戶的發音,而且要理解它,然后執行相應的命令。例如用戶通過語音訂機票,要求“訂1張5月1日去深圳的頭等艙機票”,當語音識別出這句話后,系統還要明白用戶要求的旅行時間是“5月1日”,目的地是“深圳”,艙位等級是“頭等艙”等等,實際上系統還會希望明確是哪一次航班,才能完成預訂。這里都要用到自然語言理解。此外系統還需要產生合適的回答,比如反問、反饋信息(例如是否有票,有沒有折扣價等)給用戶。這就會涉及自然語言生成,這是語音合成的更高一級階段,和自然語言理解更是密不可分。
隨著Internet迅速擴張,大量的信息猶如潮水般涌來,現階段信息的主要載體仍然是自然語言,人們渴望發展自然語言信息處理技術以實現文本自動分類、文獻檢索、信息提取、語言翻譯、自動文摘、自動勘校等。自然語言理解的任務是建立一種計算模型,這種計算模型能夠像人那樣理解自然語言,并建立模擬人腦語言感知過程的理論模式。為了使智能通信終端能夠做到口語理解和文字理解并及時作出響應,必須做到語法與語義相結合,深入研究并解決有關知識(特別是模糊知識)的表達與利用的問題。人機對話、機器翻譯、電話翻譯、智能檢索、自動摘要等都與自然語言理解的突破密切相關。自然語言理解在智能通信終端中的應用還包括:自然語言查詢處理提供各種類型的相似性匹配、或然性匹配,并返回按等級排列的檢索結果;矯正利用語音識別自動生成的腳本中的錯誤;影像標題生成和摘要創建(如略覽版的生成)等等。
幾十年來自然語言理解的發展主要圍繞著自然語言的表達和處理模式,以及自然語言知識的表示、獲取和學習,但是一直沒有取得重大的突破。傳統的基于文法規則的句法和語義分析方法在領域和詞匯量受限的自然語言理解上取得了相當的成功,但很難實用于對不受限制的語句的理解。這是因為自然語言的各種語言現象無法用有限的規則來表述。而采用統計的方法,即通過對大量的語料統計來實現自然語言理解的方法,如二元語言模型、三元語言模型等非常實用,是目前語音識別和語音合成中的主流方法(雖然它不是建立在自然語言理解的基礎上)。自然語言理解是當今最富有挑戰性的技術之一。
4 智能終端與語音門戶
4.1 簡介
在當今飛速發展的信息社會,移動與互聯已經成為不可阻擋的潮流,越來越多的人們要通過網絡來優化自己的生活。
然而,人們在通過計算機上網的同時,也越來越感到這種方式受到時間、地點等諸多因素限制,很難做到信息的及時獲取。人們希望通過隨處可見的通信終端得到自己所需要的信息。目前,像160等傳統的聲訊服務臺,采用話務員人工提供信息服務的方式,不僅成本昂貴,而且由于工作繁重容易導致接聽人員服務水平下降。而通過如168等自動聲訊服務方式,雖然也可以獲取一些信息,但是由于很多信息無法用按鍵輸入表示,因而許多具體的應用不是難以實現,就是在實現時由于多級菜單過于繁瑣使用戶感到不便。而繁多的聲訊臺號碼也讓使用者在急需服務時,往往一時找不到所需的號碼。
由于以上原因,人們越來越希望可以通過移動電話等通信終端設備來實現快速便捷的交流,即通過移動電話等通信終端設備接入網絡并操縱遠程的信息源以得到信息或進行電子化交易。交談式語言是人類最自然的交流方式,通過語音進行瀏覽和接入互聯網一直是人類的追求目標。目前,采用撥號接入網絡的過程通常需耗時數十秒,而通過語音接入所需的時間只有短短幾秒,因而通過語音界面,無疑將大大提高接入速度。另外,這種語音技術將令使用者無論在何時、何地,都可以利用手中的通信終端設備輕松接入網絡,得到所需信息或購買商品及服務。更重要的是,這種方式將大大提高商業自動化程度,降低企業的運營成本,改善服務質量,使商務活動更加便捷。
語音門戶(voice portal)的出現,滿足了人們這些需要,為互聯網詮釋出全新的涵義。語音門戶是指基于互聯網平臺,應用語音識別、合成和轉換技術,為固定電話和移動電話用戶提供用語音訪問互聯網并獲取網上信息的門戶,這也是全球互聯網發展的一個最新趨勢。語音門戶融合了語音、CTI、Web、電信、計算機及網絡等技術,構筑出了新一代的語音上網平臺,將使更多的用戶能夠通過各類通信終端快速接入互聯網,為企業帶來新的業務增長點。從技術的角度看,近幾年來,隨著自動語音識別(ASR)、文本轉語音(TTS)、口語對話等人機交互技術、信息處理技術的發展,以及像語音瀏覽器、嵌入式語音瀏覽器等Voice Web技術的成熟,再加上移動用戶終端種類與功能的快速增加,使基于語音的互聯網門戶——“語音門戶”在通信終端中的應用有了可靠保證。
4.2分布式語音處理
4.2.1 分布式語音識別
在智能通信終端中,語音識別的首要目標是使我們所有人不用敲擊或遠離鍵盤即可輕松訪問大部分計算機服務和通信系統。分布語音識別(DSR)技術采用客戶機/服務器方法,整個處理過程分布于終端(如手機)和網絡的兩端。終端執行語音特征參數提取任務,是語音識別系統的前端。提取的特征參數通過數據信道傳輸至遠程的后端識別器。這樣,傳輸信道不影響識別系統性能,信道不變性的目的得以實現。
因特網上的分布式語音識別是由呼叫中心發展而來,現在正走向提供基于因特網的服務,分布式語音識別技術已經在基于包交換的 VoIP 網絡進行了測試。
4.2.2分布式語音合成
在基于網絡應用特別是客戶機/服務器典型模式下,終端的輕量級實現與服務端的高質量、重量級實現之間必然存在矛盾,加上信道、處理資源與用戶體驗等多方面的綜合影響,語音合成的分布式實現把傳統TTS的處理環節分解成為了標準化的實現模塊:文本分析模塊、語音合成模塊。文本分析模塊涉及詞典、分詞、各種語言學處理,都要占用較大的資源,因此可以放在服務器端實現,即經過處理后形成音韻序列再傳送到終端上去;語音合成模塊則可以放在終端上實現。由于音韻序列基本上由符號數據組成,與直接傳送文本數據占用的信道帶寬差不多,不影響傳輸性能,但卻使終端擺脫了文本分析的壓力,降低了成本。當然標記語言和數據傳送的格式必須標準化,才能得到推廣。
4.3 語音瀏覽器
語音瀏覽器(Voice Browser)相當于IE或是Netscape Navigator,不同的是它是通過語音的方式瀏覽VXML內容(VXML即Voice XML是基于XML國際標準的語音可擴展標識語言,它像HTML定義圖形化網頁界面一樣定義了語音界面),并且通過Transcoder服務器還可以直接瀏覽網上HTML格式的內容。它主要包括Voice XML服務器、電話語音接入服務器、TTS/ASR資源服務器、Transcoder服務器。Voice XML服務器運行Voice XML解釋器與對話管理器,按照VXML頁面提供的內容控制語音及電話資源,和用戶完成交互。這些資源包括語音識別、語音合成、音頻錄音、按鍵音以及電話網絡接口。呼叫者一般通過公眾交換電話網(PSTN)與Voice XML服務器交互,也可以通過其他網如PBX或VoIP信息包與Voice XML服務器交互。Transcoder服務器主要負責將Internet上其他標記語言內容轉換為VXML頁面內容,使得用戶通過電話訪問普通Web站點得以實現。語音瀏覽器(Voice Browser)的概念即是希望使普通電話作為瀏覽器終端,通過自然語言交互的方式取得相關的定制信息服務或Internet上發布的Web信息內容。通過電話終端與服務器端的語音接入、ASR/TTS、VXML 服務器以及各種Transcoder,構成了相當于IE的瀏覽器,是實現語音上網工程的核心組成部分。
因為人們從小到大都是用語言進行交流,所以語音接口是一個非常自然的人機交互接口。現在人們使用固定電話和蜂窩電話時并沒有用上Voice Browser技術。一些Voice Browser設備可能有小屏幕,像移動電話和掌上電腦那樣。但是在那樣小的屏幕上用鍵盤輸入不是一件令人愉快的事情。同樣在那樣小的屏幕上閱讀信息也不是一件輕松的事情。這時Voice Browser就體現出了它的優越性。
現在人們上網主要通過臺式計算機和手提電腦來上網,雖然有了WAP協議,手機也可以上網瀏覽,但是很不方便。另外現在上網還需要計算機知識,對于發展中國家的大多數人來說,門檻過高。而應用Voice Browser可以使我們輕松地用各種設備如電話、電視等一切電子或電氣設備走進互聯網。在將來,Voice Browser還可以支持其他的模式和媒體,例如用筆、圖像和傳感器作為輸入,用活動圖像和激勵控制作為輸出。語音和筆輸入可能適合我們亞洲用戶,因為我們所說的語言并不是與QWERTY鍵盤一致的。一些Voice Browser也是便攜的,這樣他們可以在家、辦公室、路上等任何地方使用,所以網上信息對許多聽眾來說是隨時可得的,特別是對那些有電話或移動電話的用戶更是如此。語音瀏覽器(Voice Browser)同時可為盲人或需要訪問Web但是手和眼睛卻要干其他事情的用戶提供方便的實用接口,可使盲人用戶獲得和正常人一樣的工作空間。
同時語音瀏覽器可以跨越各種平臺,像電腦、電視、電話(包括移動電話)等,使人們可以隨時隨地獲取所要的網上信息,并用語音表達出來。隨著其中各項技術的發展、成熟和完善,這個市場將會迅速發展起來。
4.4嵌入式語音瀏覽器
除了傳統固定電話用戶,迅速增長的移動電話用戶是系統的另一大用戶資源,因為,隨著終端處理能力的加強,完全在終端的嵌入式語音瀏覽器和終端/服務端協同的分布式語音瀏覽器也將成為智能通信終端的一個重要組成部分。
嵌入式語音瀏覽器支持HTTP或者WAP等其他傳輸協議,支持HTML、JavaScript、擴展XML、Voice XML等標記語言,可以完成網頁的瀏覽功能;語音嵌入式瀏覽器適合在非PC的嵌入式信息設備中存在,運行并完整實現通信傳輸協議、標記語言所規定的功能,能夠根據嵌入式設備的多樣性需要而方便地進行裁減和修改,并滿足信息設備使用者對獲取文字、圖像、聲音、視頻等信息的需求。語音嵌入式瀏覽器可以廣泛應用到各種非PC設備或通信終端,如電視上的機頂盒、互聯網電視(iDVD、iSVCD、iVCD)、交互式數字電視、手持上網設備(移動電話、掌上電腦、個人數字助理等)、互聯網電話、網絡終端、網絡游戲終端、電子圖書閱讀器、公共信息查詢系統、汽車電子信息查詢系統、飛機電子信息服務系統等,賦予了這些終端設備上網和豐富的信息交互功能。(續完)
作者簡介
王仁華,中國科學技術大學電子工程與信息科學系教授、博士生導師,中國通信學會會士、理事,中國科大訊飛信息科技有限公司董事長。主要從事數字信號處理、語音通信、多媒體通信等方面的研究。