王大鵬
(渤海大學大學外語教研部, 遼寧錦州 121013)
計算機語料庫建設是自然語言處理領域的核心基礎工作,在機器翻譯、人機對話、信息提取、語言學研究、自動語音識別和人工智能等諸多方面起著重要作用,是一門將語言和計算機融合在一起的交叉學科。隨著計算機技術的日新月異,語料庫的建設模式也從純文本的單一模式逐步過渡到可以融合圖片、語音和圖像的多模態模式。在GPS全球定位技術商用和民用的今天,基于GPS的車載語音自動導航系統的研究對于汽車未來的發展有著不可估量的影響,未來的汽車可以通過人類語音指令自動駕駛、電腦自動選擇最佳行進路線。因此,語音導航系統的語音語料庫建設是一項重要的基礎任務,它涉及到多模態語料庫的設計和構建。
語料庫是按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的語言運用文本或話語片段來建立。從其本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用總體(馮志偉,2008)。現階段的語料庫指的都是基于計算機處理或研究語言的方式。完整意義上、初具規模的計算機語料庫最早可以追溯到20世紀60、70年代,典型的實例是Brown、LOB、SSE、LLC等;80年代至今語料庫的發展有海量化的趨勢,如:Cobuild、Bank of English、BNC、COCA等。但不管語料庫規模如何擴大,從媒介上看本質上都是純文本的語料庫;只是語料庫的文本存儲格式從TXT轉變為XML。但隨著時代和科技的發展,單一純文本的語料庫已經不適用于研究和學習的需要;超越純文本的語音和視頻語料庫是時代發展的必然產物。多模態語料庫可以包括文字、聲音和圖像等多種媒介,全方位表現語言的多種特性。語音語料庫中的主體媒介是音頻,因此對聲音的搜集、處理、分類、標注和存儲是語音語料庫需要研究和解決的問題。語音語料庫可以為語音導航系統提供實驗語料,是語音識別與合成技術的基礎性研究。隨著語料庫語音學與韻律學的發展和波形拼接技術的成熟,語音語料庫的發展也進入了相對成熟期。語音導航系統的開發和研制是科技發展的必然產物,具有人工智能的特色;其與GPS定位技術的結合,使其成為車載定位系統的最佳載體。
基于GPS的車載導航儀是汽車上的必備裝置,它可幫助司機辨別方向,選擇最佳行進路線;但目前的車載導航儀大多是通過點擊電子地圖或手寫進行操作,這樣無形中增加了操作的繁瑣性,為行車帶來安全隱患。因此,可以識別語音指令的車載語音自動導航系統的研發就成為時代發展的必然。語料庫的設計原則是語料要具有代表性,加之音頻資源較為占用空間,因此車載語音語料庫的語音錄入源均為地理方位名詞和行車指令等專門用途詞匯,盡可能減少無關信息的錄入。用盡可能少的語音語料覆蓋即盡可能多的語音現象,充分利用語音識別和語音合成技術。語音語料庫采用SQL Server 2005數據庫、C/S模式,基本平臺為.NET。為了兼顧語音指令實時聯網查詢數據,語音的錄入和輸出均采用適用DSP芯片的語音壓縮技術。語音的描述采用三音子模型為基本單位描述連續語音,這樣可更好的兼容其它語音源。具體的設計環節包括原始語料的搜集、錄音模塊和數據庫維護的設計、語音語料的標注和后期語音壓縮。本套語音語料庫采用開放動態語料庫的建設理念,實時交互、更新是本套語音語料庫的核心思路。本套語料庫系統不僅可以讀取語音語料,還可根據漢字文本自動機讀語音以及完成用戶語音的更新錄入。因此,本套語料庫同時也開發語料庫前臺的語音輸入和輸出技術。
語音語料庫是語音數據及其標注的集合。漢語語音語料庫近年來是我國語料庫研究的熱點,大規模語音語料庫的一個直接應用是文語轉換系統或TTS(Text to Speech), 它是利用計算機等平臺將文本信息轉變為音頻數據,以語音的方式播放出來的技術(章森,2010)。語料搜集范圍如谷歌地圖,凱立德導航地圖和用戶汽車指令等。首先采用中科院漢語分詞軟件ICTCLAS對文本進行分詞處理;然后采用TTSUU (Text to Speech Universal Utility)將文本內容轉換為語音文件,所有語音文件都要進行人工校驗并進行壓縮存儲。語音語料庫要想進行檢索和批量分類等操作,需要對語料庫進行基本的語音標注。

圖1:C-ToBI韻律標注層級

圖2:本套語音語料庫的總體設計框架
語音語料庫的語音標注是最重要的核心環節,漢語語音語料庫的標注可以采用中國社會科學院研究所的C-ToBI(Tones and Break Indices)韻律標注軟件進行標注。它兼容各種語言理論機制,機器可讀性好,有詳細的標注向導。它適用于朗讀語音語料庫,較之荷蘭阿姆斯特朗大學開發的Praat語音標注軟件更適合用來標注普通話。它對普通話的韻律標注共分為8層:音段標注層、聲韻層、間斷指數層、重音指數層、語句功能層、雜類層、話論層和口音層(鄒法欣,2012)(圖1)。其中口音層的設計使得這一程序更適合用于讀取和標注普通人的話語信息。標注完畢后,標注文件和語音文件需要進行對齊處理和人工校驗來完成最終環節。
語音數據的管理采用SQL Server 2005數據庫、C/S模式,基本平臺為.NET。為了實現語音數據的便捷瀏覽和用語音訪問互聯網,如用手機訪問語音導航網站,可將此語音語料庫在線化,所有數據上傳云端。語音網站設計采用JSP和VoiceXML,基本框架為B/S。VoiceXML是建立在XML規范基礎之上,用于語音瀏覽的標記語言,是語音瀏覽技術和語音互聯網的核心。VoiceXML與其數據集成模型,是本課題設計的又一個核心環節。它由語音識別與合成、語音瀏覽程序和VoiceXML網關等若干部分組成。為了便于管理,我們設計了結合語音的圖形用戶界面(GUI/S),使語音語料庫的瀏覽和管理更加清晰明了。語音語料庫的建設為語音自動導航系統的開發提供了必要的參照和技術支持,同時將語音語料庫在線化共享可以減少同行重復建設。云端語音語料庫網站的設立,可以降低移動設備訪問的硬件門檻。本研究中語音語料庫的總體設計思路、必備條件、采用的計算機技術、項目目標和難點思維導圖如下(圖2)。
車載語音自動導航系統的開發涉及GPS定位技術、電子地圖語音讀取、語音識別、語音指令處理和語音語料庫建設等多項自然語言處理領域核心技術。語音語料庫的建立可以為車載語音自動導航系統提供語音支持,可避免同類研究重復性建設;同時也為多模態語料庫的建設積累了重要經驗。但研究中也存在技術難點和尚需改進的地方,如:如何提高語音語料庫的標注規范和精度,如何將語音語料庫和其他更多平臺對接,如何改善語音讀取的自然度和合成問題。總體而言,多模態語料庫是時代發展的必然產物,其應用于語言學習和教學、服務于人類民生和人工智能領域是大勢所趨。
[1] 馮志偉. 序言 語料庫語言學的進展 [Z]. 2009:d9.
[2] 章森,劉磊,刁麓弘. 大規模語音語料庫及其在TTS 中應用的幾個問題[J]. 計算機學報,2010(4):687-696.
[3] 鄒法欣. 語音語料庫的設計與實現[D]. 桂林:廣西師范大學,2012