999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

車載語音導航系統的語音語料庫構建探究

2013-09-14 08:07:02王大鵬
電子測試 2013年6期
關鍵詞:文本

王大鵬

(渤海大學大學外語教研部, 遼寧錦州 121013)

0 引言

計算機語料庫建設是自然語言處理領域的核心基礎工作,在機器翻譯、人機對話、信息提取、語言學研究、自動語音識別和人工智能等諸多方面起著重要作用,是一門將語言和計算機融合在一起的交叉學科。隨著計算機技術的日新月異,語料庫的建設模式也從純文本的單一模式逐步過渡到可以融合圖片、語音和圖像的多模態模式。在GPS全球定位技術商用和民用的今天,基于GPS的車載語音自動導航系統的研究對于汽車未來的發展有著不可估量的影響,未來的汽車可以通過人類語音指令自動駕駛、電腦自動選擇最佳行進路線。因此,語音導航系統的語音語料庫建設是一項重要的基礎任務,它涉及到多模態語料庫的設計和構建。

1 語音語料庫與語音導航系統

語料庫是按照一定的語言學原則,運用隨機抽樣方法,收集自然出現的語言運用文本或話語片段來建立。從其本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用總體(馮志偉,2008)。現階段的語料庫指的都是基于計算機處理或研究語言的方式。完整意義上、初具規模的計算機語料庫最早可以追溯到20世紀60、70年代,典型的實例是Brown、LOB、SSE、LLC等;80年代至今語料庫的發展有海量化的趨勢,如:Cobuild、Bank of English、BNC、COCA等。但不管語料庫規模如何擴大,從媒介上看本質上都是純文本的語料庫;只是語料庫的文本存儲格式從TXT轉變為XML。但隨著時代和科技的發展,單一純文本的語料庫已經不適用于研究和學習的需要;超越純文本的語音和視頻語料庫是時代發展的必然產物。多模態語料庫可以包括文字、聲音和圖像等多種媒介,全方位表現語言的多種特性。語音語料庫中的主體媒介是音頻,因此對聲音的搜集、處理、分類、標注和存儲是語音語料庫需要研究和解決的問題。語音語料庫可以為語音導航系統提供實驗語料,是語音識別與合成技術的基礎性研究。隨著語料庫語音學與韻律學的發展和波形拼接技術的成熟,語音語料庫的發展也進入了相對成熟期。語音導航系統的開發和研制是科技發展的必然產物,具有人工智能的特色;其與GPS定位技術的結合,使其成為車載定位系統的最佳載體。

2 語音語料庫的設計原則

基于GPS的車載導航儀是汽車上的必備裝置,它可幫助司機辨別方向,選擇最佳行進路線;但目前的車載導航儀大多是通過點擊電子地圖或手寫進行操作,這樣無形中增加了操作的繁瑣性,為行車帶來安全隱患。因此,可以識別語音指令的車載語音自動導航系統的研發就成為時代發展的必然。語料庫的設計原則是語料要具有代表性,加之音頻資源較為占用空間,因此車載語音語料庫的語音錄入源均為地理方位名詞和行車指令等專門用途詞匯,盡可能減少無關信息的錄入。用盡可能少的語音語料覆蓋即盡可能多的語音現象,充分利用語音識別和語音合成技術。語音語料庫采用SQL Server 2005數據庫、C/S模式,基本平臺為.NET。為了兼顧語音指令實時聯網查詢數據,語音的錄入和輸出均采用適用DSP芯片的語音壓縮技術。語音的描述采用三音子模型為基本單位描述連續語音,這樣可更好的兼容其它語音源。具體的設計環節包括原始語料的搜集、錄音模塊和數據庫維護的設計、語音語料的標注和后期語音壓縮。本套語音語料庫采用開放動態語料庫的建設理念,實時交互、更新是本套語音語料庫的核心思路。本套語料庫系統不僅可以讀取語音語料,還可根據漢字文本自動機讀語音以及完成用戶語音的更新錄入。因此,本套語料庫同時也開發語料庫前臺的語音輸入和輸出技術。

3 語音語料庫的具體構建步驟

語音語料庫是語音數據及其標注的集合。漢語語音語料庫近年來是我國語料庫研究的熱點,大規模語音語料庫的一個直接應用是文語轉換系統或TTS(Text to Speech), 它是利用計算機等平臺將文本信息轉變為音頻數據,以語音的方式播放出來的技術(章森,2010)。語料搜集范圍如谷歌地圖,凱立德導航地圖和用戶汽車指令等。首先采用中科院漢語分詞軟件ICTCLAS對文本進行分詞處理;然后采用TTSUU (Text to Speech Universal Utility)將文本內容轉換為語音文件,所有語音文件都要進行人工校驗并進行壓縮存儲。語音語料庫要想進行檢索和批量分類等操作,需要對語料庫進行基本的語音標注。

圖1:C-ToBI韻律標注層級

圖2:本套語音語料庫的總體設計框架

語音語料庫的語音標注是最重要的核心環節,漢語語音語料庫的標注可以采用中國社會科學院研究所的C-ToBI(Tones and Break Indices)韻律標注軟件進行標注。它兼容各種語言理論機制,機器可讀性好,有詳細的標注向導。它適用于朗讀語音語料庫,較之荷蘭阿姆斯特朗大學開發的Praat語音標注軟件更適合用來標注普通話。它對普通話的韻律標注共分為8層:音段標注層、聲韻層、間斷指數層、重音指數層、語句功能層、雜類層、話論層和口音層(鄒法欣,2012)(圖1)。其中口音層的設計使得這一程序更適合用于讀取和標注普通人的話語信息。標注完畢后,標注文件和語音文件需要進行對齊處理和人工校驗來完成最終環節。

語音數據的管理采用SQL Server 2005數據庫、C/S模式,基本平臺為.NET。為了實現語音數據的便捷瀏覽和用語音訪問互聯網,如用手機訪問語音導航網站,可將此語音語料庫在線化,所有數據上傳云端。語音網站設計采用JSP和VoiceXML,基本框架為B/S。VoiceXML是建立在XML規范基礎之上,用于語音瀏覽的標記語言,是語音瀏覽技術和語音互聯網的核心。VoiceXML與其數據集成模型,是本課題設計的又一個核心環節。它由語音識別與合成、語音瀏覽程序和VoiceXML網關等若干部分組成。為了便于管理,我們設計了結合語音的圖形用戶界面(GUI/S),使語音語料庫的瀏覽和管理更加清晰明了。語音語料庫的建設為語音自動導航系統的開發提供了必要的參照和技術支持,同時將語音語料庫在線化共享可以減少同行重復建設。云端語音語料庫網站的設立,可以降低移動設備訪問的硬件門檻。本研究中語音語料庫的總體設計思路、必備條件、采用的計算機技術、項目目標和難點思維導圖如下(圖2)。

4 結語

車載語音自動導航系統的開發涉及GPS定位技術、電子地圖語音讀取、語音識別、語音指令處理和語音語料庫建設等多項自然語言處理領域核心技術。語音語料庫的建立可以為車載語音自動導航系統提供語音支持,可避免同類研究重復性建設;同時也為多模態語料庫的建設積累了重要經驗。但研究中也存在技術難點和尚需改進的地方,如:如何提高語音語料庫的標注規范和精度,如何將語音語料庫和其他更多平臺對接,如何改善語音讀取的自然度和合成問題。總體而言,多模態語料庫是時代發展的必然產物,其應用于語言學習和教學、服務于人類民生和人工智能領域是大勢所趨。

[1] 馮志偉. 序言 語料庫語言學的進展 [Z]. 2009:d9.

[2] 章森,劉磊,刁麓弘. 大規模語音語料庫及其在TTS 中應用的幾個問題[J]. 計算機學報,2010(4):687-696.

[3] 鄒法欣. 語音語料庫的設計與實現[D]. 桂林:廣西師范大學,2012

猜你喜歡
文本
文本聯讀學概括 細致觀察促寫作
重點:論述類文本閱讀
重點:實用類文本閱讀
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
作為“文本鏈”的元電影
藝術評論(2020年3期)2020-02-06 06:29:22
在808DA上文本顯示的改善
“文化傳承與理解”離不開對具體文本的解讀與把握
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
從背景出發還是從文本出發
語文知識(2015年11期)2015-02-28 22:01:59
主站蜘蛛池模板: 国产白浆视频| 美女高潮全身流白浆福利区| 国产精品亚洲五月天高清| 大学生久久香蕉国产线观看| 尤物国产在线| 国产久操视频| a网站在线观看| 黄色在线不卡| 久久免费视频6| 久久久久久尹人网香蕉| a级毛片网| 国产一级视频在线观看网站| 国产精品观看视频免费完整版| 亚洲日韩精品伊甸| 国产乱子精品一区二区在线观看| 国产男女免费视频| 一级毛片在线播放| 成人蜜桃网| 中文字幕免费播放| 国产一区成人| 在线无码av一区二区三区| 欧美精品啪啪一区二区三区| 精品一区二区无码av| 日韩无码黄色网站| 欧美专区在线观看| 免费在线视频a| 国产一区二区人大臿蕉香蕉| 天天色天天综合| 国产精品妖精视频| 日韩欧美中文| 久久久久亚洲精品成人网| 无码视频国产精品一区二区| 尤物在线观看乱码| 2018日日摸夜夜添狠狠躁| 亚欧美国产综合| 97精品国产高清久久久久蜜芽| 欧美成人午夜视频免看| 天天摸夜夜操| 国产高颜值露脸在线观看| 亚洲成a人在线观看| 东京热av无码电影一区二区| 欧美成人免费一区在线播放| 国产高清毛片| 日韩a在线观看免费观看| 国产精品亚洲片在线va| 99免费视频观看| 免费不卡视频| 亚洲欧美在线综合一区二区三区| 亚洲中文久久精品无玛| 国产在线观看一区精品| 91精品视频网站| 亚洲欧美成aⅴ人在线观看 | 51国产偷自视频区视频手机观看| 久久久四虎成人永久免费网站| 国产成人91精品| 成年女人a毛片免费视频| 91无码人妻精品一区| 国产人成午夜免费看| 国产第一页免费浮力影院| 日韩美毛片| 国产裸舞福利在线视频合集| 国产精品一老牛影视频| 久久精品这里只有精99品| 国产精品第页| 国产成人在线小视频| 天天色天天操综合网| 日本草草视频在线观看| 老司机午夜精品网站在线观看| 欧美啪啪视频免码| 欧美国产日韩在线| 国产精品久久久久鬼色| 亚洲三级成人| 四虎精品黑人视频| 日本久久久久久免费网络| 色老二精品视频在线观看| 国产99热| 重口调教一区二区视频| 呦女亚洲一区精品| 狠狠干欧美| 激情无码视频在线看| 国产欧美日韩专区发布| 亚洲a级在线观看|