文|王可佳 徐東健
語音識別是一種讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)槲谋净蛎畹母呒壖夹g(shù),涉及到生理學(xué)、心理學(xué)、語言學(xué)、計算機科學(xué)以及信號處理等諸多領(lǐng)域。近年來語音識別在視頻領(lǐng)域出現(xiàn)了很多應(yīng)用,如音字轉(zhuǎn)寫、固定音頻檢索、語種識別、音頻特征提取、關(guān)鍵詞檢索等等。應(yīng)用自動語音識別技術(shù),將大大提高效率并大幅降低成本。語音識別作為一門交叉學(xué)科,經(jīng)過多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術(shù)取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術(shù)將應(yīng)用更為廣泛。
新華社在戰(zhàn)略轉(zhuǎn)型以及大力發(fā)展全媒體市場的背景之下,擁有豐富的多媒體及視音頻資源,這些零散的資源只有基本的視音頻文件信息,以及編輯進行編目錄入的項目作為元數(shù)據(jù)描述。在浪費了大量的人力資源的同時,從視音頻文件中獲取的只是極其有限的信息。為了深度分析視音頻內(nèi)容,進一步挖掘媒體資產(chǎn)所蘊含的信息,并且充分利用其所含的價值,我們需要引入語音識別技術(shù),在流程中對稿件內(nèi)容進行進一步處理分析,從而做到節(jié)省人力成本,深度剖析視音頻內(nèi)容,實現(xiàn)新華社媒體資產(chǎn)價值的最大化。
語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個多世紀的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術(shù)慢慢地從實驗室演示系統(tǒng)逐步走向?qū)嵱没唐贰?/p>
1952年貝爾研究所Davis等人研究成功了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研究成功了第一個計算機語音識別系統(tǒng)。大規(guī)模的語音識別研究是在進入了70年代以后,在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展。進入80年代以后,研究的重點逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標準模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計模型 (HMM)的技術(shù)思路。1987年起,日本又擬出新的國家項目——高級人機口語接口和自動電話翻譯系統(tǒng)。進入90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進展。2000年及之后,語音識別無論在系統(tǒng)框架還是在應(yīng)用模式上都有了突出的進展,現(xiàn)在國外語音識別技術(shù)的準確率和效率都有了大幅度的提升,已經(jīng)成為人工智能領(lǐng)域成熟的應(yīng)用之一,并且進一步和云計算平臺結(jié)合在一起,對外提供高效可用的服務(wù)。
中國的語音識別研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。直至1973年才由中國科學(xué)院聲學(xué)所開始計算機語音識別。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。進入80年代以后,隨著計算機應(yīng)用技術(shù)在中國逐漸普及和應(yīng)用以及數(shù)字信號技術(shù)的進一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件。與此同時,國際上語音識別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點,發(fā)展迅速。就在這種形式下,國內(nèi)許多單位紛紛投入到這項研究工作中去。1986年3月中國高科技發(fā)展計劃(863計劃)啟動,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在863計劃的支持下,中國開始了有組織的語音識別技術(shù)的研究,并決定了每隔兩年召開一次語音識別的專題會議。從此中國的語音識別技術(shù)進入了一個前所未有的發(fā)展階段。中文因其具有的獨特性和語義特點,令中國的企業(yè)機構(gòu)在研究和發(fā)展中文相關(guān)識別技術(shù)時具有與生俱來的優(yōu)勢。這也就是目前國內(nèi)主要市場仍被本土企業(yè)和研究機構(gòu)所占領(lǐng)的原因。
近年來隨著計算機技術(shù)和互聯(lián)網(wǎng)應(yīng)用的不斷發(fā)展,信息技術(shù)產(chǎn)業(yè)正逐步整合資源,進入云計算平臺的初級發(fā)展時代。
語音識別技術(shù)作為人工智能中的一項重點和基礎(chǔ)應(yīng)用,已經(jīng)和視音頻技術(shù)、新媒體應(yīng)用、移動終端應(yīng)用等運用模式緊密結(jié)合起來。在模式提取以及模式匹配的過程中,需要耗費大量的物理存儲和數(shù)據(jù)運算資源,因需求導(dǎo)致的將存儲和運算資源整合起來提供對外接口服務(wù)的業(yè)務(wù)形式也就越發(fā)普遍起來。如siri、科大訊飛等等都是利用云計算平臺提供語音查詢、識別、轉(zhuǎn)寫等基本服務(wù),讓語音識別技術(shù)可以不再只是神秘的高科技,而是真正透過網(wǎng)絡(luò)和云計算平臺深入普通人生活的基礎(chǔ)服務(wù)。
智能語音行業(yè)因為核心技術(shù)的緣故具有很高的行業(yè)技術(shù)壁壘,在全球范圍內(nèi),只有少數(shù)的企業(yè)具有競爭實力,在國外,有Nuance、蘋果、Google等;在國內(nèi),有科大訊飛、凌聲芯、思必馳、捷通華聲等。
國外語音市場主要以語音識別為主,具有代表性的產(chǎn)品有Nuance的Dragon Dictation,蘋果新推出的Siri;而在國內(nèi),語音市場主要以語音合成為主,其中科大訊飛及捷通華聲基本占領(lǐng)了語音合成市場。但隨著世界范圍內(nèi),越來越多的語音識別軟件的涌現(xiàn),如語音類搜索應(yīng)用Dragon Search、語音類聽寫功能整合軟件訊飛口訊、語音類音樂軟件Shazam、口語在線學(xué)習(xí)平臺思必馳AIChinese,以及語音控制軟件Siri等,語音識別勢必會成為智能語音市場的主流。
目前,全球語音技術(shù)市場規(guī)模超過30億美元,近年來年增長率保持在25%以上,未來語音識別市場被看好,其中電信行業(yè),移動應(yīng)用領(lǐng)域,都會呈現(xiàn)出爆發(fā)式增長。
在語音識別的基礎(chǔ)應(yīng)用當中,我們按照業(yè)務(wù)模式和運用情況將其主要劃分為以下的幾類應(yīng)用類型:
所謂語音識別類應(yīng)用,即純粹運用聲學(xué)特征提取和匹配的應(yīng)用類型。它的典型的應(yīng)用為說話人查詢、廣告播出監(jiān)控、非法語音信息過濾、聲紋密碼鎖等等。該項技術(shù)旨在提取檢測目標的聲學(xué)特征信息作為模式,通過搜索或監(jiān)控去進行聲學(xué)特征的模式匹配。只有在兩種聲學(xué)特征完全一致的時候,才認為匹配成功。在這種應(yīng)用模式下,程序不會進行語義分析,因為他只需要提取出聲學(xué)信息即可,而不需要了解這段語音背后的內(nèi)容含義。
我們運用語音識別技術(shù),除了對于固定模式音頻的聲學(xué)提取與匹配之外,更重要的是要將其作為人工智能的其中一個重要環(huán)節(jié),去減少不必要的人力成本,以及為人類提供更加方便的生活輔助。這樣的應(yīng)用場景之下,計算機對于語音中所蘊藏的語義內(nèi)容是如何把握的就成了關(guān)鍵。為了合成出高質(zhì)量的語言,除了依賴于各種規(guī)則,包括語義學(xué)規(guī)則、詞匯規(guī)則、語音學(xué)規(guī)則外,還必須對文字的內(nèi)容有很好的理解,這也涉及到自然語言理解的問題。音字轉(zhuǎn)換過程是先將文字序列轉(zhuǎn)換成音韻序列,再由系統(tǒng)根據(jù)音韻序列生成語音波形。因此一般說來,音字轉(zhuǎn)換系統(tǒng)都需要一套復(fù)雜的文字序列到音素序列的轉(zhuǎn)換程序,也就是說,不僅要應(yīng)用數(shù)字信號處理技術(shù),而且必須有大量的語言學(xué)知識的支持。這種情況之下,對核心技術(shù)的要求和應(yīng)用的復(fù)雜度都會提高很多,因此,這也被普遍認為是語音識別技術(shù)乃至于人工智能技術(shù)中最復(fù)雜的應(yīng)用模式之一。其典型應(yīng)用形式包括:音字轉(zhuǎn)寫、關(guān)鍵詞查詢、字幕抽取、語音文件智能關(guān)聯(lián)、語音合成等等。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動終端的普及,語音識別技術(shù)已經(jīng)被廣泛應(yīng)用于互聯(lián)網(wǎng)服務(wù)當中,現(xiàn)如今,各大門戶網(wǎng)站、搜索引擎、購物電商等紛紛提供了語音輸入搜索的服務(wù),用戶可以很方便地通過移動終端的mic進行關(guān)鍵詞輸入,免去了繁瑣的中文輸入環(huán)節(jié),為終端使用者提供了極大的方便。另外,隨著云計算平臺的興起以及計算存儲資源的深度整合,解決了單機版程序的規(guī)格要求和運行資源限制,使得利用云計算平臺提供大運算量的語音識別、搜索等服務(wù)成了廣泛的趨勢。
經(jīng)過近10年的數(shù)據(jù)建設(shè)和技術(shù)建設(shè),音像資料總量已達近80萬條,總時長5萬小時,新聞類音像資料量在行業(yè)內(nèi)處于領(lǐng)先地位。2008年后,隨著新華社戰(zhàn)略轉(zhuǎn)型工作的開展和不斷深入,我社視頻業(yè)務(wù)實現(xiàn)了跨越式發(fā)展,目前視頻節(jié)目制作量已是2008年之前的10倍以上。在這一發(fā)展過程中,音像資料庫對視頻業(yè)務(wù)的支撐與服務(wù)地位日益突出。據(jù)統(tǒng)計,2008年以來新華社各視頻業(yè)務(wù)對音像資料的需求呈現(xiàn)爆炸性增長,目前總出庫數(shù)量已接近15萬條,總出庫時長達1萬小時,音像資料庫的資料使用率在業(yè)界處于領(lǐng)先地位。2011年,我社已把視頻業(yè)務(wù)的發(fā)展方向逐漸從量的提升轉(zhuǎn)變到質(zhì)的提升,充分利用好我社已有的音像資源,也將成為提升我社節(jié)目質(zhì)量的有效途徑。
擁有如此豐富的視音頻資源,如何深度挖掘視音頻文件蘊含的各種信息,進一步提升資源的價值變成我們重要的工作之一。因此,視音頻系統(tǒng)需要引入語音識別技術(shù),作為自身平臺提供的基礎(chǔ)服務(wù)之一,對視音頻資源及其元數(shù)據(jù)信息進行進一步加工、提取與分析,實現(xiàn)智能而自動的后臺流程服務(wù)。
在視音頻系統(tǒng)中,為引入語音識別服務(wù),我們按照調(diào)研資料和測試數(shù)據(jù)進行了初步設(shè)計,提出了以下幾個應(yīng)用場景。
音頻特征提取是語音識別引擎最基礎(chǔ)的應(yīng)用之一,它可以對音頻數(shù)據(jù)進行處理,獲得采樣率、碼率、時長等一些基礎(chǔ)信息。并能夠進行進一步分析,得到例如有無旁白、背景音樂等等輔助信息,為編輯人員進行簡單編目和高級編目提供直觀參照,可以提升編輯人員的整體工作效率(見圖1)。
音頻特征提取可以提供以下服務(wù)功能:
★ 提取音頻文件基本信息,豐富元數(shù)據(jù)內(nèi)容
★ 提取音頻文件背景音信息,進行稿件進一步分類
★ 提取音頻文件人聲聲紋信息,進行固定人聲紋檢索
分析音頻數(shù)據(jù),從而進行簡單的語種判別,自動歸類,可以為編輯人員節(jié)省時間提高效率(見圖2)。
語種識別能提供以下服務(wù)功能:
★ 提取語種信息,豐富元數(shù)據(jù)內(nèi)容,節(jié)省人工開銷
★ 進行稿件自動語種分類,方便查詢

圖1

圖2
音像資料庫系統(tǒng)中在視頻資料入庫預(yù)處理環(huán)節(jié)中加入語音識別功能,提取語音字幕,能夠起到輔助全文檢索,支援瀏覽,節(jié)省編目人員錄入時間的三重效果,充分發(fā)揮視頻資料的價值(見圖3)。
字幕提取能為用戶提供以下的服務(wù)功能:
★ 音字轉(zhuǎn)寫,抽取文稿,作為進一步精編的參照,節(jié)約編目人的錄入時間
★ 對抽取的文稿內(nèi)容進行全文索引,提升簡單檢索的體驗
保存文稿和相對詞組出現(xiàn)的時間對照,為流媒體瀏覽提供字幕輔助,并能夠支援點擊關(guān)鍵詞的時碼跳轉(zhuǎn),方便用戶盡快定位到視頻中需要的部分。
系統(tǒng)利用語音識別的先進技術(shù),對資料庫里的稿件在一定相關(guān)度以內(nèi)進行近音提示和音頻關(guān)聯(lián)檢索。此項技術(shù)能夠在語音技術(shù)方面對檢索進行輔助,大幅提升用戶的瀏覽和檢索體驗(見圖4)。
為了實現(xiàn)以上的應(yīng)用場景,我們需要引入聲學(xué)模型、語言模型的智能庫,對聲學(xué)和語言的特征樣本、中間結(jié)果索引、語音識別任務(wù)調(diào)度等平臺進行管理和維護。

圖3

圖4
聲學(xué)智能庫是存儲有大量聲學(xué)特征及對其照語音信息的聲學(xué)智能模型庫,它按照固定標準對音頻信息進行采樣分析,提取特征和對照信息合入智能字典,是進行語音流、音頻文件等分析的基礎(chǔ)參照。語音識別分析的效率和準確率在很大程度上取決于聲學(xué)智能庫聲學(xué)模型的信息量、采樣標準、模型精準度等等。它是語音識別平臺最重要的組成部分。
聲學(xué)智能庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項,通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:
★ 語音模型建立、維護、選用、刪除。
★ 策略規(guī)則匹配
★ 模型參數(shù)設(shè)定
語言智能庫是存儲有大量語義分詞、語料分析等信息的智能語言模型庫,它對大量從歷史文本、時政新聞、網(wǎng)絡(luò)搜索等途徑獲得的語言文字進行切分、提取、分析和處理,從海量語料中獲得精煉的統(tǒng)計學(xué)模型。語言模型不止一個,對于不同領(lǐng)域使用不同內(nèi)容語料來源生成的語言模型,對于語音識別及語義分析準確度的提升有很大幫助。語言智能庫具有很好的擴展性,可以人為設(shè)置和導(dǎo)入新的規(guī)則、參數(shù)等信息,從達到到對語言模型的分析算法進行規(guī)范、調(diào)整、限制的目的。并且,對于不斷新加入的分析處理任務(wù)以及定期更新入庫的新增語料信息,語言智能庫會按規(guī)則抽取其中的有用部分,對統(tǒng)計模型進行更新和不斷完善。
語言智能庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項,通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:
★ 語言模型建立、分類、維護、選用、刪除。
★ 策略規(guī)則匹配
★ 模型參數(shù)設(shè)定
★ 語料信息分類導(dǎo)入,可設(shè)手工導(dǎo)入或定時自動導(dǎo)入策略
★ 語言模型再訓(xùn)練,可設(shè)定手動模式或自學(xué)習(xí)模式
音頻信息經(jīng)過語音識別處理之后,所產(chǎn)生的中間結(jié)果會以特征的形式存在索引信息當中。索引信息的存在,可以加速上層應(yīng)用交付的檢索、識別等任務(wù),提升分析、處理服務(wù)的效率。對索引信息進行統(tǒng)一管理,定期整理,批量進行更新、刪除,可以維護整個語音識別平臺的信息完整性,避免產(chǎn)生性能瓶頸,平衡系統(tǒng)開銷,為上層應(yīng)用提供最優(yōu)策略的服務(wù)。索引文件可以以文件或其他形式進行存儲。在提升效率的同時,它也可以視為是一份廉價的冗余信息,一旦產(chǎn)生數(shù)據(jù)丟失,可以通過定期或人工再掃描分析的方法進行重建。
索引庫管理相關(guān)操作于web管理界面上呈現(xiàn)選項,通過上層應(yīng)用邏輯選擇去調(diào)用平臺底層封裝的API接口,主要功能包括:
★ 索引策略指定,設(shè)定需要進行索引的內(nèi)容、操作以及保存形式。
★ 索引批量重建:可進行手工重建或自動定時重建。
★ 索引定期刪除:對已經(jīng)利用完畢的部分中間結(jié)果進行手動和自動刪除。
★ 索引文件導(dǎo)入導(dǎo)出:可以將索引庫中索引信息導(dǎo)出為文件形式進行備份,也在符合完整性約束的前提下,可將索引文件導(dǎo)入索引庫中進行恢復(fù)操作。
語音識別平臺對語音識別任務(wù)進行管理,并與服務(wù)集成總線進行對接,由服務(wù)集成總線負責(zé)對其任務(wù)進行統(tǒng)一資源分配、調(diào)度、處理。這樣的設(shè)計能夠減少系統(tǒng)冗余資源開銷、規(guī)避瓶頸,使語音識別進一步流程化自動化。在任務(wù)管理區(qū),也可以通過調(diào)用服務(wù)集成總線的接口對所有任務(wù)進行人工干預(yù)控制,主要功能包括:
★ 語音識別任務(wù)暫停、再運行
★ 任務(wù)停止、刪除
★ 任務(wù)優(yōu)先級設(shè)定
★ 出錯處理
★ 警告、任務(wù)運行信息記錄
★ 設(shè)置定時任務(wù)運行
語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個多世紀的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達到90%以上。正是有了如此高的識別率之后,語音識別技術(shù)慢慢地從實驗室演示系統(tǒng)逐步走向?qū)嵱没唐贰UZ音搜索技術(shù)正在逐漸成熟,擺脫噱頭的頭銜走向普及應(yīng)用。但是,語音識別技術(shù)目前仍然存在很多的困難和不足,有待于進一步的探索,具體可分為以下幾個方面:
語音識別系統(tǒng)的適應(yīng)性差,主要體現(xiàn)在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應(yīng),使用不方便。
高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應(yīng),必須尋找新的信號分析處理或者降噪預(yù)處理的方法。
語言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。
我們對人類的聽覺理解、知識積累和學(xué)習(xí)機制以及大腦神經(jīng)系統(tǒng)的控制機理等分面的認識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個艱難的過程。
語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關(guān)鍵詞(句)檢測技術(shù)等等技術(shù)細節(jié)要解決。■