郭晶晶

摘 要:在人工智能和語言智能化發(fā)展的大趨勢(shì)下,語音識(shí)別技術(shù)得到了廣泛的應(yīng)用,對(duì)人們生活所帶來了前所未有的便利。論文通過分析語音識(shí)別技術(shù)在當(dāng)今社會(huì)中的應(yīng)用領(lǐng)域,指出只有學(xué)好普通話才能享受科技發(fā)展帶來的生活便利。因此,有必要進(jìn)一步推廣和普及普通話教育。
關(guān)鍵詞:語音識(shí)別;語言智能化;普通話
中圖分類號(hào):H102 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-3866(2020)18-0179-02
語言是人類思維的工具,是重要的信息載體,是人類相互交流最有效的通信形式 [1]。普通話作為現(xiàn)代中國(guó)人的共同語言,在中國(guó)社會(huì)的現(xiàn)代化和智能化發(fā)展中起著不可忽視的作用。近年來,隨著人工智能技術(shù)的快速發(fā)展,語言智能化已廣泛應(yīng)用到了日常生活、社會(huì)生產(chǎn)、交通運(yùn)輸以及軍事領(lǐng)域中,極大地改變著人們的社會(huì)生活和交通出行方式。為了讓人們充分享受到科技發(fā)展所帶來的便利,在人工智能和語言智能化的發(fā)展大趨勢(shì)下,有必要進(jìn)一步推廣和普及普通話教育。
所謂語言智能化,是指運(yùn)用計(jì)算機(jī)信息技術(shù)模仿人類智能、分析和處理人類語言的過程,它是人工智能的核心部分以及人機(jī)交互認(rèn)知的重要基礎(chǔ)[2]。語言智能化主要包括機(jī)器翻譯技術(shù)、語音識(shí)別技術(shù)、語言理解技術(shù)、語言交互技術(shù)等。其中,語音是語言的聲學(xué)表現(xiàn),語音識(shí)別技術(shù)(ASR)是語言智能化的核心技術(shù),它能夠?qū)⑷说穆曇粜盘?hào)轉(zhuǎn)化為文字或者指令,并按照人的意愿執(zhí)行相應(yīng)操作,從而提高人們的工作效率。
在當(dāng)前社會(huì)中,作為語言智能化最核心體現(xiàn)的語音識(shí)別技術(shù),已經(jīng)在日常生活的方方面面得到應(yīng)用,在智能家居領(lǐng)域、在汽車智能化領(lǐng)域,以及交通運(yùn)輸領(lǐng)域等都發(fā)揮著極其重要的作用。它使人們對(duì)信息的獲取、處理更加快捷和方便,從而大幅提高人們的工作效率[3]。
一、語音識(shí)別技術(shù)在當(dāng)今社會(huì)中已經(jīng)廣泛應(yīng)用
(一)在智能家居中的應(yīng)用
語音識(shí)別技術(shù)作為語言智能化的主要體現(xiàn),在智能家居領(lǐng)域得到了廣泛的應(yīng)用。
在國(guó)外,世界三大IT巨頭(蘋果、谷歌、微軟)都開發(fā)了各自的智能語音識(shí)別產(chǎn)品。美國(guó)一家視聽公司就通過蘋果的Siri語音控制功能來控制家電產(chǎn)品,用戶可以通過語音來開啟燈光、調(diào)整燈光亮度、啟動(dòng)家庭劇院、控制空調(diào)、切換影音頻道等,讓家庭自動(dòng)化的功能往前邁進(jìn)了一大步。
在國(guó)內(nèi),基于普通話的智能語音識(shí)別和交互技術(shù)近年來也快速發(fā)展[4]。海爾公司推出了一個(gè)空調(diào)的語音遙控器,用戶對(duì)著它說話,即可進(jìn)行語音識(shí)別并對(duì)空調(diào)控制器發(fā)出指令,從而實(shí)現(xiàn)自動(dòng)開關(guān)機(jī)、溫度調(diào)節(jié)、柵格清洗、工作模式更換等操作,非常方便用戶的操作。
智能語音識(shí)別技術(shù)還應(yīng)用到了日常生活的許多方面,例如:家庭智能語音控制音箱-米“小愛”、智能語音控制洗碗機(jī)、智能語音控制坐便器等,都是通過普通話語音識(shí)別實(shí)現(xiàn)了設(shè)備操控和人機(jī)交互,極大地改變了人們的生活方式。
(二)在車載領(lǐng)域的應(yīng)用及發(fā)展
汽車是現(xiàn)代文明的一個(gè)標(biāo)志,是現(xiàn)代生活中不可缺少的重要組成部分。汽車的出現(xiàn)給人們的生活帶來的巨大變化,加快了人們社會(huì)生活的節(jié)奏和拓寬了生活半徑。人工智能技術(shù)的快速發(fā)展,智能語音識(shí)別技術(shù)也在汽車車載電話、導(dǎo)航、操控等方面得到廣泛應(yīng)用[5]。
科大訊飛是國(guó)內(nèi)比較有名氣的智能語音技術(shù)公司,已經(jīng)實(shí)現(xiàn)包括普通話語音識(shí)別、語音合成和聲紋識(shí)別等全方位的智能語音服務(wù)。2017年底,該公司發(fā)布的汽車智能交互系統(tǒng)飛魚2.0在廣汽GS8型SUV汽車中得到使用,用戶可以通過語音識(shí)別技術(shù)實(shí)現(xiàn)對(duì)車輛前后門車窗的開閉、車內(nèi)空調(diào)溫度的控制、以及車載地圖的導(dǎo)航等操作。百度公司開發(fā)的百度語音識(shí)別技術(shù)DuerOS 2.0,能夠?qū)崿F(xiàn)車輛簡(jiǎn)單控制和車載語音導(dǎo)航功能。北汽集團(tuán)微型電動(dòng)汽車LITE上就搭載了百度的DuerOS 2.0系統(tǒng),用戶可直接通過普通話語音識(shí)別功能來控制車輛的啟動(dòng)、天窗的開關(guān)、車內(nèi)空調(diào)溫度的設(shè)定、以及前后車門的開關(guān)等。
(三)在軌道交通領(lǐng)域的應(yīng)用
近年來,我國(guó)軌道交通發(fā)展迅速,中國(guó)的高鐵已經(jīng)成為中國(guó)現(xiàn)代化的一個(gè)國(guó)家名片,極大地改變了人們遠(yuǎn)距離出行方式,對(duì)我國(guó)的社會(huì)生活方式產(chǎn)生重大的影響。語音識(shí)別與交互技術(shù)將為軌道交通的發(fā)展注入新的動(dòng)力,提升司機(jī)和乘客的娛樂性與舒適度。
中車株洲電力機(jī)車研究所有限公司已將語音識(shí)別技術(shù)在軌道交通車輛中進(jìn)行了工程化應(yīng)用,主要包括:1.司機(jī)的語音喚醒和操作服務(wù),實(shí)現(xiàn)司機(jī)與列車控制器之間的語音交互,并在控制屏幕上將司機(jī)的語音中內(nèi)容識(shí)別出來,從而替代傳統(tǒng)的鍵盤和觸摸屏操作,實(shí)現(xiàn)顯示器的全語音控制;2.乘客乘車過程中的語音娛樂服務(wù),通過語音交互定位人的位置,實(shí)現(xiàn)影音娛樂裝置在噪聲干擾環(huán)境下向乘客定向播放的功能。
二、智能語音識(shí)別技術(shù)的不足
人們?cè)谙硎苷Z言智能化所帶來的生活便利的同時(shí)需要知道,當(dāng)前的智能語音識(shí)別技術(shù)主要是針對(duì)普通話開發(fā)的,它在實(shí)際的使用過程中要求普通話發(fā)音必須標(biāo)準(zhǔn),因此只有學(xué)好普通話才能夠更好的享受智慧科技生活。此外,語音識(shí)別技術(shù)的實(shí)現(xiàn)過程非常復(fù)雜,開發(fā)面向國(guó)內(nèi)全部地方方言的語音識(shí)別系統(tǒng)是困難的,也是不現(xiàn)實(shí)的。
(一)智能語音識(shí)別的復(fù)雜過程
智能語音識(shí)別的基本流程包括:輸入語音的預(yù)處理、特征信號(hào)的提取、模式的匹配等幾個(gè)部分,流程見圖1。首先,對(duì)輸入的語音信號(hào)進(jìn)行預(yù)處理操作,將聲音的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),并進(jìn)行預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等過程;其次,對(duì)輸入的語音信號(hào)進(jìn)行分析,確定相關(guān)信號(hào)的頻譜特征,實(shí)現(xiàn)不同語音的特征提取;然后,將得到的語音信號(hào)特征,與前期建立的語音模型庫(kù)中的數(shù)據(jù)進(jìn)行比較,通過某種搜索和匹配策略,以獲得與輸入語音信號(hào)相匹配最好的模式;最后,輸出計(jì)算機(jī)識(shí)別的結(jié)果,并執(zhí)行相關(guān)的命令或者操作[2,5]。
在進(jìn)行特征提取時(shí),需注意以下幾點(diǎn):1.特征信號(hào)要有代表性,能夠代表語音特征,且有一定辨識(shí)度;2.每階段特征信號(hào)之間要彼此相互獨(dú)立,不能相互包含;3.特征信號(hào)計(jì)算要方便,最好有比較高效的算法,能確保語音識(shí)別的速度。對(duì)特征信號(hào)進(jìn)行處理時(shí),需要提前建立好一個(gè)語音模型數(shù)據(jù)庫(kù),以方便對(duì)輸入語音信號(hào)的相匹。常用的模型庫(kù)建立方法有以下幾種:動(dòng)態(tài)時(shí)間規(guī)整法、隱馬爾可夫模型法和基于人工神經(jīng)網(wǎng)絡(luò)識(shí)別法。因此,語音識(shí)別是一門非常復(fù)雜的技術(shù),其涉及的學(xué)科面很廣,與聲學(xué)、語言學(xué)、信息理論、模式識(shí)別理論等學(xué)科都密切相關(guān),開發(fā)一門語言的語音識(shí)別系統(tǒng)是比較困難的。
目前,國(guó)內(nèi)語音識(shí)別技術(shù)根據(jù)模型庫(kù)建立方法的不同,可以分為基于時(shí)間規(guī)整的語音識(shí)別技術(shù)、基于隱馬爾科夫的語音識(shí)別技術(shù)以及基于人工神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)。但不管哪種技術(shù)都主要針對(duì)普通話進(jìn)行開發(fā),即便如此也存在復(fù)雜環(huán)境中的語音識(shí)別率低的問題。
(二)智能語音識(shí)別率與普通話
在語音識(shí)別方面,國(guó)內(nèi)的智能語音公司已經(jīng)能夠達(dá)到97%的漢字識(shí)別率。比如,搜狗的語音識(shí)別支持最快400字每秒的聽寫,其準(zhǔn)確率達(dá)到了97%;百度語音在安靜條件下的識(shí)別準(zhǔn)確率達(dá)到了97%,隨著語音算法的不斷更新和數(shù)據(jù)的積累,其語音識(shí)別的錯(cuò)誤率每年能夠下降20%到30%;科大訊飛的單音詞語的識(shí)別準(zhǔn)確率也達(dá)到了97%,甚至在離線狀態(tài)下的識(shí)別準(zhǔn)確率也可以達(dá)到95%。
上述識(shí)別率都是針對(duì)普通話進(jìn)行的,如果普通話不標(biāo)準(zhǔn),或者使用地方方言,則語音識(shí)別的準(zhǔn)確性將大大下降。目前,國(guó)內(nèi)做方言識(shí)別技術(shù)的公司不多,其中最大困難就在于國(guó)內(nèi)的方言實(shí)在是太多了,每個(gè)方言都需要建立不同的識(shí)別模型,而且各個(gè)方言缺乏足夠多的語料,訓(xùn)練不足,會(huì)導(dǎo)致識(shí)別準(zhǔn)確性不高。國(guó)內(nèi)科大訊飛公司的語音識(shí)別技術(shù)目前只能夠識(shí)別粵語和四川話,通過深度神經(jīng)網(wǎng)絡(luò)等技術(shù)做出了一個(gè)方言語音識(shí)別引擎,通過征集足夠多的方言語音數(shù)據(jù)來訓(xùn)練識(shí)別引擎,并經(jīng)過大量的數(shù)據(jù)訓(xùn)練來提升方言識(shí)別的準(zhǔn)確性,盡管做了很多工作,在安靜環(huán)境下四川話的單個(gè)語音識(shí)別準(zhǔn)確率也只能達(dá)到85%,在實(shí)際使用中,識(shí)別準(zhǔn)確率達(dá)不到50%。
未來人工智能和語言智能化還將發(fā)展語義理解技術(shù),這是更加復(fù)雜和高深的技術(shù)。語義理解技術(shù)是能夠讓機(jī)器地正確地理解人的需求和意圖,機(jī)器需要消除對(duì)談話內(nèi)容的歧義,從而保證人機(jī)交互過程的準(zhǔn)確和流暢。目前,這個(gè)技術(shù)的發(fā)展還依賴于大量數(shù)據(jù)的廣泛積累和算法模型的不斷發(fā)展。當(dāng)數(shù)據(jù)量充足時(shí),才能實(shí)現(xiàn)更加準(zhǔn)確地語義理解的效果,從而實(shí)現(xiàn)長(zhǎng)時(shí)間的人機(jī)語音交互。語義理解技術(shù)的發(fā)展有一個(gè)前提,就是用戶對(duì)普通話的準(zhǔn)確掌握。
語言智能化正在逐步改變我們的生活方式,隨著智能語音的不斷發(fā)展,語音識(shí)別技術(shù)在未來生活中也會(huì)發(fā)揮更加重要的作用,因此,在人工智能和語言智能化的發(fā)展大趨勢(shì)下,有必要進(jìn)一步推廣和普及普通話教育。
三、新技術(shù)條件下推廣普通話的重要意義
中國(guó)是一個(gè)有著五十六個(gè)民族的大家庭,普通話就是現(xiàn)代中國(guó)人進(jìn)行信息交流的共同語言。盡管國(guó)內(nèi)普通話已經(jīng)推廣和普及了很多年,但目前國(guó)內(nèi)不少地方還是存在著地區(qū)方言和各民族自己的語言。在人工智能和智能語音快速發(fā)展的時(shí)代,在計(jì)算機(jī)語言輸入和手機(jī)語言識(shí)別已經(jīng)開始應(yīng)用的當(dāng)下,進(jìn)一步推廣和普及普通話有著更深層次的重大意義。
語言的規(guī)范化、標(biāo)準(zhǔn)化是語言現(xiàn)代化的標(biāo)志。普通話是以北方語音為標(biāo)準(zhǔn)音,以北方話為基礎(chǔ),以典范的現(xiàn)代白話文著作為語法規(guī)范,其語言是準(zhǔn)確的、精密的、文明的、合乎語法結(jié)構(gòu)規(guī)律的。普通話中的無調(diào)音節(jié)有四百多個(gè),帶調(diào)音節(jié)有一千三百多個(gè)。不管什么人念,不管在句子中的什么位置,各個(gè)音節(jié)之間語音信號(hào)的差別總是存在的,語音信號(hào)的頻譜同樣也存在差別。因此,在進(jìn)行智能語音識(shí)別的時(shí)候,其頻譜類的特征參數(shù)提取相對(duì)容易一些,各參數(shù)之間能夠彼此相互獨(dú)立、參數(shù)計(jì)算也比較方便,其語音識(shí)別的準(zhǔn)確率相對(duì)較高。
無論從何種意義上說,為了享受科技發(fā)展帶來的便利,進(jìn)一步推廣普通話勢(shì)在必行。
參考文獻(xiàn):
[1]張少慧.論推廣普通話教育的意義[J].中山大學(xué)學(xué)報(bào)論叢,2006(8):78-81.
[2]郝歐亞,吳璇,劉榮凱.智能語音識(shí)別技術(shù)的發(fā)展現(xiàn)狀與應(yīng)用前景[J].電聲技術(shù),2020,44(3):24-26.
[3]于曉明.語音識(shí)別技術(shù)的發(fā)展及應(yīng)用[J].計(jì)算機(jī)時(shí)代,2019(11):28-31.
[4]陳穎,汪功明,楊磊,辛禮兵.語音識(shí)別技術(shù)在智能家居的應(yīng)用技術(shù)淺析[J].科學(xué)技術(shù)創(chuàng)新,2019(31):60-61.
[5]劉悅,林軍,游俊.語音識(shí)別技術(shù)在車載領(lǐng)域的應(yīng)用及發(fā)展[J].控制與信息技術(shù),2019(2):1-6+31.