999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN的桂柳方言語音識別系統研究

2019-12-13 01:08:30楊波
現代計算機 2019年31期
關鍵詞:模型

楊波

(武警廣西總隊參謀部,南寧530031)

0 引言

語音識別是指將語音自動轉換為文字的過程。在實際應用中,語音識別通常與自然語言理解、自然語言生成及語音合成等技術相結合,提供一個基于語音的自然流暢的人機交互系統。語音識別技術的研究始于20世紀50年代初期,迄今為止已有六十多年的歷史。1952年,貝爾實驗室研制了世界上第一個能識別十個英文數字的識別系統。20世紀80年代,基于馬爾科夫的建模方法推動了語音識別技術的蓬勃發展。近十年來,語音識別的發展又取得了長足的進步,國內外許多科研機構研發出了各自的語音識別系統,如微軟、科大訊飛、捷通華聲等。2011年,微軟的俞棟等人將深度神經網絡成功應用于語音識別任務中,在公共數據上詞錯誤率相對降低了30%。

桂柳話是廣西地區方言文化,系屬西南官話的一種,是廣西壯族自治區通行最廣的漢語方言。作為面向東盟的前沿與窗口,廣西已先后成功承辦了16屆中國東盟博覽會,通過深化東盟國際合作,精耕細作加速融入“一帶一路”建設。在廣西加快建設中國-東盟信息港大數據中心的形勢下,語音識別等人工智能技術的研究應用,必將為新型智慧城市創新、網絡視聽產業基地建設等打下良好基礎。

1 RNN的概念及應用

循環神經網絡(Recurrent Neural Networks,RNN)因其循環遞歸處理歷史數據和對歷史記憶進行建模的特殊特性,適用于處理時間、空間序列上有強關聯的信息。循環神經網絡是深度學習中的一個重要分支,近年來循環神經網絡模型相關的研究發展迅速。其中的成功案例包括手寫字體識別、語音識別、自然語言處理和基于計算機視覺等序列問題。從生物神經學角度看循環神經網絡,可以認為其是對生物神經系統環式鏈接的簡單模擬,而這種環式鏈接在新大腦皮質中是普遍存在的。這也從側面反映人類學習是一個動態變化的過程,因而對神經元的模擬在生物工程上有著重要的意義。

循環神經網絡模型通過用于描述動態的序列數據,隨著時間的變化而動態調整自身的網絡狀態,并不斷循環傳遞,還可以接受廣泛的序列信息結構作為輸入。不同于前饋神經網絡(例如ANN、DNN、CNN等),循環神經網絡模型更加重視網絡中的反饋作用。由于存在著當前狀態與過去狀態或者與未來狀態的鏈接,循環神經網絡模型可以具有一定的記憶功能。普通的深度神經網絡是從左到右逐層傳遞的,其網絡的神經元數據不斷向前傳遞直到輸出,所在層(當前層)的神經元之間并沒有連接關系;而循環神經網絡不同于前饋式的神經網絡,其引入了定向循環機制,神經元之間互相依賴、互相連接,因此能夠處理前后關聯的序列數據。

序列數據也可以被稱為“序列信號”,而序列信號幾乎無處不在,只要有先后關聯關系或者時間關系的信號數據,都可以被認為是序列數據。在我們生活的時間和空間里,身邊所發生的所有變化都可以使用序列數據來表示。如路由器根據訪問網絡的地址信息不斷地調整自身所攜帶的信息;淘寶會根據用戶點擊商品的順序,推測出其可能購買的商品,進而推薦相應的商品廣告等,都是應用序列數據的例子。正是因為序列數據無處不在,與我們的日常生活息息相關,所以對序列數據建模顯得十分重要。循環神經網絡模型在語音識別中有著重要的應用,如使用雙向循環神經網絡模型輸入音頻數據,可以快速預測其對應的詞組,其準確率可達到90%以上。另外,使用雙向循環神經網絡模型實現單通道音樂的人聲分離,實驗結果表明該雙向循環神經網絡模型能夠正確地從單通道的歌曲中分離出人聲和背景音樂,該技術可以應用在手機麥克風中,在嘈雜環境下過濾掉背景噪聲并提取出音頻信號中的原聲。

2.1 桂柳話語音特點

桂柳話通行于廣西壯族自治區五十六個縣市的縣城及圩鎮地區,細分又有桂林話、柳州話、郴州話、荔浦話、平樂話等,其間有一些差別,桂林話受湖南話的影響比較多,而柳州話受廣東話、壯話的影響比較多。桂柳話主意系統排列為:聲母19個,韻母37個,聲調有4個,外加一個入聲調,共五個。此外,桂柳方言沒有明顯的輕聲和變調。桂柳話一般沒有漢語拼音的卷舌音zh(之),ch(吃),sh(師),r(日),分別以 z(資),c(此),s(斯),y(一)代替;er(而)等音節以 e(俄)代替,明顯特征是有鼻化韻、夾雜入聲(喉塞音)塞音尾(廣泛流行于其它地區的沒有入聲韻尾)。桂柳話存在大量合音現象,即將兩個甚至多個音節快速連讀合成一個音節。此現象使用頻率較高,廣泛存在于代詞、副詞以及語氣詞等常用詞匯中。一般來說,合音詞聲母取自合音上字,韻母取自合音詞下字,聲調來源于上字或者下字。就發音而言,桂柳話與普通話的音調關系∶第一聲(陰

2 語音識別系統設計

2.2 語音識別框架

自動語音識別(Automatic Speech Recognition,ASR)是人工智能的重要入口,是一種讓機器通過識別和理解,把人類的語音信號轉變為相應文本的技術過程。早在20世紀90年代初期,就已經出現眾多語音識別領域的研究人員試圖利用人工神經網絡ANN進行自動語音識別方面的研究,可是大部分效果并不理想,原因主要有:語音數據有限、神經網絡容易過擬合、計算資源有限等。而與此同時,基于概率論的技術在語音識別領域得到蓬勃發展,例如高斯混合模型(Gaussian Mixture Model,GMM)、隱馬爾科夫模型(Hidden Markov Model,HMM)等。語音識別技術已經出現了20多年,為何近年來才成為人工智能的主流技術呢?這要得益于深度學習技術,將語音識別領域的準確率提高到足以應用于實際環境中。自動語音識別技術提煉優化為一個框架結構,該模型主要分為編碼(Encoder)和解碼(Decoder)階段,如圖 1所示。平)在方言里一般仍是第一聲,第二聲(陽平)一般是第三聲,第三聲(上聲)一般是第四聲,第四聲(去聲)一般是第二聲,沒有明顯的輕聲,說話時幾乎字字重讀,連語氣詞也有相當確定的聲調。

圖1 語音識別系統框架

其中,編碼是將音頻數據作為輸入,轉換成音頻向量數據;特征提取是通過算法或者音頻特征算法提取音頻向量,提取后的特征為“聲紋”,例如使用快速傅立葉變換(Fast Fourier Transform,FFT)對音頻數據進行時域和頻域間的轉換;訓練是從聲紋數據和字典中學習固定特征,用于生成聲學模型(Acoustic Model)和語言模型(Language Model),聲學模型用于識別語音向量,一般可以使用GMM或者循環神經網絡等方法來識別向量,用HMM或者CTC來對齊輸出的結果,語言模型是根據語法、語義規則對聲學模型調整輸出的結果,例如修改與調整不符合邏輯規則的詞語;在語音識別領域中,大部分模型并不是以單詞作為基本單位,而是以音素作為基本的語音識別單位,音素是語音中最小的單位,依據音節里的發音動作來分析,一個動作構成一個音素,音素分為元音和輔音兩大類,英語輔音和元音在語言中的作用就相當于漢語中的聲母和韻母;解碼是將訓練好的聲學模型和語言模型進行組合,輸入新的聲紋特征,最終輸出其對應的文本文字。

使用深度學習技術進行語音識別,可以實現一個簡單的聲學模型,從簡單的音頻數據開始,對其特征提取得到“聲紋”,通過循環神經網絡模型實現一個聲學模型,最后解碼輸出該音頻數據所對應的文本文字。不同的人會有不同的語速,說話方式和行為也會不一樣。例如,一個人可能會帶有疑問地說出“HEEEEEELLO?”,而另外一個人則可能很開心地說出“HELLOOOOOOOOOOO!”,這樣對應同一個單詞會產生不同長度的聲音文件。而語音識別的任務就是把上面兩個聲音文件都正確地識別為“HELLO”。把各種不同長度的音頻文件自動對齊到一個固定長度的文本是一件很困難的事情,循環神經網絡幫我們很好地解決了這一難題,它能在特征提取階段或是輸出階段對音素進行對齊操作。

2.3 基于RNN的聲學模型

聲學模型承載著聲學特征與建模單元之間的映射關系。在訓練聲學模型之前需要選取建模單元,建模單元可以是音素、章節、詞語等,其單元粒度依次增加。若采用詞語作為建模單元,每個詞語的長度不等,從而導致聲學建模缺少靈活性;此外,由于詞語的粒度較大,很難充分訓練基于詞語的模型,因此一般不采用詞語作為建模單元。相比之下,詞語中包含的音素是確定且有限的,利用大量的訓練數據可以充分訓練基于音素的模型,因此目前大多數聲學模型一般采用音素作為建模單元。語音中存在協同發音的現象,即音素是上下文相關的,故一般采用三音素進行聲學建模。由于三音素的數量龐大,若訓練數據有限,那么部分音素可能會存在訓練不充分的問題,為了解決此問題,我們采用決策樹對三音素進行聚類以減少三音素的數目。

基于深度神經網絡的聲學模型是指用深度神經網絡模型替換高斯混合模型,深度神經網絡模型可以是深度循環神經網絡和深度卷積網絡等。該模型的建模單元為聚類后的三音素狀態,模型如圖2所示。圖中,神經網絡用來估計觀察特征(語音特征)的觀測概率和語音信號的動態變化(即狀態間的轉移概率)。Sn代表音素狀態;hM代表第M個隱層。與基于高斯混合模型的聲學模型相比,這種基于深度神經網絡的聲學模型具有兩方面的優勢:一是深度神經網絡能利用語音特征的上下文信息;二是深度神經網絡能學習非線性的更高層次特征表達。所以,基于深度神經網絡的聲學模型性能顯著超越高斯混合模型的聲學模型,成為當前主流的聲學建模技術。

圖2 基于RNN的聲學模型

循環神經網絡模型擁有記憶功能,用于影響未來時間序列的輸出。首先把音頻分成每份20ms長的音頻塊,即對應音頻上的一幀數據。假設以每秒16000次的采樣頻率,那么一個20ms的音頻對應320個采樣數據。雖然只有短短的20ms,但即使較短的音頻片段也是由不同頻率的聲音交織而成,其中包括低音、中音和高音。為了使得音頻數據更加容易地被循環神經網絡處理,我們把一段連續的音頻聲波分解成很多段短暫的音頻采樣片段,例如剛才所說的20ms為間隔對音頻進行切片采樣。深度神經網絡的輸入是以20ms為單位的一幀,每一幀作為一個時間序列,使用音頻文件經過聲學模型的前饋計算,可以得到每一幀音頻對應的漢字。循環神經網絡模型使用3層的GRU網絡模型,部分代碼如下:

Def gru_model(input_dim=161,output_dim=29,recur_layers=3,nodes=1024):

#RNN層

For I in range(recur_layers):

#GRU層

Output=GRU(nodes,activation=‘relu’,kernel_initializer=initialization,Return_sequences=True,name=‘rnn_{}’.format(i+1)(output)

#輸出層(Softmax)

Time_dense=TimeDistributed(Dense(output_dim))(output)

2.4 系統識別訓練

構建語音識別框架、準備語音數據、提取語音特征、建立聲學模型之后,就要對聲學模型進行訓練了。語音識別聲學模型的訓練屬于監督學習,需要知道每一幀對應的label標簽才能進行有效的訓練。在傳統的語音識別聲學模型中,在對語音模型進行訓練之前,往往要求語音與文本進行嚴格的對齊操作,但它實際并不是一種嚴格的對齊方式,而是一種較為寬松的對齊方式。本文設計的語音識別系統,則是讓深度神經網絡自己去學習對齊的方式,從而引入了連接時序分類(Connectionist Temporal Classification,CTC),CTC 層通過計算,使得輸入與輸出對應起來,減少了大量的標注時間,并使得聲學模型能夠做到端到端的有效訓練。CTC借用了HMM中的向前向后算法來計算可能路徑,向前因子α和向后因子β定義為:

向前向后算法通過動態規劃的思想來解決,其針對一個當前標簽u的全部路徑累加,被分解為以u為前綴的全部路徑的迭代累加,該迭代通過遞歸計算向前向后因子求得。經過高強度訓練的聲學模型,便可應用于系統測試。語音識別系統測試界面如圖3所示。

圖3 系統測試界面

3 結語

我國地大物博、人口眾多,屬于多民族國家,各地的方言也是多種多樣,研究基于地方方言的語音識別系統具有重要的現實意義。本文在深入分析研究語音識別技術及桂柳方言音頻特征的基礎上,利用RNN的深入學習技術,構建完整的桂柳方言語音識別系統。測試結果表明,通過特征提取及模型訓練,該系統在室內環境中對桂柳語音樣本測試的識別率可達92.7%,可以有效地在實際生活中桂柳方言對話場景進行應用,使人工智能技術能真正地服務于社會。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 精品伊人久久久久7777人| 午夜精品福利影院| 国产欧美日韩视频一区二区三区| 伊人激情综合| 国产精品女主播| 国产嫖妓91东北老熟女久久一| 91蝌蚪视频在线观看| 国产真实二区一区在线亚洲| 女人一级毛片| 国产精品露脸视频| 欧美成人免费一区在线播放| 色妞www精品视频一级下载| 二级特黄绝大片免费视频大片| 999精品免费视频| 视频二区亚洲精品| 国产精品福利尤物youwu | 国语少妇高潮| 国产精品女熟高潮视频| 99激情网| 狠狠色丁香婷婷| 亚洲人成人无码www| av一区二区三区在线观看 | 美女无遮挡拍拍拍免费视频| 在线毛片免费| 亚洲精选无码久久久| 亚洲精品日产AⅤ| jizz亚洲高清在线观看| 日韩无码视频专区| 美女潮喷出白浆在线观看视频| 成人午夜视频免费看欧美| 亚洲一级毛片在线播放| 国产精品国产主播在线观看| 久久久精品国产亚洲AV日韩| 黄色在线不卡| 日韩小视频在线播放| 91精品国产自产在线老师啪l| 国产精品亚洲专区一区| 日本成人在线不卡视频| 国产性猛交XXXX免费看| 91福利片| 蝌蚪国产精品视频第一页| 国产福利一区二区在线观看| 日本欧美中文字幕精品亚洲| 999福利激情视频| 亚洲有码在线播放| 亚洲国产精品不卡在线| AV老司机AV天堂| 国产精女同一区二区三区久| 亚洲h视频在线| 99视频在线观看免费| 国产一区二区三区在线观看视频| аv天堂最新中文在线| 综合色区亚洲熟妇在线| 国产在线八区| 精品五夜婷香蕉国产线看观看| 国产精品第页| 女人一级毛片| 欧美黄网站免费观看| 老司机午夜精品网站在线观看| 国产黄在线免费观看| 久久精品国产999大香线焦| 国产成人高清精品免费软件 | 在线观看欧美国产| 91精品国产91久久久久久三级| 亚洲国产天堂久久综合| 成人毛片免费在线观看| 亚洲日韩精品欧美中文字幕| 亚洲第一黄片大全| 亚洲天堂精品在线观看| 欧美成人国产| 国产精品成人免费视频99| 国产高清在线精品一区二区三区| 亚洲精品无码日韩国产不卡| 国产日韩精品欧美一区喷| 亚洲福利视频一区二区| 国产流白浆视频| 欧美中文一区| 国产成人盗摄精品| 亚洲成AV人手机在线观看网站| 不卡国产视频第一页| 亚洲无限乱码| 广东一级毛片|