999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度神經網絡的四川方言識別

2016-06-08 06:48:51石佳影黃威
現代計算機 2016年13期
關鍵詞:深度模型

石佳影,黃威

(四川大學軟件學院,成都 610065)

?

基于深度神經網絡的四川方言識別

石佳影,黃威

(四川大學軟件學院,成都610065)

摘要:

關鍵詞:

0 引言

中國話將普通話作為官方語言,但是各地區、各民族的方言種類眾多,四川方言則普遍的通用于西南地區。四川方言是盛行于四川省和重慶市的主要方言,并對云貴地區方言產生深遠影響,方言發音主要從古巴蜀語的西南官話演變而來。但由于四川方言缺少舌尖后音聲母和韻母兒化的特點,四川方言發音與普通話有很大區別,這也同時表現在聲學特征方面,其中重點是表現在聲韻母系統和語音韻律不同。元音聲學特征的共振峰上的差異是四川方言與普通話聲韻母系統不同的主要表現;普通發音音調和說話語速之間的差別導致四川方言的語音韻律有明顯不同,其中用來衡量說話人發音韻律變化的特征向量的連續動態變化軌跡的差分特征表現最為明顯[1]。國內對于語音識別技術已日趨成熟,但是方言識別還甚少研究,針對四川話的獨特發音特點和其聲學特征的明顯差異,本文提出一種基于深度神經網絡的四川方言識別技術。

聲學模型的使用決定著語音識別準確與否。傳統的聲學建模方法是以隱馬爾科夫模型(Hidden Markov model,HMM)框架為基礎,并采用混合高斯模型(Gaussian Mixture Model,GMM)來描述語音聲學特征的概率分布。但是這種聲學模型構建方法是在一些不合理的假設基礎上提出的,其中主要的假設有聲學特征各維之間線性無關、概率分布形式服從混合高斯等[2]。這些假設的存在導致真實的概率分布不能準確描述。在本文的研究中,提出了一種基于Kaldi平臺的深度神經網絡模型的四川方言識別技術,研究發現了四川方言的發音特征,并構建了四川話發音字典和基于語音與普通話文本的四川方言語料庫,實現了從四川方言對普通話的映射識別。實驗結果表明,利用深度神經網絡進行四川話方言識別,出錯率隨著訓練集數據的增多,有明顯下降趨勢,并保持在較低狀態,當訓練集有1435條數據量時,出錯率明顯下降到5%。

1 特征參數的提取

在進行特征提取時,常用的倒譜系數有:線性預測倒譜系數(Linear Prediction Cepstrum Coefficient簡稱LPCC)和梅爾倒譜系數(Mel-scale Frequency Cepstral Coefficient簡稱MFCC)[3]。倒譜系數作為聲道共振性能的反映,其中基于MFCC的特征利用了聽覺模型的研究成果,并且對輸入信號沒有限制,也不會因為信號性質不同而造成明顯的特征差異。因此,采用魯邦性更好的梅爾倒譜系數特征能更有效地提取語音特征參數,除此之外梅爾倒譜對卷積性信道失真有補償的能力,基于以上原因,本研究同樣采取MFCC進行四川方言語音特征參數提取。

圖1 特征參數的計算過程

圖1為語音特征參數MFCC提取過程。連續的一段語音經過預加重處理,提升語音中高頻部分,是信號的族譜變得平坦,使其能用同樣的信噪比求頻譜。之后進行分幀處理和加窗處理,在分幀處理中幀長設置為256,采樣頻率設置為為8 kHz;下一步是FFT處理,在這個環節中對加窗處理之后的每幀語音信號x(n)進行FFT變換得到信號的頻譜X(n);之后i將每幀信號的離散功率譜用M階三角濾波器濾波(傳遞參數為Hm(k),中心頻率為f(m),m=1,2,…,M,關系如圖2所示),三角濾波器的頻率響應定義為:

其中:

計算每個三角濾波器組輸出的對數能量譜:

經離散余弦變換(DCT)得到MFCC系數:

提取了MFCC參數后,再求一階查分特征參數(ΔMFCC)和二階差分參數(ΔMFCC),其公式為:

圖2 f(m)與H(m)的關系

圖3 一段語音的MFCC和階數與幅值的關系

2 模型及訓練

2.1深度神經網絡模型(DNN)

深度神經網絡的結構本質上是一個帶有很多隱含層的多層感知器。深度神經網絡(DNN)是在專家乘積(PoE)系統上的改進,并且DNN與傳統的專家求和系統(SoE)有本質差異。按照Hinton的說法[4],DNN是由輸入層、隱含層和輸出層構成,這種神經網絡之所以稱為深度神經網絡是因為它的中間隱含層多于3層。深度神經網絡進行語音識別在一定程度上優于相比于混合高斯模型,主要體現在兩個方面。第一,使用DNN可以直接使用相鄰的幀的結構信息;第二,DNN模型允許的輸入特征是沒有限制的,離散或者連續或者多種混合特征都可以作為輸入。并且研究發現DNN的性能提升最重要的原因是相鄰幀的結構信息的互相使用。為了描述神經網絡,先介紹最簡單的神經網絡,即單個神經元,如圖4所示。

該神經元接收4個輸入,x1,x2,x3,x4和一個偏置+1,其輸出為:

其中,Wi為xi在輸入中的權重,函數f(x)被稱作激活函數。

圖4 單個神經元

神經網絡將許多單一的神經元連接在一起,而DNN則是由多層神經網絡構成的龐大網絡模型,如圖5所示。其中a表示當前層輸入,z表示當前層的輸出。對于中間層采用sigmoid激活函數[5]的神經元來說輸入和輸出按如下公式進行計算:

對于輸出層采用softmax分類器的神經元,輸入和輸出計算公式如下:

其中,y表示神經網絡輸出,L表示神經網絡隱層數,N表示輸出層神經元數量。

圖5 深度神經網絡

2.2四川方言語料庫

為了支持四川方言的語音識別系統設計了四川方言語料庫。該語料庫由1435條四川方言發音(涵蓋四川方言中成渝片及灌赤片)構成。其中80%數據來源為四川地區本土風情影視作品,20%數據來源為10個說話人(男性:10人,女性:7人),其中每個說話人的發音包括12或13條語句。并且該語料庫的所有數據均配有對應四川話、普通話中文釋義和對應字詞典,以及分詞文件。

語音數據中來源于影視作品的部分數據源為《王保長外傳》、《奇人安世敏》、《讓子彈飛》、《傻兒軍長》、《李伯清單口相聲》等。語音數據中來源于說話人錄制的數據錄音設備為三星I9500移動手機,錄音環境為普通辦公室環境。所有的語料庫數據均為wav格式,單聲道,量化精度16bit,采樣頻率16khz,語速為正常說話語速。錄音時,沒有刻意避免周圍環境噪聲。

2.3模型訓練

DNN模型訓練主要分為三個階段。第一,基于RBMS(受限波爾滋蔓機),對每一層進行預訓練;第二,每一幀進行交叉熵訓練;第三,用格子框架通過sMBR準則(狀態的最小貝葉斯風險),對序列的區分性訓練。

預訓練中,我們將句子級別和幀級別上分別置亂來模仿從訓練數據分布里提取樣本,每一個Minibatch更新一次。在交叉熵訓練中,采用BP算法,由DNN計算得到的預估概率分布之間的交叉熵作為目標函數再通過Mini-batch隨機梯度下降算法來將每一幀分成三音素狀態來訓練,默認的學習率為0.008,Minibatch的大小為256。模型學習率在最初的幾次迭代中是保持不變的,當神經網絡不在提高,我們在每次訓練時將學習率減半,直到它再次停止提高。

3 實驗及討論

實驗分別用不同的訓練集Train1和Train2進行模型訓練,訓練集的數據分布如表1所示。對測試語言進行24維MFCC特征提取,并用DNN模型和softmax函數進行分類計算。

表1 實驗數據分布

實驗結果表明,利用深度神經網絡模型進行四川方言識別大大提高了語音識別的準確率。由于訓練數據的增多,會加大的增加模型訓練數量,所以適當的訓練數據量對于識別效率的限制是比較大的,在本次研究采用的訓練數據量為75min的479條語音數據和220min的1435條語音數據。從表2可以看出采取適當并且盡可能多的訓練數據,可以明顯的提高四川方言的識別率,減少識別出錯率。并在220min的訓練模型下的語音識別出錯率明顯降為4.5%,比75min的訓練模型出錯率下降了16.3%,得到了明顯的準確率的提升。

表2 實驗結果

4 結語

本文提出的深度神經網絡模型是一個高容量復雜的網絡模型,其層數較多,每一層都單獨訓練。研究中采用的基于深度神經網絡的四川方言語音識別方法,基于Kaldi平臺,成功搭建了四川方言深度神經網絡模型,同時構建了擁有1435條數據量的四川方言語料庫。本實驗為了減少訓練數據質量對識別結果的影響,利用HMM中基于三因素的方法進行識別。實驗顯示該方法極大地降低了方言識別的出錯率,隨著訓練集數據的增多,有明顯下降趨勢,并保持在較低狀態。當訓練數據量為220min時,四川方言識別出錯率為4.5%。

參考文獻:

[1]王岐學,錢盛友,趙新民.基于差分特征和高斯混合模型的湖南方言識別[J].計算機工程與應用,2009,45(35):129-131.

[2]Auger L. The Journal of the Acoustical Society of America.[M]. American Institute of Physics for the Acoustical Society of America,1929.

[3]Zhang H,Li D. Naive Bayes Text Classifier[C]// Granular Computing,2007. GRC 2007. IEEE International Conference on. IEEE,2007:708-708.

[4]Hinton G,Deng L,Yu D,et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine,2012,29(6):82-97.

[5]張雨濃,曲璐,陳俊維,等.多輸入Sigmoid激勵函數神經網絡權值與結構確定法[J].計算機應用研究,2012,29(11):4113-4116.

Sichuan Dialect Speech Recognition Based on Deep Neural Network

SHI Jia-ying,HUANG Wei
(College of Software Engineering,Sichuan University,Chengdu 610065)

Abstract:

Keywords:

針對四川方言的發音以及音調的特點,提出一種新的基于深度神經網絡(Deep Neural Network,DNN)的四川方言語音識別方法。該研究基于Kaldi平臺提供的深度神經網絡模型,利用梅爾倒譜系數(Mel-scale Frequency Cepstral Coefficient,MFCC)對四川方言進行特征提取并構建四川話發音字典對四川方言進行識別研究,實現從四川方言對普通話的映射識別,并構建基于語音與普通話標簽的四川方言語料庫。實驗結果表明,采用該方法進行四川方言識別,出錯率隨著訓練集數據的增多有明顯下降趨勢,并保持在較低狀態。

四川方言識別;深度神經網絡;語音識別

文章編號:1007-1423(2016)13-0003-04

DOI:10.3969/j.issn.1007-1423.2016.13.001

作者簡介:

石佳影(1995-),女,河北唐山人,本科,研究方向為機器智能

黃威(1995-),男,浙江溫州人,本科,研究方向為機器智能

收稿日期:2016-01-12修稿日期:2016-04-30

In view of the pronunciation and tone of Sichuan dialect,presents a new method of speech recognition based on deep neural network (DNN)in Sichuan dialect. This study is based on the deep neural network model provided by Kaldi platform,which uses Mel-scale Frequency Cepstral Coefficient(MFCC)to extract the features and constructs the pronunciation dictionary of Sichuan dialect. This recognition method maps from Sichuan dialect to mandarin,and we also construct the Sichuan dialect corpus based on the pronunciation and the Chinese label. The experimental results show that with this method of speech recognition,the error rate has a clear downward trend with the increase of the training set data,and keeps in a low state.

Sichuan Dialect Speech Recognition;Deep Neural Network;Speech Recognition

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产免费久久精品99re丫丫一| 久久亚洲国产视频| 中文字幕人妻av一区二区| 特黄日韩免费一区二区三区| 国内精品91| 人与鲁专区| 亚洲第一综合天堂另类专| 88av在线播放| 国产成人禁片在线观看| 久视频免费精品6| 亚洲一区二区三区国产精品| 99久久精品免费看国产电影| 2020亚洲精品无码| 久热re国产手机在线观看| 国产日韩欧美在线视频免费观看 | 国产男人的天堂| 精品人妻一区无码视频| 亚洲日本精品一区二区| 天堂va亚洲va欧美va国产| 国产在线一区视频| WWW丫丫国产成人精品| 国产浮力第一页永久地址| AⅤ色综合久久天堂AV色综合| 小蝌蚪亚洲精品国产| 波多野结衣一区二区三区AV| 国产黑丝视频在线观看| 国产99视频精品免费视频7| 亚洲国产中文精品va在线播放| 免费高清a毛片| 伊人久久精品亚洲午夜| 亚洲精品动漫| 狼友av永久网站免费观看| 婷婷丁香在线观看| 白丝美女办公室高潮喷水视频| 亚洲精选无码久久久| 久久久久亚洲AV成人人电影软件 | 美女无遮挡被啪啪到高潮免费| 亚洲一区无码在线| 暴力调教一区二区三区| 少妇精品在线| 亚洲成a人片在线观看88| 色135综合网| 88av在线播放| 亚洲国产日韩一区| 国产白浆视频| 成人精品在线观看| 国产农村精品一级毛片视频| 亚洲香蕉伊综合在人在线| 亚洲欧洲天堂色AV| 免费看美女自慰的网站| 国产福利影院在线观看| 在线观看欧美国产| 伊人成色综合网| 女人18毛片一级毛片在线 | 无码综合天天久久综合网| 午夜a视频| 亚洲福利片无码最新在线播放| 国产精品久久久久久久久| 欧美成人区| 久久精品亚洲专区| 国产手机在线观看| 国产成人精品一区二区秒拍1o | 国产精品手机在线观看你懂的| 国产欧美日韩资源在线观看| 青青极品在线| 日本尹人综合香蕉在线观看| 午夜日b视频| 亚洲色图欧美| 最新国产高清在线| 久久国产拍爱| 亚洲综合亚洲国产尤物| 成人一区在线| 久久黄色小视频| 亚洲第一成网站| 精品乱码久久久久久久| 五月六月伊人狠狠丁香网| 99精品视频九九精品| 久久精品国产999大香线焦| 国产白浆视频| 国产在线自在拍91精品黑人| 久久久精品国产SM调教网站| 成人国产三级在线播放|