999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微調優化的深度學習在語音識別中的應用

2017-01-04 05:26:34彭玉青高晴晴張媛媛
鄭州大學學報(理學版) 2016年4期
關鍵詞:隱層權值語音

彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩

(河北工業大學 計算機科學與軟件學院 天津 300401)

?

基于微調優化的深度學習在語音識別中的應用

彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩

(河北工業大學 計算機科學與軟件學院 天津 300401)

針對深度學習模型在對小樣本進行訓練時會出現過擬合現象,提出隨機退出優化方法和隨機下降連接優化方法.這兩種方法針對深度學習模型的微調階段進行改進,最大限度減少由于訓練數據量較少使得深層網絡模型訓練出現過擬合現象,并且使權值的更新過程更具有獨立性,而不是依賴于有固定關系的隱層節點間的作用,同時可以降低識別錯誤率.對自建孤立語音詞匯庫進行了訓練和識別,結果表明,在深度信念網絡的基礎上引入隨機退出優化方法和隨機下降連接優化方法可以提升識別率,緩解過擬合現象.

深度學習; 語音識別; 神經網絡; 深度信念網絡

0 引言

深度學習模型的發展基礎是傳統神經網絡模型,深度學習可以完成需要高度抽象特征的人工智能任務,如語音識別、圖像識別與檢索和自然語言理解等[1].深層模型是包含多個隱層的神經網絡,與傳統神經網絡只具備有限隱層結構模型相比,深層模型可以對特征進行更好的表達,也具備更強大的建模能力[2-3].深度學習模型較傳統的神經網絡模型而言具有很大的優勢,可以克服淺層模型計算能力有限以及泛化能力受到一定制約等缺點[4-5].然而深層模型也遇到一些問題,在訓練時需要大量的數據進行訓練,否則訓練過程中可能學習到訓練數據的噪聲,出現過擬合現象[6].目前,構建大數據集用來進行訓練與學習是比較復雜的,小數據集在實踐領域中的應用更加普遍.因此,解決小數據集在深層模型中的應用會遇到的過擬合問題,具有現實研究意義.

本文提出隨機退出優化方法和隨機下降連接優化方法,對深度學習預訓練后的微調過程進行改進,減少因為訓練數據較少而對深層模型所造成的過擬合,使得權值的更新過程更具有獨立性,而不是依賴于有固定關系的隱層節點間的作用,提高了學習效率.

1 基于隨機退出優化方法的深度學習

深度學習在訓練少量樣本時,隨著迭代次數的增加,節點間的依賴性也會增加,導致某些節點必須在其他節點的聯合作用下才工作.提出隨機退出思想的目的是減少節點間的依賴性,此外,也為了減少深度學習對小樣本訓練時過擬合現象的出現.

1.1 隨機退出的思想

過擬合是指一個擬合數據在訓練數據上能夠獲得比其他數據更好的擬合,但是在訓練數據外的數據集上卻不能很好地擬合數據,這種現象稱為過擬合現象.在深度學習訓練中,如果訓練的樣本比較少,那么很容易出現過擬合現象.為了有效防止過擬合現象的產生,提出隨機退出的方法.例如,給定一個假設空間M,設m屬于M,若存在其他數據m′,使得在訓練樣本中m比m′的錯誤率小,但在整體實例分布上m′比m的錯誤率小,那么就說m過度擬合訓練數據.訓練數據中存在噪音或者訓練數據過少是導致過擬合的主要原因.隨機退出是指在進行模型訓練時,隨機選定一些網絡中隱層的某些節點,令這些節點的權重不工作.被選中的隱層中不工作的節點權重可以看作非該網絡結構的節點,但是仍將其權重進行保留,停止這些節點的工作目的是使其暫時停止更新權重,而在下一次樣本輸入時,這些節點將重新開始工作[7].

通常情況下,網絡中的每個節點都是相對獨立的,并且具有保留節點本身的固定概率p,概率p可以根據驗證集來確定,或者直接將其設為0.5.對輸入節點來說,通常最佳的固定概率更接近1.

圖1為沒有引入隨機退出的網絡,將隨機退出引入網絡模型后,將會形成一個稀疏網絡,如圖2所示.圖2中的虛線圓圈表示已經退出的網絡節點,該稀疏網絡包含所有被保留下來的節點.假設該網絡為一個n層網絡,那么該網絡有2n種可能形成的稀疏網絡.這些所有可能形成的稀疏網絡共享權值,總參數仍然為O(n2).每次進行訓練時,將對形成的新的稀疏網絡進行訓練.因此,對引入隨機退出的網絡進行訓練的過程可以看作是對2n個共享權值的稀疏網絡進行訓練的過程.

圖1 未引入隨機退出的網絡Fig.1 Network without dropout

圖2 引入隨機退出的網絡Fig.2 Network with dropout

1.2 隨機退出模型描述

假設一神經網絡模型有L層隱層,l∈{1,…,L}為網絡隱層的索引,向量z(l)為l層的輸入向量,向量y(l)(y(0)=x為輸入)為l層的輸出向量,W(l)和b(l)分別為l層的權值和偏置.

標準神經網絡的前饋操作如圖3所示,其中l∈{0,…,L-1},隱層單元為i.zi和yi分別滿足:

(1)

(2)

式中:f為任意激活函數.

當引入隨機退出之后,神經網絡的前饋操作過程如圖4所示.此時zi和yi滿足:

(3)

(4)

(5)

1.3 隨機退出在深度學習中的應用

深度信念網絡(DBNs)是由多個受限玻爾茲曼機(RBMs)組成的深層網絡,它既可以被看作一個生成模型,也可以被看作一個判別模型[9].它的訓練過程是使用非監督方法進行預訓練獲得權值,這一步與神經網絡隨機初始化初值的過程相似,不同的是深度學習的第一步是通過學習輸入數據結構得到的,與神經網絡通過隨機初始化相比,深度學習獲得的這個初值更接近全局最優.訓練完成之后還需要對網絡參數進行調優,使得認知和生成表示一致.

圖3 標準神經網絡的前饋操作Fig.3 Feed forward of standard network model

圖4 引入隨機退出后神經網絡的前饋操作Fig.4 Feed forward of network model with dropout

方法測試樣本正確率/%訓練樣本錯誤率的均方誤差未引入隨機退出85.50.042引入隨機退出880.066

深度學習的調優是根據第一步各層參數進一步優化整個多層模型的參數,這是一個有監督學習的過程.將隨機退出方法應用于深度學習的調優過程,使得每一個單獨節點學習有用的特征,降低神經元之間的依賴性,調優之后獲得更穩定的權重,提高深度學習的學習效率.表1 為將隨機退出應用于MNIST數據庫識別的前后對比結果,可以看出,過擬合現象減少,識別率提高.

通過實驗可以看出,引入隨機退出方法之后,訓練數據錯誤率的均方誤差較引入前有所增長,但測試樣本識別正確率得到提高,說明隨機退出具有較好的泛化能力,可以防止過擬合.

2 基于隨機下降連接優化方法的深度學習

提出的隨機退出思想是隨機選擇隱層網絡中的一些節點不工作,那么被選中不工作的節點就相當于暫時不在這個網絡中,與之相連的所有權重也不進行工作[10].如果僅僅使與節點相連的一些權值停止工作,則會形成另外一種網絡,就是所提出的基于隨機下降連接思想的網絡.

圖5 引入隨機下降連接后的網絡Fig.5 Network with dropconnect

2.1 隨機下降連接的思想

隨機退出的思想是在反向傳播時只利用剩余的“活躍”節點,也就是只利用那些被隨機選中的節點.這種做法可以顯著減少過擬合現象,并且提高測試性能.隨機退出方法是在訓練過程中以一定概率1-p將隱層節點的輸出值清零,不再更新與該節點相連的權值.與隨機退出方法不同的是,隨機下降連接不是隨機將隱層節點的輸出清零,而是將節點中的每個與其相連的輸入權值以1-p的概率清零.隨機下降連接的推理部分與隨機退出不同,在對隨機退出網絡進行推理時,是把所有的權重W都規整到一個系數p.而在對隨機下降連接進行推理時,采用的是對每個輸入的權重進行高斯分布的采樣,該高斯分布的均值和方差與p有關.圖5是引入隨機下降連接后的網絡.

2.2 隨機下降連接模型描述

假設有一個具有全連接層的神經網絡,輸入層為v=[v1,v2,…,vn]T,權值參數為W(d×n),輸出層為r=[r1,r2,…,rd]T,該輸出是由輸入向量和權值矩陣利用非線性激活函數進行矩陣相乘得出的.設該激活函數為a(u),則

r=a(u)=a(Wv).

(6)

隨機下降連接與隨機退出類似,這兩種方法都引入了動態稀疏模型,但是兩者不同的是,隨機下降連接是權值的“稀疏”,隨機退出是輸出層中輸出向量的“稀疏”.換句話說,將隨機下降連接應用于全連接層時,在訓練階段的“稀疏”連接是隨機進行選擇的.將隨機下降連接應用于全連接層時,輸出為

r=a((M*W)v),

(7)

式中:M表示連接信息的二元矩陣,Mij服從伯努利分布(Mij~Bernoulli(p)).矩陣M中的每個部分在每一次訓練過程中都是獨立的,這就使得每一次初始化網絡連接時都會形成不同的網絡連接.

隨機下降連接模型主要分為3個部分:輸入層、隨機下降連接層和Softmax分類層.

輸入層:x為整個模型的輸入數據,v為輸出,Wg為提取的參數,則有

v=g(x;Wg),

(8)

式中:g()為具有全連接層的神經網絡;Wg為濾波器,即網絡中的參數.

隨機下降連接層:v作為第一步的輸出,W為全連接權值矩陣,a為非線性激活函數,M為二元矩陣,則有

r=a(u)=a((M*W)v).

(9)

Softmax分類層:將r作為輸入,使用參數Ws計算輸出k的維數(k為數字分類的數目),則有

o=s(r;Ws).

(10)

2.3 隨機下降連接在深度學習中的應用

隨機下降連接方法在深度學習中的應用與隨機退出方法相似.深度學習的調優是根據第一步各層參數進一步優化整個多層模型的參數,若訓練樣本數量較小,則很可能在預訓練時產生過擬合.調優階段,將反向傳播網絡引入隨機下降連接,把第一步預訓練獲得的輸出數據作為引入隨機下降連接的反向傳播網絡的輸入進行訓練,調整第一步學習到的權重.由于網絡層之間是神經網絡連接,此時引入隨機下降連接方法可以在調優階段調整第一步通過預訓練得到的比較不理想的權重.

引入隨機下降連接,輸入時隨機讓一些節點不工作,這些不工作的節點也不會得到誤差貢獻,其泛化能力較隨機退出方法更強一些.

3 實驗與結果分析

語音樣本為數字1~10的英文讀音,語音樣本庫中包括9個說話者(6男和3女),并且發音較清晰.實驗首先對語音樣本進行語音特征提取,采用對語音樣本的梅爾倒譜系數MFCC參數進行提取.由于每一個英文數字讀音的特征參數矩陣的維數都比較大,如果不對提取的語音特征進行處理,那么在進行參數訓練時,會使得所需存儲空間以及計算量變得非常龐大.因此,本文使用主成分分析法(PCA)對數據進行降維,得到語音樣本庫,用于語音識別.

3.1 深度信念網絡進行語音識別

在語音樣本庫中取2 000個樣本用于訓練,1 000個樣本用于識別,并構建具有2個隱層的深度信念網絡.訓練階段,大致過程是每層訓練一個RBMs,RBMs網絡如圖6所示.根據RBMs訓練的權值,利用可視層的偏置來產生上一層的輸入,再繼續進行下一個RBMs的訓練[10].與進行傳統神經網絡訓練一樣,每次以100個數據單位進行訓練.

對RBMs的訓練,根據v1(可視層的第一個節點)生成h1,根據h1構造v2,根據v2重構h2,之后更新權值與可視層的偏置和隱層的偏置.深度信念網絡的訓練完成之后還需要把參數傳遞給神經網絡,調優階段仍需要使用普通的神經網絡BP算法.圖7為DBNs訓練流程圖.DBNs預訓練后還有一個調優階段,即在最頂層的RBMs網絡上增加一層BP網絡進行反向傳播,對權值進行微調.經過訓練后,孤立數字識別的正確率為89%.

圖6 RBMs網絡Fig.6 RBMs network

圖7 DBNs訓練流程Fig.7 DBNs training processing

3.2 基于隨機退出優化的深度學習語音識別

基于隨機退出優化的深度學習在預訓練階段仍然使用深度信念網絡完成,之后在調優階段引入隨機退出優化的神經網絡.實驗中深度信念網絡的網絡結構及參數設置為:輸入層500,h1隱層400,h2隱層400,輸出層10,學習率0.01.由于網絡參數是經過深度學習預訓練過的,因此,在調優階段的隨機退出比例較小,設隨機退出的比例為20%,也就是將p設為0.8,與普通神經網絡微調相比,加入隨機退出優化之后,識別率提高了1.5%.

3.3 基于隨機下降連接優化的深度學習語音識別

基于隨機下降連接優化的深度學習在預訓練階段仍然使用深度信念網絡完成,之后在調優階段引入隨機下降連接優化的神經網絡.基于隨機下降連接優化的深度學習與基于隨機退出優化的深度學習類似,也是在深度學習調優階段引入優化方法,設置隨機下降連接的比例為20%,與普通神經網絡微調階段相比,加入隨機下降連接優化之后,深度學習的識別率提高了0.64%.而在運算時間上,加入隨機退出的DBNs網絡以及加入隨機下降連接的DBNs網絡的運行時間,要比相同網絡結構的普通DBNs網絡的運行時間短.BP網絡與3種DBNs網絡的實驗對比結果為:普通BP網絡的正確率為87.2%,普通DBNs網絡的正確率為89%,加入隨機退出的DBNs網絡的正確率為90.5%,加入隨機下降連接的DBNs網絡的正確率為91.14%.

4 結束語

深度學習在對小樣本數據集進行訓練時,容易出現訓練不充分,學習效率不理想以及過擬合現象.針對深度學習在訓練少量數據時易產生的問題,提出了對于深度學習微調階段的改進方法,即隨機退出和隨機下降連接方法,這兩種方法都是針對深度學習在預訓練后的調優階段的優化.隨機退出優化是指隨機選定一些網絡中隱層的一些節點,令選中的節點的權重不工作,隨機下降連接是在輸入時就隨機選定一些網絡中的節點的權重不工作,兩者都類似于平均模型.將這兩種方法應用于深度學習,使得權值更新的過程更具有獨立性,不依賴有固定關系的隱層節點間的作用,降低神經元之間的依賴性,通過調優獲得更穩定的權重,提高了深度學習的效率.

[1] 蔣文,齊林.一種基于深度玻爾茲曼機的半監督典型相關分析算法[J]. 河南科技大學學報(自然科學版), 2016, 37(2):47-51.

[2] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013, 50(9):1799-1804.

[3] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.

[4] 尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015,41(1):48-59.

[5] 李海峰,李純果.深度學習結構和算法比較分析[J].河北大學學報(自然科學版),2012,32(5):538-544.

[6] 王洪,劉偉銘. 深度信任支持向量回歸的耕地面積預測方法[J].鄭州大學學報(理學版),2016,48(1):121-126.

[7] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of machine learning research, 2014, 15(1):1929-1958.

[8] HINTON G, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer science, 2012, 3(4): 212-223.

[9] 胡侯立,魏維,胡蒙娜.深度學習算法的原理及應用[J].信息技術,2015(2):175-177.

[10]WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta, 2013:1058-1066.

(責任編輯:孔 薇)

Application of Deep Learning Model in Speech Recognition Based on Fine-tuning Optimization Method

PENG Yuqing, LIU Fan, GAO Qingqing, ZHANG Yuanyuan, YAN Qian

(SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China)

Deep learning models in the training with small samples appeared over-fitting phenomenon. Two optimization methods called dropout and dropconnect based on deep learning were proposed. The two methods intended to improve the fine-tune stage of deep learning models, which could reduce the amount of training data, and made the update process more independent, rather than depended on the hidden layer nodes. Moreover,the error rate could be reduced. Then the experimental methods and the models were used to train and identify the MNIST handwritten digit data set and the isolated speech vocabulary database. The results showed that the two methods could improve the recognition rates, and ease the phenomenon of over-fitting.

deep learning; speech recognition; neural network; deep belief network

2016-06-23

國家自然科學基金資助項目(51175145);河北省高等學校科學技術研究重點項目(ZD2014030).

彭玉青(1969—),女,湖南永順人,教授,主要從事基于認知機制的多模式感知信息融合、數據挖掘、圖像處理與應用研究,E-mail: pengyuqing@scse.hebut.edu.cn.

彭玉青,劉帆,高晴晴,等.基于微調優化的深度學習在語音識別中的應用[J].鄭州大學學報(理學版),2016,48(4):30-35.

TP391

A

1671-6841(2016)04-0030-06

10.13705/j.issn.1671-6841.2016649

猜你喜歡
隱層權值語音
一種融合時間權值和用戶行為序列的電影推薦模型
CONTENTS
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
基于RDPSO結構優化的三隱層BP神經網絡水質預測模型及應用
人民珠江(2019年4期)2019-04-20 02:32:00
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于權值動量的RBM加速學習算法研究
自動化學報(2017年7期)2017-04-18 13:41:02
基于近似結構風險的ELM隱層節點數優化
計算機工程(2014年9期)2014-06-06 10:46:47
最優隱層BP神經網絡的滾動軸承故障診斷
主站蜘蛛池模板: 亚洲成人免费看| 久久精品视频一| 日本在线国产| 国产午夜一级毛片| 欧美黑人欧美精品刺激| 麻豆精品在线| 欧美国产中文| 色婷婷视频在线| 亚洲色图欧美在线| 亚洲欧美在线看片AI| 中文字幕日韩欧美| 精品久久久久无码| 国产一级毛片在线| 3D动漫精品啪啪一区二区下载| 精品久久蜜桃| 国产成人精品18| 无码丝袜人妻| 国产草草影院18成年视频| 中国成人在线视频| 伊人网址在线| 免费在线a视频| 亚洲综合日韩精品| 国产AV无码专区亚洲精品网站| 伊人AV天堂| 亚洲欧美自拍视频| 国产网站一区二区三区| 亚洲视频在线网| 国产特一级毛片| 丝袜国产一区| 99999久久久久久亚洲| 制服丝袜国产精品| 亚洲精品国产日韩无码AV永久免费网| 亚洲欧美成人在线视频| 成年女人a毛片免费视频| 日本精品影院| 不卡的在线视频免费观看| 91久久精品日日躁夜夜躁欧美| 中文字幕亚洲另类天堂| 国产乱子伦视频三区| 手机在线看片不卡中文字幕| 亚洲无线一二三四区男男| 青青草原国产| 91精品国产91久无码网站| 大香伊人久久| 亚洲愉拍一区二区精品| 在线观看国产精美视频| 欧美视频在线播放观看免费福利资源| 久久精品日日躁夜夜躁欧美| 秋霞午夜国产精品成人片| 亚洲AV永久无码精品古装片| 日本精品αv中文字幕| 一区二区在线视频免费观看| 在线免费看黄的网站| 91在线视频福利| 宅男噜噜噜66国产在线观看| 国产精品亚洲一区二区三区在线观看| 国产麻豆永久视频| 亚洲a级在线观看| 婷婷色婷婷| 国内精品小视频在线| 欧美成一级| 狠狠色丁香婷婷综合| 在线中文字幕网| a欧美在线| 一级爆乳无码av| 国产午夜无码片在线观看网站| 国产av无码日韩av无码网站| 国产精品精品视频| 国产亚洲成AⅤ人片在线观看| 国产精品美女免费视频大全| 免费jjzz在在线播放国产| 免费国产黄线在线观看| 欧美成人午夜在线全部免费| 精品国产三级在线观看| 国产成年女人特黄特色大片免费| 国产在线观看成人91| 国产午夜一级毛片| 人妻无码AⅤ中文字| 就去色综合| 国产精品久久久久鬼色| 久久中文电影| 伊在人亞洲香蕉精品區|