彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩
(河北工業大學 計算機科學與軟件學院 天津 300401)
?
基于微調優化的深度學習在語音識別中的應用
彭玉青, 劉 帆, 高晴晴, 張媛媛, 閆 倩
(河北工業大學 計算機科學與軟件學院 天津 300401)
針對深度學習模型在對小樣本進行訓練時會出現過擬合現象,提出隨機退出優化方法和隨機下降連接優化方法.這兩種方法針對深度學習模型的微調階段進行改進,最大限度減少由于訓練數據量較少使得深層網絡模型訓練出現過擬合現象,并且使權值的更新過程更具有獨立性,而不是依賴于有固定關系的隱層節點間的作用,同時可以降低識別錯誤率.對自建孤立語音詞匯庫進行了訓練和識別,結果表明,在深度信念網絡的基礎上引入隨機退出優化方法和隨機下降連接優化方法可以提升識別率,緩解過擬合現象.
深度學習; 語音識別; 神經網絡; 深度信念網絡
深度學習模型的發展基礎是傳統神經網絡模型,深度學習可以完成需要高度抽象特征的人工智能任務,如語音識別、圖像識別與檢索和自然語言理解等[1].深層模型是包含多個隱層的神經網絡,與傳統神經網絡只具備有限隱層結構模型相比,深層模型可以對特征進行更好的表達,也具備更強大的建模能力[2-3].深度學習模型較傳統的神經網絡模型而言具有很大的優勢,可以克服淺層模型計算能力有限以及泛化能力受到一定制約等缺點[4-5].然而深層模型也遇到一些問題,在訓練時需要大量的數據進行訓練,否則訓練過程中可能學習到訓練數據的噪聲,出現過擬合現象[6].目前,構建大數據集用來進行訓練與學習是比較復雜的,小數據集在實踐領域中的應用更加普遍.因此,解決小數據集在深層模型中的應用會遇到的過擬合問題,具有現實研究意義.
本文提出隨機退出優化方法和隨機下降連接優化方法,對深度學習預訓練后的微調過程進行改進,減少因為訓練數據較少而對深層模型所造成的過擬合,使得權值的更新過程更具有獨立性,而不是依賴于有固定關系的隱層節點間的作用,提高了學習效率.
深度學習在訓練少量樣本時,隨著迭代次數的增加,節點間的依賴性也會增加,導致某些節點必須在其他節點的聯合作用下才工作.提出隨機退出思想的目的是減少節點間的依賴性,此外,也為了減少深度學習對小樣本訓練時過擬合現象的出現.
1.1 隨機退出的思想
過擬合是指一個擬合數據在訓練數據上能夠獲得比其他數據更好的擬合,但是在訓練數據外的數據集上卻不能很好地擬合數據,這種現象稱為過擬合現象.在深度學習訓練中,如果訓練的樣本比較少,那么很容易出現過擬合現象.為了有效防止過擬合現象的產生,提出隨機退出的方法.例如,給定一個假設空間M,設m屬于M,若存在其他數據m′,使得在訓練樣本中m比m′的錯誤率小,但在整體實例分布上m′比m的錯誤率小,那么就說m過度擬合訓練數據.訓練數據中存在噪音或者訓練數據過少是導致過擬合的主要原因.隨機退出是指在進行模型訓練時,隨機選定一些網絡中隱層的某些節點,令這些節點的權重不工作.被選中的隱層中不工作的節點權重可以看作非該網絡結構的節點,但是仍將其權重進行保留,停止這些節點的工作目的是使其暫時停止更新權重,而在下一次樣本輸入時,這些節點將重新開始工作[7].
通常情況下,網絡中的每個節點都是相對獨立的,并且具有保留節點本身的固定概率p,概率p可以根據驗證集來確定,或者直接將其設為0.5.對輸入節點來說,通常最佳的固定概率更接近1.
圖1為沒有引入隨機退出的網絡,將隨機退出引入網絡模型后,將會形成一個稀疏網絡,如圖2所示.圖2中的虛線圓圈表示已經退出的網絡節點,該稀疏網絡包含所有被保留下來的節點.假設該網絡為一個n層網絡,那么該網絡有2n種可能形成的稀疏網絡.這些所有可能形成的稀疏網絡共享權值,總參數仍然為O(n2).每次進行訓練時,將對形成的新的稀疏網絡進行訓練.因此,對引入隨機退出的網絡進行訓練的過程可以看作是對2n個共享權值的稀疏網絡進行訓練的過程.

圖1 未引入隨機退出的網絡Fig.1 Network without dropout

圖2 引入隨機退出的網絡Fig.2 Network with dropout
1.2 隨機退出模型描述
假設一神經網絡模型有L層隱層,l∈{1,…,L}為網絡隱層的索引,向量z(l)為l層的輸入向量,向量y(l)(y(0)=x為輸入)為l層的輸出向量,W(l)和b(l)分別為l層的權值和偏置.
標準神經網絡的前饋操作如圖3所示,其中l∈{0,…,L-1},隱層單元為i.zi和yi分別滿足:

(1)

(2)
式中:f為任意激活函數.
當引入隨機退出之后,神經網絡的前饋操作過程如圖4所示.此時zi和yi滿足:

(3)

(4)

(5)

1.3 隨機退出在深度學習中的應用
深度信念網絡(DBNs)是由多個受限玻爾茲曼機(RBMs)組成的深層網絡,它既可以被看作一個生成模型,也可以被看作一個判別模型[9].它的訓練過程是使用非監督方法進行預訓練獲得權值,這一步與神經網絡隨機初始化初值的過程相似,不同的是深度學習的第一步是通過學習輸入數據結構得到的,與神經網絡通過隨機初始化相比,深度學習獲得的這個初值更接近全局最優.訓練完成之后還需要對網絡參數進行調優,使得認知和生成表示一致.

圖3 標準神經網絡的前饋操作Fig.3 Feed forward of standard network model

圖4 引入隨機退出后神經網絡的前饋操作Fig.4 Feed forward of network model with dropout

方法測試樣本正確率/%訓練樣本錯誤率的均方誤差未引入隨機退出85.50.042引入隨機退出880.066
深度學習的調優是根據第一步各層參數進一步優化整個多層模型的參數,這是一個有監督學習的過程.將隨機退出方法應用于深度學習的調優過程,使得每一個單獨節點學習有用的特征,降低神經元之間的依賴性,調優之后獲得更穩定的權重,提高深度學習的學習效率.表1 為將隨機退出應用于MNIST數據庫識別的前后對比結果,可以看出,過擬合現象減少,識別率提高.
通過實驗可以看出,引入隨機退出方法之后,訓練數據錯誤率的均方誤差較引入前有所增長,但測試樣本識別正確率得到提高,說明隨機退出具有較好的泛化能力,可以防止過擬合.
提出的隨機退出思想是隨機選擇隱層網絡中的一些節點不工作,那么被選中不工作的節點就相當于暫時不在這個網絡中,與之相連的所有權重也不進行工作[10].如果僅僅使與節點相連的一些權值停止工作,則會形成另外一種網絡,就是所提出的基于隨機下降連接思想的網絡.

圖5 引入隨機下降連接后的網絡Fig.5 Network with dropconnect
2.1 隨機下降連接的思想
隨機退出的思想是在反向傳播時只利用剩余的“活躍”節點,也就是只利用那些被隨機選中的節點.這種做法可以顯著減少過擬合現象,并且提高測試性能.隨機退出方法是在訓練過程中以一定概率1-p將隱層節點的輸出值清零,不再更新與該節點相連的權值.與隨機退出方法不同的是,隨機下降連接不是隨機將隱層節點的輸出清零,而是將節點中的每個與其相連的輸入權值以1-p的概率清零.隨機下降連接的推理部分與隨機退出不同,在對隨機退出網絡進行推理時,是把所有的權重W都規整到一個系數p.而在對隨機下降連接進行推理時,采用的是對每個輸入的權重進行高斯分布的采樣,該高斯分布的均值和方差與p有關.圖5是引入隨機下降連接后的網絡.
2.2 隨機下降連接模型描述
假設有一個具有全連接層的神經網絡,輸入層為v=[v1,v2,…,vn]T,權值參數為W(d×n),輸出層為r=[r1,r2,…,rd]T,該輸出是由輸入向量和權值矩陣利用非線性激活函數進行矩陣相乘得出的.設該激活函數為a(u),則
r=a(u)=a(Wv).
(6)
隨機下降連接與隨機退出類似,這兩種方法都引入了動態稀疏模型,但是兩者不同的是,隨機下降連接是權值的“稀疏”,隨機退出是輸出層中輸出向量的“稀疏”.換句話說,將隨機下降連接應用于全連接層時,在訓練階段的“稀疏”連接是隨機進行選擇的.將隨機下降連接應用于全連接層時,輸出為
r=a((M*W)v),
(7)
式中:M表示連接信息的二元矩陣,Mij服從伯努利分布(Mij~Bernoulli(p)).矩陣M中的每個部分在每一次訓練過程中都是獨立的,這就使得每一次初始化網絡連接時都會形成不同的網絡連接.
隨機下降連接模型主要分為3個部分:輸入層、隨機下降連接層和Softmax分類層.
輸入層:x為整個模型的輸入數據,v為輸出,Wg為提取的參數,則有
v=g(x;Wg),
(8)
式中:g()為具有全連接層的神經網絡;Wg為濾波器,即網絡中的參數.
隨機下降連接層:v作為第一步的輸出,W為全連接權值矩陣,a為非線性激活函數,M為二元矩陣,則有
r=a(u)=a((M*W)v).
(9)
Softmax分類層:將r作為輸入,使用參數Ws計算輸出k的維數(k為數字分類的數目),則有
o=s(r;Ws).
(10)
2.3 隨機下降連接在深度學習中的應用
隨機下降連接方法在深度學習中的應用與隨機退出方法相似.深度學習的調優是根據第一步各層參數進一步優化整個多層模型的參數,若訓練樣本數量較小,則很可能在預訓練時產生過擬合.調優階段,將反向傳播網絡引入隨機下降連接,把第一步預訓練獲得的輸出數據作為引入隨機下降連接的反向傳播網絡的輸入進行訓練,調整第一步學習到的權重.由于網絡層之間是神經網絡連接,此時引入隨機下降連接方法可以在調優階段調整第一步通過預訓練得到的比較不理想的權重.
引入隨機下降連接,輸入時隨機讓一些節點不工作,這些不工作的節點也不會得到誤差貢獻,其泛化能力較隨機退出方法更強一些.
語音樣本為數字1~10的英文讀音,語音樣本庫中包括9個說話者(6男和3女),并且發音較清晰.實驗首先對語音樣本進行語音特征提取,采用對語音樣本的梅爾倒譜系數MFCC參數進行提取.由于每一個英文數字讀音的特征參數矩陣的維數都比較大,如果不對提取的語音特征進行處理,那么在進行參數訓練時,會使得所需存儲空間以及計算量變得非常龐大.因此,本文使用主成分分析法(PCA)對數據進行降維,得到語音樣本庫,用于語音識別.
3.1 深度信念網絡進行語音識別
在語音樣本庫中取2 000個樣本用于訓練,1 000個樣本用于識別,并構建具有2個隱層的深度信念網絡.訓練階段,大致過程是每層訓練一個RBMs,RBMs網絡如圖6所示.根據RBMs訓練的權值,利用可視層的偏置來產生上一層的輸入,再繼續進行下一個RBMs的訓練[10].與進行傳統神經網絡訓練一樣,每次以100個數據單位進行訓練.
對RBMs的訓練,根據v1(可視層的第一個節點)生成h1,根據h1構造v2,根據v2重構h2,之后更新權值與可視層的偏置和隱層的偏置.深度信念網絡的訓練完成之后還需要把參數傳遞給神經網絡,調優階段仍需要使用普通的神經網絡BP算法.圖7為DBNs訓練流程圖.DBNs預訓練后還有一個調優階段,即在最頂層的RBMs網絡上增加一層BP網絡進行反向傳播,對權值進行微調.經過訓練后,孤立數字識別的正確率為89%.

圖6 RBMs網絡Fig.6 RBMs network

圖7 DBNs訓練流程Fig.7 DBNs training processing
3.2 基于隨機退出優化的深度學習語音識別
基于隨機退出優化的深度學習在預訓練階段仍然使用深度信念網絡完成,之后在調優階段引入隨機退出優化的神經網絡.實驗中深度信念網絡的網絡結構及參數設置為:輸入層500,h1隱層400,h2隱層400,輸出層10,學習率0.01.由于網絡參數是經過深度學習預訓練過的,因此,在調優階段的隨機退出比例較小,設隨機退出的比例為20%,也就是將p設為0.8,與普通神經網絡微調相比,加入隨機退出優化之后,識別率提高了1.5%.
3.3 基于隨機下降連接優化的深度學習語音識別
基于隨機下降連接優化的深度學習在預訓練階段仍然使用深度信念網絡完成,之后在調優階段引入隨機下降連接優化的神經網絡.基于隨機下降連接優化的深度學習與基于隨機退出優化的深度學習類似,也是在深度學習調優階段引入優化方法,設置隨機下降連接的比例為20%,與普通神經網絡微調階段相比,加入隨機下降連接優化之后,深度學習的識別率提高了0.64%.而在運算時間上,加入隨機退出的DBNs網絡以及加入隨機下降連接的DBNs網絡的運行時間,要比相同網絡結構的普通DBNs網絡的運行時間短.BP網絡與3種DBNs網絡的實驗對比結果為:普通BP網絡的正確率為87.2%,普通DBNs網絡的正確率為89%,加入隨機退出的DBNs網絡的正確率為90.5%,加入隨機下降連接的DBNs網絡的正確率為91.14%.
深度學習在對小樣本數據集進行訓練時,容易出現訓練不充分,學習效率不理想以及過擬合現象.針對深度學習在訓練少量數據時易產生的問題,提出了對于深度學習微調階段的改進方法,即隨機退出和隨機下降連接方法,這兩種方法都是針對深度學習在預訓練后的調優階段的優化.隨機退出優化是指隨機選定一些網絡中隱層的一些節點,令選中的節點的權重不工作,隨機下降連接是在輸入時就隨機選定一些網絡中的節點的權重不工作,兩者都類似于平均模型.將這兩種方法應用于深度學習,使得權值更新的過程更具有獨立性,不依賴有固定關系的隱層節點間的作用,降低神經元之間的依賴性,通過調優獲得更穩定的權重,提高了深度學習的效率.
[1] 蔣文,齊林.一種基于深度玻爾茲曼機的半監督典型相關分析算法[J]. 河南科技大學學報(自然科學版), 2016, 37(2):47-51.
[2] 余凱,賈磊,陳雨強,等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013, 50(9):1799-1804.
[3] 孫志軍,薛磊,許陽明,等.深度學習研究綜述[J].計算機應用研究,2012,29(8):2806-2810.
[4] 尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015,41(1):48-59.
[5] 李海峰,李純果.深度學習結構和算法比較分析[J].河北大學學報(自然科學版),2012,32(5):538-544.
[6] 王洪,劉偉銘. 深度信任支持向量回歸的耕地面積預測方法[J].鄭州大學學報(理學版),2016,48(1):121-126.
[7] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of machine learning research, 2014, 15(1):1929-1958.
[8] HINTON G, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer science, 2012, 3(4): 212-223.
[9] 胡侯立,魏維,胡蒙娜.深度學習算法的原理及應用[J].信息技術,2015(2):175-177.
[10]WAN L, ZEILER M, ZHANG S, et al. Regularization of neural networks using dropconnect[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta, 2013:1058-1066.
(責任編輯:孔 薇)
Application of Deep Learning Model in Speech Recognition Based on Fine-tuning Optimization Method
PENG Yuqing, LIU Fan, GAO Qingqing, ZHANG Yuanyuan, YAN Qian
(SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China)
Deep learning models in the training with small samples appeared over-fitting phenomenon. Two optimization methods called dropout and dropconnect based on deep learning were proposed. The two methods intended to improve the fine-tune stage of deep learning models, which could reduce the amount of training data, and made the update process more independent, rather than depended on the hidden layer nodes. Moreover,the error rate could be reduced. Then the experimental methods and the models were used to train and identify the MNIST handwritten digit data set and the isolated speech vocabulary database. The results showed that the two methods could improve the recognition rates, and ease the phenomenon of over-fitting.
deep learning; speech recognition; neural network; deep belief network
2016-06-23
國家自然科學基金資助項目(51175145);河北省高等學校科學技術研究重點項目(ZD2014030).
彭玉青(1969—),女,湖南永順人,教授,主要從事基于認知機制的多模式感知信息融合、數據挖掘、圖像處理與應用研究,E-mail: pengyuqing@scse.hebut.edu.cn.
彭玉青,劉帆,高晴晴,等.基于微調優化的深度學習在語音識別中的應用[J].鄭州大學學報(理學版),2016,48(4):30-35.
TP391
A
1671-6841(2016)04-0030-06
10.13705/j.issn.1671-6841.2016649