王璟堯,劉云海
(1.浙江大學信息與通信工程研究所,杭州310027;2.浙江省綜合信息網技術重點實驗室,杭州310027)
一種混合深度網絡的抗噪性能研究
王璟堯1,2,劉云海1,2
(1.浙江大學信息與通信工程研究所,杭州310027;2.浙江省綜合信息網技術重點實驗室,杭州310027)
實際圖像識別場景中樣本易受噪聲的影響,且大量訓練樣本的獲取比較困難。針對上述問題,提出一種基于混合結構的深度學習網絡。選擇合適稀疏限制算法運用到自動編碼器中,將其構造在混合結構的深度學習網絡的底層和高層,解決一般自動編碼器無法有效降低背景噪聲影響的問題。在深度學習網絡的中間層插入改進的無向高斯伯努利受限玻爾茲曼機,進行無監督學習得到低層輸出的抽象表示。混合結構的深度學習網絡利用最高的回歸層進行有監督的微調和分類。實驗結果表明,與傳統的淺層算法和經典深度學習網絡相比,該混合結構的深度網絡在大、小樣本量的訓練下均具有較好的抗噪能力。
混合結構;深度網絡;噪聲;稀疏限制;小樣本量
深度學習是一個有效的非監督貪心逐層訓練算法,可以有效解決深層結構的機器學習問題,它是近年來該領域的一個重要突破[1-2],理論研究表明,深層結構需要學習很多淺層結構無法完成的復雜函數。它的目標是學習多層次的特征,通過組合低層特征形成更加抽象的高層表示來得到數據的分布式特征表示[3]。相比于傳統的神經網絡算法,深度學習可以自動從訓練集里提取特征而不需要人工干預,并且引入了概率生成模型,解決了容易陷入局部最優值的問題。2種重要的深度結構為深度置信網(Deep Belief Networks,DBN)[4-5]和堆棧自動編碼器(Stacked Auto-encoders,SAE)[6]。它們分別由若干受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)和自動編碼器堆疊級聯而成。這2種結構都可以被用來解決一系列復雜的機器學習難題,并且使得效果有了顯著提升。在圖像識別問題中,經典的深度學習網絡存在著對抗噪聲水平較差的不足,盡管后來提出的高斯伯努利受限玻爾茲曼機(GRBM)[7]建模成的無向網絡對含噪聲的圖像有著較好的適應性,但是缺少一種將它結合應用于SAE中的結構。
訓練自動編碼器要遠遠較RBM簡單,很多研究將自動編碼器構建于深度網絡的過程中,將它們單獨訓練以減少運算量。此外,在自動編碼器訓練過程中,近期提出的大量稀疏限制規則和編碼可以提高深度學習的效果[8-9]。稀疏編碼的一個重要特征是對外部噪聲具有很強的魯棒性,這對于實際識別的應用場景有著重要意義,因此本文對這一特性做了著重研究。盡管各種結構的深度網絡和訓練算法被提出來,但是很少有研究將它們各自的抗噪優勢結合起來并對實驗結果作對比[10-11]。本文將稀疏限制規則引入自動編碼器中,對堆疊的自動編碼器結構進行拆分,首尾兩層編碼器之間插入無向GRBM層從而組成混合結構的深度學習網絡。在不同強度的噪聲影響下與不同大小的訓練集下測試整個網絡對于分類任務的效果,并與已有的方法進行對比。
2.1 自動編碼器和GRBM
堆棧自動編碼器是使用自動編碼器的深度網絡的一個變體。自動編碼器由編碼器和解碼器兩部分組成,它的目標層輸出和可視層輸入被限制為嚴格相等,目的就是為了讓輸出盡可能復現輸入信號。圖1為一個自動編碼器單元的結構。

圖1 自動編碼器結構
編碼器和解碼器函數如下:

其中,x是輸入編碼向量;ω1是第1層的權值矩陣;ω2是第2層的權值矩陣;c和b分別是隱藏層和目標層的偏置向量;g()是激活函數,一般為sigmoid()或tanh()函數。
自動編碼器的目標函數是最小化重構向量和輸入向量之間的最小二乘距離,從而學會如何去重構它的輸入:

其中,θ={ω1,ω2,c,b}是自動編碼器的參數集向量。多個自動編碼器堆疊在一起組成的深度網絡即為SAE,高層自動編碼器的輸入來自于下一個隱藏層的輸出。與RBM不同,SAE在利用梯度下降法進行訓練時,自動編碼器的梯度值可以簡單精確地被計算出來,并不涉及到像DBN訓練中的隨機采樣過程,計算復雜度較之會大大降低。
GRBM與RBM一樣,也是一個基于能量的隨機神經網絡。它的輸入數據由m個可視層單元向量v={v1,v2,…,vm}以及X組隱藏層單元向量h(X)=組成,第x和x+1層之間的權值向量為ω(X),每個隱藏層的偏置向量為b(X),可視層神經元數據的標準差為σi,故GRBM的參數集向量為。與RBM的能量函數E(v,h|θ)=-∑ijωijvihj-∑ibivi-∑jajhj形式類似,對于一個確定狀態的GRBM網絡,聯合組態的能量可以表示為:

其中,θ是該模型的參數集向量;Nv和Nx分別為可視層和第x層隱藏層的節點數。GRBM中每個節點的(0,1)概率也可以由隨機馬爾科夫場結合它的聯合概率分布來確定:

其中,Z(θ)=∑v,h(X)exp{-E(v,h(X)|θ)}作為所有狀態能量和的歸一化常數被稱為配分函數。當相鄰層狀態給定時,同一層的相鄰節點互相獨立,可視層的條件概率分布為:

其中,N(~|μ,σ2)表示均值為μ、標準差為σ的正態分布概率密度函數。隱藏層的條件概率分布為:



2.2 改進的混合結構深度網絡算法
為了實現混合結構的深度學習網絡(HybridStructure of Deep Network,HSDN),稀疏限制條件被用于自動編碼器,即每一層節點中只有很少的幾個非零元素或只有幾個遠大于零的元素。例如,一張自然圖像(高維復雜向量)就可以被表示成少量基本面或線(稀疏向量)的疊加。
把稀疏限制規則應用到自動編碼器上,無監督學習算法在與訓練過程中的目標函數可被定義為:

其中,β是規則化常量;ρ是隱藏層的平均激活向量,本文實驗選取的DistKL是非標準化的KL散度:

其中,γ是一個接近零值的常量,稱作稀疏目標值,常被用來代表隱藏層的平均輸出[12]。因此,式(10)的梯度可以推導為:

將權值向量ωij和偏置向量c代入θ,得到:

研究表明,對于隱藏層神經元數量大于輸入層的情況,稀疏限制的約束條件可以更好地發現輸入數據中隱含的信息和結構的表達。
盡管Bengio證明,SAE的訓練結果是RBM s的訓練結果的近似[13],但是缺少概率生成模型的結構會使得網絡的泛化能力不足。在訓練自動編碼器的過程中,若輸入數據源受到較大噪聲污染,得到網絡參數并不能很好地對抗測試集中隨機出現的噪聲,從而降低算法的有效性。鑒于求解GRBM參數過程中用到的對比分歧散度算法在Gibbs迭代采樣過程中可以很精確地模擬梯度,而天然的概率生成結構可以更有效地應對噪聲。SAE的優勢在于對于輸入信號中有用信息的盡可能的重構和復現,使得信息通過自動編碼器后最小化出表現形式變化之外的其他損失,以及訓練過程的簡化。故本文方法(HSDN)就是將兩層稀疏限制的SAE中間插入GRBM結構,利用它們各自的分層判別優勢來增大訓練網絡的邊際對數似然估計值。HSDN包括一個底層的稀疏自動編碼器,若干個中間GRBM層,以及高層的一個稀疏自動編碼器,最頂層使用相應的回歸層,具體如圖2所示。

圖2 混合結構的深度學習網絡
基于上述的混合結構的深度學習將SAE結構隔斷,由于各層結構單元的預訓練過程都是逐層貪心算法,結構單元的重組并不影響每層訓練算法的有效性。與深度學習訓練思路類似,HSDN通過一個無監督的貪婪算法逐層去訓練獲得神經元之間的參數,低層經過訓練之后,隱藏層被激活從而作為更高層的輸入。在訓練過程中,含有噪聲的可視層向量v將值傳遞到隱藏層,然后可視層的輸出會被隱藏層隨機重建來嘗試重構輸入向量。文獻[15]提出稀疏算法可能導致概率生成系統不穩定,并不適合所有網絡層,故在本文結構中的GRBM層并無稀疏性限制,而只限定在自動編碼層內。
2.3 網絡訓練流程
在預訓練過程中,最底層的自動編碼器將經過預處理的圖像像素值當作輸入數據,圖2中畫虛線的稀疏限制自動編碼器的部分利用L-BFGS[14]后向傳播算法來訓練;剩余的GRBM部分利用對比分歧算法進行訓練。每個高層的輸入數據都來自于更低層,預訓練結束后,自動編碼器的目標層將不再被使用。最后,通過有監督的訓練方法去微調整個網絡結構從而更新混合結構的參數和學習到的高層特征。本文實驗使用了soft-max回歸層來對網絡得到的結果進行梯度下降的微調參數和最終分類。盡管第2步~第5步是無監督學習過程,但是最終模型分類還是需要頂層的有監督學習進行微調。
第1步 讀取數據集,并進行數據預處理。可選的操作例如基于PCA/ZCA的白化,物理裁剪,歸一化等等,根據輸入圖像的具體情況作決定。
第2步 確定混合深度學習網絡各層神經元數量,對網絡進行建模。
第3步 每做完一次前向傳播計算,通過后向傳播算法利用處理過的輸入數據對首層的自動編碼器進行權值更新。由于存在著稀疏限制,迭代過程中對偏導的求解時應注意改變相應限制項,例如本文計算后使用的系數見式(13)、式(14)。對于底層結構進行重復貪心預訓練,直到達到目標函數收斂條件。
第4步 上一步訓練得到的隱藏層激活向量直接作為GRBM層的輸入進行重構,與經典的對比散度求解相比僅僅多了σ項,具體的迭代采樣算法參照文獻[7]進行,最終得到的參數會將本層結構的能量最小化。
第5步 將GRBM的輸出值作為高層自動編碼器的輸入,重復第3步的算法,最終可以得到輸入向量的一種抽象重構。
第6步 利用10類的soft-m ax回歸層進行有監督學習從而微調迭代計算整個網絡的預訓練參數,得到一個最終網絡構造參數向量集合。
3.1 訓練參數和實驗設計
設計實驗的目的是為了比較本文提出的混合結構算法和非混合的常用深度學習算法以及經典淺層分類方法對于不同程度噪聲的識別率的比較。對比實驗使用了DBN、無稀疏限制的SAE算法、淺層學習Boost trees(17個分支)算法。
實驗測試使用著名的MNIST手寫體阿拉伯數字集[16],它包括60 000張圖像的訓練集和10 000張圖像的測試集,在數據預處理時,將灰度圖像歸一化到[0,1]范圍內,由于本文實驗目的即為觀測算法在不同噪聲下的抗噪性能,因此不使用任何其他減噪預處理的方法。
實驗硬件環境為Core i7-3770S處理器(3.1 GHz主頻)、8 GB內存,利用python和開源的pylearn2項目進行部分深度結構的代碼實現。
為簡化計算,實驗中的深度網絡使用的都是相同的結構,HSDN中間層僅使用一個GRBM結構做訓練,在各層的神經元數量選擇時本文實驗與文獻[3]的參數一致:即可視層為784個單元(數據庫圖片統一為28×28像素),第1個隱藏層為2 000個單元,第2個隱藏層為1 000個單元,第3個隱藏層為500個單元,標記層為10個單元。每層結構的學習速率為α=0.1,權值衰減率為λ=0.003。對于網絡的自動編碼器的稀疏限制訓練算法,參數均使用文獻[14]值,即β=3,γ=0.1以便作對比,soft-max層微調階段的梯度下降迭代次數與預訓練階段保持一致。另外,對比實驗1、實驗2所使用的網絡每層神經元個數與HSDN相同。
預訓練階段的每層最大迭代次數是一個重要的參數,迭代次數的選取會影響訓練效果速度。隨機抽取10 000個訓練集樣本,迭代次數從10~100以每10次遞增進行訓練,利用五重交叉驗證法對HSDN的分類錯誤率進行統計,得到的結果如圖3所示。由實驗結果可知,在迭代次數為50~100之間,最終錯誤率維持在一個相對穩定的狀態,由于增大迭代次數會顯著增加網絡的訓練時間,本文實驗中所構建的網絡單元最大迭代次數均設為50。

圖3 最大迭代次數對分類效果的影響
3.2 結果分析
實驗1 在高斯白噪聲干擾下進行實驗(噪聲強度n從10%~60%,實際效果如圖4所示)。在不同強度的高斯噪聲影響下分別對60 000個訓練集中的樣本進行訓練,同時隨機選取測試集里無噪聲干擾的5 000張圖像作為測試樣本,得到相應識別錯誤率數據見表1。結果顯示,訓練集在30%強度的高斯噪聲影響下,本文的HSDN相比于DBN、SAE和Boost trees在錯誤率上分別降低了6.94%,4.52%和11.64%。實驗數據證明HSDN識別的效果要好于DBN和經典淺層特征的識別算法。特別是隨著噪聲強度(方差)增加,HSDN抗噪聲的能力越來越強,而DBN、SAE結構則介于Boost trees和HSDN之間。

圖4 不同噪聲及強度下的MNIST樣本

表1 不同噪聲強度下分類錯誤率(60 000張樣本)%
從實驗結果可以看出,盡管普通的深度學習結構在錯誤率統計上已經優于淺層學習算法,但HSDN表現出了更好的抗噪性能。這是由于HSDN的底層和高層引入的稀疏限制的自動編碼器結構可以當作降噪器,而中間的隱藏層的GRBM結構相當于接受了降噪處理過的輸入信號,通過其迭代得到的網絡參數能更好地抽象低層的表示向量,防止在出現大量類似噪聲的情況下對于網絡參數的過擬合。
實驗2 不添加噪聲干擾時,在訓練庫的每個數字類別下隨機抽取不同數量的訓練樣本按照對比實驗中的相應方法進行訓練,得到測試樣本的錯誤率和訓練樣本數量關系如圖5所示。

圖5 不同訓練樣本數量下各算法的分類錯誤率
實驗結果顯示HSDN在小樣本訓練集的情況下始終要優于對比實驗結果,并且樣本量越小,HSDN與對比實驗結果的優勢越明顯。對于SAE和DBN來說,兩者在小樣本的訓練集下表現出來的效果相近,因為在網絡神經元個數相同的情況下2種結構的算法差異本質上僅由于目標函數的不同造成。此外,淺層算法Boost trees在訓練樣本較小的情況下較深度結構要差,這是由于深度結構是利用無監督的方式自動學習表征樣本更加本質的特征,對于訓練樣本量的需求并沒有Boost trees那么大。從這個角度上來說,深層結構更接近于“模擬人腦”而淺層結構更接近于“利用機器分類”。
實驗3 為了進一步研究在小樣本訓練集下HSDN的抗噪性能,實驗隨機平均每組抽取5 000個訓練樣本,在不同強度的高斯噪聲影響下重復上述方法進行訓練,對于不使用噪聲干擾的隨機5 000張測試樣本圖像統計識別錯誤率,結果如表2所示。

表2 不同噪聲強度下分類錯誤率(5 000張樣本)%
從實驗結果可以看出,在訓練樣本量減少的情況下,HSDN仍然表現出良好的抗噪能力,錯誤率均比對應情況下的其他方法要更優,證明了本文HSDN網絡結構在不同訓練樣本量下均具有對噪聲較好的魯棒性。
在構建混合結構的深度學習網絡的過程中,本文將有稀疏限制的SAE與GRBM相結合,較大程度提高了算法的抗噪能力,并且實驗結果證明該算法錯誤率低于單純的DBN網絡、SAE網絡和淺層學習算法Boost Trees。另外,HSDN在小樣本量訓練的情況下有著較好的結果。混合結構的深度學習網絡對圖像原始輸入的良好表示和對特征提取方法的不敏感性,適合應用于大量的分類任務。由于現階段訓練速度仍然有限,全面研究在訓練過程中不同參數對最終的抗噪能力的影響是下一步的工作。
[1] Bengio Y.Learning Deep Architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.
[2] 劉建偉,劉 媛,羅雄麟.深度學習研究進展[J].計算機應用研究,2014,31(7):1921-1930.
[3] Hinton G E,Salakhutdinov R R.Reducing the Dimensionality of Data w ith Neural Networks[J].Science,2006,313(5786):504-507.
[4] Hinton G,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.
[5] Bengio Y,Lamblin P,Popovici D,et al.Greedy Layerwise Training of Deep Networks[J].Advances in Neural Information Processing System s,2007,19(1):153.
[6] Pascal V.Extracting and Composing Robust Features with Denoising Autoencoders[C]//Proceedings of the 25th International Conference on Machine Learning.Helsinki,Finland:IEEE Press,2008:1096-1103.
[7] Cho K H,Raiko T,Ilin A.Gaussian-bernoulli Deep Boltzmann Machine[C]//Proceedings of IJCNN'13. Dallas,USA:IEEE Press,2013:1-7.
[8] 錢 康,霍 宏,方 濤.結合稀疏編碼的生物視覺特征提取方法[J].計算機工程,2012,38(13):1-4.
[9] M airal J,Bach F,Ponce J,et al.Online Learning for Matrix Factorization and Sparse Coding[J].The Journal of Machine Learning Research,2010,11(1):19-60.
[10] Bengio Y,Courville A,Vincent P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[11] 鄭 胤,陳權崎,章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報,2014,19(2):175-184.
[12] Lee H,Ekanadham C,Ng A Y.Sparse Deep Belief Net Model for Visual Area V2[C]//Proceedings of Advances in Neural Information Processing System s. Vancouver,Canada:IEEE Press,2008:873-880.
[13] Bengio Y,Delalleau O.Justifying and Generalizing Contrastive Divergence[J].Neural Computation,2009,21(6):1601-1621.
[14] Ngiam J,Coates A,Lahiri A,et al.On Optimization Methods for Deep Learning[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue,USA:IEEE Press,2011:265-272.
[15] Xu Huan,Caramanis C,Mannor S.Sparse Algorithms Are not Stable:A No-free-lunch Theorem[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(1):187-193.
[16] Le Cun Y,Bottou L,Bengio Y,et al.GradientbasedLearning Applied to Document Recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
編輯 索書志
A Research on Anti-noise Per formance of Hybrid Deep Network
WANG Jingyao1,2,LIU Yunhai1,2
(1.Institute of Information and Communication Engineering,Zhejiang University,Hangzhou 310027,China;2.Key Laboratory of Integrate Information Network Technology of Zhejiang Province,Hangzhou 310027,China)
Hybrid structure of deep network which achieves low classification error rate when meeting noisy and limited training data is presented sincemany real world pictures are under noise.Proper sparse regularization algorithm is applied to auto-encoders,which are set on the lower and higher layers and can distinguish background noise more effectively. Middle layer is proposed on the basis of the undirected Gaussian-Bernoulli Restricted Boltzmann Machine(GRBM)to a better abstract representation.Hybrid structure of deep network uses a regression layer on the top for fine-tuning and classification.Experimental results show that hybrid structure of deep network can achieve better performance under noisy background regardless of number of training samples.
hybrid structure;deep network;noise;sparse limit;small sample amount
王璟堯,劉云海.一種混合深度網絡的抗噪性能研究[J].計算機工程,2015,41(11):213-217.
英文引用格式:Wang Jingyao,Liu Yunhai.A Research on Anti-noise Performance of Hybrid Deep Network[J]. Computer Engineering,2015,41(11):213-217.
1000-3428(2015)11-0213-05
A
TP18
10.3969/j.issn.1000-3428.2015.11.037
王璟堯(1991-),男,碩士研究生,主研方向:機器學習,圖像分析;劉云海,副教授、博士。
2014-11-24
2014-12-17 E-m ail:wang-jy@zju.edu.cn