李飛 高曉光 萬開方
?
基于動態Gibbs采樣的RBM訓練算法研究
李飛1高曉光1萬開方1
目前大部分受限玻爾茲曼機(Restricted Boltzmann machines,RBMs)訓練算法都是以多步Gibbs采樣為基礎的采樣算法.本文針對多步Gibbs采樣過程中出現的采樣發散和訓練速度過慢的問題,首先,對問題進行實驗描述,給出了問題的具體形式;然后,從馬爾科夫采樣的角度對多步Gibbs采樣的收斂性質進行了理論分析,證明了多步Gibbs采樣在受限玻爾茲曼機訓練初期較差的收斂性質是造成采樣發散和訓練速度過慢的主要原因;最后,提出了動態Gibbs采樣算法,給出了對比仿真實驗.實驗結果表明,動態Gibbs采樣算法可以有效地克服采樣發散的問題,并且能夠以微小的運行時間為代價獲得更高的訓練精度.
受限玻爾茲曼機,Gibbs采樣,采樣算法,馬爾科夫理論
引用格式李飛,高曉光,萬開方.基于動態Gibbs采樣的RBM訓練算法研究.自動化學報,2016,42(6):931-942
自2006年Hinton等[1]提出第一個深度置信網絡開始,經過十年的發展,深度學習已逐漸成為機器學習研究領域的前沿熱點.深度置信網絡[2]、深度卷積神經網絡[3]、深度自動編碼器[4]等深度網絡也廣泛應用于機器學習的各個領域,如圖像識別、語音分析、文本分析等[5-7].相對于傳統的機器學習網絡,深度網絡取得了更好的效果,極大地推動了技術發展水平(State-of-the-art)[8].尤其在大數據背景下,針對海量無標簽數據的學習,深度網絡具有明顯的優勢[9].
受限玻爾茲曼機(Restricted Boltzmann ma-chine,RBM)[10]是深度學習領域中的一個重要模型,也是構成諸多深度網絡的基本單元之一.由于RBM較難訓練,所以在很多大數據量任務上使用較少.但相對于其他基本模型,RBM具備較強的理論分析優勢和可解釋性,是幫助我們理解深度網絡和其他基本模型內在機理的重要模型,而且在某些特殊數據集上,RBM可以獲得更好的學習效果.所以,研究RBM仍然很有意義.RBM具有兩層結構,在無監督學習下,隱層單元可以對輸入層單元進行抽象,提取輸入層數據的抽象特征.當多個RBM或RBM與其他基本單元以堆棧的方式構成深度網絡時,RBM隱層單元提取到的抽象特征可以作為其他單元的輸入,繼續進行特征提取.通過這種方式,深度網絡可以提取到抽象度非常高的數據特征.當采用逐層貪婪(Greedy layer-wise)[11]訓練方法對深度網絡進行訓練時,各個基本單元是逐一被訓練的.因此,RBM訓練的優劣將直接影響整個深度網絡的性能.
2006年,Hinton等提出了對比散度 (Contrastive divergence,CD)算法[12]用以訓練RBM網絡.在每次訓練迭代時,CD算法以數據樣本為初始值,通過多步Gibbs迭代獲得目標分布的近似采樣,然后通過該近似采樣來近似目標梯度,取得了較好的效果,是目前RBM訓練的標準算法.但研究表明,CD算法對目標梯度的估計是有偏估計[13],而且每次迭代時都需要重新啟動Gibbs采樣鏈,這降低了CD算法的訓練性能.為此,Tieleman等以CD算法為基礎,于2008年提出了持續對比散度(Persistent contrastive divergence,PCD)算法[14].在學習率足夠小的前提下,每次參數更新后,RBM模型的變化不大,可以認為RBM網絡分布基本不變.基于此假設,PCD算法只運行一條獨立的采樣鏈,以上次采樣迭代的采樣值作為下次采樣迭代的初值繼續迭代,而不是像CD算法那樣每次采樣都以樣本數據為采樣初值,取得了比CD算法更好的訓練效果.為了加速PCD算法,Tieleman又于2009年提出了加速持續對比散度(Fast persistent contrastive divergence,FPCD)算法[15],引入了額外的加速參數來提高訓練速度.PCD算法和FPCD算法雖然訓練性能較CD算法有所提高,但并沒有從本質上提高CD算法的混合率[16].不管是CD算法,還是以CD算法為基礎的PCD算法、FPCD算法,都是通過一條Gibbs采樣鏈來逼近目標分布,對于目標分布較簡單的數據,可以取得較好的效果.但當數據分布復雜,尤其為多模分布時,即目標分布函數存在多個峰值,Gibbs采樣鏈很容易陷入局部極小域,導致樣本不能描述數據分布的整體結構[17].為克服這個問題,Desjardins(2010)等[18]、Cho(2010)等[19]、Brakel(2012)等[20]等分別提出應用并行回火算法(Parallel tempering,PT)來訓練RBM.PT算法并行化多條溫度鏈,每條溫度鏈上進行多步Gibbs迭代.高溫鏈采樣目標總體分布的結構信息,低溫鏈采樣目標局部分布的精確信息.不同溫度鏈之間以一定的交換概率進行交換,不斷迭代,最后低溫鏈就可以精確獲得目標分布的總體信息.對于多模分布數據,PT算法的訓練效果要明顯優于CD算法[21].
通過以上描述可知,不管是CD算法還是PT算法,本質上都是以Gibbs采樣來獲得關于目標分布的采樣樣本.因此,Gibbs采樣性能的優劣將直接影響以上算法的訓練效果.本文研究發現,當采用多步Gibbs采樣時,在訓練初期會發生采樣發散現象,嚴重影響網絡收斂速度,而且算法運行速度較慢;當采用單步Gibbs采樣時,前期網絡收斂性質較好,且算法運行速度較快,但后期采樣精度不高.如何在前期保證良好的收斂性質,同時在后期保證網絡訓練精度并提高算法運行速度,是目前基于Gibbs采樣的RBM訓練算法亟需解決的問題,從現有文獻來看,尚無人對以上問題進行研究.因此,本文將從馬爾科夫采樣理論的角度對以上問題進行分析,并提出了動態Gibbs采樣算法,最后給出了仿真驗證.
受限玻爾茲曼機是一個馬爾科夫隨機場模型[22],它具有兩層結構,如圖1所示.下層為輸入層,包含m個輸入單元vi,用來表示輸入數據,每個輸入單元包含一個實值偏置量ai;上層為隱層,包含n個隱層單元hj,表示受限玻爾茲曼機提取到的輸入數據的特征,每個隱層單元包含一個實值偏置bj.受限玻爾茲曼機具有層內無連接,層間全連接的特點.即同層內各節點之間沒有連線,每個節點與相鄰層所有節點全連接,連線上有實值權重矩陣wij.這一性質保證了各層之間的條件獨立性.

圖1 RBM結構Fig.1 Configuration of RBM
本文研究二值受限玻爾茲曼機[23],即隨機變量(V,H)取值(v,h)∈{0,1}.由二值受限玻爾茲曼機定義的聯合分布滿足Gibbs分布,其中θ為網絡參數Eθ(v,h)為網絡的能量函數:

Zθ為配分函數:.輸入層節點v的概率分布P(v)為:.由受限玻爾茲曼機各層之間的條件獨立性可知,當給定輸入層數據時,輸出層節點取值滿足如下條件概率:相應地,當輸出層數據確定后,輸入層節點取值的條件概率為


給定一組訓練樣本S= {v1,v2,···,vn},訓練RBM 意味著調整參數θ,以擬合給定的訓練樣本,使得該參數下由相應RBM表示的概率分布盡可能地與訓練數據的經驗分布相符合.本文應用最大似然估計的方法對網絡參數進行估計.這樣,訓練RBM的目標就是最大化網絡的似然函數:.為簡化計算,將其改寫為對數形式:.進一步推導對數似然函數的參數梯度

得到對數似然函數的參數梯度后,可以由梯度上升法求解其最大值.但由于數據分布P(v)未知,且包含配分函數Zθ,因此,無法給出梯度的解析解.現有訓練算法主要是基于采樣的方法,首先,構造以P(v)為平穩分布的馬爾科夫鏈,獲得滿足P(v)分布的樣本;然后,通過蒙特卡洛迭代來近似梯度:


步驟1.設定網絡參數初值.
步驟2.將訓練數據輸入到輸入層節點,由式(2)對隱層節點值進行采樣,
步驟3.根據式(3)對輸入層節點進行采樣.再以此采樣值作為輸入層節點的值重復步驟2,這樣就完成了一步Gibbs采樣.
步驟4.步驟2和步驟3重復k次,完成k步
步驟5.將步驟4獲得的采樣值帶入式(5)中,計算參數梯度.
步驟6.將步驟5中獲得的參數梯度帶入式(6)中,對參數進行更新.
步驟7.更新訓練數據,重復步驟2~6,直到達到額定迭代次數.
相應的偽代碼如算法1所示:

其中,a為可見層偏置向量,b為隱層偏置向量,w為網絡權值矩陣,η為學習率.
1.1問題實驗描述
1)實驗設計
本文采用的數據集是MNIST數據集,它是二值手寫數據集,也是目前訓練RBM網絡的標準數據集.它總共包含60000個訓練樣本和10000個測試樣本,每個樣本是一幅28像素×28像素的灰度圖.所采用的RBM網絡有784×500個節點,輸入層有784個可見單元,對應灰度圖的784個像素點;輸出層有500個隱層節點,這是目前實驗顯示的訓練效果較好的隱層節點數目.具體的網絡參數初始值設定如表1.

表1 網絡參數初值Table 1 Initial value of parameters
本文設計了6組對比實驗,用60000個訓練樣本對RBM進行訓練,分別迭代1000次,如表2所示.其中CD_k表示進行k步Gibbs迭代.用于顯示的樣本數據的原始圖片如圖2所示.實驗結束后,我們比較了各組實驗的重構誤差,并給出了最終的誤差圖.

表2 實驗分組Table 2 Experimental grouping

圖2 原始數據灰度圖Fig.2 Gray image of initial data
2)仿真結果圖3表示整個迭代過程中各組CD算法的重構誤差圖,圖4給出了各組實驗的訓練時間,圖5~圖10分別給出了各組實驗的采樣灰度圖.

圖3 重構誤差圖Fig.3 Reconstruction error diagram

圖4 運行時間圖Fig.4 Runtime diagram

圖5 CD_1采樣灰度圖Fig.5 Gray image of CD_1 sampling

圖6 CD_5采樣灰度圖Fig.6 Gray image of CD_5 sampling

圖7 CD_10采樣灰度圖Fig.7 Gray image of CD_10 sampling

圖8 CD_100采樣灰度圖Fig.8 Gray image of CD_100 sampling

圖9 CD_500采樣灰度圖Fig.9 Gray image of CD_500 sampling

圖10 CD_1000采樣灰度圖Fig.10 Gray image of CD_1000 sampling
1.2問題歸納描述
上節實驗給出了CD算法在不同Gibbs采樣步數下的仿真圖,可以看出,當RBM網絡采用多步Gibbs算法進行采樣迭代時,會出現如下問題:
問題1.訓練初始階段,得到的每幅重構采樣圖幾乎完全相同.
如圖11、圖12所示,在訓練初始階段,多步Gibbs采樣出現了各組采樣數據同分布的現象,這表明各組樣本幾乎完全相同,這與事實相左.在訓練初期,大約0~100次迭代期間,這種現象持續存在.

圖11 CD_500采樣灰度圖Fig.11 Gray image of CD_500 sampling

圖12 CD_1000采樣灰度圖Fig.12 Gray image of CD_1000 sampling
問題2.采樣誤差分布集中,在批量訓練時,存在全0全1現象.
如圖13、圖14所示,當進行多步Gibbs采樣時,出現了誤差分布集中的現象:有些樣本采樣幾乎全為1,而其他的樣本采樣幾乎全為0.由仿真實驗可知,在0~100次迭代期間,這種現象在迭代初期持續存在.

圖13 CD_500采樣灰度圖Fig.13 Gray image of CD_500 sampling
問題3.一步Gibbs采樣初始誤差小,訓練速度快,但后期訓練精度低;多步Gibbs采樣初始誤差大,訓練速度慢,但后期訓練精高.
如圖15、圖16所示,只進行一步Gibbs采樣的CD_1算法在開始時訓練誤差較小,很快便收斂到較好值,但訓練后期精度不如CD_10等進行多步Gibbs迭代的CD算法;進行多步Gibbs采樣的CD_k迭代算法,在訓練初期誤差較大,且不斷振蕩,而且訓練時間較慢,但到訓練后期,它們可以達到極高的精度.

圖14 CD_1000采樣灰度圖Fig.14 Gray image of CD_1000 sampling

圖15 采樣誤差局部放大圖Fig.15 Local enlarged drawing of reconstruction error in initial phase

圖16 采樣誤差局部放大圖Fig.16 Local enlarged drawing of reconstruction error in later stage
以上實驗表明,CD算法雖然對RBM具有良好的訓練能力,但Gibbs采樣的步數對訓練性能造成了明顯的影響.我們將在下節研究這種影響,并對以上問題給出理論分析.
Gibbs采樣是馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)采樣算法的一種.在RBM訓練中,它的轉移核是Sigmoid函數.隱層節點和輸入層節點交替采樣,公式如下:

由馬爾科夫鏈收斂定理可知,當n→+∞時,Gibbs采樣鏈會收斂到平衡分布,即:

其中,π(x)為樣本x的平衡分布.同時,由細致平衡準則可得:

即Gibbs采樣的平穩分布與迭代初始值無關,只與轉移概率有關.由上面給出的RBM交替采樣概率公式可知,當用Gibbs采樣對RBM進行采樣訓練時,其平穩分布是網絡參數的函數:

從這個角度講,訓練RBM的目的就是調節網絡參數,使由網絡參數確定的平穩分布等于樣本的真實分布.
基于以上描述,下面對第2節中提出的問題給出理論解釋.
問題1.訓練初始階段,得到的每幅重構采樣圖幾乎完全相同.
初始時刻,網絡參數初值相同,在早期迭代過程中,網絡參數值的變動也不大,滿足如下公式:
ε為一極小正值.由網絡參數決定的平穩分布也近乎相同:

即各樣本的平穩分布相等.因此,當進行多步Gibbs采樣時,各訓練樣本的采樣樣本逐漸收斂到相同的平穩分布,這時就出現了問題1描述的現象,各樣本的重構采樣圖幾乎完全相同.
問題2.采樣誤差分布集中,在批量訓練時,存在全0全1現象.
由上一部分分析可知,在訓練初期,網絡參數改變不大,由RBM參數決定的平衡分布幾乎同構,即各采樣概率收斂到相同平衡分布值.上述對比實驗中,網絡參數的初始值為θ=(a,b,w)=(0,0,0.1),此時網絡平衡分布收斂在0.5附近,樣本數據的收斂概率將在0.5附近浮動,即一部分樣本的采樣概率略小于0.5,另一部分樣本的采樣概率略大于0.5,即:

其中,ε為一極小正值.這時基于隨機數對樣本進行采樣,一部分樣本的采樣值將全為0,另一部分的采樣值將全為1,即全0全1現象.
問題3.一步Gibbs采樣初始誤差小,訓練速度快,但后期訓練精度低;多步Gibbs采樣初始誤差大,訓練速度慢,但后期訓練精高.

在網絡訓練早期,網絡參數差較大,由網絡參數定義的平穩分布與真實分布相差也較大,即Δπ=.此時,如果對樣本進行多步迭代采樣,采樣樣本將偏離真實分布,從而不能收斂到真實分布,而是收斂到與真實分布相差較大的其他分布.因此,在迭代初期,CD_1000、CD_500等算法的采樣誤差非常大,而且運行時間較長.而CD_1算法由于只進行了一次采樣迭代,不僅運行速度加快,而且由于采樣樣本的分布沒有偏離真實分布太多,使得這時候的CD_1算法的采樣誤差非常小.由實驗可知,此時采樣誤差的大小關系為:CD_1< CD_5<CD_10<CD_100<CD_500<CD_1000.到了網絡訓練后期,由于網絡參數差非常小,網絡參數的實際值已經非常接近真實值,這時候進行多步Gibbs迭代能很好地逼近樣本真實分布,所以這一階段,CD_k算法的采樣精度要比CD_1高.但由于網絡參數差一直存在,所以,Gibbs迭代步數也不宜過高,如實驗所示,CD_1000在采樣到最后,采樣誤差仍高于CD_10.
在現有以Gibbs采樣為基礎的RBM訓練算法中,Gibbs采樣的采樣步數多為固定值,即在整個訓練過程中,每次迭代采樣時都進行固定步數的Gibbs采樣,這樣就難以兼顧訓練精度和訓練速度這兩個訓練指標.當進行多步Gibbs采樣時,容易在訓練前期發生誤差發散的現象,且算法運行時間較長;一步Gibbs采樣算法運行較快,但后期訓練精度不高,基于此,本文提出了動態Gibbs采樣(Dynamic Gibbs sampling,DGS)算法.
定義1.動態Gibbs采樣是指在迭代訓練過程中的不同階段,根據網絡的訓練誤差,動態地調整Gibbs采樣的步數,以達到最優訓練效果.
通過上節分析可知,在網絡訓練初期,網絡參數幾乎相等,各樣本的平穩分布也近乎相等,而且網絡參數差較大,樣本的平穩分布與真實分布相差也較大,因此,這一階段應盡量減少采樣次數,克服多步Gibbs采樣引起的誤差發散,提高訓練速度,使網絡參數盡快逼近真實值;當網絡參數逼近真實值時,此時應加大采樣迭代次數,提高訓練精度.
基于以上定義和描述,DGS算法的操作步驟如下:
步驟1.設定網絡參數初值和動態策略M.
步驟2.在1~m1迭代范圍內,設置Gibbs采樣步數k1=Gibbs_N1.
步驟3.將訓練數據輸入到輸入層節點,由式(2)對隱層節點值進行采樣.
步驟4.根據式(3)對輸入層節點進行采樣.再以此采樣值作為輸入層節點的值重復步驟3,這樣就完成了一步Gibbs采樣.
步驟5.步驟3和步驟4重復k1次,完成k1步Gibbs采樣.
步驟6.將步驟5獲得的采樣值帶入式(5)中,計算參數梯度.
步驟7.將步驟6中獲得的參數梯度帶入式(6)中,對參數進行更新.
步驟8.更新訓練數據,重復步驟3到步驟7,直到迭代次數達到m1.
步驟9.在m1~m2迭代范圍內,設置Gibbs采樣步數k2=Gibbs_N2.
步驟10.重復步驟3到步驟8,直到迭代次數達到m2.
步驟11.在m2~Iter迭代范圍內,設置Gibbs采樣步數k3=Gibbs_N3.
步驟12.重復步驟3到步驟8,直到迭代次數達到最大迭代次數Iter.
相應的偽代碼如算法2所示.
算法2.DGS算法偽代碼

其中,M=(m1,m2)為動態策略,且滿足m2>m1.Iter為總的迭代次數,iter為當前迭代次數. Gibbs_Ni為Gibbs采樣,Ni表示采樣次數,且滿足Nn>Nn-1.其中Gibbs采樣次數N與網絡訓練迭代次數M 之間的大致關系如下:

本節設計了7組對比實驗,第1~6組實驗采用固定Gibbs采樣步數的CD_k算法進行訓練仿真,第6組實驗用DGS算法對網絡進行訓練仿真,如表3所示.兩組實驗使用相同的數據集MNIST,網絡結構相同,網絡參數初始值相同,如表4所示.本文設計的動態采樣策略如表5所示.下面給出仿真實驗結果和分析.

表3 實驗分組Table 3 Experimental grouping

表4 網絡參數初值Table 4 Initial values of parameters

表5 DGS迭代策略Table 5 Iterative strategy of DGS
4.1重構誤差對比分析
圖17給出了所有算法的重構誤差對比圖.對比結果顯示,本文設計的DGS算法可以很好地訓練RBM網絡,從而證明了本文算法的有效性.
在迭代初期,DGS算法只進行一次Gibbs采樣迭代,避免了采樣發散,從而迅速收斂到較好的值,由誤差對比圖初始階段的局部放大圖(圖18)可以看出,此時誤差滿足:

在迭代后期,網絡參數值已非常接近真實值,此時DGS逐步增大了Gibbs采樣的迭代步數,獲得了采樣精度更高的目標樣本,最終獲得了更高的訓練精度,即:

如圖19所示.

圖17 重構誤差對比圖Fig.17 Contrast of reconstruction error

圖18 訓練初期局部放大圖Fig.18 Local enlarged drawing of reconstruction error in initial phase

圖19 訓練后期局部放大圖Fig.19 Local enlarged drawing of reconstruction error in later stage
4.2運行時間對比分析
圖20給出了所有算法的運行時間對比圖.從圖中可以看出,在整個訓練過程中,DGS算法、CD_1算法、CD_5算法和CD_10算法的運行速度都明顯比其他算法快.因此,下面根據本文設計的動態策略,對各個迭代區間內這4種算法的運行速度進行分析:

圖20 運行時間對比圖Fig.20 Contrast of runtime
在1~300迭代范圍內,DGS算法的Gibbs采樣步數k設為1,與CD_1算法相同.所以,此時的DGS算法的運行速度與CD_1相同,且快于其他兩種算法,如圖21所示.

圖21 運行時間對比圖Fig.21 Contrast of runtime
在300~900迭代范圍內,DGS算法的Gibbs采樣步數k設為5.由圖22可以看出,此時DGS算法的運行速度逐漸放緩,運行時間明顯上升,逐漸大于CD_1算法.
在900~1000迭代范圍內,DGS算法的Gibbs采樣步數k設為10.所以,這個時期的DGS運行時間持續放緩.但從圖23中可以看出,即便到了訓練后期,DGS算法的運行時間仍然小于CD_5算法和其他CD_k(k>5)算法.這說明,DGS算法在后期提高訓練精度的同時,只付出了微小的時間代價.

圖22 運行時間對比圖Fig.22 Contrast of runtime

圖23 運行時間對比圖Fig.23 Contrast of runtime
4.3采樣效果圖
圖24~圖28分別給出了DGS算法在不同迭代次數下的采樣重構圖.對比圖11、圖12,可以看出,DGS在訓練迭代50次以內就可以很好地重構輸入樣本,而且沒有出現全0全1現象和采樣圖同構現象,從而克服了第2.2節問題1和問題2中描述的問題.

圖24 DGS迭代10次采樣灰度圖Fig.24 Gray image of DGS by 10 iterations

圖25 DGS迭代20次采樣灰度圖Fig.25 Gray image of DGS by 20 iterations

圖26 DGS迭代30次采樣灰度圖Fig.26 Gray image of DGS by 30 iterations

圖27 DGS迭代40次采樣灰度圖Fig.27 Gray image of DGS by 40 iterations

圖28 DGS迭代50次采樣灰度圖Fig.28 Gray image of DGS by 50 iterations
圖29顯示了DGS訓練結束后的重構灰度圖,圖中幾乎沒有噪點.可見,采用DGS算法訓練網絡可以獲得更高的訓練精度,從而解決了第2.2節中問題3描述的問題.

圖29 DGS重構灰度圖Fig.29 Gray image of DGS
綜上所述,本文設計的DGS算法在訓練初期克服了多步Gibbs采樣發散的缺點,在訓練后期獲得更高的精度,而且在保證收斂精度的情況下大幅度提高了訓練速度,獲得了較好的效果.
本文首先通過仿真實驗,給出了現有基于Gibbs采樣的RBM訓練算法在訓練初期誤差發散和后期訓練精度不高等問題的具體描述,然后從馬爾科夫采樣理論的角度對Gibbs采樣誤差進行理論分析.證明在RBM網絡下,多步Gibbs采樣較差的收斂性質是導致前期采樣發散和算法運行速度較低的主要原因;單步Gibbs采樣是造成后期訓練精度不高的主要原因.基于此,本文提出了動態Gibbs采樣算法,并給出了驗證實驗.實驗表明,本文提出的動態Gibbs采樣算法在訓練初期克服了多步Gibbs采樣引起的誤差發散,后期克服了單步Gibbs采樣帶來的訓練精度低的問題,同時提高了訓練速度,以上特點可以彌補現有以Gibbs采樣為基礎的RBM訓練算法的不足.
關于Gibbs采樣步數、訓練迭代次數與訓練精度之間的關系,本文在理論分析部分只給出了定性分析;在動態Gibbs采樣算法設計階段,本文只是根據實驗分析,給出Gibbs采樣步數和訓練迭代次數之間的經驗區間.Gibbs采樣步數、訓練迭代次數以及網絡訓練精度之間是否存在精確的數學關系,如果存在,其數學模型如何構建.以上問題仍有待進一步研究.
References
1 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507
2 Le Roux N,Heess N,Shotton J,Winn J.Learning a generative model of images by factoring appearance and shape. Neural Computation,2011,23(3):593-650
3 Su Lian-Cheng,Zhu Feng.Design of a novel omnidirectional stereo vision system.Acta Automatica Sinica,2006,32(1):67-72(蘇連成,朱楓.一種新的全向立體視覺系統的設計.自動化學報,2006,32(1):67-72)
4 Bengio Y.Learning deep architectures for AI.Foundations and Trends?in Machine Learning,2009,2(1):1-127
5 Deng L,Abdel-Hamid O,Yu D.A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Vancouver,BC:IEEE,2013.6669-6673
6 Deng L.Design and learning of output representations for speech recognition.In:Proceedings of the Neural Information Processing Systems(NIPS)Workshop on Learning OutputRepresentations[Online],available: http://research.microsoft.com/apps/pubs/default.aspx?id=204702,July 14,2015
7 Chet C C,Eswaran C.Reconstruction and recognition of face and digit images using autoencoders.Neural Computing and Applications,2010,19(7):1069-1079
8 Deng L,Hinton G,Kingsbury B.New types of deep neural network learning for speech recognition and related applications:an overview.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Vancouver,BC:IEEE,2013.8599-8603
9 Erhan D,Courville A,Bengio Y,Vincent P.Why does unsupervised pre-training help deep learning?In:Proceedings of the 13th International Conference on Artificial Intelligence and Statistics(AISTATS 2010).Sardinia,Italy,2010. 201-208
10 Salakhutdinov R,Hinton G.Deep Boltzmann machines.In:Proceedings of the 12th International Conference on Artificial Intelligence and Statistics(AISTATS 2009).Florida,USA,2009.448-455
11 Swersky K,Chen B,Marlin B,de Freitas N.A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets.In:Proceedings of the 2010 Information Theory and Applications Workshop (ITA).San Diego,CA:IEEE,2010.1-10
12 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527-1554
13 Fischer A,Igel C.Bounding the bias of contrastive divergence learning.Neural Computation,2011,23(3):664-673
14 Tieleman T.Training restricted Boltzmann machines using approximations to the likelihood gradient.In:Proceedings of the 25th International Conference on Machine Learning (ICML).New York:ACM,2008.1064-1071
15 Tieleman T,Hinton G E.Using fast weights to improve persistent contrastive divergence.In:Proceedings of the 26th Annual International Conference on Machine Learning (ICML).New York:ACM,2009.1033-1040
16 Sutskever I,Tieleman T.On the convergence properties of contrastive divergence.In:Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS 2010).Sardinia,Italy,2010.789-795
17 FischerA,IgelC.Paralleltempering, importance sampling, andrestrictedBoltzmannmachines.In:Proceedingsof5thWorkshoponTheoryofRandomizedSearchHeuristics(ThRaSH),[Online],available:http://www2.imm.dtu.dk/projects/thrashworkshop/schedule.php,August 20,2015
18 Desjardins G,Courville A,Bengio Y.Adaptive parallel tempering for stochastic maximum likelihood learning of RBMs. In:Proceedings of NIPS 2010 Workshop on Deep Learning and Unsupervised Feature Learning.Granada,Spain,2010.
19 Cho K,Raiko T,Ilin A.Parallel tempering is efficient for learning restricted Boltzmann machines.In:Proceedings of the WCCI 2010 IEEE World Congress on Computational Intelligence.Barcelona,Spain:IEEE,2010.3246-3253
20 Brakel P,Dieleman S,Schrauwen B.Training restricted Boltzmann machines with multi-tempering:harnessing parallelization.In:Proceedings of the 22nd International Conference on Artificial Neural Networks.Lausanne,Switzerland:Springer,2012.92-99
21 Desjardins G,Courville A,Bengio Y,Vincent P,Delalleau O.Tempered Markov chain Monte Carlo for training of restricted Boltzmann machines.In:Proceedings of the 13th International Conference on Artificial Intelligence and Statistics(AISTATS 2010).Sardinia,Italy,2010.145-152
22 Fischer A,Igel C.Training restricted Boltzmann machines:an introduction.Pattern Recognition,2014,47(1):25-39
23 Hinton G E.A practical guide to training restricted Boltzmann machines.Neural Networks:Tricks of the Trade(2nd Edition).Berlin Heidelberg:Springer,2012.599-619

李 飛西北工業大學電子信息學院博士研究生.2011年獲得西北工業大學系統工程專業學士學位.主要研究方向為機器學習和深度學習.
E-mail:nwpulf@mail.nwpu.edu.cn
(LIFeiPh.D.candidateatthe School of Electronics and Information,Northwestern Polytechnical University. He received his bachelor degree in system engineering from Northwestern Polytechnical University in 2011.His research interest covers machine learning and deep learning.)

高曉光西北工業大學電子信息學院教授.1989年獲得西北工業大學飛行器導航與控制系統博士學位.主要研究方向為貝葉斯和航空火力控制.本文通信作者.
E-mail:cxg2012@nwpu.edu.cn
(GAO Xiao-GuangProfessor at the School of Electronics and Information,Northwestern Polytechnical University.She received her Ph.D.degree in aircraft navigation and control system from Northwestern Polytechnical University in 1989.Her research interest covers Bayes and airborne fire control.Corresponding author of this paper.)

萬開方西北工業大學電子信息學院博士研究生.2010年獲得西北工業大學系統工程專業學士學位.主要研究方向為航空火力控制.
E-mail:yibai_2003@126.com
(WAN Kai-FangPh.D.candidate at the School of Electronics and Information,Northwestern Polytechnical University.He received his bachelor degree in system engineering from Northwestern Polytechnical University in 2010.His main research interest is airborne fire control.)
Research on RBM Training Algorithm with Dynamic Gibbs Sampling
LI Fei1GAO Xiao-Guang1WAN Kai-Fang1
Currently,most algorithms for training restricted Boltzmann machines(RBMs)are based on the multi-step Gibbs sampling.This article focuses on the problems of sampling divergence and the low training speed associated with the multi-step Gibbs sampling process.Firstly,these problems are illustrated and described by experiments.Then,the convergence property of the Gibbs sampling procedure is theoretically analyzed from the prospective of the Markov sampling.It is proved that the poor convergence property of the multi-step Gibbs sampling is the main cause of the sampling divergence and the low training speed when training an RBM.Furthermore,a new dynamic Gibbs sampling algorithm is proposed and its simulation results are given.It has been demonstrated that the dynamic Gibbs sampling algorithm can effectively tackle the issue of sampling divergence and can achieve a higher training accuracy at a reasonable expense of computation time.
Restricted Boltzmann machine(RBM),Gibbs sampling,sampling algorithm,Markov theory
10.16383/j.aas.2016.c150645
Li Fei,Gao Xiao-Guang,Wan Kai-Fang.Research on RBM training algorithm with dynamic Gibbs sampling. Acta Automatica Sinica,2016,42(6):931-942
2015-10-19錄用日期2016-05-03
Manuscript received October 19,2015;accepted May 3,2016
國家自然科學基金(61305133,61573285)資助
Supported by National Natural Science Foundation of China (61305133,61573285)
本文責任編委柯登峰
Recommended by Associate Editor KE Deng-Feng
1.西北工業大學電子信息學院西安710129
1.School of Electronics and Information,Northwestern Polytechnical University,Xi′an 710129