999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

受限玻爾茲曼機研究綜述*

2019-08-13 05:06:38丁世飛于文家
軟件學報 2019年7期
關鍵詞:模型

張 健, 丁世飛,3, 張 楠, 杜 鵬, 杜 威, 于文家

1(中國礦業大學 計算機科學與技術學院,江蘇 徐州 221116)

2(礦山數字化教育部工程研究中心,江蘇 徐州 221116)

3(中國科學院 計算技術研究所 智能信息處理重點實驗室,北京 100190)

1 引 言

RBMs、基于 RBMs的拓展模型及其應用是本文綜述的重點.從目標函數的角度來看,在基于極大似然估計的RBMs中需要計算由配分函數產生的模型期望,而配分函數的計算需要對所有節點的狀態求和,其計算復雜度極高,因此,基于極大似然估計的精確計算是不可行的.在基于近似計算的訓練方法中,大致可分為采樣算法和變分推斷(variational inference)兩種[15,16].采樣算法的基礎是馬爾可夫鏈,其目標是極大化似然函數(極小化KL散度),幾種比較有效的采樣方法為:持續的馬爾可夫鏈(persistent Markov chain)[17]、對比散度(contrastive divergence,簡稱CD)算法[15]、持續的對比散度(persistent contrastive divergence,簡稱PCD)算法[18]以及基于快速權值的PCD(fast persistent contrastive divergence with,簡稱FPCD)算法[19]等.為了促進馬爾可夫鏈收斂,模擬退火和模擬回火算法被應用于采樣中[20-23].當可見層單元的激活不再條件獨立時,可以使用混合的蒙特卡羅算法替代吉布斯采樣.RBMs另一種有效的訓練算法是變分推斷,在變分推斷中,假設存在一個近似分布q,其目標是最小化RBMs聯合概率分布和近似的后驗分布q之間的KL散度,常用的變分推斷方法有平均場算法(mean-field method)等[24].另一種思路是修改 RBMs模型訓練的目標函數,極大似然估計等價于最小化模型分布和數據分布之間的KL散度,KL散度是f散度的一種特殊形式,可以有效地縮小兩個分布之間存在的較大差異,但是當兩個分布之間的差異較小時,KL散度存在過度平滑的問題.因此,針對RBMs的目標函數的改進,一種思路是使用Wasserstein距離來替代KL散度[25],另一種思路是在原有的似然函數基礎上引入對抗損失[26].

傳統的RBMs的節點狀態是二值的,適合處理二值化的數據.對于實值的輸入樣本,如自然圖像和語音,二值RBMs表現比較差.為了解決這個問題,在RBMs的基礎上,學者們提出了多種適用于實值數據的RBMs模型,包括高斯-二值 RBMs(mRBMs)[27,28]、協方差 RBMs(cRBMs)[29]、期望-協方差 RBMs(mcRBMs)[30]、ReLu-RBMs以及spike-and-slab RBMs(ssRBMs)等[31-35].以RBM為基礎,組合變分自動編碼器(variational autoencoders,簡稱VAEs)[36],將RBMs作為VAEs的先驗,可以有效地擬合數據中存在的多峰分布.以RBMs為基礎的無向圖模型在圖像識別、圖像分割、降噪、視頻處理以及圖像生成領域都有廣泛的應用.下面,本文針對上述內容詳細介紹相關模型以及算法.最后,本文討論了RBMs算法存在的問題.

2 玻爾茲曼機

2.1 受限制的玻爾茲曼機

其中,a和b是RBMs的偏置,v表示可見層向量,h表示隱藏層向量,W是權值矩陣,基于能量函數E(v,h),聯合分布可以表示為P(v,h)=Z-1exp(-E(v,h)),可見層單元和隱藏層單元的激活函數可以表示如下:

其中,k是向量的第k個分量,NV是可見層向量的維度,NH是隱藏層向量的維度,RBMs的拓撲結構可以表示為圖1右圖的形式.

將公式(4)表示為期望的形式,可以得到:

如公式(5)所示,等式右邊的第1項稱為模型期望,第2項稱為數據期望,兩個期望的差值決定了似然函數關于參數的梯度.直觀上看,數據期望給出了參數迭代的起始條件,模型期望提供了迭代的終止條件,隨迭代進行,數據期望和模型期望逐漸接近,RBMs的訓練隨迭代趨于穩定,此時,RBMs模型建模了輸入樣本的分布特性.然而在大樣本下,精確地計算這兩個期望是非常困難的,尤其是模型期望.因此,為了降低 RBMs訓練的復雜度,需要對似然函數的梯度做近似,3種不同思路的近似策略可以表示如下.

(1) 首先從似然函數梯度的角度出發,嘗試使用采樣策略,近似似然函數梯度中的兩個期望.采樣策略基于馬爾可夫鏈蒙特卡洛方法.采樣過程可以看作一個馬爾可夫鏈的狀態轉移過程,簡單來說,當馬爾可夫鏈趨于穩定時,采樣得到的樣本就可以代表該分布下的期望值.基于這種思想,Persistent Markov Chain方法被引入到RBMs的訓練中,并用于近似計算似然函數的梯度.然而,這種方法的弊端在于,我們很難判斷馬爾可夫鏈何時達到收斂,而且從收斂性理論分析的角度看,為了保證馬爾可夫鏈收斂,在訓練過程中,RBMs的學習速率需小于馬爾可夫鏈的混合率.然而,馬爾可夫鏈的混合速率很難量化,為了保證收斂,訓練過程往往使用很小的學習率,這在很大程度上影響了RBMs的訓練時間.為了緩解這個問題,學者們提出了兩種對應的思路.

· 第 1種思路針對馬爾可夫鏈的混合過程,嘗試加速馬爾可夫鏈的收斂.典型的方法為模擬退火和模擬回火,在退火和回火算法的幫助下,馬爾可夫鏈可以在更大的學習速率下收斂到穩態.然而,算法的計算復雜度比較高,很難在大規模樣本下訓練RBMs模型以解決實際問題,目前,退火回火算法多用于馬爾可夫鏈的評估;

· 另一個思路嘗試在馬爾可夫鏈的基礎上,對梯度作進一步的近似.在迭代中,不要求馬爾可夫鏈達到穩態,而是選擇K次迭代后的KL散度作為學習的梯度信號,該算法稱為K步對比散度(K-step contrastive divergence,簡稱CD-K)算法.從梯度下降(上升)的角度看,CD算法雖然在迭代的步長上作了進一步的近似,但在似然函數的梯度方向上,CD算法的偏差很小,而且CD算法弱化了馬爾可夫鏈的收斂條件,RBMs可以使用一個比較大的學習率.在 CD算法的基礎上,為了進一步優化似然函數的梯度,PCD算法、FPCD算法相繼提出,這些算法在 CD算法的基礎上,維持數條馬爾可夫鏈,直到RBMs訓練結束,這樣既在一定程度上保證了模型的訓練效率,又從理論上保證了算法的收斂性.

(2) 從似然函數梯度的角度出發,采用變分推斷的思想,通過構造變分下界,利用近似后驗分布q逼近RBMs的聯合分布;或者使用變分推斷的方法近似配分函數.根據這兩種思想,在基于變分推斷的RBMs模型中,大致可以分為基于平均場方法的RBMs模型和基于追蹤配分函數的RBMs模型.

· 在基于平均場的方法中,似然函數可以利用琴生不等式或凸對偶原則進行近似,通過引入近似分布Q,得到似然函數的下界.似然函數的下界可以表示為

由公式(6)可以看出,極大化似然函數與最小化分布Q和P之間的KL散度是等價的.此時,極大似然估計的計算可以使用EM算法,平均場算法的優勢在于:計算速度相比Gibbs采樣為基礎的采樣算法快得多.然而,平均場算法在逼近模型期望時效果并不理想,因為模型期望通常是多模態的(multi-modal),而平均場算法假設分布是單模態的.為了緩解這個問題,有學者提出將平均場算法用于近似數據期望,使用持續的馬爾可夫鏈來近似模型期望;另外有學者將平均場算法結合CD算法;還有學者在原平均場算法的基礎上,使用二階近似;或者在平均場的基礎上,進一步參數化平均場參數.

· 在基于追蹤配分函數的 RBMs模型中,RBMs的配分函數是能量函數針對所有狀態的和,可以表示為如下的表達式:

其中,(x)為指數形式的能量函數,可以表示為 e-E(x),對于配分函數,可以使用參數化的變分分布q來近似未積分的能量函數(x),然后使用q(x)來追蹤配分函數.此方法相比于平均場方法的優點在于,可以相對有效地近似多峰分布,缺點是計算復雜度較高,需要多次從近似分布q(x)中采樣,并交替更新(x)和q(x)才能取得比較理想的近似效果.

(3) 從目標函數的角度出發,修改RBMs模型訓練的目標函數,傳統的RBMs模型采用的目標函數都是基于邊緣分布的似然函數,以KL散度的形式表達,但是KL散度的特點導致了RBMs模型訓練得到的分布相比于樣本分布來說過于平滑,為了解決這個問題,學者們從目標函數入手,改變目標函數的形式,解決KL散度中存在的問題.一種修改的思路是將傳統的KL散度替換為Wasserstein距離,從而使RBMs得到銳利的生成圖像;另一種思路是在原有的似然函數的基礎上,加入對抗損失,利用對抗生成網絡(generative adversarial nets,簡稱GANs)的思想來訓練RBMs模型,利用對抗損失緩解RBMs模型過度平滑的問題.

2.2 RBM的訓練算法

2.2.1 對比散度算法

根據文獻[15],公式(8)的最后一項可以忽略,將 CD算法應用到 RBMs模型中,首先在給定輸入向量v(0)時,利用W計算隱藏層單元的激活概率和激活狀態h(0),然后基于W計算v(1)和h(1),得到的(v(1),h(1))作為一步CD算法的狀態量,似然函數的梯度估計可以表示為

CD算法在很大程度上減小了采樣過程的復雜度,為了直觀表示CD算法的計算過程,本文將算法的示意圖繪制如圖2所示.

CD算法被廣泛用到RBMs模型的訓練中.使用一步CD算法來估計似然函數的梯度,可使用一個較大的學習率來訓練RBMs模型,然而CD算法是一個非常粗糙的近似,該算法還可以利用馬爾可夫鏈的思想進行優化.

2.2.2 PCD算法和FPCD算法

雖然CD算法降低了似然函數梯度計算的復雜度,但是CD算法在迭代步長上作了一個粗糙的近似,為了更加精確地逼近似然函數的梯度,并把算法的計算復雜度控制在合理的范圍內,PCD算法和FPCD算法被提了出來,不同于CD算法,PCD算法在訓練過程中維持了完整的馬爾可夫鏈,馬爾可夫鏈的數量等于每一個mini-batch中的樣本數,馬爾可夫鏈的狀態轉移過程一直維持到訓練過程結束.使用PCD算法在計算開銷上幾乎與CD算法一致,但是由于維持了完整的馬爾可夫鏈,算法對似然函數的逼近更加有效.FPCD算法討論了學習速率和馬爾可夫鏈混合速率之間的關系,指出權值的更新過程加速了馬爾可夫鏈的混合,促進馬爾可夫鏈收斂到穩態.因此,FPCD算法引入快速權值來加速馬爾可夫鏈的收斂.

2.2.3 平均場算法

其中,θ為參數.為了獲得極大似然估計,需要求解似然函數關于參數的梯度:

公式(12)的第 2個期望依然無法直接計算,可以繼續使用平均場方法逼近該期望.然而,用平均場算法直接估計模型期望是不精確的,原因在第 2.1節中已經給出解釋,為了緩解這個問題,學者們在平均場方法的基礎上提出了如下方法.

第1種借助對比散度算法,采用基于對比散度思想的平均場算法;

第2種方法利用平均場來近似數據期望,采用Persistent Markov Chains來近似模型期望,該方法與PCD算法有些類似;

第3種思路是在原有的平均場算法的基礎上,通過進一步假設平均場參數u是服從高斯分布的隨機變量,引入u的先驗分布,從而緩解傳統平均場難以近似多峰分布的問題[37].

第 4種思路是使用二階平均場近似來代替傳統的一階平均場方法.二階近似也可以在一定程度上增加平均場方法近似多峰分布的能力.

2.2.4 基于追蹤配分函數的變分推斷法

傳統的變分推斷方法使用變分近似分布q(h|x)來近似后驗概率p(h|x),這種方法在 RBMs中被簡化為平均場方法,但是傳統的平均場理論存在難以近似多峰分布的缺點,因此,為了能夠更加有效地近似多峰分布,學者們從變分推斷的角度出發,利用變分推斷的思想近似RBMs模型的配分函數,通過追蹤RBMs的配分函數,達到近似似然函數的目的.不同于傳統的變分推斷,變分近似q(x)被用于近似未積分的函數(x),此時配分函數可以寫成如下形式:

將公式代入RBMs模型中,得到如下似然函數的下界:

其中,a是超參數.該方法雖然能夠有效地利用變分推斷的方法追蹤配分函數,但仍然存在一些問題,在訓練過程中,由于需要交替地更新p?(x)和q(x),因此算法的計算復雜度較高.

2.2.5 基于Wasserstein距離的RBMs模型和基于對抗損失的RBMs模型

傳統的 RBMs模型是基于似然函數的,似然函數定義為可見層單元的邊緣分布形式,優化似然函數等價于最小化模型分布和數據分布之間的KL散度,KL散度是f散度的一種特殊形式,基于f散度的RBMs模型在訓練中會存在過度平滑化的問題,從而忽略了數據分布中存在的一些非平滑現象,為了解決這個問題,學者們嘗試從RBMs的目標函數入手,創建新的目標函數來優化 RBMs模型存在的問題.首先,度量模型分布和數據分布之間的距離可以使用更加有效的方式來定義.一種基于該思想的改進模型為基于 Wasserstein距離的 RBMs(WRBMs),在WRBMs中,使用Wasserstein距離來度量模型分布和數據分布之間的差異,這種形式的目標函數不僅能夠懲罰兩個分布之間差異較大的部分,也能夠懲罰分布之間較小的差異,緩解 RBMs模型存在的過度平滑化的問題.

另一種針對RBMs目標函數的改進是構建基于對抗損失的RBMs模型(GAN-RBMs),在GAN-RBMs中,目標函數在似然函數的基礎上引入對抗損失函數,使用 RBMs作為對抗網絡的生成器,同時隱層單元的激活作為對抗生成網絡的critic函數,用來判別可見層單元的激活是來自于數據還是來自于RBMs模型的重構,基于這種思想,在目標函數中加入對抗損失,可以使RBMs模型有效地擬合數據分布中存在的多峰分布.這兩種方法的缺點在于計算復雜度較高,而RBMs模型存在的最大問題就是其訓練比較困難,進一步增強RBMs模型的建模能力并降低RBMs訓練算法的復雜度仍然是研究的重點問題.

2.2.6 不同訓練算法的聯系與比較

從極大似然估計的角度來看,PCD算法和FPCD算法是CD算法的擴展,他們的優勢在于,在CD算法的基礎上,維持了完整的馬爾可夫鏈來近似模型的分布,相比于CD算法,PCD算法和FPCD算法在付出較少的額外計算開銷的前提下,可以使用較大的學習率、更加精確的逼近似然函數的梯度.平均場算法與這 3種算法不同,是基于變分推斷的近似方法,算法不需要采樣過程,因此速度更快,但是,由于存在更強的獨立性假設,算法在近似模型期望的時候效果不好.一般而言,平均場方法比較適合近似數據期望,而采樣方法比較適合近似模型期望.在DBMs的訓練中,就使用平均場方法和Persistent Markov Chain分別來逼近數據期望和模型期望.無論是變分近似還是采樣算法,都是為了近似模型分布以及模型分布下的期望而提出的方法,模型期望源于配分函數,因此,在2017年,有學者提出了基于變分方法的近似算法來直接逼近配分函數,這就是第2.2.4節的內容.直接構建變分邊界從而逼近配分函數的優勢在于可以獲得更有效的極大似然估計.缺點是,相對于CD以及PCD算法,該方法的計算復雜度更高,需要更多的訓練時間.以上的方法都是基于極大似然估計的,對于RBMs而言,極大似然估計等價于最小化數據分布和模型分布之間的KL散度,但是,KL散度是不對稱的,最小化數據分布和模型分布之間的KL散度,在一定程度上會使模型分布和數據分布之間的KL散度增大,這會導致RBMs模型產生的模型分布過度平滑(over-smoothing),為了解決這個問題,有學者將對抗損失引入到 RBMs模型中,構建了(Boltzmann embedded adversary machines,簡稱BEAMs)模型,從另一個角度上看,將KL散度替換為其他的距離度量方式,也可以改善RBMs模型分布過度平滑的問題,基于這個思路,Wassertein距離被引入到RBMs中,這就是第2.2.5節的內容.為了更加直觀地對比各種算法在近似 log似然時的精度,參照 FPCD算法中的實驗,我們列舉了如下的對比結果.

由于Wasserstein RBMs采用的loss形式不同,因此未加入對比圖.由圖3可知,雖然基于變分方法的VRBM訓練耗時較長,但是對于測試數據集上的log似然指標,VRBM表現較優.

2.3 實值RBMs模型

傳統的RBMs的單元有兩種狀態:0或1,這種形式的激活單元適合處理二進制數據,最初的RBMs也被稱為二值RBMs(binary-RBMs).雖然二值的RBMs在MNIST等二值化數據集上的分類和特征提取都取得了令人滿意的效果,RBMs也被用來構建深度模型,成為深度神經網絡的重要組成部分,但是對于實值圖像的建模,二值的RBMs表現得并不理想,因為在輸入數據的二值化過程中,一些重要信息將會丟失.因此,如何調整 RBMs模型,使其更適合建模實值數據,是RBMs研究的另一個重點問題.

2.3.1 指數族RBMs

從概率圖的角度看,RBMs是一種無向圖模型,其中,每一層單元的激活是條件獨立的,傳統的二值RBMs模型可以看作指數族 RBMs(Exp-RBMs)的特例,在 Exp-RBMs中,激活概率可以利用 Bregman Divergence表示如下:

其中,ηj是單元hj的輸入,ui是單元vi的輸入,g是基礎統計量(base measure),Df是激活函數f的 Bregman Divergence,可以表示為Df(ηj||hj)=-ηjhj+F(ηj)+F*(hj),F為f的積分函數,有:dF(ηj)/dη=f(ηj),F*是f反函數f-1的積分函數.假設基礎統計量為常量.即g(hi)=c,那么,分布函數P(hj||ηj)可以使用高斯分布來近似:

基于公式(19),我們可以看出,不同形式的激活函數將產生不同形式的高斯近似.并且,根據激活函數及其積分函數,Exp-RBMs的能量函數可以表示為

表1列舉了不同形式的激活單元和Exp-RBMs中高斯近似分布之間的對應關系.

Table 1 The Gaussian approximation of different activation functions[8]表1 不同形式的單元和高斯近似之間的對應關系表[8]

在Exp-RBMs中,給定與節點i直接相連的所有節點時,節點i與本層內的其他節點是條件獨立的.對于不同的激活函數,利用Exp-RBMs可以得到不同的條件高斯分布.然而,Exp-RBMs同樣也存在一些問題:雖然條件高斯分布是實值化的,但是可見層單元的激活是條件獨立的,在獨立性假設下,Exp-RBMs不能表達可見層節點之間的相關性,而這種相關性在一些實際問題中非常關鍵.接下來,本文將綜述一些實值RBMs模型,這些模型嘗試利用條件高斯分布建模可見層單元的激活概率和相關關系.

2.3.2 其他形式的實值RBMs

為了建模實值的輸入數據,學者們嘗試使用實值單元替換 RBMs中的二值單元.基于這一思想,高斯 RBMs(mRBMs)提出.假設給定隱藏層節點時,可見層單元的激活服從條件高斯分布,mRBMs利用網絡中的權值和偏置參數化條件高斯分布的期望,并假設協方差是一個超參數的對角矩陣,此時 mRBMs的能量函數可以表示如下:

其中,σ是協方差,a,b是偏置,激活函數可以表示為如下形式:

由于 mRBMs的協方差矩陣是一個對角矩陣,已知隱藏層節點的狀態時,可見層單元的激活是條件獨立的.從 Exp-RBMs的角度看,mRBMs是一種特殊形式的 Exp-RBMs,尤其是當激活函數為 ReLU或 Softplus時,Exp-RBMs中可見層和隱藏層單元都是實值化的[38,39].然而,很多實值數據之間是存在相關性的,例如自然圖像,圖像的像素點之間是相關的,而忽略這種相關性的mRBMs和Exp-RBMs都不能很好地建模實值圖像數據.針對這個問題,學者們提出了一類新的RBMs模型:協方差RBMs(cRBMs)和(spike-and-slab RBMs,簡稱ssRBMs).在cRBMs中,可見層單元服從條件高斯分布,不同于mRBMs,cRBMs在隱藏層h引入附加因子f用于建模條件高斯分布非對角的協方差矩陣,其能量函數可以表示如下:

其中,F是附加因子的數量,C=(Cif)∈RD×F是可見層單元和因子f之間的權值矩陣,P=(Pif)∈RJ×F是隱藏層單元和因子之間的權值矩陣,激活概率可以表示如下:

由于可見層單元的激活函數具有非對角的協方差矩陣,分塊的Gibbs采樣不適用于采樣可見層單元的狀態值.因此,基于自由能的混合蒙特卡羅算法(hybrid Monte Carlo,簡稱 HMC)被引入到可見層單元的采樣過程中,cRBMs的自由能可以表示如下:

在cRBMs中,激活函數與自由能成F(v)反比:P(v)∝exp(-F(v)),其中,協方差被參數化.然而,高斯分布的期望在建模圖像的過程中也是非常重要的,為了同時參數化條件高斯分布的期望和協方差,并且降低采樣過程的計算復雜度,ssRBMs被提了出來,ssRBMs的能量函數可以表示如下:

其中,Wj是權值矩陣的第j列,α和Λ是對角矩陣,ssRBMs的條件激活概率可以表示如下:

在 RBMs模型的基礎上,稀疏編碼也可以被拓展到 ssRBMs中.表 2顯示了 ssRBMs與其他 RBMs算法(mRBMs、cRBMs、mcRBMs)在分類上的對比結果.

Table 2 The classification accuracies of RBM models表2 mRBMs、cRBMs、mcRBMs、ssRBMs在CIFAR-10上的分類精度

RBMs有許多針對特定問題的模型變體,例如:Mixed-variate RBMs[40,41]、Cumulative RBMs[42]、Thurstonian RBMs[43]、correspondence RBMs[44]、Relevance RBMs[45].為了處理異構數據,Tran等人提出了 Mixed-variate RBMs模型建模變量,在此基礎上,Tran等人針對向量和矩陣數據類型,提出了Cumulative RBMs;在跨模態任務中,Feng等人提出correspondence RBMs模型,Zhao等人提出Relevance RBMs來處理圖像視頻中的分類問題.與此同時,許多學者針對 RBMs的模型結構和能量函數做出了一些針對性的調整,例如:Discriminative RBMs[46]、Boosted Categorical RBMs[47]、Fuzzy RBMs[48].其中,Larochelle和 Bengio將決策成分(discriminative component)引入到RBMs模型中,并提出了Discriminative RBMs模型.針對不平衡數據問題,Lee和Yoon在CD算法的基礎上提出了Boost CD算法.Chen等人提出了Fuzzy RBMs以提高RBMs的魯棒性.

2.3.3 實值RBMs之間的聯系和區別

首先需要指明的是,高斯-二值RBMs(mRBMs)是早期對RBMs的擴展,其計算復雜度與RBMs相當,是最常用的實值RBMs模型,但是由于其建模實值圖像的效果不佳,后期學者們以條件高斯分布為基礎,相繼擴展出了cRBMs、mcRBMs、ssRBMs等模型,這些模型的產生與發展關系可如圖4所示.

具體來說,在RBMs剛提出的時候,模型僅適合處理二值數據,這在很大程度上限制了RBMs模型的使用和推廣,為了緩解這個問題,學者們開始研究如何將 RBMs模型應用到實值數據中.最初,Hinton等人提出,使用RBMs中節點的激活概率來表示節點狀態,這樣,RBMs可以表示區間[0,1]之間的數據,但是使用這種近似方法取得的效果并不理想.為了解決這個問題,mRBMs提出,該模型假設 RBMs的可見層節點在給定隱層節點的時候相互獨立并服從高斯分布,通過建模高斯分布的期望來建模條件概率分布.mRBMs是 RBMs模型的直接擴展,是早期最有效的處理實值數據的RBMs模型,其計算復雜度不高,至今仍在被廣泛地使用在簡單的圖像識別問題中.然而,mRBMs假設可見層單元是條件獨立的,把基于這種假設構建的后驗概率應用到 Gibbs采樣中,會導致采樣的模型分布也隱含了條件獨立性,從而影響了RBMs建模實值數據的效果,尤其是實值圖像,因為圖像像素點之間往往是存在一定相關性的,因此,mRBMs建模實值數據的能力還存在提升的空間.在此基礎上,為了建模條件高斯分布的協方差,cRBMs和ssRBMs被提出.在cRBMs的基礎上,mcRBMs被提出,mcRBMs用于同時建模條件高斯分布的期望和協方差.然而,cRBMs和mcRBMs訓練存在的問題是,需要使用混合蒙特卡洛采樣來計算可見層單元的激活概率.為了能使用分塊的Gibbs采樣,ssRBMs及其改進模型引入了額外的因子,從而構建基于對角矩陣的高斯分布.然而,目前主流的實值RBMs及其訓練算法也存在一定的不足.對于無向圖模型,由于需要計算由配分函數產生的模型期望,因此精確的計算是不可行的,目前的算法都是以使用不同的近似方法來逼近模型期望的梯度.本節涉及的實值RBM模型都是基于采樣算法的,采樣算法的一個問題是需要維持馬爾可夫鏈,并且計算復雜度較高.如何高效地近似 RBM 中的模型期望,一直以來是研究的難點問題.并且,擴展RBM的層數也是目前研究的熱點問題.目前學者們研究的主流方向一方面是結合RBMs和其他模型已完成分類或圖像生成等任務,另一方面,學者們也在研究如何更加有效地訓練RBMs模型.

3 RBMs與神經網絡

20世紀80年代,Hinton和LeCun等學者提出了反向傳播算法(BP)用來訓練多層神經網絡.基于梯度下降的思想(gradient descent),BP算法是一種求目標函數梯度的訓練算法,參數的更新與誤差函數關于參數的梯度相關:θi←θi-1-?θLoss,根據鏈式法則,BP算法在計算多層網絡每一層的梯度?θLoss時是高效的,但是,基于BP算法的神經網絡存在一些問題.反向傳播算法是通過隨機梯度下降的思想來計算的,這是一個高度非凸問題,并且非常依靠微調和經驗,且反向傳播算法受限于局部最優、過擬合等問題,只能訓練淺層網絡.為了解決多層網絡的訓練問題,有學者從神經網絡的誤差曲面和局部最優解的角度分析,利用正則化等手段,改變神經網絡的初始化權值在誤差曲面上生成的位置,從而使多層神經網絡更容易收斂到較好的局部最優解.為了使神經網絡得到一個較好的初始權值,基于 Boltzmann分布和馬爾可夫隨機場理論的玻爾茲曼機被提了出來.玻爾茲曼機利用能量函數來描述神經網絡的統計特征.而神經網絡可以被描述為一種特殊形式的玻爾茲曼機:RBMs.通過RBMs模型,神經網絡可以在統計力學上獲得解釋,基于RBMs的深度置信網(deep belief nets,簡稱DBNs),利用逐層預訓練的貪婪算法,成功地訓練了多層的神經網絡.隨后,深度學習的概念逐漸出現在公眾視野中.可以說,RBMs是深度學習的先驅.在普通的前饋神經網絡的基礎上,簡單的堆疊 RBMs模型可以產生兩種不同的深度結構:DBNs和DBMs,結合卷積網絡結構,卷積深度置信網(convolutional neural networks,簡稱CNNs)在處理圖像數據時非常有效[49-55].目前,RBMs模型還被結合到當下常用的變分推斷模型(如變分自編碼器)以及對抗神經網絡中.RBMs和神經網絡的結合一方面促進了傳統多層感知器的訓練,使網絡的層數得以擴展,進而開辟了深度學習的浪潮.另一方面,由于RBMs的推理是雙向的,將神經網絡和RBMs結合得到的模型既可以用于判別,也可以用于生成,而生成模型是目前階段深度學習研究的另一個熱點.

3.1 DBNs和DBMs

DBNs是一種混合的圖模型,頂部為無向的關聯記憶,余下的層滿足自上而下的生成連接.DBNs可以由RBMs逐層堆疊來創建,逐層貪婪地訓練RBMs模型,將前一個RBM的輸出作為下一個RBM的輸入,逐層堆疊則得到DBNs.DBNs可以用于初始化神經網絡的權值,以一個簡單的3層模型為例,由DBNs建立的聯合概率分布可以表示如下:

其中,P(h(2),h(3))表示RBMs的聯合分布,P(v|h(1))和P(h(1)|h(2))為RBMs的條件分布,根據RBMs的分布函數,有:

其中,b(i)表示第i個隱藏層的偏置,W(i)表示第i-1層和第i層之間的權值矩陣,利用逐層訓練的方法,可以有效地初始化一個 DBNs模型.DBMs是一種層次化的概率無向圖模型,每一層單元的激活取決于與之直接相連的上下兩層的節點.雖然 DBMs的計算復雜度高于 DBNs,但是由于DBMs每一層單元的激活組合了更加抽象的特征,DBMs的圖像生成能力更加出色.以含有2個隱藏層的DBM模型為例,其能量函數可以表示如下:

根據能量函數,DBMs單元的激活概率為

DBNs和DBMs模型都可以看作前饋神經的多層神經網絡,通常,使用RBMs初始化的DBNs和DBMs是一種無監督模型,無監督初始化的神經網絡若想完成監督學習的任務,則必須建立特征與標簽之間的映射關系.基于訓練后的DBNs和DBMs,綜合監督學習的方法,可以完成模式識別任務,常用的監督學習方法有:

(1) 基于BP算法的權值微調.

(2) 基于wake-sleep算法的認知生成過程.

(3) 基于Class-RBMs和分類器的組合.

第1種方法是目前最主流的監督學習算法,BP算法基于梯度下降的思想,其中,有一個相當粗糙的梯度下降法取得了巨大的成功:隨機梯度下降(stochastic gradient descent,簡稱 SGD),在基于監督學習的深度網絡(deep neural nets,簡稱DNNs)中,SGD是梯度下降法中最簡單的,然而,SGD算法在訓練DNN時取得了非常好的效果.至于為什么非常粗糙的算法對神經網絡這種復雜的優化問題有效,仍然是一個有待進一步研究的問題.

Wake-sleep算法是一種基于認知科學的算法:在神經網絡中,當訓練數據是自上而下生成的時候,那么被用于自上而下(top-down)生成圖像的隱藏層單元的狀態就可以用于訓練自下而上(bottom-up)的認知權值(reco-weights)[56].如果我們已經獲得了較好的認知連接(reco-connections),就可以根據前一層的活躍度信息重建下一層的活躍度,從而學習生成權值.給定生成權值(generative weights),算法學習得到認知權值(recognition weights);反之,給定認知權值,算法也可以學習生成權值.在清醒階段(“wake” phase),認知權值被用于自下而上驅動神經元,相鄰層神經元的狀態被用于訓練生成權值;在睡眠階段(“sleep” pahse),自上而下地生成連接被用于認知連接的學習,從而生成數據,此時相鄰層的神經元狀態就可用于學習認知連接.

第3種方法是基于Class-RBMs以及分類器的監督學習方法.Class-RBMs是一種基于樣本和標簽的RBMs模型,Class-RBMs建模輸入x和標簽y之間的聯合概率分布.其能量函數可以表示如下:

基于能量函數,激活函數可以表示為

此時,可以求得關于標簽y和輸入x的條件概率:

其中,F(y,x)為自由能.Class-RBMs建立了輸入數據和標簽之間的聯合分布,這在一定程度上類似于 BP算法,不同的是,BP算法包含了特征逐層抽象的過程.基于Class-RBMs,在模型堆疊之后直接使用分類器,例如支持向量機(support vector machines,簡稱SVMs),也可以獲得比較理想的識別效果.

3.2 基于變分自編碼和GAN的混合模型

VAEs模型被廣泛地應用于半監督學習和圖像生成中,VAEs是基于貝葉斯原理的有向圖模型,分為編碼器和解碼器兩部分,在傳統的自編碼網絡中,從X→Z→X′,X表示輸入,Z是自編碼器的隱式表達,X′是解碼表示.這樣的一個過程實現了無監督表征學習.可以學習到隱式表達Z.VAEs不同于普通的自編碼網絡,隱式表達Z是概率分布的形式,模型從邊緣分布P(x)出發,利用KL散度,獲得似然函數的變分下界.在VAEs中,編碼器和解碼器可以具有不同的形式,其中最常用的形式為神經網絡,編碼器和解碼器都由神經網絡組成,其中假設基于輸入x的條件概率q(z|x)表示編碼器,為了引入變分邊界,似然函數可以寫為如下形式:

其中,L為似然函數中剩余的部分,由于KL散度是大于等于0的,因此上述的似然函數可以進一步寫成如下形式:

其中,p(h)是隱層節點的先驗概率,一般情況下,假設先驗概率為簡單的分布形式,例如均值為0、方差為1的標準正態分布,由這個正態分布和概率解碼器來生成數據x,但是使用高斯分布來建模輸入數據存在一定的不足,對于圖像數據,深度網絡在提取特征的過程中其特征是逐步抽象化的,僅使用連續的隨機變量來建模圖像會導致模型分布過度平滑,為了在抽象特征的基礎上實現特征的離散化組合,基于VAEs和RBMs的混合模型被提了出來,在VAEs的基礎上,使用RBMs作為先驗替換傳統的標準正態分布,多層卷積網絡的基礎上,使用RBMs建模離散化的高度抽象化的特征,并通過參數化手段,使用 BP算法訓練模型,基于這種方法的圖像生成模型可以得到更加清晰、銳利的生成圖像.

另一種思路是將RBMs和對抗生成網絡相結合.GANs是目前非常有效的生成模型,傳統的GANs通過對抗的方式最小化模型分布和數據分布之間的JS散度,WGANs在GANs的基礎上進行了改進,最小化模型分布和數據分布之間的 Wasserstein距離,但是,WGAN的訓練還存在一定的問題,其訓練不穩定且有隨時崩潰的風險,且 GANs對超參數非常敏感,往往需要進行大量的調試和人為干預,才能獲得一個比較好的生成模型,為了獲得比較穩定且融合 GANs優勢的生成模型,有學者將對抗的思想引入到 RBMs中,同時最小化數據分布和模型分布之間的forwordKL散度和模型分布與數據分布之間的reverseKL散度,綜合自編碼器結構,GAN-RBMs可以結合VAEs或自動編碼器模型,組成多層的生成模型.

3.3 卷積深度置信網

另一種成功的 DNNs模型是卷積神經網絡(convolutional neural nets,簡稱 CNNs),不同于預訓練的機制,CNNs從網絡拓撲結構上優化 DNNs,利用卷積和池化操作,將局部性信息和不變性信息引入到神經網絡中,利用先驗信息減少網絡參數,進一步降低了計算復雜度.CNNs在自然圖像處理、音頻、視頻等方面取得了很多研究成果.基于結構的特殊性,CNNs的訓練參數比一般的全連接神經網絡的要少得多,為了加速網絡的訓練,并減緩梯度擴散現象,CNNs可以使用ReLU作為激活單元,并在GPU上并行訓練.目前在工業界的推廣下,除了各種小的修改(Residual Nets、ReLU、BatchNorm、Adam Optimizer、Dropout、GRU、GAN、LSTMs等)外,神經網絡的主要訓練方法又回到30年前的BP算法[57-73].針對圖像處理問題,BP算法將原始的復雜統計問題轉化為神經網絡的參數調節問題和網絡結構的優化問題.這大幅度地降低了 DNNs研究的門檻,吸引了更多的學者追蹤DNN的相關研究.同時,GPU的使用提供了訓練DNNs的硬件基礎.基于GPU的深度學習框架,如CAFFE、TensorFlow等,為針對DNNs的程序設計提供了方便、有力的支持.目前,許多對DNNs的研究貢獻都集中在神經網絡的梯度流上,如:傳統的網絡采用 sigmoid函數作為激活函數,然而 sigmoid函數是一種飽和函數,這會導致梯度擴散問題,為了緩解這個問題,線性整流單元(rectified linear unit,簡稱ReLU)以及改進的Leaky ReLU被引入到DNNs中;為了強調梯度和權值分布的穩定性,ELU和SELU激活函數被引入到DNNs中[62];當DNNs的深度過大時,盡管使用了非飽和的激活函數,DNNs的訓練還是會面臨梯度消失的問題,為此,學者們提出了highway網絡和ResNets模型[65,66].為了穩定參數的均值和方差,BatchNorm方法被應用到DNN的訓練中[63].為了緩解過擬合,Dropout方法和Weight uncertainty方法被用于DNNs[67-70].

基于 RBMs,卷積神經網絡可以被用于處理圖像識別和圖像生成任務,Lee等學者組合卷積網絡和 RBMs,提出了卷積深度置信網(convolutional deep belief nets,簡稱CDBNs),通過引入卷積和概率最大池化操作,CDBNs實現了圖像的識別和生成過程.卷積深度置信網的能量函數可以表示如下:

基于能量函數,CDBNs的條件激活概率可以表示為

3.4 RBMs與神經網絡結合的總結和展望

目前常用的生成模型包括VAEs和GANs等,常用的判別模型為CNNs等,將RBMs作為預訓練模型應用在CNNs中,能夠使CNNs既可以用于圖像識別也可以用于圖像生成,且RBMs可以為CNNs提供更有效的初始化權值,從而促進 CNNs收斂到更加優秀的局部最優解.但是將 RBMs作為預訓練算法也存在一些問題,首先,RBMs作為無監督學習算法,并不能保證其特征表達是有利于分類的,隨著神經網絡層數的增加,使用 RBMs作為預訓練對分類精度帶來的提升會越來越不明顯,且預訓練會非常耗時.如何改變 RBMs的能量函數和損失函數,從而使RBMs得到的特征更有利于多層CNNs的分類任務,是RBMs未來研究的一個重點問題.其次,作為生成模型,雖然RBMs可以有效地與VAEs和GANs結合,但是作為生成模型本身,RBMs難以擴展其深度,由于RBMs的訓練需要采用近似算法,其計算復雜度很高,同樣深度下,RBMs的訓練復雜度要遠大于VAEs和GANs.如何改進RBMs的訓練算法和RBMs的網絡結構,從而擴展RBMs的深度,構建更加有效的生成模型也是RBMs研究的重點和難點.

4 總結與展望

本文綜述了 RBMs和神經網絡在理論研究和應用中的進展.在過去十年中,深度學習逐漸成為人工智能研究的主流方向,許多學者致力于該領域,并將概率圖模型應用到深度學習中.目前已有大量研究結果證明了RBMs模型的有效性.然而,仍存在一些值得進一步研究的問題:RBMs模型的算法理論問題需要進一步研究,如緩解RBMs中過擬合的方法、加快RBMs模型的訓練以及提高RBMs模型建模實值數據的能力.Carlson等學者發現,RBMs的目標函數由Shatten-∞范數限定,并提出了在賦范空間中更新參數的SSD算法.目前常用的緩解過擬合問題的方法有:權值衰減、Dropout方法、DropConnect方法和Weight-uncertainty方法等.如何獲得圖像處理中有效的抽象化特征也是RBMs研究的重點.已知RBMs的特征表達可以結合CRFs應用到圖像分割和標注中.相反地,CRFs中的圖像分割和標記結果是否也可用于RBMs的特征提取中,以提高特征表達的能力?這也是我們今后的研究中關注的問題.目前除了向量神經網絡(capsule nets)的訓練方式不同外,神經網絡的訓練是基于BP算法的,其特征表示和特征學習仍然是一種黑箱的形式.這個問題也為基于梯度的RBMs算法帶來了相同的困擾.如何在RBMs模型中引入新的訓練方式也是接下來我們研究的重點.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩欧美色综合| 欧美精品伊人久久| 亚洲中文久久精品无玛| 国产精品不卡片视频免费观看| 亚洲午夜国产精品无卡| 亚洲成人精品| 成人午夜精品一级毛片| 伊人五月丁香综合AⅤ| 综合色在线| 伊人成人在线视频| 一本色道久久88亚洲综合| 亚洲高清无在码在线无弹窗| 久久大香香蕉国产免费网站| 操美女免费网站| 国产成在线观看免费视频| 国产亚洲欧美另类一区二区| 呦系列视频一区二区三区| 91精品国产一区| 97se亚洲| 香蕉网久久| 亚洲色图欧美| h网站在线播放| 色综合成人| AV色爱天堂网| 精品撒尿视频一区二区三区| 国产成人亚洲欧美激情| 99热这里只有精品5| 亚洲九九视频| V一区无码内射国产| 日本妇乱子伦视频| 精品久久综合1区2区3区激情| 秋霞国产在线| 成人日韩精品| 亚洲综合婷婷激情| 国产激情无码一区二区免费| 亚洲第一色网站| 久久永久视频| 国产区在线看| 六月婷婷综合| 麻豆国产原创视频在线播放| 国产无码精品在线| 午夜三级在线| 国产一区二区免费播放| 欧美精品影院| 国产自视频| 91探花在线观看国产最新| 日韩无码视频网站| 午夜国产精品视频黄 | av手机版在线播放| 亚洲精品欧美重口| 伊人激情综合| 伊人久久久久久久| 国产亚洲现在一区二区中文| 无套av在线| 亚洲一区二区约美女探花| 国产一级毛片在线| 中文字幕人妻无码系列第三区| 国产免费久久精品99re不卡| 国产簧片免费在线播放| 亚洲狼网站狼狼鲁亚洲下载| 亚洲,国产,日韩,综合一区| 亚洲国产精品无码AV| 成人国产免费| 永久成人无码激情视频免费| 中文字幕在线永久在线视频2020| AV天堂资源福利在线观看| 国产精品真实对白精彩久久| 亚洲综合婷婷激情| 亚洲综合激情另类专区| 国产自产视频一区二区三区| 91娇喘视频| 久久伊人操| 美女一区二区在线观看| 亚洲精品欧美日韩在线| 99re在线观看视频| 久久天天躁夜夜躁狠狠| 91人妻在线视频| 日本三级黄在线观看| 一级毛片不卡片免费观看| 在线观看亚洲人成网站| 精品日韩亚洲欧美高清a| 国产91无码福利在线|