999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合變分自編碼

2020-01-09 03:47:50陳亞瑞蔣碩然楊巨成趙婷婷張傳雷
計算機研究與發展 2020年1期
關鍵詞:模型

陳亞瑞 蔣碩然 楊巨成 趙婷婷 張傳雷

(天津科技大學計算機科學與信息工程學院 天津 300457)

近幾年,深度學習成為人工智能領域的研究熱點,概率生成模型是構建深層模型的基本結構之一,也是進行知識表示的重要方法[1-2].概率生成模型通過對隱變量層結構進行學習,學習數據的內部結構關系,發現數據內的因果關系,實現數據的表示[3-4].生成模型中隱變量及模型參數的后驗概率分布一般是難解,對于生成模型如何進行有效的推理和學習,計算隱變量及參數的后驗概率分布是一項重要的研究內容[4-6].變分推理是近似求解隱變量及模型參數后驗概率分布的方法之一[5].傳統變分推理在處理生成模型(如混合高斯模型)時,要求近似后驗概率有解析表示形式,即要求隱變量或模型參數具有共軛先驗分布形式,但該方法對處理一般隱變量結構的生成模型存在困難[5,7].變分自編碼(variational auto-encoder, VAE)模型是一種基于連續隱向量的生成模型,它結合了變分方法和神經網絡,常被用于構建深度生成模型(deep generative model, DGM)[1,7-8].

VAE模型通過引入近似后驗概率,利用變分轉換給出邊緣似然的變分下界,再通過求解該優化式給出隱變量近似后驗概率分布[7-9].VAE中的生成模型及識別模型均采用多層神經網絡結構,在求解優化問題時,首先對邊緣似然的變分下界進行重參化(reparameterization)處理[10],得到該下界的一個可微無偏估計——隨機梯度變分貝葉斯估計(stochastic gradient variational Bayesian estimator, SGVB),此時采用標準的隨機梯度下降方法可以進行推理和學習[9].對于生成模型是非線性神經網絡的模型,SGVB也可以通過隨機梯度下降方法方便求解[11-14].VAE的推理模型也稱為概率編碼部分可以用于識別、去噪、數據表示和可視化等方面,VAE的識別模型也稱為概率解碼部分可以用于生成數據等[1,7-8].

對于VAE模型,如何解決其中的自截枝問題、對于傳統的非監督學習方法如何再加入標簽信息、如何提高模型的泛化能力以避免模式崩潰,針對這些問題研究者開展了很多相關的研究工作.

針對VAE方法中的模型過截枝問題,斯坦福Yeung等人[15]提出epitomic variational autoencoder模型,該模型由幾個稀疏的變分自編碼(每一個稀疏的變分自編碼稱為一個縮影)組合而成,稀疏模型之間通過共享自編碼結構來提高模型的泛化性.倫敦大學帝國理工學院的Dilokthanakul等人[16]提出高斯混合變分自編碼(Gaussian mixture variational autoencoder, GM-VAE)模型,通過引入高斯混合模型作為隱變量的先驗分布,并利用GM-VAE構建深度生成模型實現無監督聚類.但是該方法對仍舊存在嚴重的過正則化問題.Kingma等人[17]將可逆自回歸流(inverse autoregressive flow, IAF)策略應用于變分自編碼模型(VAE-IAF),該方法利用一系列可逆函數逐步迭代構建出變分后驗概率分布,其中的可逆函數由自回歸神經網絡構成.該方法給出了更靈活方便的變分后驗概率分布結構,更有利于處理高維隱空間,但是自回歸網絡打亂了隱變量空間的分布.Sohn等人[18]提出一種條件變分自編碼(conditional variational autoencoder, CVAE)模型使得解碼器不僅可以生成新的樣本(如手寫字體),而且可以生成指定的樣本(如某個手寫字體).該方法通過在生成模型和識別模型的神經網絡結構中分別加入了標簽信息作為條件變量,再利用隨機梯度下降方法求解優化問題,該結構豐富了隱變量結構.但是無監督學習在訓練離散指示變量時產生的錯誤標記會直接影響生成模型的性能.Nalisnick等人[19]提出變分自編碼的非參數形式——折棍變分自編碼(stick-breaking variational autoencoder, SB-VAE)模型.該模型引入有限隨機過程[20-21]作為隱變量先驗分布,并采用隨機梯度變分貝葉斯方法進行后驗推理,計算折棍參數.

已有的相關研究中,變分自編碼中的變分識別模型大都假設多維隱變量之間是相互獨立的,這種假設簡化了推理過程,但是這使得變分下界過于松弛,同時忽視了隱變量之間的相互影響及其對輸出樣本的影響,限制了隱變量空間的表示能力.已有的VAE改進算法大多集中于對隱變量增加先驗分布或加入標簽信息到模型中進行監督學習或半監督學習.

本文提出混合變分自編碼(mixture of variational autoencoder, MVAE)模型,以變分自編碼作為混合模型的基本組件.該模型以連續隱向量作為模型的隱層表示,其先驗分布為高斯分布;以離散隱向量作為組件的指示向量,其先驗分布為多項式分布.對于MVAE模型的變分優化目標,本文采用重參策略和折棍參數化策略處理目標函數,并用隨機梯度下降方法求解模型參數.

1 變分自編碼

變分自編碼是結合了變分貝葉斯方法和神經網絡結構的生成模型.其中采用變分方法將變量求和的推理問題轉化為優化問題;相比傳統的共軛先驗分布,采用神經網絡近似后驗分布擴展了算法的應用范圍.

對于生成模型p(x,z)=p(z)p(x|z),其中x表示觀測向量,z表示隱向量,p(z)表示隱向量先驗概率分布,p(x|z)表示條件概率分布.觀測樣本x的生成過程:

x|z~p(x|z).

生成模型中概率推理問題是根據觀測數據集X={x(1),x(2),…,x(N)},求解數據集的邊緣似然p(X)及隱向量后驗概率分布p(z|x),即

(1)

(2)

式(1)和式(2)所示的概率推理問題都是難解的,故采用近似方法進行近似求解,變分技術是一種重要的確定性近似推理方法.

樣本點x(i)的對數邊緣似然lnp(x(i))的變分表示形式為

(3)

(4)

此時求解樣本邊緣概率分布的概率推理問題轉化為下面的優化問題:

(5)

求解優化式(5)給出對數邊緣似然lnp(x(i))的下界,同時自由分布q(z)是后驗概率分布p(z|x(i))的近似分布,即q(z)≈p(z|x(i)).

變分自編碼模型中,q(z)及p(x|z)都是由神經網絡構成,可以通過隨機梯度下降方法和BP算法求解式(5).

2 混合變分自編碼

本文提出混合變分自編碼模型,它通過多個變分自編碼組件生成樣本數據.該模型以連續隱向量作為模型的隱層表示,其先驗分布為高斯分布;以離散隱向量作為組件的指示向量,其先驗分布為多項式分布.

2.1 生成模型

(6)

(7)

(8)

其中,p(c)表示隱向量c的先驗分布,K是一個常量,表示混合組件的個數,π={π1,π2,…,πK}表示多項式分布參數集合,p(z)表示隱向量z的先驗分布,θ={θ1,θ2,…,θK}表示條件概率分布的參數集合.當觀測向量x是連續值時,條件概率分布pθk(x|z)為基于神經網路的高斯分布;當向量x是離散值時,pθk(x|z)為基于神經網絡的多元伯努利分布.生成模型的聯合概率分布形式為

p(x,z,c)=p(z)p(c)p(x|z,c).

混合變分自編碼生成模型如圖1所示:

Fig. 1 Mixture variational autoencoder圖1 混合變分自編碼模型

2.2 變分下界

混合變分自編碼模型中的關鍵問題是根據觀測數據計算模型參數及隱變量后驗概率分布.直接利用EM算法求解是難解的,此時采用變分方法進行近似求解.

(9)

(10)

其中,q(z,c)為自由分布,也是向量z,c的近似后驗概率分布.因為q(z,c)與p(z,c|x(i))之間的KL散度度量是非負的,即DKL(q(z,c)‖p(z,c|x(i)))≥0,故

(11)

(12)

在混合變分自編碼模型中,條件概率分布pθk(x|z)及自由分布qφ(z),qη(c)均是基于神經網絡結構.具體為

1) 對于生成模型.若向量x為離散值,則條件概率分布pθk(x|z)為基于神經網絡的伯努利分布,即

pθk(x|z)=B(x;μ(z;θk)),

(13)

其中μ(·;θk)由基于參數θk的神經網絡實現.具體地,神經網絡結構實現為

μ(z;θk)=sigmoid(W2tanh(W1z+b1)+b2),

(14)

該神經網絡結構中,條件概率分布pθk(x|z)中θk的具體形式為θk={W1,b1,W2,b2}.激活函數sigmoid()與tanh()的操作是對向量元素操作.

若向量x為連續值,則條件概率分布pθk(x|z)為基于神經網絡的高斯分布,即

pθk(x|z)=N(x;μ(z;θk),diag(σ2(z;θk))),

(15)

其中μ(·;θk),σ2(·;θk)分別由基于參數θk的神經網絡實現.具體地,神經網絡結構實現為

(16)

該神經網絡結構中,模型參數θk的具體形式為

θk={W3,b3,W4,b4,W5,b5}.

2) 對于自由分布qφ(z).隱變量z為連續向量,自由分布qφ(z)為基于神經網絡的高斯分布,即

(17)

其中μ(·;φ),σ(·;φ)分別由基于參數φ的神經網絡實現.神經網絡具體形式類似于式(16)所示.

3)對于自由分布qη(c).隱變量c為多項式變量,自由分布qη(c)是多項式分布,即

(18)

其中,qη(c1=1)=π1(z;η1),πk(·;ηk)表示由基于參數ηk的神經網絡實現.神經網絡具體形式類似于式(14)所示.

(19)

3 優化問題求解

為了求解變分優化式(19),首先采用重參策略(reparameterization trick)采樣z(i)和c(i),然后再利用隨機梯度下降方法進行參數更新.

利用后驗概率分布qφ(z),如式(17)所示,根據觀測樣本x(i)采樣z(i,l),即

z(i,l)=μ(i)+σ2(i)⊙ε(l),

(20)

(21)

其中符號⊙表示點乘運算.根據重參策略,函數的期望可以通過采樣方法計算,即

(22)

進一步,利用后驗概率分布qη(c),如式(18)所示,根據折棍參數化策略(stick-breaking parame-terization),從后驗概率分布qη(c)中采樣c(i),即

(23)

(24)

1

(25)

此時,多項式隱變量c(i)的采樣結果為

(26)

根據采樣的數據z(i,l)和c(i),數據點x(i)的對數邊緣下界為

(27)

對于數據集X={x(1),x(2),…,x(N)},采用批處理方法構建數據集邊緣概率分布,從數據集X中隨機選取批處理樣本集XM={x(1),x(2),…,x(M)}.Kingma和Welling[7]證明當批處理規模M足夠大時,重采樣過程中采樣規模L值可以設定為L=1,本文中我們將重采樣中的采樣規模L=1.利用批處理方式,數據集X的邊緣概率分布下界為

(28)

對邊緣概率分布下界(式(28))求導,采用梯度下降方法更新模型參數.算法的表示如算法1所示:

算法1.混合變分自編碼算法.

輸入:數據集X,數據集規模M=500,L=1;

輸出:模型{θ,φ,η}.

θ,φ,η←初始化參數;

repeat:

XM←從數據集X中隨機抽取數據子集;

g←θ,φ,η計算目標函數梯度;

θ,φ,η←利用梯度g,采用隨機梯度下降方法更新參數;

until參數(θ,φ,η)收斂;

return參數θ,φ,η.

4 對比實驗與結果分析

本節設計對比實驗驗證MVAE在對數似然下界及隱變量空間上的性能.具體包括3個實驗:實驗1,通過對比實驗確定MVAE模型的參數K;實驗2,設計不同模型的對數似然下界對比實驗,以及不同神經網絡結構下對數似然下界對比試驗;實驗3,對比MVAE算法和VAE算法在隱層表示空間的表示能力.

本實驗采用的數據集包括MNIST數據集[22]和OMNIGLOT數據集[23].具體地,MNIST是標準手寫數字數據集,包含60 000個樣本的標準手寫數字,其中每個樣本是一張28×28的灰度圖片.OMNIGLOT是手寫字符數據集,包含50種不同語言中的1 623個不同手寫字符,共有24 345個樣本,其中每個樣本也是一張28×28灰度圖片.

對比實驗模型包括:MVAE,VAE,CVAE,VAE-IAF,GM-VAE,SB-VAE,算法詳細信息如表1所示.在所有的模型中,識別模型(或變分模型)和生成模型均采用雙隱層的全連接神經網絡實現,并且訓練時的批量樣本大小為M=500,迭代次數為epochs=200,學習率為0.001.

Table 1 Detailed Information of Comparison Models表1 對比模型詳細信息

4.1 確定子模型個數

對于MVAE模型,我們在MNIST數據集上,通過設置不同的子模型個數K和隱變量維度Dz,分別計算相應的對數似然的下界,通過分析確定子模型個數K.具體地,分別設置子模型個數K=2,3,…,8,同時設置隱變量z的維度分別為Dz=20,40,60.變分模型qφ(z|x),qη(c|z)和每個生成子模型pθk(x|z)都是雙隱層的全連接神經網絡,每個隱含層包含500個激活函數為tanh的神經元.

MVAE模型在不同參數下給出的負對數似然(negative log-likelihoods, NLL),如表2所示.從表2可以看到,隨著生成子模型個數K的增加,MVAE在不同隱向量維度Dz下對數似然的下界都在提高,并且當生成子模型個數K≥4時逐步達到穩定.

Table 2 The Comparison of the Negative Log-Likelihoods on the MNIST Dataset表2 在MNIST數據集上負對數似然下界結果對比

Notes: The optimal results are in bold.

Fig. 2 The comparison of hidden spaces of MVAEwith different parameters K圖2 K不同時MVAE模型的隱變量空間生成樣本比較

為了進一步分析不同參數K設置下對隱變量空間的影響,我們設置隱變量的維度Dz=2,子模型的個數K分別取值為2,3,4,5,利用MNIST數據集訓練相應的MVAE模型.然后分別利用相應MVAE模型的生成模型生成手寫字體數據,相應隱向量空間生成樣本情況如圖2所示.圖2中,生成的不清楚的數字在圖中分別用方框標出.可以看出,生成的手寫數字隨著生成子模型個數K的增加圖片變得越來越清晰.同時當子模型個數達到K=4時,模糊的生成圖片數量最少.

通過實驗分析,對于MVAE模型,最優的生成子模型個數為K=4,在4.2~4.4節的實驗中默認設置MVAE模型參數K=4.

4.2 對數似然下界對比實驗

本節在MNIST和OMNIGLOT數據集上,對比MVAE模型與VAE,GM-VAE,VAE-IAF,CVAE,SB-VAE模型的負對數似然.本實驗中,VAE,GM-VAE,VAE-IAF,CVAE,SB-VAE中的生成模型和識別模型分別采用2個隱層的神經網絡,其中每個隱層有500個隱節點,采用tanh激活函數.MVAE,GM-VAE模型中的參數K=4,每個子模型都采用與VAE中生成模型相同的神經網絡結構.負對數似然函數實驗對比結果如表3和圖3所示:

Table 3 Comparison of the Negative Log-Likelihoods on Two Datasets表3 2個數據集上不同模型的負對數似然下界比較

Note: The optimal results are in bold.

Fig. 3 The comparison of the negative log-likelihoods of different models on the MNIST and OMNIGLOT datasets圖3 在數據集MNIST和OMNIGLOT上不同模型給出的負對數似然下界比較

分析表3和圖3可知,對于MNIST數據集,在隱變量z不同維度Dz分別取值20,40,60的情況下,MVAE方法給出的負對數似然值最小,即MVAE模型給出的對數似然下界最緊致.對于該數據集,模型在負對數似然值上的表現從優到差的順序依次是:MVAE>VAE-IAF>CVAE>GM-VAE>VAE>SB-VAE.對于OMNIGLOT數據集,CVAE模型在維度Dz=20上給出了最優的負對數似然值,MVAE模型在維度Dz=40,60上給出了最優的負對數似然值.隨著隱變量維度的增加,相比于CVAE模型,MVAE模型給出的對數似然下界變得更緊致.對于該數據集,模型在負對數似然值上的綜合表現從優到差的順序依次是:MVAE>CVAE>VAE>GM-VAE>VAE-IAF>SB-VAE.

同時隨著隱向量維度Dz的增加,MVAE模型的負對數似然值越來越小,即MVAE模型隨著隱向量維度的增加,給出的對數似然下界明顯越來越緊致.而對于模型VAE-IAF,CVAE,GM-VAE,VAE,SB-VAE,當模型維度 從40變成60時,負對數似然值變化較小.

通過實驗分析可知,對于MNIST和OMNIGLOT數據集,MVAE模型給出了更緊致的對數似然下界,同時隨著隱變量維度的增加,對數似然下界明顯越來越緊致,這表示MVAE模型在推理過程中給出了更優的結果.

4.3 不同神經網絡結構下對數似然下界對比實驗

由4.2節實驗可知MVAE模型具有更優的推理性能,MVAE是通過多個子模型更靈活的生成模型結構提高了推理性能,而不是簡單地擴展神經網絡的隱層神經元個數.為了說明這一點,本實驗將SB-VAE,VAE,CVAE,VAE-IAF生成模型中神經網絡的2個隱層分別擴展到Dh=1 000,1 500,2 000,2 500,實驗結果如表4所示.MVAE和GM-VAE都是有子模型結構的,本實驗將MVAE和GM-VAE模型的2個隱層的神經元個數均設定為Dh=500,同時生成子模型個數分別設為K=2,3,4,5.在MNIST數據集上,對于上述參數設置,分別計算相應的負對數似然值,實驗結果如表5所示:

Table 4 Comparison of the Negative Log-Likelihoods with Different Neural Network Structures on the MNIST表4 數據集MNIST的不同神經網絡結構下 負對數似然結果對比

Table 5 Comparison of the Negative Log-Likelihoods with Different Structures on the MNIST when DA=500

Notes: The optimal results are in bold.

表4顯示,VAE,SB-VAE,CVAE,VAE-IAF模型的對數似然下界并沒有隨著神經網絡隱層節點個數的增加而明顯提高.由表5可知,在大致相同神經網絡結構的情況下,MVAE模型給出了負對數似然值最小,即MVAE模型給出的對數似然的下界最緊致.同時隨著參數K的增加,2個模型對數似然下界越來緊致并逐步穩定.

綜上所述,MVAE模型與不同神經網絡結構相比,在不同數據集上,均具有最緊致的對數似然下界.實驗結果表示MVAE模型通過靈活的生成模型結構,有效提高了變分近似推理的性能.

4.4 隱變量空間表示能力對比

Fig. 4 Comparison of latent variable spaces oftwo models on the MNIST圖4 在MNIST數據集上2個模型的隱變量空間對比

本節在MNIST數據集上通過對隱變量空間可視化,對比MVAE和VAE模型隱變量空間生成樣本的情況.實驗中,對于MVAE模型,設定參數K=4,對于MVAE和VAE模型,分別設定隱變量z的維度Dz=2,生成模型及識別模型中的神經網絡隱層節點Dh=500.對于MVAE和VAE模型,在隱變量區域進行采樣,生成相同樣本的區域標注同一種顏色,生成不同樣本的區域標注不同的顏色.最終MAVE模型和VAE模型的二維隱變量空間生成樣本情況如圖4所示.

根據實驗結果圖4可知,VAE模型中隱變量空間的每個維度的取值區間為(-10,10),而MVAE模型中隱變量空間的每個維度的取值區間為(-20,20).很明顯,MVAE模型有效擴大了隱變量空間的表示范圍.同時根據圖4結果可以看出,相比VAE模型,MVAE模型的隱變量空間更具有可分性,有效解決了VAE模型中存在的模式崩塌問題.該實驗結果表明,MVAE模型的隱變量空間具有更豐富的表示能力.

5 總 結

本文提出一種混合變分自編碼模型,采用指示變量將多個生成模型組件組合到一起,利用變分近似構建目標函數,并采用重參技術及折棍參數化策略求解優化問題.該模型采用連續型高斯隱變量作為隱層表示,采用離散型多項式隱變量作為組件的指示變量.理論分析和試驗結果表示,MVAE模型中豐富的生成模型結構有效提高了數據對數似然的下界,生成模型的混合組件方式增強了隱變量空間的表示能力.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 找国产毛片看| 国产成人精品在线1区| 国产午夜精品鲁丝片| 国产精品九九视频| 熟妇无码人妻| 青青青草国产| 国产精品无码一二三视频| 日韩麻豆小视频| 天天摸天天操免费播放小视频| 日韩麻豆小视频| 一级毛片免费观看久| 色婷婷啪啪| 国产精品无码AⅤ在线观看播放| 国产麻豆91网在线看| 亚洲精品第一页不卡| 欧美精品亚洲精品日韩专区| 亚洲国产成人自拍| 国产精品尤物铁牛tv| 91麻豆国产精品91久久久| 欧美午夜理伦三级在线观看| 久久五月视频| 国产麻豆va精品视频| 国产成人一区免费观看| 大学生久久香蕉国产线观看| 国产日韩精品欧美一区灰| 亚洲美女AV免费一区| 一本大道香蕉久中文在线播放| AV熟女乱| 制服丝袜一区二区三区在线| 国产精品开放后亚洲| 久久永久精品免费视频| 一级一毛片a级毛片| 成人福利视频网| 中国国产高清免费AV片| 一级毛片在线播放| 国产精品区视频中文字幕| 亚洲永久色| 亚洲AV无码一区二区三区牲色| 亚洲国产中文精品va在线播放| 国产精品永久不卡免费视频| 最新国产成人剧情在线播放| 天天做天天爱天天爽综合区| 亚洲午夜福利精品无码不卡 | 国产高清无码第一十页在线观看| 首页亚洲国产丝袜长腿综合| 亚洲精品视频网| 国产精品网址在线观看你懂的| 亚洲,国产,日韩,综合一区| 996免费视频国产在线播放| 国产SUV精品一区二区6| 亚洲AV一二三区无码AV蜜桃| 亚洲制服丝袜第一页| 中文字幕无码制服中字| 综合色88| 中文字幕永久在线看| 国产一级α片| 91精品国产自产在线老师啪l| 欧美日韩高清在线| 1级黄色毛片| 在线精品视频成人网| 成人在线观看一区| 国产一级毛片高清完整视频版| 亚卅精品无码久久毛片乌克兰| 国产福利拍拍拍| 人人爱天天做夜夜爽| 99无码中文字幕视频| 成人午夜视频网站| 中日韩欧亚无码视频| 欧美日韩成人在线观看| 欧美成人怡春院在线激情| 国产91无码福利在线| 亚洲Va中文字幕久久一区 | 国产精品无码AⅤ在线观看播放| 白丝美女办公室高潮喷水视频| 国产一级毛片网站| 丁香六月激情综合| 伊人久久久久久久| 亚洲欧美国产视频| 亚洲狼网站狼狼鲁亚洲下载| 亚洲国内精品自在自线官| 呦视频在线一区二区三区| 国产精品99在线观看|