應衛強,張 帆,張玲燕
(1. 浙江大學城市學院,浙江 杭州 310015;2. 浙江大學軟件學院,浙江 杭州 310027)
圖像作為信息獲取的主要來源,大力推動著與其相關的識別、分割、檢測、追蹤等圖像處理技術發展[1],近年來,對圖像的研究范圍也逐漸拓展至圖像生成領域。隨著圖像生成領域的廣泛普及,基于對抗學習理念的生成式對抗網絡[2]應時而生,成為人工智能領域中最具深遠影響力的關鍵技術。該模型與傳統網絡模型大不相同,其生成器與判別器分別借助對方的對抗模式,強化自身的圖像特征學習能力。當前,生成式對抗網絡已然成為一個新興課題。
張素素等人[3]與徐強等人[4]分別對生成式對抗網絡做出了改進,前者基于注意力機制,利用局部細化生成器,取得細粒度樣本,形成清晰的生成圖像;后者就圖像紋理復雜程度,探索循環一致損失系數對圖像的影響,獲取高質量的生成圖像;張光華等人[5]則將生成式對抗網絡應用于生成天文圖像,利用神經元拋棄法與韋氏距離,優化網絡與損失函數,得到適用于天文圖像的生成模型。
隨著現代成像技術的進步,圖像模態呈多元化發展趨勢。為實現跨模態圖像生成,本文通過優化生成式對抗網絡,構建出半監督學習模式下的跨模態圖像生成方法。生成式對抗網絡憑借較強的特征學習能力與表達能力,在圖像生成領域表現突出,為使其更適用于生成跨模態圖像,優化生成式對抗網絡。半監督學習作為機器學習領域的關鍵技術之一,通過多個未標識信息與較少的帶標識信息,即可完成學習,不僅降低對信息做標識的成本,減少人力物力,而且有助于取得更精準的目標結果,提升泛化能力;添加批量歸一化處理策略,提升初始網絡參數質量與模型收斂速率,避免梯度隱沒;利用監督訓練模式與生成器生成的偽信息訓練分類器,彌補半監督學習中標識信息不充足的弊端。
生成式對抗網絡的主要部分是生成器與判別器,前者用于學習實際信息分布,為生成結果提供分布形式;后者用于區分輸入信息真偽,為從生成的偽信息中提取出真信息提供參考依據。
把從某概率分布收集到的任意噪點輸入生成器,經非線性映射函數得到生成信息,將其與實際信息一同輸入判別器獲取幾率值,該值反映了輸入信息為真信息的幾率,如果輸入的是偽信息,則幾率值取0,反之取1。
假設G、D分別表示生成式對抗網絡的生成器與判別器,x是實際信息分布Pdata中的一個真信息,z是先驗分布Pz中的一個噪點,期望值是E,則采用下列表達式界定生成式對抗網絡的目標函數

=Ex~Pdata(x)[logD(x)]+Ez~Pz(z)[log(1-D(G(z)))]
(1)
在保持判別器D不變的情況下,采用下列損失函數表達式改進生成器G

(2)
在保持生成器G不變的情況下,采用下列損失函數表達式改進判別器D
+Ez~Pz(z)[log(1-D(G(z)))]
(3)
綜上所述,推導出下列求導V(D,G)時的最佳判別器D′(x)

(4)
合并式(1)與D′(x),通過形成的生成器目標函數,反映Pg(x)與Pdata(x)的優化目標。
半監督學習作為監督學習與無監督學習的學習方法之一,僅采用幾個帶標識信息,結合多個未標識信息,即可完成性能優化,取得更精準的目標結果,提升泛化性。
已知某概率分布形式中帶標識與未標識的信息集合分別如下所示
L={(x1,y1),(x2,y2),…,(x|L|,y|L|)}
(5)
U={x1,x2,…,x|U|}
(6)
式中,|L|、|U|表示兩個信息集合含有的信息個數。通過期望函數f:X→Y能夠準確預估出信息x的標識y。
將上述生成式對抗網絡與半監督學習相結合,得到圖1所示的半監督學習生成式對抗網絡模型框架。如果由該網絡生成的圖像信息屬于K+1類別,則需增加判別網絡至K+1維。將監督損失與無監督損失融合,得到半監督訓練形式,令其為網絡模型的損失函數,讓監督學習對象為帶標識信息,無監督學習對象為未標識信息,提升半監督的目標準度[6]。

圖1 半監督學習生成式對抗網絡模型
以取得更深層次圖像特征、加快模型收斂速度為目標,在判別器與生成器中分別添加卷積神經網絡[7]與反卷積神經網絡[8],并在整體結構中引入一個分類器,改進半監督學習生成式對抗網絡模型,使模型更具穩定性。該模型的優化部分具體描述如下:
1)用反卷積替換生成器池化層,用全卷積替換判別器池化層;
2)用全局平均池化替換全連接層;
3)批量歸一化處理對象不包含生成器輸出層與判別器輸入層,提升初始網絡參數質量與模型收斂速率,避免梯度隱沒;
4)生成器輸出層為雙曲正切函數,剩余各層為線性整流函數[9],而判別器除輸出層是歸一化指數函數外,各網絡層都采用帶泄露修正線性單元函數;
5)分類器添加:該分類器在已知真信息時將生成偽標識,而生成器則在已知真標識時生成偽信息。
根據以上改進部分,利用三個網絡的聯合分布形式,構建出圖2所示的半監督學習生成式對抗網絡改進模型。該模型中的判別器具備通過分類器訪問未標識信息標識預估的能力,對生成器下達強制生成命令后,即可生成有效的圖像標識。

圖2 半監督學習生成式對抗網絡改進模型
通過下列表達式完成該網絡模型的對抗目標函數界定

=E(x,y)~P(x,y)[logD(x,y)]
+αE(x,y)~Pc(x,y)[log(1-D(x,y))]
+(1-α)E(x,y)~Pg(x,y)[log(1-D(G(y,z),y))]
(7)
式中,控制生成的常數項為α,取值范圍是0~1。
基于改進半監督學習生成式對抗網絡模型,以分類器與生成器的最佳平衡狀態為基礎,利用全變差正則化項[10],建立如下所示的偽判別損失函數,通過監督訓練模式與生成器G生成的偽信息來完成分類器D訓練,以彌補半監督學習中標識信息不夠充足的弊端

(8)
1)用θc、θd以及θg分別指代分類器C、判別器D以及生成器G三個網絡的可訓練參數,并進行合理設置;
2)采集信息(xg,yg)~Pg(x,y)、(xc,yc)~Pc(x,y)以及(xd,yd)~Pd(x,y),信息數量各是mg、mc以及md;
3)假設梯度上升方向是Td,表達式如下所示,則以此作為判別器D的更新依據:

(9)
4)利用式(8)計算偽判別損失函數RP,交叉熵損失函數RL由下式解得
RL=E(x,y)~P(x,y)[-logPc(y|x)]
(10)
5)假定梯度下降方向為Tc,結合偽判別損失函數RP與交叉熵損失函數RL,架構出下列分類器C更新依據Tc

(11)
6)同上,架構出下列生成器G更新依據Tg

(12)
7)直到算法開始收斂或滿足預設循環周期數量,停止迭代。
改進半監督學習下生成式對抗網絡的跨模態圖像生成過程主要分為生成網絡、分類網絡以及判別網絡三個階段。各階段的詳細操作內容描述如下:
1)利用生成器的反卷積網絡,上采樣處理輸入的任意噪點向量:在全局平均池化層中輸入噪點,該噪點是從某指定分布形式中任意選取的,通過轉換維度取得三維笛卡爾張量,按序展開反卷積,完成批量歸一化處理,輸出層的輸出張量就是生成的最終圖像。
2)通過由卷積神經網絡構成的判別器,取得歸一化種類幾率:將圖像樣本信息輸入卷積層,經卷積操作與批量歸一化處理,得到圖像特征,邏輯向量由全局平均池化層輸出后,利用歸一化指數函數獲取歸一化種類幾率。
3)采取分類器劃分圖像信息標識類別:把實際信息x從P(x)內提取出來得到偽標識,近似描述條件分布形式,將分類器與生成器的偽標識輸入判別器后,實現真偽辨別。
采用Linux操作系統,Intel core(R)i5@3.6Hz處理器,16GB內存搭建仿真環境。從sketch-celeb A數據集中隨機選取多張樣本圖像,統一裁剪成612*612規格。針對生成式對抗網絡,設定分類器等各網絡的可訓練參數為23、19、13,學習率是0.0004。
為有效反映生成圖像水平及其與草圖的相似度,分別采用弗雷歇距離FID、均方根誤差RMSE以及平均絕對誤差MSE三個指標,評價本文方法生成的跨模態圖像質量。評價指標計算公式分別如下所示

(13)

(14)

(15)
式中,Pr、Pg表示圖像特征函數φ的高斯向量,μr、μg表示信息均值,ξr、ξg表示信息協方差;p表示向量u、v的維度。
利用Proteus軟件模擬生成跨模態圖像,得到圖3所示的生成效果。

圖3 跨模態圖像生成效果示意圖
根據所示的跨模態生成效果圖可以看出,改進前生成的圖像存在多個模糊區域,更嚴重的是缺失了目標的部分重要信息;從視覺感官出發,發現改進后方法得到的生成圖像更具真實感,且保留了大部分的目標特征。這是因為批量歸一化處理了各隱藏層,各網絡層采用了不同的函數,并通過監督訓練模式與生成器生成的偽信息,完成了分類器訓練,使構建的偽判別損失函數滿足了散度全局最佳均衡點不受影響的假設推論,故改進后方法生成效果更佳。
表1所示為改進前與改進后,弗雷歇距離、均方根誤差以及平均絕對誤差三個指標的實驗數據。

表1 改進前與改進后各評估指標數據
根據表1中各指標的評估結果可以看出,改進后的指標數據較改進前有大幅下降,結合圖像質量與各指標值之間的負相關關系可知,改進后方法由于在整體結構中引入了分類器,可在已知真信息時生成偽標識,并近似描述條件分布形式,分類圖像信息標識,同時利用設計的隨機梯度下降優化算法,實現了散度似然比的直接優化,基于解得的偽判別損失函數與交叉熵損失函數,將梯度的上升、下降方向作為判別器、生成器以及分類器的更新依據,故生成的圖像質量較高,在跨模態圖像生成領域中具有明顯的突出作用。
跨模態圖像即經各項技術途徑獲得的圖像信息,該信息呈現出相同目標的各個屬性特征,其生成過程類似于圖像間的相互轉換。生成式對抗網絡作為圖像生成領域的主流手段,在該領域中取得了突出的成就與表現。為此,本文通過改進生成式對抗網絡和半監督學習,構建出跨模態圖像生成策略。實驗結果證明,本文方法生成的圖像質量較高,能夠保留大量信息。接下來將與U-Net結構、注意力機制等進行有效結合作為研究重點,以獲取更高的圖像生成質量;應將本文方法應用于除真實人臉外的其它圖像種類,拓展方法適用范圍;改進模型中網絡數量較多,結構相對復雜,訓練用時較長,需就此展開深入研究,加快模型訓練速度;在今后的工作中繼續探索無監督學習下的跨模態生成效果,根據成本與用時來選取更合適的學習模式;應學習生成式對抗網絡理論知識,從其穩定性方面做進一步優化,提升方法的整體性能。