選擇性傳輸與鉸鏈對抗的多圖像域人臉屬性遷移

2022-04-18 10:56:40陳壯源李玉強

計算機工程 2022年4期

林泓，陳壯源，任碩，李琳，李玉強

（武漢理工大學(xué)計算機科學(xué)與技術(shù)，武漢 430063）

0 概述

人臉屬性遷移可以看成是一類圖像域到圖像域的任務(wù)［1］，其主要應(yīng)用于數(shù)據(jù)預(yù)處理、輔助人臉識別、娛樂社交等領(lǐng)域。生成對抗網(wǎng)絡(luò)［2］作為當(dāng)前人臉屬性遷移的主流架構(gòu)，結(jié)合零和博弈的思想，在判別器和生成器協(xié)同對抗訓(xùn)練中不斷提高生成圖像的真實性和質(zhì)量。相比使用配對圖像訓(xùn)練數(shù)據(jù)集的有監(jiān)督圖像遷移方法［3］，無監(jiān)督圖像遷移方法可以通過非配對圖像數(shù)據(jù)集完成圖像域遷移，具有更廣泛的應(yīng)用場景［4］。

根據(jù)訓(xùn)練過程中建立的源圖像域和目標(biāo)圖像域的映射關(guān)系，無監(jiān)督圖像遷移分為單圖像域遷移和多圖像域遷移［5］。針對單圖像域之間的映射關(guān)系，文獻［6］提出DFI 方法，根據(jù)線性特征空間假設(shè)直接從源圖像域特征空間學(xué)習(xí)目標(biāo)圖像的屬性特征，以實現(xiàn)單圖像域人臉屬性的遷移。文獻［7］提出cycleGAN 方法，引入循環(huán)重構(gòu)一致性約束，采用兩個生成器和判別器在另外一個生成器中對生成的遷移圖像進行重構(gòu)，從而更好地建立圖像域之間的映射關(guān)系。文獻［8］在cycleGAN 的基礎(chǔ)上，通過引入自注意力機制建立像素間遠(yuǎn)近距離的依賴性，以更好地還原圖像的細(xì)節(jié)信息，并通過譜規(guī)范化提升模型的穩(wěn)定性，從而提高遷移圖像的真實性。但是無監(jiān)督的單圖像域人臉屬性遷移只能在單個人臉屬性圖像域之間進行，如果進行多個圖像域遷移，需分別對每個圖像域進行單獨訓(xùn)練，增大了訓(xùn)練的難度。

多圖像域人臉屬性遷移是單圖像域遷移的拓展，其目標(biāo)是在一次訓(xùn)練過程中完成多個圖像域之間的遷移。文獻［9］提出IcGAN 方法，使用標(biāo)簽完成人臉圖像重構(gòu)以及多圖像域遷移，采用兩個編碼器分別提取圖像中的內(nèi)容信息和屬性標(biāo)簽信息，再通過CGAN［10］生成指定的遷移圖像。文獻［11］在UNIT［12］基礎(chǔ)上提出MUNIT 方法，基于圖像可以分解成固定的內(nèi)容編碼和樣式編碼的假設(shè)，利用自適應(yīng)實例歸一化融合兩個編碼器，并分別提取內(nèi)容編碼和樣式編碼，從而完成多圖像域的遷移任務(wù)。文獻［1］提出的ELEGANT 方法，通過提取圖像中各個屬性的內(nèi)容信息來建立每個屬性和隱層編碼特征向量的位置關(guān)系，以指導(dǎo)多圖像域人臉屬性遷移。同樣，文獻［13］提出的StarGAN 方法，在生成器網(wǎng)絡(luò)中引入目標(biāo)圖像域標(biāo)簽信息，通過循環(huán)重構(gòu)一致性約束保證遷移圖像域前后的一致性，并結(jié)合分類損失函數(shù)指導(dǎo)建立源圖像域和目標(biāo)標(biāo)簽的映射關(guān)系，從而完成多圖像域人臉屬性遷移。文獻［14］在StarGAN 基礎(chǔ)上提出StarGAN v2，利用映射網(wǎng)絡(luò)生成樣式編碼信息，生成器將源域輸入圖像和生成的樣式編碼信息遷移成目標(biāo)域圖像，以增加遷移圖像域的多樣性。文獻［15］基于Attgan［16］提出STGAN方法，利用選擇性傳輸單元（Selective Transfer Units，STU）將編碼器提取的圖像內(nèi)容特征根據(jù)差分屬性標(biāo)簽選擇性傳輸?shù)浇獯a器，以降低跳躍連接對圖像分辨率的影響，從而減少無關(guān)圖像域的變化，且提升多圖像域人臉屬性遷移的質(zhì)量。

當(dāng)前多圖像域人臉屬性遷移方法能夠較好地建立目標(biāo)標(biāo)簽與遷移圖像域之間的對應(yīng)關(guān)系，但仍存在圖像域表達形式多樣性差、無關(guān)遷移圖像域變化較大和判別器準(zhǔn)確度低的問題，通過類別標(biāo)簽指導(dǎo)的多圖像域人臉屬性遷移直接輸入離散形式的目標(biāo)標(biāo)簽，一方面無法明確遷移目標(biāo)圖像域和源圖像域之間的差異，另一方面造成圖像域表達方式多樣性的損失。下采樣的卷積操作導(dǎo)致圖像分辨率降低和圖像遷移細(xì)節(jié)失真。單個判別器的鑒別能力無法準(zhǔn)確定位遷移的圖像域，導(dǎo)致判定準(zhǔn)確度低，從而降低生成圖像的協(xié)調(diào)性與真實性。在尋找納什均衡解的過程中，判別器未能很好地使用輸入數(shù)據(jù)（一半是真一半是假）的先驗知識，導(dǎo)致目標(biāo)圖像域定位不夠準(zhǔn)確，且指定圖像域的遷移效果欠佳。

為改進多圖像域人臉屬性遷移的視覺效果，本文提出一種多圖像域人臉屬性遷移方法。在生成器網(wǎng)絡(luò)設(shè)計中，通過引入相對屬性標(biāo)簽［18］和選擇性傳輸單元，遷移目標(biāo)圖像域。利用圖像域控制器和自適應(yīng)實例歸一化［19］融合內(nèi)容特征和樣式特征。在判別器網(wǎng)絡(luò)設(shè)計中，采用雙尺度判別提高人臉屬性遷移的圖像質(zhì)量。在損失函數(shù)設(shè)計中，設(shè)計融合相對鑒別［20］與鉸鏈損失的鉸鏈對抗損失函數(shù)，從而提升指定圖像域的整體遷移效果。

1 融合選擇性傳輸和鉸鏈對抗的遷移模型

1.1 整體模型

人臉屬性遷移任務(wù)的本質(zhì)是在保證其他區(qū)域像素不變的情況下，通過修改特定部分的像素獲取遷移目標(biāo)圖像?；诖耍疚脑O(shè)計的多圖像域人臉屬性遷移整體結(jié)構(gòu)由一個生成器G和兩個判別器D組成，如圖1 所示。生成器網(wǎng)絡(luò)由基本網(wǎng)絡(luò)和圖像域控制器組成，其中基本網(wǎng)絡(luò)由編碼器、解碼器構(gòu)成，圖像域控制器由多層感知機（Multilayer Perceptron，MLP）構(gòu)成，主要生成目標(biāo)圖像的樣式信息。判別器整體結(jié)構(gòu)由鑒別網(wǎng)絡(luò)和分類網(wǎng)絡(luò)2 個部分組成，真假信息由鑒別網(wǎng)絡(luò)輸出，遷移圖像域類別信息由分類網(wǎng)絡(luò)獲取，如圖1 所示。

圖1 本文模型整體結(jié)構(gòu)Fig.1 Overall structure of the proposed model

從圖1 可以看出，屬性標(biāo)簽中每個位置的具體值分別表示其中的一種人臉屬性圖像域，為減少目標(biāo)圖像域和生成圖像域之間的差異性，本文模型采用相對屬性標(biāo)簽作為輸入，模型的整體流程主要是將真實圖像a和相對屬性標(biāo)簽lrelative輸入到生成器G，生成器根據(jù)相對屬性標(biāo)簽lrelative將真實圖像a遷移為圖像b，為保證遷移圖像和原始圖像的一致性，將生成的圖像b根據(jù)屬性標(biāo)簽-lrelative再次經(jīng)過生成器G重新生成循環(huán)重構(gòu)的圖像a′。在判別器中利用卷積神經(jīng)網(wǎng)絡(luò)獲得生成器所生成圖像各個域特征信息的分類損失，以建立生成圖像與相對屬性標(biāo)簽的映射關(guān)系，同時對生成圖像進行真假鑒定，從而獲取生成圖像與原始圖像的對抗損失，更好地引導(dǎo)圖像域的遷移。

本文模型設(shè)計了相對屬性標(biāo)簽，通過單個生成器和雙尺度判別器相互對抗，使其專注于生成目標(biāo)圖像域，利用對抗損失和分類損失指導(dǎo)生成器建立相對屬性標(biāo)簽和生成圖像域的映射，從而完成多圖像域遷移任務(wù)。

1.2 生成器模型

本文生成器的整體結(jié)構(gòu)由圖像域控制器、上采樣、中間區(qū)域、下采樣和選擇性傳輸單元5 個部分組成。由MLP 構(gòu)成的圖像域控制器將目標(biāo)圖像的相對屬性標(biāo)簽和高斯分布的噪聲數(shù)據(jù)遷移為圖像域樣式信息；由卷積神經(jīng)網(wǎng)絡(luò)組成的下采樣區(qū)域提取圖像的內(nèi)容特征信息；由自適應(yīng)實例歸一化（AdaIN）殘差網(wǎng)絡(luò)塊結(jié)構(gòu)組成的下采樣區(qū)域，融合提取的內(nèi)容信息和圖像域控制器生成的樣式信息；STU 將在下采樣區(qū)域中的圖像內(nèi)容特征信息傳輸?shù)缴喜蓸訁^(qū)域中；反卷積神經(jīng)網(wǎng)絡(luò)組成的上采樣區(qū)域?qū)⑷诤系奶卣鬟w移成圖像。具體結(jié)構(gòu)如圖2所示。

圖2 融合域控制器和選擇性傳輸單元的生成器結(jié)構(gòu)Fig.2 Structure of generator with domain controller and selective transfer units

在生成器的參數(shù)設(shè)置上，除上采樣輸出層使用Tanh 作為非線性激活函數(shù)以外，其他區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)均選擇ReLU 作為激活函數(shù)。圖像歸一化處理時在下采樣區(qū)域卷積層采用IN，在中間區(qū)域的殘差網(wǎng)絡(luò)塊采用AdaIN，其他參數(shù)設(shè)置如表1 所示。

表1 生成器的參數(shù)設(shè)置Table 1 Parameter settings of generator

1.2.1 圖像域控制器

采用離散形式的目標(biāo)標(biāo)簽作為輸入，一方面導(dǎo)致無法建立明確的遷移圖像域和源圖像域映射關(guān)系，另一方面造成生成圖像的圖像域表達形式單一。本文利用相對屬性標(biāo)簽代替目標(biāo)標(biāo)簽，將相對屬性標(biāo)簽與隨機的噪聲數(shù)據(jù)拼接作為圖像域控制器的輸入。圖像域控制器根據(jù)不同的隨機噪聲生成圖2 中的目標(biāo)圖像域樣式信息w，并利用中間區(qū)殘差網(wǎng)絡(luò)塊中的自適應(yīng)實例歸一化，將圖像域控制器生成的樣式信息和下采樣提取的內(nèi)容特征信息進行融合，以增加圖像域表達方式的多樣性。

圖像域控制器結(jié)構(gòu)由4層感知機網(wǎng)絡(luò)組成，將c維隨機高斯噪聲數(shù)據(jù)和n維相對屬性標(biāo)簽數(shù)據(jù)拼接后作為輸入，n代表訓(xùn)練的屬性個數(shù)，輸出維度設(shè)定為殘差網(wǎng)絡(luò)深度的2 倍，m代表AdaIN 層數(shù)，整體結(jié)構(gòu)參數(shù)設(shè)置如表2 所示。

表2 圖像域控制器的參數(shù)設(shè)置Table 2 Parameter settings of image domain controller

1.2.2 自適應(yīng)實例歸一化殘差網(wǎng)絡(luò)

為更好地融合圖像域控制器生成的樣式信息和遷移圖像的內(nèi)容信息，本文在生成器中采用多個自適應(yīng)實例歸一化（AdaIN）殘差網(wǎng)絡(luò)塊組成中間區(qū)，將圖像域控制器的輸出作為殘差網(wǎng)絡(luò)塊的輸入樣式信息，并利用AdaIN 融合圖像內(nèi)容特征信息和樣式特征信息，以保留原圖像內(nèi)容信息的同時增加樣式的多樣性。

AdaIN［19］是基于IN 的改進，將圖像內(nèi)容信息與樣式信息的均值和標(biāo)準(zhǔn)差對齊，從而更好地融合不同的圖像域信息。x表示圖像內(nèi)容信息，y表示樣式信息，AdaIN 的計算如式（1）～式（3）所示：

1.2.3 選擇性傳輸單元

下采樣的卷積操作僅通過跳躍連接將下采樣提取的特征傳輸?shù)缴喜蓸?，難以有效地增加遷移圖像域的細(xì)節(jié)特征信息。針對此問題，本文引入STU［15］將下采樣提取的特征根據(jù)輸入的相對屬性標(biāo)簽選擇性地傳輸?shù)缴喜蓸?，以形成融合特征，從而增加遷移圖像域的細(xì)節(jié)信息，減少無關(guān)圖像域的變化。STU是在GRU［17］基礎(chǔ)上進行改進，結(jié)構(gòu)如圖3 所示。

圖3 選擇性傳輸單元結(jié)構(gòu)Fig.3 Structure of selective transfer units

1.3 判別器模型

為建立明確的相對屬性標(biāo)簽和遷移圖像域之間的映射關(guān)系，本文在對輸入圖像真?zhèn)舞b別的基礎(chǔ)上增加類別的判定，通過類別的分類損失引導(dǎo)生成器明確標(biāo)簽中每個位置上的數(shù)值信息與遷移目標(biāo)圖像域的對應(yīng)關(guān)系，從而根據(jù)相對屬性標(biāo)簽生成遷移的目標(biāo)圖像域。

在判別器結(jié)構(gòu)設(shè)計中，判別器D1對尺寸為H×W的輸入圖像進行判別，判別器D2對平均池化后尺寸為H/2×W/2 的圖像進行判別。雙尺度判別的對抗損失和分類損失的計算如式（10）所示：

式（10）是通過協(xié)同鑒定圖像真?zhèn)魏皖悇e，解決單一判別器判定準(zhǔn)確度低的問題，雙尺度判別器結(jié)構(gòu)如圖4 所示。判別器網(wǎng)絡(luò)由真?zhèn)舞b定結(jié)構(gòu)和圖像域分類結(jié)構(gòu)組成，共享0～2 層網(wǎng)絡(luò)，在真假鑒別區(qū)采用PatchGAN［3］輸出真?zhèn)涡畔?，分類區(qū)輸出分類信息，具體參數(shù)設(shè)置如表3 所示。

圖4 雙尺度判別器結(jié)構(gòu)Fig.4 Structure of dual-scale discriminator

表3 具有多分類結(jié)構(gòu)的判別器參數(shù)設(shè)置Table 3 Parameter settings of discriminator with multi-classification structure

從表3可以看出，除輸入層和輸出層以外，判別器模型均采用譜歸一化（Spectral Normalization，SN）提高模型整體訓(xùn)練的穩(wěn)定性。m為當(dāng)前特征通道尺寸，如本文的輸入圖像尺寸為128，共享區(qū)網(wǎng)絡(luò)有3 層，則m設(shè)置為8，n為輸入圖像的類別標(biāo)簽長度，如本文訓(xùn)練5 種屬性，則n設(shè)置為5。

本文選擇在不同權(quán)重比例超參數(shù)λ1=0.3λ2=0.7、λ1=0.4λ2=0.6 和λ1=0.5λ2=0.5 的雙尺度判別器上進行實驗，驗證了λ1和λ2選擇0.5 效果最優(yōu)。

2 損失函數(shù)

本文所提的人臉屬性遷移模型是基于STU 和鉸鏈對抗損失，通過循環(huán)一致性約束確保輸入圖像和遷移圖像內(nèi)容特征的一致性，利用分類損失指導(dǎo)生成器建立屬性標(biāo)簽與生成圖像的關(guān)聯(lián)；同時，將相對對抗損失與鉸鏈損失相結(jié)合以關(guān)注整體樣本間的差異，從而指導(dǎo)人臉屬性的遷移，整體損失如式（11）所示：

其中：LRHingeGAN為鉸鏈對抗損失；重構(gòu)損失由循環(huán)重構(gòu)損失Lrec和自我重構(gòu)損失Lidt兩個部分組成；Lcls為屬性標(biāo)簽分類損失；λrec、λidt和λcls分別為循環(huán)重構(gòu)、自我重構(gòu)和分類損失的權(quán)重比例超參數(shù)。

2.1 鉸鏈對抗損失

GAN 的對抗損失是為了尋找在零和博弈狀態(tài)下的納什均衡解，在圖像遷移任務(wù)中，即生成與原始真實圖像分布相同的圖像。文獻［2］提出的原始GAN 中損失函數(shù)如式（12）所示：

其中：Pdata(x)為圖像域X的樣本分布；Pdata(z)為圖像域Z的樣本分布。當(dāng)判別器D測量JS 散度的最小值時，由于其不具有輸入數(shù)據(jù)一半是真一半是假的先驗知識，會出現(xiàn)對所有的輸入x均為D(x) ≈1 的情況，從而造成判別器難以同時依賴真實數(shù)據(jù)和生成數(shù)據(jù)，最終真實數(shù)據(jù)與生成數(shù)據(jù)的概率難以達到理想狀態(tài)下的0.5，即難以找到真實的納什均衡解。

針對原始生成對抗損失未能充分利用輸入數(shù)據(jù)一半是真一半是假的先驗知識，本文引入相對鑒別［20］的思想，采用相對真假代替絕對真假，增大生成數(shù)據(jù)為真的概率的同時減小真實數(shù)據(jù)為真的概率。在人臉屬性遷移任務(wù)中，本文通過訓(xùn)練真?zhèn)螆D像之間的間隔邊界以提高生成圖像的真實性。因此，本文在真假二分類過程中利用鉸鏈損失尋找不同分布間的最大間隔，以嚴(yán)格決策真?zhèn)螆D像間的最大間隔邊界［21］，進而關(guān)注所有樣本間的差異性，從而提升判別器真?zhèn)舞b別的能力與生成圖像的真實性和質(zhì)量。最終，本文將相對鑒別與鉸鏈損失相結(jié)合，得到判別器和生成器的對抗損失如式（13）所示：

其中：x為輸入圖像；Pdata為真實數(shù)據(jù)分布；Dsrc為判別器D中的真?zhèn)舞b別結(jié)構(gòu)；lrelative為相對屬性標(biāo)簽；max()為取兩者間最大值函數(shù)。

2.2 重構(gòu)損失

本文的重構(gòu)損失由循環(huán)重構(gòu)和自我重構(gòu)組成，通過增加自我重構(gòu)以保證人臉屬性遷移圖像內(nèi)容的一致性。

2.2.1 循環(huán)重構(gòu)

在人臉屬性遷移任務(wù)中，循環(huán)重構(gòu)不僅保留原始圖像的結(jié)構(gòu)和內(nèi)容等信息，同時還遷移指定的圖像域，僅利用對抗損失無法保證生成圖像與原圖像結(jié)構(gòu)和內(nèi)容信息的一致性。為更好地建立相對屬性標(biāo)簽和遷移圖像間的映射關(guān)系，本文引入循環(huán)一致性條件約束，通過相對屬性標(biāo)簽引導(dǎo)人臉屬性遷移。首先原始圖像a在相對屬性標(biāo)簽lrelative的引導(dǎo)下，生成器G將原始圖像遷移成目標(biāo)圖像b=G(a,lrelative)；然后生成圖像b在標(biāo)簽-lrelative的引導(dǎo)下，再次經(jīng)過生成器G還原得到a的循環(huán)重構(gòu)圖像a'=G(b,-lrelative)。循環(huán)重構(gòu)損失如式（14）所示：

2.2.2 自我重構(gòu)

為避免無關(guān)圖像域在遷移過程中發(fā)生改變，本文引入自我重構(gòu)一致性約束以降低無關(guān)圖像域的變化。在自我重構(gòu)過程中，對于任意的真實圖像a，在無差異屬性標(biāo)簽的引導(dǎo)下，a經(jīng)過生成器重構(gòu)成原圖像a'，減少無關(guān)圖像域的變化。自我重構(gòu)損失的計算如式（15）所示：

其中：0 為無差異屬性標(biāo)簽。

2.3 分類損失

為保持原圖像域和遷移圖像域的一致性，本文設(shè)計分類損失以平衡輸入標(biāo)簽與判別器輸出類別之間的差異。本文通過相對屬性標(biāo)簽指導(dǎo)圖像遷移，以判定生成圖像中每個遷移圖像域特征的類別，從而加強相對屬性標(biāo)簽和生成圖像之間的聯(lián)系，并完成目標(biāo)圖像域的遷移。為區(qū)分不同的目標(biāo)圖像域，本文采用多分類任務(wù)的交叉熵作為分類損失函數(shù)。判別器和生成器的分類損失如式（16）所示：

其中：x為輸入圖像；lorg為原始標(biāo)簽；lsrc為目標(biāo)標(biāo)簽；Dcls為判別器D中的分類結(jié)構(gòu)。

3 實驗結(jié)果及分析

本文采用的數(shù)據(jù)集CelebA［22］由202 599 張人臉圖片組成，總共10 177 個名人，每張圖片有40 個二分屬性標(biāo)簽。本文將數(shù)據(jù)集中原始大小為178×218 的圖像裁剪成178×178，并重新調(diào)整大小為128×128，隨機選擇其中1 999 張作為測試數(shù)據(jù)集，其余200 600 張作為訓(xùn)練數(shù)據(jù)集。

在數(shù)據(jù)集上，本文通過選取發(fā)色（黑發(fā)、金發(fā)、棕發(fā)）、性別和年齡這5 種屬性進行人臉屬性遷移實驗，并分別與采用標(biāo)簽訓(xùn)練的IcGAN、StarGAN 和STGAN 進行對比。本文選取發(fā)色（黑發(fā)、金發(fā)、棕發(fā)）、劉海和眼鏡這5 種屬性完成多樣性效果實驗。

3.1 實驗環(huán)境與訓(xùn)練參數(shù)設(shè)置

本文實驗CPU為40 Intel?Xeon?Silver 4210 CPU@2.20 GHz，31 GB；GPU 為NVIDIA GeForce RTX 2080 Ti，11 GB；操作系統(tǒng)為Ubuntu 18.04 LTS；開發(fā)環(huán)境為PyTorch 1.7.0，python 3.6.12，CUDA 10.0.130

在模型參數(shù)設(shè)置上，訓(xùn)練集的迭代批次batch_size設(shè)置為16，生成器中間區(qū)域殘差塊個數(shù)設(shè)置為6；采用TTUR［23］策略提高判別器的收斂速度，生成器和判別器的學(xué)習(xí)率分別設(shè)置為0.000 1和0.000 2；在權(quán)重選擇上，循環(huán)重構(gòu)超參數(shù)λrec和自我重構(gòu)超參數(shù)λidt都設(shè)置為10，分類損失超參數(shù)λcls設(shè)置為1；在模型優(yōu)化訓(xùn)練上，選取Adam 作為梯度下降算法，算法的一階矩估計和二階矩估計的指數(shù)衰減率參數(shù)分別設(shè)置為0.5 和0.999；選取70×70 的尺寸作為PatchGAN 判別區(qū)域的patch_size。具體實驗訓(xùn)練參數(shù)設(shè)計如表4 所示。

表4 訓(xùn)練參數(shù)設(shè)置Table 4 Training parameter settings

3.2 評價指標(biāo)

本文采用分類準(zhǔn)確率（CCA）、FID（Frechet Inception Distance）和用戶調(diào)研評價（UUS）作為人臉屬性遷移效果的評價指標(biāo)。

1）分類準(zhǔn)確率CCA能有效反映遷移圖像域的準(zhǔn)確性。本文利用圖像分類模型對真實圖像進行訓(xùn)練，將其得到的分類準(zhǔn)確率作為基準(zhǔn)值，然后根據(jù)訓(xùn)練好的模型對生成圖像進行分類，將得到的分類準(zhǔn)確率與基準(zhǔn)值進行對比。準(zhǔn)確率越高，越容易區(qū)分遷移圖像的圖像域，生成圖像的效果越好。本文的分類模型選擇Xception［24］網(wǎng)絡(luò)，分類準(zhǔn)確率如式（17）所示：

2）FID 能有效評估GAN 生成圖像質(zhì)量的指標(biāo)，用于度量2 個圖像數(shù)據(jù)集之間的相似性。本文通過將原始圖像數(shù)據(jù)集和GAN 生成的圖像數(shù)據(jù)集擬合到Inception［25］網(wǎng)絡(luò)，由網(wǎng)絡(luò)對所得到的兩個高斯分布之間的弗雷謝距離進行計算。FID 數(shù)值越低，代表生成圖像的真實性越高，遷移圖像的效果越好。定義X1～N(μ1,σ1)為真實數(shù)據(jù)集X1的高斯分布，X2～(μ2,σ2)為生成數(shù)據(jù)集的高斯分布，F(xiàn)ID 如式（18）所示：

3）用戶調(diào)研評價UUS能有效反映人眼對遷移圖像質(zhì)量的評估，是屬性遷移常用的主觀評價方法。從測試集隨機選擇M張圖像輸入到不同的模型，根據(jù)相同輸入圖像的輸出圖像分成M組。被評選為最佳效果圖的次數(shù)越多，代表該模型的視覺效果越好，圖像遷移質(zhì)量越高。UUS如式（19）所示：

其中：n為被評為最佳效果圖的次數(shù)

3.3 自適應(yīng)實例歸一化和選擇性傳輸效果評估

為驗證自適應(yīng)實例歸一化和選擇性傳輸單元對遷移效果的影響，本文在CelebA 數(shù)據(jù)集上進行圖像遷移實驗。

3.3.1 鉸鏈對抗損失和選擇性傳輸單元效果評估

本文實驗進行了160 000～200 000 次迭代，當(dāng)?shù)螖?shù)達到200 000 次時，模型處于完全收斂狀態(tài)，故選擇200 000 次作為模型最終的迭代訓(xùn)練次數(shù)。

為達到最優(yōu)的遷移效果，本文選擇雙尺度判別并選取原始圖像H×W和平均池化后的圖像H/2×W/2作為判別器的輸入。單尺度判別因缺少細(xì)節(jié)特征的判定，導(dǎo)致整體遷移圖像略顯失真。然而多尺度判別過于強調(diào)背景的細(xì)節(jié)特征，導(dǎo)致整體遷移圖像的背景等無關(guān)圖像域變化較為明顯，雙尺度判別能協(xié)同鑒定輸入圖像的真?zhèn)渭邦悇e，以提升圖像細(xì)節(jié)特征的判定準(zhǔn)確度，提高遷移圖像的質(zhì)量。

為驗證鉸鏈對抗損失和選擇性傳輸單元融合的有效性，在相同實驗環(huán)境下，不同條件的實驗對比結(jié)果如圖5 所示。

圖5 不同條件下的實驗結(jié)果對比Fig.5 Comparison of experimental results with different conditions

從圖5 可以看出，第1 行采用鉸鏈對抗損失和基本圖像生成結(jié)構(gòu)的遷移效果，第2 行采用原始對抗損失和選擇性傳輸單元的遷移效果，第3 行融合鉸鏈對抗損失和選擇性傳輸單元的遷移效果。從第1行和第3行可以看出，通過增加選擇性傳輸單元后，在圖像域特征細(xì)節(jié)上的遷移效果更加明顯，如第3 列轉(zhuǎn)換金發(fā)屬性時，融合鉸鏈對抗損失和選擇性傳輸單元的圖像遷移效果中金發(fā)部分失真明顯減少。當(dāng)?shù)? 列轉(zhuǎn)變?yōu)榕詴r，融合鉸鏈對抗損失和選擇性傳輸單元的背景顏色更接近輸入圖像；第6 列在年齡增大后面部輪廓特征更加明顯。從第2 行和第3 行可以看出，增加鉸鏈對抗后的圖像遷移效果能夠有效減少無關(guān)圖像域的轉(zhuǎn)變，如在第2 列遷移黑發(fā)屬性圖像域中，人物的膚色更接近輸入圖像的膚色；第5 列轉(zhuǎn)變?yōu)榕詴r，嘴唇的口紅顏色更鮮艷以及面部輪廓也更加明顯。第1 行和第3行的圖像遷移結(jié)果表明選擇性傳輸單元能改進圖像的細(xì)節(jié)特征；第2 行和第3 行的圖像表明鉸鏈對抗損失減少了無關(guān)圖像域的遷移。

本文在不同條件下計算生成圖像FID的數(shù)值，如表5所示，加粗表示最優(yōu)數(shù)據(jù)。從表5可以看出，與鉸鏈對抗損失相比，采用鉸鏈對抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了0.652，即遷移的圖像域更接近真實圖像；與選擇性傳輸單元相比，采用鉸鏈對抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了5.228。

表5 在不同條件下FID 對比Table 5 FID comparison under different conditions

實驗結(jié)果表明，鉸鏈對抗損失可以充分利用輸入數(shù)據(jù)一半是真一半是假的先驗知識，從而提高遷移圖像的真實性；選擇性傳輸單元可以解決下采樣的卷積操作存在圖像細(xì)節(jié)信息缺失的問題。融合鉸鏈對抗損失和選擇性傳輸單元可以有效提高本文整體模型遷移圖像的質(zhì)量。

3.3.2 自適應(yīng)實例歸一化效果評估

為評估融合域控制器和AdaIN 殘差網(wǎng)絡(luò)增加遷移圖像域表達方式的多樣性效果，本文選取發(fā)色（黑發(fā)、金發(fā)、棕發(fā)）、眼鏡和劉海屬性作為訓(xùn)練的屬性標(biāo)簽進行實驗。在輸入圖像和相對屬性標(biāo)簽不變的條件下，根據(jù)不同的隨機噪聲數(shù)據(jù)，輸出遷移圖像，從多組圖像中選取具有代表性的輸出圖像。未采用AdaIN 和采用AdaIN 的實驗結(jié)果對比如圖6 所示。

圖6 本文方法未采用AdaIN 和采用AdaIN 的實驗結(jié)果對比Fig.6 Experimental results comparison of the proposed method with AdaIN and without AdaIN

從圖6（a）可以看出，未采用AdaIN的圖像遷移效果除發(fā)色變化之外，劉海比較稠密且向左下斜，鏡片是顏色略深的方形，樣式單一。從圖6（b）可以看出，采用融合域控制器與AdaIN后，劉海彎曲形狀的斜右下樣式、略微稀疏的左下斜樣式，鏡片輪廓上有方形的和橢圓形的，且顏色上是黑色的、白色的，均呈現(xiàn)多種不同的樣式。

為進一步驗證劉海和眼鏡遷移圖像多樣性的質(zhì)量，本文計算相對應(yīng)的FID 數(shù)值，如表6 所示。采用AdaIN 能有效提升眼鏡和劉海多種表達方式的真實性。實驗結(jié)果驗證融合域控制器與AdaIN 的有效性，將不同的隨機噪聲輸入到圖像域控制器，能有效增加圖像域樣式的多樣性。

表6 本文方法未采用AdaIN 和采用AdaIN 的FID 對比Table 6 FID comparison of the proposed method with AdaIN and without AdaIN

綜合以上的對比實驗可以得出：鉸鏈對抗損失通過訓(xùn)練真?zhèn)螆D像的間隔邊界，可以更好地提高生成圖像的真實性；選擇性傳輸單元能有效降低下采樣的卷積操作對圖像分辨率的影響，提高圖像遷移的細(xì)節(jié)信息；融合圖像域控制器與AdaIN 可以實現(xiàn)圖像域多樣性的表達。

3.4 人臉屬性遷移效果評估

本文的圖像域?qū)傩赃w移模型經(jīng)一次訓(xùn)練后，既可以完成單個屬性的圖像域遷移，也可以同時完成多個屬性的圖像域遷移。為驗證本文方法在單個屬性遷移和多個屬性同時遷移的有效性，在相同的實驗環(huán)境下，本文選取發(fā)色（黑發(fā)、金發(fā)、棕發(fā)）、性別和年齡這5 種屬性進行訓(xùn)練，與同樣完成人臉屬性遷移工作的IcGAN［9］、StarGAN［13］和STGAN［15］進行對比實驗。

本文均復(fù)現(xiàn)原作者源代碼進行對比：1）IcGAN，在CGAN 基礎(chǔ)上融合Z 和Y 編碼器完成多圖像域遷移工作，引入標(biāo)簽完成多圖像域遷移任務(wù)；2）StarGAN，經(jīng)過一次訓(xùn)練即可完成多圖像域遷移任務(wù)，通過循環(huán)一致性約束和分類損失完成多圖像域遷移任務(wù)；3）STGAN，經(jīng)過一次訓(xùn)練即可完成多圖像域遷移任務(wù)，在生成器的輸入中加入差分屬性和選擇性傳輸單元完成圖像遷移任務(wù)。

3.4.1 單屬性遷移

在經(jīng)過一次訓(xùn)練完成的多圖像域遷移模型中，本文分別改變輸入圖像單個目標(biāo)圖像域?qū)傩詷?biāo)簽，以生成人臉屬性遷移圖像。本文選取具有代表性的生成圖像進行單個屬性遷移效果對比，如圖7 所示。

從圖7（a）可以看出，采用IcGAN 方法將發(fā)色遷移成黑發(fā)時，出現(xiàn)了明顯的胡子，發(fā)型也發(fā)生了轉(zhuǎn)變，整體圖像失真嚴(yán)重；從圖7（b）可以看出，采用StarGAN 方法將發(fā)色遷移成金發(fā)時，斜向左的劉海發(fā)絲略微失真且不自然，遷移成男性時，唇部顏色略顯蒼白，面部膚色也略顯暗淡。從圖7（c）和圖7（d）可以看出，采用STGAN 和本文方法將發(fā)色遷移成黑發(fā)時，發(fā)色自然且發(fā)絲更加逼真；當(dāng)增加圖像中人物年齡時，遷移圖像顯示僅改變了臉上的皺紋。因此，IcGAN 遷移效果中整體圖像細(xì)節(jié)模糊且背景變化大，StarGAN 遷移效果中部分細(xì)節(jié)不夠真實，STGAN 和本文方法都較好地完成了屬性的遷移，整體圖像顯得自然、真實，無關(guān)圖像域變化小。

圖7 不同方法的單個屬性遷移效果對比Fig.7 Single attribute migration effects comparison among different methods

為體現(xiàn)實驗的公正性，本文選擇10 名研究生分別對5 種屬性的遷移效果圖進行評選，遷移效果圖由30 組評價樣本組成，每組評價樣本由4 張相同的測試輸入圖像及4 種方法的遷移效果圖構(gòu)成，以得到10×30=300 組遷移效果對比主觀評價結(jié)果。用戶評選最佳圖像標(biāo)準(zhǔn)如下：

1）圖像質(zhì)量，輪廓邊緣、頭發(fā)和五官等細(xì)節(jié)清晰，整體真實的遷移圖像質(zhì)量最佳。

2）無關(guān)圖像域變化，其他無關(guān)圖像域變化少，且符合目標(biāo)圖像域特征的遷移圖像質(zhì)量最佳。

用戶調(diào)研數(shù)據(jù)從300 組用戶問卷評估數(shù)據(jù)統(tǒng)計得到，每種方法在該對應(yīng)屬性遷移上所占的百分比如表7 所示，加粗表示最優(yōu)數(shù)據(jù)。IcGAN 整體遷移圖像效果較差。在金發(fā)、棕發(fā)和性別遷移圖像評選中，STGAN 的遷移效果優(yōu)于本文方法。在黑發(fā)和年齡遷移圖像評選中，本文方法優(yōu)于STGAN。因此，本文方法在遷移效果與生成圖像質(zhì)量方面相較于IcGAN 和StarGAN 均有提升，與STGAN 效果相當(dāng)。

表7 單屬性遷移的用戶調(diào)研評價對比Table 7 Comparison of user survey evaluation of single attribute migration

為有效地評估本文方法，本文對這4 種方法輸出圖像的分類準(zhǔn)確率進行對比，如表8 所示，加粗表示最優(yōu)數(shù)據(jù)。本文方法比IcGAN、StarGAN 的分類準(zhǔn)確率平均提高16.3 和2 個百分點，與STGAN 效果相當(dāng)，均接近真實圖像的分類準(zhǔn)確率。

表8 不同方法單屬性遷移的分類準(zhǔn)確率對比Table 8 Classification accuracy comparison among different methods with single attribute migration

為評估這4 種方法輸出圖像的真實性，本文計算不同方法輸出圖像FID 的數(shù)值，對比結(jié)果如表9 所示。從表9 中可知，IcGAN 遷移圖像的真實性較低，本文方法的遷移效果要優(yōu)于StarGAN 和IcGAN，與STGAN 效果相當(dāng)。

表9 不同方法單屬性遷移的FID 對比Table 9 FID comparison among different methods with single attribute migration

3.4.2 多屬性遷移

在經(jīng)過一次訓(xùn)練完成的多圖像域遷移模型中，本文分別改變輸入圖像2 個或者3 個目標(biāo)圖像域?qū)傩詷?biāo)簽，以生成人臉屬性遷移圖像，選取具有代表性的輸出圖像進行對比，如圖8 所示。

圖8 不同方法的多屬性遷移效果對比Fig.8 Muti-attribute migration effects comparison among different methods

從圖8 可以看出：IcGAN 遷移的圖像真實性低，無關(guān)圖像域改變大；StarGAN、STGAN 和本文方法都較好地完成多個屬性同時遷移的任務(wù)，但StarGAN 和STGAN 仍然有一些無關(guān)圖像域發(fā)生了改變，當(dāng)性別和年齡同時轉(zhuǎn)變時，StarGAN 出現(xiàn)了較為明顯的劉海；當(dāng)黑發(fā)和性別同時轉(zhuǎn)變時，STGAN遷移的發(fā)型顯得不自然；本文方法整體遷移圖像真實性更高，人臉膚色隨著不同屬性的遷移均發(fā)生相應(yīng)的轉(zhuǎn)變，隨著年齡增大，目標(biāo)圖像域的特征更為明顯；當(dāng)性別和年齡同時遷移時，本文方法遷移圖像中面部特征的細(xì)節(jié)清晰、自然，更接近真實圖像。

為進一步驗證本文方法多屬性遷移的有效性，本文計算多個屬性同時遷移FID 的數(shù)值，如表10 所示，加粗表示最優(yōu)數(shù)據(jù)。從表中數(shù)據(jù)得知，在多個屬性同時遷移的任務(wù)中，IcGAN 生成的遷移圖像真實性較差，STGAN 生成的遷移圖像要優(yōu)于IcGAN 和StarGAN，本文方法生成的遷移圖像質(zhì)量最優(yōu)。

表10 不同方法多屬性遷移的FID 對比Table 10 FID comparison among different methods with multi-attributes migration

在人臉屬性遷移任務(wù)中單屬性遷移與多屬性遷移的主客觀實驗結(jié)果表明：相較于IcGAN、StarGAN，本文方法的單屬性遷移圖像效果能較好地保留人臉面部的細(xì)節(jié)特征信息，無關(guān)圖像域改變較少，且遷移圖像的真實性和質(zhì)量與STGAN 效果相當(dāng)；相較于IcGAN、StarGAN 和STGAN，本文方法的多屬性遷移效果更優(yōu)，能建立更加明確的多圖像域映射關(guān)系。

4 結(jié)束語

本文提出一種選擇性傳輸和鉸鏈對抗的多圖像域人臉屬性遷移方法。通過引入域控制器和自適應(yīng)實例歸一化，增加生成的人臉屬性樣式多樣性，同時利用選擇性傳輸單元提高遷移圖像的細(xì)節(jié)和質(zhì)量，設(shè)計并融合相對鑒別與鉸鏈損失的鉸鏈對抗損失，以減少無關(guān)圖像域的遷移。實驗結(jié)果表明，與StarGAN、STGAN、IcGAN 方法相比，該方法遷移圖像的質(zhì)量更優(yōu)，同時能有效增加遷移圖像表達的多樣性。下一步將對屬性標(biāo)簽進行優(yōu)化，以減少樣式信息對屬性標(biāo)簽的依賴，使本文模型適用于實際的應(yīng)用場景。

計算機工程2022年4期

計算機工程的其它文章: 基于多任務(wù)學(xué)習(xí)的快件送達時間預(yù)測方法; 基于深度學(xué)習(xí)的牙齒嵌塞自動判別方法; V2V 環(huán)境下具有組策略防護特性的虛擬交通燈; 融合多尺度對比池化特征的行人重識別方法; 聯(lián)合顯著性與MRF 的SAR 建筑物分割算法; 基于UNet++網(wǎng)絡(luò)與多邊輸出融合策略的船舶檢測模型