面向工業巡檢的圖像風格遷移方法

2023-09-25 08:59:48朱仲賢毛語實蔡科偉劉文濤蒲道杰王子磊

計算機工程與應用 2023年18期

朱仲賢，毛語實，蔡科偉，劉文濤，蒲道杰，杜瑤，王子磊

1.國網安徽省電力有限公司超高壓分公司，合肥230061

2.中國科學技術大學先進技術研究院，合肥230031

隨著經濟的不斷發展，工業場景中的設備規模不斷擴大，對于場景之中各類設備的狀態檢測及異常定位就顯得格外重要。而由于傳統的人工巡檢費時費力且容易出現檢測盲區，因此，基于智能巡檢圖像的缺陷檢測任務成為智能化巡檢的關鍵一環。

以光伏電站的巡檢任務為例，為了更好地定位航拍圖像中光伏組件的具體位置，目前的方法往往使用虛擬仿真技術建模還原場景，同時，該技術也可以實現物體缺陷的仿真與采集，擴充缺陷的數據樣本。然而，由計算機生成的虛擬數據與真實數據相比有很大的風格差異，只能用于輔助訓練。實踐表明，在真實數據集上直接測試使用虛擬數據訓練出的模型，其結果通常不盡人意。而如果將虛擬圖像轉換為真實圖像的風格，模型性能會得到很大改善。顯然，圖像風格遷移任務為虛擬圖像和真實圖像的感知和理解搭建了橋梁。

然而，盡管圖像風格遷移任務在理論和實踐上有著廣闊的應用[1-3]，對于虛擬仿真圖像到真實圖像的風格遷移任務而言，受采集引擎本身技術的限制，在大部分自動化采集到的“對應”圖像上，虛擬結果與真實結果無法完全對應，甚至存在較大程度的偏移。因此，無法直接應用配對圖像的風格遷移算法。為了有效利用圖像間相似但不完全相同的特點，同時防止對應圖像間差異對生成圖像的結構造成影響。本文提出了一種基于對比學習的圖像風格遷移方法。具體地，模型采用與CycleGAN方法[4]相同的雙向生成對抗網絡，而與CycleGAN 及其衍生的一系列方法[5-6]不同，本文所用的方法沒有用到循環一致性損失，而是使用了對比學習的InfoNCE 損失。本文結合數據集自身特點，提出了一種新的正負樣本選取方法，與其他工作中只選取源域圖像與生成圖像不同，本文方法同時選取目標域圖像作為參考，使生成器生成的圖像在各部分與目標域相應內容更為相似。實驗結果表明，與基于循環一致性損失的方法相比，本文的方法在多種指標上有明顯的提升。本文的創新之處主要在于：

（1）針對現有風格遷移方法難以生成配對的虛擬圖像問題，提出了基于CycleGAN 的聯合對比學習方法，通過在源域圖像與生成圖像、目標域圖像與生成圖像之間進行特征對比，本文方法能夠有效提高遷移圖像的質量。

（2）在聯合對比學習的框架下，本文進一步提出了針對性的正負樣本選取方法，通過選取目標域圖像作為參考，本文方法能夠生成與目標域內容更為相似的虛擬圖像。

（3）可視化的結果與定量的實驗指標均表明，本文方法能夠生成更加逼真的保留內容結構的目標圖像，進而說明了本文所提出的風格遷移方法能夠有效輔助真實數據稀少的光伏巡檢等工業場景檢測任務。

1 相關工作

1.1 圖像風格遷移

圖像風格遷移的目的是將屬于源域的圖像在保持內容信息的前提下轉換到目標域，生成具有目標域風格和源域內容的圖像。具體來說，對于域X及域Y，目標是獲得映射G:X→Y,使得對于給定的輸入圖像x∈X,經過映射后的圖像x?無法與目標域中的圖像y∈Y在風格上區分，即x?∈Y,x?=G(x)。從數學的角度看，圖像風格遷移任務是在沒有聯合分布p(x,y)的情況下，通過學習分布p(x?|x)，估計條件分布p(y|x)。

當前，隨著計算機視覺及圖像處理等技術的高速發展，圖像風格遷移的應用也越來越廣泛：領域自適應常常將源域圖像遷移至目標域的風格，將源域特征推向目標域[7]；3D 姿態估計則使用合成圖像訓練姿態估計器，再通過風格遷移推廣到真實圖像[8]。而在工程領域，風格遷移往往用來擴充圖像樣本[9]，其擴充的數據集在智能巡檢和文字識別等場景下對于如缺陷識別及語義分割等任務目標，都起到了提升準確率的作用。

1.2 生成對抗網絡

在計算機視覺中，生成對抗網絡（generative adversarial network，GAN）一般包括兩個網絡，即生成網絡G（generator）和鑒別網絡D（discriminator）。G 是一個圖片的生成網絡，輸入一個隨機的噪聲z，通過它生成圖片；D是一個圖片的鑒別網絡，確認一張圖片是不是“真實”的。在訓練過程中，生成網絡G 盡量生成真實的圖片去欺騙鑒別網絡D，而鑒別網絡D盡量把G生成的圖片和真實的圖片分別開來。這樣，G和D構成了一個動態的“博弈（gaming）過程”。最后博弈的結果，G可以生成足以“以假亂真”的圖片。

1.3 虛擬圖像到真實圖像的遷移任務

對于無配對圖像的風格遷移任務，現有方法提出了一系列解決方案。具體地，研究者們引入了對抗學習的思想[10]，使用生成對抗網絡，其中生成器使用隨機噪聲圖生成具有目標域風格和源域內容的圖像，判別器辨別輸入的圖像是來自目標域的生成圖像還是來自源域有的圖像，從而提高生成圖像與目標域圖像的相似程度。在此基礎上，一些方法[11-13]使用內容編碼器和風格編碼器將圖像特征解耦為對應的特征，通過特征的跨域組合解碼，生成目標圖像。然而其中仍然存在一系列問題，具體來說，現有的風格遷移算法沒有對風格信息和結構信息做明確區分，在某些數據集上，會出現較為夸張的形變。

2 基于對比學習的圖像風格遷移算法

2.1 虛擬仿真光伏電站數據集

為了輔助光伏電站中的智能巡檢，本文使用虛幻4引擎仿照真實場景搭建了光伏板、樹木、土地、變壓箱等設備的1∶1虛擬模型。同時，也對光照、道路、草皮損壞等進行了建模，以更加貼近真實的電站場景。在制作好場景設備模型后，為了將這些設備擺放在對應的位置，以得到一個像素級的虛擬光伏電站場景，需要對光伏電站整體布局進行設置，使得電站整體布局與實際布局相接近。具體地，電站中出現的設備類型共包括11×2 的光伏板40 塊、6×2 的光伏板4 塊、電線桿2 處、指示牌2處、變電箱1個、水坑1處、房屋1座。

對于每張輸入的真實場景圖像，引擎從虛擬場景的對應位置進行采集，使得虛擬場景與真實場景盡量匹配。而為了在圖像采集階段盡量消除真實與虛擬圖之間的誤差，在真實圖像位置的不同高度處分別采樣兩張圖像，分別為與真實場景同一高度以及略高于真實場景位置，具體采集效果如圖1所示。

圖1 真實與虛擬圖像對比Fig.1 Comparison of real and virtual images

可以看出，受采集引擎本身技術的限制，在大部分自動化采集到的“對應”圖像上，虛擬結果與真實結果無法完全對應，甚至存在較大程度的偏移。因此，無法直接應用配對圖像的風格遷移算法，如pix2pix[13]等。而本文提出的基于對比學習的風格遷移方法，可以在有效利用對應圖像相似性的同時，去除嚴格的像素級別約束，從而達到良好的遷移效果。

2.2 網絡模型

受Han等人[14]啟發，本文提出了一個雙向的生成對抗模型，如圖2所示。該模型以CycleGAN模型為基礎，采用雙向訓練的訓練方法，學習兩個映射G:X→Y和F:Y→X，從而使每個域對應的生成器更充分地學習到對應域間映射關系；另一方面，在生成器的編碼器后添加特征提取器，組成一個嵌入模塊，來提取以圖像塊為基礎的圖像特征，進行對比學習。特別地，本文提出了一種新的正負樣本選取方法及對比損失計算方法——聯合對比損失。相比于僅使用生成圖像和原圖像特征進行對比的方法，本文方法能更好地利用目標域圖像的信息，從而生成更逼真的遷移結果。

圖2 基于對比學習的雙向網絡模型Fig.2 Bidirectional network model based on contrastive learning

具體而言，模型包含兩個生成器G、F和兩個判別器Dx、Dy。每個生成器都由編碼器(Genc、Fenc)和譯碼器(Gdec、Fdec)組成。在此基礎上，在每個編碼器后添加一個兩層的全連接網絡作為特征提取器，分別記為Hx、Hy，編碼器與特征提取器共同組成一個嵌入模塊，如圖3所示。具體地，對于域X，使用Genc與Hx作為嵌入模塊embeddingx；對于域Y，則使用Fenc與Hy作為嵌入模塊embeddingy。其中，生成器G學習域X到域Y的映射，生成器F則學習逆向映射；判別器Dx和Dy用來保證遷移圖像屬于正確的圖像域；嵌入模塊embeddingx和embeddingy將編碼器提取的特征進行進一步投影。

圖3 嵌入模塊示意圖Fig.3 Schematic diagram of embedded module

在訓練過程中，兩個生成器同時學習相反的域間映射，并輸出對應的遷移圖像，結合判別器的輸出計算對抗損失。同時，對于每個方向的遷移，使用對應域的嵌入模塊提取源域圖像、生成圖像、目標域圖像的特征簇，并計算聯合對比損失；為了進一步提高模型的穩定性，使用身份損失來防止生成器對圖像進行多余的改變。

2.3 聯合對比損失

（1）最大化互信息

與CUT方法[15]類似，使用噪聲對比估計的框架來最小化輸入與輸出之間的互信息，具體地，將“查詢樣本”v與“正樣本”v+之間相關聯，而與數據集中其他內容，也就是所說的“負樣本”v-進行對比。將查詢樣本、正樣本和N個負樣本都映射為K維向量，其中v,v+∈表示第n個負樣本，并對這些向量作L2 歸一化。這樣，就建立了一個(N+1)類分類問題，來計算查詢向量所對應的正樣本被從另外N個負樣本中選取出的概率。從數學上看，可以用交叉熵損失計算：

（2）多層的基于圖像塊的對比損失

在無監督學習的設置下，不論是圖像規模還是圖像塊規模，都可以使用對比學習的方法。注意到在風格遷移領域，不僅輸入和輸出的整個圖像需要共享內容，二者對應圖像塊也需要共享內容。因此，本文使用圖像塊作為對比學習的基本單位。進一步地，由于使用的編碼器是基于卷積神經網絡的結構，如果給定空間位置和編碼器層數，其輸出特征即可對應輸入圖像中一個特定圖像塊的特征表示，而圖像塊的大小取決于感受野、網絡結構和網絡層。因此，通過使用編碼器中多個層的輸出特征，可以對比不同大小的圖像塊的特征，其中深層的特征對應著較大的圖像塊。

使用embeddingx提取域X的特征，使用embeddingy提取域Y的特征。對于圖像對(x,y)，在Genc(X)中選取L層并將其輸入Hx，從而將一幅圖像映射到一簇特征其中代表選取的第l層的輸出。這樣一來，每個特征實際上就代表了圖像中的一個圖像塊。記每個被選取的層中空間位置為s∈其中Sl為每層中空間位置的個數，也是圖像塊的個數。對于圖像y，采取同樣的操作，Hy輸出的特征簇記為每次選取一個特征作為查詢樣本，記對應的特征（正樣本）為，其余所有特征（負樣本）為為每層的通道數，也就是特征向量的維數。對于一對圖像，對比損失可以寫為：

（3）正負樣本選取

在現有的基于對比學習的風格遷移算法中，用作對比的圖像對(x,y)往往是生成圖像和對應原圖像。然而，在同一位置上，虛擬引擎采集到的圖像雖然與真實圖像內容存在一定的偏移和區別，但二者之間仍存在相似性。另一方面，考慮到生成圖像不應僅僅與原圖像對應位置的圖像塊在特征上相似，也應該與目標域圖像在相同內容上有相似的特征。因此，將圖像配對后輸入網絡，將生成圖像與目標圖像也進行類似的對比，提出一個新的正負樣本選取方法，如圖4所示。

圖4 正負樣本選取示例Fig.4 Example of positive and negative sample selection

對于生成圖像中的圖像塊v，即圖4（b）中紅色框，將v作為查詢樣本時，在源域和目標域圖像對應位置的圖像塊被視為正樣本（圖4（a）和圖4（c）中的紅色框），而源域和目標域圖像其余位置的圖像塊則被視為負樣本（圖4（a）和圖4（c）中的黃色框）。也就是說，對于源域圖像x、生成圖像x?、目標域圖像y，對(x,x?)及(x?,y)都進行對比損失計算。

另一方面，注意到生成器的結構，編碼器更靠近圖像的層所提取的特征更容易是域相關的風格特征，而更靠近譯碼器的層提取的特征更傾向于域不變的內容特征。因此，對于圖像對(x,x?)，直接應用公式（2）中的對比損失；而對于圖像對(x?,y)，為了避免生成圖像與目標域圖像出現過擬合的問題，只選取更接近圖像的一側，即淺層特征進行對比學習，同時為了防止出現感受野過小的問題，將每層特征圖使用雙線性差值法還原為輸入圖像的大小，并在還原后的特征圖上取32×32的圖像塊，對其中特征取平均值進行對比損失的計算，其中，正負樣本的選擇方式與上文所述方案相同。

綜上所述，聯合對比損失如下：

上述聯合對比損失實際上是傳統方法的變形與改進，可以有效地替代循環一致性損失，第一項對比損失在一定程度上起到了重建損失的作用，后一項則起到了感知損失[16]的作用。同時，使用聯合對比損失可以加強訓練的穩定性，加快收斂速度，并避免退化解。

2.4 其他損失

（1）對抗損失

對抗損失用來保證生成器生成視覺上與目標域圖像相似的結果，對于映射G:X→Y及其判別器Dy，對抗損失為：

通過上述對抗損失，生成器G試圖生成圖像G(x)使之看起來與目標域中的圖像相似；而判別器Dy試圖盡可能準確地分辨出圖像G(x)和真正的目標域圖像y。類似地，對于映射F:Y→X及其判別器Dx，有：

因此，總的對抗損失為：（2）對抗損失

為了避免生成器對圖像做出不必要的改變，引入身份損失。與CycleGAN中類似，將目標域的真實樣本輸入對應的生成器，并做正則化計算，具體地，該損失函數為：

（3）總體損失函數

綜上所述，聯合以上三類損失，構建完整的損失函數，表示為：

其中，λGAN、λcon、λidt為控制相應損失權重的超參數。

3 實驗結果

3.1 數據集生成和數據預處理

如2.1節中所述，對于每一張真實圖像，都在相應的虛擬場景中生成兩張不同高度的圖像，共計338張虛擬圖像。根據對應關系，將圖像的分辨率全部調整為512×512，并將對應圖像拼接得到分辨率為512×1 024圖像，如圖5所示，作為訓練集。而對于測試集，則不需要輸入對應的真實圖像，僅僅需要輸入虛擬引擎采集的虛擬圖像，即可輸出遷移后的偽真實圖像。

圖5 匹配后的圖像對Fig.5 Matched image pair

3.2 實驗設置

使用Ubuntu16.04操作系統在兩塊GeForce GTX1080TI上進行訓練，所使用的深度學習框架為Pytorch1.5.0。

采用隨機梯度下降訓練模型，選用Adam 優化器，優化器參數β1=0.5，β2=0.999，并使用學習率衰減策略，當訓練輪數超過總輪數的一半時，學習率線性遞減，初始學習率為1E-4。與CycleGAN 中相同，使用基于ResNet[16]的生成器與基于PatchGAN[17]的判別器。

3.3 全監督方法結果

由于本文數據集使用相似但不完全一致的圖像對，為了有效地完成風格遷移任務，一個簡單的想法就是直接使用全監督風格遷移網絡，將對應的真實圖像視為ground truth進行實驗。

然而，直接使用有監督算法的結果卻不盡如人意。以經典的pix2pix 算法為例，說明直接使用有監督算法的缺陷，從而說明本文所提方法的優越性。

可以發現，由于有監督的風格遷移方法在通常情況下使用像素級別的L1 損失作為約束條件，模型在學習的過程中會將目標域圖像的內容一起學習到目標域的特征中，從而在生成圖像上保留相應的內容。如圖6（b）中，很明顯在右上角的光伏板上，源域（內容域）與目標域（風格域）的對應位置內容不一致，所以導致了光伏板錯位的問題；同理，在圖像下部出現了光伏板缺失，也就是內容丟失的問題，這些問題會在很大程度上影響下游任務的質量，甚至在一些對圖像細節要求較高的任務上，如語義分割、圖像配準等，單純使用有監督的遷移模型生成的圖像完全無法得到應用。因此，為了在該數據集上生成逼真且內容不發生變化的仿真圖像，本文的算法還應該基于無監督的圖像遷移方法，另一方面，上述問題也說明了，像素級別的嚴格約束對于該任務來講只能起到負面作用，不利于生成圖像的內容完整性和一致性。

圖6 pix2pix算法結果Fig.6 pix2pix algorithm results

3.4 與無監督方法對比

為了證明本方法的有效性，在數據集上訓練Cycle-GAN、DSMAP[12]、CUT 三種方法，分別對應基于循環一致性損失、基于解耦方法和基于對比學習方法的三種風格遷移思路。為了更好地比較遷移結果，使用各方法對應文獻中給出的參數及實驗設置，各方法訓練環境均相同。與3.3節類似，給出了各方法的可視化效果圖，從視覺相似度的角度說明了本文方法的優越性，同時，也同樣給出了用戶感知結果。另一方面，由于本文算法所用的模型不包含解耦和逐像素計算損失過程，因此遷移時間較其他方法有較大程度的縮短。最后，使用FID指標在特征層面定量地計算遷移結果與目標域的相似性。

（1）可視化結果

圖7列出了不同遷移方法對應的遷移結果，給出了數據集中兩種典型場景：密集光伏板場景和包含空曠草地場景下的遷移效果示意圖。

圖7 不同方法遷移效果樣例圖Fig.7 Example of transfer effect of different methods

對結果做分析：在樣例1中，CycleGAN方法出現了明顯的內容結構缺失問題，很大一部分光伏板在遷移后成為了草地的紋理；CUT 方法的清晰度則有明顯的不足，出現了較為明顯的模糊現象，同時，光伏板上的紋理也與源域圖像存在一定差別，色塊感較強；而本文提出的方法在大體上保存了光伏板的整體內容，生成的圖像也沒有明顯的模糊感。在樣例2 中，CycleGAN 方法與本文方法遷移效果都比較好，但CycleGAN方法左側的小塊光伏板同樣漸變為草地；而CUT 方法仍然存在模糊的問題，生成圖像中光伏板也會出現變型的問題。而在上述兩個樣例中，DSMAP 方法都比較明顯地暴露了解耦不充分的問題，可視化結果較差。此外，上述所有方法都出現了一定程度的整體偏移，這是由無監督風格遷移任務本身的任務設置導致的，在不加入其他監督的條件下，仍是研究的重點與難點。

（2）FID結果

FID 是基于Frechet 距離的特征對比方法，FID 的值越小，說明兩組特征的分布越相似，因此，該指標常被用作生成對抗網絡的性能評估指標。具體地，Frechet距離的計算方法為：

其中，G1、G2為需要進行比較的高斯分布，m1、m2分別為G1、G2的均值，C1、C2分別為G1、G2的協方差。FID使用Google 提出的非對稱深度卷積網絡Inception-v3[18]來提取圖像的激活特征，并計算二者的Frechet 距離。由于Inceptionv3網絡提取的圖像特征更為多樣化，使用該網絡輸出特征計算的Frechet距離能更好地反應圖像間的分布相似度。在本實驗中，計算各方法生成圖像與目標域圖像間的FID值，進一步對比各方法生成圖像的質量。表1 給出了各對比方法與本文方法所得到的生成圖像集合與目標域圖像集合的FID指標。

表1 不同方法FID值對比Table 1 Comparison of FID values of different methods

根據表1 結果分析，本文的方法在FID 指標上明顯低于DSMAP 方法和CUT 方法。與CycleGAN 方法相比，雖然改進幅度不大，仍然有一定優勢。結合訓練時間，可以認為，本文方法在生成效果上略優于CycleGAN的結果，主要體現在物體缺失問題的改善上，但在訓練時間上有較大優勢，總體而言，本文方法略優于現有風格遷移方法。

（3）LPIPS結果

感知相似度（LPIPS）由Zhang 等人[19]于2018 年提出，使用深度特征來度量圖像間的相似度。與其他評估指標不同，該指標旨在反映人類的視覺相似度——即符合人類判斷方式的圖像相似度。具體地，對于圖像x和x0，利用Alex 網絡從L層中提取特征堆棧并進行單元歸一化計算，將第l層特征結果記為。隨后，對其進行縮放激活并計算l2距離，其具體計算方法為：

其中，H、W為圖像尺寸對應參數，wl為縮放權重。

在本實驗中，計算各方法生成圖像與目標域圖像間的LPIPS值。表2出了各對比方法與本文方法所得到的生成圖像集合與目標域圖像集合的LPIPS指標。

表2 不同方法LPIPS值對比Table 2 Comparison of LPIPS values of different methods

根據表2結果分析，本文的方法在感知相似度上明顯低于其他幾種算法。通過觀察實驗結果可以發現，LPIPS 值的高低與可視化結果基本一致。因此可以認為，從視覺感知的相似程度上，本文方法略優于現有風格遷移方法。

（4）用戶感知

以隨機的順序向用戶展示上述對比方法與本文方法的生成結果，請用戶比對生成圖像與源域、目標域圖像，并提出下列問題：

問題1 哪張圖片更好地保留了內容信息（形狀、語義等）？

問題2 哪張圖片的遷移效果更為清晰？

問題3 哪張圖片的更接近目標域中的圖片？

由于DSMAP 方法的可視化結果相較而言較差，因此只使用CycleGAN、CUT 與本文方法進行對比，每個用戶被展示的圖像不相同，結果如圖8所示。

圖8 用戶感知結果Fig.8 User perception results

顯然，對于三個問題，本文的方法都獲得了最高的得分。對于問題1，超過一半的用戶認為本文的方法能更好地保留圖像的形狀和語義信息，27.3%的用戶則認為CUT 的內容一致性更好，只有不到20%的用戶認為其保留內容的能力更強；對于問題2，CycleGAN和本文方法的得分相近，說明在紋理等風格信息遷移方面，二者效果相差不大，均遠好于CUT方法；對于問題3，超過一半的用戶認為本文方法得到的生成圖像與目標域中原始圖像更為相似。綜上所述，從視覺感知的角度看，本文方法具有更好的遷移效果。

結合3.3 節中可視化的結果，對用戶感知結果做分析：CycleGAN 方法的生成圖像普遍會存在圖像邊界和小塊物體的缺失問題，而CUT 方法的結果更容易出現變形而不是缺失的問題，因此用戶在視覺上觀察的結果會優于CycleGAN。本文方法大部分生成圖像都可以較好地保留光伏板等主體內容的信息，僅在圖像邊緣處容易出現錯誤，具體如失敗樣例分析中所述，因此，本方法在問題1 中得到了最多用戶的認可。至于生成圖像的清晰度，不難發現，CycleGAN 方法的紋理遷移更為細致，尤其是對背景內容而言，因此，其與本文方法得分相似。綜合來講，在CycleGAN方法沒有出現明顯內容缺失的情況下，其遷移效果同樣較為優秀，但其穩定性低于本文方法，生成數據的方差較大，因此，CUT與CycleGAN方法的整體遷移效果略差于本文提出的基于對比學習的方法。

（5）訓練時間

由于本方法不使用像素級別的約束，而只在特征層面上計算損失，且不包含解耦操作，因此，該方法在訓練時間上較其他方法有明顯的優勢。為了驗證該效果，對幾種算法的訓練時間進行了對比，結果如表3所示。

表3 不同方法訓練時間對比表Table 3 Comparison of training time of different methods

可以看出，本文方法及相關對比學習方法在訓練時間上有明顯的優勢。而與只進行單向遷移和計算的CUT算法相比，本文方法的訓練速度略慢，但仍遠快于基于循環一致性損失的方法，與基于解耦思想的DSMAP算法相比，本文方法的訓練速度有了本質上的提升。因此，本文方法在很大程度上節約了時間和算力成本，這無疑有利于擴大風格遷移算法在工程上的應用。

（6）失敗樣例分析

受數據集中數據分布和方法本身的限制，提出的方法也并非可以成功轉換所有圖像，本節將挑選典型的失敗樣例進行分析，如圖9所示。

圖9 典型錯例Fig.9 Typical error example

在樣例1中，圖像左下角的道路被錯誤地轉換為了光伏板的紋理，但圖像主體的光伏板沒有發生轉換錯誤；而在樣例2 中，位于圖像右上的光伏板轉換效果較差。通過對數據集中其他相似場景的分析，發現樣例1中的問題往往出現在圖像邊緣的小塊的道路上且并非所有的位于邊緣區域的道路都被錯誤轉換，而對于較長的、橫穿整幅圖像的道路則沒有這個問題，因此推斷，由于缺乏實例級別的監督信息，模型錯誤地將學習到的位于圖像邊緣的光伏板結構匹配到圖9（a）中這種位于圖像邊緣的道路上。對于樣例2，發現數據集中所有位于類似位置的光伏板轉換效果都較差，結合訓練所用的真實和虛擬圖像，推斷該問題的產生主要是由于訓練數據集中包含的類似圖像有限，只有極少數圖像擁有相似的場景，模型無法充分學習到斜置光伏板的信息，因此試圖將其轉換成正置光伏板的紋理，導致錯誤的發生。

4 結束語

本文主要對圖像風格遷移任務中的結構一致性問題進行了研究。針對虛擬引擎生成的圖像與真實圖像相似但不完全相同的問題，提出一種基于對比學習的圖像風格遷移方法。首先，介紹了虛擬引擎的建模仿真過程及圖像采集的過程，說明相關技術限制下無法生成與真實圖像完全配對的虛擬圖像的現狀；隨后，針對上述問題，提出了一種基于CycleGAN 的聯合對比學習方法，通過在源域圖像與生成圖像、目標域圖像與生成圖像之間進行特征對比，提高遷移圖像的質量，在保持圖像主體內容結構不發生較大變化的同時生成更為逼真的“偽”目標域圖像。以光伏巡檢圖像為代表的實驗結果表明，本文所提方法在保留內容結構上優于CycleGAN及DSMAP方法，同時在圖像的逼真程度上優于CUT方法；另一方面，通過定量計算圖像深層激活特征的相似程度，即FID 指標，本文方法也更優于上述幾種算法。綜上所述，本文方法在虛擬到真實圖像的遷移上具有良好效果，為虛擬引擎仿真建模生成數據在工程方面的大規模應用提供了技術保障。然而，由于相關的研究工作較少，目前基于對比學習的圖像風格遷移方法的主要創新點都是圍繞正負樣本的選取展開的，因此未來可以考慮改進相關損失函數，更改嵌入模塊結構等方式，為該領域的研究開辟新的道路。