999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經(jīng)網(wǎng)絡(luò)與注意力的任意圖像風(fēng)格遷移研究綜述

2025-02-15 00:00:00王樹聲李文書
軟件工程 2025年2期

摘 要:隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,尤其是注意力機(jī)制的引入,風(fēng)格遷移研究取得了顯著進(jìn)展。文章對基于卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制的圖像風(fēng)格遷移進(jìn)行了綜述。首先,分析了風(fēng)格遷移的基本原理和傳統(tǒng)方法,詳細(xì)介紹了基于深度學(xué)習(xí)的風(fēng)格遷移算法,尤其聚焦于那些通過引入注意力機(jī)制來強(qiáng)化模型風(fēng)格表現(xiàn)與內(nèi)容保持能力的創(chuàng)新方法。其次,通過比較不同算法的性能,探討了現(xiàn)有方法在局部內(nèi)容保留和風(fēng)格控制精度方面的優(yōu)點與缺點。最后,分析了任意圖像風(fēng)格遷移領(lǐng)域的發(fā)展趨勢和潛在的研究方向。

關(guān)鍵詞:圖像風(fēng)格遷移;深度神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;內(nèi)容保留;風(fēng)格化控制

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A

0 引言(Introduction)

圖像風(fēng)格遷移旨在捕捉一幅圖像的風(fēng)格,并將其應(yīng)用到另一幅圖像上,從而在保留圖像原始內(nèi)容的同時,創(chuàng)造出具有新穎風(fēng)格的視覺效果。早期的圖像風(fēng)格遷移方法[1-2]雖然在技術(shù)上取得了一定的突破,但是其處理圖像特征只在像素層面,在一定程度上制約了風(fēng)格化圖像的質(zhì)量與表現(xiàn)力。隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理領(lǐng)域的廣泛應(yīng)用與取得的顯著成效,基于神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移技術(shù)實現(xiàn)了質(zhì)的飛躍。當(dāng)前,任意風(fēng)格遷移已經(jīng)成為研究的前沿?zé)狳c,其旨在對任何給定的風(fēng)格和內(nèi)容的圖像進(jìn)行風(fēng)格轉(zhuǎn)換,這要求模型具備更廣泛的適用性和更細(xì)致的風(fēng)格控制能力。近年來,注意力機(jī)制在自然語言處理領(lǐng)域取得了顯著的成就,并成功遷移至圖像風(fēng)格遷移領(lǐng)域。注意力機(jī)制通過關(guān)注輸入數(shù)據(jù)中的關(guān)鍵特征,極大地提升了風(fēng)格遷移模型保留內(nèi)容完整性和更準(zhǔn)確地融合目標(biāo)風(fēng)格特征的能力。本文聚焦于基于注意力機(jī)制的任意圖像風(fēng)格遷移技術(shù)的最新進(jìn)展,旨在全面審視現(xiàn)有技術(shù)的性能表現(xiàn),并探討當(dāng)前該領(lǐng)域面臨的挑戰(zhàn)與未來的發(fā)展趨勢。

1 圖像風(fēng)格遷移(Imagestyletransfer)

圖像風(fēng)格遷移,作為計算機(jī)視覺和圖形領(lǐng)域的一種技術(shù),其目的是將一幅圖像的風(fēng)格應(yīng)用到另一幅圖像上,同時保留后者的內(nèi)容結(jié)構(gòu)。這一過程通常涉及修改圖像的顏色、紋理和形狀等視覺元素,進(jìn)而創(chuàng)造出具有新穎藝術(shù)風(fēng)格的圖像。盡管這一領(lǐng)域自20世紀(jì)末就受到研究人員的關(guān)注,但是早期的方法主要圍繞特定的藝術(shù)風(fēng)格而設(shè)計,難以擴(kuò)展到其他風(fēng)格。由于技術(shù)水平的限制,彼時的風(fēng)格遷移方法只能處理筆觸、紋理等低級圖像特征。隨著深度學(xué)習(xí)技術(shù)的興起,尤其是GATYS等[3]利用卷積神經(jīng)網(wǎng)絡(luò)所取得的開創(chuàng)性成果,圖像風(fēng)格遷移效果獲得巨大提升。此后,這一領(lǐng)域快速發(fā)展,眾多研究者紛紛提出了不同的算法和技術(shù),致力于提升風(fēng)格遷移的質(zhì)量、速度及多樣性。

圖像風(fēng)格遷移經(jīng)歷了從傳統(tǒng)方法到深度學(xué)習(xí),再到生成模型的逐步演進(jìn),見證了技術(shù)的不斷飛躍。深度學(xué)習(xí)的方法為風(fēng)格遷移領(lǐng)域提供了一種強(qiáng)大的特征提取機(jī)制,使得模型能夠更好地理解和抓取內(nèi)容與風(fēng)格之間的復(fù)雜關(guān)系。當(dāng)前,圖像風(fēng)格遷移研究聚焦于任意風(fēng)格遷移,即在不限定特定風(fēng)格的情況下進(jìn)行風(fēng)格遷移,其挑戰(zhàn)在于如何設(shè)計出能夠靈活適配多種風(fēng)格,并且在保持內(nèi)容完整性的同時實現(xiàn)風(fēng)格的高效轉(zhuǎn)換的算法。在此背景下,注意力機(jī)制憑借其獨特的優(yōu)勢,逐漸在圖像風(fēng)格遷移領(lǐng)域嶄露頭角。本文將主要關(guān)注基于神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的圖像風(fēng)格遷移方法,解析其原理,評估其性能,并探討其相較于傳統(tǒng)方法的優(yōu)勢及未來可能的改進(jìn)方向。

1.1 卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)通過模擬人類視覺系統(tǒng)的工作原理,能夠自動地學(xué)習(xí)圖像中的層次化特征。與傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)不同,CNN結(jié)合了卷積層和池化層,實現(xiàn)了對輸入數(shù)據(jù)的局部特征提取。在風(fēng)格遷移任務(wù)中,CNN通過不同層次的激活函數(shù)來區(qū)分圖像的風(fēng)格和內(nèi)容。通常,網(wǎng)絡(luò)較淺層次的特征負(fù)責(zé)捕捉圖像的風(fēng)格,如紋理、顏色等;而較深層次的特征則捕捉圖像的內(nèi)容,即形狀、結(jié)構(gòu)等。這一特點使得CNN特別適用于圖像風(fēng)格遷移任務(wù)。

GATYS等[3]的研究驗證了使用預(yù)訓(xùn)練的VGG(VisualGeometryGroup)網(wǎng)絡(luò)提取輸入圖像特征的有效性,為后續(xù)研究奠定了堅實基礎(chǔ)。通常,使用預(yù)訓(xùn)練的VGG-19網(wǎng)絡(luò)提取圖像特征,并按網(wǎng)絡(luò)池化層的深度將中間特征分為5級,VGG網(wǎng)絡(luò)提取多層圖像特征如圖1所示。

GATYS等[3]開創(chuàng)性地提出基于優(yōu)化迭代的神經(jīng)風(fēng)格遷移。后續(xù)的方法按照對圖像特征的處理方式大致可以分為兩類:基于圖像優(yōu)化迭代的方法和基于模型生成的方法。這些方法在技術(shù)上各有側(cè)重,但其共同目標(biāo)是在實現(xiàn)圖像風(fēng)格化的同時,保持其內(nèi)容的完整性。

1.2 基于圖像迭代的方法

用基于圖像優(yōu)化迭代的方法來定義圖像特征的損失函數(shù),如在特征空間中迭代優(yōu)化一張噪聲圖像并求解最小損失,在迭代過程中,噪聲圖像逐漸接近期望的風(fēng)格與內(nèi)容。基于圖像優(yōu)化迭代方法的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

GATYS等[3]提出使用格拉姆矩陣計算圖像特征的損失并表征與構(gòu)建圖像風(fēng)格。該方法使用Gram 矩陣G(Fs)=[Fs][Fs]T 計算噪聲圖與給定圖像之間的風(fēng)格差異:

L=αΣ‖F(xiàn)l(Ic)-Fl(I)‖2+βΣ‖G(Fl(Is))-G(Fl(I))‖2 (1)

對于給定內(nèi)容圖像Ic 和樣式圖像Is,在迭代中以最小化損失函數(shù)求解風(fēng)格化圖像:

I* =argIminL(Ic,Is,I) (2)

LI等[4]證明了使用二次多項式核來最小化風(fēng)格間的最大均值差異,其效果等同于匹配格拉姆矩陣,從而證明如線性核、多項式核等用于計算最大均值差異的核函數(shù)也可用于圖像風(fēng)格遷移。為了進(jìn)一步提升風(fēng)格化的效果,研究者們還額外引入了多種損失函數(shù)如直方圖損失、拉普拉斯損失[5]等,這些損失函數(shù)的融入使得風(fēng)格遷移的結(jié)果既保持了內(nèi)容的一致性,又使得風(fēng)格特征更加鮮明、細(xì)膩。

在探索風(fēng)格控制和高分辨率圖像風(fēng)格遷移方面,研究者們?nèi)〉昧孙@著進(jìn)展。例如,GATYS等[6]提出由粗到細(xì)的圖像優(yōu)化方法,有效解決了高分辨率圖像的風(fēng)格遷移;JING等[7]嘗試將樣式特征映射到不同尺度,以實現(xiàn)筆觸控制;CASTILLO等[8]嘗試引入語義分割,以更好地控制樣式轉(zhuǎn)移。

雖然基于圖像迭代的風(fēng)格遷移方法已經(jīng)能生成良好視覺效果的風(fēng)格化圖像,但是其對每幅圖進(jìn)行風(fēng)格化時,需從噪聲圖開始重新進(jìn)行優(yōu)化迭代。這一過程不僅會耗費(fèi)大量的計算資源,而且會在優(yōu)化過程中陷入局部最小值,導(dǎo)致風(fēng)格化效果不理想,難以在真實場景中應(yīng)用。

1.3 基于模型生成的方法

為提升圖像風(fēng)格遷移的速度與風(fēng)格遷移網(wǎng)絡(luò)的泛化能力,當(dāng)前的研究趨勢轉(zhuǎn)向使用大規(guī)模數(shù)據(jù)集訓(xùn)練圖像轉(zhuǎn)換網(wǎng)絡(luò),其核心在于優(yōu)化模型參數(shù)而不是優(yōu)化圖像本身。JOHNSON等[9]和LI等[10]使用MicrosoftCOCO[11]數(shù)據(jù)集作為模型的訓(xùn)練數(shù)據(jù),驗證了這種方法的可行性。基于模型生成的方法通常使用輸入圖像與風(fēng)格化圖像的特征計算損失函數(shù),訓(xùn)練出的轉(zhuǎn)換模塊和解碼器在風(fēng)格化推理中不需要被更新。基于模型生成方法的基本網(wǎng)絡(luò)架構(gòu)如圖3所示。

為了提升基于模型迭代的方法在風(fēng)格化時的效率,HUANG等[12]提出一種基于自適應(yīng)規(guī)范化(AdaIN)層的風(fēng)格遷移模型。該方法對下采樣的內(nèi)容與風(fēng)格特征進(jìn)行自適應(yīng)規(guī)范化操作:

其中,σ 和μ 分別代表傳入圖像特征的通道級標(biāo)準(zhǔn)差、方差。這種方法能直接處理圖像的全局信息,效率較高,但存在局部信息丟失的問題。

LI等[10]的研究發(fā)現(xiàn)通過一對白化、彩化的變換(WCT),可以在保留圖像結(jié)構(gòu)的同時,去除圖像風(fēng)格并進(jìn)行重建。該方法使用WCT操作替代AdaIN(自適應(yīng)規(guī)范化)層,并將風(fēng)格的傳遞擴(kuò)展到編解碼器的多個層級。

SHENG等[13]在多尺度上使用風(fēng)格裝飾器,在成功匹配圖像整體特征分布的同時,還可以由深到淺地將更匹配的特征塊遷移到目標(biāo)圖像上。

在風(fēng)格遷移領(lǐng)域,研究者們不斷在現(xiàn)有方法的基礎(chǔ)上進(jìn)行改進(jìn),以追求功能的增強(qiáng)或效率的提升。例如,LI等[14]提出將神經(jīng)風(fēng)格轉(zhuǎn)移的問題建模為編碼內(nèi)容特征和學(xué)習(xí)的變換矩陣之間的線性變換,以降低模型的計算資源消耗;李文書等[15]使用高斯采樣的匹配提升圖像的風(fēng)格化程度;WANG等[16]嘗試使用模型蒸餾技術(shù)提取輕量級轉(zhuǎn)換網(wǎng)絡(luò),以提升風(fēng)格遷移速度。

1.4 注意力機(jī)制的應(yīng)用

傳統(tǒng)的圖像風(fēng)格遷移方法已經(jīng)能實現(xiàn)較好的風(fēng)格化效果,但在圖像內(nèi)容結(jié)構(gòu)保持、特征語義匹配等方面仍有不足。注意力機(jī)制的引入為風(fēng)格遷移領(lǐng)域的研究帶來了全新的突破和活力

意力機(jī)制的思想是在深度學(xué)習(xí)中模擬人類注意力聚焦的特性,允許模型在處理信息時能夠關(guān)注數(shù)據(jù)最重要的部分,從而提高模型的處理能力與最終效果。這一機(jī)制通過訓(xùn)練得到一個動態(tài)的權(quán)重分布,該分布精準(zhǔn)地指導(dǎo)模型在數(shù)據(jù)處理過程中應(yīng)“重點關(guān)注”哪些內(nèi)容。注意力機(jī)制最初在自然語言處理(NLP)中廣泛應(yīng)用,其引導(dǎo)重要特征聚集的思想隨后被引入計算機(jī)視覺領(lǐng)域、語音識別等領(lǐng)域。

在圖像風(fēng)格遷移領(lǐng)域,注意力機(jī)制按其關(guān)注的信息來源、范圍不同,可以分為自注意力、交叉注意力和多頭注意力等。注意力機(jī)制的基本實現(xiàn)方式可表示為

其中:Q、K、V 分別代表注意力機(jī)制的3個核心組件,即查詢、鍵和值;softmax(·)為歸一化函數(shù);dk 為鍵向量的維度。計算查詢Q 和所有鍵K 之間的對齊分?jǐn)?shù),通常會除以一個縮放因子根號下dk ,以避免梯度消失問題;經(jīng)過歸一化后,得到的注意力權(quán)重與值進(jìn)行加權(quán)求和,最終的輸出可以反映不同值對于查詢的重要性。根據(jù)注意力機(jī)制在不同風(fēng)格遷移方法中的側(cè)重,Q、K、V 與注意力圖的計算方式有不同變體,但其核心思想是利用輸入圖像的特征引導(dǎo)網(wǎng)絡(luò)更好地平衡風(fēng)格化圖像的內(nèi)容結(jié)構(gòu)與風(fēng)格。

1.5 基于注意力機(jī)制的方法

PARK等[17]率先將注意力機(jī)制用于圖像風(fēng)格遷移任務(wù),提出基于注意力的網(wǎng)絡(luò)(SANet),它將內(nèi)容圖像、風(fēng)格圖像的通道特征均值作為查詢、鍵,風(fēng)格特征作為值,從而構(gòu)建注意力機(jī)制。該操作實現(xiàn)了用VGG網(wǎng)絡(luò)抽取深層特征,改善了風(fēng)格化圖像的結(jié)構(gòu)保留效果,為后續(xù)的研究提供了基礎(chǔ)與靈感。分別使用SANet、MANet、AdaAttN3種方法設(shè)計的注意力模塊如圖4所示。

YAO等[18]將不同大小的感受區(qū)域視為圖像風(fēng)格的筆觸,并使用自注意力機(jī)制引導(dǎo)不同筆觸層次的特征交換。該方法能更好地捕捉圖像中的細(xì)節(jié)和復(fù)雜紋理,實現(xiàn)了更加細(xì)膩的圖像風(fēng)格遷移效果。

DENG等[19]提出一種多級自適應(yīng)網(wǎng)絡(luò)(MANet),該方法在風(fēng)格圖像上使用通道間注意力、在內(nèi)容圖像上使用空間注意力,并設(shè)計了一個模塊,用于融合解構(gòu)圖像特征。該方法通過對兩幅輸入圖像做自注意力,增強(qiáng)對圖像特征的分離效果,并設(shè)計解糾纏損失函數(shù)以引導(dǎo)更準(zhǔn)確的特征匹配。

LIU等[20]受注意力機(jī)制與AdaIN[12]中自適應(yīng)歸一化內(nèi)容的啟發(fā),提出自適應(yīng)注意力歸一化(AdaAttN),在注意力計算中同時考慮不同深度的圖像特征,并添加可學(xué)習(xí)的卷積層自適應(yīng)歸一化內(nèi)容特征。該方法改善了傳入圖像的低級特征匹配,改善了風(fēng)格化效果。

LUO等[21]改進(jìn)了計算注意力圖之后的對齊方式,提出特征注意力流形對齊框架(PAMA)。該方法使用的注意力機(jī)制在計算注意力分?jǐn)?shù)后,使用空間插值模塊改變重新排列特征分?jǐn)?shù),并在串聯(lián)的3個對齊模塊中逐漸對齊不同層次的圖像特征。

ZHU等[22]重新考慮注意力機(jī)制的作用,認(rèn)為單一的逐像素計算的注意力分?jǐn)?shù)會導(dǎo)致在特征對齊時單一風(fēng)格特征的堆積,提出全鍵注意力風(fēng)格遷移。該方法在不同顆粒度上構(gòu)建注意力,將注意力查詢中被匹配的特征分布到全特征空間,以推動網(wǎng)絡(luò)為內(nèi)容結(jié)構(gòu)匹配更合適的風(fēng)格特征。

還有一些方法在模型架構(gòu)、損失函數(shù)方面有調(diào)整,例如PENG等[23]嘗試簡化AdaAttN[20]的結(jié)構(gòu),并引入直方圖損失以改善風(fēng)格化圖像的色彩;YU等[24]提出協(xié)方差注意力網(wǎng)絡(luò)與對比學(xué)習(xí),用于鼓勵風(fēng)格化圖像獲得空間語義上更匹配的特征。

2 對比與分析(Comparisonandanalysis)

2.1 方法評價標(biāo)準(zhǔn)

評價任意圖像風(fēng)格遷移技術(shù)性能的標(biāo)準(zhǔn)通常包括以下幾個方面:評價產(chǎn)生的圖像是否具有高質(zhì)量的視覺美感,包括風(fēng)格的準(zhǔn)確傳達(dá)和內(nèi)容的保留程度;衡量風(fēng)格遷移的結(jié)果是否在保留內(nèi)容的同時成功融合目標(biāo)風(fēng)格;評估風(fēng)格遷移算法執(zhí)行的速度和計算效率;評估在面對圖像的不同質(zhì)量和復(fù)雜性時的穩(wěn)定性。為

為了更全面地評估與對比現(xiàn)有的圖像風(fēng)格遷移技術(shù),研究人員選擇圖像風(fēng)格遷移經(jīng)典方法AdaIN(AdaptiveInstanceNormalization)以及SANet(Style-AttentionalNetworks)、MANet(Multi-Adaptation Network)、AdaAttN(Adaptive AttentionNormalization)、AAMS(Attention-aware Multi-strokeStyleTransfer)、PAMA(ProgressiveAttentionalManifoldAlignment)5種最新的基于注意力的圖像風(fēng)格遷移方法進(jìn)行實驗。進(jìn)行定性分析時,根據(jù)風(fēng)格化程度、局部結(jié)構(gòu)保留等方面進(jìn)行主觀評價。進(jìn)行定量分析時,記錄不同方法在運(yùn)行時的資源消耗,并計算使用風(fēng)格特征與原始內(nèi)容結(jié)構(gòu)的結(jié)構(gòu)相似度(StructuralSimilarity,SSIM),其計算公式為

SSIM (x,y)= (2μxμy +k1)(2σxy +k2)/(μ2x+μ2y+k1)(σ2x+σ2y+k2) (5)

2.2 實驗與分析

選定一組512×512分辨率的圖像對,在單張NvidiaRTX1080Ti顯卡上對選定模型進(jìn)行對比實驗。內(nèi)容圖像選自MicroSoftCOCO數(shù)據(jù)集,風(fēng)格圖像選自Wiki-Art數(shù)據(jù)集,它們在色彩復(fù)雜度、內(nèi)容復(fù)雜度方面具有代表性。模型生成的風(fēng)格化圖像及輸入圖像如圖5所示。

從圖5中可以看出,相比于傳統(tǒng)方法,基于注意力機(jī)制的幾種方法在內(nèi)容結(jié)構(gòu)保持與風(fēng)格化效果方面取得了較大的進(jìn)步,但仍存在一些問題。在風(fēng)格圖像特征上使用了自注意力機(jī)制的SANet未在多層次上考慮內(nèi)容結(jié)構(gòu)與風(fēng)格特征的適配性,面對復(fù)雜圖像時易出現(xiàn)結(jié)構(gòu)扭曲。MANet率先嘗試多級自適應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu),但其設(shè)計的特征融合算法在風(fēng)格化時偏向風(fēng)格特征,在一些局部可以實現(xiàn)別具一格的風(fēng)格化效果,但在結(jié)構(gòu)、風(fēng)格語義不一致的區(qū)域可能出現(xiàn)局部扭曲與偽影。PAMA嘗試在圖像特征數(shù)據(jù)流中多次逐漸匹配特征,具有良好的結(jié)構(gòu)保持能力,但風(fēng)格化程度較弱,僅展現(xiàn)出了顏色方面的變化。AdaAttN在多級特征上結(jié)合全局自適應(yīng)特征匹配和自注意力機(jī)制,并在進(jìn)行風(fēng)格注意力圖計算時引入淺層的圖像特征,風(fēng)格化效果較好,但在面對局部特征相似但語義不相似的特征時,會引起不適合的特征堆積。

表1呈現(xiàn)的是圖5中風(fēng)格化圖像與內(nèi)容原圖之間結(jié)構(gòu)相似度的計算結(jié)果。從表1中數(shù)據(jù)可以看出,當(dāng)前的基于注意力機(jī)制的圖像風(fēng)格遷移方法在內(nèi)容圖像結(jié)構(gòu)保留方面相比于傳統(tǒng)方法有較好的進(jìn)展,在風(fēng)格特征與內(nèi)容結(jié)構(gòu)的平衡方面也取得了顯著的進(jìn)步。

不同方法的計算消耗見表2。AdaIN基于參數(shù)統(tǒng)計,沒有使用注意力機(jī)制,具有最小的計算資源占用。AdaAttN在多級特征上采用了更復(fù)雜的注意力機(jī)制,導(dǎo)致計算過程更為密集,盡管能提供較好的風(fēng)格遷移效果,但是其高顯存使用量和長運(yùn)行時間,可能限制其需要快速響應(yīng)的應(yīng)用。其余方法在資源占用與風(fēng)格化效果方面的表現(xiàn)較為均衡。

總體而言,當(dāng)前基于注意力機(jī)制的方法可以較好地實現(xiàn)任意風(fēng)格遷移任務(wù),在保留內(nèi)容結(jié)構(gòu)的同時獲得了較好的視覺效果。在面對極端輸入圖像時,現(xiàn)有方法仍存在結(jié)構(gòu)扭曲與偽影問題。同時,現(xiàn)有方法在計算時資源占用適中,可以滿足圖像風(fēng)格遷移在現(xiàn)實場景中的應(yīng)用。

3 結(jié)論(Conclusion)

本文圍繞卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制,對20余種圖像風(fēng)格遷移方法展開研究。首先,根據(jù)圖像風(fēng)格遷移任務(wù)技術(shù)的發(fā)展,將其歸納為4類方法,并分析各自的原理與優(yōu)點。其次,深入研究最新的基于注意力方法的實現(xiàn)機(jī)制并進(jìn)行實驗對比。分析發(fā)現(xiàn),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與先進(jìn)注意力機(jī)制的方法能夠捕捉和重現(xiàn)風(fēng)格圖像細(xì)節(jié),并且不會破壞圖像內(nèi)容的完整性,在任意風(fēng)格遷移領(lǐng)域展現(xiàn)出了巨大的潛力,但在面對語義與內(nèi)容復(fù)雜程度差異較大的輸入圖像對時,難以保持風(fēng)格特征與內(nèi)容結(jié)構(gòu)的平衡。同時,當(dāng)前的研究還面臨著處理高分辨率圖像時的計算成本高和模型泛化能力有限等問題。未來的研究需探索更具泛化性與可控性的算法,并嘗試降低計算成本,進(jìn)一步提升圖像風(fēng)格遷移的質(zhì)量。

參考文獻(xiàn)(References)

[1]JING YC,YANG YZ,F(xiàn)ENGZL,etal.Neuralstyletransfer:areview[J].IEEEtransactionsonvisualizationandcomputergraphics,2020,26(11):3365-3385.

[2]朱文浩,魏寶剛.基于樣本的紋理合成技術(shù)綜述[J].中國圖象圖形學(xué)報A,2008,13(11):2063-2069.

[3]GATYSL A,ECKER A S,BETHGE M.Imagestyletransferusingconvolutionalneuralnetworks[C]∥IEEE.Proceedingsofthe2016IEEEConferenceonComputerVisionandPatternRecognition.LosAlamitos:IEEE,2016:2414-2423.

[4]LIYH,WANGNY,LIUJY,etal.Demystifyingneuralstyletransfer[C]∥AAAIPress.ProceedingsoftheInternationalJointConferenceonArtificialIntelligence.PaloAlto:AAAI,2017:2230-2236.

[5]LISH,XUXX,NIELQ,etal.Laplacian-steeredneuralstyletransfer[C]∥ACM.Proceedingsofthe25thACMInternationalConferenceonMultimedia.NewYork:ACM,2017:1716-1724.

[6]GATYSLA,ECKERAS,BETHGEM,etal.Controllingperceptualfactorsinneuralstyletransfer[C]∥IEEE.ProceedingsoftheIEEE2017ConferenceonComputerVisionand Pattern Recognition.Los Alamitos:IEEE,2017:3985-3993.

[7]JINGYC,LIU Y,YANGYZ,etal.Strokecontrollablefaststyletransferwithadaptivereceptivefields[C]∥Springer.Proceedingsofthe European ConferenceonComputerVision.Heidelberg:Springer,2018:244-260.

[8]CASTILLOC,DES,HANX,etal.Targetedstyletransferusinginstance-awaresemanticsegmentation[C]∥IEEE.ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignal.Piscataway:IEEE,2017:1348-1352.

[9]JOHNSONJ,ALAHIA,LIFF.Perceptuallossesforrealtimestyletransferandsuper-resolution[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Heidelberg:Springer,2016:694-711.

[10]LIYJ,F(xiàn)ANGC,YANGJM,etal.Universalstyletransferviafeaturetransforms[C]∥MITPress.ProceedingsoftheInternationalConferenceon NeuralInformationProcessingSystems.Cambridge:MIT,2017:386-396.

[11]LIN T Y,MAIRE M,BELONGIESJ,etal.MicrosoftCOCO:commonobjectsincontext[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Heidelberg:Springer,2014:740-755.

[12]HUANG X,BELONGIES.Arbitrarystyletransferinreal-timewithadaptiveinstancenormalization[C]∥IEEE.ProceedingsoftheInternationalConferenceonComputerVision.LosAlamitos:IEEE,2017:1510-1519.

[13]SHENGL,LINZY,SHAOJ,etal.Avatar-Net:multiscalezero-shotstyletransferbyfeaturedecoration[C]∥IEEE.ProceedingsoftheIEEEConferenceonComputerVisionand Pattern Recognition.Los Alamitos:IEEE,2018:8242-8250.

[14]LIX,LIUS,KAUTZJ,etal.Learninglineartransformationsforfastarbitrarystyletransfer[C]∥IEEE.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LosAlamitos:IEEE,2019:3809-3817.

[15]李文書,趙朋,尹靈芝,等.基于高斯采樣的區(qū)域多元化圖像風(fēng)格遷移方法[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(5):743-750.

[16]WANGH,LIYJ,WANGYH,etal.Collaborativedistillationforultra-resolutionuniversalstyletransfer[C]∥IEEE.ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPattern Recognition.Los Alamitos:IEEE,2020:1857-1866.

[17]PARKDY,LEEKH.Arbitrarystyletransferwithstyleattentionalnetworks[C]∥IEEE.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LosAlamitos:IEEE,2019:5880-5888.

[18]YAOY,RENJQ,XIEX,etal.Attention-awaremultistrokestyletransfer[C]∥IEEE.ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LosAlamitos:IEEE,2019:1467-1475.

[19]DENGYY,TANGF,DONGW M,etal.Arbitrarystyletransferviamulti-adaptationnetwork[C]∥ACM.ProceedingsoftheInternationalConferenceonMultimedia.NewYork:ACM,2020:2719-2727.

[20]LIUSH,LINTW,HEDL,etal.AdaAttN:revisitattentionmechanisminarbitraryneuralstyletransfer[C]∥IEEE.ProceedingsoftheIEEEInternationalConferenceonComputerVision.LosAlamitos:IEEE,2021:6649-6658.

[21]LUO X,HAN Z,YANG L K,etal.Consistentstyletransfer[J/OL].(2022-07-16)[2022-07-16].https:∥arxiv.org/abs/2201.02233.

[22]ZHU MR,HEX,WANGNJ,etal.All-to-keyattentionforarbitrarystyletransfer[C]∥IEEE.ProceedingsoftheInternationalConferenceonComputerVision.LosAlamitos:IEEE,2023:23109-23119.

[23]PENGHY,QIAN W H,CAOJD,etal.Arbitrarystyletransferbasedonattentionandcovariance-matching[J].Computersamp;graphic,2023,116:298-307.

[24]YUXM,ZHOUG.Arbitrarystyletransferviacontentconsistencyandstyleconsistency[J].Thevisualcomputer,2024,40(3):1369-1382.

作者簡介:

王樹聲(1999-),男(漢族),金華,碩士生。研究領(lǐng)域:圖像處

李文書(1975-),男(漢族),杭州,教授,博士。研究領(lǐng)域:圖像

主站蜘蛛池模板: 伊人久久青草青青综合| 日韩欧美高清视频| 久久美女精品国产精品亚洲| 日韩毛片免费| 亚洲午夜18| 91视频日本| 日韩a级片视频| 国产欧美在线观看精品一区污| 亚洲高清无码久久久| 自慰网址在线观看| 亚洲精品波多野结衣| 伊人五月丁香综合AⅤ| 亚洲欧洲自拍拍偷午夜色| 免费AV在线播放观看18禁强制| 日本精品视频一区二区 | 亚洲AV电影不卡在线观看| 久久99国产乱子伦精品免| 亚洲高清无在码在线无弹窗| 伊人久久久久久久| 日本成人一区| 免费播放毛片| 99久久精品无码专区免费| 国产在线观看91精品亚瑟| 亚洲αv毛片| 亚洲av无码人妻| 青青久久91| 亚洲色成人www在线观看| 91久久青青草原精品国产| 国模粉嫩小泬视频在线观看| 性视频一区| 亚洲综合精品第一页| 国产免费网址| a毛片免费在线观看| 国产熟睡乱子伦视频网站| 国产精品香蕉在线| 婷婷开心中文字幕| 日本黄色a视频| 一区二区影院| 日韩高清无码免费| 欧美 亚洲 日韩 国产| 成人亚洲国产| 91av国产在线| 亚洲欧美日韩综合二区三区| 亚洲毛片在线看| 久久综合九色综合97婷婷| 性色一区| 婷婷色中文网| 91亚瑟视频| 日韩最新中文字幕| 国产福利在线免费| 国产激情无码一区二区APP| 91综合色区亚洲熟妇p| 色综合a怡红院怡红院首页| 精品伊人久久久香线蕉 | 中文字幕66页| 亚洲第一视频网| 久久毛片网| 最新亚洲av女人的天堂| 欧美日本在线| 最新精品久久精品| 亚洲高清中文字幕| 亚洲色图欧美激情| 91福利免费视频| 色国产视频| 亚洲精品第五页| 国产乱视频网站| 在线精品自拍| 国产真实乱人视频| 日韩欧美视频第一区在线观看| 欧美午夜在线播放| 97亚洲色综久久精品| 亚洲国产系列| 欧美日韩在线亚洲国产人| 国产欧美日韩另类| 国产色偷丝袜婷婷无码麻豆制服| 99精品国产电影| 99r在线精品视频在线播放| 亚洲第七页| 国产精品成人一区二区不卡 | 久久人午夜亚洲精品无码区| 一区二区三区毛片无码| 国产一区二区三区精品欧美日韩|