999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于生成對抗網絡的輕量級圖像翻譯模型

2021-11-22 08:53:38王榮達劉寧鐘李強懿沈家全
計算機技術與發展 2021年11期
關鍵詞:模型

王榮達,劉寧鐘,李強懿,沈家全

(南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106)

0 引 言

在深度學習發展迅速的今天,研究員們已經設計出了大量優秀的大型神經網絡算法模型,這些模型在很多任務上都表現非常出色,例如目標檢測、圖像分類、細粒度識別、圖像生成、圖像到圖像翻譯等任務。但是它們都有一個共同的缺點,就是所需要的計算量和模型大小都非常大,通常需要配置大顯存的GPU進行運算。而在移動互聯網高速發展的今天,日常的應用更多地會放到移動端,而很多大型網絡需要的運算量手機是無法進行處理或者運行時速度過慢。這時候就需要對神經網絡模型進行優化壓縮和加速。常見的做法有設計輕量級卷積神經網絡,從而降低模型所需要的參數量,或者對一個訓練完成的大型卷積神經網絡進行模型剪枝。

輕量級神經網絡經過了多年的發展,取得了一定的成果。例如在ICLR-2017上提出的SqueezeNet[1],它在只用到Alexnet[2]模型五十分之一的參數量的情況下,在圖像分類數據集ImageNet[3]上實現了和Alexnet相同的正確率。文章中還利用了模型壓縮的思想,可以將模型的大小進一步壓縮到0.5 MB。隨后MobileNet[4]、ShuffleNet[5]等新型輕量級網絡的提出,更是進一步探討了在非常深的卷積神經網絡中該如何設計輕量級網絡結構的問題。

1 相關工作

為了從預訓練的模型中學習緊湊而有效的網絡,Denton等人[6]利用奇異值分解(SVD)實現了全連接層中參數的低秩近似,從而降低了模型的參數量。Chen等人[7]使用了哈希函數,利用哈希表提供參數映射來節省權重參數量。Han等人[8]通過刪除預訓練神經網絡模型中不重要的參數,減少了模型參數量,并進一步在文獻[9]中利用量化、霍夫曼編碼和權重稀疏等方式來獲得極其緊湊的卷積神經網絡模型。Luo等人[10]通過刪除了多余的權重,并用全局平均池(GAP)層代替了全連接層,大大降低了模型的參數量。Vanhouche等人[11]探索了利用8位整數值的深度神經網絡用來替換原始模型中的32位浮點值,從而實現模型的壓縮和加速。Courbariaux和Bengio等人[12]探索了具有二進制權重和激活的小型神經網絡。Restgari等人[13]更進一步地在最新的神經體系結構中應用具有二進制權重的卷積層從而實現更高的性能。Anwar等人[14]描述了一種在特征圖和卷積核層次的卷積層進行結構化修剪的方法。其中權重的修剪是通過粒子過濾來完成的,具體做法是根據誤分類率對所有的參數進行加權排序,最后決定需要裁減掉的卷積單元。該方法在小型卷積神經網絡剪枝上展示了很好的效果,但在大型卷積神經網絡上的表現差強人意。谷歌的學者在2017年提出一種用于嵌入式設備和移動端的輕量級卷積神經網絡MobileNet。這個網絡結構推出后受到了廣大研究人員的跟蹤研究,其最主要的貢獻是提出了一種深度可分離卷積(depthwise separable convolution)的新型卷積結構。深度可分離卷積核與傳統的卷積不同,傳統卷積是用卷積核對特征圖中的每個像素點相乘后進行累加,也就是使用N個DK*DK*M大小的卷積核進行特征圖的卷積,最后輸出結果。ShuffleNet采用的網絡設計思想與前面提到的SqueezeNet和MobileNet不同,ShuffleNet是采用了一種稀疏組卷積(group convolution)的思想,組卷積是將輸入層的不同特征圖進行分組,然后采用不同的卷積核對各個組進行卷積,從而降低卷積過程中所需的計算量。使用組卷積設計的網絡結構有很多,比如ResNeXt[15]、Xception[16]、MobileNetV2[17]等。但是這些網絡當中存在一定的問題,其中的1×1卷積層需要耗費很多的計算量。為了解決這個問題,ShuffleNet采取的是對1×1卷積層進行分組卷積操作,但是這樣也帶來了一個問題,之前采用1×1卷積層是為了解決卷積層組間特征通訊的問題,而采用分組卷積的話就會又出現同樣的問題。而ShuffleNet的作者為了解決這個問題,提出了channel shuffle的策略。這個策略簡而言之就是把不同組的特征進行重新排列,不同組之間的特征進行隨機調換位置,從而達到加強組間特征通訊的目的。而SqueezeNet的模型壓縮思路主要使用了3個策略:(1)將3×3卷積替換成1×1卷積;(2)減少3×3卷積的通道數;(3)將降采樣后置。此外,SqueezeNet還引入了大量的Fire模塊,SqueezeNet是由若干個Fire模塊結合卷積網絡中卷積層,降采樣層,全連接層等組成的。一個Fire模塊由Squeeze部分和Expand部分組成。Squeeze部分是由一組連續的1×1卷積組成,Expand部分則是由一組連續的1×1卷積和一組連續的3×3卷積進行通道連接組成,因此3×3卷積需要使用same卷積。在Fire模塊中,Squeeze模塊中1×1卷積層的通道數記做s1x1,Expand模塊1×1卷積和3×3卷積的通道數分別記做e1x1和e3x3。在Fire模塊中,作者建議s1x1

盡管這些方法在幾種基準模型上都實現了相當大的加速比和壓縮率,但它們中的大多數是為識別任務而開發的,例如圖像分類和目標檢測,所以這些剪枝方法不能直接應用在生成對抗網絡上。因為生成對抗網絡的結構和傳統的卷積神經網絡不同,是由生成器和判別器兩個網絡模型成對組成,其輸出是高維和具有復雜結構的圖像。

近年來圖像到圖像翻譯任務也是深度學習領域的一個研究熱點,特別是在生成對抗網絡結構[18]和條件生成對抗網絡[19]提出后,更是受到了廣泛的關注。圖像到圖像翻譯是一類視覺和圖形問題,其目標是使用一組對齊的圖像對來學習輸入圖像和輸出圖像之間的映射。Phillip Isola等人[20]提出了一種pix2pix的cGAN模型pix2pix,能夠實現圖像到圖像的端到端映射,作者在文章中研究的重點是如何將條件生成對抗網絡應用在通用圖像到圖像翻譯任務。作者設計出的生成對抗網絡可以學習從輸入圖像到輸出圖像的映射,同時通過優化內容損失函數來學習圖像到圖像之間的映射。作者提出的方法解決了以前方法中每次訓練不同的圖像到圖像翻譯任務都需要進行改進損失函數的問題,并且在多種數據集上進行了驗證,例如通過標簽生成圖片、通過航拍圖生成地圖、通過邊緣畫稿重建對象、對圖像進行著色和白天到夜晚的轉變等等。自從作者在GitHub中發布pix2pix以來,很多研究人員甚至藝術家已經基于pix2pix創造出了屬于自己的作品,進一步證明了其廣泛的適用性。此后CycleGAN[21]更是解決了不成對數據集的圖像到圖像翻譯任務的訓練問題,降低了對圖像到圖像翻譯數據集的采集難度。這也和pix2pix的訓練方式不同,CycleGAN只需要兩種不同風格的圖像數據集進行訓練即可,并不需要每個圖像都進行對應。

文中提出了一種基于生成對抗網絡的圖像到圖像翻譯新型網絡結構,用于對自然圖像進行風格轉換,例如將圖像中的馬轉換為斑馬。實驗結果表明,通過使用輕量級的網絡結構,該方法可以在速度和準確性上表現良好。

文中的主要貢獻如下:

(1)提出了一種應用在圖像到圖像翻譯任務的基于生成對抗網絡的輕量級網絡結構。

(2)通過在CycleGAN的骨干網絡中引入輕量級的網絡結構,降低了基于CycleGAN的圖像到圖像翻譯模型的參數量和運行時間。

2 輕量級神經網絡模型結構

2.1 模型網絡結構

目標是通過端到端的方法轉換不同風格的圖片。為了確保可以學習從風格X圖像到風格Y圖像的映射,設計了類似于CycleGAN的網絡架構。此外,將線性瓶頸結構引入到該骨干網絡中,從實驗結果得出,該網絡結構顯著提高了圖像到圖像翻譯模型的準確性和速度。類似于CycleGAN,該模型架構也包含兩個生成器和兩個判別器。兩個生成器代表兩個不同的映射,分別標記為G和F,而兩個判別器記為Dx和Dy。其中G代表從風格X圖像到風格Y的映射,而F代表從風格X圖像到風格Y圖像的映射。判別器Dx的作用是區分圖像是否是風格X圖像,而判別器Dy則旨在區分圖像是否是風格Y圖像。這兩對生成器和判別器構建出了一個用于訓練圖像到圖像翻譯任務的網絡框架。

網絡架構如圖1所示。它包含兩個重要部分:生成器和判別器。就G和F這兩個生成器而言,它們擁有相同的網絡結構,如圖2所示,其中包含一個7*7卷積層、兩個的3*3卷積層、兩個轉置卷積層,幾個線性瓶頸塊[17]、若干個實例歸一化的規范化層(Instance norm layer[22])、ReLU[2]函數和Tanh函數。

圖1 網絡模型整體結構

圖2 生成器結構

線性瓶頸塊是在MobileNetV2當中提出的新型輕量級結構,其中含有3個卷積層,它的結構類似于ResNet結構[23]。不同的是,線性瓶頸塊包含一個3*3卷積塊和兩個1*1卷積塊,而不是ResNet中使用的兩個3*3卷積塊,通過組卷積和深度可分離卷積技術進行參數壓縮[17]。文中使用的線性瓶頸塊和MobileNetV2不同,其中第二層采用的是一個5*5的depthwise卷積層。模型在經過兩個線性瓶頸塊后,采用一個1*1的卷積層對上面兩個線性瓶頸層中的5*5卷積層輸出的特征層進行處理,最后輸入轉置卷積層。采用的特征圖融合方式是concat,也就是特征圖通道維度的合并。

文中提出這種結構的意圖在于能夠對兩個線性瓶頸塊中輸出的特征圖進行融合處理,從而提高模型對圖像細節的處理能力。此外,文中提出的算法模型中的兩個判別器Dx和Dy都擁有相同的PatchGAN架構[20]。同時,使用LSGAN[24]作為生成對抗網絡的損失函數。

2.2 損失函數

將對抗損失和循環一致性損失引入損失函數當中。映射G:X=>Y的損失函數及判別器Dy的對抗損失可以寫成如下形式:

LGAN(G,Dy,X,Y)=Ey~p(data(y))[logDY(y)]+

Ex~pdata(x)[1-logDY(G(x))]

(1)

其中,G定義為生成器,作用是生成風格Y圖像。而Dy作為判別器用來區分給定風格Y圖像x是來自假樣本分布G(x)還是真實樣本分布Y。換句話說,判別器Dy通過使損失函數LGAN(G,DY,X,Y)值最大化來提升區分生成的圖像和真實圖像之間的能力。與此同時,生成器G通過最小化損失函數LGAN(G,DY,X,Y)來提升生成接近Y真實分布圖像的能力。與此同時,映射F:Y=>X與它對應的判別器Dx之間的優化損失函數可以寫為:

LGAN(G,Dx,X,Y)=Ex~p(data(x))[logDx(x)]+

Ey~pdata(y)[1-logDx(G(y))]

(2)

與CycleGAN相似,將循環一致性損失引入損失函數,從而確保模型能夠學習從風格X圖像到風格Y圖像之間的正確映射。循環一致性損失函數寫為:

Lcycle(G,Y)=Ex~p(data(x))[‖F(G(x))-x‖1]+

Ey~pdata(y)[‖G(F(y))-y‖1]

(3)

其中,G為將風格X圖像x轉換為風格Y圖像G(x)的映射函數。F類似于將風格X圖像轉換為風格Y圖像的生成器G。F最有意義的作用是確保可以將生成的風格Y圖像還原為原始風格X圖像。假如通過之前的單向生成對抗網絡模型pix2pix學習了從風格X圖像到風格Y圖像的映射函數G,即使生成器G在實驗中出良好的結果,也仍然不知道生成模型是不是學到了正確的映射。為了解決該問題,將能夠學習從風格Y圖像到風格X圖像的映射的生成器F添加到網絡體系結構中。此外,將循環一致性損失引入到生成對抗網絡的損失函數中用來比較原始圖像和還原后圖像之間的差異。

3 實驗和結果

3.1 實驗細節

文中模型是通過Pytorch框架進行設計和訓練的,該框架是當前比較可靠和高效的深度學習框架。使用的CPU為 Intel(R) Core(TM) i7-7700 @ 3.50 GHz,在單個NVIDIA TITAN Xp GPU上進行了模型訓練,使用的操作系統是Ubuntu16.04。

在訓練過程中,使用了下一節中提到的兩個數據集,通過Pytorch框架實現了文中算法模型,并且復現了CycleGAN進行對比實驗。輸入和輸出的圖像尺寸均為372×372。根據上一節介紹的網絡體系結構,初始化了兩個生成器G和F以及兩個判別器Dx和Dy。更具體的訓練細節是,在訓練模型的過程中使用Adam[25]優化器更新網絡權重,初始學習率設置為0.000 2,并且按照每100個epoch都會衰減一次的規則進行迭代。同時,還設置了兩個GAN損失函數用來優化生成器和判別器的參數。最終,訓練過程在200個epoch后停止,每個epoch中的batch大小設置為1。

3.2 數據集

這部分將介紹本章用到的訓練和測試數據集:

horse2zebra[21]:

該數據集作為訓練樣本的有1 067張普通馬圖像和1 334張斑馬圖像;作為測試樣本的有120張普通馬圖像和140張斑馬圖像。

summer2winter[21]:

該數據集作為訓練樣本的有1 231張夏天風景圖和962張秋天圖像;該數據集作為訓練樣本的有309張夏天風景圖和238張秋天圖像。

3.3 實驗結果

測試了文中提出的剪枝算法在通用圖像到圖像翻譯任務上的表現,選取了常見的兩個圖像到圖像翻譯任務數據集進行訓練和測試。在衡量測試結果的時候用的是Frechet Inception Distance (FID),這個指標通過比較生成的圖像特征和原有數據集之間的差異性,來衡量生成對抗網絡生成的圖像質量,是目前研究生成對抗網絡模型性能最常用的一個圖像評價指標。測試結果如表1所示,可以看出,文中方法在summer2winter數據集上表現良好,甚至超過原CycleGAN的表現,領先ThiNet[10]和coEGAN[26]。在horse2zebra數據集上表現則略遜一籌,和coEAN的表現相仿,同時大幅度領先ThiNet,但是相比原CycleGAN而言要遜色不小。整體來說,文中提出的輕量級網絡結構在圖像到圖像翻譯任務上表現良好。

表1 各模型FID分數對比

表2 CycleGAN和文中方法的性能對比

結合一下原CyleGAN模型和文中提出的輕量級生成對抗網絡模型結構進行進一步的討論,如表2所示。從表2中可以看出,文中提出的輕量級生成對抗網絡的模型大小僅僅為原來CycleGAN模型的四分之一左右。文中提出的網絡結構在只用到原CycleGAN模型大約四分之一左右的參數量的情況下,在horse2zebra和summer2winter數據集上實現了接近和超過原CycleGAN的性能,并且運行速度比原來降低了10%左右,證明了文中提出的輕量級生成對抗網絡結構的有效性。

圖3 文中算法和CycleGAN測試結果對比

圖3展示了CycleGAN和文中算法分別在horse2zebra和summer2winter測試集上的幾個測試結果。從圖中可以看出,文中算法接近原CycleGAN的表現,具體表現為在背景和細節紋路等方面文中算法和CycleGAN較為一致。這也證明了文中提出的網絡結構的有效性,不僅能夠節省大量模型參數,還能加快模型的運行速度。

4 結束語

提出了一種輕量級的新型生成對抗網絡結構,用于圖像到圖像翻譯任務。該模型比起CycleGAN擁有更少的計算成本和更小的模型尺寸,同時圖像到圖像翻譯任務中達到了最好的性能。實驗證明,提出的基于生成對抗網絡的輕量級在圖像到圖像翻譯任務上表現良好,在只用到原CycleGAN模型大約四分之一左右的參數量的情況下,在horse2zebra和summer2winter數據集上實現了接近和超過原CycleGAN的性能,并且運行速度比原來降低了10%左右。證明了該輕量級網絡結構的有效性。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 一级毛片不卡片免费观看| 欧美亚洲一区二区三区在线| 国产一级视频久久| 波多野结衣第一页| 99视频精品全国免费品| 2020精品极品国产色在线观看| 欧美日韩资源| 日韩色图区| 亚洲激情99| 亚洲av色吊丝无码| 久久久久国产精品嫩草影院| www中文字幕在线观看| 国产青青操| 精品一區二區久久久久久久網站| 人妻一区二区三区无码精品一区 | 国产精品第一区在线观看| 婷婷开心中文字幕| 色综合天天综合中文网| 成人一级免费视频| 欧美不卡视频一区发布| 久久成人免费| www.99在线观看| 亚洲精品午夜无码电影网| 欧美激情视频二区| 国产欧美日韩一区二区视频在线| 新SSS无码手机在线观看| 亚洲欧美另类视频| 91久久偷偷做嫩草影院| 中文字幕调教一区二区视频| 超级碰免费视频91| 亚洲无码四虎黄色网站| 国产乱码精品一区二区三区中文 | 久久精品国产电影| 国产真实乱了在线播放| 欧美一级特黄aaaaaa在线看片| 国产第四页| 欧美国产精品不卡在线观看 | 色妞永久免费视频| 亚洲中文精品久久久久久不卡| 无码啪啪精品天堂浪潮av| 91在线一9|永久视频在线| 精品视频一区二区三区在线播| 99久久这里只精品麻豆| 国产精品吹潮在线观看中文| 亚洲欧洲日产无码AV| 72种姿势欧美久久久大黄蕉| 成人毛片在线播放| av大片在线无码免费| 四虎永久在线精品国产免费| 国产国拍精品视频免费看 | 久久这里只有精品国产99| 在线99视频| 日本国产一区在线观看| 久久久久久久久亚洲精品| 一本久道久久综合多人| 91精品啪在线观看国产60岁| 久久国产香蕉| 极品性荡少妇一区二区色欲| 中文无码日韩精品| 97国产精品视频人人做人人爱| 欧美亚洲香蕉| 亚洲人成影视在线观看| 亚洲天堂自拍| 久久精品中文字幕免费| 小说区 亚洲 自拍 另类| 国产99久久亚洲综合精品西瓜tv| 国产视频大全| 91美女视频在线| 欧美成人免费一区在线播放| 国产白浆视频| 国产在线观看一区二区三区| 99视频在线免费| 亚洲中文字幕av无码区| 欧美激情视频一区| 制服丝袜一区| 91在线播放免费不卡无毒| 国产精品成人AⅤ在线一二三四| 国产女人在线观看| 在线看片中文字幕| 欧美伦理一区| 久久影院一区二区h| 久久美女精品国产精品亚洲|