999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進的U-Net生成對抗網絡的圖像翻譯算法*

2020-03-26 08:25:50王玉德吉燕妮
通信技術 2020年2期
關鍵詞:實驗模型

常 佳,王玉德,吉燕妮

(曲阜師范大學,山東 曲阜 273165)

0 引 言

圖像翻譯是將源域的輸入圖像向著目標域的輸出圖像轉換的過程[1],是圖像處理的一個重要領域。圖像翻譯(Image-to-Image Translation)廣泛應用在計算機視覺任務中,如模糊圖像修復[2-3]、人臉上妝[4]、圖像上色[5]、圖像生成[6]以及風格遷移[7]等。

Hertzmann等人首次提出了圖像翻譯模糊的概念[8],采用的是輸入-輸出圖像對來訓練一個非參數模型,然后利用這個模型訓練輸入的圖像對應的輸出圖像,從而完成圖像翻譯。2014年Goodfellow等人受博弈論的啟發[9],提出了生成對抗網絡GAN。模型由生成器和判別器組成,生成器生成一個與真實圖像類似的生成圖像來迷惑判別器,判別器努力區分生成圖像和真實圖像。該模型利用對抗的思想實現了無監督圖像翻譯。Mirza等人提出了CGAN[10],在GAN生成器的輸入中加入一個條件,將無監督圖像翻譯變成有監督圖像翻譯,從而可以按照人們的需要生成圖像,實現圖像翻譯。Isola等人提出Pix2Pix[1],模型結構和CGAN一致,并且在損失函數中加入了L1損失,而生成器采用U-Net模型[11],大大提高了圖像翻譯的質量。

針對Pix2Pix生成的圖像部分紋理、輪廓丟失以及噪聲大等不足,提出了基于改進U-Net模型生成對抗網絡的圖像翻譯算法。該算法重點解決的問題是生成器中反卷積層中信息強度的增強,通過生成器反卷積跳躍連接過程中逐次增加encoder重復次數來增強圖像特征,從而提升圖像翻譯效果。

1 基本理論

2014年Goodfellow等人提出了生成對抗網絡,基于二人零和博弈思想(兩人的利益之和為零,即若一個人得到利益,則另一個人便失去利益),近年來已經成為深度學習比較熱門的研究方向[12-13]。

GAN的模型包括兩個部分——生成器(Generator,簡稱G)和判別器(Discriminator,簡稱D)。在訓練過程中,生成器主要是生成一個與真實圖片相似的圖片;判別器的主要作用是判斷輸入圖像是真實的還是生成的,輸出結果是一個概率。若為真實圖像,則輸出為1;若是生成圖像,則輸出為0。生成器和判別器相互博弈,直到輸出的概率為0.5時,判別器無法判別真假,模型達到最優。GAN的網絡模型如圖1所示。

圖1 生成對抗網絡模型

GAN的優化函數為:

其中輸入圖像x服從px(x)分布,生成器的輸入噪聲z服從pz(x)分布。

實踐中,GAN在訓練過程中容易出現振蕩而達不到均衡,出現部分模式崩潰現象,使得生成樣本缺乏多樣性。針對這一問題,Mirza等人提出了CGAN,期望網絡根據輸入條件生成指定的圖像。與原始GAN不同的是,它在生成器的輸入部分增加了條件約束,將無監督學習轉換成有監督學習,其中加入的約束條件記為y,引導噪聲生成圖像模擬目標圖像。CGAN的目標函數為:

其中,y是約束條件。

模型結構如圖2所示。

圖2 條件生成對抗網絡模型

圖像翻譯質量是否提高是人們最關心的問題,常用的對圖像翻譯質量的評價指標分為主觀評價和客觀評價[14-15]。

主觀評價采用的是用戶調研方法,用戶用肉眼直接觀察圖像翻譯的質量。用戶主觀評價滿意度指標用公式表示為:

其中A代表參加調研的人數,B表示從數據集中隨機挑選的測試圖像,N代表用戶觀察的最優的圖像個數。

2 U-Net模型及其改進方法

2.1 U-Net模型結構

在神經網絡中,淺層卷積核提取Low-Level特征,深層卷積核需要提取High-Level特征,從而盡可能保留更多的圖像細節。Encoder-decoder只學習高級特征而丟失了低級特征,使得圖像翻譯的效果比較模糊,而U-Net模型可以同時學習高級、低級特征,將第i層拼接到第n-i層。這是因為第i層和第n-i層的圖像大小是一致的,可以認為它們承載著類似的信息。這樣就把淺層的特征通過channel維度跳躍連接到深層特征。Encoder-decoder和U-Net模型如圖3和圖4所示。

圖3 Encoder-decoder

圖4 U-Net模型

2.2 U-Net模型改進

U-Net模型第i層和第n-i層承載著類似的信息,通過跳躍連接就可以將第i層的特征復制到第n-i層,使得生成圖像越接近于真實圖像。但是,只做一次跳躍連接容易丟失圖像紋理、輪廓等特征。為了增強圖像特征表達能力,提高圖像翻譯效果,本文通過增加卷積層和反卷積層之間跳躍連接的次數來改進U-Net模型。改進的U-Net模型結構如圖5所示。

圖5 改進的U-Net模型結構

生成器采用改進的U-Net模型,輸入圖像依次經過conv、激活函數和Maxpooling,然后將輸出圖像依次經過deconv、正則化、激活函數和dropout層,最后將圖片大小相同的輸出進行concat跳躍連接。生成器如圖6所示。

判別器,是將真實圖像和生成圖像(或目標圖像)進行concat(即預處理),得到的結果依次經過卷積、BN和激活函數層輸出圖像,然后經過扁平化和全連接層輸出圖片為真或者假的概率。判別器結構如圖7所示。

3 圖像翻譯算法實現步驟

(1)對樣本圖像進行尺寸歸一化處理,經過m個x×y(x可等于y)卷積核對輸入的圖片進行卷積操作,經過激活函數,選用n×n的池化單元完成下采樣。

圖6 生成器結構

圖7 判別器結構

(2)將encoder輸出的結果進行反卷積、正則化和dropout操作。

(3)將encoder和decoder大小相同的輸出進行concat操作,逐次經過卷積、BN和激活函數層,將輸出的圖像大小經過扁平化和全連接層,進而判斷圖像是真或假的概率。

(4)改變網絡模型參數,優化算法,實驗確定網絡模型的最優參數。

(5)在步驟(4)的基礎上,改變反卷積過程跳躍連接的重復次數,尋找最優反卷積過程跳躍連接次數的最優值,實現圖像翻譯。

4 實驗與結果分析

本文選用的是CUHK人臉素描數據庫里香港中文大學學生數據庫,包括88張彩色圖和88張素描圖組成的訓練集和100張彩色圖和100張素描圖組成的測試集。

實驗條件為Intel(R) Core(TM) i5-4590 CPU@3.30 GHz,內存64 GB,Windows10操作系統,編程軟件基于TensorFlow 1.10.0框架,python3.6.5。對圖像進行預處理,模型卷積核為3×3,平均池化為2×2,步長為2,激活函數選擇ReLU。

4.1 實驗1

分別選用AdaGrad算法、RMSProp算法以及Adam算法等優化算法,實驗迭代200次,實驗觀察算法對圖像翻譯質量的影響,結果如圖8所示。

圖8 不同優化算法翻譯結果

從圖8可知,當優化算法選擇Adam時,翻譯結果接近于GT圖像,故選擇Adam算法對實驗進行優化。

4.2 實驗2

優化算法選擇Adam方法,改變網絡模型學習率和迭代次數,研究網絡模型參數對圖像翻譯質量的影響,實驗確定模型參數。

研究網絡模型中學習率、迭代次數等參數對改進后的圖像翻譯算法的影響,其中優化算法選擇上面得出的Adam算法。

(1)迭代次數設定為200次,學習率分別設置為0.01、0.001、0.000 1,實驗結果如圖9所示。

從圖9看出,學習率設置過大,生成的圖像輪廓較為清晰,一些細節方面被遺棄;設置過小,噪聲太大,會影響圖像的輪廓。所以,學習率設置為0.001。

圖9 不同學習率翻譯結果

(2)學習率設為0.001,優化算法為Adam算法,改變網絡迭代次數,實驗結果如圖10所示。

圖10 不同迭代次數翻譯結果

為了說明模型在不同迭代次數下生成圖像的效果,列出不同迭代次數下生成器生成的圖像、輸入圖像和目標圖像進行對比。如圖10所示,最左邊是輸入圖像,最右邊是目標圖像,生成器生成的圖像要向目標圖像進行靠近,迷惑判別器。從圖10可以看出,隨著迭代次數的增加,生成器生成的圖像在面部輪廓、紋理細節等方面越來越接近目標圖像,同時背景噪聲大幅度減少。

4.3 實驗3

學習率設為0.001,迭代200次,優化算法為Adam算法,在U-Net模型的反卷積過程中逐漸增加concat跳躍連接的encoder重復次數。實驗觀察U-Net模型中反卷積跳躍連接encoder重復次數對圖像翻譯質量的影響,實驗結果如圖11~圖16所示。

從圖11可以看出,當選用原始模型時,生成器損失曲線從迭代2次時開始急劇下降到32萬,之后在27萬~32萬之間來回震蕩;迭代50次后,在23萬~27萬之間對抗,總體呈現下降趨勢;判別器損失曲線在迭代3次時急劇下降到1.4,迭代25次左右時曲線損失增加到20,之后隨著迭代次數的增加,曲線在1~7之間來回震蕩,達成對抗。

圖11 原始模型Loss曲線

從圖12可以看出,當跳躍連接encoder增加到2次時,生成器的損失函數曲線在迭代3次時急劇下降,然后隨著迭代次數的增加損失在25萬~28萬之間來回震蕩,達到對抗,總體呈現下降趨勢;判別器損失曲線當迭代次數在50時急劇增加到40,之后在0~9之間震蕩,不穩定。

圖12 跳躍連接encoder2次Loss曲線

從圖13可以看出,當跳躍連接encoder增加到3次時,生成器的損失函數曲線在迭代3次時候急劇下降,然后隨著迭代次數的增加損失在23萬~33萬之間來回震蕩,達到對抗,總體趨勢是收斂的;判別器損失曲線十分不穩定,迭代次數在50時急劇增加到43,之后在0~10之間震蕩。

圖13 跳躍連接encoder3次Loss曲線

從圖14可以看出,當跳躍連接encoder增加到4次時,生成器的損失函數曲線在迭代3次時候急劇下降到35萬,然后在2~50次時損失在20萬~33萬之間來回震蕩,迭代次數在50之后震蕩加劇;判別器損失曲線不穩定,迭代次數在50時急劇增加到60,之后在0~10之間震蕩,迭代次數在75時急劇增加到58,對抗趨勢較差。

圖14 跳躍連接encoder4次Loss曲線

從圖15可以看出,當跳躍連接encoder增加到5次時,生成器的損失函數曲線在迭代3次時候急劇下降,然后隨著迭代次數的增加損失在26萬~33萬之間來回震蕩,達到對抗,總體趨勢是收斂的;判別器損失曲線迭代次數在20時急劇增加,之后在0~8之間震蕩,趨于穩定。

從圖16可以看出,當跳躍連接encoder增加到6次時,生成器的損失函數曲線在迭代3次時候急劇下降,然后隨著迭代次數的增加損失來回震蕩加劇,未達到平衡;判別器損失曲線每隔50次急劇增加一次,十分不穩定。

encoder重復不同次數的生成圖像,如圖17所示。通過Loss曲線和生成的圖像對比發現,當U-Net模型的concat層數encoder增加到5次時,圖像翻譯的效果最好。

圖15 跳躍連接encoder5次Loss曲線

圖16 跳躍連接encoder6次Loss曲線

圖17 encoder重復不同次數生成圖像

實驗選取不同跳躍連接encoder次數的圖像翻譯重復50次實驗,圖像翻譯結果圖像由專業人員、普通用戶、學生100人對圖像翻譯結果進行評價,得出用戶評價滿意度指數。用戶評價標準如表1所示,評價結果如表2所示。

表1 主觀評價標準

表2 用戶調研評價滿意度指數

5 結 語

針對圖像翻譯質量問題,提出了一種基于改進U-Net模型的生成對抗網絡圖像翻譯算法,主要通過增加反卷積過程跳躍連接中encoder的重復次數增強圖像特征,得出了生成器反卷積跳躍連接重復次數為5時圖像翻譯的質量達到最好。論文研究結果可為圖像翻譯技術的實現提供理論支撐。

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 欧美在线天堂| 亚洲黄网视频| 这里只有精品在线| 日韩精品无码免费专网站| 天堂网国产| 在线毛片网站| 欧美综合区自拍亚洲综合绿色| 亚洲中文字幕在线精品一区| 日韩欧美中文字幕在线精品| 久久免费观看视频| 免费人欧美成又黄又爽的视频| 女人av社区男人的天堂| 国产欧美亚洲精品第3页在线| 久久久久亚洲精品成人网 | 99草精品视频| 国产成人盗摄精品| 亚洲永久视频| 国产精品福利在线观看无码卡| 国模视频一区二区| 日韩区欧美国产区在线观看| 日韩天堂网| 尤物国产在线| 91成人在线观看| 日本五区在线不卡精品| 欧美啪啪网| 免费福利视频网站| 亚洲国产午夜精华无码福利| 国产成+人+综合+亚洲欧美 | 在线无码av一区二区三区| 亚洲二区视频| 五月婷婷综合网| 亚洲综合第一页| 欧美午夜网| 国产精品无码一二三视频| 久草视频一区| 亚洲性影院| 97在线观看视频免费| 欧美成人免费午夜全| 国产一区二区网站| 高清码无在线看| 精品国产91爱| 欧美国产日产一区二区| 性喷潮久久久久久久久| 精品人妻无码中字系列| 成年人视频一区二区| 伊人久综合| 日韩视频福利| 国产特级毛片aaaaaaa高清| 欧美a在线视频| 成人小视频网| 五月天婷婷网亚洲综合在线| 日韩av资源在线| 99精品国产自在现线观看| 国产日本欧美亚洲精品视| 国产网友愉拍精品视频| 国产毛片不卡| 亚洲妓女综合网995久久| 国产波多野结衣中文在线播放| 成人午夜亚洲影视在线观看| 免费观看男人免费桶女人视频| 午夜精品影院| 极品私人尤物在线精品首页 | 亚洲日韩AV无码一区二区三区人| 丝袜国产一区| 日韩免费中文字幕| 亚洲伊人久久精品影院| 日本中文字幕久久网站| 色哟哟国产成人精品| 蝴蝶伊人久久中文娱乐网| 国产成人av一区二区三区| 国产国语一级毛片| 亚洲AⅤ永久无码精品毛片| 久久99这里精品8国产| 欧美一区二区人人喊爽| 毛片一级在线| 亚洲高清无在码在线无弹窗| 丁香婷婷久久| 久久黄色视频影| 久久综合成人| 亚洲成人在线网| 成年人久久黄色网站| 亚洲精品在线观看91|