999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

采用雙框架生成對抗網絡的圖像運動模糊盲去除

2020-01-19 01:20:46羅琪彬
圖學學報 2019年6期

羅琪彬,蔡 強

(1.北京工商大學計算機與信息工程學院,北京 100048;2.北京工商大學食品安全大數據技術北京市重點實驗室,北京 100048)

造成圖像運動模糊的原因有很多,如拍攝主體抖動、目標相對主體運動等。傳統的圖像運動模糊盲復原算法需要使用預設計好的計算方法生成模糊樣本運動場所對應的模糊核來解決。但圖像盲復原的精確運動模型具有很大的不確定性,很難預測接近拍攝現場的精確模糊核。而隨著計算機視覺的發展,深度神經網絡作用于模糊圖像盲復原領域的各個層面都能取得很好的效果。SCHULER等[1]提出一個 2層卷積神經網絡用于提取圖像特征,采用Tikhonov懲罰模型預測模糊核,再復原出清晰圖像;但在處理大尺度的模糊樣本表現不佳。XU等[2]將H1范數作為損失函數估計模糊核,再通過超拉普拉斯的懲罰使模糊的圖片變清晰;該方法雖然合理的利用了神經網絡獲取圖像的邊緣信息的能力,但在圖像背景較為復雜的情況下復原效果有明顯的下滑。WIESCHOLLEK等[3]同樣采用卷積神經網絡中預測模糊核的思路,在預測前先將圖像作傅里葉變換使得最終利用預測的模糊核復原出更清晰圖像;而該方法會占用較多的訓練資源且訓練時間長。YAN和SHAO[4]提出預訓練深度神經網絡和廣義回歸網絡(general regression neural network,GRNN),通過深度神經網絡得到圖像模糊分類,預測模糊相關參數,最終重構出清晰圖像,該方法對高斯模糊、線性運動模糊等多種模糊環境中均表現良好。XU等[5]跳過模糊核預測的中間過程,只有利用卷積神經網絡得到清晰樣本。通過對模糊核的奇異值進行分解,得到結果輸入反卷積神經網絡中,復原出清晰圖像。該方法在圖像散焦模糊問題上有更好的表現。CHAKRABARTI[6]利用CNN對模糊圖像塊進行反卷積得到初始清晰圖像,將其傅里葉系數與模糊圖像塊的離散傅里葉變換結合,對所有輸出圖像塊的值取平均來估計模糊核,最后復原出清晰圖像;該方法可較好地估計大尺度模糊核,但對于恢復圖像細節還缺少更細致的解決方案。

生成對抗網絡(generative adversarial nets,GAN)[7]作為目前熱門的生成模型,廣泛應用于圖像超分辨率[8]和圖像遷移[9]相關領域。其由生成網絡G和判別網絡D構成。生成網絡G用于生成接近于真實的假圖像,D用于區分G生成的接近于真實的假圖像和真實圖像。通過對G和D的交替訓練優化,判別網絡D已經無法區分生成網絡G生成的假圖像和真實圖像,而生成網絡G最終輸出GAN的生成結果。

文獻[9]提供了圖像遷移方法的條件生成對抗架構,也稱為Pix2pix。條件生成對抗網絡從觀察到的圖像x和隨機噪聲向量z中學習映射G:x,z→y。而在諸多生成對抗網絡結構中,ZHU等[10]提出的CycleGAN結構不依賴于輸入和輸出之間任何特定于任務的預定義相似性函數,也不需要假設輸入和輸出必須嵌入相同的低維空間中。其在許多任務上均能取得優秀的表現,包括從分類合成照片、基于圖像邊緣的對象重建以及人臉年齡轉化。但CycleGAN的損失使其生成的樣本與原樣本結構相似性非常相近,造成CycleGAN在去模糊任務中表現不明顯。

KUPYN等[11]將條件生成網絡應用在運動模糊去除方面,提出了DeblurGAN模型。但DeblurGAN存在很多問題,輸出樣本經常出現生成對抗網絡常見的模式崩塌現象。其中很大一部分問題在于條件生成對抗網絡本身不夠穩定,泛化能力不足。

綜上所述,本文提出一種端到端的生成對抗網絡模型——雙框架生成對抗網絡用于解決圖像的運動模糊盲去除任務,以緩解條件生成對抗網絡在運動模糊盲去除任務中出現的不規則紋理等模式崩塌問題。雙框架生成對抗網絡為改進的CycleGAN模型,能夠在不預測模糊核的情況下直接將運動模糊圖像復原為清晰圖像。網絡包含2個對稱的條件:生成對抗網絡結構和。其中,通過生成網絡G不斷生成清晰圖像,而判別網絡則用于區分G生成的樣本和原有的清晰圖像。G是根據VGG卷積核的大小以及殘差網絡思想設計的全卷積網絡,是包含卷積層和全連接層的二分類網絡。通過G和不斷地交替訓練使得G能將運動模糊圖像生成接近真實的清晰圖像。而條件生成對抗網絡結構相同,用于將清晰圖片生成隨機模糊核的運動模糊圖片。此循環對稱結構使網絡不易出現梯度消失,訓練更穩定。

1 相關思路及設計

為了驗證去模糊算法在實際應用場景中的效果,本文將輸出結果放在目標檢測的場景下進行對比。算法流程如圖1所示,主要分為模糊樣本生成、運動模糊去除和目標檢測3個步驟。

1.1 模糊樣本生成

運動模糊的圖像可看做清晰圖像與模糊核卷積后,添加噪聲而成。其數學表達式為

其中,Iblur為模糊圖像;k(M)為由運動場M決定的模糊核;Isharp為清晰的圖像;*為卷積;N為添加的隨機噪聲。清晰圖像Isharp,擬合后的運動模糊圖像Iblur以及對應的模糊核k(M)如圖2所示。

圖1 本文算法流程圖

圖2 模糊樣本

1.2 雙框架生成對抗網絡

清晰圖片和運動模糊圖片不是一一對應關系,復原一張運動模糊圖片存在很多近似解。為此生成對抗網絡進行訓練時很難學習到用于去除運動模糊所需要的特征。因此需要一種更穩定的算法以降低生成對抗網絡的模式崩塌問題。2類圖片存在一定映射關系,可以將模糊圖片理解為清晰圖片的一種渲染,并可以通過生成對抗網絡學習此關系。雖然缺乏足夠的數據監督,但訓練時依舊可以在宏觀層面對網絡進行約束:在模糊圖像集合Iblur中給出一組圖像,并且在清晰圖像集合Isharp中給出一組圖像。以此訓練出生成網絡G:Iblur→Isharp,使輸出的清晰圖像=G(iblur),iblur∈Iblur。通過對抗訓練使對生成的清晰圖像進行分類時,與原本清晰圖像isharp∈Isharp無法區分。最終,該約束條件可以誘導的輸出分布不斷擬合經驗分布pdate(isharp)。最優的G能將模糊圖像集Iblur轉換為與清晰圖像集Isharp近乎相同的去模糊圖像集。然而在實驗中發現,難以優化單個的對抗性目標:標準程序經常導致模式崩潰等眾所周知的問題,且將所有輸入圖像映射到輸出圖像的方式無法取得可觀的提升。

為解決以上問題需要為模型添加更多穩定性結構。因此,本文嘗試利用映射在圖像轉換時的循環一致性,例如:從英語到法語翻譯句子,然后將其結果從法語翻譯成英語,應該得到與原來的句子特征相近的句子。抽象的說,如果有一個翻譯器G:X→Y和另一個翻譯器F:Y→X,那么G和F應該是彼此相反的,并且可以相互映射。因此通過同時訓練映射G和F,并添加循環一致性損失[12]來鼓勵F(G(iblur))≈iblur和G(F(isharp))≈isharp。將該損失與Iblur和Isharp上對抗性損失和內容損失相結合,以訓練循環一致的特征遷移算法,雙框架生成對抗網絡結構如圖3所示。

1.2.1 生成網絡

在不提供關于模糊核的信息且僅給出模糊圖像iblur作為輸入的情況下恢復清晰圖像。去模糊任務由經過訓練的卷積神經網絡完成,稱為生成器或生成網絡。其中一個生成網絡G對于每個模糊圖像iblur,其能預測出相應清晰圖像。而另一個生成網絡F對于每個清晰圖像isharp,其能預測出相應的模糊圖像。生成網絡G的CNN架構如圖4所示。生成網絡F采用與G相同的結構,以保證兩個生成樣本的對稱性。

圖3 雙框架生成對抗網絡

圖4 生成網絡G

1.2.2 判別網絡

判別器采用與PatchGAN[9,13]相同的架構。除最后一層外的所有卷積層均采用實例正則化和α= 0.2的LeakyReLU激活函數。在訓練期間,引入對應的判別器和并以對抗的方式進行訓練。

1.2.3 損失函數

由于 CycleGAN的內容損失一定程度導致了生成的樣本與原樣本結構相似性非常相近,如圖5所示。

圖5 清晰樣本isharp、CycleGAN生成的模糊樣本和本文的

圖像經過生成網絡F后幾乎沒有變化,模糊效果不明顯。這說明最終整個網絡沒有得到充分訓練。因此,本文去掉了生成網絡F的內容損失以提高生成模糊樣本的多樣性,使得整個網絡脫離欠擬合的狀態。

損失函數Ltotal包含對抗性損失Ladversarial、內容損失LG-content和循環一致性損失Lcycle-consistency,即

通過網格搜索λ1∈(0.001,0.1,1,10,100),λ2∈(0.001,0.1,1,10,100)后,確定在超參數λ1取 100且λ2取10時模型的評價指標達到最高。

(1)對抗性損失Ladversarial。對兩種映射函數G和F都應用對抗性損失進行對抗訓練,即

圖6 訓練時的各損失值的趨勢

(2)內容損失LG-content。如果使用L1損失或原始像素上的L2損失作為唯一的優化目標,會導致生成的圖像上存在模糊偽像[14]。因此,本文采用了最近提出的感知損失[15]。感知損失是一種基于生成圖像和目標圖像CNN特征差異的簡單MSE損失,如圖6綠線所示。其定義為

其中,φi,j為VGG19網絡中第i個最大池化層前第j個轉換(激活之后)的特征映射,在ImageNet上預訓練;Pi,j和Qi,j分別為對應維度的特征圖。本文使用VGG 3×3卷積層做激活函數,感知損失一般側重于恢復內容細節,而對抗損失側重于恢復紋理細節。在沒有感知損失下,僅在圖像上使用簡單MSE訓練的網絡很難收斂到有意義的狀態。

(3)循環一致性損失Lcycle-consistency。若G,F均為隨機函數,對抗訓練可以學習映射G:Iblur→Isharp和F:Isharp→Iblur,其分別產生與目標分別為Isharp和Iblur盡可能相似的輸出。但如果網絡容量足夠大,網絡可以將同一組輸入圖像映射到目標域中的任何圖像隨機排列,其中任何學習的映射都可以與目標匹配的輸出進行擬合。為了進一步減少映射函數可能的空間,學習的映射函數應該是循環一致的。

如圖7所示,本文模型包含 2個映射函數G(Iblur)~Isharp,F(Isharp)~Iblur,以及相關的對偶判別器和。Iblur表示輸入的運動模糊圖像,用于區分iblur通過G生成的清晰圖像與原有清晰圖像Isharp。同理,DIblur、F(Isharp)~Iblur和Iblur具有相似的結構。為了進一步規范映射,本文引入了2個循環一致性損失,如果從模糊圖像Iblur轉換為清晰圖像Isharp再轉換回來,可得到一張原始的模糊圖像Iblur。如圖(b)所示,對于Iblur的每個圖像iblur,2次圖像轉換后應該能夠使iblur回到起始轉換前的圖像,即iblur→G(iblur)→F(G(iblur))≈iblur,稱之為前向循環一致性。同理如圖7(c)所示,對于Isharp的每個圖像isharp,G和F也應該滿足后向循環一致性:isharp→F(isharp)→G(F(isharp))≈isharp。如圖 橙線,使用循環一致性損失進行約束,即

圖7 特征遷移的循環一致性

1.3 目標檢測

本實驗的目標檢測任務在原有Fast R-CNN基礎上加入了區域提議網絡結構,極大地加快了邊界框預測的速度。

區域提議網絡將任意大小的圖像作為輸入并輸出一組矩形對象提議,每個提議具有對象的得分。本文使用全卷積網絡對此過程進行建模,最終輸出結果與 Fast R-CNN目標檢測網絡共享計算,假設 2個網絡共享一組共同的轉換層。采用包含13個可共享的轉換層的VGG16模型。

為了生成區域提議,本文在最后一個共享轉換層的特征圖以滑動窗口的方式輸出到一個小網絡中。每個位置經過小網絡后得到 9種可能的anchors,再經過 RPN網絡得到區域提議和目標得分,并對目標得分采用非極大值抑制(non-maximum suppression,NMS),最終將輸出得分的區域提議輸出給Fast R-CNN。

Fast R-CNN[16]首先在圖像中提取感興趣區域(regions of interest,RoI)。然后對每幅圖像進行一次卷積,在最后一個卷積層輸出的特征圖上對每個RoI進行映射,得到每個RoI對應的特征圖,并送入RoI池化層。最后經過全連接層得到2個輸出向量,一個進行Softmax分類,另一個進行邊框回歸將從區域提議網絡中得到的區域提議進行微調。

2 實驗結果及分析

2.1 實驗環境

雙框架生成對抗網絡通過PyTorch 0.4框架實現。所有實驗在一臺高性能工作站上進行(配有E5-2609V4@1.70 Hz處理器和4塊NVIDIA GTX 1080 Ti顯卡)。為了契合應用場景,實驗采用ILSVRC2015 VID數據集。

模型參數:本文利用 RMSProp算法優化損失函數,全局學習率為0.000 1,衰減動量0.9,批大小32。

2.2 評價標準

本文使用峰值信噪比和結構相似性2個指標評價去模糊后圖像的質量。

(1)峰值信噪比(peak signal-to-noise ratio,PSNR)常用于衡量處理后圖像的質量,是原圖像與被處理圖像之間的均方誤差相對于(2i-1)2的對數值(信號最大值的平方,i是每個采樣值的比特數),即

其中,MSE為原圖像與處理圖像之間均方誤差。峰值信噪比越大,代表失真越少。

(2)結構相似性(structural SIMilarity,SSIM)是衡量2幅圖像相似度的指標,常作為一種衡量視頻質量的方法,在超分辨率、圖像去模糊中有廣泛的應用。給定2個圖像A和B,2張圖像的結構相似性為

其中,μA為圖像A的平均值;μB為圖像B的平均值;為A的方差;為B的方差;為A和B的協方差。為穩定性常數。L為像素值的動態范圍。k1=0.01,k2=0.03。結構相似性的范圍為 0~1。當 2張圖像相同時,SSIM的值等于1。

2.3 實驗結果

使用峰值信噪比和結構相似性 2種圖片質量客觀評價標準,在數據集各個場景中對諸多去模糊算法進行對比。實驗將傳統條件生成對抗網絡Pix2pix[9]與雙框架生成對抗網絡對比。同時選取較流行的模糊圖像盲復原算法作為基準,分別為文獻[5]和[11]的開源代碼。實驗結果見表1。

表1 本文算法性能對比

從表1中可以看出隨機選取的 4種視頻場景中,本文算法在大部分指標上均優于其他算法。其中多運動目標的場景中表現的效果最好。這主要出于循環一致性損失更容易將圖像調整至和原圖相似的清晰狀態。作為經典的條件生成對抗網絡 Pix2pix[9]在學習圖像特征過程中過于注重紋理效果,使得生成結果存在波狀紋理且部分樣本存在嚴重的模式崩潰問題。CycleGAN[10]從整體數據上看對去模糊具有一定效果,且比Pix2pix的表現更好,但效果依然不夠突出。而文獻[11]算法僅計算圖像的內容損失,在生成清晰圖片時單個目標局部的模糊容易對全局造成影響,使得生成的去模糊圖片在圖中存在多運動目標的情況下算法性能降低。文獻[5]提出的方法可解決圖像的散焦模糊問題,在視覺上恢復出的樣本有一定銳化的效果,從而在高速運動場景中有更穩定的表現。但該方法需要提前預估樣本模糊核,會消耗更多的時間且在特定環境(如小型運動場景)中會產生不穩定的結果。在高速運動目標場景下,包括本文算法的表現均不理想。物體在高速運動時圖片中的信息會極大地損失,使得去除模糊任務的難度加大。

2.4 運動模糊環境下目標檢測性能對比

本文算法能夠一定程度上減輕運動模糊對目標檢測帶來的影響,從圖像增強的角度優化目標檢測算法提高一定平均精確度。對比目前流行的目標檢測算法,性能見表2。

可以看出,YOLOv3[17]與本文算法適應性更高一些。在經過本文算法去模糊處理后再使用YOLOv3進行目標檢測能提高算法一定的準確度。而在運動模糊和加入隨機噪聲的環境下,原本的2種目標檢測算法mAP均有大幅度下降。經過本文算法的優化后,2種算法在應對運動模糊和隨機噪聲這兩種環境時,均有可觀的提升。

表2 目前流行的目標檢測算法性能對比(mAP-50)%

3 結束語

本文采用循環對稱的思路,針對圖像運動模糊問題提供了一種穩定的解決方案。條件生成對抗網絡不僅可以生成預期的樣本,而且利用循環一致性的原理能夠進一步提高樣本質量。并且將本文算法的結果用于目標檢測任務等相關干擾環境中。結果表明,本文提出的雙框架生成對抗網絡,在很大程度上提高了運動模糊盲去除算法的魯棒性和準確性。

本文方法僅從靜態圖像的角度對運動模糊進行盲去除,若處于連續視頻場景中,可嘗試利用視頻各幀間的語義信息和時序推測。下一步計劃以本文的條件生成對抗網絡為基礎加入相鄰幀特征,以利用時序特征使模糊圖片能夠推測出更合理的清晰樣本。

主站蜘蛛池模板: 成人午夜亚洲影视在线观看| 日本亚洲最大的色成网站www| 亚洲人成网址| 激情无码视频在线看| 国产精品丝袜在线| 伊人久久精品无码麻豆精品| 亚洲第七页| 久久精品波多野结衣| 亚洲中文字幕日产无码2021| 日本精品影院| 91免费观看视频| 国产综合在线观看视频| 国产人在线成免费视频| 欧美一级在线| 国产激情无码一区二区APP| 成人毛片免费观看| 老司机精品99在线播放| 精品久久久久成人码免费动漫| 91区国产福利在线观看午夜| 国产成人综合久久精品尤物| 一级成人欧美一区在线观看| 波多野结衣久久精品| 国产欧美自拍视频| 欧美午夜在线观看| 午夜毛片福利| 伊在人亞洲香蕉精品區| 福利视频久久| 国外欧美一区另类中文字幕| 青青草国产一区二区三区| 亚洲二三区| 91福利一区二区三区| 日本一区中文字幕最新在线| 国产91成人| 伊伊人成亚洲综合人网7777| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 欧美成人一区午夜福利在线| 99资源在线| 丁香婷婷在线视频| 国产91av在线| 亚洲人网站| 波多野结衣无码中文字幕在线观看一区二区| 欧美成人午夜影院| 九色在线观看视频| 精品国产成人a在线观看| 影音先锋亚洲无码| 久久伊伊香蕉综合精品| 这里只有精品在线播放| 欧美性猛交一区二区三区| 日韩精品免费一线在线观看| 日韩福利在线观看| 色久综合在线| 黄色在线网| 欧美精品亚洲精品日韩专区| 色首页AV在线| 人人看人人鲁狠狠高清| 波多野结衣一区二区三区88| 国产永久在线视频| 2021天堂在线亚洲精品专区| 国产麻豆另类AV| 91精品国产91久无码网站| 精久久久久无码区中文字幕| 欧美亚洲日韩中文| 国产高潮流白浆视频| 波多野吉衣一区二区三区av| 国产欧美日韩综合在线第一| 国产精品自在在线午夜区app| 日韩欧美综合在线制服| 高潮毛片免费观看| 高清亚洲欧美在线看| 国产成人啪视频一区二区三区 | 国产男人天堂| 国产91特黄特色A级毛片| 国产极品美女在线观看| 激情网址在线观看| 久久成人免费| 色偷偷综合网| 国产成人综合欧美精品久久| 波多野衣结在线精品二区| 国产成人AV综合久久| 成·人免费午夜无码视频在线观看| 国产在线97|