999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時空融合的多幀壓縮視頻增強(qiáng)方法

2022-08-16 09:39:28馬彥博
圖學(xué)學(xué)報 2022年4期
關(guān)鍵詞:特征提取特征融合

馬彥博,李 琳,陳 緣,趙 洋,胡 銳

基于時空融合的多幀壓縮視頻增強(qiáng)方法

馬彥博1,李 琳1,陳 緣1,趙 洋1,胡 銳2

(1. 合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院,安徽 合肥 230601;2. 蘇州科技大學(xué)信息化建設(shè)與管理中心,江蘇 蘇州 215009)

為了減少視頻的存儲和傳輸開銷,通常對視頻進(jìn)行有損壓縮處理以減小體積,往往會在視頻中引入各類不自然效應(yīng),造成主觀質(zhì)量的嚴(yán)重下降。基于單幀的壓縮圖像復(fù)原方法僅利用當(dāng)前幀有限的空間信息,效果有限。而現(xiàn)有的多幀方法則大多采用幀間對齊或時序結(jié)構(gòu)來利用相鄰幀信息以加強(qiáng)重建,但在對齊性能上仍有較大的提升空間。針對上述問題,提出一種基于多幀時空融合的壓縮視頻復(fù)原方法,通過設(shè)計的深度特征提取塊和自適應(yīng)對齊網(wǎng)絡(luò)實現(xiàn)更優(yōu)的對齊融合,充分地利用多幀時空信息以重建高質(zhì)量視頻。該方法在公開測試集上(HEVC HM16.5低延時P配置)優(yōu)于所有對比方法,并在客觀指標(biāo)上(峰值信噪比PSNR)相比于目前最先進(jìn)的方法STDF取得了平均0.13 dB的提升。同時,在主觀比較上,該方法也取得了領(lǐng)先的效果,重建出更干凈的畫面,實現(xiàn)了良好的壓縮不自然效應(yīng)去除效果。

壓縮圖像復(fù)原;塊效應(yīng)去除;視頻增強(qiáng);多幀對齊融合;可變形卷積

如今,視頻已成為數(shù)字網(wǎng)絡(luò)流量的主要部分,且占比仍在不斷增長。為了降低傳輸與存儲成本,視頻通常需要應(yīng)用壓縮處理技術(shù)以大幅降低編碼比特率[1]。然而,壓縮算法往往會在壓縮后的視頻中引入各種不自然效應(yīng),特別是在帶寬嚴(yán)重受限的情況下,可能會顯著降低視頻質(zhì)量,影響用戶的主觀體驗。此外,低質(zhì)量壓縮視頻中的失真內(nèi)容還會影響諸如識別、檢測等后續(xù)視覺任務(wù)的研究。因此,壓縮視頻質(zhì)量增強(qiáng)的研究具有重要應(yīng)用價值。

近些年,國內(nèi)外學(xué)者在單幅壓縮圖像復(fù)原方面做了大量工作[2-4]。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,許多基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的壓縮圖像增強(qiáng)工作[5-7]取得了令人印象深刻的結(jié)果,其通常以端到端的方式學(xué)習(xí)非線性映射,從大量的訓(xùn)練數(shù)據(jù)中直接重建更高質(zhì)量的圖像。但這些方法并不能直接應(yīng)用于壓縮視頻的處理,因為單幀方法獨立地處理視頻幀,并未利用相鄰幀之間的時間冗余信息,在去除不自然效應(yīng)后仍存在較明顯的抖動和閃爍偽影,尤其當(dāng)視頻中存在大幅運動時,此現(xiàn)象會更為嚴(yán)重。為了充分利用視頻序列的時間相關(guān)性,YANG等[8]首次提出了一種多幀質(zhì)量增強(qiáng)方法MFQE1.0 (multi-frame quality enhancement),利用壓縮視頻中的高質(zhì)量幀作為參考幀并通過多幀CNN來提高相鄰低質(zhì)量幀。此外,GUAN等[9]利用升級版的MFQE2.0進(jìn)一步提高了多幀CNN的效率,取得了更好的效果。為了解決視頻中存在的運動誤差,主流的多幀方法均使用了時間融合方案,結(jié)合密集光流來進(jìn)行運動補(bǔ)償[10-11]。然而,壓縮塊效應(yīng)可能會嚴(yán)重扭曲視頻內(nèi)容并破壞原有相鄰幀之間的像素對應(yīng)關(guān)系,很難學(xué)習(xí)到精準(zhǔn)的運動光流場,從而導(dǎo)致無效的質(zhì)量增強(qiáng),反而會嚴(yán)重影響網(wǎng)絡(luò)的性能。DENG等[12]使用可變形卷積(deformable convolution,DCN)[13]來自適應(yīng)地進(jìn)行時空位置采樣,捕捉相關(guān)上下文以聚合其之間信息,同時避免顯示光流估計。然而,該方案直接在視頻幀上進(jìn)行自適應(yīng)采樣并簡單地通過視頻幀并聯(lián)進(jìn)行幀重建,未充分挖掘相鄰幀的深度特征信息和時序信息。

受文獻(xiàn)[12]的啟發(fā),本文提出一種深度時空特征融合的多幀質(zhì)量增強(qiáng)方法,通過所設(shè)計的深度特征提取塊高效提取空間信息并進(jìn)行成對對齊,同時使用帶有注意力機(jī)制的融合模塊對相鄰幀逐步融合以充分利用時序信息重建高質(zhì)量視頻。

1 相關(guān)工作

1.1 基于單幀的圖像質(zhì)量增強(qiáng)

近年來,多數(shù)工作都集中在圖像質(zhì)量增強(qiáng)上。文獻(xiàn)[2]應(yīng)用逐點形狀自適應(yīng)離散余弦變換減少JPEG壓縮引起的振鈴和塊效應(yīng)。Jancsary等[14]采用回歸樹場(regression tree fields,RTF)降低JPEG圖像分塊效應(yīng)。此外,CHANG等[15]還嘗試?yán)孟∈杈幋a去除壓縮塊效應(yīng)。隨著深度學(xué)習(xí)的發(fā)展,基于CNN的端到端方法實現(xiàn)了更先進(jìn)的性能。文獻(xiàn)[5]首先使用4層的淺層卷積去除各類JPEG不自然效應(yīng)。ZHANG等[16]利用殘差學(xué)習(xí)方案,并嘗試學(xué)習(xí)非常深的網(wǎng)絡(luò)取得了更優(yōu)的效果。文獻(xiàn)[7]則通過更深的網(wǎng)絡(luò)和非局部注意力機(jī)制捕捉像素間的遠(yuǎn)程依賴關(guān)系從而恢復(fù)更高質(zhì)量的畫面。上述所有單幀圖像質(zhì)量增強(qiáng)方法直接應(yīng)用于視頻質(zhì)量增強(qiáng)而忽略了相鄰幀間的時序相關(guān)性,只關(guān)注當(dāng)前幀有限的空間信息使其在視頻質(zhì)量增強(qiáng)上的性能受到了限制。

1.2 基于多幀的視頻質(zhì)量增強(qiáng)

連續(xù)的視頻幀往往是高度相關(guān)的,除了利用當(dāng)前幀的空間信息,視頻序列的時序信息的合理利用也是進(jìn)一步提高重建質(zhì)量的關(guān)鍵。MFQE1.0率先應(yīng)用多幀CNN并同時利用時序信息進(jìn)行壓縮視頻質(zhì)量增強(qiáng),即用視頻序列中的高質(zhì)量幀來提高相鄰低質(zhì)量幀的質(zhì)量。首先通過支持向量機(jī)(support vector machine,SVM)分類器遵循無參考質(zhì)量評估方法[17]對壓縮視頻幀進(jìn)行質(zhì)量劃分,將局部最高質(zhì)量幀稱為峰值質(zhì)量幀,2個峰值質(zhì)量幀之間的其他幀稱為非峰值質(zhì)量幀,再運用顯示光流對2個峰值質(zhì)量幀進(jìn)行運動估計以盡可能地利用相似信息對非峰值質(zhì)量幀進(jìn)行補(bǔ)償和增強(qiáng),取得了比以往大部分單幀方法更好的結(jié)果。文獻(xiàn)[9]提出的MFQE2.0在升級了MFQE1.0的幾個關(guān)鍵組件后取得了更優(yōu)的性能。但上述方法在很大程度上依賴精準(zhǔn)的光流估計,而由于遮擋,受大運動或特定的壓縮塊效應(yīng)之問題的影響,很難獲得精確的光流。受視頻超分領(lǐng)域[18-19],即利用DCN[13,20]隱式運動對齊的啟發(fā),文獻(xiàn)[12]以目標(biāo)中間幀和相鄰幀為輸入聯(lián)合預(yù)測可變形卷積偏移并在單個可變形卷積中進(jìn)行對齊融合來聚合時空信息,以此省略了對光流的顯示估計。然而該方案直接對視頻幀進(jìn)行融合重建,一定程度上減少了計算量,但仍未充分挖掘視頻幀中包含的空間信息和時序信息,在細(xì)節(jié)重建上仍存在不足。本文通過深度特征提取塊進(jìn)行特征信息提取,以充分挖掘幀序列中的空間特征,減少信息損失,并在特征圖層面利用DCN進(jìn)行對齊,同時利用帶有注意力的逐步融合策略逐步融合相鄰幀以更好地整合時序信息從而重建更高質(zhì)量的結(jié)果。

2 本文方法

在給定壓縮視頻包含復(fù)雜不自然效應(yīng)的情況下,所提方法的目標(biāo)是去除這些不自然效應(yīng),盡可能提高視頻質(zhì)量。如圖1所示,本文方法主要由3個階段組成。首先,中間幀與前后若干相鄰幀一同輸入特征提取階段提取幀空間特征;其次,在對齊融合階段,按時序?qū)R相鄰幀特征獲取融合特征;最后,通過重建階段進(jìn)一步增強(qiáng)時空融合特征,以改善圖像細(xì)節(jié)并生成高質(zhì)量的中間幀。

圖1 整體結(jié)構(gòu)圖

2.1 深度特征提取

極深CNN在圖像增強(qiáng)類任務(wù)中呈現(xiàn)出強(qiáng)大能力,而圖像特征信息的獲取,為網(wǎng)絡(luò)后續(xù)的重建提供了基礎(chǔ),在該階段,5個連續(xù)的低質(zhì)量壓縮輸入幀首先通過一個大小為3×3的卷積層進(jìn)行特征升維,再投入到深度特征塊進(jìn)行充分的空間特征提取,可表示為

其中,為輸入幀;為提取的特征;為中間幀索引;為相鄰幀索引;3表示3×3卷積;為深度特征提取塊。

在CNN中,殘差連接對提高網(wǎng)絡(luò)性能起著至關(guān)重要的作用。隨著網(wǎng)絡(luò)容量的不斷增加,深度殘差特征逐漸集中在輸入圖像的不同方面,對于重建空間細(xì)節(jié)是非常有用的。為了充分利用殘差分支中不同的層次特征,減少信息損失,本文提出一種密集殘差特征聚合結(jié)構(gòu),稱之為深度特征提取塊(deep feature extraction block,DFB),以提高深度特征提取的效率,其具體結(jié)構(gòu)如圖2所示。該模塊由若干3×3卷積層,1×1卷積層和ReLu激活層組構(gòu)成,特征維度為32。特別的,本文將卷積操作后得到的特征圖輸入該模塊進(jìn)行不同深度的再提取,不同層次的輸出分支會交叉地進(jìn)行密集連接和傳遞,每組輸入前還會通過1×1卷積進(jìn)行通道降維以減少計算量。與簡單的堆疊多個殘差塊相比,本文模塊可以更高效地利用和傳播分層特征信息,從而獲得更具區(qū)分性的特征表示。

圖2 深度特征提取塊結(jié)構(gòu)圖

2.2 對齊融合

相鄰幀特征包含了豐富的時間冗余信息,不同位置的差異化特征都有可能對重建的細(xì)節(jié)產(chǎn)生增益,但不同幀之間往往存在一定的運動差異,為了有效利用時序信息,需要對其進(jìn)行對齊處理。以往的視頻增強(qiáng)方法大多基于光流對齊[11,21]或采用3D卷積進(jìn)行時間跨度采樣[22],對于壓縮視頻增強(qiáng)任務(wù),這些方法均是次優(yōu)的。除了常見的遮擋和大運動等干擾情況,壓縮視頻中往往還包含各類復(fù)雜不自然效應(yīng),大大增加了學(xué)習(xí)準(zhǔn)確光流的成本和難度,而不準(zhǔn)確的光流估計會嚴(yán)重影響模型的后續(xù)性能。此外,還有些方法使用多個堆疊的3D卷積進(jìn)行時空信息聚合,造成了極大地計算負(fù)擔(dān),使得模型難以訓(xùn)練并影響了整體效率。對此,本文采用在視頻超分等任務(wù)中被廣泛采用的DCN隱式對齊來替代顯示的光流對齊。不同于STDF[12]直接對幀進(jìn)行對齊融合,本文在特征層面進(jìn)行成對的自適應(yīng)偏移學(xué)習(xí),獲得更豐富的時空信息表征,以充分地學(xué)習(xí)相鄰幀之間的運動信息。

對于特征提取階段獲得的連續(xù)幀特征,本文依次將相鄰特征和中間參考幀成對投入偏移學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)對齊所需的偏移量,即

其中,D為所學(xué)習(xí)的偏移量;(*)為偏移學(xué)習(xí)網(wǎng)絡(luò);[,]為并聯(lián)操作。偏移學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,遵循通常在光流估計中采用的多尺度方法[23],相鄰的一組特征在所設(shè)計的Unet模塊中進(jìn)行多次下采樣和上采樣,以便用更大的感受野和多尺度動態(tài)處理小位移和大位移,預(yù)測更合適的偏移。其中下采樣單元利用空洞為2的3×3卷積進(jìn)行下采樣,上采樣單元利用雙線性插值進(jìn)行特征放大。對于學(xué)習(xí)到的偏移DP+r,利用DCN對對應(yīng)的相鄰特征F+r進(jìn)行對齊,即

其中,為DCN對齊操作;A+r為對齊后的對齊特征。

由于壓縮視頻中不同幀之間存在質(zhì)量波動,簡單的卷積聚合可能無法起到很好的效果,為了更高效地利用對齊后的特征,本文提出一種帶有通道注意力的逐步融合模塊,采用逐步融合的方式來感知不同幀特征之間的質(zhì)量差異,從而有效地進(jìn)行時間聚合。圖4中,上一步驟輸出的5幀對齊特征以局部連接的方式每3個一組投入到2層融合模塊中,通過多次局部融合獲得中心輸入幀對應(yīng)的融合特征。每組局部融合操作為

圖3 對齊模塊結(jié)構(gòu)圖

圖4 逐步融合模塊結(jié)構(gòu)圖

其中,1為1×1卷積,用以通道降維;為由3個包含注意力層的殘差塊堆疊而成的融合塊。特別的,通道注意力采用ECA[24]的方案。每一層融合模塊共享參數(shù),從而降低了模型對內(nèi)存的要求。

2.3 圖像重建

最后,重建融合特征網(wǎng)絡(luò),其作用是挖掘融合后特征中的互補(bǔ)信息,進(jìn)行進(jìn)一步細(xì)節(jié)增強(qiáng),并將信息從特征空間映射到圖像空間。此外,為了減少信息損失,重建后的增強(qiáng)特征還需與對齊融合階段得到的融合特征進(jìn)行了殘差連接,即

其中,R為上一階段得到的融合特征;為2個深度特征塊,其結(jié)構(gòu)與特征提取階段所用模塊相同;1為1×1卷積;O為輸出的重建圖像。

3 實驗與分析

3.1 數(shù)據(jù)準(zhǔn)備

本文實驗采用基于MFQE2.0提出的數(shù)據(jù)集,從XIPH (xiph.org)和VQEG (VQEG) 2個數(shù)據(jù)庫中收集了108個不同分辨率和內(nèi)容的未壓縮視頻用于訓(xùn)練。為了驗證實驗結(jié)果,將來自視頻編碼聯(lián)合協(xié)作團(tuán)隊的數(shù)據(jù)集[25]用于測試,同時用于視頻質(zhì)量評估。由于實驗GPU性能受限,無法對分辨率大于或等于1920×1080視頻序列進(jìn)行直接測試,因此只選用其余11個不同分辨率未壓縮視頻,每個視頻大約500幀。訓(xùn)練視頻和測試視頻均使用最新的H.265/HEVC[26]參考軟件HM16.52在低延時P (low delay P,LDP)配置下進(jìn)行壓縮,其中壓縮量化系數(shù)(quantization parameter,QP)設(shè)置為37。

3.2 實驗設(shè)置

本文算法實現(xiàn)框架為PyTorch。從原始視頻和對應(yīng)的壓縮視頻中隨機(jī)裁剪尺寸為64×64的圖像塊作為訓(xùn)練圖像,同時,采用旋轉(zhuǎn)、翻轉(zhuǎn)等基本數(shù)據(jù)增強(qiáng)手段以擴(kuò)充訓(xùn)練樣本。網(wǎng)絡(luò)訓(xùn)練使用ADAM優(yōu)化器,其各參數(shù)采用默認(rèn)值1=0.9,2=0.99,=10-8。多幀壓縮視頻增強(qiáng)網(wǎng)絡(luò)采用端到端方式進(jìn)行訓(xùn)練,批量數(shù)據(jù)規(guī)模設(shè)置為16,學(xué)習(xí)率參數(shù)初始化為10-4。網(wǎng)絡(luò)中使用的卷積核為3×3(涉及通道降維的卷積核為1×1),特征通道數(shù)設(shè)置為32(重建模塊為48)。訓(xùn)練采用的損失函數(shù)為Charbonnier函數(shù)[27],即

其中,參數(shù)基于經(jīng)驗設(shè)置為10-3,通過引用該參數(shù),可以更好地保留圖像邊緣信息以避免模糊,同時有益于網(wǎng)絡(luò)穩(wěn)定收斂,該損失函數(shù)已被廣泛用于各類圖像視頻增強(qiáng)任務(wù)。與以往工作相同,本文只對YUV空間中的Y通道(即亮度分量)進(jìn)行質(zhì)量增強(qiáng)。并采用增量峰值信噪比PSNR和結(jié)構(gòu)相似性SSIM測量增強(qiáng)視頻相對于壓縮視頻的改善,并從參數(shù)量和主觀圖像等方面對本文方法進(jìn)行評估和分析。

3.3 實驗分析

將本文方法與目前最先進(jìn)的壓縮/視頻質(zhì)量增強(qiáng)方法DnCNN[16],RNAN[7],MFQE1.0,MFQE2.0和STDF進(jìn)行比較,所有方法均在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。表1為實驗結(jié)果,其中DnCNN和RNAN是先進(jìn)的單幀壓縮圖像質(zhì)量增強(qiáng)算法,由于只利用了當(dāng)前低質(zhì)量幀的有限信息,增益較為有限,多幀方法聚合了相鄰幀空間位置上更豐富的時空信息,在測試序列上普遍表現(xiàn)出優(yōu)于單幀方法的性能。結(jié)果表明,本文方法在多種壓縮量化系數(shù)下均取得了最高增益,其中,在壓縮量化系數(shù)為37時,相較于先進(jìn)的多幀方法STDF平均PSNR提升了0.13 dB。值得一提的是,DnCNN和MFQE2.0均為輕量方法,較淺的網(wǎng)絡(luò)帶來了優(yōu)異的推理速度。而STDF在空間域直接對輸入幀進(jìn)行融合和重建,節(jié)省了更多計算量,本文方法則強(qiáng)調(diào)更有效的對齊融合,在控制參數(shù)量的同時獲得了更高的性能提升。

表1 QP = 37時在不同測試序列上的各算法ΔPSNR(dB)/SSIM(×10-2)比較

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

圖5給出了不同方法增強(qiáng)后圖像的主觀質(zhì)量比較。通過觀察可知,對于原始壓縮幀圖像,單幀方法效果有限,無法很好地去除其中的壓縮塊效應(yīng),在給定包含運動的畫面中,多幀方法能從相鄰幀中獲取更多的信息并進(jìn)行重建。得益于深度特征提取塊和融合模塊,本文方法相對于其他多幀方法能恢復(fù)更加干凈、清晰的畫面,從而明顯改善壓縮幀的主觀質(zhì)量。

圖5 測試集主觀對比結(jié)果

此外,為了進(jìn)一步驗證本文方法及各模塊的有效性,對模型進(jìn)行了消融實驗,其客觀指標(biāo)見表2。可以發(fā)現(xiàn),本文提出的深度特征提取塊和融合模塊均對圖像重建產(chǎn)生一定增益,且在組合訓(xùn)練時產(chǎn)生了最好效果,驗證了模型的合理性。

表2 模塊消融結(jié)果(dB)

不同于單幀方法,多幀方法提取多個幀的信息用于重建,不同數(shù)量的輸入幀會給模型性能帶來影響。表3給出了不同數(shù)量輸入對模型性能產(chǎn)生的增益,可以發(fā)現(xiàn),增大輸入幀時間跨步可以提高重建結(jié)果的質(zhì)量,但同時也增大了計算量,出于性能和計算量的平衡,本文采用5幀輸入的方案。

值得一提的是,訓(xùn)練數(shù)據(jù)基本由單一場景視頻構(gòu)成,但在實際測試和使用中,視頻中不可避免會遇到少量的場景轉(zhuǎn)換。實驗發(fā)現(xiàn),本文逐步融合模塊可以相對更好地感知幀間差異,聚焦對重建結(jié)果更有益的相鄰特征,從而高效利用時序信息。圖6給出某一測試中存在場景轉(zhuǎn)換的相鄰幀,并列出了本文方法同對比方法的重建結(jié)果。通過觀察可知,STDF方法在面對場景轉(zhuǎn)換時可出現(xiàn)嚴(yán)重的重疊偽影,該方法對相鄰幀同時進(jìn)行時空特征提取,故在轉(zhuǎn)場時不可避免地引入不同場景的特征。本文方法的空間對齊和時序融合操作雖然是分開進(jìn)行的,但在未添加融合模塊的消融模型中也一定程度出現(xiàn)了重疊情況。相比而言,添加了融合模塊的完整模型雖然產(chǎn)生了更大的計算量,但在測試實驗中較好地避免了重疊偽影。對于測試涉及場景轉(zhuǎn)換的相鄰幀,STDF的平均增益為0.05 dB,而本文方法則為0.31 dB。可以發(fā)現(xiàn),本文方法在場景邊緣的重建上帶來了更好的性能,這也進(jìn)一步驗證了其帶有注意力逐步融合機(jī)制的有效性。

圖6 融合模塊效果對比

4 結(jié)束語

本文提出的多幀壓縮視頻增強(qiáng)網(wǎng)絡(luò),能夠有效去除壓縮視頻中的復(fù)雜不自然效應(yīng)。為此,首先提出一種深度特征提取塊,輸入特征和不同層次的輸出分支交叉地進(jìn)行密集連接,以對輸入幀提取豐富的空間信息。其次,為了有效利用不同幀中的時空信息,緩解幀間運動差異,相鄰幀特征被成對地投入自適應(yīng)偏移網(wǎng)絡(luò)學(xué)習(xí)運動偏移并通過DCN進(jìn)行隱式對齊。同時,為了進(jìn)一步利用多個幀中的時間信息感知質(zhì)量差異,本文還提出了一種帶有通道注意力的逐步融合模塊,帶有豐富時間信息的多通道特征被分組提取,使得網(wǎng)絡(luò)關(guān)注重要的時間信息。最后,帶有時空信息的融合特征被送入多個深度特征塊,進(jìn)行進(jìn)一步的質(zhì)量增強(qiáng)。在公開測試集上,本文方法在客觀指標(biāo)(PSNR/SSIM)和主觀表現(xiàn)上實現(xiàn)了明顯提升,恢復(fù)了更高視覺質(zhì)量的畫面。相較其他方法,本文方法在壓縮視頻增強(qiáng)任務(wù)上取得了更優(yōu)的性能。

但本文方法同諸多對比方法一樣具有一定的局限性,在取得明顯增強(qiáng)效果的同時也帶來了不小的計算負(fù)擔(dān),無法在低性能設(shè)備端達(dá)到實時增強(qiáng),方法的效果與計算平衡性依舊有待挖掘。隨著底層視覺領(lǐng)域的不斷發(fā)展和推進(jìn),在后續(xù)的研究中將持續(xù)探索方法的輕量化和更廣地應(yīng)用場景,在結(jié)構(gòu)和效率方面不斷優(yōu)化,追求達(dá)到更優(yōu)的性能。

[1] Wien M. High efficiency video coding[J]. Signals and Communication Technology, 2015, 36(11): 2340-2355.

[2] FOI A, KATKOVNIK V, EGIAZARIAN K. Pointwise shape-adaptive DCT for high-quality denoising and deblocking of grayscale and color images[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2007, 16(5): 1395-1411.

[3] ZHANG X F, XIONG R Q, FAN X P, et al. Compression artifact reduction by overlapped-block transform coefficient estimation with block similarity[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2013, 22(12): 4613-4626.

[4] ZHAO Y, JIA W, LI L, et al. Filtered mapping-based method for compressed web image super-resolution[J]. IEEE Access, 2017, 5: 12682-12695.

[5] DONG C, DENG Y B, LOY C C, et al. Compression artifacts reduction by a deep convolutional network[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 576-584.

[6] TAI Y, YANG J, LIU X M, et al. MemNet: a persistent memory network for image restoration[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 4549-4557.

[7] ZHANG Y L, LI K P, K L, et al. Residual non-local attention networks for image restoration[EB/OL]. (2019-03-24) [2021- 11-23]. https://arxiv.org/abs/1903.10082.

[8] YANG R, XU M, WANG Z L, et al. Multi-frame quality enhancement for compressed video[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6664-6673.

[9] GUAN Z Y, XING Q L, XU M, et al. MFQE 2.0: a new approach for multi-frame quality enhancement on compressed video[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 949-963.

[10] CABALLERO J, LEDIG C, AITKEN A, et al. Real-time video super-resolution with spatio-temporal networks and motion compensation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2848-2857.

[11] XUE T F, CHEN B A, WU J J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125.

[12] DENG J N, WANG L, PU S L, et al. Spatio-temporal deformable convolution for compressed video quality enhancement[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 10696-10703.

[13] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 764-773.

[14] JANCSARY J, NOWOZIN S, ROTHER C. Loss-specific training of non-parametric image restoration models: a new state of the art[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 112-125.

[15] CHANG H B, NG M K, ZENG T Y. Reducing artifacts in JPEG decompression via a learned dictionary[J]. IEEE Transactions on Signal Processing, 2014, 62(3): 718-728.

[16] ZHANG K, ZUO W M, CHEN Y J, et al. Beyond a Gaussian denoiser: residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2017, 26(7): 3142-3155.

[17] MITTAL A, MOORTHY A K, BOVIK A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2012, 21(12): 4695-4708.

[18] TIAN Y P, ZHANG Y L, FU Y, et al. TDAN: temporally- deformable alignment network for video super-resolution[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3357-3366.

[19] WANG X T, CHAN K C K, YU K, et al. EDVR: video restoration with enhanced deformable convolutional networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2019: 1954-1963.

[20] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets V2: more deformable, better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 9300-9308.

[21] KAPPELER A, YOO S, DAI Q Q, et al. Video super-resolution with convolutional neural networks[J]. IEEE Transactions on Computational Imaging, 2016, 2(2): 109-122.

[22] KIM S Y, LIM J, NA T, et al. Video super-resolution based on 3D-CNNS with consideration of scene change[C]//2019 IEEE International Conference on Image Processing. New York: IEEE Press, 2019: 2831-2835.

[23] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.

[24] WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 11531-11539.

[25] OHM J R, SULLIVAN G J, SCHWARZ H, et al. Comparison of the coding efficiency of video coding standards—including high efficiency video coding (HEVC)[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1669-1684.

[26] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668.

[27] LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5835-5843.

Multi-frame compressed video enhancement based on spatio-temporal fusion

MA Yan-bo1, LI Lin1, CHEN Yuan1, ZHAO Yang1, HU Rui2

(1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui 230601, China; 2. Information Construction and Management Center, Suzhou University of Science and Technology, Suzhou Jiangsu 215009, China)

In order to reduce the storage and transmission cost of video, lossy compression is in frequent use, which however would incur various types of artifacts in the video and affect users’ subjective visual experience. The single frame method cannot be directly applied to video processing, because they independently process each video frame, limiting the use of spatial information and causing limited effectiveness. Inter-frame alignment or temporal structure was often adopted in multi-frame methods to enhance the reconstruction results by utilizing the temporal information, but there remains much room for improvement in alignment performance. To solve the above problems, a multi-frame spatio-temporal compression artifact removal method was proposed to achieve better alignment fusion through the alignment fusion design. This method efficiently utilized the multi-frame spatio-temporal information to reconstruct high quality videos.The experimental results show that the proposed method outperforms other comparative methods on a number of test compressed videos with different resolutions (HM16.5 under low delay P), and that it can achieve an average improvement of 0.13 dB on the objective index peak signal to noise ratio (PSNR) compared with the state-of-the-art multi-frame method STDF. Meanwhile, the proposed method can yield promising results in subjective comparisons, reconstructing a clearer picture with a good effect of compression artifact removal.

compressed image restoration; block effect removal; video enhancement; multi-frame alignment fusion;deformable convolution

23 November,2021;

Key R&D and Transformation Program of Qinghai Province (2021-GX-111); National Natural Science Foundation of China (61972129); Natural Science Research Projects of Colleges and Universities in Jiangsu Province (20KJB520013)

MA Yan-bo (1997-), master student. His main research interests cover image processing and computer vision. E-mail:ybma@mail.hfut.edu.cn

TP 751.1

10.11996/JG.j.2095-302X.2022040651

A

2095-302X(2022)04-0651-08

2021-11-23;

2022-02-24

24 February,2022

青海省科技重點研發(fā)與成果轉(zhuǎn)化專項(2021-GX-111);國家自然科學(xué)基金項目(61972129);江蘇省高等學(xué)校自然科學(xué)研究項目(20KJB520013)

馬彥博(1997-),男,碩士研究生。主要研究方向為計算機(jī)視覺與圖像處理。E-mail:ybma@mail.hfut.edu.cn

趙 洋(1987-),男,副研究員,博士。主要研究方向為圖像處理、計算機(jī)視覺等。E-mail:yzhao@hfut.edu.cn

ZHAO Yang (1987-), associate researcher, Ph.D. His main research interests cover image processing, computer vision, etc. E-mail:yzhao@hfut.edu.cn

猜你喜歡
特征提取特征融合
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 麻豆AV网站免费进入| 91麻豆精品国产高清在线| 国产激情无码一区二区免费| 国产菊爆视频在线观看| 国产在线专区| 国产91丝袜| 久久国产免费观看| 亚洲午夜福利在线| 免费无码又爽又黄又刺激网站| 97影院午夜在线观看视频| 无码日韩人妻精品久久蜜桃| 亚洲欧美综合在线观看| 欧美一级高清视频在线播放| 亚洲高清中文字幕| 亚洲精品人成网线在线| 亚洲第一视频网站| www.youjizz.com久久| 亚洲av无码专区久久蜜芽| 国产性精品| 国产天天色| 亚洲综合九九| 91精品综合| 二级毛片免费观看全程| 亚洲国产精品人久久电影| 波多野结衣视频一区二区| 91色在线观看| 中文字幕欧美日韩| 人妻丰满熟妇啪啪| 毛片免费观看视频| 精品久久香蕉国产线看观看gif| 国产69精品久久久久孕妇大杂乱 | 毛片国产精品完整版| 粉嫩国产白浆在线观看| 日本a∨在线观看| 91精品福利自产拍在线观看| 亚洲色无码专线精品观看| 国产精品妖精视频| 亚洲色无码专线精品观看| 免费一级全黄少妇性色生活片| 欧洲亚洲一区| 国产精品亚洲五月天高清| 99热这里只有免费国产精品| 精品精品国产高清A毛片| 亚洲欧美在线综合图区| 伊人久综合| 国产9191精品免费观看| 欧美日韩va| 91精品人妻互换| 国产特级毛片| 亚洲无线观看| 在线欧美一区| 国产成人你懂的在线观看| 亚洲人成网7777777国产| 国产精品无码一二三视频| 国产微拍一区| 国产91熟女高潮一区二区| 国产精品高清国产三级囯产AV| 57pao国产成视频免费播放| 国产无码高清视频不卡| 久久黄色视频影| 在线观看91香蕉国产免费| 欧美在线伊人| 国产精品999在线| 国产精品妖精视频| 黄色网址免费在线| 欧美成人免费一区在线播放| 欧美精品色视频| 日韩性网站| 国产激爽大片高清在线观看| 国产乱子伦精品视频| 日本黄色a视频| 无码一区中文字幕| 国产麻豆永久视频| 欧美精品亚洲日韩a| 欧美天堂在线| 久久男人资源站| 熟女成人国产精品视频| 亚洲欧美在线精品一区二区| 亚洲一区二区三区麻豆| 欧美啪啪网| a级毛片免费网站| 国产欧美日韩精品第二区|