湯博文,吳曉紅,何小海,陳洪剛,熊淑華
(四川大學(xué) 電子信息學(xué)院,四川 成都 610041)
傳統(tǒng)的編解碼標準如H.264和H.265通過去方塊濾波和樣點自適應(yīng)技術(shù)對壓縮視頻質(zhì)量有一定提升作用,但實際取得的視覺提升效果卻很有限。
超分辨率技術(shù)可使圖像呈現(xiàn)更好的觀感,即展現(xiàn)更多細節(jié)信息。基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法[1-3]可以實現(xiàn)較傳統(tǒng)方法更高質(zhì)量的圖像超分辨率。VRCNN[4]創(chuàng)新性地采用視頻幀連續(xù)性的特點,通過輸入多幀圖像對當前視頻幀進行超分辨率。
傳統(tǒng)的圖像去噪技術(shù)大多采用線性或非線性的濾波器如高斯濾波器[5]或域變換加權(quán)[6],難以實現(xiàn)多種噪聲同時去除。基于學(xué)習(xí)的噪聲去除方法[7-8]卻能很大程度上規(guī)避這一缺點,具有一定泛化性。基于自適應(yīng)分割塊的變換神經(jīng)網(wǎng)絡(luò)ASN[9]和多幀視頻質(zhì)量增強網(wǎng)絡(luò)MFQE[10]先后被提出,其中前者利用H.265中塊編碼的CU分塊信息來增強對壓縮偽影的去除效果,而后者則利用視頻幀間相關(guān)性的特點,實現(xiàn)多幀輸入的質(zhì)量增強。
大多數(shù)的視頻質(zhì)量增強方法存在一定局限性,一些方法聚焦于單幀的視頻增強方法,強調(diào)采用圖像的質(zhì)量增強手段,而忽略了視頻幀之間的時間相關(guān)性和空間相關(guān)性;同時,有方法考慮將CU信息融合進質(zhì)量增強部分,但效果仍不理想;還有一些方法利用了幀間相關(guān)性的特點,但是卻忽略視頻解碼幀的低質(zhì)量特點,未考慮不同尺寸壓縮偽影的影響,使得特征提取不符合分布特性,導(dǎo)致最終的增強幀效果不明顯。本方法考慮到以上因素,提出了一種多幀注意力質(zhì)量增強網(wǎng)絡(luò)MLAN,主要創(chuàng)新點如下:① 采用從全局到局部的層層遞進的4層運動補償網(wǎng)絡(luò),使得多尺寸壓縮偽影被感知,從而增強運動匹配的準確度,使得補償幀的分布特性更符合后續(xù)網(wǎng)絡(luò)要求;② 同時引入空間注意力和通道注意力機制加強對特征圖的全方面特征提取,將各個維度的關(guān)鍵部分進行強化,從而達到更充分的特征提取效果;③ 利用殘差學(xué)習(xí)和密集連接的特點,在對特征進行深層映射的同時避免了梯度消失,加快訓(xùn)練速度,進而實現(xiàn)壓縮偽影的強抑制,并極大地保留視頻幀原有細節(jié)信息,改善視覺觀感。
壓縮視頻中主要存在量化噪聲,所以本文所提方法旨在對HEVC壓縮解碼視頻進行質(zhì)量提升。考慮到視頻幀之間存在強相關(guān)性,采用多幀輸入的結(jié)構(gòu)實現(xiàn)去除當前幀中存在的壓縮偽影的目的。圖1所示為本文的卷積神經(jīng)網(wǎng)絡(luò)框架,將首先對壓縮偽影產(chǎn)生的原因進行分析建模,進而解釋本文對壓縮偽影去除所采用的主要方法。

圖1 多幀注意力質(zhì)量增強網(wǎng)絡(luò)框架
壓縮偽影的產(chǎn)生是因為在壓縮過程中需要對視頻用設(shè)定的量化步長進行數(shù)據(jù)壓縮,故產(chǎn)生量化誤差。在解碼端,由于量化誤差的存在,還原圖像時甚至?xí)糯罅炕`差,使圖像產(chǎn)生壓縮偽影導(dǎo)致失真。視頻壓縮過程可表示為:
(1)

(2)

如圖1所示,由于輸入為當前幀及其前一幀和后一幀,所以需要采用一種幀間信息提取網(wǎng)絡(luò)來獲得幀間的運動矢量信息,進而對前一幀和后一幀進行補償?shù)玫疆斍皫?幀運動補償幀,進而擴充質(zhì)量增強部分的輸入數(shù)據(jù)量。一些基于卷積神經(jīng)網(wǎng)絡(luò)的光流計算方法如FlowNet[11]和FlowNet2.0[12]可以較準確地將圖像內(nèi)的連續(xù)視頻序列間的光流信息提取出來,而這種光流信息的提取同運動信息提取有很大的相似性,但是一般的光流網(wǎng)絡(luò)又不能很好地滿足運動矢量提取的準確度要求,所以本文設(shè)計了一種如圖2所示的針對HEVC壓縮視頻的幀間運動補償網(wǎng)絡(luò)。通常的運動矢量提取由單層卷積神經(jīng)網(wǎng)絡(luò)組成,但是由于HEVC壓縮視頻幀質(zhì)量較低并且受到方塊效應(yīng)等影響,塊大小隨著圖像區(qū)域質(zhì)量不同而不同,所以利用單層卷積神經(jīng)網(wǎng)絡(luò)的效果不佳,而金字塔型運動補償網(wǎng)絡(luò)STMC[13]則利用由全局到局部的特征提取思想實現(xiàn)更精準的運動補償效果。

圖2 多層次運動補償網(wǎng)絡(luò)
考慮到HEVC壓縮視頻的低質(zhì)量重建視頻幀,本文將金字塔型運動補償網(wǎng)絡(luò)的特征提取深度提高,使得全局信息的提取效果更佳,并能更好地克服方塊效應(yīng)的影響。為了避免梯度消失還通過殘差學(xué)習(xí)的思路將全局提取學(xué)習(xí)到的運動矢量結(jié)果不斷添加到之后的更局部的特征提取部分,從而融合學(xué)習(xí)局部和全局的像素分布情況,更好地克服壓縮偽影大小的影響,運動補償網(wǎng)絡(luò)計算過程可表示為:
(3)

(4)

,
(5)

第1層運動預(yù)測部分的具體構(gòu)造如圖2所示,每層下采樣由2層卷積層組成,分別起到特征提取和下采樣的作用,均為3×3大小卷積核。該部分將當前幀以及當前幀的相鄰2幀分別輸入2個運動補償網(wǎng)絡(luò)得到2個補償幀作為之后部分的輸入數(shù)據(jù)。
注意力機制是一種有效的特征提取手段,主要分為通道注意力[15]和空間注意力[16]2種。通道注意力機制將卷積過程聚焦到特征圖的通道上,通過對各個通道采取基于學(xué)習(xí)的加權(quán)方法,在特征圖中比重較大的通道賦予更大權(quán)值,比重較小的通道賦予更小的權(quán)值,可以表示為:
(6)
式中,X表示某一通道的特征圖;xi為該特征圖內(nèi)任一點;P為本網(wǎng)絡(luò)通道特征提取強化部分;δ為Sigmoid函數(shù);Y為通過加權(quán)后的特征圖。Sigmoid函數(shù)表達式為:
(7)
通道注意力可以很好地區(qū)分通道和通道之間的重要程度,但是單個特征圖中特征點之間的區(qū)別度和相關(guān)性并不能很好地被表示,而空間注意力機制可以很好地解決這一問題。通過專注于對特征圖內(nèi)的特征點的加權(quán),將對損失影響更大的特征點賦予更大權(quán)值,對影響較小的賦予更小權(quán)值,可以表示為:
(8)
式中,X為某一特征圖;xi為各個通道特征圖上相同位置的特征點;xmax為各個通道特征圖上相同位置的最大值特征點;cat是級聯(lián)操作;P為本網(wǎng)絡(luò)的空間特征提取強化部分;δ為Sigmoid函數(shù);Y為通過加權(quán)后的特征圖。因為通道注意力機制和空間注意力機制針對的作用維度不同,所以先進行一種注意力操作后的特征圖在其他維度上的概率分布并不會改變。考慮到空間與通道維度作用域的獨立性,采取串聯(lián)注意力機制對視頻幀進行特征提取,該部分配置如表1所示。考慮到網(wǎng)絡(luò)任務(wù)是針對當前幀進行質(zhì)量提升,所以對當前幀進行額外的像素分布學(xué)習(xí),采取同樣的串聯(lián)機制,使得兩部分訓(xùn)練階段具有相似性。融合注意力機制如圖3所示。

表1 融合注意力機制卷積層參數(shù)

圖3 融合注意力機制
在獲得融合注意力機制的輸出特征后還需要對特征進行映射和重建,考慮到殘差學(xué)習(xí)[17]在抑制梯度彌散方面的優(yōu)勢,以及DenseNet[18]在特征融合方面的優(yōu)點,選擇在此部分構(gòu)建如圖4所示的密集和殘差連接,其中所有卷積核均為3×3,且激活函數(shù)均為ReLU。該部分每一層的輸出特征圖都將在級聯(lián)融合后作為最后2層卷積層的輸入,將圖像重建為目標通道數(shù)量。

圖4 特征映射與重建
損失函數(shù)對于卷積神經(jīng)網(wǎng)絡(luò)非常重要,其收斂特性關(guān)系著網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)速度和效果,本文方法參考文獻[19]中對于損失函數(shù)的結(jié)論,因平均絕對誤差損失在細節(jié)邊緣表現(xiàn)上更具優(yōu)勢,同時均方差損失有利于學(xué)習(xí)速度,故分別選取平均絕對誤差損失(MAELoss)和均方差損失(MSELoss)作為損失函數(shù),可表示為:
Lp=λ1LMAE+λ2LMSE=
(9)

本網(wǎng)絡(luò)的訓(xùn)練集采用Vimeo90K[20]數(shù)據(jù)集,數(shù)據(jù)集內(nèi)均為7幀連續(xù)視頻序列。為得到壓縮視頻訓(xùn)練集,本文將Vimeo90K所有連續(xù)視頻序列圖像處理為YUV格式序列后采用HM16.0進行編解碼,包含環(huán)路濾波步驟。為了方便網(wǎng)絡(luò)數(shù)據(jù)輸入和后期主觀效果觀察,將壓縮后的視頻序列分解為RGB格式,所有的圖像視頻轉(zhuǎn)換均遵循ITU-R和BT.601標準。實驗?zāi)P途谟ミ_GTX 1080Ti顯卡上運行。訓(xùn)練選用Adam優(yōu)化器,學(xué)習(xí)率為1×10-5,訓(xùn)練后期下降為5×10-6,單個訓(xùn)練組為6個視頻序列(即包含42個視頻幀)。
本實驗中采用客觀評價指標峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)作為評價標準,PSNR和SSIM越大越好,且SSIM取值為-1~1。驗證集選取視頻編碼聯(lián)合小組(JCT-VC)發(fā)布的視頻序列[21],同時選取DCAD[22],DS-CNN[8],MFQE[10]和MFQE2.0[23]作為實驗效果對照。通過參考文獻[19]對損失函數(shù)的權(quán)值進行調(diào)整,本文將權(quán)重調(diào)整為大權(quán)值的平均絕對誤差損失及小權(quán)值的均方差損失。
本文方法與其他方法的性能比較如表2所示,通過本方法進行增強的視頻幀質(zhì)量在PSNR評價指標下,當QP=37時,平均增加約0.68 dB,在序列FourPeople上達到約為1.08 dB的最高提升。在與其他方法對比時,本文方法較DCAD,DS-CNN,MFQE和MFQE2.0分別提升0.37,0.39,0.24和0.14 dB。在BQSquare視頻序列上較MFQE2.0最高提升0.58 dB。在SSIM評價指標下較標準HEVC編解碼后視頻平均提升0.011 1,獲得較其他方法更大的提升量。

表2 本文方法與其他方法的性能比較(ΔPSNR/dBΔSSIM)
當QP取42,32時,本文方法同樣可以將HEVC標準解碼幀質(zhì)量分別提升約0.65,0.61 dB,較DCAD,DS-CNN,MFQE,MFQE2.0分別提升約0.33,0.34,0.22,0.09 dB以及0.31,0.34,0.19和0.11 dB。這說明本文方法具有一定的魯棒性,具有遷移到不同壓縮指標下的視頻質(zhì)量增強任務(wù)的可能性。
HEVC標準編解碼后的視頻幀質(zhì)量在人眼觀察下是有明顯下降的,尤其是一些壓縮偽影,即在壓縮過程中由于基于塊的編碼與量化引入的噪聲,通過環(huán)路濾波后一些噪聲得到抑制,但是由于去方塊濾波和樣點自適應(yīng)補償?shù)木窒扌裕ピ胄Ч⒉焕硐搿?/p>
本文方法視覺效果對比如圖5所示,在通過本方法處理后,可以看到圖中的壓縮偽影得到明顯去除,細節(jié)部分得到還原,之前難以識別的局部信息也變得更易辨別。高頻邊界也得到補償,邊緣在處理后過于平滑的情況較少,對于圖像景深的還原比較充分。通過對運動狀況不同的視頻進行分析可以發(fā)現(xiàn),對于運動較為平緩的視頻序列如圖5(a)所示,其客觀評價指標增加較大,在視覺感受方面壓縮偽影得到有效抑制,其背景區(qū)域幾乎不存在變化,在增強后并未受到影響。運動區(qū)域的細節(jié)在解碼幀中有較大的損失,而通過本文方法增強后有相對較大的提升。當像素位移矢量較大,即如圖5(b)中運動較劇烈時,在編碼端的信息丟失就更嚴重,所以在解碼端的重建結(jié)果也就更差。由于存在這種大量的數(shù)據(jù)丟失,本文中的增強效果在較運動平緩區(qū)域相對更弱,但依然能將大多不利于觀感的壓縮偽影去除,呈現(xiàn)出更豐富的圖像細節(jié)和層次感。
為達到更好的實驗效果,還進行了相關(guān)消融實驗分析,結(jié)果如表3所示。
類別1為對當前幀是否進行獨立注意力特征提取,實驗結(jié)果表明對其進行額外注意力提取可以獲得更好的實驗效果;類別2為是否設(shè)置更深的特征映射單元,結(jié)果表明更深的特征映射有利于更好的結(jié)果呈現(xiàn);類別3為是否設(shè)置更高層的運動提取網(wǎng)絡(luò),實驗證明更高層的運動提取網(wǎng)絡(luò)對增強結(jié)果有積極作用。
數(shù)據(jù)壓縮的需求使得HEVC解碼視頻幀的質(zhì)量較原始視頻幀大幅下降,大量的壓縮偽影導(dǎo)致細節(jié)信息大量損失,使得人眼觀感較差。本文方法采用基于多幀的多層次、多維度的深度卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了端到端的視頻質(zhì)量提升。
通過本文所提方法增強后,視頻序列在PSNR和SSIM均取得了非常良好的效果,并且在人眼主觀感知下也明顯觀察到對解碼幀中存在的壓縮偽影的去除作用,同時還對視頻幀中細節(jié)部分得到清晰保留,極大地改善了視覺觀察效果,實現(xiàn)僅利用解碼視頻流就對視頻序列本身的質(zhì)量增強。