謝 瑞,邵 堃,霍 星,MITHUN Md Msud Prvej
(合肥工業(yè)大學 a.計算機與信息學院; b.軟件學院; c.數(shù)學學院,合肥 230000)
圖像質(zhì)量評價可分為主觀質(zhì)量評價與客觀質(zhì)量評價兩類。主觀質(zhì)量評價依據(jù)人的主觀意向?qū)D像質(zhì)量進行評價,雖然其準確度較高,但是耗時耗力。客觀質(zhì)量評價通過機器建立能夠有效模擬人類視覺系統(tǒng)(HVS)的感知模型,以對圖像質(zhì)量進行評價。客觀質(zhì)量評價算法根據(jù)對參考圖像信息需求程度的不同可分為全參考(FR)、半?yún)⒖?RR)與無參考(NR)評價算法。FR圖像質(zhì)量評價算法通過計算完整的參考圖像與失真圖像的相似性,從而達到評價的目的。經(jīng)典的FR評價算法有SSIM(Structual Similarity)[1]、FSIM(Feature Similarity)[2]等。SSIM算法通過比較失真圖像與參考圖像的亮度、對比度與結(jié)構(gòu)信息來評價圖像質(zhì)量,而FSIM算法則通過比較2種圖像的梯度信息來評價圖像質(zhì)量。文獻[3]認為SSIM算法對嚴重模糊圖像的評價結(jié)果準確度不高,因此,其基于離散余弦變換提出紋理結(jié)構(gòu)相似度質(zhì)量評價方法。文獻[4]對峰值信噪比(PSNR)和奇異值分解(M_SVD)算法進行改進,在這2種算法基礎(chǔ)上分別增加優(yōu)化后的高斯權(quán)重對圖像的局部進行評價,最后將局部評價值融合成整個圖像的質(zhì)量評價值。RR評價算法依據(jù)參考圖像中的部分信息對圖像進行評價,如文獻[5]通過離散余弦變換系數(shù)分布的統(tǒng)計建模提出一種RR圖像質(zhì)量評價算法。NR評價算法解決了圖像質(zhì)量評價中參考圖像缺失的問題,經(jīng)典的NR算法通過對稱廣義高斯分布模型或者非對稱廣義高斯分布模型提取經(jīng)過預處理的失真圖像的自然場景統(tǒng)計(NSS)特征,最后使用支持向量回歸(SVR)[6]進行回歸學習,預測圖像質(zhì)量。NR算法的關(guān)鍵在于預處理方法的選擇,如BRISQUE算法[7]采用去均值與標準化(MSCN)對圖像進行預處理,DESIQUE算法[8]除了采用MSCN算法同時還采用log-Gabor變換對圖像進行分解,BIQI算法[9]則利用小波變換對圖像進行預處理。
上述算法均設(shè)計了獨立的方法用于提取圖像特征,但提取特征的方式具有一定局限性,大都只注重于圖像的局部特征,難以充分地描述圖像質(zhì)量。深度學習模型能夠很好地提取圖像的全局特征與上下文信息,并學習特征與輸出結(jié)果之間的映射,提高特征的表達能力。具有監(jiān)督學習能力的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖像處理中表現(xiàn)出了優(yōu)異的性能,其可以通過多層網(wǎng)絡(luò)計算提取圖像特征,學習輸入和輸出之間的復雜映射,并具有很強的魯棒性。近年來,部分學者將CNN用于圖像質(zhì)量評價任務(wù)。文獻[10]將簡單的淺層CNN網(wǎng)絡(luò)應(yīng)用于圖像質(zhì)量評價,但是由于網(wǎng)絡(luò)層數(shù)較淺,其評價效果并不理想。文獻[11]將SVR與CNN相結(jié)合,提出一種基于SVM的質(zhì)量評價算法,其將CNN提取的特征作為SVR的輸入并計算圖像質(zhì)量分數(shù)。文獻[12]使用CNN和Gabor提取的特征作為SVR的輸入以評價圖像質(zhì)量。
文獻[13]提出DIQaM_FR/NR(Deep Image Quality Measure for FR/NR)模型,其采用修改后的Vgg網(wǎng)絡(luò)提取圖像塊的特征,然后使用2層全連接層對提取的特征進行映射學習并預測圖像塊質(zhì)量,在此基礎(chǔ)上,采用一層池化層將屬于同一幅圖像的32個圖像塊質(zhì)量聚合成圖像整體質(zhì)量。但是,特征提取層的參數(shù)數(shù)目規(guī)模龐大導致該模型的復雜度較高。
文獻[14]研究表明,當網(wǎng)絡(luò)的復雜度較大時,小樣本數(shù)據(jù)集會使模型訓練過度,即在深度學習領(lǐng)域中,泛化能力較差的模型在數(shù)據(jù)集相對較小時容易出現(xiàn)過擬合的問題,訓練誤差小而測試誤差大。圖像質(zhì)量評價數(shù)據(jù)集所包含的幾千張圖像屬于典型的小樣本數(shù)據(jù)集,目前大都采用數(shù)據(jù)增強和遷移學習2種方法應(yīng)對小樣本數(shù)據(jù)集問題。其中,數(shù)據(jù)增強容易導致輸入圖像的質(zhì)量發(fā)生改變,由此出現(xiàn)標簽噪聲的問題,影響評價結(jié)果。例如,為了擴展現(xiàn)有數(shù)據(jù)集,文獻[10,12-13]采用圖像分塊的方法增大數(shù)據(jù)量。文獻[15]采用遷移學習的方式訓練圖像質(zhì)量模型,但是其將輸入圖像的尺寸都統(tǒng)一為224×224,改變了圖像的質(zhì)量。遷移學習通過遷移現(xiàn)有學習模型的參數(shù),針對新的數(shù)據(jù)集實現(xiàn)模型參數(shù)微調(diào),能夠較好地解決數(shù)據(jù)集較小的問題。
本文提出一種新的通用圖像質(zhì)量評價模型,以在小樣本圖像數(shù)據(jù)庫下評價圖像的質(zhì)量。更深的網(wǎng)絡(luò)結(jié)構(gòu)能夠提取出更符合人眼視覺特性的圖像特征,而ResNet50[16]網(wǎng)絡(luò)的深度比Vgg更深。本文對DIQaM_FR/NR模型進行改進,在特征提取層使用ResNet50網(wǎng)絡(luò),然后采用一層全局平均池化(Global Average Pooling,GAP)層與一層全連接層對提取的特征進行回歸學習。將全圖像作為模型的輸入,無需圖像預處理和標簽噪聲引入操作。在訓練階段,將已訓練好的ResNet50網(wǎng)絡(luò)參數(shù)遷移至本文模型,該參數(shù)是通過ImageNet數(shù)據(jù)集訓練而得到,然后在測試數(shù)據(jù)集上對參數(shù)進行微調(diào)。
DIQaM_FR/NR模型首先將圖像分成多個圖像塊組成圖像塊集,隨后將圖像塊集作為特征提取層的輸入。DIQaM_FR評價模型借鑒了孿生網(wǎng)絡(luò)的雙分支(分支間共享參數(shù))思想,使用2支并行的Vgg網(wǎng)絡(luò)提取失真與原始圖像塊的特征。DIQaM_NR評價模型不需要參考原始圖像的信息,因此,其只有1支特征提取層。最后,DIQaM_FR/NR模型將多個圖像塊的質(zhì)量聚合成圖像的整體質(zhì)量。DIQaM_FR/NR模型的框架結(jié)構(gòu)如圖1所示,首先使用改進的Vgg網(wǎng)絡(luò)結(jié)構(gòu)(10層卷積層與5層池化層)提取圖像塊特征,然后采用2層全連接層(FC-512、FC-1)學習提取的特征并預測圖像塊的質(zhì)量,最后使用1層均值池化層將圖像塊的質(zhì)量聚合為圖像的整體質(zhì)量,池化公式如式(1)所示。雖然單個Vgg網(wǎng)絡(luò)的參數(shù)量不大,但是DIQaM_FR/NR模型采用了多個Vgg網(wǎng)絡(luò)對圖像塊集進行特征提取,而多個Vgg網(wǎng)絡(luò)疊加后的參數(shù)量達到了703 M左右。

圖1 DIQaM_FR與DIQaM_NR評價模型結(jié)構(gòu)Fig.1 Structure of DIQaM_FR and DIQaM_NR evaluation model
(1)
其中,N表示從圖像中采樣的圖像塊數(shù)量,yi為圖像塊的預測質(zhì)量評價值,q為預測得到的圖像質(zhì)量評價值。
ResNet50網(wǎng)絡(luò)的深度達到了168層,參數(shù)數(shù)量約為99 M,其由5層殘差層按順序組成,每個殘差層由恒等殘差塊與卷積殘差塊2種殘差塊按不同的個數(shù)和組合方式構(gòu)成,而每種殘差塊由多個卷積層組合而成。2種殘差塊的結(jié)構(gòu)示意圖如圖2所示,當殘差塊的輸入與輸出的通道數(shù)不同時采用圖2(a)結(jié)構(gòu),當輸入與輸出的通道數(shù)相同時則采用圖2(b)結(jié)構(gòu)。ResNet50網(wǎng)絡(luò)結(jié)構(gòu)及各層卷積核的詳細設(shè)置如表1所示,其中,Res1只含有1層卷積層與1層最大池化層,兩者步長均為2。除第1個卷積層的步長為2外,其余卷積層的步長均為1。Res2與Res5按照圖2(a)、圖2(b)、圖2(b)的方式組合而成;Res3按照圖2(a)、圖2(b)、圖2(b)、圖2(b)的方式組合而成;Res4采用圖2(a)、圖2(b)、圖2(b)、圖2(b)、圖2(b)的方式組合而成。

圖2 2種殘差塊結(jié)構(gòu)示意圖Fig.2 Structural diagram of two kinds of residual blocks

表1 各層卷積核的參數(shù)設(shè)置Table 1 Parameter setting of convolution kernel in each layer
ResNet50網(wǎng)絡(luò)在正向傳播時,其短路連接通過將殘差塊的輸入與輸出相加的方式,將底層特征傳入到更深層網(wǎng)絡(luò),從而提高特征的表達能力;在反向傳播時,ResNet50網(wǎng)絡(luò)通過短路連接將來自深層的梯度信息傳遞給淺層的網(wǎng)絡(luò)層,使淺層的參數(shù)得到有效訓練。
遷移學習是運用已有知識或者經(jīng)驗對其他領(lǐng)域問題進行求解的一種學習方法[17],即遷移學習是將現(xiàn)有表現(xiàn)優(yōu)異的模型通過微調(diào)等方法來解決新領(lǐng)域中的某些問題,其可以將在較大數(shù)據(jù)集上預訓練得到的模型或者網(wǎng)絡(luò)遷移至小樣本數(shù)據(jù)集中,從而避免使用小樣本數(shù)據(jù)集訓練模型而出現(xiàn)的過擬合問題。
DIQaM_FR/NR模型雖然具有較好的評價效果,但是由于網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量較大,導致模型的復雜度較高。ResNet50網(wǎng)絡(luò)含有50個卷積層,比DIQaM_FR/NR模型特征提取所采用的Vgg網(wǎng)絡(luò)更深,但是ResNet50網(wǎng)絡(luò)參數(shù)數(shù)目遠少于DIQaM_FR/NR模型特征提取層的參數(shù)量,基于這一特點,可以通過遷移已有的ResNet50網(wǎng)絡(luò)訓練參數(shù)達到減少參數(shù)的目的,從而避免小樣本環(huán)境下過擬合情況的出現(xiàn)。基于ResNet50網(wǎng)絡(luò)模型的特點,本文改進原有DIQaM_FR/NR模型,構(gòu)建一種Res-DIQaM_FR/NR圖像質(zhì)量評價模型,其結(jié)構(gòu)如圖3所示。

圖3 Res-DIQaM_FR與Res-DIQaM_NR模型結(jié)構(gòu)Fig.3 Structure of Res-DIQaM_FR and Res-DIQaM_NR models
Res-DIQaM_FR模型將失真圖像和參考圖像作為輸入,對2幅圖像同時使用ResNet50網(wǎng)絡(luò)進行特征提取,之后通過特征融合層對所獲得的特征圖進行融合。模型采用通道拼接的方式將提取的失真圖像特征向量與原始圖像特征向量進行融合,如式(2)所示:
f=concat(fr,fd)
(2)
其中,fr為原始圖像特征向量,fd為失真圖像特征向量,f為融合后的特征向量。融合前特征向量通道數(shù)為2 048,融合后特征向量f的通道數(shù)為4 096。
在特征融合之后采用GAP層求取每個通道中特征向量的平均值,均值計算過程減少了參數(shù)的計算量,同時在一定程度上抑制了過擬合現(xiàn)象。模型最后通過一層輸出大小為1的全連接層學習提取的特征與圖像質(zhì)量之間的映射關(guān)系。在本文模型中,由于ImageNet數(shù)據(jù)集與圖像質(zhì)量評價數(shù)據(jù)集的差異較大,因此采用全連接層來保證網(wǎng)絡(luò)表示能力的遷移。
Res-DIQaM_NR模型將參考圖像作為輸入,比其對應(yīng)的FR模型少了特征融合層。Res-DIQaM_FR/NR圖像質(zhì)量評價模型中的損失函數(shù)采用均方誤差(MSE)函數(shù),計算公式如下:
(3)
其中,yi為圖像的真實標簽,qi為圖像的主觀質(zhì)量值。模型采用Adam優(yōu)化器來提高收斂效率,提升參數(shù)尋優(yōu)的精度,加快模型的學習速度,從而使模型得到更好的結(jié)果。Adam優(yōu)化器參數(shù)設(shè)置如下:beta1=0.9,beta2=0.999,epsilon=10e-8。
本文模型首先遷移ResNet50網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的訓練參數(shù),然后使用圖像質(zhì)量評價數(shù)據(jù)集訓練評價模型。Res-DIQaM_FR/NR模型中全連接層的參數(shù)隨機生成,沒有可遷移的參數(shù),且該參數(shù)不一定是最優(yōu)參數(shù)。由于數(shù)據(jù)集較小而網(wǎng)絡(luò)較深,若直接對整個模型進行訓練,因為全連接層的參數(shù)與最優(yōu)參數(shù)之間有一定差距,在訓練過程中該差距不斷向后傳導,從而影響整個模型的參數(shù)更新,破壞模型已有的表征能力。
為有效解決上述問題,本文將模型的訓練過程分為2個階段:
1)第1階段凍結(jié)特征提取層的參數(shù),只更新全連接層的參數(shù),初步提升全連接層的評價能力。
2)第2階段解凍特征提取層,以更小的學習率在已有參數(shù)的基礎(chǔ)上對整個模型進行再次訓練,更小的學習率使權(quán)值始終處于一個小范圍內(nèi)更新。第2階段的訓練使模型的整體結(jié)構(gòu)更加符合圖像質(zhì)量評價任務(wù)。
上述訓練方法避免了特征提取層與全連接層同時訓練時出現(xiàn)的過擬合問題。
本文實驗采用TID2013圖像庫[18]和CLIVE圖像庫[19]作為數(shù)據(jù)集。TID2013圖像庫包含25個參考圖像和3 000個失真圖像(25個參考圖像×24種類型的失真×5級失真),圖像的尺寸均為512×512×3。MOS值(最小為0,最大為9)由971個實驗觀察者獲得,971個觀察者總共進行了524 340次失真圖像的對比實驗,即1 048 680次圖像對的相對質(zhì)量評價。MOS的值越大則圖像質(zhì)量越好。CLIVE圖像庫包含各類隨機發(fā)生的失真圖像和移動相機拍攝的圖像,一共1 162張,尺寸均為500×500×3,其收集圖像時不會人為地引入除捕獲、處理和存儲期間發(fā)生的任何變形之外的其他變形。實驗根據(jù)現(xiàn)有文獻中常用的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PLCC)和Spearman秩相關(guān)系數(shù)(Spearman Rank Correlation,SROCC)2個評價指標,對評價模型的性能進行分析。SROCC主要用于測量2組序列樣本的順序相關(guān)系數(shù),即質(zhì)量分數(shù)的單調(diào)性指數(shù);PLCC主要用于表明客觀評價得分與主觀評價得分之間的線性相關(guān)程度。SROCC和PLCC的取值范圍均為[-1,1],絕對值越接近1,說明主觀評價與客觀評價的相關(guān)性越好。
基于TID2013圖像庫,將Res-DIQaM_FR/NR圖像質(zhì)量評價模型與常用的FR/NR質(zhì)量評價模型進行比較,對比對象為PSNR、SSIM、FSIM、IW-SSIM[20]、GSM[21]、DIQaM_FR、WaDIQaM_FR 7種FR模型,以及NIQE[22]、BRISQUE、CurveletQA[23]、DIQaM_NR、WaDIQaM_NR、BIQI 6種NR評價模型,PLCC與SROCC值的比較結(jié)果如表2所示。從表2可以看出,本文FR/NR模型的圖像質(zhì)量評價效果始終保持最優(yōu)。為解決數(shù)據(jù)集小導致模型出現(xiàn)過擬合的問題,DIQaM_FR/NR模型采用圖像分塊增加數(shù)據(jù)集的方式,而本文采用已訓練好的ResNet50網(wǎng)絡(luò)解決該問題。本文FR/NR模型的PLCC值分別達到0.910 4與0.869 2,該結(jié)果證明本文采用的方法能更好地解決過擬合問題。

表2 Res-DIQaM_FR/NR評價模型與對比模型在TID2013圖像庫上的性能比較Table 2 Comparison of performance between Res-DIQaM_FR/NR evaluation model and the model in comparison on TID2013 image library
本文模型與DIQaM_NR模型在TID2013數(shù)據(jù)集上訓練時loss下降的曲線對比如圖4所示。

圖4 2種模型訓練時的loss下降曲線對比Fig.4 Comparison of loss decline curve of two models during training
從圖4可以看出,在相同的epoch下,Res-DIQaM_NR模型的最終loss值為0.08,而DIQaM_NR模型的最終loss值為1.08,DIQaM_FR/NR模型的PLCC值分別為0.481 3與0.419 4。當訓練次數(shù)較小時,本文模型能更準確地預測圖像的質(zhì)量,改進的Res-DIQaM_NR模型loss下降曲線更為光滑,其收斂一致性較好。
本文實驗選取TID2013數(shù)據(jù)集中Noise、Simple和Color 3種不同失真類型的圖像進行分析,分別將PSNR、FSIM、SSIM、WaDIQaM_NR、DIQaM_NR與Res-DIQaM_NR模型進行對比,采用SROCC值作為評價標準,實驗結(jié)果如表3所示。從表3可以看出,Res-DIQaM_NR模型的效果比PSNR、FSIM模型略差,但是優(yōu)于其他模型。

表3 6種評價模型針對特定失真類型圖像的SROCC值結(jié)果Table 3 SROCC value results of six evaluation models for images of a specific distortion type
在部分圖像處理應(yīng)用中,存在圖像的失真類型未知或同一幅圖像存在多種失真類型的問題,因此,本文將CLIVE圖像庫作為NR模型下的實驗數(shù)據(jù)集。對比Res-DIQaM_NR、BRISQUE、NIQE、WaDIQaM_NR和DIQaM_NR 5種評價模型的性能,結(jié)果如表4所示。從表4可以看出,Res-DIQaM_NR模型的圖像質(zhì)量評價效果最優(yōu)。

表4 5種模型在CLIVE圖像庫上的PLCC與SROCC值結(jié)果Table 4 PLCC and SROCC value results of five models on the CLIVE image library
本文實驗使用DensNet121(121-layer Dense Convolutional Network)、DensNet169(169-layer Dense Convolutional Network)[24]、ResNet18(18-layer Residual Nets)網(wǎng)絡(luò)結(jié)構(gòu)與ResNet50結(jié)構(gòu)進行對比分析。表5所示為DensNet121、DensNet169、ResNet18與ResNet50網(wǎng)絡(luò)基于TID2013圖像庫在學習率與epoch均相同的情形下訓練測試所得的PLCC與SROCC值。其中,DensNet121網(wǎng)絡(luò)的深度為121層,參數(shù)數(shù)量約為33 M,DensNet169網(wǎng)絡(luò)的深度為169層,與ResNet50網(wǎng)絡(luò)深度接近,而DensNet169網(wǎng)絡(luò)參數(shù)數(shù)量約為57 M,ResNet18網(wǎng)絡(luò)的深度為92層,參數(shù)數(shù)量約為44 M。雖然這3種網(wǎng)絡(luò)結(jié)構(gòu)的復雜度遠低于ResNet50網(wǎng)絡(luò),但是從表5可以看出,基于ResNet50網(wǎng)絡(luò)結(jié)構(gòu)的評價模型的效果優(yōu)于其他3種網(wǎng)絡(luò)結(jié)構(gòu)。當模型復雜度較低時,易出現(xiàn)欠擬合問題,訓練誤差與測試誤差都很大,即不能很好地擬合數(shù)據(jù),學習能力較低。表6所示為5種評價模型的空間與時間復雜度比較結(jié)果,其中,時間復雜度為訓練一個epoch需要的時間。從表6可以看出,Res-DIQaM_FR模型的空間與時間復雜度遠低于DIQaM_FR模型。

表5 4種評價模型基于TID2013圖像庫的性能比較結(jié)果Table 5 Comparison results of performance of four evaluation models based on TID2013 image library

表6 5種評價模型的空間與時間復雜度比較結(jié)果Table 6 Comparison results performance of spatial and temporal complexity of five evaluation models
本文對圖像質(zhì)量評價模型DIQaM_FR/NR進行改進,采用已訓練好的ResNet50網(wǎng)絡(luò)結(jié)構(gòu)和GAP層分別取代DIQaM_FR/NR模型中的特征提取層和全連接層(FC-512)。遷移ResNet50網(wǎng)絡(luò)基于ImageNet數(shù)據(jù)集的參數(shù),并在此基礎(chǔ)上對模型參數(shù)進行微調(diào)。為了避免出現(xiàn)標簽噪聲,采用未經(jīng)處理的全圖像作為模型輸入,以在保證模型穩(wěn)定性的同時降低其復雜性,并有效解決圖像質(zhì)量評價領(lǐng)域中數(shù)據(jù)集較小的問題。實驗結(jié)果表明,該模型能夠以更少的參數(shù)量得到與PSNR、FSIM等評價模型相似甚至更高的準確性,更符合人類視覺特性要求。下一步將遷移性能更優(yōu)的深度學習網(wǎng)絡(luò)并應(yīng)用于圖像質(zhì)量評價任務(wù)。