朱 睿 李朝鋒,2
1(江南大學物聯網工程學院 江蘇 無錫 214122)2(江南大學輕工過程先進控制教育部重點實驗室 江蘇 無錫 214122)
一種改進的卷積神經網絡的無參考JPEG2000圖像質量評價方法
朱 睿1李朝鋒1,2
1(江南大學物聯網工程學院 江蘇 無錫 214122)2(江南大學輕工過程先進控制教育部重點實驗室 江蘇 無錫 214122)
現有的圖像質量評價模型對JPEG2000壓縮圖像的失真情況評價都不是很理想。針對這一問題,提出一種基于卷積神經網絡的JPEG2000壓縮圖像質量評價方法。該模型由一層包含20個卷積核的卷積層,一層包含最大池、中值池和最小池的次采樣層、一層采用1200個ReLU激活單元的全鏈接層和一個輸出節點構成。采用最大、中值、最小三池聯合的方法,可以有效提取圖像的質量感知特征。在LIVE圖像質量評價庫JPEG2000壓縮圖像上的實驗結果表明,該方法得到了比相關文獻方法更好的主觀感知一致性。
卷積神經網絡 深度學習 無參考圖像質量評價
隨著互聯網技術的快速發展,對圖像的傳輸、存儲、壓縮等需求日趨增多,而其中的每一種技術都需要對圖像的質量進行評價,所以圖像質量評價已經成為當前圖像處理領域的一個研究熱點。圖像質量評價方法一般可以分為主觀質量評價方法和客觀質量評價方法。由于人是圖像的最終接收者,主觀質量評價的可靠性最高,但在實際應用中,主觀質量評價費時費力,且無法嵌入自動化系統中,為此客觀質量評價必不可少。客觀質量評價根據有無參考圖像信息可以分為全參考、半參考和無參考圖像質量評價。無參考圖像質量評價方法主要是指在沒有參考圖像信息的情況下對失真圖像進行客觀評價的一種方法。全參考和半參考方法需要參考圖像的全部或者部分信息,在很多時候,參考圖像信息很難獲取或者獲得代價太高,而無參考圖像質量評價不需要原始圖像的任何信息,所以無參考評價方法更為重要。近年來,無參考圖像質量評價方法得到較大發展。Moothy等提出一種先分類后回歸的方法DIIVINE[1],該方法先對圖像進行小波分解,使用廣義高斯分布擬合得到尺度內和尺度間統計特征,然后使用支持向量機先分類再回歸的方法預測圖像質量得分。Mittal等對經過預處理的圖像進行高斯擬合,提取形狀、方差和均值等統計特征,使用SVR建立模型BRISQUE[2]。Saad等將圖像分塊后提取每塊的離散余弦變換(DCT)系數,然后用廣義高斯分布(GGD)函數進行擬合得到所需特征,最后用SVR訓練得到評價e模型BLIINDS-II[3]。Gao等在小波域提取圖像的非高斯性、局部依賴性和指數遞減性特征,構建了兩種評價方法:一種運用多核學習方法直接建立特征與圖像主觀得分之間關系的NSS-GS,另一種是需要兩步框架的NSS-TS,即先判斷圖像的失真類型并分類,然后用不同失真的評價方法對不同類失真圖像進行評價得到最終得分[4]。Liu等先將圖像分塊,然后對每塊進行曲波變換后提取子帶系數直方圖擬合特征、能量差等,再取所有塊的特征均值,運用先分類后回歸的方法得到評價模型CurveletQA[5]。
深度學習[6]作為機器學習的一個分支,近幾年來得到了迅猛的發展。其中卷積神經網絡在圖像處理領域也取得了重要的進展,如:圖像內容處理、圖像分類和物體識別[7-8]。1959年,Hubel和Wiese[9]兩位科學家在對貓視覺實驗中發現了貓的視覺系統是分級的,這種分級可以看成是逐層迭代、抽象的過程。
瞳孔接受像素,方向選擇性細胞抽象出邊緣,對邊緣進一步抽象得出形狀,對形狀再進一步抽象得出是什么物體。
卷積神經網絡特點在于將特征提取和網絡回歸良好地結合在了一起,這樣結合的優點體現在兩個方面:(1)隨著網絡深度的加深,可以更顯著地提高網絡的學習能力[10]。(2)在卷積神經網絡框架中,采用反向誤差傳播的方法,將整個網絡作為一個整體進行訓練,這樣就可在模型中加入最近提出一些提高學習效率和學習結果的新技術,如dropout[11]和ReLU(rectified linear unit)[11]等。
根據上述討論,本文提出了一種改進卷積神經網絡模型的JPEG2000編碼圖像質量評價的方法,不同于傳統的卷積神經網絡模型。我們在次采樣層使用了大、中、小池結構結合并在輸出層使用了ReLU激活單元的設計,實驗結果表明,這樣的結構設計使得實驗結果得到了顯著的提高。
本文提出的用于圖像質量評價的CNN改進模型結構見圖1所示。首先,將圖像進行灰度化和歸一化處理,然后將圖像進行不重疊的切割并將訓練用的圖像塊輸入CNN改進模型進行模型訓練,最后利用訓練好的模型預測測試集中每一張小塊的圖像質量值并計算這些值的均值作為原圖像的圖像質量值。

圖1 本文改進的卷積神經網絡模型
1.1 網絡結構
如圖1所示,本文提出的CNN模型由五層網絡結構組成。輸入層接收經過灰度化和歸一化后的32×32的圖像塊。在第一層卷積層中,我們使用20個7×7的卷積核通過步長為1像素的卷積運算對輸入塊進行處理,得到了20個特征圖,其中每個特征圖的大小為26×26。隨后在次采樣層中采用最大值、中值和最小值三種采樣方法對20張特征圖進行處理,分別得到最大值、中值和最小值三個特征池。這樣做的目的不但是降低了特征的復雜程度,而且也在相應的特征圖中提取出來比較顯著的特征樣本。在輸出層,本文采用全鏈接方法,共有1200個節點來連接次采樣層得到的特征,最后通過線性回歸網絡得到圖像的質量值。
1.2 局部歸一化處理
對失真圖像進行不重疊切割前,先對失真圖像進行歸一化處理。本文采用的是局部歸一化方法[12]。歸一化計算式如下:
(1)

(2)
(3)
其中I(i,j)為失真圖像,M、N分別表示圖像的高和寬。P和Q是歸一化窗口的大小,P和Q的最大值不應超過輸入圖像的大小。根據式(1)可知不同的窗口大小將會導致不同的均值和變異因數,在本文的方法中我們采用P=Q=3的窗口大小。通過式(1)-式(3),用圖像灰度值減去局部均值,再除以局部標準差可以消除圖像的分段光滑性,并完成局部歸一化。
1.3 卷積層
卷積層是通過卷積計算進行特征提取,在這一層中我們使用20個不同的卷積核,對每一個輸入圖像進行卷積運算,從而獲得20個特征圖。根據卷積神經網絡的原理,卷積核的大小尺寸決定一個神經元的感受視野的大小。當卷積過小時,無法提取有效的特征,而當卷積核過大時,提取的特征的復雜度可能會超過后面網絡的表示能力。因此設置適當的卷積核對于提高卷積神經網絡的性能至關重要,同時也是卷積神經網絡參數調節的難點。本文提出的模型采用的卷積核的大小為7×7,經過這樣的卷積核處理后,我們會得到20個26×26的特征圖。
1.4 次采樣層
次采樣層的輸入是在上一層卷積層中經過卷積計算得到的20個特征圖。在本層中,模型通過池化計算將特征圖的維度進一步降低。對于每一個特征圖本文只對它們取最大值、中值和最小值三個數值,分別存入最大池、中值池和最小值。計算式如下:
(4)
(5)
(6)
其中Pmax、Pmin和Pmedian表示最大池、最小池和中值池。M表示特征圖。K表示卷積核的數量。
在場景識別領域中,卷積神經網絡的池化層一般都會設置成2×2平均值的感知結構。在這種情況下,選擇這種典型的感知方法可以使整個采樣層的魯棒性加強。特別是在被識別物體在空間上能被分成多個顯著序列時,這種方法格外有效。但是,在無參考圖像質量評價領域,經過我們的觀察發現,很多失真都是均勻分布在空間域中的,將圖像不重疊分割成32×32的圖像塊是不會影響這種失真的均勻性的。所以對于這種沒有明顯的全局顯著特征的圖像,使用本文中的池化方法可以大幅度地減少計算時間和結果的復雜程度,從而提高運算速度和預測結果的準確性。
1.5 輸出層
本文模型在輸出層采用了1200個激活節點,與前面的三個池采用全鏈接的方式連接。這里我們將次采樣層的輸出結果轉換成一個60維的特征向量,每個特征都與1200個激活節點進行連接,所以在次采樣層和輸出層之間共有60×1200=72 000個參數。
在傳統CNN的輸出層中,一般都會采用sigmoid激活函數或tanh激活函數,本文模型使用Rectified Linear Units(ReLUs)作為激活函數。計算式如下:
(7)
其中w為連接權值,a為次采樣層輸出。
在深度CNN中,使用ReLU函數的模型在訓練時要比使用tanh單元的模型效率更快[13]。而且ReLU函數的特性是阻止負信號通過,正是由于這種特性我們并沒有在卷積層和次采樣層使用ReLU函數進行濾波,而只是在線性回歸的網絡中使用它,使其能夠過濾最小池中有可能出現的負輸出。
Dropout是近幾年由Hinton提出的一種防止網絡過擬合的一種方法。其具體做法是將輸出值按50%的概率設置為零,通過隨機屏蔽輸出信號的方法,Dropout成為一種對于訓練權值網絡的有效方法。本文在ReLU函數后,對于輸出值進行Dropout處理。
1.6 模型調整與學習
Support Vector Regression (SVR)已經在無參考圖像質量評價中得到成功應用[2]。本文模型中的輸出層采用的目標函數與其非常相似,計算式如下:
(8)
其中x為輸入圖像,w為各層權值,f(w;x)為圖像質量分數預測函數,y為圖像的主觀評價值。然后使用誤差反向傳播和梯度下降方法對權值進行調節。計算式如下:

(9)
Δw=▽wL
(10)
wnew=w+αΔw
(11)
其中w為權值,L為誤差函數,α為學習率。在實驗中我們還發現,在訓練開始的時候使用較大的學習率,并在訓練過程中減小學習率,可以使預測的較好結果。計算式如下:
α=α0(d)t
(12)
其中α為實時學習率,α0為初始學習率,d為在(0,1)的常數,t為訓練次數。
2.1 在LIVE圖像庫上的實驗結果與分析
本文選用LIVE[14]圖像庫中的JPEG2K失真類型作為實驗數據集,該失真類型共有227張大小不同的原始圖像,也給出了每幅失真圖像的主觀得分DMOS值。
為了評估本文方法的性能,選取兩種評價指標:主觀MOS和客觀MOS的斯皮爾曼等級相關系數SROCC(Spearman Rank Order Correlation Coefficient);主觀MOS和客觀MOS的皮爾遜線性相關系數PLCC(Pearson Correlation Coefficient)。
SROCC主要用于測量兩組順序樣本的次序相關系數,即質量得分單調性的指標;PLCC主要用于客觀評價得分與主觀得分之間的回歸擬合。SROCC和PLCC的值區間都為[-1,1],其絕對值越接近于1表明主客觀之間的相關性越好,反之,越接近0表明兩者相關性越差。
為了和其他方法比較,本文采用了與他人文獻中相同的處理方法。實驗中隨機選取LIVE數據庫中80%的23幅原始圖像及其對應的失真圖像訓練。剩余20%的6幅原始圖像及其對應失真圖像進行測試,這樣保證訓練圖像與測試圖像在內容上沒有交叉。表1和表2分別列出了實驗結果SROCC和LCC。

表1 在LIVE圖像庫JPEG2K失真類型上的SROCC值

表2 在LIVE圖像庫JPEG2K失真類型上的LCC值
圖2為本文方法預測出的圖像質量得分與主觀得分的散點圖,也表明了本文方法的主觀感知一致性。

圖2 本文模型預測圖像質量值的散點圖
由表1和表2可以分析出,本文在傳統CNN模型基礎上融入一些權值優化技術,以及在池化層采用最大、中值和最小三種聯合的方法得到改進的CNN模型。實驗結果顯示,我們改進的CNN模型比傳統CNN得到更好的主觀感知一致性,也優于當前文獻報道的頂級模型DIIVINE和BRISQUE。
2.2 模型參數比較與分析
本文模型中一些相關參數都是在實驗初始階段設置的,為了進一步研究這些相關參數初始值的不同對實驗結果的影響,本節將在LIVE失真圖像庫的JPEG2K失真類型上實驗相關的參數初始值不同時的表現。
2.2.1 輸入圖像尺寸
在我們設計的實驗中,最后的預測結果為同一原始圖像切塊后得到所有圖像塊預測結果的平均值,所以輸入圖像塊的大小尺寸不同可能會影響的預測結果。給出不同尺寸的實驗結果如表3所示。

表3 不同輸入圖像尺寸大小得到的SROCC和LCC值
從表3中我們可以看出,圖像塊的大小對整體結果影響不大,但輸入圖像尺寸越大,實驗所需的時間增長較多,綜合考慮,我們選擇輸入圖像大小為32×32。
2.2.2 卷積核的數量
我們給出卷積核的數量與預測結果之間的關系如圖3所示。

圖3 卷積核數目與預測結果的關系圖
從圖3中我們可以看出,實驗結果會隨著卷積核的增多而提高,但是當卷積核的數目超過20個的時候,實驗結果提高趨于不變。相反地,隨著卷積核的增多,實驗所需時間增加較多。綜合考慮,我們選擇卷積核的數目為20個。
2.2.3 卷積核尺寸的大小
本文在實驗中也測試了卷積核尺寸的大小對輸出結果的影響,如表4所示。

表4 不同卷積核尺寸得到的SROCC和LCC值
從表4中我們可以看出,使用不同尺寸的卷積核進行實驗所得到的結果差別并不明顯,所以卷積核的尺寸對于實驗結果的影響并不明顯。我們選擇了使實驗結果相對較好的7×7大小卷積核。
本文提出了一種改進卷積神經網絡的無參考JPEG2000圖像質量評價方法。該模型在次采樣層采用了最大、中值、最小三池聯合的方法,在輸出層使用了ReLU激活函數和dropout技術,更好表達了圖像質量感知特征。我們的實驗結果也表明該模型在圖像質量評價庫上有更好的預測結果,優于當前文獻報道的相關方法。
[1] Moorthy A K,Bovik A C.Blind image quality assessment:From natural scene statistics to perceptual quality[J].IEEE Transactions on Image Processing,2011,20(12):3350-3364.
[2] Mittal A,Moorthy A K,Bovik A C.No-referen ce image quality assessment in the spatial domain[J].IEEE Transactions on Image Processing,2012,21(12):4695-4708.
[3] Saad M A,Bovik A C,Charrier C.Blind Image Quality Assessment:A Natural Scene Statistics Approach in the DCT Domain[J].IEEE Transactions on Image Processing,2012,21(8):3339-3352.
[4] Gao X,Gao F,Tao D,et al.Universal Blind Image Quality Assessment Metrics Via Natural Scene Statistics and Multiple Kernel Learning[J].IEEE Transactions on Neural Networks and Learning Systems,2013,24(12):2013-2026.
[5] Liu L,Dong H,Huang H,et al.No-reference image quality assessment in curvelet domain[J].Signal Processing:Image Communication,2014,29(4):494-505.
[6] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural network [J].Science,2006,313 (5786):504-507.
[7] Landecker W,Chartrand R,DeDeo S.Robust Sparse Coding and Compressed Sensing with the Difference Map[C].//European Conference on Computer Vision (ECCV),2014:315-329.
[8] Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]// Computer Vision and Pattern Recognition (CVPR),2014 IEEE Conference on.IEEE,2014:580-587.
[9] Hubel D H,Wiesel T N.Receptive fields of single neurones in the cat’s striate cortex[J].The Journal of Physiology,1959,148:574-591.
[10] Bengio Y,Courville A,Vincent P.Representation Learning:A Review and New Perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[11] Nair V,Hinton G E.Rectified Linear Units Improve Restricted Boltzmann Machines.[C].// Proceedings of the 27th International Conference on Machine Learning (ICML),2010:807-814.
[12] Ruderman D L.The statistics of natural images[J].Netwrok:Computer in Nerual Systems,1994,5(4):517-548.
[13] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[C].//Advances in Neural Information Processing Systems 25,2012,1106-1114.
[14] Sheikh H R,Wang Z,Cornack L.LIVE image quality assessment database release2[EB/OL].http://live.ece.utexas.edu/research/quality.
A NO-REFERENCE JPEG2000 IMAGE QUALITY ASSESSMENT VIA IMPROVED CONVOLUTIONAL NEURAL NETWORK
Zhu Rui1Li Chaofeng1,2
1(SchoolofInternetofThingsEngineering,JiangnanUniversity,Wuxi214122,Jiangsu,China)2(KeyLaboratoryofAdvancedProcessControlforLightIndustry,MinistryofEducation,JiangnanUniversity,Wuxi214122,Jiangsu,China)
The existing image quality evaluation model for JPEG2000 compression image distortion upon evaluation is not very ideal.In view of this,a JPEG2000 compressed image quality evaluation method based on improved CNN framework is put forward.The model is consisted of one convolutional layer with 20 convolution kernels,one pooling layer with the max,medium and min pooling,one fully connected layer with 1200 ReLU units and one output node.Using the max,medium and min pool structure to extract the typical features in the image effectively.Experimental results show that the proposed method is consistent with the subjective score better in the LIVE library.
Convolutional neural network (CNN) Deep learning No-reference Image quality assessment
2015-11-05。國家自然科學基金項目(61170120);教育部優秀人才計劃項目(NCET-12-0881)。朱睿,碩士生,主研領域:深度學習,模式識別。李朝鋒,教授。
TP391.4
A
10.3969/j.issn.1000-386x.2017.01.032