李瑞東 劉海 楊環



摘要:? 針對傳統圖像質量評價模型在屏幕內容圖像上存在的無法取得滿意結果的問題,本文提出一種基于深度學習模型的屏幕內容圖像評價模型。首先將屏幕內容圖像進行歸一化處理,用局部二值化(local binary pattern,LBP)算法旋轉不變均勻模式求得特征圖,并運用卷積神經網絡對局部二值化特征圖進行質量評價。為驗證所提出的屏幕內容圖像質量評價模型的準確性,采用斯皮爾曼秩相關系數和皮爾斯線性相關系數兩種流行的評估標準進行驗證。驗證結果表明,本文模型與傳統的質量評價模型相比具有明顯的優勢,表明本模型比大多數現有的圖像質量評估(image quality assessment,IQA)模型更符合主觀評估結果,相比于其他評價模型更具有競爭性。該研究為提升評估結果的精準度提供了理論依據。
關鍵詞:? 圖像質量評價; 屏幕內容圖像; LBP; 卷積神經網絡
中圖分類號: TP391.413; TN911.73文獻標識碼: A
目前,隨著互聯網技術的發展及現代多媒體通信終端的普及,使用戶能夠執行許多復雜的通信任務,這些移動終端在使用期間呈現給消費者的可視內容,不再是單一的自然圖像,而是包含文本、圖像、地圖和計算機生成的圖形等混合圖像,類似于上述視覺內容的圖像通常被稱為屏幕圖像。屏幕圖像在產生、處理及傳輸過程中都不可避免的產生失真,造成圖像質量的下降,最終影響用戶體驗。在已有的研究中,許多客觀的圖像質量評估方法被提出,較為簡便的方法有峰值信噪比(peak signaltonoise ratio,PSNR)[1]與均方誤差(mean squared error,MSE),根據像素值強度的差異進行質量預測;著名的有結構相似性(structural similarity,SSIM)[2]模型,此模型分別計算亮度、對比度和結構相似性,考慮到圖像是因結構而產生失真,而不是像素之間的差異;Xue W等人[3]構建了針對圖像梯度幅值相似度標準差(gradient magnitude similarity deviation,GMSD)[4]模型,此模型不但提升了評估結果的精準度,還極大程度上簡化了計算步驟。這些評估方法在自然圖像質量評估上表現良好,但在屏幕圖像質量評估上取得的成績并不好,其原因是屏幕內容圖像具有比自然圖像更復雜的構圖。屏幕內容圖像不僅包含自然圖像,還添加了計算機生成的文本、圖形和圖標等各種組件,這導致屏幕圖像通常包含非常鋒利的邊緣、相對簡單的形狀、具有少量顏色的細線、甚至單像素寬的單色線[4]。因此,屏幕內容圖像的質量評價不應與自然圖像一樣以整體為單位進行預測。近年來,也有一些對屏幕內容圖像的研究,Yang H等人[5]根據屏幕圖像內文字與圖像部分視覺誤差,提出可率先分別評估屏幕圖像內的文字與圖像部分,然后再通過加權融合處理來評價屏幕圖像。隨著深度學習在計算機視覺領域的廣泛應用,研究人員提出了許多深度學習網絡來解決圖像質量評估問題,并且具有優于傳統算法的性能。將屏幕圖像直接運用現有的卷積神經網絡模型(convolutional neural network,CNN)進行學習訓練時,由于屏幕圖像的特殊及復雜的結構特點,網絡模型很難同時學習和區分不同區域的特征,從而不能準確的進行評估。此外,深度學習網絡的訓練過程需要大量數據,現有圖像數據庫中的樣本有限,可通過將圖像切割成圖像塊,將圖像塊作為卷積神經網絡模型中的訓練樣本[6],以解決訓練樣本不足的問題。基于此,本文提出一種基于局部二值化算法(local binary pattern,LBP)[7]的屏幕圖像質量評價CNN模型。該模型與傳統的質量評價模型相比具有明顯的優越性。
1屏幕內容圖像數據庫
本文在屏幕內容圖像數據庫(screen image quality assessment database,SIQAD)[5]中驗證提出方法的準確性。SIQAD包含20張參考圖像,每張圖像具有7種失真類型,包括高斯噪聲(gaussian noise,GN)、高斯模糊(gaussian blur,GB)、運動模糊(motion blur,MB)、對比度變化(contrast change,CC)、JPEG(JPEG Compression)壓縮、JPEG2000壓縮(JPEG2000 Compression)和基于分層的壓縮(layer segmentationbacked coding,LSC),每種失真類型包括7個等級。因此,SIQAD中有980張失真的屏幕內容圖像,而且每張圖像都有專業評審人員進行的主觀質量評價得分。截取SIQAD中一副屏幕內容圖像,其中,參考屏幕內容圖像如圖1所示,高斯噪聲失真圖像如圖2所示,對比度變化失真圖像如圖3所示,JPEG壓縮失真圖像如圖4所示。
2特征
LBP是一種描述圖像特征像素點與各個像素點之間灰度關系的局部特征非參數算法,同時也是一張高效的紋理描述算法。在計算LBP特征圖之前,先將圖像進行歸一化處理,令I(i,j)表示圖像(i,j)處的像素值,歸一化值(i,j)計算方式為
式中,i∈(1,2,…,m);j∈(1,2,…,n);i和j表示圖像的長度和寬度;μ為平均值;σ為歸一化窗口中強度值的方差;C表示一個常數,為了防止除數為0,在這里將其設置為1。
采取旋轉不變均勻的LBP,普通LBP的計算方式為
式中,R和L表示相鄰像素的數量和與相鄰像素距離的半徑;i表示R個圓形對稱相鄰像素的像素值,i∈(0,1,…,R-1);c表示局部區域中心像素的像素值。旋轉不變均勻LBP算法為
式中,λ表示數位轉換[8]。
根據上述方法,得到屏幕圖像的旋轉不變均勻LBP特征圖,將其切割為若干個大小為32×32的圖像塊,將圖像塊作為卷積神經網絡的輸入。
3CNN模型
本文設計了一個端到端的CNN模型,CNN模型如圖5所示。該模型以32×32的圖像塊作為輸入;第1層為卷積層,具有30個大小為7×7的內核,步長為1像素,得到30個大小為26×26的特征圖;第2層為池化層,具有3部分:最大值、最小值和平均值,以3×3為窗口,步長為2,得到3組13×13×30的特征圖;第4層為池化層,具有3部分:最大值、最小值和平均值,以2×2為窗口,步長為2像素,得到3組4×4×90的特征圖。將得到的特征圖進行匯集處理,得到一個2 880×1的矢量特征;第5層~第7層為全連接層,節點個數分別為4 096,4 096和1 024;最后回歸為一個值,該值為輸入圖像塊的質量評價得分。
圖5CNN模型為確保圖像塊的預測得分與原圖像的主管評分具有線性關系,在最后的輸出層采用支持向量機回歸(support vactor regerssion,SVR)[9],最終目標函數定義為
L=1M∑Mm=1‖f(Pi)-Qi‖l2(6)
式中,L為損失函數;Pi表示輸入的圖像塊;f(·)為非線性函數;Qi為輸入補丁原圖像的主管得分;M為每批輸入圖像塊的總數。
為了更好地保留圖像中的有用信息,使模型預測結果更加精準,在網絡的3個全連接層中,使用線性整流函數(rectified linear unit,Relu)作為激活函數[10],描述如下
式中,xi表示Relu的輸入;g表示Relu的輸出;wi表示Relu的權重[11]。
本實驗隨機選擇了SIQAD中80%的失真圖像作為CNN模型的訓練集,10%的失真圖像作為驗證集,10%的失真圖像作測試集[12]。模型是在Matlab中的Caffe工具箱進行搭建[13]。CNN模型在訓練過程中,將基本學習率設置為001,學習速率衰減量設置為09,動量初始值為09,逐漸下降后最終保持在05[14]。
4匯集質量評價得分
得到每個圖像塊的質量得分Qi后,即可計算整幅屏幕內容圖像的質量評價得分,采取的匯集方式為平均每張圖像塊的質量得分[15]。最終屏幕內容圖像的評價得分為
S=∑mm=1Qi/m(8)
式中,m為該屏幕內容圖像分割成的圖像塊數量。
5實驗結果
SIQAD中的失真屏幕內容圖像都具有主觀評價得分,評價模型所預測的得分與主觀評價得分越接近,則說明該預測模型的性能越優越。圖像質量評價性能可由幾個常用的指標表示。使用兩種流行的評估標準來驗證所提出的屏幕內容圖像質量評價模型的準確性,這兩種方法是斯皮爾曼秩相關系數(spearman rank correlation coefficient,SROCC)和皮爾斯線性相關系數(pearson linear correlation coefficient,PLCC)[16]。
SROCC主要測量兩組數據的秩相關,PLCC主要測量兩組數據之間的線性相關。SROCC為
SROCC=1-\[6∑ni=1d2i/n(n2-1)\](9)
式中,n表示測試圖像的總數;di表示第i個圖像的模型預測得分的排名與主觀評價得分的排名之間差值。SROCC的范圍是[0,1],數值越高,表示算法的精度越高。PLCC為
PLCC=∑ni=1(yi-yk)(i-k)/∑ni=1(yi-yk)2∑ni=1(i-k)2(10)
式中,yi和i分別表示第i個圖像的主觀評價得分和模型預測得分;yk和k分別表示所有yi和i的均值。PLCC的范圍是[0,1],數值越高,表示算法的精度越高。
本文所提出的模型與幾種優秀的傳統質量評價模型進行比較,傳統質量評價模型包括峰值信噪比(peak signaltonoise ratio,PSNR)[1],結構相似性(structural similarity,SSIM)[2],特征相似性(feature similarity,FSIM)[17],梯度幅度相似性偏差(gradient magnitude similarity deviation,GMSD)[3]和SCI感知質量評估(sci perceptual quality assessment,SPQA)[5]。本文模型與多種評價模型的性能對比如表1所示。
由表1可以看出,本文提出的預測模型,SROCC值為0862 4,PLCC值為0879 5。相比于傳統的3種簡單的評價方法PSNR、SSIM及FSIM,本文提出方法具有明顯的優勢。而相比于目前流行的高效方法GMSD以及針對屏幕內容圖像質量評價方法SPQA,本文提出的方法,SROCC值和PLCC值略高于上述兩種方法,可見本文提出的方法具有優秀的性能,相比于其他評價模型具有競爭性。
由表2可以看出,以LBP特征圖作為樣本比原始圖像作為樣本性能更優異。原始圖像作為樣本時,圖像質量評價的結果只取決于CNN模型的設計;以原圖像的LBP特征圖作為輸入時,事先突出了顯示圖像容易被辨識的紋理特征,使CNN模型更加直接的對引起失真的紋理差異進行學習訓練。
由此可以證明,以LBP紋理圖像作為卷積神經網絡的樣本時,可以提高圖像的質量評價結果。
6結束語
本文提出的傳統圖像特征與深度學習模型相結合的方法雖取得不錯的實驗結果,但屏幕內容圖像質量評價仍然是圖像質量評價領域中具有挑戰性的新穎課題,還有許多方面需要進一步完善。運用旋轉不變均勻的LBP算法將圖像進行預處理,得到的LBP特征圖作為CNN模型的輸入,相比于直接將圖像進行訓練學習,此法可使CNN模型更加直接和準確的學習圖像的紋理特征。本研究所設計的端到端CNN模型以圖像塊為輸入,而不是以整幅圖像為輸入,解決了訓練樣本不足的問題。在后續工作中,將繼續提升CNN模型的結構,探究更加合理的訓練方式和匯集策略。
參考文獻:
[1]Wang Z, Bovik A C. Modern image quality assessment[M]. San Rafael, CA, USA: Morgan and Claypool, 2006.
[2]Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600612.
[3]Xue W, Zhang L, Mou X, et al. Gradient magnitude similarity deviation: A highly efficient perceptual image quality index[J]. IEEE Transactions on Image Processing, 2014, 23(2): 684695.
[4]Yi Z, Chandler D M, Xuanqin M. Quality assessment of screen content images via convolutionalneuralnetworkbased synthetic/natural segmentation[J]. IEEE Transactions on Image Processing, 2018, 27(10): 11.
[5]Yang H, Fang Y, Lin W. Perceptual quality assessment of screen content images[J]. IEEE Transactions on Image Processing, 2015, 24(11): 44084421.
[6]Kang L, Ye P, Li Y, et al. Convolutional neural networks for nofeference image quality assessment[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA: IEEE Computer Society, 2014: 17331740.
[7]Fang Y, Yan J, Li L, et al. No reference quality assessment for screen content images with both local and global feature representation[J]. IEEE Transactions on Image Processing, 2018, 27(4): 16001610.
[8]Beamer L J, Carroll S F, Eisenberg D. The BPI/LBP family of proteins: a structural analysis of conserved regions[J]. Protein Science, 2008, 7(4): 906914.
[9]Smola A J, Bernhard S. A tutorial on support vector regression[J]. Statistics and Computing, 2004, 14(3): 199222.
[10]Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]∥Intemational Conference on Leaming. ICML, 2010: 807814.
[11]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]∥Conference and Workshop on Neural Information Processing Systems. Lake Tahoe, Spain: NIPS, 2012.
[12]Sheikh H R, Bovik A C, de Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 21172128.
[13]Li C, Bovik A, Wu X. Blind image quality assessment using a general regression neural network[J]. IEEE Transactions on Neural Networks, 2011, 22(5): 793799.
[14]Ciresan D C, Meier U, Schmidhuber J. Multicolumn deep neural networks for image classification[J]. In Computer Vision and Pattern Recognition, 2012: 36423649.
[15]Wang Z, Li Q. Information content weighting for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(5): 11851198.
[16]Ye J, Bhagat S K, Li H M, et al. Differentiation between recurrent gliomas and radiation necrosis using arterial spin labeling perfusion imaging[J]. Experimental & Therapeutic Medicine, 2016, 11(6): 24322436.
[17]Zhang L, Zhang L, Mou X, et al. A feature similarity index for image quality assessment[J]. IEEE Trans Image Process, 2011, 20(8): 23782386.
CNN Model for Screen Content Image Assessment Based on LBP
LI Ruidong, LIU Hai, YANG Huan
(College of Computer Science & Technology,? Qingdao University, Qingdao 266071, China)Abstract:? Due to the fact that traditional image quality assessment model cannot obtain satisfactory results on the screen content image,? this paper proposes a screen content image assessment model based on the deep learning model. First,? the screen content image is normalized,? and the local binary pattern (LBP) algorithm is used to obtain the feature map by rotating the invariant uniform pattern. The convolutional neural network is used to evaluate the quality of the local binary feature map. In order to verify the accuracy of the proposed screen content image quality assessment model,? Spearman′s rank correlation coefficient and Pierce′s linear correlation coefficient are used for verification. The verification results show that the model in this paper has obvious advantages compared with traditional quality assessment models,? indicating that this model is more in line with the subjective assessment results than most existing image quality assessment (IQA) methods. Compared with other models,? the model is more competitive. This study provides a theoretical basis for improving the accuracy of the assessment results.
Key words:? image quality assessment; screen content image; LBP; convolutional neural network
收稿日期: 2020-02-11; 修回日期: 2020-03-09
基金項目:? 青島市應用研究資助項目(2016025)
作者簡介:? 李瑞東(1994-),男,碩士研究生,主要研究方向為計算機視覺。
通信作者:? 楊環,女,博士,碩士生導師,主要研究方向為人工智能和計算機視覺等。? Email: cathy_huanyang@hotmail.com