魏樂松,陳俊豪,牛玉貞
(福州大學 數學與計算機科學學院,福州350100)
隨著互聯網技術的快速發展,屏幕內容圖像(Screen Content Image,SCI)被廣泛應用于現代多媒體應用,如無線顯示、遠程教育、屏幕共享、實時通信等。由于技術和設備的缺陷,在壓縮、傳輸、獲取等過程中不可避免地會引入各種失真,影響用戶的體驗。例如,當利用智能手機中的相機創建屏幕內容圖像時,由于相機運動和不同的環境,可能會產生噪聲和模糊失真。對于通過因特網傳輸屏幕內容圖像,為了進行有效傳輸,可能由于圖像編碼而產生壓縮失真。因此,迫切需要屏幕內容圖像的視覺質量評估算法,用來優化多媒體應用系統。
客觀質量評估算法根據參考原始圖像的程度,評估算法可以分為3類:全參考(Full Reference,FR)、半參考(Reduce Reference,RR)和無參考(No Reference,NR)。其中,全參考圖像質量評估算法使用了原始圖像作為失真圖像的參照圖像;半參考圖像質量評估算法中僅使用了部分參照圖像的信息;無參考圖像質量評估算法沒有使用任何的參照圖像中的信息作為先驗數據。然而,在許多實際應用中,特別是在大數據應用領域,獲取全部或部分的參考圖像信息是非常昂貴的,甚至是不可能的。而無參考圖像質量評估不依靠任何參考圖像的信息,比全參考圖像質量評估和半參考圖像質量評估具有更大的實際應用前景。
在過去的幾十年中,圖像質量評估領域得到很大的發展,已經有針對視覺內容設計的各種圖像質量評估算法。大多數傳統的評估指標都是全參考算法,諸如峰值信噪比算法(Peak Signal-to-Noise Ratio,PSNR)和均方誤差(Mean Square Error,MSE),它們通過簡單地計算參考和失真圖像之間的像素差異來預測圖像的視覺質量。由于其簡單有效,這些方法在工業界和學術界得到廣泛的應用。其沒有考慮人類視覺系統的屬性,因此,無法獲得與人類感知較一致的質量預測結果。為了解決這個問題,許多研究人員根據人類視覺系統的特點,提出了各種不同的評估算法,如結構相似性(Structural Similarity,SSIM)算法[1]、梯度幅度相似性偏差(Gradient Magnitude Similarity Deviation,GMSD)算法[2]、自然圖像質量評估(Natural Image Quality Evaluator,NIQE)算法[3]、以及盲/無參考圖像空間質量評估(Blind/Referenceless Image Spatial Quality Evaluator,BRISQUE)算法[4]。
但是,上述的評估算法是專為自然圖像設計的,對屏幕內容圖像效果不好。通常,屏幕內容圖像由計算機生成,由文本、圖形和圖像組成,具有特殊的布局,導致這2種圖像在統計特征上存在明顯差異。對于屏幕內容圖像的研究,Yang等[5]進行了主觀實驗并構建了一個SIQAD數據庫,基于該數據庫,提出了各種針對屏幕內容圖像的評估算法,且提出了SPQA(SCI Perceptual Quality Assessment)算法,該算法通過分析圖像區域和文本區域的質量感知特征來考慮圖像整體質量。Wang等通過考慮視野自適應和局部信息內容加權,提出了SQI(SCI Quality Index)算法[6],且基于主要視覺信息和不可預測的不確定性提取圖像的統計特征,然后提出了半參考模型[7]。Shao等[8]通過利用稀疏表示框架提出了BLIQUP-SCI(Blind Quality Predictor for SCI)算法。Fang等[9]通過對圖像亮度和紋理特征的局部和全局表示,提出了 NRLT(No Reference quality assessment method by incorporating statistical Luminance and Texture features)算法。
現有的針對屏幕內容圖像質量評估的無參考算法[8-9]不能與主觀感知產生較高的一致性,因此,針對屏幕內容圖像設計有效的無參考質量評估算法仍然存在挑戰。本文結合文本、圖形、圖像和布局對屏幕內容圖像質量的影響,提出了針對屏幕內容圖像的基于邊緣和結構的無參考質量評估(Blind quality assessment for screen content images based on Edge and Structure,BES)算法。
與自然圖像不同,屏幕內容圖像由具有大量邊緣的文本、圖形和圖像組成,并且人類視覺系統對邊緣高度敏感。因此,BES算法首先對失真圖像的亮度分量進行雙三次插值處理,然后使用Gabor濾波器的虛部對插值后的亮度分量提取邊緣,并計算每個失真圖像的邊緣特征。
屏幕內容圖像以獨特的布局顯示文本、圖形和圖像,因此,BES算法提取結構特征來表示屏幕內容圖像的布局,首先使用雙三次插值對失真圖像進行插值,然后使用Scharr濾波器在插值后的失真圖上計算得到局部二值模式(Local Binary Pattern,LBP)圖,接著通過LBP圖計算得到結構特征。與其他算法中直接使用頻率直方圖描述全局信息不同[9],BES算法通過累加圖像中具有相同LBP模式的像素的梯度值來表示失真圖像的結構特征。
利用相應的方法提取邊緣特征和結構特征,將隨機森林回歸(Random Forest Regression,RFR)算法作為映射函數,將邊緣和結構特征映射為主觀質量分數。
Guo等[10]研究表明,通過雙三次插值處理,可以減少屏幕內容圖像和自然圖像之間的統計特征差異,使得輸入的屏幕內容圖像在統計特征上更加類似于自然圖像,以便更好地表示圖像。Ni等[11]通過實驗證明了Gabor濾波器的虛部可以有效地提取邊緣信息。文獻[1]中表明,圖像結構攜帶重要的視覺信息,人類視覺系統可以通過獲取圖像結構信息來感知和理解圖像。因此,通過雙三次插值處理之后,結合屏幕內容圖像的邊緣和結構特征來表示圖像。最后,利用隨機森林回歸算法將從多尺度中提取的邊緣和結構特征映射為主觀質量分數。
根據生理學實驗發現,二維Gabor濾波器可以有效地模擬哺乳動物視覺皮層中的簡單細胞感受野剖面[12-13],說明了Gabor濾波器可以有效地表征人類視覺系統感知。因此,利用Gabor濾波器提取屏幕內容圖像的邊緣特征。
BES算法首先將失真的屏幕內容圖像從RGB顏色空間轉換為LMN顏色空間[14],以便提取亮度分量。這里選擇LMN顏色空間的原因是顏色空間轉換過程中的權重針對人類視覺系統進行了優化[15]。接著使用雙三次插值來對每個輸入的失真屏幕內容圖像的亮度分量進行插值,將其進行放大,平滑圖像中的邊緣。雙三次插值的表達式為

式中:aij為一個鄰近像素的權重系數,這個權重系數是根據像素分布導數計算得來的。
社會中的個體想獲得幸福,應做到不但愛自己,還應該愛他人。自我價值的實現是雙向的,一方面自我的社會價值實現在于個體對他人的服務與奉獻;另一方面個人價值的實現在于社會給予個體的物質與精神回報,正如馬克思所理解的那樣,人類的終極幸福是實現最大多數人的最大幸福。每個人在追求自身幸福的過程中,不僅意識到自身的需要,還應該意識到他人的利益和需要,意識到社會的整體需要和幸福,以此尋找個體需要同他人需要的交匯點,從而將個體對幸福的追求納入社會整體和諧發展的軌道。和諧融洽的社會關系能夠推動個人、集體和社會的和諧發展,從而達到個人幸福和社會幸福的統一。
在空間域中,二維Gabor濾波器可以描述為由正弦平面波調制的高斯核函數,其虛部是奇對稱的并且是用于檢測邊緣的有效工具。文獻[18-19]表明,水平或垂直方向的視覺靈敏度高于其他方向。因此,選擇水平和垂直方向,即θ=0和θ=π/2(θ為Gabor濾波器中的方向參數),以獲得水平和垂直方向上的Gabor濾波器,分別表示為gh和gv。將通過雙三次插值處理過的輸入圖像的亮度分量與每個Gabor濾波器進行卷積,以獲得水平和垂直方向的邊緣圖,卷積計算公式為

式中:“?”表示卷積計算;l為通過雙三次插值處理過的輸入圖像的亮度分量;eh和ev分別為水平和垂直方向的梯度圖,接著將這2個結果相加得到最終的梯度圖,表示為e,即
這里將e的絕對值直方圖作為輸入圖像的邊緣特征,直方圖分組設置為10,因此用一個10維向量{f1,f2,…,fk}來表示邊緣特征,向量中第n(1≤n≤k=10)個元素的計算式為

式中:Q(n)為第n個分組的取值范圍;M 為圖像中的像素個數;ei為圖像中第i個像素。
文獻[1]中表明,圖像結構信息的有效提取和描述對圖像感知質量評估有很大幫助。本文提出的算法中,先利用雙三次插值對失真圖像進行插值,接著分別使用水平和垂直方向的Scharr濾波器與插值后的圖像進行卷積計算,得到梯度圖,計算公式為

式中:p為插值后的失真屏幕內容圖像;sh和sv分別為水平和垂直方向的Scharr濾波器;th和tv分別為插值后的圖像和對應方向的Scharr濾波器經過卷積計算后得到的水平和垂直方向的插值后圖像的梯度圖;t為最終的插值后圖像的梯度圖。
接著,基于上述得到的梯度圖利用LBP算子來提取插值后圖像的結構信息。LBP算子是用來描述中心像素和其周圍像素的關系[16],常規的LBP算子表達式為

式中:I和R分別為周圍像素數量和鄰域的半徑;tc為局部區域中心位置像素的梯度值;ti為鄰接位置的梯度值。為了獲得旋轉不變性,局部旋轉不變均勻LBP算子[16]定義為


式中:N為圖像的像素個數;v∈[0,V]為可能的LBP模式;tj為LBP模式的權重。在本文中,設置I=8,鄰域半徑設置為R=1,這樣一張失真圖的結構特征將由一個10維向量來表示。在圖1中給出了SIQAD數據庫中典型的失真圖,及其對應的邊緣圖、LBP圖和表示特征的直方圖。
給定一張失真屏幕內容圖像,根據上述算法,在每個尺度上可以獲得20維特征,包括10維邊緣特征和10維結構特征。文獻[18]表明,人類視覺系統可以從粗略到細致地獲得圖像信息。因此,為了使提取的圖像特征更符合人類視覺系統的特點,本文對圖像進行4次下采樣,并在這4個尺度上以及原尺度上提取特征。因此,對于每張失真圖像,總共提取100維特征。在實驗中,將雙三次插值因子設置為2,并將隨機森林回歸算法作為映射函數,把質量感知特征映射為主觀質量分數。將隨機從數據庫中選擇的80%圖像用來訓練模型,然后將剩余圖像作為測試集并計算出其視覺質量分數。該實驗進行1 000次,然后將其中位數作為最終的結果。

圖1 失真屏幕內容圖像以及對應的特征圖和特征直方圖示例Fig.1 Examples of distorted screen content images,their feature maps,and feature histograms
為了測試所提算法的性能,本文在2個數據庫SIQAD[5]和SCID[19]上,將所提算法與其他評估算法進行對比實驗,實驗結果如表1和表2所示。SIQAD數據庫包含20張原始圖像和980張失真圖像,980張失真圖像有7種失真類型,每種失真類型有7種失真等級。這7種失真類型包括高斯噪聲(GN)、高斯模糊(GB)、運動模糊(MB)、對比度變化(CC)、JPEG 壓縮(JPEG)、JPEG2000壓縮(J2K),基于層劃分的壓縮(LSC)。SCID數據庫具有40張原始圖像和1800張失真圖像,失真圖像中有9種失真類型,每種失真類型有5種失真等級。這9種失真類型包括GN、GB、MB、CC、JPEG、J2K,顏色飽和度變化(CSC)、具有抖動的顏色量化(CQD),高效視頻編碼標準(HEVC-SCC)。這2個數據庫都提供了平均主觀得分差(DMOS)作為主觀評分。
本文使用3個常用指標來評估主觀和客觀評分之間的一致性:皮爾森線性相關系數(Pearson Linear Correlation Coefficient,PLCC),斯皮爾曼等級相關系數(Spearman Rank-order Correlation Coefficient,SRCC)和 根 均 方 根 誤 差 (Root Mean Squared Error,RMSE)。PLCC可用于評估預測的準確性,SRCC可用于評估預測的單調性,RMSE是評估預測一致性的一種方法。PLCC和SRCC值越高,算法的性能越好。相反,較小的RMSE表示更好的精度。
不同的圖像質量評估算法可能會產生不同范圍的分數,為了將各種評估算法進行比較,就需要把評估分數映射到共同的分數空間,這里使用邏輯斯蒂函數對評估分數進行映射:

式中:p1、p2、p3、p4和p5是5個擬合參數;q為擬合前數據集;z(q)為擬合后數據集。
為了證明本文提出的算法的優越性,本文將其與以下經典的質量評估算法進行比較:PSNR、
SSIM[1]、GMSD[2]、MAD(Most Apparent Distortion)[20]、SPQA[5]、SQI[6]、ESIM(Edge Similarity)[19]、GFM(Gabor Feature Model)[11]、NIQE[3]、IFC(Information Fidelity Criterion)[21]、BRISQUE[4]、GWH-GLBP(Gradient-Weighted Histogram of Local Binary Pattern calculated on the Gradient map)[17]、GSIM(Gradient Similarity)[22]以及NRLT[11]。在 這 些 評 估 算 法 中,SPQA、SQI、ESIM、GFM和NRLT是針對屏幕內容圖像設計的算法,其余的算法是為自然圖像設計的。
表1和表2分別列出了上述圖像質量評估算法在SIQAD數據庫和SCID數據庫上每種失真類型以及整體性能的測試結果。在2個表列出來的全參考算法中,每個測量指標(即PLCC、SRCC和RMSE)的最佳值用黑色粗體顯示,而無參考算法中的每個測量指標的最佳值用黑色粗體加下劃線顯示。這些用來比較的算法的程序源代碼都是從原始地址下載的。在表1中,對于SQI算法,失真類型上的RMSE值沒有提供。
從表1中可以看出,針對屏幕內容圖像設計的全參考算法,即SPQA、SQI、ESIM 和GFM,實現了比針對自然圖像設計的全參考算法更好的性能,即PSNR、SSIM、MAD 和GMSD。在數據庫SIQAD中,本文BES算法在所有無參考算法中取得最佳的性能,其中除了NRLT算法,其余算法都
是針對自然圖像提出的,只考慮了圖像部分的特征,忽略了文字部分的特點,使得性能不佳;NRLT算法結合亮度和結構特征來表示圖像,但是圖像中存在大量文字,文字對亮度的敏感度低于圖像部分,而本文BES算法利用圖像中存在大量邊緣這一特性,結合圖像的特殊布局來表示圖像,PLCC指標相比NRLT算法提高了2.63%。

表1 SIQAD數據庫上的實驗結果Table 1 Experimental results on SIQAD database

表2 SCID數據庫上的實驗結果Table 2 Exper imental results on SCID database
本文BES算法的整體性能甚至高于專門為屏幕內容圖像設計的全參考算法SPQA和SQI。其中,SPQA算法主要是考慮圖像的亮度以及銳度特征,SQI算法結合圖像局部結構相似性以及局部信息內容加權來計算圖像分數,但是這2個算法都沒有考慮圖像中文字存在大量邊緣這一特點,導致性能較低。在單個失真類型上,BES算法的性能除了在JPEG失真類型上略低于NRLT算法外,在其他失真類型上的性能都是無參考算法中最好的。
從表2中可以看出,在SCID數據庫中,BES算法的整體性能在3個指標上不僅高于對比的無參考算法,而且高于經典的全參考算法,即PSNR、SSIM、MAD、IFC和GSIM。其中,NRLT是對比方法中是先進的無參考算法,所提算法PLCC指標相比其提高了11.22%。在單個失真類型上,除了在GN、JPEG、J2K以及HEVC-SCC這4種失真類型上性能比其他無參考算法低以外,對于其余5種失真類型,BES算法的性能在無參考算法中都是最高的。
本文根據人類視覺系統特點提出了一種新的針對屏幕內容圖像的基于邊緣和結構的無參考質量評估(EBS)算法,此算法是基于邊緣信息和結構信息。提出的BES算法經實驗驗證,得到:
1)本文算法考慮到屏幕內容圖像具有特殊布局以及豐富邊緣這2個特征,利用Gabor濾波器和LBP算子分別提取邊緣和結構特征,并從5個尺度上提取特征,實現了與主觀感知較高的一致性。
2)本文算法可以實現對多種失真類型的屏幕內容圖像較好的質量評估效果,在數據庫SIQAD和SCID上的性能都優于經典的評估算法,甚至優于一些全參考算法。
通過實驗驗證,本文算法的屏幕內容圖像質量評估效果取得一定的提升,提高了與主觀感知的一致性。在未來,可以分別從圖像區域和文字區域考慮,進一步提高該圖像的質量評估效果。