童 冰
(漳州職業技術學院信息工程學院,福建 漳州 363000)
隨著多媒體應用的迅速發展與普及,屏幕內容圖像(screen content image,SCD)的處理和傳輸變得越來越重要. 屏幕內容圖像(screen content image,SCI)是一種合成圖像,不僅包含計算機生成的圖形和文本,還包含數碼相機拍攝的自然圖像. 自然圖像具有豐富的顏色以及少量的顏色變化,而屏幕內容圖像具有更多的細線、清晰的邊緣以及少量的顏色變化,在屏幕內容圖像的獲取、壓縮及傳輸等過程中不可避免地產生各種失真. 例如,在傳輸階段會產生噪聲失真;在不同設備中進行屏幕分享時,會產生對比度變化失真;在圖像壓縮時會產生偽像現象. 由此,有必要提出一種有效的圖像質量評估算法來處理屏幕內容圖像. 根據參考原始圖像信息的程度,圖像質量評估算法可分為3種類型:無參考(no reference,NR)型、半參考(reduce reference,RR)型以及全參考(full reference,FR)型.
如何客觀地評估圖像質量,并確保從算法中得到的結果與人類視覺系統的感知具有較高的一致性,是圖像質量評估算法的關鍵所在. 峰值信噪比(PSNR)算法和均方誤差(MSE)算法僅考慮像素強度之間的差異,未考慮人類視覺系統的特點,得出的結果不能與主觀感知產生較高的一致性[1-2]. 結構相似性度量(SSIM)[2]、梯度相似性度量(GSIM)[3]、特征相似性度量(FSIM)[4]及信息加權的SSIM(IW-SSIM)[5]等算法加入了對人類視覺系統特點的考慮. 進一步考慮到具有清晰邊緣和輪廓的圖像內容對人類視覺系統更為敏感,許多學者提出基于邊緣信息的圖像質量評估算法[6-8]. Xue等[7]提出了梯度幅度相似度偏差(GMSD)的算法,僅使用梯度幅度相似度來表示圖像質量,復雜度非常低. Sheikh等[9]通過量化圖像信息的丟失及丟失的信息與圖像質量之間的關系,提出一種視覺信息保真度算法(VIF). 根據屏幕內容圖像的特點,Yang等[10]構建了一個用于屏幕內容圖像質量評估算法研究的大型數據集SIQAD,通過分析文本區域和圖像區域的特點,提出全參考算法SPQA. Fang等[11]提出SFUW算法,將圖像分割為圖像區域和文本區域,分別提取亮度特征和結構特征,進行相似度計算以獲得圖像的視覺質量. Ni等[12]構建了一個更大型的數據集SCID,并利用邊緣的3種特性計算失真圖像和參考圖像的相似性,得到圖像的質量分數. Gu等[13]在SSIM算法的基礎上加入對結構退化的測量,提出SIQM算法. 以上算法均為全參考算法,可與主觀感知產生較高的一致性,然而需要完整的原圖信息,在實際應用中存在較大的局限性.
無參考算法不需要任何原始圖像的信息,具有更大的應用前景. Fang等[14]結合局部紋理特征和全局亮度特征來表示失真圖像信息,提出一種無參考算法NRLT. Gu等[15]分別提取圖像復雜度、亮度信息、清晰度及屏幕內容統計信息4類特征,來評估失真圖像的質量. Shao等[16]利用稀疏表示框架提出一種無參考算法BLIQUP-SCI.
本文結合邊緣與亮度對圖像質量的影響,提出一種新的無參考屏幕內容圖像質量評估算法NRSVR. 由于人類視覺系統對邊緣信息高度敏感[17-18],而邊緣是屏幕內容圖像中文本區域和圖像區域中高頻部分的基礎組成成分,因此,NRSVR算法利用兩個具有不同標準差的高斯核提取失真圖像的邊緣信息,利用頻率分布直方圖統計圖像的邊緣特征. 同時,因亮度信息的變化也與圖像的視覺感知高度相關[19-20],故本算法通過局部歸一化失真圖像,去除視覺場景中的冗余信息[21],提取圖像的亮度信息,利用頻率分布直方圖統計圖像的亮度特征. 最后,選擇支持向量回歸作為映射函數,將提取的質量感知特征映射為主觀質量分數. 在兩個數據集上的實驗結果表明,所提的NRSVR算法可與主觀感知產生較高的一致性,效果比現有的大部分圖像質量評估算法更優秀.
屏幕內容圖像亮度和邊緣信息的變化會影響圖像的視覺質量[10,12]. 屏幕內容圖像和自然圖像的主要差別是屏幕內容圖像中存在文本區域,人們容易關注并理解圖像中的文字部分. 因此,本文利用邊緣和亮度信息來捕捉圖像的失真信息,算法框架如圖1所示. 首先,通過高斯差分函數計算失真圖像的邊緣圖,統計得到圖像的邊緣特征;接著,利用局部歸一化算法計算失真圖像的亮度圖,統計得到失真圖像的亮度特征;最后,利用支持向量回歸訓練感知質量特征到主觀質量分數的映射函數. 在特征提取中,根據特征提取的先后順序,邊緣特征提取比亮度特征提取更為重要,因而實際過程中先從邊緣特征提取出發.

圖1 NRSVR算法框架Fig.1 Framework of NRSVR algorithm
文獻[22]表明,利用高斯差分函數可有效提取圖像的邊緣信息. 將帶有不同標準差的高斯核相減,并將相減后的結果與失真圖像進行卷積運算,由此獲得失真圖像的邊緣圖,計算公式如下:
E(x,y)=|Gσ1,σ2(x,y)?I(x,y)|,
(1)
式中,“?”表示卷積運算;I(x,y)表示圖像中位置(x,y)處的像素值;E表示得到的邊緣圖;σ1和σ2為高斯核的標準差;Gσ1,σ2(x,y)表示帶有不同標準差的高斯核的差,計算公式為:
Gσ1,σ2(x,y)=G(x,y;σ1)-G(x,y;σ2).
(2)
G(x,y;σ)表示帶有標準差σ的高斯核,計算公式為:
(3)
直接利用頻率分布直方圖對圖1的絕對值進行統計,得到失真圖像的邊緣特征. 將直方圖分組個數設置為10,可用一個10維向量{f1,f2,…,f10}來表示邊緣特征,計算公式如下:
(4)

(5)
式中,k表示特征向量中的第k個元素,范圍是[1,10];X和Y分別表示圖像的長度和寬度;z(k)表示直方圖第k個分組的取值范圍.
亮度信息可很好地反映出圖像的失真信息,進而捕捉到圖像質量的變化[14]. 本文利用局部歸一化計算圖像的亮度圖:
(6)

(7)
(8)
式中,(x,y)為像素位置;I(x,y)為位置(x,y)處圖像I的像素值;I′(x,y)為圖像I歸一化后位置(x,y)處圖像I的像素值;C為常數,防止分母為零;M和L為歸一化窗口大小,設M=L=7;ω(m,l)是一個二維圓形對稱高斯加權函數.
利用頻率分布直方圖對圖I′的絕對值進行統計,得到失真圖像的亮度特征. 同樣將直方圖的分組個數設置為10,用一個10維向量{t1,t2,…,t10}來表示亮度特征,用式(4)和(5)來計算向量中的元素.
由于方向信息也可表示視覺場景中的內容[23-24],且相鄰像素間的規律也會因失真的出現而發生變化[21],因此,在提取亮度特征時加入對相鄰像素間關系的考慮. 將圖I′中的像素點沿水平、垂直、主對角線和副對角線4個方向相乘,如圖2所示,可得4張亮度圖,計算公式為:

圖2 像素對沿4方向的乘積Fig.2 The product of pixel pairs in four directions
H(x,y)=I′(x,y)I′(x,y+1),
(9)
V(x,y)=I′(x,y)I′(x+1,y),
(10)
D1(x,y)=I′(x,y)I′(x+1,y+1),
(11)
D2(x,y)=I′(x,y)I′(x+1,y-1).
(12)
利用式(4)和(5)對圖H、V、D1和D2進行特征統計,式(4)中x∈{1,2,…,X-1},y∈{1,2,…,Y-1},因而可得40維特征向量,加上上一步驟的10維向量,對于每張失真圖像,可用一個50維向量來表示圖像的亮度信息. 圖3顯示了一張典型的屏幕內容圖像以及3種失真類型圖像,及其各自對應的邊緣圖、亮度圖和特征直方圖.

圖3 特征圖和直方圖示例Fig.3 Example of characteristic graph and histogram
由上述計算方法,一張失真屏幕內容圖像可在一個尺度上得到一個60維的特征向量,分別包括一個10維邊緣特征向量和一個50維亮度特征向量. 由于人類視覺系統獲取圖像內容過程是由粗略到細致[25],要更好地表示圖像特征,需從3個尺度上對圖像進行特征提取,總共可得一個180維的特征向量來表示失真圖像信息. 選擇具有徑向基函數內核的SVR作為映射函數,將所提取的質量感知特征映射為質量分數. 操作中,隨機選擇數據集中80%的數據(16張原始圖像對應的失真圖)作為訓練集,剩余的(4張原始圖像對應的失真圖)作為測試集. 實驗執行1 000次,將所得數據的中位數作為圖像的最終質量分數.
SIQAD數據集[10]包含20張參考圖像和980張失真圖像,共分為7種失真類型(即JPEG壓縮(JPEG)、高斯噪聲(GN)、基于層劃分的壓縮(LSC)、JPEG2000壓縮(J2K)、高斯模糊(GB)、運動模糊(MB)和對比度變化(CC)),每種失真類型又有7種失真等級. SCID數據集[6]包含40張參考圖像及1 800張失真圖像,共分為9種失真類型(即GN、GB、MB、CC、JPEG、J2K、具有抖動的顏色量化(CQD)、高效視頻編碼-屏幕內容編碼(HEVC-SCC)和顏色飽和度變化(CSC)),每種失真類型又有5種失真等級.
如圖3所示,a為屏幕內容圖像,其中a(1)是參考圖像,a(2)~a(4)分別為高斯噪聲圖、高斯模糊圖、JPEG圖;b和d分別為與a一一對應的邊緣圖和亮度圖;c和e分別是與a一一對應圖像的邊緣特征直方圖和亮度特征直方圖.
本文使用皮爾森線性相關系數(PLCC)、斯皮爾曼等級相關系數(SROCC)和根均方誤差(RMSE)來評估算法的性能. PLCC、SRCC和RMSE可評估預測結果的準確性、單調性和一致性. 其中,PLCC和SRCC值越高,算法的性能越好;而RMSE的值越低,算法性能越好. 3個指標的計算公式如下:
(13)
(14)
(15)

由于不同的圖像質量評估方法會產生不同的分數范圍,本文使用邏輯斯蒂函數將圖像質量分數非線性回歸到共同的分數空間:
(16)
式中,a1、a2、a3、a4、a5表示5個擬合參數.
為了驗證NRSVR算法的優越性,將NRSVR算法與其他經典圖像質量評估算法在SIQAD數據集和SCID數據集上進行對比,算法分別為:PSNR、SSIM[2]、VIF[9]、SPQA[10]、GSS[26]、ESIM[12]、NIQE[27]、DIIVINE[28]、BRISQUE[21]、BQMS[29]、SIQE[15]、ASIQE[15]、IL-NIQE[30]、BLIINDS-II[31]、BLIQUP-SCI[16]和NRLT[14].
表1中所示為NRSVR算法與其他無參考算法在SCID數據集上的實驗結果. 從表1可以看出,針對屏幕內容圖像設計的算法BLIQUP-SCI、BQMS、SIQE、ASIQE、NRLT和NRSVR均取得了比其余針對自然圖像設計的算法更好的性能,說明由于兩者在圖像內容上存在明顯差別,因此針對自然圖像設計的算法不能直接應用于屏幕內容圖像. 同時,NRSVR算法在3個指標上均取得最優值,且PLLC值比其他算法中的最優值高了將近20%.

表1 NRSVR算法與其他無參考算法在SCID數據集上的實驗結果Table 1 Experimental results of NRSVR algorithm and other unreferenced algorithms on SCID dataset
將NRSVR算法與其他算法在SIQAD數據集上進行比較,如表2所示. 表2不僅列出了算法的整體性能,還列出了每種失真類型的實驗結果,其中”ALL”一行表示將所有失真類型混合在一起時的整體性能.
從表2可以看出,全參考算法算法普遍可以取得比無參考算法更好的性能,這是由于全參考算法使用了參考圖像的信息,其中ESIM算法的3個指標在所有對比方法中最優. NRSVR算法的整體性能在所有無參考算法中最優,超過了大部分的全參考算法,且在單個失真類型上的性能在無參考算法中大部分也是最優的.

表2 NRSVR算法與其他全參考或無參考算法在SIQAD數據集上的實驗結果Table 2 Experimental results of NRSVR algorithm and other all reference or no reference algorithms on SIQAD dataset
將質量感知特征分為邊緣特征和亮度特征,單獨利用這兩個特征來訓練評估模型,實驗結果如表3所示. 從表3可以看出,當結合使用兩個特征時,算法性能最好.

表3 兩個數據集上不同特征的實驗結果Table 3 Experimental results of different features on two datasets
本文根據人類視覺系統對圖像中邊緣和亮度信息敏感的特點,提出一種基于SVR的無參考屏幕內容圖像質量評估算法NRSVR,利用高斯差分函數計算失真圖像的邊緣圖,通過局部歸一化計算失真圖像的亮度圖,使用頻率分布直方圖對邊緣圖和亮度圖進行特征提取,利用支持向量回歸將提取的質量感知特征映射為主觀質量分數. 實驗結果表明,在預測失真圖像質量上,NRSVR算法可以取得比大部分算法更高的準確性.