文繼李,丁立新,萬潤澤,鄒楨蘋
WEN Jili1,DING Lixin1,WAN Runze1,ZOU Zhenping2
1.武漢大學 計算機學院,武漢 430072
2.武漢大學 經濟與管理學院,武漢 430072
1.School of Computer Science,Wuhan University,Wuhan 430072,China
2.School of Economics and Management,Wuhan University,Wuhan 430072,China
圖像質量評價是當前圖像處理領域的一個重要研究方向,分為主觀評價和客觀評價兩大類。客觀評價方法相比較于主觀評價方法具有簡單、實時、可重復、易集成等優勢,因此發展十分迅速,成為圖像質量評價體系中的熱門研究方向[1]。在圖像采集、壓縮和傳輸期間,由于種種原因可能會導致加性噪聲、模糊和壓縮等一些常見的失真。客觀圖像質量評價算法可以分為以下三類[2]:(1)全參考圖像質量評價(Full Reference Image Quality Assessment,FR-IQA);(2)部分參考圖像質量評價(Reduced Reference Image Quality Assessment,RR-IQA);(3)無參考圖像質量評價(Non-Reference Image Quality Assessment,NR-IQA)。全參考圖像質量評價算法通過利用原始圖像的全部信息來計算原始圖像與失真圖像之間的感知誤差,并綜合這些誤差獲得對失真圖像質量的評價[3]。峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結構相似性測度[4](Structural Similarity Index Measure,SSIM)、特征相似性測度[5](Feature Similarity Index Measure,FSIM)是全參考圖像質量評價中的典型算法。部分參考圖像質量評價算法[6]僅利用原始圖像的部分信息來估計失真圖像的視覺感知質量,它的優勢是減小了數據量的傳輸,不足之處在于對提取的特征十分敏感[7]。參考差分熵[6]和基于結構相似度評價的部分參考圖像質量評價方法[8]是最近所提出的算法。最后一類圖像質量評價算法是無參考圖像質量評價,它一般基于圖像統計特性,在無需原始圖像信息的情況下給出失真圖像質量的評價,大大降低了信息傳輸量。正是基于此原因這類算法蓬勃發展,受到許多科研人員的關注。

圖1 本文方法框架圖
近些年來,很多學者嘗試構建了很多模型來統計自然圖像的特性,并應用到無參考圖像質量評價。自然場景統計(Natural Scene Statistics,NSS)已經被證明能很好地模擬人眼視覺系統[9]。NSS在無參考圖像質量評價算法中得到成功的應用。如Moorthy等[10]提出基于兩步模型的無參考質量評價算法,將NSS模型應用到Wavelet域,從亮度小波系數中提取特征。Saad等[11]成功將NSS模型推廣到離散余弦變換域,從DCT域提取統計特征。Liu等[12]將NSS模型運用到Curvelet域,從Curvelet域提取特征。但上述質量評價方法都將圖像映射到不同的坐標域,增大了計算復雜度。
現有研究發現,人類視覺系統在處理一個較為復雜的場景時,會首先將其視覺注意力集中在該場景的少數幾個對象中,這種處理機制可以令處理能力和容量都有限的大腦對這些顯著對象進行優先處理,力求在最短時間內獲取場景中的主要信息,此過程稱為視覺注意過程。顯然,如果能在圖像處理和圖像分析的過程中,提供上述的感興趣區域[13],也能在某種程度上將類似人類視覺系統的處理能力應用到計算機系統之中,在降低圖像處理計算量的同時,有效提高計算機對信息處理的效率,因此ROI具有極其重要的應用價值。
基于上述分析,本文提出了一種基于興趣區域和自然圖像統計特性的無參考圖像質量評價方法。考慮到人眼觀察圖像時注意力主要集中在圖像的興趣區域,該方法分別度量失真圖像的興趣區域和非興趣區域與原始圖像在非下采樣Contourlet域的偏差,通過賦予不同的權重得到失真圖像的質量評分。實驗證明該方法可以對JPEG2000、JPEG、高斯噪聲、高斯模糊和FastFading等多種失真類型進行質量評價,與主觀感知具有良好的一致性,并且不用進行訓練。本文算法框架如圖1所示。
Itti等[14]在1998年提出了一種興趣區域算法模型,它將人眼的興趣區域看成是顯著特征像素點的集合,通過找到這些像素點的集合確定出興趣區域。該模型首先提取亮度、顏色和方向3個視覺特征,運用高斯濾波生成特征金字塔,利用中央-周邊差求取特征在不同尺度上的差值,然后對它進行歸一化,合成各類特征的顯著性特征圖,并融合生成顯著圖,最后利用WTA網絡提取出感興趣區域。圖2是Itti模型圖。

圖2 Itti模型
2.1.1 亮度顯著圖
設r(t)、g(t)和b(t)分別表示原始圖像中的紅色、綠色和藍色通道,其中t表示圖像的尺度。將原始圖像的尺度設置為0,則亮度特征圖的計算公式為:

高斯金字塔的結構非常形象準確地模擬了人眼的多分辨率特性。使用高斯金子特處理亮度圖,產生9級金字塔圖像。I(σ)表示亮度金字塔圖像,其中σ∈{0,1,…,8},采用中央-周邊差算法跨尺度合并計算不同分辨率圖像之間的差異來提取圖像特征圖,亮度特征計算為:

其中,c是非線性尺度空間中表示的高分辨率的尺度因子;s是對應的低分辨率下的尺度;c∈{2,3,4},s=c+δ,δ∈{3,4};Θ是中央-周邊差算符,表示將I(s)放大到I(c)的尺寸后,兩圖像對應像素相減,再取絕對值后,產生亮度特征圖。將上述特征圖進行合并得到亮度顯著圖,公式為:

其中,⊕表示多個尺度下相應的特征顯著圖經線性差值調整到同一大小后相加;N(?)為分別將各個顯著圖的顯著值標準歸一化到(0,1)區間。
2.1.2 顏色顯著圖
在計算顏色特征圖之前,計算亮度圖像I中的最大值,當兩亮度圖像中某個像素小于最大值的1/10時,設置彩色圖像的對應點r、g、b值為0。使用下列方式重新創建4個顏色分量:

其中,R、G、B表示標準化后的顏色分量矩陣。使用高斯金字塔分別處理RR、GG、BB、Y,形成4個圖像金字塔。RR(σ)、GG(σ)、BB(σ)、Y(σ)分別表示各個金字塔中的圖像。同樣σ∈{0,1,…,8}。顏色特征計算為:

將上述特征圖進行合并得到顏色顯著圖,公式為:

2.1.3 方向顯著圖
Gabor濾波器與生物視覺皮層方向選擇神經元的感受野脈沖響應相類似。應用Gabor濾波器分別提取{0°,45°,90°,135°}4 個方向的方向特征。用O(σ,θ)表示Gabor金字塔圖像,同樣σ∈{0,1,…,8}。方向特征計算為:

其中,O(c,θ)和O(s,θ)分別表示方向為θ金字塔中的第c級和第s級金字塔圖像。通過Θ算子產生方向特征圖。將上述特征圖進行合并得到方向顯著圖,公式為:

2.1.4 綜合顯著圖
將上述亮度顯著圖、顏色顯著圖、方向顯著圖線性相加,得到綜合顯著圖:

由于傳統的Itti模型只考慮了亮度、顏色、方向3個視覺特征,難以提取完整的興趣區域,本文對傳統Itti模型進行改進,加入紋理特征和邊緣特征,改進后的Itti模型如圖3所示。

圖3 改進的Itti模型
2.2.1 紋理顯著圖
當前的紋理特征提取方法可以分為結構方法、統計方法、模型方法和變換方法。其中Gabor小波是一種重要的基于變換的紋理特征提取方法。該方法借鑒心理生理學的研究成果,模擬了一些方向可選神經元(如簡單信元、復合信元)的計算機制,通過把Gabor函數作為小波變換的基函數,來實現方向和尺度不變的特征提取。長期以來,Gabor小波在基于內容圖像檢索、模式識別和計算機視覺等領域得到了廣泛的應用[15]。本文利用Gabor小波提取濾波后圖像的紋理特征。紋理特征圖可以用式(14)計算。

將上述特征圖進行合并得到紋理顯著圖,公式為:

2.2.2 邊緣顯著圖
圖像的邊緣是圖像特征識別中的重要組成部分,目前已有許多邊緣提取算法,諸如Roberts邊緣提取算法、Sobel邊緣提取算法、Prewitt邊緣提取算法等。Candy邊緣檢測算法不僅可以有效地抑制噪聲,而且使用兩個閾值檢測強的和弱的邊緣,如果它們被連接到邊緣,那么輸出只包含弱邊緣。因此,此方法更適合用于檢測真實的弱邊緣。本文采用Candy邊緣檢測算法來提取圖像的邊緣特征。邊緣特征圖可以用式(16)計算:

將上述特征圖進行合并得到邊緣顯著圖,如式(17)所示。

2.2.3 改進后Itti模型的綜合顯著圖
最終得到改進的Itti模型,圖像興趣區域通過5個顯著圖的線性相加得到,公式如下:
本校為化工原理認識實習提供了充足的資金支持,由化工原理教研室聯系實習場所,近幾年來,先后聯系了青島市內的化工廠(現已遷至董家口)、青島雙桃精細化工(集團)有限公司(現已遷至平度市)、青島石油化工廠、青島污水處理廠(勝利橋)、青島市中等職業技術學校和校內仿真實習機房等場所.認識實習的學時非常短,只有一周時間,如何在短暫的時間內完成所有的實習任務,并確保認識實習的質量,這是認識實習面臨的主要問題;同時,在工廠實習首先必須滿足企業安全生產的要求,并且保證學生的安全.

其中,I表示亮度;C表示顏色;O表示方向;T和E分別是紋理和邊緣。
如圖4所示,(a)為原始圖像,(b)是Itti模型提取出的顯著圖,(c)是改進后的Itti模型提取出的顯著圖。對于(b)和(c),白色區域代表興趣區域,黑色區域代表非興趣區域。白色部分的亮度越高,人眼的興趣程度就越高。可以看到在加入紋理特征和邊緣特征后的Itti模型提取出的顯著圖更能反映人眼的興趣區域。

圖4 顯著圖對比
非下采樣Contourlet變換(Nonsubsampled Contourlet Transform,NSCT)是Cunha等[16]提出的,NSCT去掉了Contourlet兩級變換中的下采樣過程,構造了相應的非下采樣濾波器,使得NSCT不僅具有多尺度、良好的空域和頻域局部特性以及多方向特性,還具有平移不變性,各子帶圖像之間具有相同尺寸大小等特性,其結構如圖5所示。本文采用NSCT對興趣區域和非興趣區域進行圖像統計特性提取。

圖5 非下采樣Contourlet變換濾波器組結構圖
NSCT對應的濾波帶具有更好的頻域選擇性和規則性,能夠得到更好的子帶分解,理想的頻帶分解圖如圖6所示[17]。假設用I(x,y)表示圖像,其中0<x≤M,0<y≤N。I通過非下采樣塔式濾波器組多尺度分解成L個高頻子帶和一個低頻子帶,每個高頻子帶又被非下采樣方向濾波器組(Nonsubsampled Directional Filter Banks,NSDFB)分解成若干個方向的帶通子帶,從而得到2kl個帶通子帶圖像,其中1<l≤L。分解方程由下式給出:

其中,C1是低通子帶,是由NSDFB分解的帶通方向子帶。對于每個子帶Cj,一個給定像素點(x,y)的頻率系數由Cj(x,y)來表示,其中j=2,…,

圖6 非下采樣Contourlet變換頻域分解圖
由于非下采樣輪廓變換的多尺度分解和方向分解這兩個過程是相互獨立的,可以將每個頻帶視為獨立的,并從中提取特征。
早在20世紀80年代,Field就指出自然場景的統計信息與人類大腦皮層細胞的響應呈對數關系[18]。本文通過NSCT將圖像分解為3層8個方向共24個子帶。拉普拉斯金字塔濾波器和方向濾波器組分別選用“maxflat”塔式分解和“dmaxflat7”方向濾波器組。對于每個子帶通過式(20)計算分解子帶系數的對數作為特征。

其中,E為子帶的特征值;N為每個子帶的像素個數;C為子帶的系數。

圖7 dancers和其5種失真類型子帶能量分布圖
從圖7中可以看出,不同的失真類型會在不同程度上破壞自然圖像的能量統計特性,可以通過圖像子帶能量的變化來反映圖像的質量。
Mittal等通過實驗分析認為一幅圖像的視覺質量可通過計算圖像MVG模型和自然圖像MVG模型之間的距離度量,通常自然圖像的MVG模型是通過統計圖像庫中無失真的自然圖像得到[20]。通過提取原始圖像的統計特性,分別計算其與失真圖像興趣區域統計特性和非興趣區域統計特性的距離獲得失真圖像興趣區域和非興趣區域的質量分數。圖像的統計特性采用多元高斯分布(Multivariate Gaussian,MVG)模型[21]。MVG模型公式如式(21)。

其中,(x1,x2,…,xk)表示計算得到的統計特性;v表示MVG模型的均值;Σ表示MVG模型的協方差。距離計算公式如式(22)。

其中,vt和vn分別是失真圖像和自然圖像MVG模型的均值向量;Σt和Σn分別是失真圖像和自然圖像MVG模型的協方差矩陣。Quality值越大意味著失真程度越大。通過式(22)分別計算出興趣區域Q1和非興趣區域Q2的質量分數,通過式(23)得到失真圖像的總分。

其中,λ表示興趣區域權重值,這里取λ=0.7。
為了驗證本文方法的有效性,在LIVE數據集上進行驗證,該數據集通過29幅原始圖像經過5種失真處理生成了共779幅失真圖像,同時該數據集也提供了DMOS值作為客觀圖像質量評價的標準。本文使用了兩種類型的統計分析方法來驗證所提方法是符合人類視覺系統(Human Visual System,HVS)特性的評價指標的。第一種類型的分析方法是評估客觀方法預測單調性的斯皮爾曼等級相關系數(SROCC);另一種類型的分析方法是評估客觀方法預測精度的皮爾遜線性相關系數(PLCC)和均方根誤差(RMSE)。PLCC和SROCC的值越接近于1表示與人類的視覺感知越一致,RMSE的值越小則表示誤差越小,與主觀感知越一致。
根據視頻質量專家組(Video Quality Experts Group,VQEG)的建議[22],客觀算法對圖像質量主觀評價的預測值具有一定的非線性,因此,利用客觀算法對圖像質量評價時首先應當去除這種非線性因素,然后再進行相關性驗證。本文選用的邏輯回歸方法是:

其中,β1、β2、β3、β4、β5是回歸參數;Q和Qp分別是回歸前和回歸后的預測圖像的質量評分。
本次實驗硬件環境為Intel酷睿i7處理器和8 GB內存,軟件環境使用Windows7操作系統和MATLAB2014b開發環境。表1、表2和表3給出了一種比較成熟的全參考算法PSNR和幾種比較先進的無參考算法BRISQUE[23]、NIQE[24]、SSEQ[25],與本文提出的算法ROI-NR進行比較的結果。從實驗結果可以看出,本文算法在單種失真類型上的性能要比PSNR和NIQE算法好,與BRISQUE和SSEQ各有優勢。在整體上也要優于PSNR和NIQE算法,并且接近BRISQUE和SSEQ的性能。但是ROI-NR不需要訓練,這一點要優于其他兩種性能相近的無參考圖像質量評價算法。

表1 Pearson線性相關系數(PLCC)

表2 Spearman等級相關系數(SROCC)

圖8 客觀分數和主觀DMOS值擬合曲線

表3 均方根誤差(RMSE)
傳統的PSNR算法基于像素域對參考圖像和真實圖像之間的誤差進行簡單的數字統計。雖然計算簡單,物理意義比較明確,但沒有考慮到像素間的相關性,不能充分地考慮人眼視覺特性。而ROI-NR算法則充分考慮了圖像的自然統計特性,在非下采樣Contourlet域提取圖像的特征,更加能夠反映人眼的視覺特性。NIQE算法通過測量失真圖像統計特征與自然圖像統計特征之間的距離來預測圖像質量,在這一點上和ROI-NR算法一樣都不需要訓練。但是,NIQE算法在篩選興趣區域時只考慮了對比度這一個因素,相較于ROI-NR算法綜合考慮了亮度、顏色、方向、紋理和邊緣5個因素,ROI-NR算法提取出的興趣區域更能反映人眼特性。綜上所述,PSNR算法和NIQE算法的評價效果較ROI-NR算法偏低。
圖8給出了本文算法對測試圖像預測的質量得分與主觀DMOS值對比的散點圖,結果顯示本文算法與主觀感知具有較好的一致性。
本文算法首先對Itti模型進行改進,然后利用改進后的Itti模型提取興趣區域和非興趣區域,通過賦予興趣區域更大的權重來計算失真圖像與自然圖像在非下采樣Contourlet域的統計特性的差異從而獲得圖像的質量分數。正如實驗結果得出的一樣,本文算法適用于多種失真類型,與人類主觀感知有較好的一致性并且不用訓練。但是本文算法對快速衰落失真的評價還有待提高,尋找更有效的興趣區域提取算法,提高算法性能是下一步的研究方向。