基于IGM 和深度感知的立體圖像質(zhì)量評價

2019-10-31 08:18:26王永芳

上海大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年5期

朱蕓,王永芳,帥源

(上海大學(xué)通信與信息工程學(xué)院,上海200444)

由于3D圖像/視頻能給人以沉浸式立體體驗(yàn),因此3D產(chǎn)品在多媒體市場中越來越吸引人們的眼球.但是由于在3D內(nèi)容的捕獲、壓縮和傳輸過程中引入了不同程度的失真,降低了3D圖像/視頻的用戶體驗(yàn)質(zhì)量(quality of experience,QoE).因此,建立一個有效的3D體驗(yàn)質(zhì)量評價機(jī)制來保證用戶體驗(yàn)質(zhì)量顯得尤為重要.立體圖像客觀評價能夠自動提取立體圖像的特征來對圖像的質(zhì)量進(jìn)行預(yù)測,具有快速、穩(wěn)定、低物耗人耗的特點(diǎn),是質(zhì)量評價領(lǐng)域的研究熱點(diǎn).

現(xiàn)有的立體圖像質(zhì)量評價(stereoscopic image quality assessment,SIQA)方法模型直接將2D圖像質(zhì)量評價方法運(yùn)用到左右視點(diǎn)圖像上,得到相應(yīng)的質(zhì)量分?jǐn)?shù),然后對這2個部分的質(zhì)量分?jǐn)?shù)進(jìn)行加權(quán),得到立體圖像的質(zhì)量[1-3].但是,該方法沒有考慮立體圖像的特性,如深度感知、雙目視覺等,與人眼感受到的立體圖像質(zhì)量有很大差異.在2D圖像評價方法的基礎(chǔ)上,You等[4]提出了圖像質(zhì)量和視差圖像非線性組合的立體圖像的質(zhì)量；Benoit等[5]加入了視差信息,用2D圖像質(zhì)量評價方法C4[6]計(jì)算左右視點(diǎn)圖像的質(zhì)量,用基于結(jié)構(gòu)相似度(structural similarity index model,SSIM)的方法計(jì)算視差圖的質(zhì)量,并將這2個部分質(zhì)量融合成為最終的立體圖像的質(zhì)量；Yang等[7]通過計(jì)算絕對視差與傳統(tǒng)的2維圖像質(zhì)量評價方法相結(jié)合的方法計(jì)算立體圖像的質(zhì)量.以上方法雖然考慮了視差信息,但是模型的精確度依賴于視差估計(jì)算法,比較精確的視差估計(jì)算法會大大增加計(jì)算時間,因而這種算法無法應(yīng)用在實(shí)時視頻質(zhì)量評估中.

Shao等[8]通過訓(xùn)練,由立體圖像的單目視覺特征得到了雙目視覺特征,實(shí)驗(yàn)表明這些特征能有效地計(jì)算雙目感知質(zhì)量；Chen等[9]提出了一種基于雙目融合特性的立體圖像質(zhì)量評價方法,該方法用Gabor濾波器作為權(quán)值響應(yīng)因子,將左右圖像進(jìn)行雙目融合生成中央眼圖,將計(jì)算出的質(zhì)量作為立體圖像的質(zhì)量；Bensalma等[10]通過模擬雙目簡單和復(fù)雜細(xì)胞的信息處理過程,建立了基于雙目能量差異的立體圖像評價模型；Galkandage等[11]擴(kuò)展了基于雙目能量差異的評價方法,將雙目抑制等視覺特性加入到評估模型中；Wang等[12]從單個視點(diǎn)的質(zhì)量出發(fā),結(jié)合雙目抑制特性進(jìn)行3D質(zhì)量評估.人類的視覺特性非常復(fù)雜,還需要進(jìn)一步研究.

本工作從圖像質(zhì)量和深度感知質(zhì)量2個方面來評估立體圖像的體驗(yàn)質(zhì)量,對于圖像質(zhì)量,根據(jù)人類視覺系統(tǒng)的內(nèi)在推理機(jī)制(internal generative mechanism,IGM),將左右視點(diǎn)圖像分別分解成可預(yù)測部分和不確定部分.對于可預(yù)測部分提出采用基于灰度共生矩陣(gray level co-occurrence matrices,GLCM)的質(zhì)量評估方法；對于不確定部分提出采用基于視覺信息量的評估方法；對于深度感知質(zhì)量,則采用一種改進(jìn)的自然場景統(tǒng)計(jì)(natural scene statistics,NSS)模型來預(yù)測這部分質(zhì)量.最終,將圖像質(zhì)量和深度感知質(zhì)量融合為立體圖像的體驗(yàn)質(zhì)量.

1 基于IGM和深度感知的立體圖像評價算法

本工作提出的算法流程圖如圖1所示,用圖像質(zhì)量和深度感知質(zhì)量2個因素來衡量立體圖像的體驗(yàn)質(zhì)量.對于圖像質(zhì)量,根據(jù)自由能量理論和大腦的內(nèi)在推理機(jī)制[13]可知,大腦會對輸入的信息進(jìn)行分析,結(jié)合已有的先驗(yàn)知識對信息進(jìn)行推理和解讀,并且忽略無序的、不可預(yù)測的信息.由此,可將立體圖像左右視點(diǎn)分別分解成可預(yù)測部分Ip和不確定部分Iu.可預(yù)測部分包含了圖像的主要信息,采用基于灰度共生矩陣的質(zhì)量評估算法；不確定部分包含了無序的、不可預(yù)測的信息,采用基于視覺信息量的評估方法.對于深度感知質(zhì)量,采用一種改進(jìn)的自然場景統(tǒng)計(jì)模型對其進(jìn)行評估.最后,將圖像質(zhì)量和深度感知質(zhì)量融合成立體圖像體驗(yàn)質(zhì)量.

本工作參照文獻(xiàn)[13]的基于貝葉斯預(yù)測理論的AR模型來推理出圖像的主要內(nèi)容.該方法通過周邊像素χ={x1x2···xn}來預(yù)測當(dāng)前像素x,計(jì)算方法為i∈χ

式中：為x的預(yù)測值,I(x；xi)為x與周邊像素的互信息；為歸一化系數(shù)；ε為隨機(jī)噪聲,這里將χ塊的大小設(shè)為37×37.將輸入圖像分解成如圖2(b),(c)所示的2個部分.

圖1 算法流程框圖Fig.1 Framework of the proposed approach

圖2 圖像分解結(jié)果Fig.2 Result of the picture decomposition

1.1 基于灰度共生矩陣的可預(yù)測部分質(zhì)量評估

根據(jù)自由能量理論和人類視覺系統(tǒng)的內(nèi)在推理機(jī)制,立體圖像的可預(yù)測部分包含了圖像的主要信息,這部分信息受損會影響人對圖像內(nèi)容的理解.GLCM是一種通過研究灰度圖像的空間相關(guān)性來描述圖像特征的方法.圖像結(jié)構(gòu)的破壞必然會使圖像的空間相關(guān)性遭到破壞,因此可以利用GLCM計(jì)算可預(yù)測部分的質(zhì)量.

一幅灰度級為n的圖像的GLCM是一個n×n的矩陣[14],其元素為p(i,j|d,θ),表示距離為d、角度為θ的2個像素灰度級為i和j的概率.通常不直接將灰度共生矩陣作為圖像特征進(jìn)行分析,而是用其特征量來進(jìn)行的,這些特征量可以表示圖像的某些特性.在本工作中,提取的特征量如下.

(1)角二階矩(angular second moment,ASM).

ASM反映了灰度分布均勻程度和紋理粗細(xì)程度,ASM的值越大,表示圖像的紋理分布越規(guī)則,

式中：p(i,j|d,θ)是GLCM中的元素；i,j為元素的位置；d,θ為灰度圖像中2個像素之間的距離及角度,這里d=1,θ =0°,45°,90°,135°.

(2) 信息熵(entropy difference,END).

END描述了圖像的信息量,GLCM的信息熵描述了圖像的紋理的密集程度,END的值越大,圖像的紋理越趨于平坦,

(3)對比度(contrast,CON).

CON表示局部圖像的變化程度,代表紋理的銳化程度.當(dāng)圖像邊緣尖銳、有較深的紋理溝槽時,該值較大,

(4)相關(guān)性(correlation,COR).

COR表示圖像灰度的局部相關(guān)性,

對原始立體圖像左右視點(diǎn)和失真立體圖像左右視點(diǎn)的可預(yù)測部分,分別提取以上4個特征量F=(ASM,END,CON,COR),表示為通過原始圖像和失真圖像的特征量的相似度來衡量圖像的質(zhì)量(以左視點(diǎn)為例)：

式中：C1為常數(shù),C1=(0.03L)2,保證分母不為0；L為灰度級.

為了提取圖像在多個尺度上的失真情況,本工作將圖像轉(zhuǎn)化成3個不同灰度級的灰度圖,得到3個GLCM(4×4,8×8,16×16),一共得到3個相似性度量相似地,對于右視點(diǎn)也得到3個相似性度量那么可預(yù)測部分的質(zhì)量即為

式中,ω1,ω2,ω3為權(quán)重系數(shù),調(diào)整各部分的重要性.

1.2 基于視覺信息量的不確定部分質(zhì)量評估

圖像的不確定部分包含較多無序信息,該部分獨(dú)立于圖像的主要視覺信息,信號的能量直接表示內(nèi)容的不確定度[15],即視覺信息量.由此,不確定部分的質(zhì)量采用基于視覺信息量的質(zhì)量評估算法.不確定部分的信息量表示為

式中,Iu為圖像的不確定部分,N為圖像總的像素?cái)?shù)目.

對于原始、失真立體圖像的左右視點(diǎn)的不確定部分,分別計(jì)算視覺信息量得到左視點(diǎn)的不確定部分的質(zhì)量為

由人眼雙目視覺和視覺信息量之間的關(guān)系[16]可知,在雙目感知過程中,對立體圖像的質(zhì)量感知由含有較多信息量的視圖決定.因此,立體圖像不確定部分的質(zhì)量為

1.3 基于自然場景統(tǒng)計(jì)的深度感知質(zhì)量評估

立體圖像左右視點(diǎn)的差值圖表示物體的輪廓,也是立體圖像中視差變化劇烈的地方,一旦這些位置發(fā)生失真,就會使物體的深度感下降,從而降低立體圖像的感知質(zhì)量.因此,本工作對立體圖像左右視點(diǎn)作差,并利用自然場景統(tǒng)計(jì)模型提取統(tǒng)計(jì)參數(shù),根據(jù)統(tǒng)計(jì)參數(shù)的變化衡量圖像的深度感知質(zhì)量.通過實(shí)驗(yàn)發(fā)現(xiàn),歸一化差值圖并不能很好地?cái)M合成統(tǒng)計(jì)模型,如廣義高斯模型(generalized Gaussian distribution,GGD),故利用梯度幅度對歸一化差值圖進(jìn)行校正.

把左右視點(diǎn)差值記為ΔI,將其歸一化[17]：

校正后的歸一化差值為

校正后的歸一化差值滿足廣義高斯分布：

1.4 立體圖像質(zhì)量評估

立體圖像的體驗(yàn)質(zhì)量包括多方面的因素,不僅要考慮圖像質(zhì)量,還要考慮立體效果、舒適度等.對圖像的可預(yù)測部分和不確定部分的質(zhì)量進(jìn)行融合,作為圖像質(zhì)量[13],結(jié)合深度感知質(zhì)量融合為最終的立體圖像體驗(yàn)質(zhì)量[18]：

式中,Qp為可預(yù)測部分的質(zhì)量,Qu為不確定部分的質(zhì)量,為深度感知質(zhì)量.聯(lián)立式(8),(16),由BFGS(Broyden-Fletcher-Goldfarb-Shanno)優(yōu)化算法[19]獲得誤差最小時的參數(shù)值,ω1=0.15,ω2=0.7,ω3=0.15,ω4=0.85,ω5=0.15,η =0.75,γ =0.25.

2 實(shí)驗(yàn)結(jié)果

本工作在Waterloo-IVC 3D PhaseⅠ[20],PhaseⅡ[21]以及Live 3D PhaseⅡ[22]圖像庫上對所提算法的有效性進(jìn)行驗(yàn)證.以上3D圖像庫都含有對稱失真和非對稱失真的立體圖像,特別是Waterloo-IVC 3D圖像庫,含有不同失真類型、不同失真程度的2個視點(diǎn)的組合.

在實(shí)驗(yàn)過程中,將圖像庫中80%的圖像作為訓(xùn)練集,20%作為測試集.模型中的系數(shù)由訓(xùn)練得到,然后用訓(xùn)練好的模型對余下的20%的圖像進(jìn)行測試.本工作用2個常用的指標(biāo)來衡量模型的性能,分別是皮爾遜線性相關(guān)系數(shù)(Pearson linear correlation coeきcient,PLCC)和斯皮爾曼秩排序相關(guān)系數(shù)(Spearman rank order correlation coeきcient,SROCC).這2個系數(shù)越趨近于1,那么這個模型的性能就越好.

為了驗(yàn)證模型的有效性,將本算法與其他現(xiàn)有的算法進(jìn)行比較,這些算法分別為加入視差線索的文獻(xiàn)[4-5,7],以及加入雙目視覺特性的文獻(xiàn)[8-9,11-12].結(jié)果記錄在表1～3中,其中性能最好的2個算法的結(jié)果用黑體標(biāo)出.由表1～3可見,本算法在這3個圖像庫中都具有較好的性能.在Live 3D PhaseⅡ數(shù)據(jù)庫上,本算法的性能在對稱和非對稱失真的圖像中都與主觀評分有較高的一致性,且PLCC和SROCC都達(dá)到了0.9以上.雖然文獻(xiàn)[9]對稱失真數(shù)據(jù)庫中的性能較好,但是在非對稱失真數(shù)據(jù)庫中的性能不如本算法.文獻(xiàn)[12]在表2和3中的非對稱失真評估性能不如本算法,且其算法需要原始圖像,而本算法不需要任何參考圖像,在精確度和帶寬上有更好的權(quán)衡.在這2個數(shù)據(jù)庫中,基于視差圖的算法的性能都比較差,這是因?yàn)橐暡顖D的獲得不能做到很精確,易造成實(shí)驗(yàn)結(jié)果有偏差.基于雙目視覺的算法在不同的失真情況下更具有穩(wěn)定性,但總體上在對稱失真的情況下性能更好.本算法在不同數(shù)據(jù)庫中的實(shí)驗(yàn)結(jié)果都比較穩(wěn)定,且都具有較好的性能.

表1 不同算法在Waterloo-IVC 3D PhaseⅠ數(shù)據(jù)庫中的性能對比Table 1 Performance of different methods on Waterloo-IVC 3D Phase Ⅰdatabase

表2 不同算法在Waterloo-IVC 3D PhaseⅡ數(shù)據(jù)庫中的性能對比Table 2 Performance of different methods on Waterloo-IVC 3D Phase Ⅱdatabase

3 結(jié)束語

本工作提出了一種基于大腦內(nèi)在推理機(jī)制和深度感知的立體圖像評價算法.根據(jù)大腦的內(nèi)在推理機(jī)制,本算法將左右視點(diǎn)分別分解為可預(yù)測部分和不確定部分,其中對可預(yù)測部分采用基于GLCM的質(zhì)量評估算法,對不確定部分采用基于視覺信息量的質(zhì)量評估算法.本算法加入了深度線索,用改進(jìn)的基于NSS的模型評估深度感知質(zhì)量.最后,將以上3個部分的質(zhì)量融合為立體圖像的感知質(zhì)量.在Waterloo-IVC 3D和Live 3D PhaseⅡ數(shù)據(jù)庫中的實(shí)驗(yàn)結(jié)果表明,本算法優(yōu)于現(xiàn)有的立體圖像質(zhì)量評估算法,與主觀感受具有較高的一致性.下一步的研究工作是對人眼視覺系統(tǒng)的特性做進(jìn)一步的研究,并提取相應(yīng)的特征以提高立體圖像質(zhì)量評估算法的性能.

表3 不同算法在Live 3D PhaseⅡ數(shù)據(jù)庫上的性能對比Table 3 Performance of different methods on Live 3D Phase Ⅱdatabase