齊峰 趙德斌

摘 要:3D圖像被認(rèn)為是多媒體技術(shù)的重要標(biāo)志,其中,立體圖像質(zhì)量對3D圖像發(fā)展起到至關(guān)重要的作用。不同于傳統(tǒng)的2D圖像質(zhì)量評價(jià),在3D圖像質(zhì)量評價(jià)中引入關(guān)于體驗(yàn)質(zhì)量(QoE)問題的新挑戰(zhàn),因此,本文提出一個(gè)基于雙眼視覺感知特征一致性的立體圖像體驗(yàn)質(zhì)量評價(jià)算法。具體地,先對兩個(gè)視點(diǎn)圖像提取像素梯度作為視覺感知的低層次特征,再用梯度方向直方圖特征(HOG)建立立體圖像的視覺感知特征向量,然后,由支持向量回歸(SVR)方法來學(xué)習(xí)視覺感知特征與立體圖像體驗(yàn)質(zhì)量得分的關(guān)系,最后,通過訓(xùn)練好的SVR模型來預(yù)測立體圖像體驗(yàn)質(zhì)量。實(shí)驗(yàn)結(jié)果表明所提算法能夠有效地預(yù)測立體圖像體驗(yàn)質(zhì)量。
關(guān)鍵詞:立體圖像;QoE;HOG特征;支持向量回歸
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)06-
Abstract: 3D image is regarded as milestone in the multimedia technologies. Stereoscopic image quality plays an important role in the development of 3D image. Different with the traditional 2D image quality assessment, a new challenge of Quality of Experience (QoE) is introduced in 3D image quality assessment. Therefore, based on the symmetry of binocular visual perception, this paper proposes a stereoscopic image QoE assessment model. Specifically, the pixel gradients are extracted as low-level features of visual perception from the two views image. Then, histograms of oriented gradients (HOG) is used to establish visual perception features vector for stereoscopic image. Next, the relationship between visual perception features and subjective QoE scores can be learned by the training procedure of SVR. Finally, stereoscopic image QoE score is predicted by the trained SVR. Experimental results indicate that the proposed model is efficient in QoE for stereoscopic image.
Keywords: Stereoscopic Image Quality; QoE; HOG Feature; SVR
0 引 言
近年來,隨著3D技術(shù)的發(fā)展,3D圖像為觀眾創(chuàng)造了逼真的臨場體驗(yàn)。相比于傳統(tǒng)的2D圖像,3D圖像的采集、處理、傳輸和顯示等都需要更為復(fù)雜的技術(shù),同時(shí),由于人眼雙目視覺的復(fù)雜性,目前的立體圖像除了存在著傳統(tǒng)2D圖像失真的問題,如壓縮引起的圖像降質(zhì)等;還有視覺不舒適、立體效果不自然、體驗(yàn)質(zhì)量不佳等立體圖像所特有的新問題。體驗(yàn)質(zhì)量( QoE,Quality of Experiences)是一個(gè)以用戶為核心并考慮影響體驗(yàn)質(zhì)量各種因素的一個(gè)總體概念[1],盡管有研究者對2D圖像或視頻的QoE做過一些研究工作,但由于人眼單目視覺和雙目視覺的本質(zhì)區(qū)別,2D圖像或視頻的QoE 不能經(jīng)過對兩個(gè)視點(diǎn)QoE簡單疊加直接應(yīng)用于3D 圖像的體驗(yàn)質(zhì)量評價(jià)(3DQoE),在3DQoE評價(jià)中,需要更多地考慮人眼雙目視覺特性。
由于人眼是立體圖像的最終接收者,人的主觀體驗(yàn)感受是對立體圖像質(zhì)量的最直接反映,各種立體圖像處理技術(shù)的最終目的也是為了提升人們對立體圖像的主觀體驗(yàn)質(zhì)量,這些主觀體驗(yàn)質(zhì)量包括立體圖像的圖像質(zhì)量(如,清晰度、色度飽和度、紋理表現(xiàn)程度等),深度感知質(zhì)量,觀看立體圖像的舒適度和視疲勞程度,與真實(shí)場景相比是否逼真、自然等。
目前對3DQoE的研究分為主觀評價(jià)和客觀評價(jià)。對于主觀評價(jià),VQEG[2]、EPFL(洛桑聯(lián)邦理工學(xué)院)[3]等機(jī)構(gòu)采用不同失真強(qiáng)度、視差水平或攝像機(jī)間距建立用于3DQoE評價(jià)的立體圖像數(shù)據(jù)庫,但由于雙眼視覺系統(tǒng)的復(fù)雜性及現(xiàn)有立體圖像技術(shù)的限制,人們還不能對空間場景中的目標(biāo)進(jìn)行“完美”建模,這也使得無法得到可作為參考源的立體圖像,從而加大了對立體圖像主觀體驗(yàn)質(zhì)量的評價(jià)難度。目前對3DQoE的客觀評價(jià)還不多,Chen等人對立體圖像的雙目融合質(zhì)量、深度感知質(zhì)量和舒適度綜合得到其體驗(yàn)質(zhì)量[4],Xing等人通過測量立體顯示的串?dāng)_程度得到體驗(yàn)質(zhì)量[5],Liu等人提出一個(gè)3DQoE質(zhì)量預(yù)測模型,并將其用于控制3D移動視頻的轉(zhuǎn)碼[6]。盡管這些模型推動著3DQoE評價(jià)的研究,但是其準(zhǔn)確性、普適性和可靠性還有所欠缺[1],如何建立有效的3DQoE評價(jià)體系是立體圖像質(zhì)量評價(jià)的一個(gè)新的研究內(nèi)容。
人眼在觀看立體圖像時(shí),需要對雙眼感知到的視覺信息進(jìn)行融合,在融合過程中,需要雙眼視覺感知特征具有高度的一致性,如果這種一致性被破壞將導(dǎo)致立體圖像體驗(yàn)質(zhì)量不佳的情況,因此,本文提出一個(gè)基于雙眼視覺感知特征一致性的立體圖像體驗(yàn)質(zhì)量評價(jià)算法。首先,根據(jù)像素梯度能夠?qū)θ搜垡曈X感知的低層次特征進(jìn)行有效描述,分別計(jì)算立體圖像左、右視點(diǎn)圖像的梯度,其次,計(jì)算梯度方向直方圖特征(HOG)作為立體圖像的視覺感知特征向量,然后,由支持向量回歸(SVR)生成的預(yù)測函數(shù)來學(xué)習(xí)雙眼視覺感知特征與立體圖像體驗(yàn)質(zhì)量得分的關(guān)系,最后,通過訓(xùn)練好的預(yù)測函數(shù)來評價(jià)立體圖像體驗(yàn)質(zhì)量。實(shí)驗(yàn)結(jié)果表明所提算法能夠有效地預(yù)測立體圖像體驗(yàn)質(zhì)量。本文所提算法可以很好地解決立體圖像體驗(yàn)質(zhì)量評價(jià)的基準(zhǔn)深度圖依賴性問題,具有更廣泛的3D應(yīng)用場景,同時(shí)所提算法的參數(shù)較少,具有較低的計(jì)算復(fù)雜度。
1視覺感知特征提取
1.1像素梯度
2 QoE計(jì)算
在觀看立體圖像或視頻時(shí),雙眼獲得的視覺信息經(jīng)過融合才會形成可感知的單眼圖像,而很多因素都會阻礙雙眼融合,雙眼圖像的非一致性就是其中一個(gè)主要因素。由于人眼對圖像的結(jié)構(gòu)特征高度敏感,結(jié)構(gòu)特征是人們感知、理解圖像的關(guān)鍵,雙眼融合就包括對雙眼感知到的視覺特征的匹配對準(zhǔn),只有符合可融合的視覺特征才會對視覺感知起作用,否則,會引起融合困難或者無法融合的情況,從而導(dǎo)致立體體驗(yàn)質(zhì)量不佳。
3 實(shí)驗(yàn)結(jié)果與結(jié)論分析
3.1 實(shí)驗(yàn)設(shè)置
盡管已經(jīng)建成一些關(guān)于立體感知研究的圖像庫,但有些圖像庫只考慮視覺不舒適因素,如KAIST的立體圖像、視頻數(shù)據(jù)庫主要考慮視差引起的立體不舒適,NTNU建立的立體圖像庫是針對由串?dāng)_引起的立體圖像視覺不舒適;并且,大部分圖像庫都沒有授權(quán)公開使用,目前關(guān)于立體體驗(yàn)質(zhì)量研究可以提供授權(quán)的數(shù)據(jù)庫有Yonsei University的IEEE-SA立體圖像庫和EPFL的立體圖像視頻庫,由于EPFL的立體圖像視頻庫僅提供54幅立體圖像,鑒于本文所提QoE評價(jià)算法需要對立體圖像數(shù)據(jù)庫劃分訓(xùn)練集和測試集,因此,本文放棄較小的EPFL立體圖像視頻庫,選取IEEE-SA立體圖像庫用作所提QoE評價(jià)模型的性能測試,EEE-SA立體圖像庫包括800幅立體圖像及其對應(yīng)的MOS得分,每個(gè)立體圖像都是由分辨率為1920 1080的左、右視點(diǎn)圖像組成。
本節(jié)實(shí)驗(yàn)用LIBSVM[7]提供的SVR軟件包訓(xùn)練SVCA的預(yù)測函數(shù),在劃分訓(xùn)練集和測試集時(shí),研究選用100次五折交叉驗(yàn)證測試預(yù)測函數(shù)的評價(jià)性能,從所有54幅立體圖像中隨機(jī)地選取五分之四圖像用于訓(xùn)練,剩余的五分之一用于做測試。在測試預(yù)測函數(shù)的評價(jià)性能時(shí),進(jìn)一步選用3個(gè)評價(jià)準(zhǔn)則通過計(jì)算SVR模型預(yù)測的舒適度得分與主觀的DMOS值的相關(guān)性得到所提算法的性能,這3個(gè)準(zhǔn)則包括PLCC(Pearson linear correlation coefficient)和SROCC(Spearman rank order correlation coefficient)。當(dāng)SVCA算法性能較好時(shí),它會得到較大的PLCC、SROCC取值。
3.2性能測試
為了對比所提QoE評價(jià)算法的性能,本文對比了兩個(gè)先進(jìn)的客觀立體體驗(yàn)質(zhì)量評價(jià)算法,具體包括:Nojiri等人的算法[8]和Yano 等人的算法[9],其中,Nojiri等人用相位相關(guān)度從立體圖像中估計(jì)視差信息,再利用視差分布范圍和平均視差分布計(jì)算立體HDTV圖像的QoE;Yano 等人的QoE評價(jià)算法通過立體圖像左、右兩個(gè)視點(diǎn)圖像的相關(guān)性計(jì)算立體圖像的QoE。各QoE評價(jià)算法在立體圖像庫IEEE-SA的預(yù)測性能如表1所示。
從表1可以看出本文所提的QoE評價(jià)算法在IEEE-SA立體圖像數(shù)據(jù)庫上都取得較好的預(yù)測性能。所提QoE評價(jià)算法的PLCC、SROCC要好于Nojiri等人和Yano 等人的QoE評價(jià)算法的PLCC、SROCC。
4 結(jié)束語
針對立體圖像體驗(yàn)質(zhì)量評價(jià)的問題,本文提出一個(gè)基于雙眼視覺感知特征一致性的立體圖像體驗(yàn)質(zhì)量評價(jià)算法,其中分別將兩個(gè)視點(diǎn)圖像的像素梯度作為立體圖像視覺感知的低層次特征,再用梯度方向直方圖特征(HOG)建立立體圖像的視覺感知特征向量,最后,通過訓(xùn)練好的支持向量回歸(SVR)模型來預(yù)測立體圖像體驗(yàn)質(zhì)量。實(shí)驗(yàn)結(jié)果表明所提算法能夠較好地預(yù)測立體圖像體驗(yàn)質(zhì)量。
參考文獻(xiàn):
[1] 劉延偉,劉金霞,慈松,等.3DQoE評價(jià)方法及其模型研究進(jìn)展綜述[J].電子學(xué)報(bào), 2015, 43(3): 568-576.
[2] VQEG. Establishing a Ground Truth for Quality of Experience in 3D for Assessment Methodologies in 3D Video Quality Assessment [S/OL]. 2014, http://www.its.bldrdoc.gov/vqeg /projects/3dtv/3dtv.aspx.
[3] GOLDMANN L, SIMONE F D, EBRAHIMI T. A comprehensive database and subjective evaluation methodology for quality of experience in stereoscopic video[C]// Proc. of SPIE-IS&T; Electronic Imaging, Stereoscopic Image Processing and Applications, vol. 7526, San Jose, California: SPIE, 2010.
[4] CHEN W, FOURNIER J, BARKOWSKY M, et al. Quality of experience model for 3DTV[C]//SPIE, Stereoscopic Displays and Applications XXIII, Burlingame, California: SPIE, 2012: 1-9.
[5] XING L, YOU J, EBRAHIMI T, et al. An objective metric for assessing quality of experience on stereoscopic images[C]//IEEE International Workshop on Multimedia Signal Processing, Saint Malo:IEEE, 2010: 373-378.
[6] LIU Y, CI S, TANG H, et al. QoE-oriented 3D Video transcoding for mobile streaming[J]. ACM Transactions on Multimedia Computing, Communications and Applications, 2012, 8(3s): 42:1-42:20.
[7] C.-C. Chang and C.-J. Lin. LIBSVM: A library for support vector machines[J/OL]. ACM Transactions on Intelligent Systems and Technology (TIST), 2001, 3(2): 27:1--27:27. http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[8] NOJIRI Y, YAMANOUE H, HANAZATO A, et al. Measurement of parallax distribution, and its application to the analysis of visual comfort for stereoscopic HDTV[C]//Proc. of SPIE-IS&T; Electronic Imaging, Stereoscopic Displays and Virtual Reality Systems X, Vol. 5006, Santa Clara, CA: SPIE, 2003: 195–205.
[9] YANO S, EMOTO M, MITSUHASHI T. Two factors in visual fatigue caused by stereoscopic HDTV images[J]. Displays, 2004, 25(4): 141–150.