韓東旭,鐘寶江
蘇州大學 計算機科學與技術學院,江蘇 蘇州215000
視覺是人類最重要的能力之一,在從外界獲取信息的過程中起著關鍵的作用。高質量、高清晰度的視覺信息一直為人們所追求,這也促進了當前圖像處理技術的發展。然而,如何有效地評估各類圖像處理算法,如圖像插值、直線段檢測、角點檢測等,已經成為視覺和圖像領域中的基本問題。根據參考圖像的可利用性,圖像質量評估可以被分為全參考、半參考和無參考三類方法[1];從是否有人參與的角度,圖像質量評估又可以分為客觀評估和主觀評估兩種方法。
在客觀評估方法中,最早提出的即均方誤差(Mean Square Error,MSE)[2]以及峰值信噪比(Peak Signal to Noise Ratio,PSNR)[3],這兩個客觀評估指標僅從數學角度來分析真實圖像和待評估圖像像素強度的差異,并沒有考慮到人類視覺系統的特性。基于結構相似性,Wang 等人首先提出了“結構相似度”[4],并衍生出“多尺度結構相似度”[5]、“基于梯度的結構相似度”[6]等指標;基于特征相似性,則有相位一致性[7]、邊緣相似性[8]等客觀評估模型;基于學習圖像質量[9]的方法,程曉梅等人[10]提出了估計圖像退化類型和質量評分的雙目標卷積神經網絡模型;陳慧等人[11]使用卷積網學習立體圖像的局部自然場景統計特征,并預測其質量得分;基于雙樹復小波變換對立體圖像進行處理,根據生成的紋理結構等參數,顧婷婷等人[12]使用AdaBoosting BP神經網絡訓練和預測立體圖像的質量得分。
由于客觀評估方法的結果很多時候與人眼的真實感知并不一致,對圖像質量進行可靠的主觀評估顯得更為重要。主觀評估通常分為心理物理法和標準法[13]。心理物理法評估方法要求人們檢測某些信號(如光或色調)的存在,并從結果中獲得檢測閾值。基于視覺感知的模型,Ma 等人[14]從廣泛的公共背景亮度范圍中提取“差別閾限值”。基于更多其他的視覺模型,許多學者相繼提出了自己的圖像質量主觀評估指標,如細節分辨能力和目標檢測能力[15]等。心理物理法能夠有效地提取主觀閾值(用于區分激勵因素的表現)。在圖像質量主觀評估中,這類方法能夠有效地識別測試信號質量的可見變化。由于人眼視覺系統的復雜性,心理物理法很難建立完全有效的主觀評估模型。而基于直接觀察的圖像質量主觀評估標準法為獲得高度復雜的媒體信號的一般評級提供了一條途徑。
主觀質量評估標準法通常征集測評者對待評估的圖像、音頻序列進行觀察并給分,然后對所有測評者的給分進行統計,通常計算其平均值作為最終的評估結果,即平均意見得分(Mean Opinion Score,MOS)[13]。MOS是一種較為流行的感知圖像質量的主觀指標,根據不同的測試環境和目的,目前使用最為廣泛的是以下五種基于MOS 的圖像質量主觀評估方法:有參考的雙激勵損傷度分級法(Double Stimulus Impairment Scale,DSIS)[16]、雙激勵連續質量分級法(Double Stimulus Continuous Quality Scale,DSCQS)[17]、SAMVIQ(Subjective Assessment Methodology for Video Quality)[18]方法、無參考的單激勵連續質量分級法(Single Stimulus Continuous Quality Evaluation,SSCQE)[19]、ACR(Absolute Category Rating)[18]方法。與這五種方法配合使用的5分制[13]作為一種給分尺度,以其清晰的分級模式而廣受歡迎。除此之外,還有11分制、連續分制等具備更強識別能力的高層次分級法。基于MOS的主觀評估方法,Liu等人[20]在進行美學圖像的感性評估時,認為主觀評估結果在經過一致性檢測后更為準確;Sun 等人[21]將其應用到虛擬現實圖像的評估中,計算了常用的客觀質量度量和主觀評估間的相關性。
然而,當前對于各類圖像處理算法的主觀測評一般均由算法提出者自己完成。在文獻[22]中,Xie 等人展示了對三組圖像的去噪對比實驗,以此驗證所提出算法的強去噪能力;在文獻[23]中,Li 等人通過放大比較各種算法重建后的圖像,進行了主觀評估,展示了其算法的優勢。顯然,算法提出者通常通過突出顯示圖像某一部分的細節來進行測評,對細節的挑選容易摻雜特定偏好,且樣本數量少,并不能對算法進行全面的測評。而若要征集無利益相關的測評者來進行大樣本的“第三方”測評,則存在操作的復雜度高、效率低等缺陷。為此,本文設計并實現了一款基于MOS 的圖像質量主觀評估系統。首先對相關的主觀質量評估方法進行了介紹,接著詳細描述了評估系統的設計,最后使用本系統對現有的直線段檢測算法進行了主觀評估,展示了系統的實際使用效果。主要貢獻如下:(1)基于MOS標準建立了圖像質量的主觀評估系統;(2)在設計方面,實現了給分雙確認、樣本標簽隱藏和樣本次序隱藏等功能,克服了觀察者可能存在的特定偏好,從而保證了主觀測評結果的客觀性和無偏性;(3)在實現方面,該系統支持對各類圖像處理算法進行主觀評估,為觀察者提供了圖像的同步放大和拖拽等便捷功能;(4)根據得到的主觀評估結果,分析驗證了不同客觀評估指標的可靠性。該系統源碼已發布在Github 網頁https://github.com/hdddx/SubjectiveEvaluation。
基于平均意見得分的圖像質量主觀評估標準法通過統計多個對象的意見評分,得到最終的測評結果,這個結果通常也被稱為“平均意見得分”,即MOS 值。MOS值是對在一組評分尺度下多個評分結果進行平均來獲得的,公式如下:

其中,R 是N 個受試者對給定刺激的個人評級。
在評估過程中,測評者很多時候被要求以某種既定的規則來觀察圖像,并為每個圖像選擇一個預定義的分數標簽。合理地設置評估分數標簽是圖像質量主觀評估前的必要工作之一。5分制是目前最流行的評分尺度之一,其分為5個層級(劣、差、中、良、優),分別對應于1~5的離散分數。5分制包括“絕對評價全優度尺度”(見表1)[16]和“相對評價群優度尺度”(見表2)[16],分別應用于有參考的和無參考的圖像質量評估中。除了這種具有5 個離散尺度的分級方法,還存在粒度更高的分級方法,甚至接近連續尺度。但考慮到圖像質量評估的便捷有效,使用高粒度的分級方法則會帶來高復雜度,為此本文選擇5分制作為給分標準。

表1 主觀絕對評價全優度尺度

表2 主觀相對評價群優度尺度
除了合理地設置評分尺度,還需要制定一種有效的觀察規則。DSIS[16]要求測評者觀察多個由真實圖像(Ground Truth,GT)和對應的待評估圖像組成的圖像對。與該方法相似的DSCQS[17]同樣要求測評者觀看多個圖像對,但測評者完全不知道哪一張是參考圖像,哪一張是待評估圖像。SAMVIQ 方法是DSCQS 的派生,該方法允許待評估圖像對可以在任何時刻被重復顯示與評分。相較于有參考的評估方法DSIS[16]、DSCQS[17]和SAMVIQ[18],無參考的SSCQE[19]以隨機的方式將待評估圖像序列呈現給不同的測評者。與之類似的ACR[18]方法無需參考序列,每當播放完一張待測評圖像(8 s),都會給出一段時間讓測評者進行給分(<10 s)。在數據分析階段,該方法不僅僅考慮了測評者給出的評分,還將每張圖像的評分時間作為一個重要參考因素。
然而,對各類圖像處理算法使用基于MOS 的主觀質量評估標準法進行大樣本的主觀評估,通常存在操作復雜度高、效率低下的缺陷。為了使得主觀評估簡易可行,并保證評估結果的有效性和可靠性,本文研究并設計了一款綜合的基于MOS 的圖像質量主觀評估系統,主要依據了MOS標準的以下三點優勢:
(1)MOS 標準在使用過程中不受主觀測試設計的限制。根據不同的測試環境和目的,該標準可以適用于多種主觀評估方法,且不需要考慮待評估圖像是如何獲得的。
(2)對于高度復雜的測評樣本信號,能夠快捷地給出其一般評級。
(3)允許足夠多的測評者參與圖像質量的評估,從而保證了測評結果的無偏性。
具體來說,本系統基于圖像質量主觀評估標準法,融合了5分制中的“主觀絕對評價全優度尺度”和“相對評價群優度尺度”,同時采用雙激勵的觀察規則,設計并實現了給分雙確認、樣本標簽隱藏、樣本次序隱藏等功能,最后基于平均意見得分MOS 值對評估結果進行整理與分析。
本文設計的圖像質量主觀評估系統主要由輸入模塊、評估模塊和輸出模塊組成(如圖1)。各要點如下:輸入模塊用于自動加載準備好的圖像,實現了由各類圖像處理算法得到的待評估圖像的批量導入與顯示,同時初始化一些必要的參數。在評估模塊中,基于雙激勵的圖像質量主觀評估標準法,將待評估圖像序列以隨機的方式呈現給每一位測評者,進行樣本標簽隱藏、樣本次序隱藏和給分雙確認評估。每一位測評者為每一張待評估圖像選擇的評分標簽將實時存儲,并在輸出模塊中計算其平均意見得分,將MOS值作為評分結果。

圖1 設計的圖像質量評估系統的框架
輸入模塊包括評估參數的設置以及待評估圖像的導入。分別如下:
(1)參數設置。包括圖像處理算法數、待評估圖像組數和給分雙確認評估中的容忍閾值,這些參數將在下面的章節中詳細介紹。以上參數均在圖像質量主觀評估前進行初始化,測評者無法修改。
(2)標簽法導入。通過標簽法將評估任務所需的圖像進行批量自動化導入。每一組待評估圖像都包括GT圖像和多張由不同圖像處理算法得到的圖像,這些待評估圖像通常都以圖像處理算法的簡稱命名。本系統會將每一組中圖像的名稱作為標簽來自動進行批量導入和分類。
評估模塊基于雙激勵損傷度分級法,融入了給分雙確認、樣本的標簽和次序隱藏策略。本模塊引導測評者進行可靠的圖像質量主觀評估,并記錄每位測評者給出的評分。主要分為以下三部分:
(1)雙激勵損傷度分級評估。該評估方法要求測評者觀察特定數量的圖像,并為每一幅圖像選擇合適的評分。其中,DSIS 要求測評者對給定的圖像對進行觀察并給出分數,而該系統的觀察對象是圖像組。每個圖像組中包括一張GT圖像和多張由不同圖像處理算法得到的待評估圖像,測評者以GT圖像作為參考,對待評估圖像進行觀察打分。考慮到同時對多張不同的待評估圖像評分,本模塊還引入了“單激勵法”中的可重復評分機制,即允許測評者重復觀察每張圖像并修改評分。同時本系統支持待評估圖像之間的相互切換比較,實現了絕對評價和相對評價的融合。為了獲得更為可靠的評估數據,本系統對圖像組中的圖像類別進行了調整。在每組圖像中,有一幅GT圖像供參考,另一幅用于評估。測評者不需要對作為參考的GT 圖像進行評分,而需要對另一幅用于評估的GT圖像進行評分。本系統將GT圖像隨機插入到待評估的圖像序列中,而不告訴測評者用于評估的GT 圖像的真實位置。測評者對用于評估的GT 圖像的給分會被記錄并用于驗證,若該分數不是最高的,則說明測評者存在惡意給分的情況;反之,認為給分是有效的。
(2)樣本的標簽和次序隱藏。研究表明,人們能夠快速地對視覺捕捉到的信息載體(如圖像)進行分類,而對于分類模式則會存在殘留效應。比如說,當觀察完一組圖像并給分后,測評者往往會認為給分最高的那張圖像對應的圖像處理算法效果是最好的,而給分最低的那張圖像對應的圖像處理算法效果是最差的。當對下一組圖像進行給分時,測評者會延續對上一組圖像的評分偏好,從而導致評估結果不夠準確。為了克服這種特定偏好和保證測評結果的客觀性,本系統對觀察者隱藏了每組圖像的標簽。盡管測評者在給分的過程中不會存在對某類圖像特定的偏好,但仍然會對特定的圖像次序較為敏感。因此說僅僅隱藏樣本的標簽是不夠的,還需要對測評者隱藏樣本的次序。例如,第一組與第二組的待評估樣本序列是不一致的,每一組樣本序列的次序都是隨機生成的。
值得說明的是,本系統只是在面向測評者時,隱藏了樣本的標簽和次序,但這些有效信息都記錄在系統的后臺數據中,并不會刪除。因此,樣本標簽和次序的隱藏并不會影響圖像有效信息的完整性。具體來說,記輸入的一組樣本標簽為l={l1,l2,…,lm} ,m 為樣本數量。系統會為該組樣本生成一個隨機樣本序列,記為:

其中,π(·)是一個生成和記錄隨機映射的函數,存儲于系統的后臺數據中,fπ(l)為l 的一個雙映射表示。在測評過程中,系統根據該隨機序列向測評者有序地展示待評估樣本,并保存測評者對所有樣本的給分(記為S),則測評者對樣本li的評分可以記為S(Li)。
當進行大樣本的測評時,用矩陣L=[l(1),l(2),…,l(n)]∈?m×n來表示n 組樣本的隨機序列集合。其中l(j)∈?m是一個列向量,存儲了第j 組樣本的隨機序列。分數矩陣S ∈?m×n用于存儲評估過程中測評者對每張圖像的給分。最終,通過計算獲得一位測評者評估后各圖像處理方法的評分向量s(s1,s2,…,sm)∈?m,即:

其中,j=1,2,…,n 且i=1,2,…,m。
(3)給分雙確認。本系統采用給分雙確認策略的目的是為了阻止無效數據(如“亂”打分)的生成。目前“第三方”測評通常直接收集測評結果,再排除無效數據,即單確認方式,很大程度地影響了主觀測評的效率。因此,在評估過程中阻止無效數據的生成是很有必要的。本系統采用給分雙確認的策略,當測評者給出兩輪測評的分數,通過閾值法來確認數據的有效性。測評者需進行兩輪圖像質量主觀評估(對n 組圖像評分視為一個輪次),值得說明的是,這兩輪測評樣本的標簽和次序都被隱藏,且其次序所對應的隨機映射函數是不同的。記兩輪評分向量的歐式距離為d,即:

其中,k=2 是測評者需要進行主觀評估的輪次,s(k)是在第k 輪次中計算得到的各類圖像處理方法的評分向量。當測評者完成了兩個輪次的主觀評估后,本系統會比較這兩個輪次的評分結果(第一個輪次和第二個輪次)的距離。如果距離小于容忍閾值t ,則輸出兩個輪次評估結果的均值;否則,認為本次評估結果是離群的、無效的。為了說明這一點,可以寫作以下公式:

其中,E(k)∈?m是由一位測評者進行一次完整的獨立評估最終輸出的評分向量。
表3 描述了給分雙確認在該系統中的應用樣例。如表中所示,假設給定的容忍閾值t=30,顯然,第一輪的評估結果沒有可比較的對象,因此當前輪次與上一輪次評分向量間的距離為NaN(Not-a-Number)。而第一輪和第二輪評分間的距離為,這兩輪評分結果具有良好的相關性,則這兩個輪次評分的均值將作為一位測評者給出的最終評分結果。

表3 給分雙確認的示范性樣例
由于測評者的個體具有差異性,圖像質量的主觀評估很多時候需要征集多個無相關利益的測評者。該系統為測評者提供一次完整的、便捷的、獨立的圖像質量主觀評估,并輸出測評結果作為Ei計算平均意見得分MOS值的個體評分。則參與測評者對各類圖像處理算法yj給出的平均意見得分MOS值可以表示為:

其中,N 為測評者總人數,m 為待評估的圖像處理算法總數,xj表示第i 位測評者對第j 類圖像處理算法對應的所有待評估圖像的平均給分。本模塊除了統計輸出MOS值,還根據評估結果對算法進行了排序,完成了與客觀質量評估的相關性分析。
本系統基于Matlab語言,為測評者提供了友好的人機交互操作,嘗試引導測評者進行圖像質量主觀評估。測評者可以查閱根目錄中的自述文件,以便了解此系統運行的過程。此外,測評者還可以在GUI圖形化界面中單擊工具欄上的問號按鈕以獲取幫助。當執行錯誤的操作時,該系統將自動提示接下來需要如何操作。圖2展示了該系統對圖像進行顯示、評分的主頁面,該頁面還包含了三個使得圖像質量主觀評估更為便利的基本功能,包括對圖像的放大、縮小、拖拽等功能。在主頁面的左半側顯示的是待評估的各圖像處理算法所得到的圖像。在圖形化界面的中部是可供選擇切換的待評估圖像按鈕,除此之外,測評者需要為當前顯示的待評估圖像從右側的5 分制標簽中選取一個合適的評分。同時該圖形化界面具有自適應的功能,當被拉伸或放大時,更多的隱藏信息會顯示出來。如圖3 所示,主頁面中右下角的表格用于記錄與顯示在評估過程中測評者給出的待評估圖像序列的評分,當GUI 圖形界面拉伸時,待評估圖像也會自動放大。

圖2 評估系統圖形化界面演示

圖3 評估系統拉伸后的圖形化界面演示
如圖4所示,所有的相關參數都可以根據各種需求而被重新設置。在圖5中,每一位測評者在完成圖像質量的主觀評估后,都可以看到自己的評估結果,評分以柱狀圖的形式在GUI 圖像化界面中顯示。該系統還提供了友好的人機交互對話窗口,如圖6 所示,測評者在系統的引導下能夠更順利地完成評估。此外,該系統為測評者提供了對待評估圖像放大、縮小、拖拽等功能,圖7給出了一個同步放大功能的示例。所謂的同步放大,就是當圖像組中的一張圖像被局部放大時(無論是GT 圖像還是待評估圖像),該圖像組中的其他圖像應當在同樣的位置保持同樣的縮放倍數。該系統實現了最近鄰插值算法來放大圖像,而不是使用Matlab自帶的放大功能。當測評者需要近距離地觀察待評估圖像時,該操作為評估節約了很多時間。

圖4 評估系統的參數設置界面演示

圖5 評估系統的結果輸出界面演示

圖6 用于引導的對話框演示

圖7 設計的圖像質量主觀評估系統具備的同步放大功能
由于待評估圖像間的差異非常小,這對于不具備專業知識的測評者如何做到準確地評估圖像質量是非常困難的。該系統通過鼠標滑輪的前后滾動,來完成兩張圖像的快速切換,相較于點擊切換更加便捷。測評者通過捕捉前后切換的圖像間的輕微差異,能夠給出相對的、更為準確的評分結果。
表4 對比了本文方法和其他兩種不同主觀測評方式的性能。自評估方式即由算法提出者自己挑選圖像進行主觀比較,并總結自己的主觀感受。這種做法通常存在樣本量小等缺陷,并不能體現測評結果的客觀性和無偏性。“土耳其機器人”[24]是一款“第三方”網絡評估平臺,與本文設計的評估系統類似,都允許征集足夠多的測評者進行大樣本的測評,因此測評結果的無偏性可以得到保證。然而,“土耳其機器人”通常在收集測評結果后排除無效數據,操作復雜度較高,效率低,且其收集到的測評結果并不具備足夠的客觀性。本文設計的評估系統通過三個主要功能(隱藏樣本標簽,隱藏樣本次序,給分雙確認),保證了測評結果的客觀性。同時,本系統實現的給分雙確認功能,可以阻止無效數據(如“亂”打分)的生成,使得測評更簡易便捷,效率更高。

表4 不同主觀測評方式性能分析
為了展示系統的實際使用,本文對現有的直線段檢測算法進行主觀評估。值得說明的是,本例的作用是演示系統的使用過程,對單個測評者來說,測評結果的客觀性、無偏性可以由系統的三個功能(樣本的標簽隱藏,樣本的次序隱藏,給分雙確認)來保證;若要加強基于測評者群體的結果客觀性、無偏性,則需要保證測評者的數量充分即可。
直線段作為一種重要的圖像特征,能夠有效表達場景的幾何信息和拓撲信息。往往通過以下4 個指標來實現對直線段的客觀評估:精度(Precision)、召回率(Recall)、IoU(交并補)和F-值(F-score)。而對檢測到的直線段進行準確的客觀評估是非常困難的。其難點為檢測到的直線段很難與GT 圖匹配,常常會出現一對多、多對一、多對多的情形。
目前被廣泛使用的直線段客觀評估算法是由Cho等人[25]在2018 年提出的。該算法基于一些誤差容忍值來識別檢測到的直線段的真陽性。其核心思想如下,對任一檢測到的直線段ld,若其為真陽性,必能找到滿足以下3 個條件的GT 直線段lg:(1)ld中點至lg的距離小于誤差容忍值τp;(2)ld與lg形成的夾角小于誤差容忍值τang;(3)ld與lg相交的部分大于比例誤差容忍值τarea。鄭行家等人[26]指出,該直線段匹配算法對于過長的直線段并沒有做到很好的抑制作用。
為了進行主觀評估,24位不具備專業能力的學生被招募為志愿者來評估由不同直線段檢測算法得到的直線段圖像的視覺質量。為了使得志愿者們集中注意力做出可靠的評估結果,只考慮了6種目前先進的直線段檢測算法(CannyLines[27]、EDLine[28]、ELSDc[29]、Linelet[25]、LSD[30]、MCMLSD[31]),如圖8 所示。從YorkUrban 直線段數據集[25]中隨機挑選了8張分辨率為640×480的圖像作為測試圖像,因此每一位志愿者需要對56 張圖像進行評估,即8組直線段圖像(每組包含6張分別由上文提到的6 種直線段檢測算法獨立運行得到的直線段圖像和1張在3.2節中提到的用于評估的GroundTruth圖像)。每個直線段檢測算法的平均意見得分都將被記錄用于比較。如圖9所示,雷達圖中的每條輻線代表24名招募志愿者中的一位,且每條輻線上的實點標記了該雷達圖下方標記相應直線段檢測算法檢測到的8 張直線段圖像的總分。分數越高,表明視覺效果更好。
結合Cho 等人[25]提出的客觀評估方法得到如圖10所示的主客觀評估結果,為了便于觀察比較,MOS值都縮小到了10%。在主觀評估中,算法EDLine和MCMLSD并駕齊驅,CannyLines 稍遜一籌。MOS 值為0.380 7 的EDLine和MOS為0.398 0的MCMLSD遠高于CannyLine(0.338 5)、ELSDc(0.255 2)、Linelet(0.251 0)和LSD(0.250 5)的平均意見得分。相較于客觀評估指標,IoU值表現得較為平穩,差異性不明顯,指標F-值、精度的變化趨勢與MOS值相似,略有不同。這也說明指標F-值、精度與人眼的感知能力較為一致。其中,MCMLSD的精度值較低,但得益于其較高的召回率,其F-值表現得較為出色。由此可以發現,人眼對于直線段的長度、方向、位置更為敏感,對于直線段評估的準則顯然更為明確、更為全面。人眼傾向于檢測到與GT 長度一致的直線段,而不是如MCMLSD檢測到的過長的直線段,也不是如Linelet、ELSDc 檢測到的斷斷續續的直線段;相比LSD,人眼更傾向于如EDLine 和CannyLines 檢測到的方向更準確的直線段。這也更加說明了直線段檢測算法的客觀評估指標并不全面,而利用主觀評估能更好地驗證客觀評估指標的有效性。

圖8 評估系統在直線段檢測上的應用樣例

圖9 6種不同的直線段檢測算法的平均意見得分

圖10 直線段檢測算法主客觀評估結果
伴隨著圖像處理技術的快速發展,圖像質量評估方法變得尤為重要。可靠的主觀質量評估不僅能夠用于分析各類圖像處理算法的性能,還能夠對不同的客觀評估指標進行驗證。而若要征集無利益相關的測評者來進行“第三方”測評,則存在操作的復雜度高、效率低等缺陷。本文研究并設計了一款基于MOS的圖像質量主觀評估系統。基于本文的系統及公開的軟件,不同研究者可根據自己需求對不同類型的圖像質量征集足夠多的測評者進行大樣本的測評與分析。本文系統結合了目前主流的雙激勵損傷度分級評估,設計并實現了給分雙確認、樣本的標簽和次序隱藏等功能,保證了測評結果的客觀性和無偏性。最后,利用本文系統對六款先進的直線段檢測算法進行了主觀評估實驗,展示了系統的實際使用效果。