楊曉東,韓振奇,劉立莊,趙 丹
1.中國科學院 上海高等研究院,上海 201210
2.中國科學院大學,北京 100049
隨著科技的快速發展,圖像作為信息的主要形式之一,在社交網絡和智能移動終端中占據著重要地位,對于任何顯示設備,圖像的質量是十分重要的技術指標。然而,圖像在產生、傳輸、處理和存儲的過程中會產生各種失真,會極大地影響觀察者的主觀舒適度和其他視覺任務的準確率。因此,客觀畫質評價方法研究具有重要的社會意義。在現有的方法中,由于實際場景的參考圖像較難獲取,無參考方法成為了主要研究方向。
造成圖像失真的因素主要分為兩個方面:環境條件和拍攝手法,可能導致圖像產生離焦模糊、運動模糊、噪聲、過曝、欠曝等現象,如圖1所示;圖像處理過程,可能會引起有損壓縮、高斯噪聲和對比度衰減等,導致圖像質量下降[1]。引入失真圖像會降低其他視覺任務性能,在Dodge 等人[2]的研究中,神經網絡易受模糊和噪聲失真圖像的影響,會加大網絡學習的難度。因此,客觀圖像質量評價可用于指導圖像處理,以提高其他任務的性能。此外,在工業生產中,畫質評價廣泛也應用于顯示器設備的畫質調試和相機自動聚焦,評價結果可與軟硬件處理相結合,以得到更高的畫質和更精準的聚焦,具有較高的實用價值。
畫質評價學術上稱為圖像質量評價,方法分為主觀質量評價和客觀質量評價。主觀質量評價指標分為平均主觀意見分(mean opinion score,MOS)和平均主觀得分差異(differential mean opinion score,DMOS)。普遍認為主觀評價較為可靠[3],但耗費大量時間人力成本,一般作為真實值來衡量主客觀評價一致性。對于客觀質量評價,根據參考標準圖像信息的程度,將相關研究工作分為全參考型、半參考型和無參考型。
全參考(full-reference,FR)圖像質量評價是利用標準圖像所有信息與待評價圖像計算相應指標而得出質量分數。傳統的計算指標有均方誤差、信噪比和峰值信噪比,計算速度快但準確度較低。近年來利用亮度、對比度、結構、梯度等質量特征進行相似度計算的方法逐漸發展,常用的指標有SSIM[4]、FSIM[5]、GMSD[6],以及DASM[7]等。隨著深度學習的發展,深度卷積神經網絡模型也被用于全參考圖像質量評估。例如Liang等人[8]提出路徑深度卷積神經網絡(DCNN),利用“自然度”信息,對于非對齊相似場景能取得較好效果。Gao等人[9]提出的DeepSim模型通過測量深度特征的局部相似性,并融合局部指標來計算總分。Kim等人[10]提出的DeepQA方法是從IQA數據庫分布中學習信息,產生視覺敏感度分布權重圖,預測精度較高。FRIQA主客觀一致性評價較好,但在多數實際情況中并不適用。
半參考(reduced-reference,RR)方法是以理想圖像的部分特征作為參考,對待評估圖像進行分析得出結果,主要為解決在無線傳輸條件圖像質量評估問題而發展。Wang等人[11]提出RR-IQA方法,在小波域分解圖像并擬合系數分布,計算KL距離作為評估分數。Soundararajan 等人[12]提出RRED 方法,在高斯混合尺度模型下使用參考和評價圖像的交叉熵來預測質量。
無參考(no-reference,NR)方法也稱作盲圖像質量評估(blind image quality assessment,BIQA),是學習待評價圖像本身特征到主觀質量的映射關系,不利用參考圖像的任何信息,具有較大挑戰性。對于自然統計特征的研究,有空域熵和梯度、頻域熵和小波域等特征,例如BIQI[13]、NIQE[14]、BRISQUE[15]和SSEQ[16]指標,典型的是Xu 等人[17]提出高階統計量聚合(HOSA)方法,通過K-means 聚類局部特征構造碼本,計算類均值和方差等,構建全局質量感知特征,采用支持向量機(support vector machine,SVM)學習質量映射關系,其性能在傳統方法中具有競爭力。對于深度學習的方法研究,一般利用其他任務的深層語義特征作為先驗知識輔助學習。Bianco 等人[18]提出DeepBIQ 模型,采用使用VGG16 網絡提取特征,支持向量回歸(support vector regression,SVR)預測質量。Liu等人[19]提出RankIQA網絡,采用遷移學習的思想,對原始圖像和失真圖像訓練孿生網絡等級質量的圖像對。Zeng 等人[20]對流行的預訓練模型進行微調,以學習概率質量表示(PQR)。Pan 等人[21]提出BPSQM模型分為預測相似質量圖和池化網絡分數預測兩部分。針對不同圖像內容和失真類型的問題,Li 等人[22]提出SFA思想,統計聚合多個patch的語義特征,用分類模型得到上下文感知屬性;Zhang 等人[23]提出深度雙線性模型DBCNN,對于綜合和真實的失真圖像都有效;Zhu 等人提出[24]了基于深度元學習的IQA 度量MetaIQA,將不同畸變的圖像質量評估時共享的元知識作為先驗,以適應未知畸變;Su 等人[25]提出HyperIQA,通過超網絡自適應地建立感知規則,并將其用于質量預測網絡。基于Koniq-10k 數據集,Hosu 等人[26]提出Koncept512模型,核心架構為Inception-ResNet-v2,具有較高的泛化能力。針對MAE 和MSE 損失函數收斂速度緩慢的問題,Li 等人[27]設計了一種與PLCC 和RMSE指標密切相關的歸一化損失函數(norm-in-norm loss,NINLoss),取主客觀分數歸一化的差值范數,梯度更穩定,加快IQA 模型收斂速度,在KonIQ-10k 數據集上獲得了先進的預測性能。
無參考評價方法普遍面臨失真復雜性和內容依賴性的挑戰,自然統計特征方法有局限性且準確率低,深度學習方法雖然性能提升較大,但多數的質量特征表達還不夠充分有效。針對此問題,本文提出了一種基于密集哈達瑪卷積的雙通道無參考圖像質量評價網絡。該方網絡由骨干網絡和分數評估網絡級聯組成,其中,骨干網絡采用的是Inception-ResNet-v2,主要負責圖像質量特征提取;分數評估網絡采用多層感知機和多層卷積并聯的雙通道結構,充分結合了多層次的語義特征,增強特征表達的多樣性。在多層感知機分支中設計了密集哈達瑪卷積模塊(DHPM),即通過哈達瑪乘積的形式將低層神經元特征與高層神經元特征進行組合變換,起到一定的自注意力作用。
雙通道密集哈達瑪卷積圖像質量評價網絡的整體架構如圖2 所示,由骨干網絡和分數評估網絡級聯組成。(1)骨干網絡,采用特征提取能力優秀的Inception-Resnet-v2 網絡,以ImageNet 預訓練權重提取分類特征作為先驗,在質量評估數據集上進行微調,以解決內容依賴性問題。網絡輸入是三維的待評估圖像,輸出1 536維特征圖。(2)分數評估網絡,采用多層感知機和多層卷積并聯雙通道特征融合結構。多層感知機實現特征變換,密集哈達瑪卷積模塊以輸入作為權重,與每層特征映射做哈達瑪積。其使用多特征融合和高級表達以更好地處理失真復雜度。(3)分數評估網絡連接在骨干網絡之后,模型輸入輸出分別為待評價圖像和質量分數。
整個框架的骨干部分應該具有較強的特征提取力,因此本文采用Inception-ResNet-v2網絡。在一定程度上,隨著網絡加深,語義特征更高級和抽象,圖像質量越容易分辨。以ILSVRC 圖像分類的表現為參考標準,在ResNet與GoogLeNet的結合體中,Inception-ResNet-v2的性能十分優秀,能夠充分挖掘圖像的特征,減少卷積過程中信息的損失。殘差網絡中的shortcut既可以加速訓練,又能防止梯度彌散,易于訓練深層網絡;Inception模塊增加了網絡的寬度和多尺度適應性;再加上足夠大的網絡規模,使得Inception-ResNet-v2的Top-1準確率高達80.4%。Inception-ResNet-v2 的網絡框架如圖3 所示,包含Stem網絡、各種Inception-Resnet 模塊和適配的Reduction 模塊[28]。在本實驗中,不包含Average Pooling、Dropout和Softmax層,提取的特征圖直接輸出到預測網絡中。
1.2.1 密集哈達瑪卷積
密集哈達瑪卷積,也稱為密集哈達瑪乘積,是根據Liu 等人[29]提出的Dendrite Net(DD)總結而來。Dendrite Net 不同于卷積神經網絡,此結構中只含全連接的特征映射層,并通過將輸入與每層特征融合來表達各個輸入與輸出的復雜關系,式(1)為前向傳播表達式:
其中,X是DD網絡整體的輸入,Al-1和Al分別為第l層的輸入和輸出特征,Wl,l-1是第l-1 到第l個模塊的變換權重,運算符°表示哈達瑪積。相對于神經元網絡,DD具有較低的計算復雜度和更好的泛化能力,在回歸問題上表現出良好的性能。
本文提出的DHPM由3層DD組成,如圖4所示,輸入X是特征向量,輸出為F(x)。X除了進行權重變換之外,還有一個恒等映射的連接到每層的輸出,這點與殘差模塊結構[30]十分相似,也同樣使得深度質量評價網絡易于訓練和優化。不同的是,圖4結構不是模塊的簡單堆疊,每層輸出都與原始輸入融合。在恒等映射的連接結構上,又類似于DenseNet[31]的密集連接,能夠加強特征的傳遞,從而更有效地利用特征,所以稱之為密集哈達瑪卷積。
對于前饋特征的融合方式,一般為通道維度上的連接或者空間位置的相加,DHPM結構中則使用了哈達瑪積,可以理解為引入了一種特殊的自注意力機制[29]。在視覺自注意力機制的模塊結構中,兩個信息流分別用來評估注意力權重和特征線性映射,輸出通過哈達瑪乘積聚合[32]。對應于圖4,左信息流是特征變換,右信息流的恒等映射相當于圖片內容相關的權重。對于空間和通道特定位置上的特征自適應加權,可以將重要的特征放大,抑制不重要的特征。
對于DHPM,從輸出表達式來進一步分析其特性。假設輸入X是3維特征向量,輸出表達式如式(2)所示:
X依次經過三個權重矩陣(W10、W21和W32)的變換,每層輸出都與X對應相乘。輸出項是三個特征與權重的組合項,有單特征的高次冪項和多特征乘積項;組合項的權重系數較多,可使得特征學習更為靈活。而傳統的多層感知機只有特征的一次項,輸出是輸入的線性疊加,特征表達形式較為局限。對于無法用公式表達的抽象特征映射函數,密集哈達瑪集成恰好是泰勒展開式,理論上可以近似到所需的任何精度[29]。
1.2.2 雙通道結構
雙通道結構由兩個特征變換分支組成,如圖2 所示。骨干網絡輸出的特征圖作為輸入,接著流向兩個支路。多層感知機支路包含全局平均池化(global average pooling,GAP)、3 層全連接層(fully connected,FC)和3層DD,全連接層神經元個數分別為2 048、1 024、256;卷積支路串聯3層卷積,卷積核大小均為1×1,個數為512、256和128,輸出特征圖再經過全局平均池化(gap2),得到128維特征向量。最后連接(concat)以上兩個通道的特征向量,經過全連接層(fc7)映射到質量分數。
具體的,DHPM嵌在全連接支路,X和Y分別為輸入和輸出特征,全連接層表示特征的線性映射,°表示哈達瑪積。DHPM 在分數評估網絡中能夠逼近全局最優,其層數可以有效調整特征表達能力,層數越多擬合越精確,但是過量則會引起網絡學習的過擬合,并帶來較高的計算復雜度,所以3層較為合適。
分數評估網絡設計的優勢在于:(1)以往的質量評估網絡多是特征提取和全連接組成,對特征圖直接進行全局平均池化會造成特征的模糊,從而丟失部分信息。而雙通道結構是將不同類型的特征相結合,增加了語義特征的多樣性和完整性;(2)相對于單通道評估網絡,其增加了深度和寬度,使得特征表達更加高級。(3)在多層感知特征后連接DHPM,通過多層特征的自適應密集連結,更精確地擬合特征映射函數。因此,雙通道結構的評估網絡更具有圖像質量的可辨別性。
真實的圖像退化對于準確的質量預測至關重要。對于真實失真的圖像數據,目前規模最大的IQA數據集是KonIQ-10k[26],包含10 073 個質量評分圖像。通過使用眾包,每幅圖像獲得120個可靠的質量評價等級和主觀平均得分。數據集在七個指標分布上具有平衡性,分別是亮度、色彩、均方根對比度、清晰度、圖像比特率、分辨率和JPEG 壓縮質量,均與人類感知密切相關。KonIQ-10k 數據集共有三個分辨率,分別是1 024×768、512×384 和224×224,最常用的是512×384 分辨率。從規模和指標分布上看,KonIQ-10k有利于訓練泛化性能更好的深度網絡模型。
2.2.1 PLCC
主客觀質量評價的一致程度可通過度量指標說明。皮爾森線性相關系數(PLCC)反映兩變量或分布之間的相關性,計算公式如式(3)所示:
其中,N為測試圖像個數,xi和xˉ表示第i幅圖像的MOS和其樣本均值,yi和yˉ表示第i幅圖像的質量預測分數和均值。PLCC取值范圍[0,1],值越大表示圖像質量的主客觀評價越一致,客觀評價算法預測準確率越高。
2.2.2 SROCC
斯皮爾曼秩相關系數(SROCC)表示客觀評價分數相對于真值分數的單調性,計算公式如式(4)所示:
其中,N表示測試圖像的個數,rxi和ryi表示第i幅圖像的主客觀分數的分別排序位置,差值表征距離。SROCC取值范圍[0,1],值越大表示單調性越好,反映主客觀評價一致性越高。
實驗采用KonIQ-10k的訓練集、驗證集和測試集包含圖像的個數分別為7 058、1 000和2 015。實驗中所有的模型都使用512×384分辨率數據集進行訓練,標簽采用MOS。選擇Adam 優化器,MSE 損失函數表達式如式(5)所示:
其中,Q和Q^ 分別為MOS和預測分數分布,qi和qi為第i張圖片的分數,N為集合圖片個數。另一個常用的MAE損失函數表達式如式(6)所示,僅作為測試時的指標之一。
為使模型更快收斂,批次大小設置為16。骨干網絡Inception-ResNet-v2 使用ImageNet 預訓練權值進行初始化。學習率逐漸下降,第一階段學習率為1×10-4,訓練40步;第二階段學習率為2×10-5,訓練40步;第三階段學習率為1×10-5,訓練20步。每步訓練后在驗證集上計算Loss、SROCC 和PLCC,整個過程監控PLCC,保存最大值對應的模型以防止過擬合,使模型泛化能力達到最佳。模型的最終性能為測試集上評估的結果。實驗使用NVIDIA RTX 8000 GPU和PyTorch深度學習框架。
2.4.1 消融實驗
為了證明雙通道結構本身和DHPM 各自的作用,本文設計了4 個對比實驗,骨干網絡均采用Inception-ResNet-v2,分數評估網絡分別為:4 層全連接層單通道結構(SC)作為基準,雙通道結構(DC),在單通道的相同位置加入DHPM(SC+DHPM),以及本文提出的結構(DCN)。
所有實驗在KonIQ-10k測試集上的評價結果如表1所示,觀察數據可以得出:(1)SC 的SROCC 和PLCC 分別為0.909 和0.924,DC 比它高出1.0 和1.2 個百分點。同樣的,DCN 的兩個指標也比SC+DHPM 均高出了0.7個百分點,這說明雙通道結構的確能夠充分融合特征,減少信息損失。(2)SC+DHPM 的SROCC 和PLCC 相對于SC 分別提升了0.6 和0.7 個百分點,DC+DHPM 相對于DC則提升的相對較少,為0.3和0.2個百分點,意味著雙通道特征和DHPM的作用會有一定的重合,其在網絡中發揮了特征高級表達作用。

表1 不同結構對比Table 1 Comparison of different structures
在公開數據集KonIQ-10k測試評價指標中,本文所提出方法的SROCC 和PLCC 分別達到0.922 和0.938 的性能;在骨干網絡相同的情況下,相對于無密集哈達瑪卷積的單通道多層感知機評估網絡結構,提升了1.3 和1.4 個百分點;相對于無密集哈達瑪卷積的雙通道結構提升了0.3 個百分點和0.2 個百分點。從MAE 和MSE損失值來看,本文方法最低,這與評價指標相對應。整體實驗表明,本文提出的網絡結構提取的質量特征更加有效,模型的泛化性能較好。
為了形象地表示主客觀圖像質量評價的關系,以x軸為真值MOS,y軸為模型預測的MOS,將模型在KonIQ-10k 測試集上的預測分布畫在二維散點圖上。為了方便對比,將SC和DCN的主客觀評價值畫在一個圖中,如圖5所示,圖中每個點對應一幅圖像,藍色的點表示SC,黃色的點表示DCN。觀察得知,DCN 的點更集中在對角線上,且分布更加密集;而SC的點整體分布偏于對角線,且低分階段比較分散。因此DCN 模型對于圖像質量評估有更好的主客觀一致性。
為了進一步說明DCN 模型對失真圖像的效果,從KonIQ-10k測試集中隨機挑選6幅圖片如圖6,將基準SC和DCN模型的客觀質量評分與主觀MOS進行對比。圖6的(a)、(b)、(c)失真比較嚴重,包括壓縮模糊、離焦模糊和場景過暗等情況;(d)、(e)、(f)質量較好,色彩豐富恰當,分辨率較高且細節清晰。表2 中是每幅圖片的MOS、SC和DCN預測分數。總體來看,DCN模型的預測分數更接近MOS,在評價對比度、清晰度和色彩等方面,DCN模型的辨別能力更強,與主觀評價指標的表現相對一致。
2.4.2 算法性能對比
為了說明本文提出方法的先進性,將其與目前性能較好的IQA 方法對比。手工提取特征方法在KonIQ-10k上的性能遠不能令人滿意,即使其在合成失真數據庫上取得了較高的準確率,因此表2 只列出一種傳統BIQA方法即HOSA[17],其余均為深度學習模型。表2中的所有方法皆在KonIQ-10k 上訓練和測試,觀察得出,提出的DCN 模型在無參考圖像評估中,優于傳統方法和大部分深度學習模型,處于較為先進的水平。本文提出的基于密集哈達瑪加權的雙通道特征融合結構,能夠使得圖像的質量特征可辨別性更高。

表2 SC和DCN的評分對比Tabel 2 Comparison of scores of SC and DCN
評估性能第一名的LIneartyIQA 方法[27],采用了規范化損失(NINloss)加速模型的收斂,基于ImageNet 預訓練的ResNeXt-101的骨干模型進行多層次特征提取,通過全連接層將不同級別的特征聚合。雖然其性能處于最先進的地位,但是模型復雜度較高,如表3所示,本文模型的訓練參數量僅有60.9×106,LIneartyIQA 綜合ResNeXt-101 和特征映射層,總訓練參數量達到89.9×106,高出DCN 約1/2。因此,本文方法平衡了質量預測準確率和模型復雜度,綜合性能較好,是一種有效的圖像質量評價方法。

表3 與其他算法對比Table 3 Comparison with other methods

表4 模型參數量對比Fig.4 Comparison of parameters
在真實失真圖像質量評價的挑戰性問題上,本文提出了一種雙通道密集哈達瑪卷積的IQA 網絡,采用InceptionResnet-v2作為骨干網絡,并以增強特征表達的準確性和有效性為目標,設計了融合多層感知機和卷積特征的雙通道結構。此外,多層感知機分支中的DHPM,通過密集哈達瑪加權引入了自注意力機制,實現特征的自適應性。在KonIQ-10k 數據集上的實驗結果表明,與現有方法對比,本文方法的SROCC 和PLCC指標均處于較領先的地位,圖像質量評估的主客觀一致性較高,模型泛化能力更強,同時復雜度低于Linearty-IQA 模型。本文提出的分數評估網絡和整體結構不只適用于IQA 問題,也可以遷移至其他視覺任務,具有一定的通用性。此外,針對圖像質量評估方法的優化,考慮加入先驗知識以指導神經網絡特征提取,提升主客觀評價一致性。