融合全局-局部特征的雙通道無參考圖像質量評價算法研究

2024-04-28 12:27:58蔣圣超卓浩澤李泰霖王飛風

電視技術 2024年3期

王斌，蔣圣超，卓浩澤，李泰霖，王飛風

（廣西電網有限責任公司電力科學研究院廣西電力裝備智能控制與運維重點實驗室，廣西南寧 530023）

0 引言

近年來，隨著多媒體技術的發(fā)展，作為傳遞信息主要方式之一的數字圖像在人們的日常生活中被大量采集。然而，圖像在采集、壓縮、處理、傳輸和顯示等生命周期中會不可避免地產生各種各樣的失真，從而降低圖像的質量[1]。因此，對一張圖像進行質量評估的算法研究成為當前計算機視覺領域內的重要研究方向。

圖像質量評價（Image Quality Assessment，IQA）算法的研究可以應用于許多場合，如圖像壓縮、圖像恢復、照片增強、圖像重建、圖像合成和圖像篩選等[2]。根據對參考圖像的依賴程度，IQA還可以進一步分為全參考（Full-Reference）、半參考（Reduced-Reference）和無參考（No-Reference）這3種類型[3]。其中，無參考圖像質量評價（No-Reference Image Quality Assessment，NR-IQA）由于不需要任何原始參考圖像的信息，僅僅使用待測失真圖像自身的特征進行相應質量分數的預測[4]，相較于全參考和半參考更為靈活。

傳統(tǒng)的Transformer模型最早應用在自然語言處理（Natural Language Processing，NLP）領域，雖然在計算機視覺領域也能使用，但是效果不夠顯著。這是因為Transformer的輸入與輸出維度相同，無法做到類似卷積神經網絡（Convolutional Neural Networks，CNN）一樣提取層級特征，導致該模型在視覺任務上達不到CNN的效果[5]。由微軟亞洲研究院于2021年提出的Swin Transformer（以下簡稱Swin-T）模型是Transformer模型的變體[6]。Swin-T模型利用Patch Merging操作，實現了類似CNN的層級操作，同時利用基于窗口的自注意力機制來減少計算的復雜度，從而使得Swin-T模型能夠在各類視覺任務中大放異彩?；谏鲜龇治觯肧win-T模型作為特征提取網絡，提出一種結合全局-局部特征的雙通道NR-IQA算法。

1 圖像預處理

為了能夠利用雙通道網絡同時提取圖像的全局特征和局部特征，使得算法能夠應用于任意尺寸的輸入圖像，需要對輸入圖像進行圖像預處理操作。首先，對任意尺寸輸入圖像進行Resize操作，得到尺寸為224×224×3的全局通道輸入圖像，以便全局通道在訓練時能夠關注圖像的全局信息。其次，局部通道圖像預處理需要將任意尺寸的輸入圖像均勻劃分為7×7個圖像塊，然后從每一個圖像塊中心取出尺寸為32×32的圖像補丁。最后，將這些圖像補丁按照原本處于圖像中的位置進行重組，獲得一個尺寸為224×224×3的重組圖。

2 雙通道網絡

文章考慮了真實圖像失真的非均勻性，利用兩個通道同時提取全局特征和局部特征。由于局部特征能夠反映圖片中失真的非均勻情況，利用雙通道網絡學習的全局-局部特征更能反映真實圖像質量的情況，通過回歸預測后得到的分數更能貼合人們的視覺感知。

2.1 特征提取網絡

Swin-T模型由Swin Transformer Block組成，而Block總是成對出現，如圖1所示。Block1中采用基于窗口的自注意力機制（Windows Multihead Self Attention，W-MSA），Block2中采用基于移位窗口的自注意力機制（Shift Windows Multihead Self Attention，SW-MSA）。

圖1 成對出現的Swin Transformer Block

2個連續(xù)的Swin Transformer Block的具體計算過程為

式中：為第l個Block中的W-MSA模塊的輸出特征，MW-SA為W-MSA模塊，PLN為層歸一化（Layer Norm，LN）處理，zl-1為第l-1個Block中的多層感知器（Multilayer Perceptron，MLP）模塊的輸出特征。

式中：zl為第1個Block中的MLP模塊的輸出特征，LMP為MLP模塊。

式中：為第l+1個Block中的SW-MSA模塊的輸出特征，MSW-SA為SW-MSA模塊。

式中：zl+1為第l+1個Block中的MLP模塊的輸出特征。

由式（1）～式（4）可知，輸入經過LN和W-MSA后得到，經過LN和MLP后得到zl,再經過LN和SW-MSA得到，最后通過LN和MLP得到輸出zl+1。

在Swin-T模型中，可調參數有Swin Transformer Block的個數、特征圖的深度，即通道數、多頭注意力中的頭數以及窗口大小。文章使用Swin-T網絡作為特征提取模塊，輸入圖片尺寸為224×224×3，具體網絡參數如表1所示。

表1 Swin-T特征提取網絡結構信息

2.2 回歸預測網絡

回歸預測網絡用于完成特征到質量分數的映射。雙通道各自提取的全局-局部特征均是長度為768的特征向量，將兩者連接起來形成一個1×1×1 536的特征向量，然后經過回歸預測網絡得到最終的圖像質量預測分數。這個回歸預測網絡由1 536×384和384×1這兩個全連接層組成。

2.3 雙通道網絡架構

雙通道網絡設計如圖2所示。首先，針對原圖像分別進行Resize操作和局部重組操作，將所得的兩個尺寸均為224×224×3的新圖像作為兩個通道的輸入圖像。其次，經全局網絡通道和局部網絡通道獲得長度為768的圖像全局特征向量和圖像局部特征向量。再次，通過Cat操作將兩個特征向量拼接成長度為1 536的圖像質量特征向量。最后，通過兩層全連接層組成的回歸預測網絡完成圖像質量特征到分數的映射。

圖2 結合全局-局部特征的雙通道網絡

雙通道網絡進行圖像質量分數預測的整體過程為

式中：I為輸入圖像，G(*)為Resize操作，L(*)為圖像局部分割重組操作，E(*)為特征提取，F(*)為Cat操作，ff為圖像的全局與局部相結合的特征，R(*)為回歸預測的全連接層，Q為最后所得的圖像質量分數。

3 實驗結果與數據分析

3.1 數據集與評估指標

LIVEC數據集于2016年由美國得克薩斯大學實驗室建立。該實驗組利用市面上常見的移動設備進行圖像的拍攝采集，從而建立共計1 162張含有豐富的真實失真信息的圖像。平均意見得分（Mean Opinion Score，MOS）是一種常用的主觀質量評價方法，常用于視頻、圖像等的質量評價。不同MOS下的LIVEC數據集圖像如圖3所示。

圖3 LIVEC數據集圖像

SPAQ數據集由江西財經大學提出，制作者利用66種不同的智能手機進行圖像的拍攝采集工作，從而建立共含有11 125張圖像的真實失真圖像數據集，如圖4所示。這兩個數據集中圖像的質量分數標簽均采用MOS值，取值范圍為[0,100]，值越小表示圖像失真越嚴重，圖像質量也就越差。

圖4 SPAQ數據集圖像

評價指標采用斯皮爾曼秩相關系數（Spearman Rank Order Coefficient，SROCC）、皮爾森線性相關系數（Pearson Linear Correlation Coefficient，PLCC）、肯德爾秩次相關系數（Kendall Rank-Order Correlation Coefficient，KROCC）與均方根誤差（Root Mean Squared Error，RMSE），分別用于評價模型預測的準確性、單調性、相關一致性與偏差程度。其中，SROCC是用來評估圖像標簽值與預測值之間單調關系的指標，PLCC是用來評估圖像標簽值與預測值之間線性相關性的指標，兩者取值范圍均為[0，1]，數值越接近1表示算法的圖像質量評估準確性越高。

3.2 實驗配置

實驗平臺的配置如表2所示。根據平臺硬件設備性能，本實驗將訓練集與測試集比例設為8∶2，網絡輸入圖像大小設為224×224，網絡訓練的批尺寸設為32，迭代次數設為150，初始學習率設為0.000 1，更新學習率的乘法因子設為0.9。

表2 實驗平臺相關配置

3.3 消融實驗

為了驗證所提出的全局-局部雙通道算法的有效性，根據全局-局部通道的有無設計3組算法進行消融實驗。其中，G_IQA算法是針對全局特征的基于Swin-T模塊的單通道圖像質量評價算法，L_IQA算法是針對局部特征的基于Swin-T模塊的單通道圖像質量評價算法，GL_IQA算法是無特征融合模塊的雙通道圖像質量評價算法。實驗數據如表3所示。

表3 在真實失真數據集上的消融實驗

從表3實驗結果可知，在兩個數據集上采用GL_IQA算法，SROCC和PLCC指標均獲得消融實驗中的最佳數值。

3.4 對比實驗

選擇具有代表性且使用深度學習的算法，分析其在LIVEC數據集和SPAQ數據集上的性能表現進行對比實驗，如TS-CNN、HOSA、DIQaM-NR、CORNIA 、CaHDC和NSSADNN算法。實驗結果如表4所示。

表4 在LIVEC與SPAQ數據集上的性能對比

根據表4的結果可知，在LIVEC數據集和SPAQ數據集上，所提算法無論是SROCC指標還是PLCC指標均取得最佳指標值，說明所提出的結合全局-局部特征的雙通道算法對真實圖像進行質量評估效果顯著。

4 結語

針對目前大多數IQA算法在面對真實失真數據集時效果不佳的原因進行分析，并基于分析結果提出結合全局-局部特征的雙通道NR-IQA算法。相關實驗表明,所提算法在對具有失真非均勻性的真實圖像進行質量評估時效果顯著，并且與人的主觀視覺有著較高的一致性。同時，該算法在獲取局部失真特征時對原圖進行均勻的分塊和截取，但是真實圖像的內容分布并不均勻，因此未來工作可以考慮在進行局部失真重組時引入顯著性檢測算法，從而獲取更具有代表性的局部失真重組圖。