張 威,趙世靈,劉銀豪,王鴻奎,殷海兵
杭州電子科技大學通信工程學院,杭州310000
隨著移動多媒體設備的普及,人們對高質量視頻的需求與日俱增。但是在有限的帶寬條件下,視頻數據的壓縮和傳輸不可避免地會導致視頻質量下降。因此,設備端需要精確地評估視頻質量,為調整編解碼器的相關參數[1]提供參考依據。而主觀視頻質量評估需要組織觀測者給出視頻質量得分,在工業生產中并不適用,這促使研究人員尋求能與人類視覺系統(human vision system,HVS)感知一致的客觀計算方法。
在早期階段,研究者們遷移圖像質量評估(image quality assessment,IQA)的知識來預測視頻質量,通過對視頻中所有幀的質量進行簡單的時域平均池化得到視頻質量得分。雖然此類方法實現簡單且時間復雜度低,但由于缺少針對視頻中復雜的時域特征建模[2],其預測結果與實際人類主觀感知結果仍有一定差距。
時間尺度是視頻的重要特征,在過去幾年間,研究者花費大量精力分析如何把時域信息應用于視頻質量評價。在TLVQM 中,Korhonen 等[3]從小時間尺度的角度出發,逐幀分析運動光流與時域失真的關系,通過統計光流的變化來測量視頻中的運動失真。隨后,Liu等[4]提出FAST,每次間隔9 幀對視頻序列提取固定長度的運動軌跡,在較大的時間尺度下,比較失真視頻與原視頻間運動內容的差異來描述運動軌跡的失真。近年來隨著卷積神經網絡的運用,研究者們也試圖利用深度學習的方法解決視頻質量評價存在的問題。在Kim等[5]提出的DeepVQA中,通過提取HVS的時空敏感度圖來預測單幀質量,并利用敏感度圖對視頻幀進行加權獲得視頻質量。在C3DVQA中,Xu等[6]引入2D卷積網絡和3D卷積網絡相結合的方法學習時空特征,通過對大量的特征進行聚合回歸得到預測得分。在Liu等的SDM[7]中重新對FAST 進行優化,通過卷積神經網絡對光流信息進行二次特征提取與降維,并引入注意力機制預測視頻質量。
然而這些基于傳統特征[3-4]或基于深度學習[5-7]的全參考視頻質量評價方法(full-referenc video quality assessment,FR-VQA),普遍都是在固定時間尺度下對視頻進行處理。小時間尺度下提取的細粒度時空特征盡管具有較高的分辨率,但是對全局信息的刻畫能力不足。而大時間尺度下提取的粗粒度時空特征雖能更快速感知視頻整體內容,但卻不能對局部場景詳細描述。根據反向層次理論[8](reverse hierarchy theory,RHT),視覺神經將眼睛捕捉的圖像傳輸到外側膝狀核,后者通過前饋連接將信息傳遞到由V1 區域到V5 區域組成的視覺皮質,在高級皮層對全局場景建模;而高層皮質區域(V2、V3、V4、V5)還存在到低層皮質區域(如V1)的反饋連接,由大腦引導眼球轉動對局部細節感知。因此,建立一個能夠有效聚合多尺度時空域特征的預測模型對于視頻質量評價至關重要。
針對現有FR-VQA方法存在的問題,本文提出多尺度時空域特征聚合網絡(multi-scale temporal feature aggregation network,MTN)。首先,依據HVS連續性依賴機制[9](serial dependence in visual perception,SDP)中觀測者更關注失真片段的特性,模型自適應采樣失真明顯的片段;其次,模型結合長短時記憶網絡[10](long short-term memory network,LSTM),通過多個LSTM網絡層堆疊增加網絡感受野,進而感知多時間步長的采樣片段,提取各個尺度的時域上下文特征。為探索如何對多尺度特征有效聚合,本文模擬大腦正反向多次迭代感知的過程,通過在多個記憶網絡層之間建立連接,以前饋與反饋串聯的路徑對多粒度的時域上下文信息進行聚合;最后,引入多通道自注意力機制對各時間尺度的視頻序列分別進行預測,視頻質量得分由不同時間尺度下預測得分的均值構成。
如圖1所示,本文所提的視頻質量評價算法主要包括自適應采樣模塊及信息聚合模塊兩部分。首先,輸入視頻數據至自適應采樣模塊,SDM 中關于連續性依賴機制實驗[7]已證明感知過程中最差感知質量幀會造成更顯著影響,故自適應采樣模塊明確選擇失真較為明顯的幀進行著重分析。

圖1 多尺度時空域特征聚合模型總框圖Fig.1 Overall structure of proposed multi-scale spatiotemporal feature aggregation model
其次,本文結合循環神經網絡(recurrent neural network,RNN)在時間序列方面展現出的強大建模能力,利用堆疊的LSTM 網絡提取多時間尺度下的時空依賴特征。最后,本文依據視覺神經研究中的反向層次理論探究對多尺度特征的有效融合方式,嘗試刻畫與人類感知相符的聚合方法。
現有FR-VQA 模型提取高層次的時空域特征時往往需要大量計算。為降低算法復雜度,模型大多會通過采樣策略對視頻數據進行篩選。而固定間隔采樣策略能夠保持數據分布的均勻性且使用簡單,已有VQA 算法普遍都采用此策略。
然而最近的視覺神經研究已經證明人眼感知過程中存在連續性依賴機制[9],當受測者受到視頻信號刺激時,大腦總是試圖使用先前的視覺感知信息來指導對當前視覺輸入的感知。SDM中的實驗進而證明受測者對視頻的觀看體驗更易受到視頻中失真嚴重幀所造成的影響。但是固定間隔采樣卻忽視此感知特性,直接從視頻序列中按照固定步長采樣若干幀,這無疑會丟失部分具有顯著影響的失真幀,進而導致VQA 模型預測準確度的降低。
為準確衡量視頻中逐幀的感知失真進而對序列進行采樣,與自然圖像的空域失真相比,視頻中的圖像還受到時域掩蔽效應影響。本文考慮到當相鄰幀間出現較劇烈的運動時,由于運動掩蔽效應[11],人眼聚焦能力迅速下降,運動模糊隱藏部分失真。為充分刻畫運動掩蔽效應對空域失真的影響,本文受到MOVIE[12]中處理時空域掩蔽方法的啟發,首先利用幀間運動劇烈程度FMT(t)的倒數表征運動掩蔽效應的強弱FAT(t);其次依據當前時刻運動掩蔽的程度對空域失真FQS(t)做加權處理;最后本文提出感知運動失真度指標(perceived motion distortion,PMD)來描述第t幀在運動情況下的失真程度。
視頻質量感知是一個復雜的過程,視覺系統可以被視為由不同皮質區域組成多層次結構,其中紋外皮質的連續皮質層MT/V5 在運動知覺中發揮重要作用,皮質層上的大量神經元具有空間頻率和方向選擇性,對沿特定方向移動的刺激反應最強烈。因此,為充分刻畫幀間運動程度的指標FMT( )t,模型需要同時對運動強度與運動方向進行描述。參考感知運動能量[13]的計算方法,視頻幀被劃分為N塊不重疊48×48 大小的宏塊,并用宏塊級運動矢量幅度的均值表示當前幀的運動強度,其中mi,j(t)是指是第t時刻幀i,j位置宏塊的運動矢量幅度。通過計算視頻幀的光流直方圖HOF(t,k),得到在第t時刻分布在k角度范圍內的光流幅度,而幀內運動矢量的主導運動方向θ由幅度最大的光流決定。統計所有方向光流得到第t幀的主導運動方向本文將2π劃分為n個角度,n的大小與FAST中的參數設定一致,設置為8。定義幀間運動程度FMT(t)為幀級運動強度與主導運動方向乘積:
N()?表示歸一化操作,運動程度FMT( )t被線性歸一化在0-1之間。當FMT( )t =0 時,表示該幀的內容保持靜止狀態;當FMT( )t =1 時,表示幀內運動程度最為劇烈。圖2 分別展示視頻序列中處于不同時刻幀內的運動矢量方向與感知運動能量分布。

圖2 CSIQ數據集中名為“Basketball”失真視頻的若干幀Fig.2 Frames of distorted video named“Basketball”inCSIQ dataset
與許多其他VQA算法類似,本文也使用現有的IQA算法來測量逐幀空域失真FQS(t)。權衡算法復雜度與測量精確度,模型使用圖像結構失真度[14(]gradient magnitude similarity deviation,GMSD)衡量視頻信號中t時刻幀的空域失真程度。GMS為圖中N個塊的梯度幅度差異,而GMSM為幀內GMS的均值:
為確保分母非零,取γ值為1 的常數,當FMT(t)+γ=1 時,表示前后幀間沒有運動,此時感知失真程度為FQS(t);當FMT(t)+γ大于1 時,表示相鄰幀間存在運動掩蔽效性而隱藏部分噪聲,此時感知失真程度應小于FQS(t)。
受測者觀看視頻時,只能感知到較短時間內的若干幀。普通視頻幀率約為30,而大腦并不能在1/30 s內對每幀做出反應[15]。因此合理假設視覺感知數目為T幀的視頻片段。為確保采樣數據分布均衡,本文將序列平均切分成N段T幀的子視頻段,依據SDM 與FAST 進行參數設置,視頻段數N=10,幀長度T=18。考慮到失真總是分布于連續的若干幀中,所以在每段子視頻中確定最大PMD 指標幀所在的位置,從該位置往兩端延伸T/2 個連續幀作為具有顯著影響片段,圖3展示自適應采樣與固定間隔采樣數據分布差異。

圖3 固定間隔采樣與自適應采樣結果對比圖Fig.3 Difference between fixed interval frame sampling and adaptively frame sampling
圖3中藍色曲線為感知運動失真度PMD,越大的PMD 指標表明感知失真越嚴重。紅色與紫色線段對應的x軸坐標分別為固定間隔與自適應采樣得到的視頻幀索引。以SDM中使用的固定間隔采樣策略[7]為例,每隔7幀采樣一段長度為18幀的視頻片段,由于忽略HVS更關注嚴重失真幀的特點,所以圖3(a)中標出的紅色填充區間丟失對失真嚴重幀的選取。而自適應采樣考慮失真幀總會造成更顯著影響,圖3(b)中所標注的紫色填充區間可以發現,在每個視頻片段中都能取到最大PMD指標的幀。
多尺度信息是時間序列建模過程中所需的關鍵要素。而大多數現有方法只利用單一時間尺度時空域特征對每個序列樣本進行表征,這忽略了各樣本間內容的差異性。本文為此專門設計了多尺度特征迭代遞進網絡,整個框架如圖4所示。

圖4 多尺度特征迭代遞進網絡Fig.4 Architecture of multi-scale feature progressive network
直觀來說,對于場景切換較多的視頻,其內容需要較小尺度的LSTM網絡來捕捉短期依賴,而對于場景切換較少的視頻,則需要更大的尺度來捕捉長期依賴。因此,只提取單個固定尺度的時空特征并不足以刻畫數據集中具有不同內容的視頻序列,而本文提出的特征聚合模塊能夠對序列提取多個時間尺度的語義特征,通過多通道注意力網絡對各尺度特征進行擬合。
為追求合理的算法復雜性,本文結合HVS 感知特性,選擇每段子視頻中失真最嚴重幀作為代表幀,用以描述對應視頻段的空域失真分布。而提取代表幀空域特征可以通過卷積網絡感知深層語義或基于統計特性人為設計。考慮到在小數據集上大量的語義特征極易造成模型過擬合,而傳統手工特征[3]具有復雜度低,魯棒性強的優點。故本文提取飽和度特征γsat、塊效應特征γblo、銳度特征γsha、對比度特征γcon和噪聲特征γnoi來描述代表幀的空域信息,通過串聯拼接得到N個空域特征圖St。分析數據集中的視頻可知,測試序列的內容大多為用戶拍攝實際場景的短視頻,通常只包含2~3個場景切換,故并不需要過多粒度的特征對視頻感知。因此,對空域特征圖St只進行3 種時間步長{α1,α2,α3}的采樣,得到αi粒度的空域特征分布Sαit;并利用堆疊的LSTM網絡對進行感知得到時域感知特征圖,以Lαi代表采樣顆粒度為αi的LSTM層;其中空域采樣粒度與時域采樣粒度保持一致被設置成{0,2,4}。

圖5 CSIQ數據集中名為“BQTerrace”失真視頻Fig.5 Frames of distorted video named“BQTerrace”in CSIQ dataset
圖5(b)為小時間尺度下提取的細粒度特征圖,幀內局部紋理凸顯;圖5(c)為大時間尺度提取的粗粒度特征圖,側重對幀的全局信息進行刻畫。
以下公式中h′為網絡隱藏層的初始狀態,默認各項設置為0.1。其中F()?、δ()?、A()?分別表示全連接層、ReLu激活層、平均池化層,代表第t段子視頻的預測得分。
在過去的研究中,通常使用時域的平均池化來擬合預測得分,這忽略HVS 感知機制的影響。而自注意力機制能夠學習各段視頻之間的相關性,保留各視頻段的上下文關系。故引入多通道的自注意力網絡,關注感知最差時刻神經網絡所提取語義特征,將完整視頻的語義特征表示為,通過縮放點積的方法比較與Hαi中每段視頻特征分布的相似性,進而自適應的完成權重分配,其中dh為隱藏層的大小。
經過對多尺度的序列內容感知,提取豐富時間語義特征,擬合每一段視頻的預測得分,完整視頻的預測得分可以表示為。利用多通道的自注意力機制對各段視頻進行比較,得到自適應權重Wαi=最終視頻的得分Q表示為不同時間尺度下預測得分的均值:
為保證實驗的有效性,本文在香港中文大學圖像與視頻處理實驗室提供的IVPL 數據集以及廣泛使用的LIVE與CSIQ[16]數據集分別進行實驗。數據集具體信息如表1所示。

表1 數據集信息Table 1 Information of dataset
本文遵循與主流文獻一致的測試流程,隨機選擇80%的參考視頻進行訓練,剩下的20%用于驗證。一旦某個參考視頻被劃分到訓練集或測試集,由它生成的所有失真視頻將被放入對應的數據集中,以保證訓練集與測試集之間沒有交集。在隨機劃分數據集重復實驗10次的條件下,使用斯皮爾曼等級相關系數(Spearman’s correlation coefficient,SRCC)、肯德爾等級相關系數(Kendall’s tau coefficient,KRCC)和皮爾遜線性相關系數(Pearson correlation coefficient,PLCC)進行性能比較。
(1)PLCC 用于衡量預測得分Ypre與主觀評分Xlab之間的線性相關程度,令?Xlab與?Ypre分別為其標準差,通過cov()?計算其協方差,則PLCC可以表示為:
PLCC的取值范圍為[0,1],該數值越大表示預測結果與實際主觀評分線性相關程度越強,模型預測越準確。
(2)SRCC 和KRCC 用于衡量預測得分與主觀得分間的等級相關性,取n為數據對的總數,di為預測得分與主觀得分間的等級差異,nd為得分不一致的數據對數,ns為得分一致的數據對數。這兩者可以表示為:
SRCC 與KRCC 的取值范圍為[]-1,+1 ,當預測值與標簽值的變化趨勢完全相同時,這兩個變量之間的相關系數可以達到+1;若兩個變量的變化趨勢完全相反,則相關系數達到-1。對于VQA 問題,SRCC 或KRCC越接近+1,代表模型效果越好。
為全面地比較本算法,本文將所提方法與現有的10個FR-VQA模型進行比較,即PSNR、MS-SSIM[17]、GMSD、MOVIE、Vis3[16]、VMAF[18]和FAST,以及近些年提出的基于深度學習FR-VQA模型DeepVQA、C3DVQA和SDM。本文對已開源的算法按照相同的流程進行驗證,性能結果以*號注明,其余模型的性能均取自相關文獻。表2列出三個公開數據集上各種FR-VQA模型的總體性能。

表2 VQA算法在各個數據集上的性能Table 2 Performance comparison of video quality evaluation algorithms on various dataset
通過比較SRCC、KRCC 指標可以看出:(1)傳統全參考圖像質量評價算法如PSNR、MS-SSIM、GMSD 忽略視頻在時間域上的失真,導致算法性能表現比較差;(2)利用傳統統計特征的FR-VQA 算法如MOVIE、VMAF、Vis3、FAST 等通過加入前后幀間的光流特征對時域失真表征,較IQA 算法性能有部分提升,但仍與人類主觀感知有差距;(3)而基于深度學習的FR-VQA 算法如C3DVQA、DeepVQA 等總體性能較傳統方法都有大幅提升,但C3DVQA 或者DeepVQA 在LIVE 數據集實測的性能并不出色,這是由于深度學習方法在傳統小數據集上由于樣本量少參數量多,模型極易出現過擬合,從而導致模型泛用性下降,其預測結果容易受到數據集劃分的影響。此外,上述三種FR-VQA算法都采用固定間隔采樣策略,并沒有深入考慮將采樣策略與HVS的感知特性相聯系。
本文所提算法在公開數據集中絕大部分指標都取得最優或者次優的結果,且SRCC 指標都高于0.93,這表明本算法具有更強的穩定性與泛化能力,始終與人類感知保持良好的一致性。圖6給出多種IQA與VQA算法的性能分布情況,橙色橫線代表性能的中位數,綠色三角形代表其平均值。

圖6 模型的性能結果(SRCC與PLCC)對比Fig.6 Performance comparison(SRCC and PLCC)
由箱線圖可以觀察到部分算法預測結果較為分散。如圖6(b)中MS-SSIM 算法獲得的PLCC 指標最高達到0.943 8,而最低得分卻只有0.538 6,所以得分的分布范圍也是比較算法的標準之一。從此角度看,在不同數據集的多個指標中,本文提出的方法不僅擁有更加優越的性能而且預測得分的分布也更加緊湊,證明該方法具有更強的有效性和魯棒性。
視頻預測得分與真實得分被歸一化到0-1 范圍內,預測得分越接近圖7 中的對角線,表明預測精確度越高。圖7中將此前性能最優算法SDM與本文算法在LIVE數據集上進行比較。從圖中可以看出本算法的預測數據主要分布在對角線的兩側,展現更良好的擬合效果。

圖7 模型主觀得分與預測得分的分布圖Fig.7 Subjective score and predicted score distribution diagram
為充分驗證算法中不同模塊的有效性,本文以SRCC、KRCC、PLCC 以及RMSE 為指標在三個公開數據集中進行消融實驗,分別對固定間隔采樣模塊(fixed interval frame sampling module,FFS)、自適應采樣模塊(adaptively frame sampling,AFS)、多尺度時域信息融合模塊及多通道自注意力模塊進行增量實驗,比較各模塊對性能的影響。
如表3所示,隨著各個模塊的加入絕大部分指標都有提升。例如LIVE 數據集中,初始僅利用固定間隔采樣策略SRCC與KRCC僅為0.923 9和0.771 7,而加入本文所提出的自適應采樣模塊,模型對嚴重幀失真進行感知,SRCC與KRCC指標略有提升;再接入多尺度感知網絡感知時序特征,SRCC與KRCC指標顯著提升到0.936 4與0.802 3;最后接入多通道的注意力機制對時序特征回歸,得到預測得分,雖然SRCC 與KRCC 提升較小但是PLCC 提升顯著,由此驗證注意力機制對于模型預測準確性的提升。雖然LIVE數據集中多模塊的組合在每項指標都取得最好成績,但在CSIQ 數據集中PLCC 與RMSE卻有所損失,原因為其視頻幀率在25~60 之間不等,三種尺度感知特征并不具有完整代表意義,進而影響模型性能。本文以SRCC為指標,對引入的模塊在三個數據集中進行增量實驗,實驗結果在柱形圖8中進行展示。

表3 不同模塊在各個數據集上的性能比較Table 3 Performance comparison of different modules on various dataset

圖8 不同數據集下,不同模塊組合的性能結果對比Fig.8 Comparison of results of different modules combinations on various dataset
實驗結果證明,AFS+MTN+MTA的組合在CSIQ數據集中實測所得PLCC與RMSE指標雖并未取得最優,但綜合考慮其他數據集中的多項指標表現來看,其仍取得最優的性能。
對幀內空域特征進行刻畫時,為比較基于神經網絡提取的深度特征與人為設計的傳統特征在性能和復雜度的區別,本文在僅改變空域特征提取方式的條件下,以SRCC 為指標測試完整模型在各數據集的性能表現以及模型前向推理耗費的時間。其中,深度特征的提取方式與CNN-TLVQM[19]一致,利用預訓練的ResNet-50網絡對視頻幀進行感知得到深度特征圖Srest,而傳統手工特征以字符Strat表示。針對不同分辨率視頻,CPU上的測試結果以秒為最小時間單位統計。具體結果如表4所示,其中{XXX}frs@{YYY}p分別表示視頻包含幀數以及視頻分辨率。

表4 不同特征提取方式耗費時間對比Table 4 Comparison of time taken by different feature extraction methods單位:s
為驗證基于深度學習的特征圖Srest與利用傳統手工特征拼接特征圖Strat的有效性,本文在多個公開數據集以SRCC為指標進行對比實驗,最終結果如表5所示,并在圖9中展示多次實驗所得分數的分布范圍。

表5 各數據集中不同特征提取方式性能對比Table 5 Performance comparison of different feature extraction methodson various dataset

圖9 各數據集中不同特征提取方式性能對比Fig.9 Performance comparison of different feature extraction combinations on various dataset
由圖9 可知基于深度學習的特征與基于統計特性的傳統手工特征在各數據集上性能相差并不大,但是神經網絡模型計算復雜度較高,特征提取耗費時間較長,而傳統手工特征擁有更低計算復雜度。此外,利用傳統手工特征得到的實驗結果上下浮動較小且下限較高,而利用深度學習特征得到的實驗結果差異較大。這主要因為預訓練的神經網絡模型包含上百萬的參數,而全參考數據集較小極容易得到過擬合的特征圖,導致模型的魯棒性下降。
首先,本文結合感知失真度與感知連續機制提出自適應采樣策略,成功克服傳統方法中固定間隔采樣丟失關鍵幀的弊端;其次,為解決單一尺度特征對視頻整體失真刻畫不充分的問題,本文從HVS 的長期記憶機制出發,利用堆疊的LSTM 網絡提取多尺度的時空域特征,并結合人類視覺復雜的前反饋感知機制,進而探究聚合多尺度特征的有效方式,提出基于多尺度時空特征聚合網絡的全參考視頻質量評價算法。通過全面的消融實驗,驗證了所提各模塊的有效性。在多個公開數據集的實驗結果表明,本文模型具有更優的泛化能力,且與人類感知基本一致,相對于目前最優FR-VQA方法表現出更出色的性能。