999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙流網絡的水下視頻客觀質量評價模型

2023-02-18 07:16:42杜艷玲張明華
計算機與生活 2023年2期
關鍵詞:特征融合評價

宋 巍,肖 毅,杜艷玲,張明華

上海海洋大學 信息學院,上海201306

在水下環境中獲取清晰圖像是海洋工程中的一個重要問題[1]。水下視頻在海洋生物探測跟蹤、海洋種類研究和海洋生態研究中發揮著關鍵作用,是海洋研究的載體。視頻在經過采集、壓縮、處理、傳輸等步驟中都可能產生質量退化的情況。針對水下視頻的質量評價方法可對水下視頻的質量進行評估,保證水下視頻質量將為水下研究提供一個良好的開端。評估水下視頻的質量是計算機視覺領域中重要的研究問題。視頻質量評價(video quality assessment)根據其類型可以分為主觀質量評價和客觀質量評價。主觀質量評價是通過測試者對不同質量的視頻做出評價并進行處理得到主觀視頻分數。由于主觀視頻質量評價需要人工標注,具有效率低下和成本高等問題。客觀質量評價通過建立算法模型來自動計算視頻質量,能夠快速、低成本、穩定地進行評價。國際電信聯盟(International Telecommunication Union)[2]根據對原始視頻的需要程度,將客觀視頻質量評價分為全參考視頻質量評價(full-reference)、部分參考視頻質量評價(reduced-reference)和無參考視頻質量評價(no-reference)。

光在水介質中傳播時介質的物理特性導致了水下拍攝的視頻存在退化效應[3]。一方面,光線在水中傳播時呈指數衰減導致水下視頻質量損失;另一方面,受到水下復雜拍攝環境(例如水流和水壓等)的影響造成視頻的不穩定性。考慮到水下視頻的這兩個特性,通常無法獲得理想的參考圖像/視頻,全參考和部分參考評價方法在水下視頻質量評價中的實用性有限,因此在水下視頻質量評價中一般采用無參考評價的方法。

目前自然場景的評價方法在評價水下視頻時適應性差,水下場景質量評價方法只考慮了空間維度,忽視了時間維度的不穩定性對于視頻質量的影響。本文旨在將水下視頻特有的時空特征和運動特征進行分析并與深度學習的理論思想結合,發展基于深度特征學習的水下視頻質量評價模型。本文的貢獻可以概述如下:(1)通過實驗分析設計了一個雙流網絡對水下視頻特征進行提取,從時空特征和運動特征的角度獲取視頻質量的相關特征,考慮多種特征融合方式,建立了TS-UVQA(two-stream underwater video quality assessment)模型。(2)驗證了光流圖對水下視頻質量分析的有效性。(3)與多種優秀的質量評價模型進行了對比實驗,取得了更高的相關系數。

1 相關工作

水下場景不同于傳統自然場景,水介質對光具有特殊吸收和散射特性,這些特性使得在自然場景的圖像視頻質量評價方法不能直接應用在水下場景中,針對自然場景提出質量評價方法在水下數據集中通常表現出不適應性。相關工作將從自然場景質量評價方法和水下場景質量評價方法兩方面展開。

1.1 自然場景質量評價方法

目前,許多學者對自然場景的質量評價進行了研究,為研究水下場景質量評價提供了大量的理論基礎。Saad 等人[4]設計了一個依靠離散余弦變換域中視頻場景的時空模型以及表征場景中發生的運動類型的模型來預測視頻質量。Xu 等人[5]提出了一種用于無參考視頻質量評價的可感知系統,通過無監督學習提取特征應用到支持向量回歸(support vector regression,SVR)上計算視頻質量。Men 等人[6]使用自然視頻質量數據庫KoNViD-1k 提出一種無參考視頻質量評價方法,該方法組合視頻的模糊性、色彩性、對比度、空間和時間信息多種特征來形成特征向量,最后通過SVR 映射到主觀質量分數。Kang等人[7]提出一個卷積神經網絡(convolutional neural networks,CNN)預測圖像質量并以圖像patch 作為輸入,該網絡由一個具有最大池和最小池的卷積層、兩個完全連接層和一個輸出節點組成,將特征學習和回歸集成到一個優化過程中從而形成更有效的圖像質量估計模型。Jia 等人[8]提出基于PCANet進行圖像質量評價,取得比CNN 網絡更高的精度。Bianco 等人[9]以CNN 網絡架構將圖像分塊進行質量評價,使用平均池化對分塊質量分數進行處理得到總體質量評價。Yan 等人[10]采用雙流CNN 網絡分別捕獲輸入圖像和梯度圖像的信息進行質量評價。Li 等人[11]將視頻序列進行分塊,借助3D-shearlet 變換提取特征,基于這些特征向量,采用CNN 和logistics對視頻質量進行預測。Liu 等人[12]在視頻多任務端到端優化神經網絡(video multi-task end-to-end optimized neural network,V-MEON)使用了一個多任務神經網絡框架,同時對視頻感知質量和編碼類型的概率進行預測,能夠適應于各種編解碼器壓縮的視頻。Varga 和Szirányi[13]利用預先訓練的CNN和LSTM(long short-term memory)網絡提取深度特征并將特征映射到質量分數上。Li等人[14]提出了一種客觀的無參考視頻質量評估方法,將內容依賴性和時間記憶效應集成到一個深度神經網絡中來預測視頻質量。這些基于深度學習的質量評價方法都能取得與人類視覺感知相關性很高的預測結果。

1.2 水下場景質量評價方法

許多學者也對水下場景的質量評價做了研究。Schechner 等人[15]提出了將對比度應用于度量水下圖像質量。Hou 等人[16]提出了基于加權灰度尺度角(weight gray scale angle,WGSA)的圖像清晰度評價標準對受噪聲影響的水下圖像進行評價。Yang等人[17]提出水下彩色圖像質量評價指標(underwater color image quality evaluation,UCIQE),該指標提取CIELab空間統計特征中與觀察者感知相關度最高的三個質量度量:色度、飽和度和對比度。將這些參數線性組合用來預測圖像質量。Panetta 等人[18]提出了一種無參考的水下圖像質量評價方法(underwater image quality measure,UIQM),采用三種水下圖像屬性測量(水下圖像色彩測量UICM、水下圖像清晰度測量UISM、水下圖像對比度測量UIConM)來表征水下圖像質量。Moreno-Roldán 等人[19]針對水聲網絡傳輸的水下視頻,提出了一種基于自然視頻統計的矢量量化算法,該方法將6 個自然視頻統計(natural video statistics,NVS)特征作為評價指標。郭繼昌等人[20]將深度學習網絡框架與隨機森林回歸模型相結合,無需參考圖像就能得到與觀察者感知質量相關性很高的預測結果。宋巍等人[21]考慮水下視頻特性,提出一種適用小樣本的結合空域統計特性與編碼的水下視頻質量評價方法NR-UVQA(no-reference underwater video quality assessment)。該方法針對空間域計算圖像失真統計特性,結合視頻編碼參數訓練線性模型。

目前傳統場景的質量評價方法的研究已經有數十年的發展,但針對水下場景的質量評價研究比較缺乏,并且傳統場景的方法不能很好地適應水下場景,相關研究只是提取簡單的手工特征和淺層特征,無法反映水下場景的特點。另外,大部分研究只考慮了空間維度,未將時間維度對于視頻質量的影響考慮在內。因此,設計針對水下視頻場景的質量評價方法是目前一個待解決的問題。

2 方法

針對目前研究的不足,考慮到光線在水下傳播時導致的質量損失以及水下復雜的拍攝環境的影響造成的不穩定性特點,根據不同特點分別做不同的處理,設計雙流網絡分別從時空維度和運動信息維度中提取特征,學習視頻質量與特征間的關系并預測視頻質量。

視頻可以看成由空間信息和時間信息組成,單幀圖像體現的是視頻的空間信息,例如空間場景和主體;時間信息則由多幀的圖像組成,幀間變化體現了視頻主體的運動情況,幀間光流是體現幀間變化的一種方式。為了充分提取視頻的相關信息,本文借鑒了Two-Stream[22]方法的雙流結構概念,針對時空特征和運動特征分別設計相應的網絡來提取對應的特征,并考慮多種特征融合方式將特征進一步融合,提出具有雙流結構的水下視頻質量評價模型(TS-UVQA)。網絡結構如圖1 所示。

2.1 數據預處理

由于原始視頻四周含有人工添加的文字標注等,為避免對模型效果的影響,同時提高特征學習的效率,將視頻統一裁剪為224×224 像素大小。原始視頻的絕大部分信息分布在視頻的中間部分,故裁剪圍繞視頻中心進行。光流場圖進行相同裁剪。

以雙流網絡學習水下視頻中的特征,需要對原始水下視頻進行不同的處理。圖1(a)中Spatialtemporal Net 從原始視頻流中學習時空特征。為此,將原始視頻流按一定的間隔抽取視頻幀,組成視頻幀組。由于本文數據集中的視頻序列均為10~13 s,為獲得相同長度的視頻幀組,以1.0~1.3 s為間隔進行抽取,獲得10 幀。為了加快模型的訓練,將數據轉化成標準模式,對輸入圖像做歸一化處理。

圖1(a)中的Motion Net 的目的是從能夠描述整個視頻運動信息的光流場塊中學習視頻的運動特征。光流圖的獲取通常使用光流法對幀間光流進行提取,光流法是利用圖像在時間域上相鄰幀之間相關性計算物體的運動信息的一種方法。本文計算視頻的稠密光流(dense optical flow)[23],將每5 個相鄰幀的稠密光流信息疊加,得到能夠描述短時視頻運動變化的光流場圖,對于整個視頻序列,按一定間隔T提取10 幀光流場圖,獲得一個維度為10 的光流場塊以描述整個視頻運動信息。

圖1 雙流網絡的水下視頻質量評價框架Fig.1 Two-stream network structure for underwater video quality assessment

2.2 時空特征提取

為了提取到視頻的時間維度信息,需要將包含時間信息的多視頻幀堆疊在一起輸入到神經網絡中。通過預處理獲得的視頻幀組是從連續幀之間按照一定間隔提取的,具有一定的時序性。二維(2D)卷積網絡能夠很好地捕獲空間上的信息,但缺乏捕獲時序信息的能力。相較于二維,三維(3D)卷積神經網絡更適合提取處理帶時間維度的信息。研究已經表明三維卷積神經網絡能夠通過堆疊連續的多視頻幀學習部分時間信息。因此,本文根據時空特征特點設計了一個學習視頻時空特征的卷積神經網絡,命名為Spatial-temporal Net,結構如圖1(a)所示。該網絡由3 個Conv3D Block,1 個全局平均池化層(global average pooling,GAP)以及1 個全連接層(Fc)組成。

(1)Conv3D Block 模塊

Conv3D Block 模塊如圖1(b)所示,包含Conv3D層、SN(switchable normalization)層[24]和MaxPooling 3D層。Conv3D 層通過三維卷積能夠同時提取視頻中的空間和時間維度的特征。在Spatial-temporal Net中,3 個Conv3D Block 中的Conv3D 層卷積核數分別為8、16 和32。

數據歸一化對模型的性能提升有重要的影響。SN 歸一化方法使用可微分學習,為深度學習網絡中的每一個歸一化層確定合適的歸一化操作。SN 相較于其他的歸一化方法,如BN(batch normalization)[25]、IN(instance normalization)[26]和LN(layer normalization)[27]魯棒性更好,對batch size 的設置不敏感,使模型能夠在各種batch size 的設計下保持穩定。SN算法如式(1)所示:

其中,hncij和分別是歸一化前后的像素點的值;γ和β分別是位移變量和縮放變量;?是一個非常小的數,用以防止除0;μk和σk分別是均值和方差;Ω={in,ln,bn}是三種歸一化方法的集合。

(2)慢融合策略

為了更有效地融合時間維度的特征,本文采用了一種在時間維度上卷積的慢融合策略[28]來更有效地學習長時間序列數據與視頻質量分數之間的相關性。

慢融合策略如圖2 所示。區別于一次性通過Conv3D 對10 幀進行特征提取,該策略將時間信息在3 維卷積層中逐漸融合。具體來說,第一個卷積層將10 幀壓縮為5 幀,第二個卷積層將5 幀壓縮為3 幀,第三個卷積層將前一層的3 幀融合為2 幀。通過這種方式融合復雜的時間維度特征。通過該策略控制卷積核在時間維度的步幅,緩慢地融合時間維度特征,使得模型能夠提取到更復雜的特征。

圖2 慢融合策略圖Fig.2 Slow fusion strategy diagram

2.3 光流特征提取

與2.2 節中的時空特征提取不同,光流特征主要表達的是視頻中主體的運動特征。雖然Conv3D 結構可以通過三維卷積核同時提取視頻幀組中的時空特征,但在時間維度信息的描述上,本質是通過局部卷積來表達時間關系,這種時間特征提取對于水下視頻質量的評價是不充分的,因此從光流場塊中提取運動特征是更加合理的選擇。在光流特征提取中,輸入的是疊加的光流場塊,通過二維卷積神經網絡提取其中特征。因此,本文根據運動特征的特點設計了一個Conv2D Block 模塊,如圖1(c)所示,包含Conv2D 層、SN 層 和MaxPooling2D 層。在Conv2D Block 的基礎上設計了一個包含3 個Conv2D Block模塊的二維卷積神經網絡Motion Net,如圖1(a)所示。同時將Motion Net 網絡與經典的二維特征提取網 絡——AlexNet、VGG16、InceptionV1、ResNet50、ResNet18 進行了對比實驗。

本文通過實驗對比(詳見3.3.2 小節)表明了Motion Net 網絡作為運動特征提取器的優勢。相較于VGG16、InceptionV1、ResNet18 來說,Motion Net網絡使用了3×3 的卷積核和SN 層,具有參數量小和自適應選擇正則化的優點。而ResNet50 網絡太深,需要更多的數據量才能很好地訓練。Motion Net 網絡能夠有效提取光流場中的特征,所提取的特征與主觀質量分數有較高的相關性。

2.4 特征融合

為了獲得更有效表達水下視頻質量的特征,需要將雙流網絡提取的不同類型的特征進行融合。本文考慮了三種融合方式對實驗結果的影響,分別為:決策級平均融合、決策級線性融合和特征級SVR(support vector regression)融合。決策級平均融合如式(2),將雙流模型得到的預測結果作平均池化得到決策級平均融合的結果。決策級線性融合如式(3),雙流模型結果通過線性加權得到融合后的預測結果,加權權重通過訓練得到。特征級SVR 融合如式(4)。取雙流模型中最后一層全連接層的輸出作為特征向量,將兩個特征向量做拼接操作后輸入到SVR 中(使用RBF(radial basis function)核函數),由SVR 進一步融合特征信息,并建立與質量評分之間的映射關系,實現視頻質量預測。

其中,i∈1,2,…,N,N為測試集的大小;si為第i個視頻的預測結果;fi為時空特征提取網絡的預測結果;hi為光流特征提取網絡的預測結果;α、β為權重系數;V f為時空特征提取網絡最后一個全連接層輸出的特征向量;Vh為光流特征提取網絡最后一個全連接層輸出的特征向量。

網絡的總體損失函數為Logcosh,該函數應用于回歸任務,相較于L2 損失函數更加平滑。Logcosh 損失函數公式如式(5):

其中,y表示label值,yp表示模型的預測值。

3 實驗

本章通過綜合實驗對本文提出的TS-UVQA 方法的性能進行了全面分析。首先,針對TS-UVQA 的三個主要模塊——時空特征提取網絡、運動特征提取網絡和特征融合策略,通過實驗分析了特征提取網絡的有效性,以及不同特征融合方式對于實驗結果的影響(實驗結果見3.3.1~3.3.3 小節)。其次,通過對比光流運動特征在水下視頻和自然場景視頻質量評價的不同表現,驗證了光流對于水下視頻質量評價的作用(實驗結果見3.3.4 小節)。最后,與目前最先進視頻質量評價方法進行對比實驗,檢驗了本文方法在水下視頻評價方面的優良性能,以及用于其他自然場景視頻質量評價的泛化能力(實驗結果見3.3.5 小節)。

3.1 數據集

目前,針對水下場景的視頻客觀質量評價模型的構建缺乏公開的水下視頻數據集。本文使用了之前研究中建立的水下數據集[21]。該數據集中的視頻序列涵蓋了水下動態、靜態動植物以及海底巖石等場景,包含廣泛的時間空間維度變化。該數據集對25 個原始視頻選擇不同比特率(96 Kbit/s、200 Kbit/s、500 Kbit/s)和不同幀率(5 FPS、10 FPS、25 FPS)參數采用H.264 進行模擬失真壓縮。由15 名觀測者為水下視頻進行質量打分,將每個視頻的平均意見得分(MOS)作為視頻的質量標注。除了上述水下數據集外,本文將方法在公開的非水下視頻數據集ECVQ[29]、EVVQ[30]、LIVE[31-32]上也進行了實驗。ECVQ 包含8 個原始CIF 視頻,通過H.264 和MPEG4-Visual 壓縮成90個視頻。EVVQ包含8個VGA原始視頻,通過H.264 和MPEG4-Visual壓縮成90個視頻。LIVE 數據集包含15 個原始視頻,通過無線失真、IP 失真、H.264 和MPEG-2 失真壓縮成150 個視頻。

3.2 實驗設置及評價指標

為評估視頻客觀質量評價網絡的性能,將每個數據集隨機劃分為80%的訓練集和20%的測試集,實驗重復10 次取平均值作為實驗的最終結果。訓練階段采用Adam 優化,參數為beta1=0.9,beta2=0.999,epsilon=1E-07。初始學習率為0.000 3,采用早停(Early-Stopping)策略。

視頻客觀質量評價的評價指標是基于預測值與主觀評分之間的相關性。本文采用的評價指標為:皮爾森線性相關系數(Pearson linear correlation coefficient,PLCC)和斯皮爾曼秩序相關系數(Spearman rank order correlation coefficient,SROCC),PLCC 和SROCC 在質量評價領域廣泛使用。

PLCC 描述兩個變量之間的線性相關性。

其中,集合S和集合L分別表示視頻數據集的質量預測值和標簽值。Sˉ、Lˉ為S和L的平均值。

SROCC 是非線性相關指標,描述序列中元素的排列關系。

3.3 實驗結果

3.3.1 時空特征提取網絡性能分析

為獲取與水下視頻主觀質量分數相關性高的時空特征,對Spatial-temporal Net 中的Conv3D Block 模塊進行探索,開展了消融實驗,實驗結果如表1 所示。表中的模型名稱分別為:(1)c3d,僅使用三維卷積神經網絡Conv3D 提取特征并預測;(2)c3d-sn,在三維卷積網絡的基礎加上SN 層;(3)c3d-sn-slow,在三維卷積神經網絡加上SN 層的基礎上再加上慢融合策略。同時,實驗也對比了輸入圖像為灰度圖和RGB 圖的情況,其中,灰度圖是模型的默認輸入,rgb表示輸入圖像為RGB 圖。

表1 不同策略下時空特征提取網絡的評價結果Table 1 Results of spatial-temporal feature extraction networks under different strategies

從表1 中給出的結果可見,僅使用三維卷積神經網絡提取的特征(c3d)不能很好地反映水下特征,在相關系數上取得了最低的分值。SN 層能自適應選擇正則化方式,緩解梯度消失問題加快模型收斂,因此c3d-sn 方法加快了模型的訓練,并大大提升了模型的性能,取得了比c3d 更好的效果。添加慢融合策略的c3d-sn-slow 加強了時間信息的學習,使得時空維度的特征更豐富,能夠更準確地反映視頻的質量特征,因此取得了最佳的評價結果。

表1 中c3d-sn-slow 和c3d-sn-slow-rgb 的對比,顯示了輸入為灰度圖和RGB 三通道彩色圖對結果的影響。實驗表明,RGB 彩色圖像和單通道灰度圖像對于視頻質量的影響無顯著變化,但使用灰度圖可以減少模型參數的計算量,加快模型的訓練速度,因此,本文在數據預處理中將RGB 圖轉化為灰度圖。

3.3.2 運動特征提取網絡性能分析

為了提取能夠反映水下視頻運動的特征,以光流場的幀流作為輸入,選擇二維卷積神經網絡獲取其中的信息。實驗對比了所設計網絡Motion Net 與經典的二維特征提取網絡——AlexNet、VGG16、InceptionV1、ResNet18 和ResNet50,結果如表2 所示。

從表2 中可以知道,AlexNet、VGG16、Inception V1、ResNet18 等網絡預測結果與主觀質量評價的相關性均低于Motion Net(PLCC=0.822 0 和SROCC=0.825 6)。ResNet50 模型太過復雜,而所使用數據的量太小,導致模型不能很好地擬合,得到了最低的相關性系數。

表2 不同網絡對于光流特征提取的對比結果Table 2 Comparison results of different networks for optical flow feature extraction

3.3.3 融合策略分析

在3.3.1 小節和3.3.2 小節中分別驗證了時空特征和運動特征對于水下視頻質量評價的有效性,本小節進一步對時空特征和運動特征進行融合,期望獲得更高精度的質量評價模型。

在特征融合前,先以熱力圖的形式對兩個網絡提取的特征進行直觀展示,如圖3 所示。圖3(a)中,左圖為Spatial-temporal Net 輸入視頻幀組中的一幀,右圖為第二個ConvBlock 塊中卷積層后輸出的特征圖;圖3(b)中,左圖為Motion Net 輸入的光流場圖,右圖為第二個卷積塊后輸出的特征圖。可以觀察到,時空特征圖關注了視頻空間上的細節特征以及部分時間信息(如變化的數字),而運動特征圖關注了視頻中主體對象的運動輪廓,二者具有一定的互補性。

圖3 特征圖Fig.3 Feature maps

本文對比了三種融合方式的效果:決策級平均融合(average decision fusion)、決策級線性融合(linear decision fusion)、特征級SVR融合(SVR feature fusion)。三種融合方式的比較結果如表3 所示。

表3 不同融合策略的PLCC 和SROCCTable 3 PLCC and SROCC of different integration strategies

從表3 中可以知道,特征級SVR 融合取得相關系數較低,決策級平均融合與決策級線性融合結果相近,決策級線性融合取得了最高的相關性系數(PLCC=0.866 4,SROCC=0.866 6)。同時,線性融合的結果優于未融合的結果。相較于Spatial-temporal Net 的結果,PLCC 提高了0.031 6,SROCC 提高了0.031 2;相較于光流特征提取網絡的結果PLCC 和SROCC 分別提高了0.044 4 和0.041 0。

3.3.4 運動特征對水下視頻質量評價的影響

為進一步驗證基于光流圖的運動特征對水下視頻質量評價的作用,在自然場景數據集上開展了對比實驗。實驗結果如表4 所示,其中Spatial-temporal Net 代表只提取時空特征,Motion Net 代表只提取光流特征,Aggregate表示融合時空特征與光流特征。

表4 自然場景數據集上不同網絡模型的評價結果Table 4 Evaluation results of different networks on natural scene datasets

根據表4 中的相關系數PLCC 和SROCC 可知,在不同的自然場景數據集(ECVQ、EVVQ 和LIVE)中,時空特征(由Spatial-temporal Net 提取)對視頻質量預測的貢獻遠遠大于運動特征(由Motion Net 提取),且運動特征與時空特征相融合后也未能取得比原始僅時空特征更好的預測結果。但是,在水下數據集中,基于光流圖的運動特征與水下視頻質量有很強的相關性(如表2 所示),且與時空特征結合后進一步提高了模型預測精度,這說明本文所設計的雙流網絡對于水下視頻質量評價的有效性。

3.3.5 對比實驗

(1)模型性能對比

為驗證本文所提出的雙流水下視頻質量評價模型的整體性能,與13 種目前最先進的自然場景圖像/視頻質量評價方法和水下場景的圖像/視頻質量評價方法進行了比較。其中,包括3 種針對水下圖像的質量評價方法,2 種針對水下視頻的質量評價方法,8 種針對自然場景的圖像/視頻的質量評價方法。圖像質量評價方法包括:通用彩色圖像的質量評價方法CIQI 和CQE[33],基于NSS 特征的無參考空間域圖像質量評價方法BRISQUE[34],針對水下彩色圖像質量評價方法的線性模型UCIQE[17]和UIQM[18],基于深度學習的圖像質量評價方法PCANet[8]和水下圖像質量評價方法Guo[20]。視頻質量評價方法包括:通用失真視頻的質量評價方法VIIDEO[35]和V-BLIINDS[4],基于NVS 特征的水下視頻質量評價方法Moreno-Roldán[19],基于統計和編碼特征的水下視頻質量評價模型NR-UVQA[21],基于深度學習框架的視頻質量評價模型V-MEON[12]和采用CNN+LSTM 相結合視頻質量評價方法[13]。所有對比方法將在相同的水下視頻數據集中以隨機劃分的80%的訓練集和20%的測試集重新訓練,實驗重復多次取平均值。所有的測試數據未出現在訓練數據中,保證方法間的公平比較。需要說明的是,V-MEON 方法是面向視頻失真類型判定和視頻質量評分多任務的網絡,根據不同的失真類型對視頻質量損失的評價進行了優化。由于本文使用的水下視頻沒有相應的失真類型標簽,本文僅復現V-MEON 基于C3D 慢融合的特征學習網絡和質量分數預測的部分。對比實驗結果如表5所示。

從表5 中可知,大部分圖像質量評價模型,如CIQI、CQE、UCIQE、UIQM 等,雖然是針對大氣圖像和水下圖像的質量評價方法,但由于圖像和視頻存在顯著差異性,對于水下視頻質量的評價都不能取得與主觀分數很好的相關系數(PLCC<0.5),基于圖像統計特征的評價指標,如BRISQUE 能獲得相對較高的相關系數,這說明水下視頻質量與自然場景下的統計特性有強關聯。視頻質量評價模型中,除VIIDEO 方法最差外,總體上優于圖像質量評價模型,PLCC 和SROCC 相關系數均大于0.5,這表明僅依賴空間維度特征的圖像質量評價不能充分表達視頻的質量特征。

基于深度學習的方法,不論是圖像質量評價模型Guo 和PCANet,還是視頻質量評價模型V-MEON、CNN+LSTM 及本文方法,均取得較其他方法更好的結果。其中,Guo 的方法采用了VGG 和隨機森林相結合,在充分提取空間特征的情況下,用集成學習方法對決策進行了優化;V-MEON 模型直接學習視頻幀的時空聯合特征;CNN+LSTM 方法先使用預訓練CNN 提取視頻幀的空間特征,再用LSTM 進一步提取時間特征。本文方法在多重特征(時空和運動特征)學習和信息融合方面更優秀。表5 中NR-UVQA方法同樣取得了很高的相關系數,且方法較為簡單,但該方法是否具有普適性待驗證。

表5 14 種圖像、視頻質量評價方法的結果Table 5 Results of 14 quality assessment methods for image and video

(2)泛化性能分析

為驗證各類方法的泛化性能,選擇了五種視頻質量評價方法,在自然場景的數據集ECVQ[29]、EVVQ[30]和LIVE[31-32]上分別做了實驗,結果如表6 所示。從表6 中可以看出,通用的視頻質量評價方法VIIDEO 在ECVQ 和EVVQ 中表現較差,在LIVE 上表現較好,VBLIINDS 在ECVQ、EVVQ、LIVE 數據集中表現穩定,且在LIVE 數據集上取得了最高的相關系數。NR-UVQA 方法在水下視頻質量評價中獲得了很高的相關系數,但在幾個自然場景數據集中表現不太穩定。針對自然場景的V-MEON 方法在ECVQ、EVVQ 數據集上取得了最高的相關系數,在LIVE 上表現一般。TS-UVQA 方法在三個自然場景數據集中都能表現穩定,且在自然場景數據集中能夠取得和其他優秀方法相近的結果。綜上所述,本文方法不僅適用于水下數據集,在自然場景數據集中也能取得和其他最優秀方法相近的相關系數。

表6 自然場景數據集上的視頻質量評價結果對比Table 6 Comparison of video quality assessment results on natural scene datasets

4 總結與展望

通過建立水下視頻客觀質量評價模型,有利于解決自然場景質量評價方法在水下場景中表現不適用性問題,推動當前水下視頻質量評價的優化。本文針對水下視頻的質量損失和視頻不穩定性特點,提出了一種面向水下視頻的客觀無參考質量評價方法TS-UVQA。TS-UVQA 從時空維度、運動信息維度方面提取相關特征,利用三維卷積、自適應正則化和慢融合策略從多視頻幀中提取時空特征,用二維卷積和自適應正則化對光流場塊提取相關運動特征。使用決策級融合策略將時空特征和運動特征相融合,建立了能夠快速高效預測水下視頻質量的評價模型,同時驗證了光流圖對于水下視頻質量評價的有效性。模型預測結果與主觀質量評分取得了很高的相關性。

由于實驗條件的限制,本文還存在許多不足。本文用于訓練的數據集量比較小,不能涵蓋水下視頻各種各樣的情形,不能很好地評價極端環境下的水下視頻,如果有更大的數據量以供學習,模型將取得更好的性能。下一步工作將深入研究水下視頻的特點,優化網絡,提取更加能反映水下視頻質量的特征,增強模型的性能。

猜你喜歡
特征融合評價
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于Moodle的學習評價
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产乱子伦精品视频| 久久久久亚洲AV成人网站软件| 国产靠逼视频| 毛片久久久| 亚洲精品成人7777在线观看| 夜夜拍夜夜爽| 国产浮力第一页永久地址| 久久青草精品一区二区三区 | 伊人久久精品无码麻豆精品| 国产综合无码一区二区色蜜蜜| 亚洲精品天堂在线观看| 亚洲v日韩v欧美在线观看| 欧美精品在线免费| 国产传媒一区二区三区四区五区| 日本欧美视频在线观看| 欧洲一区二区三区无码| 中文字幕 91| 91精品视频在线播放| 中文字幕调教一区二区视频| 亚洲人成电影在线播放| 男人天堂亚洲天堂| 欧美视频在线第一页| 成人免费黄色小视频| 亚洲天堂首页| 亚洲人在线| 国产成人精品高清在线| 成人在线不卡| 91丝袜在线观看| 女人一级毛片| 国产精品成人观看视频国产 | 夜夜操狠狠操| 亚洲无限乱码| 老司机久久精品视频| 97视频免费看| 美女免费精品高清毛片在线视| 456亚洲人成高清在线| 免费国产高清精品一区在线| 91娇喘视频| 欧美在线三级| 国产精品自在拍首页视频8| 国产成人精品高清不卡在线| 婷婷午夜影院| 国产一级二级三级毛片| 色噜噜综合网| 成人综合网址| 国产清纯在线一区二区WWW| 国产乱子伦一区二区=| 午夜视频日本| 久久精品中文无码资源站| 亚洲丝袜中文字幕| 国产人成在线视频| 波多野结衣在线se| 伊人色综合久久天天| 视频一本大道香蕉久在线播放| 欧美国产中文| 亚洲AⅤ永久无码精品毛片| 国产经典免费播放视频| 色综合中文| 久久狠狠色噜噜狠狠狠狠97视色 | 国产三级精品三级在线观看| 色视频国产| 国产尹人香蕉综合在线电影| 国产玖玖视频| 国产美女主播一级成人毛片| 国产全黄a一级毛片| 亚洲日本在线免费观看| 国产亚洲高清视频| 国产一区自拍视频| 狠狠v日韩v欧美v| 欧美国产视频| 91精品视频播放| 国产成人精品高清不卡在线| 国产成人无码久久久久毛片| 欧美精品另类| 国产欧美日韩在线一区| 好久久免费视频高清| 国产精品美女网站| 999国内精品久久免费视频| 国内视频精品| 精品久久香蕉国产线看观看gif| 青青草一区| 中国国产一级毛片|