999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的視頻質量評價研究綜述

2021-03-11 06:20:32譚婭婭孔廣黔
計算機與生活 2021年3期
關鍵詞:數據庫特征評價

譚婭婭,孔廣黔

貴州大學 計算機科學與技術學院,貴陽550025

近年來,隨著互聯網技術的迅速發展,各種視聽設備充斥著人們的日常生活,視頻的分享傳輸也更加頻繁。高質量視頻的需求也不斷增加。在壓縮和上傳視頻的過程中,視頻易受到損傷而導致視頻質量下降,如丟包、模糊和高斯噪聲等損傷行為。因而,對視頻質量進行評價是非常必要的。視頻質量評價(video quality assessment,VQA)是視頻服務系統中的重要技術,在視頻編碼器性能評測、視頻質量監測方面有廣泛應用,是為觀眾提供高質量視頻的必要技術[1]。視頻質量評價方法有兩種,一種是視頻主觀質量評價方法,一種是視頻客觀質量評價方法。又根據對原始視頻的依賴程度,視頻客觀質量評價方法可以分為三種類型:全參考(full reference,FR)、部分參考(reduced reference,RR)和無參考(no reference,NR)。全參考需要依靠完整的原始視頻;部分參考需要依靠部分原始視頻;而無參考不需要依靠原始視頻,只需要針對失真視頻進行評價。在許多實際情況中,由于難以獲得原始視頻,因而無參考視頻的評價方法具有重要的研究應用價值,成為近年來視頻評價方面的研究熱點。

在科技快速發展、大數據爆發的當下,VQA方法不再是以傳統的基于手工特征的方式進行評估,基于深度學習的VQA 方法成為了大數據下的研究趨勢。并且隨著多媒體種類的增加,人類接收視覺信息的途徑也越來越多,視頻的種類也不再單一,出現了立體視頻、全方位視頻和虛擬現實(virtual reality,VR)視頻等多樣的視頻類型。單一的基于卷積神經網絡(convolutional neural network,CNN)的評價方法已不能滿足當下情況,對其進行技術擴展使其達到更好的評估效果是非常必要的,開展新型的網絡模型是打破瓶頸的必要手段。

本文通過分析近幾年來國內外的基于深度學習的VQA方法,概括不同的卷積神經網絡模型,了解視頻質量評價現狀及未來發展趨勢,為后續的研究提供參考資料。

1 視頻質量評價

視頻質量評價是指通過特定的評價方法對兩段主體內容相同的視頻信息的變化和失真進行感知、衡量和評價,在指導視頻編碼壓縮和視頻質量監控領域有重大應用[2]。評價方法分為視頻主觀質量評價方法和視頻客觀質量評價方法兩種。視頻主觀質量評價方法是讓觀測者對視頻質量做出直觀判斷,主觀評分一般是由平均主觀得分(mean opinion score,MOS)或平均主觀得分差(difference of mean opinion score,DMOS)表示。主觀質量評價方法雖然是最為準確的評估方法,但是其結果容易受到多種因素影響且方法復雜。因此,大多采用易于實現的視頻客觀質量評價方法。客觀質量評價方法是計算機通過某些算法從人類的主觀評分角度出發,從而預測給定視頻的評分,又根據對原始視頻的依賴程度,可將其分為三種類型:全參考、部分參考和無參考。根據是否引入深度學習方法,又可將其分為非深度學習的客觀評價方法和深度學習的客觀評價方法。如圖1所示,從主客觀兩方面對視頻質量評價方法進行分類,并列舉出典型的評估方法。

Fig.1 Classification of video quality assessment圖1 視頻質量評價分類

1.1 主觀質量評價

主觀質量評價方法是通過觀察者的評分歸一化來判斷視頻質量。在ITURBT.500 建議書中,有主觀評價的相關標準。常用的評價方法有雙刺激損傷分級法(double stimulus impairment scale,DSIS)、雙刺激連續質量評價法(double stimulus continuous quality scale,DSCQS)、單刺激方法(single stimulus methods,SSM)、單刺激連續質量評價法(single stimulus continuous quality evaluation,SSCQE)等。其中DSIS 評價方法采用的是讓觀察者待在一個受控的環境中,連續觀看一定時間內的多個測試序列對,其中包括原始參考視頻和失真視頻。在每次觀看時,先看原始參考視頻,再觀看失真視頻;然后采用五級評分方法(質量尺度為優、好、中、差、劣五類)讓觀察者對視頻序列的質量進行評分;最后求得MOS 來判斷視頻質量并對所得數據進行分析。

雖然主觀質量評價是最為準確的評估方法,但需要考慮多種因素,如觀測環境、觀測時長、觀測距離以及觀看參考視頻和失真視頻的先后順序等因素,并且人類視覺系統易受到時間掩蔽效應[3]的影響,即當存在大運動時,相對于運動物體不太明顯的色調、亮度等微小變化,人類是無法察覺的。而且在主觀質量評價中需要大量的觀測人員以及專業化的實驗環境,需要花費大量的時間和費用,成本較大,且不利于實施。因此,在實際情況中需要一種客觀的、易于實現的視頻客觀質量評價方法。

1.2 客觀質量評價

客觀質量評價方法是計算機根據算法計算出視頻質量的量度。要求在相同的測試序列下,客觀評價的結果要與主觀評價的結果相一致,可以從預測的單調性、一致性、穩定性和準確性來衡量評價量度本身的優劣。根據對原始參考視頻的依賴程度,客觀質量評價法又可以分為三種類型:全參考、部分參考和無參考。如表1所示,從原理、不同點和代表性方法方面對三種類型進行了對比。其代表性方法有基于運動的視頻保真度評價方法(motion-based video integrity evaluation,MOVIE)[4]、ST-MAD(spatiotemporal most-apparent-distortion)[5]、結構相似度算法(structural similarity,SSIM)[6]和V-CORNIA(video codebookrepresentation for no-reference image assessment)[7]。

在傳統的質量評估方法中,常常采用低復雜度且簡單的均方誤差(mean square error,MSE)和峰值信噪比[8](peak signal to noise ratio,PSNR)等評價方法,但由于它們未能充分地考慮人眼的視覺特性,因而會導致客觀評價與實際視覺效果不一致的結果。隨后提出了基于人眼視覺特性(human visual system,HVS)仿生的算法以及支持向量機(support vector machine,SVM)方法[9]等,與MSE和PSNR相比,有了很大的改進,但依舊未能達到期望值。Seshadrinathan等人提出了MOVIE[4]方法,考慮視頻中的運動信息,獲得了較好的性能評價,但在多數情況下難以獲得足夠的參考信息。Mittal 等人提出一種基于空間域自然視頻統計(natural video statistic,NVS)的模型[10],用于建模時空關系的感知相關特征;Saad等人[11]結合時空NVS和運動相關性提出了一個無參考的質量評價方法,以此進行質量評估。隨后,以HVS 和NVS為基礎擴展的評估方法[12-13],雖有較好的準確率和響應速度,但這些方法都需要大量的手工提取特征,且特征提取復雜、耗時,難以做到無監督學習。

總之,由于傳統方法的種種局限性,要使客觀質量評價方法與主觀質量評價方法結果達到一致是較為困難的。而隨著深度學習的發展,計算機視覺領域達到了新的高度,對于圖像和視頻的處理有很大的突破。由此,基于深度學習的更精確、更高效的VQA方法受到了更廣泛的關注。

2 基于深度學習的客觀質量評價

深度學習網絡可以提取到高層次、高區分性的特征,更好地使主觀評價結果與客觀評價結果達到一致。在基于深度學習的質量評估方法中,大多采用的是基于卷積神經網絡的模型,例如Callet等人[14]首次提出將CNN應用到客觀的VQA上,雖然只解決了對SSCQE 方法的預測問題,但這是傳統方法向深度學習方法過渡的開端。Kang 等人[15]提出了一種NR 圖像質量評價(image quality assessment,IQA)方法,這是CNN 首次用于通用NR-IQA,是可視質量評價方向的一大進步。

然而,在VQA方面,2D-CNN主要是將視頻的一幀作為輸入,易忽略各幀之間的關聯信息,難以捕獲時間信息。而三維卷積神經網絡(three-dimensional convolutional neural network,3D-CNN)以連續的多幀作為輸入,增加時間維度信息,能夠提取到更具表達性的特征。因此,3D-CNN 將更適合視頻分析處理。目前在視頻質量評估方面,通常考慮全參考型和無參考型的兩種類型的評價方法;大多采用基于2DCNN 的方法和基于3D-CNN 的方法,其中2D-CNN要引入遷移學習及其他的時空特征提取技術來彌補其不足。

Table 1 Comparison of objective quality assessment methods表1 客觀質量評價方法對比

2.1 全參考型評價方法

在深度學習中,模型訓練測試的前提條件就是必須具備極大的數據量。而全參考視頻評估方法必須提供完整的原始參考視頻與失真視頻進行對比評估,但這往往是難以獲得的。一方面是因為,現有的包含原始參考視頻、具有規范性且數據規模大的公開視頻數據集較少;另一方面,自制視頻數據集需要高成本的代價,人力、物力都是難以達到的。因此,全參考的評價方法雖然比無參考的評價方法更具有準確性,但依舊存在由樣本數據不足引起的評估效果不佳等問題。為解決此類問題,大多模型采用遷移學習,通過特征遷移,以圖像特征豐富視頻特征,或以遷移模型提高評估能力。

圖2 是基于深度學習的FR-VQA 方法的一般框架圖。FR-VQA 方法流程大致分為四個步驟:預處理、特征提取、特征融合和回歸模型。預處理部分對輸入的視頻數據進行大小的歸一化,包括視頻數據的長、寬和時間長度。設置輸入形式,以一幀幀圖像作為輸入或是以連續幾秒的視頻塊作為輸入;特征提取部分以CNN 網絡為基礎進行卷積提取特征,在FR-VQA 方法中需各自提取原始參考視頻和失真視頻的時空特征;大多采用級聯的方式將參考視頻特征和失真視頻特征融合;最后以融合后的時空特征以及對應原始參考視頻的MOS 作為回歸模型的輸入,回歸模型大多采用全連接層學習整體的感知質量和目標質量分數的非線性回歸關系;最后得到失真視頻的質量分數。以下對近年來的一些典型FRVQA方法進行介紹。

Fig.2 FR-VQA method frame圖2 FR-VQA方法框架

由于樣本數據的不足對訓練效果有很大的影響,而現今可用的包含原始參考視頻和失真視頻的VQA 數據庫中的樣本非常有限且分布不平衡,缺乏內容豐富、失真程度多樣和標簽平衡的失真視頻。對于樣本不足的情況,常考慮使用遷移學習或預處理等方式解決。如Zhang 等人[16]模仿基于特征的遷移學習框架,將失真的圖像和視頻轉移到一個共同潛在的特征空間中進行預處理,以特征遷移來豐富失真樣本,有效解決了訓練樣本和標簽不足的情況。在池化后引入后處理技術,可以有效抵消組間標簽錯誤造成的偏差。與其他網絡相比,預處理和后處理的引入,有效地減少了FR-VQA 指標預測的不準確標簽的影響。然而,由于采用經過交流分量系數(deformations of alternating current(AC component)coefficients,DAC)變形的視頻塊作為輸入,使得模型更具復雜性,但性能相比當時其他模型較好。

另一方面,VQA的目的是準確地衡量視頻內容的人眼感知質量。然而,現有的將視覺感知納入VQA的模型大多具有局限性,無法準確、高效地將人眼視覺感知納入到模型中。考慮到這一問題,Kim等人提出了DeepVQA[17]。通過CNN 和卷積神經聚合網絡(convolutional neural aggregation network,CNAN)來量化時空視覺感知。借鑒了“注意力機制”的思想[18-19],提出CNAN 來對每一幀的預測質量分數進行加權,在時間池化方法中考慮了預測分數的整體分布,而非單一幀的質量分數,以此提高模型的評估效果。與未使用CNAN 的模型對比,使用了CNAN 的模型提高了整體預測的性能。然而,2D 卷積難以很好地保留時域信息。為了能夠更好地捕獲視頻時間特征,提出了以3D卷積來處理視頻信息。如Xu等人提出了C3DVQA(convolutional neural network with 3D kernels(C3D)for video quality assessment)方法[20]。使用3D卷積學習時空特征,捕獲視頻的時間掩蔽效應,模擬HVS 的質量評估過程。3D 卷積的引入提高了模型的性能,但需在更大規模的數據庫中進行推廣,進行更全面的實驗,驗證模型性能。Li 等人認為物體的運動將影響人類的視覺體驗[21],創新性地提出評估復雜運動場景中人體運動質量的3D-CNN 網絡模型。使用特征映射圖提取參考視頻和失真視頻的局部相似度,最后結合權重以獲得整體圖像質量分數。作為全參考模型,其評估效果一般,其原因可能是只考慮了物體運行時的質量效果,物體運動過程中帶有了許多不確定性,難以全面處理。其模型性能還需通過數據預處理來提高,可參考文獻[20]中的以參考幀與失真幀之間的殘差幀為輸入,通過增加不同類型的輸入來獲得更多的特征。

FR-VQA 方法雖能使用2D-CNN 和3D-CNN 網絡達到良好的評估效果,但由于現有的原始參考視頻數據庫少,并且難以獲得,2D-CNN 模型雖能采用遷移學習的方法解決樣本不足問題,但引入的預訓練模型也導致模型訓練中參數過多,且未能充分利用到時域信息;使用了3D 卷積的FR-VQA 方法雖能達到很好的評估效果,但泛化能力有待評估,且在實際應用中沒有原始參考視頻進行對比,致使全參考型模型并不適用。由于這些局限性,導致全參考型方法并不實用,因而無需參考原始視頻的無參考型評價方法得到了更多關注,具有更大的研究應用價值。

2.2 無參考型評價方法

NR-VQA 方法又稱為盲視頻質量評價(blind video quality assessment,BVQA),無需提供原始參考視頻,只需根據失真視頻的自身特征估計視頻質量。與FR-VQA 相比,NR-VQA 提供了更大的可能性,且現今的評估方法大多針對通用的失真類型。因而NR-VQA 方法最具實用價值,有著非常廣泛的應用范圍。圖3 是基于深度學習的NR-VQA 方法的一般框架結構圖。NR-VQA 方法與FR-VQA 方法流程相似,只是去掉了參考視頻的特征提取和特征融合部分。

Fig.3 NR-VQA method frame圖3 NR-VQA方法框架

現有的NR-VQA方法還面臨著一些問題:(1)在一些數據庫中,訓練樣本不均衡,數量不足;對于一些特殊的視頻類型,如VR 視頻類型,難以得到其數據庫,需要自己手動創建。(2)視頻的失真類型多樣,而標準NR-VQA 是專為特定類型的失真而設計的,具有局限性,缺乏通用性。(3)對于自然失真視頻數據庫,難以達到較好的評估結果。下文將NR-VQA模型分為基于2D-CNN 的方法和基于3D-CNN 的方法兩部分進行介紹。

2.2.1 基于2D-CNN的方法

在2D-CNN 中,卷積只能表示二維的特征圖,每進行一次二維解算操作,時域信息就會丟失。一般的CNN 并不適合處理具有三維時空規律的視頻,即使以視頻塊作為輸入,也很難得到適中的評估效果,并且樣本的缺乏使得網絡難以訓練。因此,在基于深度學習的VQA中,大多采用經過預訓練的CNN模型結構和其他技術組合的方法進行質量評估。

在視頻質量評價中,設計一個對于任何失真類型都適用,且能保證與人類主觀視覺感知一致的算法模型是非常必須的。如Li 等人提出了SACONVA(shearlet-and CNN-based NR-VQA)[22]方法,啟發靈感來源于NR-IQA[23]。考慮到將視頻視為靜態圖像,以一幀幀圖像作為輸入并不能有效提取時間運動信息的問題,此算法以視頻塊為輸入,通過三維剪切波變換提取時空特征,三維剪切波變換可以有效處理時域信息,其稀疏性質可改進算法的評估能力。然后經過平均池化得到相應的特征向量,再利用CNN 網絡和邏輯回歸用于預測視頻質量。此算法為VQA方法提供了一個利用通用CNN 的范例,并證明了在盲視頻降噪等實際情況中的應用。然而,該算法雖然與人類的視覺感知有著良好的相關性,但依然存在訓練失真視頻的數量有限和標簽不均衡等問題,限制了算法的性能、魯棒性和泛化能力。由此,Wang等人[24]提出將視頻中的時空特征分開提取,一是利用CNN 學習幀級的空間質量特征,二是利用自然場景統計特性(natural scene statistics,NSS)[11]捕獲時間運動特征;最后考慮到人的心理感知,訓練一個多元回歸模型來決定最終的視頻質量。在當時條件下,該方法優于其他NR-VQA方法。但在時間特征的提取方面引入了手工特征提取,且將時空特征分為空間特征和時間特征進行提取再融合,這并不利于時空特征的充分提取。Ahn等人提出DeepBVQA方法[25]。引入遷移學習,由經過預訓練的CNN 提取每個視頻中的空間線索,采用手工提取方法提取時間線索特征。算法性能只是相關性值略高于其他VQA 模型。整體上,算法的性能并不好,且引入了手工特征提取。文獻[24]和文獻[25]都是半深度學習方法,都需要擺脫手工提取時間特征。文獻[26]中也引入了遷移學習,從經過預訓練的CNN中獲得特征,但未使用手工提取方法提取特征,而是結合了時間池化方法進行特征信息融合,最后以支持向量回歸(support vector regressor,SVR)映射到質量得分上。遷移學習的引用彌補了樣本的不足,改善了模型訓練效果。

另一方面,有效提取自然視頻中的時空特征有利于訓練算法的性能,得到更好的結果。考慮到一些NR-VQA 算法難以有效、全面地提取自然視頻的三維時空特征。Zhang等人[27]以FR-VQA度量得出視頻塊的弱標簽和相應的主要特征作為輸入,以此豐富訓練集;引入模型遷移,利用預訓練的CNN 模型,且為提高從失真視頻到質量分數的映射函數性能,應用重采樣策略生成將深層特征映射到質量得分的回歸函數。算法采用多種方法來豐富樣本和提高評估性能,取得了較高的精確度。但依舊存在問題:訓練樣本不均衡,數量不足,遷移樣本由人工選擇以及FR-VQA指標產生的弱標簽引入了噪聲。Utke等人[28]以具有主觀質量評估能力的視頻多方法評估融合[29-30](video multimethod assessment fusion,VMAF)模型為參考,通過組合多個基本質量指標來預測主觀質量。VMAF 模型采用三個基本指標:衡量空間特征的視覺信息保真度[31]、細節丟失指標[32]以及具有時間特性的運動量。以SVM將這三個基本指標融合為一個最終指標,并為每個基本指標分配一定的權重,保留指標的評價優勢,從而獲得更精確的評估分數,分數范圍在[0,100],分數越高質量越好,其評估結果與最終人眼感知達到完全線性正相關關系。然后再利用經過預訓練的DenseNet[33]網絡對游戲視頻流中的質量進行評估。然而,此方法的計算量大,不利于實施,勝在創新性地對游戲視頻流進行評估,有巨大的前景需求。

考慮到VQA 模型的一個主要目的就是要在自然失真視頻數據庫上達到優良的效果。但大多模型都只能在人為制造的失真視頻上達到良好效果,在自然失真視頻數據庫上難以達到好的結果。由此,Varga 等人提出了一種基于長短時記憶網絡(long short-term memory,LSTM)和CNN 的通用算法[34]。這是第一個基于自然視頻質量數據庫的深層架構。比較創新的是,它將視頻序列作為CNN 提取的深度特征的時間序列,利用經過預訓練后的CNN 模型提取幀級深度特征,以此作為LSTM 網絡的輸入,訓練兩層的LSTM 網絡和一層全連接層來預測質量分數。利用LSTM 網絡學習感知質量預測的長期依賴關系,可以有效地發現在NR-VQA 中可能有用的長期時間關系。算法在具有真實自然失真序列的KoNViD-1k[35]視頻數據庫上進行訓練,其性能略優于當時最先進的方法。與文獻[34]相似,Li等人[36]使用具有門控制的遞歸神經網絡(gated recurrent neural network,GRU)對時間記憶進行建模,以學習感知質量的長期依賴關系,并在自然失真數據庫中驗證了方法的有效性。

以上2D-CNN結構的網絡模型,大多引入遷移學習,采用經過預訓練后的CNN模型ResNet-50、VGG-16、Inception-V3 和AlexNet 等網絡,以此來提高模型的評估能力。特征遷移和模型遷移的引入雖能彌補訓練樣本過少的問題,提高算法性能和速度,但網絡中的卷積操作并不能很好地反映幀與幀之間的時序關系。對于難以捕獲時間信息的問題,一些方法或多或少地引入人工提取特征,這并不高效;或通過三維剪切波變換等技術來高效提取時空特征,以提取到的多方位、多角度的時空特征映射到最終的質量得分回歸函數,通過增加特征的方式來提升模型的評估能力。而對于文獻[34,36]提出的方法,以循環神經網絡來解決時序問題,通過充分利用時間信息提取特征來提高模型性能。且在自然失真視頻數據庫上得到驗證,并取得較好的效果。為應對自然失真的實際情況,模型的泛化能力還需提高。未來可能更加關注遞歸循環神經網絡模型的研究。綜上,在基于CNN的方法中加入其他技術進行輔助能很好地應用在質量評估上,有效改善2D卷積上時域信息丟失問題,但數據預處理方面并不簡單,依舊存在未能充分利用時間信息的問題。

2.2.2 基于3D-CNN的方法

在2D-CNN中,卷積僅從空間維度計算特征。而在視頻處理問題上,為了能夠捕獲到多個連續幀中的運動信息,提出用3D卷積來計算空間和時間維度特征。與2D卷積不同,3D卷積中的輸入圖像多了一個時間維度,這個維度可以是視頻上的連續幀,也可以是立體圖像中的不同切片。3D卷積通過堆疊多個連續幀,從而組成一個立方體,然后在立方體中運用3D 卷積核[37]。在整個卷積過程中,都是使用同一種卷積核,也就是權值共享。在輸出上,2D卷積的結果是一張包含高和寬的特征圖,而3D卷積的結果是一個包含高、寬和時間維度的立方體。如圖4 所示[37],對比了2D卷積和3D卷積操作,其中H、W表示輸入圖像的高度和寬度,K×K表示卷積核的大小,L可以視為L幀的視頻,d為卷積核的深度。

由于3D 卷積可以有效保留時間信息,將更適于視頻分析。例如Liu 等人提出了視頻多任務端到端優化的深度神經網絡(video multi-task end-to-end optimized neural network,V-MEON)[38]方法。啟發來源于對于圖像的質量評價方法MEON(multi-task endto-end optimized neural network)[39],將特征提取部分和回歸部分共同優化,可預測最終的質量分數。特征提取部分中將2D卷積改為3D卷積,有利于時空特征的提取,并且利用慢融合結構的濾波器捕獲了更多的時空信息。評價結果表明,此方法比當時最先進的通用BVQA 模型性能更好,具有評估增強視頻感知質量的潛力,有助于改進視頻增強算法。再如Hou等人提出一種三維深度卷積神經網絡[40]。網絡模型由經過預訓練的VGG網絡前12層和一個3D-CNN架構組成,前者使用卷積操作提取視頻內部每一幀的質量敏感特征,后者以3D卷積充分提取時空特征,最后利用全連接層進行回歸操作對視頻質量進行評估。采用基于bin 的平均池化,有效防止過擬合,且方便提取特征的卷積結構并加快收斂速度。算法性能結果優于當時的其他NR-VQA 方法,甚至優于某些流行的FR-IQA方法。

另一方面,現有的視頻類型多種多樣,立體視頻、全方位視頻和VR 視頻等多角度、全方位的視頻已經大規模地出現在人們的生活中,因此,對于不同視頻類型的質量評價研究也是非常必要的。不同于平常的二維視頻,這些類型的視頻更加復雜、多樣,一般的VQA 方法難以進行。但是,使用3D-CNN 模型也能進行準確的評估,例如Yang 等人提出基于3D-CNN 的立體視頻質量評估(stereoscopic video quality assessment,SVQA)框架[41],是首個將3D-CNN應用到評估立體視頻質量的方法。使用三次差分視頻塊作為輸入,能夠有效地建模局部的時空信息和全局的時間信息。設計3D-CNN 架構來自動有效地捕捉局部空間特征,比通過手工提取的特征更準確、更方便;且不需要復雜的預處理和GPU加速,計算效率高,易于使用。再如Yang等人提出針對VR視頻的基于3D-CNN的端到端網絡框架[42],由于數據庫的缺少,建立了一種VR 質量評價的免費可用數據集(VRQ-TJU);將VR視頻的局部時空特征與質量分數融合策略相結合,從而得到視頻的客觀預測分數。此方法是首個利用3D-CNN 來評估VR 視頻質量的方法,無需復雜的預處理。算法的結果與主觀質量評價結果一致。由于只是在自建的數據庫上訓練,因此實驗缺乏豐富性。Wu 等人也提出一種基于自建數據庫的虛擬現實質量評價方法[43]。使用3D-CNN來預測虛擬現實視頻的質量,采用不同的質量分數策略得到最終的分數。結果表明,該方法比傳統方法具有更好的性能,并且結合權重后的網絡性能更好。

文獻[42]中視頻質量評價的3D-CNN 結構圖如圖5所示,其框架由兩個3D卷積層C1、C2,兩個3D池層S1、S2 和兩個全連接層FC1、FC2 組成。以10個圖像補丁組成的32×32大小的視頻補丁為輸入,無需人工提取特征;第一層是3D 卷積層,對輸入采用3×3×2的卷積核進行卷積,輸出50個大小為30×30×9的三維特征圖;第二層采用大小為3×3×3卷積核進行最大池化,得到50 個10×10×3 的三維特征圖;第三、四層依次進行卷積、池化;第五、六層采用全連接層;最后,采用質量分數融合策略解決VR視頻中的空間分布不均勻問題,輸出為512維特征向量以及最終的客觀質量分數。作為首個應用于VR 視頻質量評價的3D-CNN 模型,由于缺少VR 視頻數據庫,因而在自建的VRQ-TJU 數據庫上進行訓練。對于全方位、多角度的VR視頻,模型的輸入只是進行了簡單視頻大小劃分的預處理,未進行復雜的特征變化處理。且模型結構簡易,最終取得了與主觀質量評價一致的結果。但數據庫的缺乏,難以評估模型的泛化能力。

Fig.4 Comparison between 2D convolution and 3D convolution operation圖4 2D卷積與3D卷積操作對比

Fig.5 3D-CNN structure diagram圖5 3D-CNN結構圖

與2D-CNN相比,3D-CNN在處理視頻方面有更大的優勢。3D卷積的網絡模型充分保留了輸入的時間信息,在訓練中提取到了更全面、更可靠的時空特征,由此提升了模型的評估能力。且訓練過程中無需復雜的預處理和高速運算,有更高的計算效率且易實現。因此,3D 卷積更適于視頻分析。并且對于復雜的、多樣化的VR視頻等,3D-CNN模型也能很好地進行訓練評估,但由于缺少內容豐富的視頻數據庫,其泛化能力需加強研究,且在自然失真視頻數據庫上的評估效果不佳,其研究還待加強。未來,對于適合視頻處理的3D-CNN模型或將得到更多的關注。

3 算法性能比較

3.1 視頻質量評價數據庫

在視頻質量評價研究中,建立失真類型多樣、內容豐富且包含MOS評分的視頻數據庫是視頻質量評價研究中不可缺少的一部分。而現有的視頻數據庫多種多樣,常用的視頻數據庫有LIVE[44]、CSIQ[45]、IVP[46]和KoNViD-1k[35]等。對于其他類型的視頻,也有相應的數據庫。在全方位視頻數據庫方面,有頭部運動(HM)數據庫[47-48],也有包括HM數據和眼部運動(EM)數據的數據庫[49]。在立體視頻方面,有CornellA57[50]、VQEG[51]、NAMA3DS1[52]等立體視頻數據庫,包括了原始立體視頻和失真立體視頻以及MOS評分。在此僅介紹部分視頻數據庫。

(1)LIVE數據庫[44]:10個參考原始視頻和150個失真視頻。4 種失真類型:Wireless 壓縮失真、IP 失真、H.264 壓縮失真和MPEG-2 壓縮失真。每段視頻對應一個DMOS得分,分值范圍為[0,100],分數越高,視頻質量越差。

(2)CSIQ數據庫[45]:12個參考原始視頻和216個失真視頻。6種失真類型:H.264/AVC壓縮失真、具有丟包率的H.264 視頻、MJPEG 壓縮失真、小波壓縮失真、白噪聲和HEVC 壓縮失真。每段視頻對應一個DMOS得分,分值范圍為[0,100],分數越高,視頻質量越差。

(3)MCLV數據庫[53]:12個參考原始視頻和96個失真視頻。兩種類型的壓縮失真:具有4個不同質量等級的原始視頻的H.264/AVC 壓縮失真和具有4 個質量等級的縮小原始視頻的H.264/AVC 壓縮失真。所有失真的視頻都提供MOS 得分的平均值和MOS得分的偏差。

(4)VQA-ODV數據庫[54]:由600個全向序列的主觀評分、HM 數據和EM 數據組成的大規模全向視頻VQA 數據庫。600 個序列中包括60 個參考序列和540 個受損序列,它們在內容、持續時間和分辨率上都存在差異,壓縮和地圖投影都存在缺陷。

(5)VRQ-TJU 數據庫[42]:13 個參考VR、104 個對稱失真VR 和260 個非對稱失真VR 和相關MOS 組成。是針對VR視頻質量評價構建的VR數據庫。

3.2 評價性能指標

客觀視頻質量評價方法的性能指標使用最廣泛的是Pearson 線性相關系數(Pearson linear correlation coefficient,PLCC)、Spearman秩序相關系數(Spearman rank-order correlation coefficient,SROCC)、Kendall秩序相關系數(Kendall rank-order correlation coefficient,KROCC)和均方根誤差(root mean square error,RMSE),它們常常用于測量兩個變量之間的相關程度。

Pearson線性相關系數用于預測值與主觀評分之間的相關性,其計算值的范圍在0 到1 之間,相關性值越大,性能越好。計算公式如下:

其中,N表示失真視頻的數量,Ai表示第i個視頻的主觀評價分數,Bi表示通過客觀評價模型得到的第i個視頻的質量預測分數,Aˉ和Bˉ分別表示主觀預測值和客觀預測值的均值。

均方根誤差用于衡量算法的準確性,準確性值越小,表明誤差越小,模型性能越好。計算公式如下:

Spearman 秩序相關系數和Kendall 秩序相關系數用于衡量算法的單調性,單調性值越大,性能越好。計算公式如下:

其中,Di表示第i個失真視頻的主觀評價值與客觀預測值之間的差異,Nc代表數據序列中序號對一致的個數,Nd代表數據序列中序號不一致的個數。

3.3 算法對比

統計各算法在不同數據庫上的Pearson線性相關系數(PLCC)和Spearman 秩序相關系數(SROCC)的值,PLCC 和SROCC 分別衡量算法的相關性和單調性。整體過程:對比數據由各自算法提供,數據不全且未開源的算法模型不參與對比。未命名的算法以其開頭作者名代替,每項數值保留小數點后三位,性能最好的算法數值用加粗標出。算法針對的失真類型都是混合型失真,即算法對數據庫中所有類型的失真進行隨機訓練,而非對某一類失真類型進行單獨訓練。算法中若進行了多種情況的比較,選擇效果最好的一次加入對比,所選數據庫有LIVE、CSIQ和KoNViD-1k。

如表2 所示,比較了全參考型算法和無參考型算法在三個視頻數據庫上訓練的效果。為更直觀地進行比較,在全參考型算法中加入典型的PSNR、MOVIE[4]和STMAD[5]算法進行對比。特別地,引入了最新的STS(space-time slices)類算法[55],此算法以參考視頻和失真視頻的各類特征圖為輸入,如邊緣增強圖、幀差異圖和相對梯度量圖等,使用典型的IQA 模型(PSNR、SSIM[56]和視覺信息保真度算法(visual information fidelity,VIF)[57])對視頻質量進行訓練,由此有三種算法STS-PSNR、STS-SSIM和STSVIF。在無參考型算法加入典型的V-BLIINDS(video blind image integrity notator using discrete cosine transform statistics)[11]和V-CORNIA[7]算法進行對比。

如表2 所示,與傳統的典型算法相比,加入3D卷積的全參考型C3DVQA 算法在整體上有最好的評估效果,在LIVE 和CSIQ 數據庫上的PLCC 值和SROCC 值都達到0.900 以上的評估值,這是非常可觀的。與STS 類算法相比,C3DVQA 在LIVE 數據庫上的PLCC 值低于STS 類算法,最差比STS-PSNR低了0.036,其他數值遠高于STS 類算法。其次是DeepVQA 算法,整體效果較為均勻,只是LIVE 數據庫的PLCC 值為0.895,低于STS 類算法和C3DVQA算法,其相關性還需加強。值得關注的是,STS 類算法用的是典型的IQA 模型進行視頻分析,其評估效果遠高于典型的VQA 算法。而加入3D 卷積的MEON 和3D-CNN VQA 等無參考算法效果一般,最好的評價結果也未超過0.850,其原因可能是視頻失真的復雜性使得模型在學習的過程中未能提取到多樣的時空信息。而2D卷積的各個無參考型算法大都表現均勻,但評估效果都未有達到0.900 以上的,遠低于全參考型模型。可以推斷,即使無參考型模型更符合當下的情況,但全參考型模型評價效果依舊是最好的,所依賴的原始參考視頻為算法提供了好的依據,有效提高了算法的評估能力。無參考型模型還需更進一步研究,以改進模型的性能。其次,對比算法在自然失真視頻數據庫KoNViD-1k上的評價效果,文獻[26]和文獻[34]是由同一研究團隊先后發表的。文獻[34]所提算法在KoNViD-1k 數據庫上的整體效果較為均勻,PLCC 值和SROCC 值分別為0.867和0.849,但在人為制作的失真視頻數據庫LIVE上卻表現不佳,其PLCC 值和SROCC 值只有0.691 和0.703,遠低于0.800。而在文獻[26]所提算法中也有類似情況。可能是由于KoNViD-1k數據庫中不具有LIVE 數據庫中的失真視頻類型導致的。而Li 中的相關性表現較差,PLCC 值只有0.744,其原因可能是在全局池化過程中保存的信息不足。與典型的VBLIINDS 和V-CORNIA 算法相比,這些算法都有很大的提升,尤其是在自然失真視頻庫KoNViD-1k上。

Table 2 Algorithm performance comparison on database表2 算法在數據庫上的性能對比

從整體上看,相比無參考型算法,全參考型算法表現出更好的評估效果,最高可達到0.900以上的評估效果值,但由于訓練測試的數據庫較少,難以看出其泛化能力。可通過增加不同的數據庫訓練算法,以交叉檢驗的形式說明算法的魯棒性。對于STS 類算法,未使用復雜的網絡模型,創新地利用典型的IQA網絡進行視頻處理。雖在預處理過程中,使用了復雜的STS[58]技術提取時空特征圖,但評估效果非常可觀。因而,在追求前沿、復雜算法模型的同時,也應保持對經典算法的探究,其價值不可小覷。在實際情況中,面臨的是沒有原始參考視頻的自然失真情況,因此,無參考型依舊是最具研究價值的,但采用2D 卷積或3D 卷積的無參考模型的評估效果都難以達到全參考型的高精度。考慮到此問題,一方面,是否可以通過多角度、多方位提取失真視頻的特征圖來豐富輸入數據,以此提高算法性能;另一方面,在IQA 方法也存在此類問題,它引入對抗神經網絡于NR-IQA[59-62]中,以重建偽原始圖像來將無參考問題轉為全參考問題,以此提高算法性能,是否VQA方法也可以從此處找到突破點。對于視頻自然失真的情況,算法較為稀少。雖可以通過設計循環神經網絡模型得到較高的評估效果,但泛化能力較差。無參考型模型要在實際應用情況上達到高效的評估能力還需進一步探究。

4 總結和展望

本文對基于深度學習的視頻質量評價方法進行了綜述,根據在客觀質量評價方法中有無參考原始視頻進行劃分介紹。對基于深度學習的BVQA方法從2D-CNN 和3D-CNN 兩類框架上進行對比。目前在圖像方面的研究已日趨成熟,大多通用的NR-IQA方法[63-69]已經得到實際應用,新型的IQA 方法[70-71]也取得了很高的評估效果,對于全景圖像、VR 圖像等特殊圖像方面的IQA 方法[72-73]也得到極大的技術提高。在視頻方面,主觀的VQA方法已經基本成熟,但成本較大,并不適用;在客觀的VQA 中,與FR-VQA方法相比,無需原始參考視頻,更符合VQA實際情況且易推廣到實際應用中的NR-VQA方法獲得了更多的關注;而基于深度學習的方法比傳統方法更高效、更精確,成為VQA 研究人員的主要研究方向。又由于3D-CNN比2D-CNN更適用于視頻分析,對于復雜的立體視頻[74-75]、全方位視頻[76-79]以及VR視頻[80]的研究也可使用3D-CNN 進行,且消耗資源少。因此,使用3D 卷積的NR-VQA 方法將是一大發展重點。客觀VQA方法現存的主要問題是視頻數據集的內容不豐富、樣本不平衡,這不利于它的發展;其次,大多算法模型在人為制造的失真數據上能夠得到好的效果,但對于自然失真數據難以達到好的效果;再者,大部分VQA方法未能使用到實際應用中。

綜上,VQA 的研究還有許多問題,需進一步探索。現對未來的發展方向進行推斷,具體包括以下幾個方面:

(1)從IQA 到VQA 的改進:當前的VQA 大多借鑒IQA 中的方法,或是從IQA 中得到啟發靈感。如V-MEON算法的啟發來源于對于圖像的質量評價方法MEON[39],將2D 卷積改為了3D 卷積,并增加濾波器的選擇,以此應用于視頻的質量評估上。

(2)從FR-VQA 到NR-VQA 的推進:由于具有規范性、代表性的公開視頻數據庫稀少,以及自制視頻數據成本高,難以達到,致使大多FR-VQA 方法依舊無法獲得樣本豐富、數據量大的原始視頻源,雖能使用遷移學習彌補,但難以考究模型的泛化能力,又因為FR-VQA方法無法應用于實際情況的局限性,因此將FR-VQA向NR-VQA推進將是一個必要的趨勢。

(3)擴大數據規模:一方面擴大現有的公共數據庫,增加失真類型的種類,豐富視頻數據庫,為訓練模型提供數據基礎;另一方面,為應對視頻類型的多樣化,創建更健全、更合適的視頻數據庫是必不可少的,如立體視頻數據庫、全方位視頻數據庫以及VR視頻數據庫等。

(4)視聽聯合的質量評價:視頻中往往伴隨著聲音,音頻與視頻之間的相互關系是復雜的,如視頻失真可能導致音頻無法與視頻人物口唇同步,使得最終用戶的體驗質量不佳。因此,視聽聯合的質量評價是非常有必要的,而現有的音視頻質量評價方法,都集中在單模式的視覺或音頻信號上研究[81],未對視聽結合進行探索,這并不滿足實際情況的應用。因而,對于視聽聯合的質量評價研究進展還需要進一步探索音頻和視頻之間的相互影響,以應用于視頻會議或遠程服務類的實時在線視頻質量監控上。

(5)構建/改進評價標準:視頻多方法評估融合(VMAF)方法是最偏向主觀的視頻質量評價度量標準,但依舊存在未利用到時間信息的問題。在后來的改進方法[82]中,準確率和速度得到很大提升,但仍未利用到深層次的時域特征和色度特征。因此,構建/改進更加符合主觀質量的視頻質量評價標準將是一大挑戰。

(6)客觀評價與主觀評價的一致性:客觀評價的最終目的是要與人類主觀感知達到一致,由于人類視覺系統的復雜性,致使現有的客觀評價方法與主觀評價方法在準確率方面還存在差距。客觀評價要做到和主觀評價精確一致還需研究。

5 結束語

由于人類感知的復雜性,在觀察視頻時易出現時間掩蔽效應和時間滯后效應等情況,而目前對人類感知的認識和研究還不夠深入,致使對視頻質量評價的研究較為緩慢。要想提高視頻質量評價算法整體的準確度和速度,還需從人類內容感知方向進一步研究。且為應對市場的需求,現今的質量評估方法已經不僅僅是對二維視頻進行研究。隨著視頻種類的增多,立體視頻、全方位視頻和虛擬現實視頻已經分布在大眾視野之中,而對于這類視頻的研究熱度也是逐漸上升的,為其提供可靠適用的算法是非常必要的。

總之,目前的視頻質量評價還處于探究階段,仍有許多問題有待解決,對視頻方面的研究依舊是一個艱難的挑戰。相信隨著深度學習領域的發展,計算機視覺處理將得到更大改進與提高。

猜你喜歡
數據庫特征評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
基于Moodle的學習評價
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久无码av三级| 国产成人综合在线视频| 亚洲欧美日本国产综合在线| 国产区福利小视频在线观看尤物 | 国产综合亚洲欧洲区精品无码| a级毛片免费看| 手机成人午夜在线视频| 免费看黄片一区二区三区| 亚洲第一在线播放| 一级成人a毛片免费播放| 国产大片黄在线观看| 91尤物国产尤物福利在线| 欧美一级在线看| 欧美日韩动态图| 国产精品冒白浆免费视频| 91极品美女高潮叫床在线观看| 亚洲欧美另类中文字幕| 国产va在线| 亚洲精品无码在线播放网站| 九九久久99精品| 99色亚洲国产精品11p| 国产精品美人久久久久久AV| 国产成人无码Av在线播放无广告| 中字无码av在线电影| 亚洲无线视频| 一级毛片免费观看久| 国产污视频在线观看| 色噜噜久久| 亚洲国产精品VA在线看黑人| 激情六月丁香婷婷四房播| 日韩中文精品亚洲第三区| 无码精品一区二区久久久| 无码福利日韩神码福利片| 亚洲无码精彩视频在线观看 | 国产午夜福利亚洲第一| 亚洲精品桃花岛av在线| 91小视频在线观看免费版高清| 日韩成人在线网站| 中文字幕久久亚洲一区| 亚洲国产日韩视频观看| 91po国产在线精品免费观看| 亚洲美女一区| 国产麻豆永久视频| 欧美成人看片一区二区三区| 国产丝袜第一页| m男亚洲一区中文字幕| 欧美在线综合视频| 青青青草国产| 国产一区二区免费播放| 99热国产在线精品99| 欧美日本激情| 国产偷国产偷在线高清| 99性视频| 中文字幕亚洲另类天堂| 欧美激情综合一区二区| 精品伊人久久久久7777人| 黄色网页在线观看| 992tv国产人成在线观看| 久久国产精品77777| 亚洲精品在线观看91| 久久久黄色片| 狼友视频一区二区三区| 国产h视频免费观看| 欧美国产日韩在线| 久久久无码人妻精品无码| 欧美黄网站免费观看| 国产精品无码影视久久久久久久| 白浆免费视频国产精品视频 | 久久大香伊蕉在人线观看热2| 日韩不卡高清视频| 欧美亚洲网| 国外欧美一区另类中文字幕| 国产免费福利网站| 国产高清精品在线91| 精品国产乱码久久久久久一区二区| a级高清毛片| 在线亚洲精品自拍| 日本爱爱精品一区二区| 日本高清有码人妻| 亚洲AV无码乱码在线观看裸奔| 久久一级电影| 国产性生交xxxxx免费|