楊文兵 邱天 張志鵬 施博凱 張明威



收稿日期:2023-08-31
基金項目:2021年江門市創新實踐博士后課題研究資助項目(JMBSH2021B04);廣東省重點領域研發計劃(2020B0101030002)
DOI:10.19850/j.cnki.2096-4706.2024.07.017
摘? 要:互聯網時代充斥著海量的質量參差不齊的視頻,低質量的視頻極大地削弱人的視覺感官體驗同時對儲存設備造成極大壓力,進行視頻質量評價(VQA)勢在必行。深度學習理論的發展為視頻質量評價提供了新的思路,首先簡單介紹視頻質量評價理論知識和傳統的評價方法,其次對基于深度學習的評價模型進行神經網絡分類——2D-CNN和3D-CNN,并分析模型的優缺點,再次在公開數據集上分析經典模型的性能表現,最后對該領域存在的缺點和不足進行總結,并展望未來的發展趨勢。研究表明:公開的數據集仍不充足;無參考的評價方法最具發展潛力,但其在公開數據集上的性能表現一般,仍有很大的提升空間。
關鍵詞:深度學習;視頻質量評價;2D-CNN;3D-CNN
中圖分類號:TP391.4;TP18? 文獻標識碼:A 文章編號:2096-4706(2024)07-0073-09
Literature Summary of Video Quality Assessment Methods Based on Deep Learning
YANG Wenbing, QIU Tian, ZHANG Zhipeng, SHI Bokai, ZHANG Mingwei
(Joint Laboratory of Digital Optical Chip of Wuyi University and Institute of Semiconductor Research, Chinese Academy of Sciences, Jiangmen? 529020, China)
Abstract: The Internet era is full of a large number of videos with uneven quality. Low quality videos greatly weaken people's visual and sensory experience and cause great pressure on storage equipment. Therefore, Video Quality Assessment (VQA) is imperative. The development of Deep Learning theory provides a new idea for video quality evaluation, which is of great significance to video quality evaluation. Firstly, the theoretical knowledge of video quality evaluation and traditional evaluation methods are briefly introduced, and then the evaluation models based on Deep Learning are classified by neural network (2D-CNN and 3D-CNN), and the advantages and disadvantages of the models are analyzed. Then the performance of the classical models is analyzed on the open data set. Finally, the defects and deficiencies in this field are summarized, and the future development trend is forecasted. The research shows that the open data set is still insufficient, and the evaluation method without reference has the most potential for development, but its performance on the open data set is average, and there is still a lot of room for improvement.
Keywords: Deep Learning; VQA; 2D-CNN; 3D-CNN
0? 引? 言
視頻在拍攝、壓縮及傳輸過程中,不可避免地會出現失真問題。這些失真問題極有可能會導致重要信息缺失從而造成難以估量的損失。比如人臉識別身份核驗時,攝像頭采集的圖片像素過低導致采集圖像錯誤從而識別失敗;氣象衛星拍攝的氣象圖傳輸過程中失真,導致氣象預測不準。在監控系統中,視頻質量評價(video quality assessment, VQA)可以預測設備狀態,從而及時對存在問題的設備進行維修或更換,在網絡直播過程中,通過視頻質量評價,可以改善終端用戶體驗[1]。視頻質量評價已經成為小紅書、Soul、抖音等視頻播放平臺必不可少的一個環節,這些平臺相繼進行評價算法研究和系統開發。
基于人工特征的傳統的VQA方法已經不適應規模龐大的視頻數據質量評價,同時,種類繁多、場景復雜、來源多變的視頻需要不同的模型進行視頻質量評價,以確保結果的準確性。本文對近年來國內外富有影響力的VQA方法及模型進行剖析,總結其算法原理及優缺點,為VQA的研究提供一定的參考資料。
簡言之,本文的貢獻在于:1)系統總結了近年來基于深度學習的VQA經典模型,并分析其評價原理和算法性能。2)在典型的公開數據集上進行對比,在單一數據集上找到近年來性能最好的算法。3)深入研究經典模型的優缺點,對VQA的發展現狀的和發展趨勢進行展望。
1? 評價方法概述
評價方法可分為主觀評價和客觀評價,主觀評價主要依據一定條件下的人為打分,主觀平均得分(mean opinion score, MOS)或主觀平均得分差異(Differential Mean Opinion Score, DMOS)即為主觀評價結果,客觀評價主要依靠計算機算法進行計算,最后獲得的質量分數即為評價結果。客觀評價方法分三種類型:全參考(Full Reference, FR)、半參考(Reduced Reference, RR)和無參考(No Reference, NR)。FR需要獲取完整參考視頻;RR僅需部分參考視頻;而NR則不需要,只需要待評價視頻。
在實際情況中,獲取原始視頻再進行質量評價需要大量的經濟和時間成本,而無參考的評價方法省去這一環節從而可以大大降低評價過程中的經濟和時間成本,因而在VQA領域,無參考的評價方法具有很大潛力和優勢。
1.1? 主觀評價
主觀評價結果取決于觀察者肉眼主觀感受。因此評價結果不確定性較高,具體表現在:受試者對質量較好/差的視覺信號的評價一致性較高,而對于質量一般的視覺信號的評價一致性相對較低[2]。根據ITU-R BT.500 [3]的建議,通常使用如表1所示的方法進行主觀評價。DSIS代表雙刺激損傷標度法、DSCQS代表雙刺激連續質量標度法、SSCQE代表單刺激連續質量評價法、SDSCE代表同時雙刺激連續質量評價法。評價基本流程是讓觀察者在一定時間內連續觀看多個測試序列,其中包括了原始參考視頻和失真視頻。然后讓觀察者對視頻序列的質量進行評分,最后使用平MOS或DMOS來表示最終的質量得分,判斷視頻質量。
1.2? 客觀評價
視頻質量主觀評價方法由于其低效率和高成本已經不再適用于當前的眾多視頻質量評價場景,比如監控場景和網絡視頻播放場景。主觀評價結果受多因素影響,如觀測場地環境、觀看時長、個人身體及情緒狀況和視頻播放順序。同時時間掩蔽效應[4]極易影響人類視覺系統,從而使評價結果出現偏差。因此,在實際情況中需要一種客觀的、易于實現的視頻客觀質量評價方法。如圖1所示,在視頻質量客觀評價方法中,全參考評價方法高度依賴原視頻(參考視頻),需要在像素級上將待評價視頻和其對應的原視頻進行像素比對從而獲得評價結果,評價結果極有可能和主觀評價結果不同;半參考的視頻質量評價方法部分依賴原始視頻(參考視頻),通過視頻特征提取、特征比對進行評價;而無參考的評價方法,完全不需要原視頻進行模型訓練,直接調用訓練好的模型就能得到評價結果。
2? 傳統的評價算法
傳統客觀評價方法是通過使用計算機算法對視頻進行自動分析和評估,對同一段測試序列,主客觀評價結果要一致。可以從預測的單調性、一致性、穩定性和準確性來衡量評價算法本身的優劣[5]。傳統評價算法的原理、區別和經典模型如表2所示。
最初的全參考評估方法采用(PSNR)峰值信噪比-均方差(MSE)[10]和ST-MAD [7]方法,在像素級上進行像素比對,最后得出質量評價結果,一般直接使用參考視頻和待評價視頻同一幀相同坐標上的像素差的平方根作為依據,這能直接反應視頻質量的波動情況。這類方法計算過程簡單,能夠一定程度反應圖像質量狀況,因此至今仍然被廣泛應用。但其未充分考慮人眼視覺特性,評價結果往往與主觀評價結果不相符。其后,部分學者充分考慮人眼視覺特性(human visual system, HVS)算法進行改進,仿人眼特性的算法在一定程度上提升了算法的準確性。文獻[11]提出了支持向量機(Support Vector Machine, SVM)的算法,算法效果仍不理想。MOVIE [6]算法的提出使得基于全參考的評價方法在性能上提升了一大截,成為全參考評價的經典算法。但絕大多數情況下,參考視頻很難獲得,這大大降低了該算法的實用性。基于結構相似性(Structural Similarity, SSIM)IQA [8]方法是里程碑式的最經典方法之一,它極大提升了算法的準確性。該方法不再把圖像中像素信息改變作為研究的重點,而是將評價重心轉移到基于結構信息的主觀感知上來,使得客觀評價結果更貼近相同條件下的主觀評價結果,極大地提高了評價算法準確度和一致性。最初的無參考方法主要用于評價壓縮編碼失真視頻,其設計難度較大。針對H264壓縮失真視頻,Brandao等人[9]提出了一種無參考評價方法,利用最大似然估計和線性預測結合來進行參數估計,最后獲得預測質量。
3? 基于深度學習的評價算法
視頻是由多幅連續圖像構成,包含了圖像的運動信息。人眼識別的頻率有限,單位時間內看到的圖像數目超過25張/秒時會給人一種畫面在運動的感覺,最初的視頻質量評價方法大多源自圖片質量評價方法。
2006年發表的文獻[12]開創性地將深度學習應用到客觀評價上來,這是卷積神經網絡和視頻質量評價方法的首次結合,該方法有效解決了單刺激連續質量評估方法的預測問題。2014年,文獻[13]提出了將CNN與無參考圖像質量評價相結合,這些算法推動了圖像視頻質量評價算法進步。基于圖像和視頻之間的聯系的2D-CNN(Two-Dimensional Convolutional Neural Network, 2D-CNN)主要是將視頻的每一幀獨立開來作為輸入,這忽略各幀之間的關聯信息,難以捕獲時間信息[1]。3D-CNN以連續多幀作為輸入,這些圖片之間保持了連續性和連貫性,具有了時域信息,這能夠提取到更具表達性的特征。表3是2D-CNN和3D-CNN的區別。
由表3可知,3D-CNN能夠捕獲視頻中的空間和時間的特征信息,相比于2D-CNN,其更適合進行視頻質量評價分析處理。
而2D-CNN由于其自身缺陷,需要人為引入遷移學習和其他時空特征提取技術才能使之適合視頻質量評價。在基于深度學習的視頻質量評價方面,根據有無參考視頻,分為全參考和半參考,相比于傳統客觀評價方法缺少了半參考的類型;根據網絡結構模型大致可分為采用基于2D-CNN的方法和基于3D-CNN的方法。
3.1? 全參考評價方法
全參考視頻評價方法要求必須獲取完整的原始參考視頻與失真視頻,圖2是FR-VQA流程圖。評價過程依次為:預處理、特征提取、特征融合和回歸模型。預處理即對輸入的視頻數據的分辨率和時長進行歸一化處理,同時設定輸入格式,2D-CNN以一幀圖像作為輸入,3D-CNN以連續幾秒的視頻塊作為輸入。特征提取過程則是利用卷積運算提取視頻特征。特征融合時采用級聯的方式將參考視頻特征和失真視頻特征進行融合;最后以融合后的時空特征和原始參考視頻的MOS作為回歸模型的輸入,最后得到失真視頻的質量分數。
客觀評價得到的結果極易與主觀打分不一致,因此在評價模型中很有必要引入人類視覺系統。如表4所示,Kim等人于2018年提出一種評估算法(Deep VQA)[14],該算法引入卷積神經聚合網絡和注意力機制[15,16],一定程度上提高了模型評估的準確性。鑒于2D-CNN難以保留時域信息,Xu等人提出一種基于3D-CNN的評價方法C3DVQA [17],該方法使用3D卷積計算時空特征,模擬人類視覺系統,成功捕獲了時域信息,提高了模型性能。在深度學習領域,充足數據集一直是進行模型訓練的一個先決條件。為了解決參考視頻樣本不足這個問題,Zhang等人[18]于2020年提出一種基于特征遷移學習的全參考評價模型,該模型在一個特定特征空間中進行失真視頻預處理轉移,用特征遷移的方法豐富失真樣本,有效解決了因訓練樣本不充足的問題,提升了預測的準確性。而Li [19]等人首次評估復雜場景下的人體運動質量的模型,該模型主要依靠參考視頻和失真視頻特征圖的局部相似度進行評價。由于未充分考慮運動過程中的不確定性,該模型評估效果一般。
全參考的視頻質量評價方法極度依賴參考視頻,而參考視頻的獲取成本很高,同時用于訓練模型的公開規范的數據集不充足,這些原因導致在真實場景下,基于深度學習的全參考視頻質量評價方式不太適用于現實場景下的視頻質量評價。
3.2? 無參考評價方法
無參考方法不需要原始視頻,通過失真視頻的自身特征就能預測質量分數。無參考方法最具實用價值,有著非常廣泛的應用范圍。圖3是基于深度學習的無參考方法的一般化流程圖。
專家學者對無參考評價模型提出兩點要求:一是普適于任意類型的失真,二是預測結果與人類主觀視覺的感知一致。表5列舉了無參考評價經典算法,這些算法建立在解決前面算法遇到的困境基礎上,算法的性能逐步穩定提升。SACONVA [20]算法將視頻分塊之后提取特征,符合人類視覺感知習慣,但樣本數據少、標簽亂等問題影響了算法性能。文獻[21-25]中提出的算法均旨在將視頻時空特征融合使得評價結果更貼近現實,部分算法考慮人類視覺效應,但是基于2D-CNN的算法需要手動提取時間運動特征,在此過程中會丟失重要信息。LSTM [26]算法具有記憶功能,能保存評價預測結果,使得該算法在真實數據集上表現良好。
3.3? 基于2D-CNN的方法
基于2D-CNN(二維卷積神經網絡)的視頻質量評價方法主要是利用卷積神經網絡來學習視頻內容的特征,并根據這些特征來評估視頻的質量。其基本流程為:1)數據準備:收集包含不同質量的視頻樣本,包括原始高質量視頻和壓縮、降噪等處理后的低質量視頻。2)數據預處理:對視頻樣本進行預處理,包括圖像幀提取、尺寸調整等。3)特征提取:使用2D-CNN模型來學習視頻的特征表示。4)特征融合:將提取的特征融合成一個視頻級別的特征表示。5)質量評估:將視頻的特征表示映射到對應的質量評分。6)模型訓練和優化:使用訓練集進行模型訓練,并通過交叉驗證等方法進行模型優化和參數調整。7)模型評估。
其網絡結構的優點為:1)2D-CNN模型在學習視頻特征表示方面表現出色。2)能夠學習輸入特征與視頻質量之間的復雜非線性關系。3)支持無參考評價。4)模型可以利用幀序列的時空關系,捕捉到視頻中的動作和運動信息,從而更好地反映視頻質量的感知。
其缺陷在于其數據需求量大、訓練復雜度高、光照和噪聲敏感,光照變化和噪聲可能會對評價結果產生一定影響。最大的問題是,在進行二維解算時會造成時域信息丟失。文獻[25,27]用循環神經網絡來解決時序問題,通過充分利用時間信息提取特征來提高模型性能,在自然失真視頻數據集取得較好的預測效果。基于2D-CNN的評價方法主要有:1)V-BLIINDS [28](Video BLIINDS),該模型通過卷積和池化層來提取視頻的特征表示,然后將這些特征傳遞給全連接層進行質量評分預測。2)VMAF [29](Video Multimethod Assessment Fusion),它使用多個基于2D-CNN的模型來預測視頻的質量,然后將多個模型的評分進行融合得到最終的質量評分。
3)P-Net(Perceptual Net)[30],它通過學習來捕捉視頻中的感知失真,并將其與主觀質量評分進行關聯。4)VGG-QA [31],其在訓練階段使用主觀質量評分和視頻幀之間的誤差作為損失函數進行優化。目前通過手動提取時域特征能夠有效改善2D卷積上時域信息丟失問題,但數據預處理很復雜,效率不高。
3.4? 基于3D-CNN的方法
3D-CNN不需要手動加入時域特征就能效捕捉視頻對象的時空信息,其更適合于視頻質量評價。3D-CNN的輸入多了一個時間維度,這個維度是視頻上的連續幀或立體圖像中的不同切片。
如表6所示,基于3D-CNN的評價方法主要有:視頻多任務端到端優化的深度神經網絡(Video Multi-Task End-to-End Optimized Neural Network, V-MEON)[32],
Hou等人提出的一種三維深度卷積神經網絡[33],Yang等人提出的基于3D-CNN的立體視頻質量評估(Stereoscopic Video Quality Assessment, SVQA)框架[34],Yang等人提出的針對VR視頻的基于3D-CNN的端到端網絡框架[35],R-C3D [36]等。
這些方法利用3D-CNN模型的時空建模和自動特征提取能力,并結合其他方法或技術,能夠較好地評估視頻質量。它們能夠捕捉視頻的動態特征、提供準確的評估結果,并具有較好的細粒度性能和魯棒性。然而,具體選擇哪種方法還需根據具體任務和數據情況進行綜合考慮。
4? 評價數據集
在基于傳統評價方法的評價過程中,這些公開統一、失真類型多樣的數據集用來驗證算法的性能;在基于深度學習的評價模型中,這些數據集用來訓練模型和驗證算法的性能。這些數據集包括合成失真數據集LIVE VQA [37],CSIQ [38],VCD2014 [39],LIVE-Q [40],真實失真數據集KonIQ-1k [28],YouTube UGC [41]等。這些真實失真的數據庫更加人性化,提供圖像信息,方便科研人員統計分析。下文中提到的算法均采用表7所示的數據集來驗證其算法的優越性和可靠程度。
5? 算法評價指標
對于如何評價一個視頻質量評價算法的性能,視頻質量專家組(Video Quality Experts Group)建議[42]從單調性、準確性、一致性[43]三方面進行考慮。客觀評價模型的指標是基于客觀模型輸出的預測質量分數與主觀質量分數間的單調性、準確性和一致性。本文提到的算法也用這些指標評價算法優劣和準確性,常用的評價指標有以下幾個。
5.1? 皮爾森線性相關系數
皮爾森線性相關系數(Pearson Linear Correlation Coefficient, PLCC)[44],表示客觀預測值和主觀打分之間的線性相關性,如式(1):
(1)
其中,N表示失真視頻的數量,Ci表示第i個視頻的主觀評價分數,Di表示第i個視頻的質量預測分數; 表示主觀打分值均值; 表示客觀預測值均值。PLCC表示模型評價結果的準確性,PLCC值越趨近于1,預測結果越準確;反之則預測越不準確。
5.2? 斯皮爾曼秩序相關系數
斯皮爾曼秩序相關系數(Spearman Rank Order Correlation Coefficient, SROCC)[45]是非線性指標,其根據原始數據的排序位置進行計算,如式(2):
(2)
其中,Di表示兩個變量的秩次;N表示變量的數量。SROCC表示模型預測值與主觀打分的靠近趨勢,也能反映變量單調變化情況,SROCC取值[-1,1],值越接近于1說明預測分數與主觀打分相關正相關性越高。
5.3? 均方根誤差
均方根誤差(Root Mean Square Error, RMSE)表示模型預測分數與主觀質量分數的差異大小,如式(3):
(3)
其中,Ci表示模型預測值,Di表示真實值(主觀打分值均值),RMSE用來衡量預測可靠性、算法的穩定性,其值越小越好。
6? 模型性能分析
6.1? 傳統模型性能分析
如前面章節所述,選用PLCC和SROCC分別衡量算法的相關性和單調性。表8中數據由各自論文提供。無固定名稱算法以其第一作者名字代替,值保留小數點后三位,性能最好的算法數值用加粗標出。對于傳統方法,公開的評價數據集中視頻失真類型均為人為失真類型,故傳統方法大多以人為失真數據集LIVE-VQA為實驗標準數據集。表中,Wireless和IP等代表不同的失真類型的視頻。
Wireless表示基于H.264壓縮失真;IP表示無線網絡傳輸錯誤失真;MPEG-2表示MPEG-2壓縮失真類型;H.264表示H.264壓縮失真類型;ALL表示在整個LIVE-VQA數據集上進行的實驗,—表示數據缺失。
如表8所示,基于運動信息的全參考方法MOVIE和ST-MAD中,ST-MAD模型在失真類型為IP的數據集上表現較差,SROCC和PLCC均不到0.800;MOVIE模型僅在Wireless失真數據集上表現較好,兩個指標均在0.800以上。在整個數據集上這兩個算法SROCC和PLCC都達到0.780以上。這表明運動信息是有效的,但效果仍然不理想。而基于結構相似性的SSIM算法是半參考經典算法,其在整個數據集上性能優越,SROCC和PLCC分別達到了0.934和0.865。
6.2? 基于深度學習的模型性能分析
自然失真的數據集更符合現實環境,而在此基礎上進行質量評價更加具有挑戰性。如表9所示,與傳統的典型算法還有無參考的基于深度學習算法相比,加入3D卷積的全參考型C3DVQA算法在整體上有最好的評估效果,在LIVE和CSIQ數據庫上的PLCC值和SROCC值都達到0.900以上的評估值,這是非常可觀的;同時,全參考的評價方法整體上性能表現比無參考的評價方法優越,無參考的評價方法面臨的最大的問題就是,在真實失真的數據集上性能表現較差。2D卷積的無參考型算法大都表現均勻良好,但是性能不算突出,這歸功于2D-CNN優秀的特征提取能力,但評估效果都未有達到0.900以上的,遠低于全參考型模型。而無參考的3D-CNN算法表現不盡如人意,PLCC僅有0.785,和全參考的3D-CNN相差較多。
6.3? 近年來優秀的算法
表10分別為近5年來(2018—2023)VQA在典型的真實失真的數據集KoNViD-1K、LIVE-VQC、YouTube-UGC上最好的性能表現。
由表10可知,DOVER(end-to-end)算法在3個真實失真的數據集上均取得了最好的性能表現,PLCC值在0.900左右上下浮動。
7? 結? 論
基于深度學習的評價模型在訓練過程中需要大量的訓練和預測視頻數據,然而目前規范性的公開視頻數據集還不足以支撐模型訓練。另一方面,自制視頻數據集代價高昂,難以達到。樣本數據集不充足導致評估效果不佳。大多模型采用遷移學習,通過特征遷移,以圖像特征豐富視頻特征,或以遷移模型提高評估能力。
實踐證明,基于深度學習的視頻質量評價方法比傳統的方法更高效、精確,已經成為VQA研究人員的主要研究方向。對于視頻分析而言,3D-CNN比2D-CNN更適合于視頻質量分析。3D-CNN適用于復雜的立體視頻、全方位視頻以及VR視頻,同時消耗資源較少。
VQA的研究還有許多問題,需要進一步解決,具體如下:1)工業界統一的需要評價標準和方法。視頻質量評價是視頻編解碼領域一個至關重要的課題,同時具有極其重要的現實意義。隨著深度學習的快速發展,越來越多的學者提出了各種算法模型進行視頻質量評價,理論發展的目的是應用于實踐。因此,提出一個學者們公認的統一的高效的、準確率高的算法;一些統一的合理的評價指標是視頻質量評價算法研究的必然趨勢。2)擴大現有公共數據庫是必然趨勢。就目前而言,現存的用于視頻質量評價的統一的公共數據庫數量稀少,并且每一個數據庫中現存的視頻數據量較少,完全不能滿足深度學習數據集的要求,擴大公共數據庫是必然趨勢。3)NR-VQA是必然趨勢。無參考的方法不需要原視頻作為對照,這極大地簡化了評價的過程,同時基于深度學習的視頻質量評價方法能夠完美契合無參考的評價方法,NR-VQA是必然趨勢,提升無參考評價模型在真實失真的數據集上的性能是當務之急。4)音視頻加字幕聯合評價是重要方向。在一段高質量視頻里面,音頻、視頻還有字幕是和諧地組合在一起的,聲音和視頻同步也是視頻質量的基本要求。因此視頻質量評價的過程中,除了評價視頻每一幀的圖像質量,音視頻聯合評價也是一個極其重要的方向。
參考文獻:
[1] 程茹秋,余燁,石岱宗,等.圖像與視頻質量評價綜述 [J].中國圖象圖形學報,2022,27(5):1410-1429.
[2] ZHANG W X,MA K D,ZHAI G T,et al. Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and Wild [J].IEEE Transactions on Image Processing,2021,30:3474-3486.
[3] 國家廣播電影電視總局標準化規劃研究所.數字電視圖像質量主觀評價方法:GY/T 134-1998 [S].北京:國家廣播電影電視總局標準化規劃研究所,1998.
[4] SUCHOW J W,ALVAREZ G A. Motion Silences Awareness of Visual Change [J].Current Biology,2011,21(2):140-143.
[5] 譚婭婭,孔廣黔.基于深度學習的視頻質量評價研究綜述 [J].計算機科學與探索,2021,15(3):423-437.
[6] SESHADRINATHAN K,BOVIK A C. Motion Tuned Spatio-Temporal Quality Assessment of Natural Videos [J].IEEE Transactions on Image Processing,2010,19(2):335-350.
[7] VU P V,VU C T,CHANDLER D M. A Spatiotemporal Most-Apparent-Distortion Model for Video Quality Assessment [C]//2011 18th IEEE International Conference on Image Processing.Brussels:IEEE,2011:2505-2508.
[8] TAGLIASACCHI M,VALENZISE G,NACCARI M,et al. A Reduced-Reference Structural Similarity Approximation for Videos Corrupted by Channel Errors [J].Multimedia Tools and Applications,2010,48(3):471-492.
[9] BRAND?O T,QUELUZ T R M P. No-Reference Quality Assessment of H.264/AVC Encoded Video [J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20(11):1437-1447.
[10] QIAN J S,WU D,LI L D,et al. Image Quality Assessment Based on Multi-Scale Representation of Structure [J].Digital Signal Processing,2014,33:125-133.
[11] MOORTHY A K,BOVIK A C. A Two-Step Framework for Constructing Blind Image Quality Indices [J].IEEE Signal Processing Letters,2010,17(5):513-516.
[12] CALLET P L,VIARD-GAUDIN C,BARBA D. A Convolutional Neural Network Approach for Objective Video Quality Assessment [J].IEEE Transactions on Neural Networks,2006,17(5):1316-1327.
[13] KANG L,YE P,LI Y,et al. Convolutional Neural Networks for No-Reference Image Quality Assessment [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1733-1740.
[14] KIM W,KIM J,AHN S,et al. Deep Video Quality Assessor: From Spatio-Temporal Visual Sensitivity to a Convolutional Neural Aggregation Network [C]//Computer Vision – ECCV 2018: 15th European Conference.Munich:Springer-Verlag,2018:224-241.
[15] VINYALS O,BENGIO S,KUDLUR M. Order Matters: Sequence to Sequence for Sets [J/OL]. arXiv:1511.06391 [stat.ML].(2016-02-23)[2023-08-20].https://arxiv.org/abs/1511.06391.
[16] YANG J L,REN P R,ZHANG D Q,et al. Neural Aggregation Network for Video Face Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:5216-5225.
[17] XU M N,CHEN J M,WANG H Q,et al. C3DVQA: Full-Reference Video Quality Assessment with 3D Convolutional Neural Network [C]//2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Barcelona:IEEE,2020:4447-4451.
[18] ZHANG Y,GAO X B,HE L H,et al. Objective Video Quality Assessment Combining Transfer Learning With CNN [J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):2716-2730.
[19] LI Y D,HE H M,ZHANG Z X. Human Motion Quality Assessment Toward Sophisticated Sports Scenes Based on Deeply-Learned 3D CNN Model [J/OL].Journal of Visual Communication and Image Representation,2020,71:102702[2023-08-20].https://doi.org/10.1016/j.jvcir.2019.102702.
[20] LI Y M,PO L M,CHEUNG C H,et al. No-Reference Video Quality Assessment With 3D Shearlet Transform and Convolutional Neural Networks [J].lEEE Transactions on Circuits and Systems for Video Technology,2016,26(6):1044-1057.
[21] WANG C F,SU L,HUANG Q M. CNN-MR for No Reference Video Quality Assessment [C]//2017 4th International Conference on Information Science and Control Engineering (ICISCE).Changsha:IEEE,2017:224-228.
[22] AHN S,LEE S. Deep Blind Video Quality Assessment Based on Temporal Human Perception [C]//2018 25th IEEE International Conference on Image Processing (ICIP).Athens:IEEE,2018:619-623.
[23] VARGA D. No-Reference Video Quality Assessment Based on the Temporal Pooling of Deep Features [J].Neural Processing Letters,2019,50(3):2595-2608.
[24] LOMOTIN K,MAKAROV I. Automated Image and Video Quality Assessment for Computational Video Editing [C]//International Conference on Analysis of Images,Social Networks and Texts.[S.I.]:Springer,2020:243-256.
[25] LI D Q,JIANG T T,JIANG M. Quality Assessment of In-the-Wild Videos [C]//Proceedings of the 27th ACM International Conference on Multimedia.Nice:ACM,2019:2351-2359.
[26] VARGA D,SZIR?NYI T. No-Reference Video Quality Assessment Via Pretrained CNN and LSTM Networks [J].Signal,Image and Video Processing,2019,13:1569-1576.
[27] HOSU V,HAHN F,JENADELEH M,et al. The Konstanz Natural Video Database (KoNViD-1k) [C]//2017 Ninth International Conference on Quality of Multimedia Experience (QoMEX).Erfurt:IEEE,2017:1-6.
[28] SAAD M A,BOVIK A C,CHARRIER C. Blind Prediction of Natural Video Quality [J].IEEE Transactions on Image Processing,2014,23(3):1352-1365.
[29] DASGUPTA I,SHANNIGRAHI S,ZINK M. A Hybrid NDN-IP Architecture for Live Video Streaming: From Host-Based toContent-Based Delivery to Improve QoE [J].International journal of semantic computing,2022,16(2):163-187.
[30] CHRYSOS G G,MOSCHOGLOU S,BOURITSAS G,et al. P–nets: Deep Polynomial Neural Networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:7323-7333.
[31] HU X L,AN Z L,YANG C G,et al. DRNet: Dissect and Reconstruct the Convolutional Neural Network via Interpretable Manners [J/OL]. arXiv:1911.08691 [cs.CV].(2020-02-26)[2023-08-20].https://arxiv.org/abs/1911.08691.
[32] LIU W T,DUAN M Z F,WANG Z. End-to-End Blind Quality Assessment of Compressed Videos Using Deep Neural Networks [C]//Proceedings of the 26th ACM international conference on Multimedia.Seoul:ACM,2018:546-554.
[33] HOU R,ZHAO Y H,HU Y,et al. No-Reference Video Quality Evaluation by a Deep Transfer CNN Architecture [J/OL].Image Communication,2020,83(C):115782[2023-07-26].https://doi.org/10.1016/j.image.2020.115782.
[34] YANG J C,ZHU Y H,MA C F,et al. Stereoscopic Video Quality Assessment Based on 3D Convolutional Neural Networks [J].Neurocomputing,2018,309:83-93.
[35] YANG J C,LIU T L,JIANG B,et al. 3D Panoramic Virtual Reality Video Quality Assessment Based on 3D Convolutional Neural Networks [J].IEEE Access,2018,6:38669-38682.
[36] 桑農,張士偉,馬百騰,等.一種基于R-C3D網絡的端到端視頻時序行為檢測方法:CN110738129A [P].2022-08-05.
[37] SESHADRINATHAN K,SOUNDARARAJAN R,BOVIK A C,et al. Study of Subjective and Objective Quality Assessment of Video [J].IEEE Transactions on Image Processing,2010,19(6):1427-1441.
[38] VU P V,CHANDLER D M. ViS3: An Algorithm for Video Quality Assessment Via Analysis of Spatial and Spatiotemporal Slices [J/OL].Journal of Electronic Imaging,2014,23(1):013016[2023-06-28].https://doi.org/10.1117/1.JEI.23.1.013016.
[39] NUUTINEN M,VIRTANEN T,VAAHTERANOKSA M,et al. CVD2014—A Database for Evaluating No-Reference Video Quality Assessment Algorithms [J].IEEE Transactions on Image Processing,2016,25(7):3073-3086.
[40] GHADIYARAM D,PAN J,BOVIK A C,et al. In-Capture Mobile Video Distortions: A Study of Subjective Behavior and Objective Algorithms [J].IEEE Transactions on Circuits and Systems for Video Technology,2018,28(9):2061-2077.
[41] WANG Y L,INGUVA S,ADSUMILLI B. YouTube UGC Dataset for Video Compression Research [C]//2019 IEEE 21st International Workshop on Multimedia Signal Processing (MMSP).Kuala Lumpur:IEEE,2019:1-5.
[42] 郭繼昌,李重儀,郭春樂,等. 水下圖像增強和復原方法研究進展 [J].中國圖象圖形學報,2017,22(3):273-287.
[43] 肖毅.基于多特征的水下視頻客觀質量評價方法研究 [D].上海:上海海洋大學,2022.
[44] PEARSON K. VII. Note on Regression and Inheritance in the Case of Two Parents [J].Proceedings of the Royal Society of London,1895,58:240-242.
[45] YANG J C,LIN Y C,GAO Z Q,et al. Quality Index for Stereoscopic Images by Separately Evaluating Adding and Subtracting [J/OL]. PLOS ONE,2015,10(12):e0145800[2024-09-26].https://europepmc.org/backend/ptpmcrender.fcgi?accid=PMC4699220&blobtype=pdf.
[46] XU J T,YE P,LIU Y,et al. No-Reference Video Quality Assessment Via Feature Learning [C]//2014 IEEE International Conference on Image Processing (ICIP).Paris:IEEE,2014:491-495.
[47] ZHANG Y,GAO X B,HE L H,et al. Blind Video Quality Assessment With Weakly Supervised Learning and Resampling Strategy [J].IEEE Transactions on Circuits and Systems for Video Technology,2019,29(8):2244-2255.
[48] TU Z Z,YU X X,WANG Y L,et al. RAPIQUE: Rapid and Accurate Video Quality Prediction of User Generated Content [J].IEEE Open Journal of Signal Processing,2021:425-440.
[49] LI B W,ZHANG W X,TIAN M,et al. Blindly Assess Quality of In-the-Wild Videos via Quality-Aware Pre-Training and Motion Perception [J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(9):5944-5958.
[50] SUN W,MIN X K,LU W,et al. A Deep Learning based No-reference Quality Assessment Model for UGC Videos [C]//Proceedings of the 30th ACM International Conference on Multimedia.Lisboa Portugal:ACM,2022:856-865.
[51] WU H N,CHEN C F,HOU J W,et al. FAST-VQA: Efficient End-to-End Video Quality Assessment with Fragment Sampling [J/OL].ArXiv:2207.02595 [cs.CV].(2022-07-06)[2023-07-12].https://doi.org/10.48550/arXiv.2207.02595.
[52] WU H N,ZHANG E,LIAO L,et al. Exploring Video Quality Assessment on User Generated Contents from Aesthetic and Technical Perspectives 2023 IEEE/CVF International Conference on Computer Vision (ICCV) [C]//2023 IEEE/CVF International Conference on Computer Vision(ICCV).Paris:IEEE,2023:20087-20097.
作者簡介:楊文兵(1993—),男,漢族,江蘇揚州人,碩士研究生,主要研究方向:視頻質量評價和視頻編解碼;通訊作者:邱天(1977—),男,漢族,河南周口人,副教授,博士,主要研究方向:圖像處理、集成電路設計及智能設備等。