基于深度學習的視頻預測研究綜述

2018-03-12 01:44:59莫凌飛蔣紅亮李煊鵬

智能系統學報 2018年1期

關鍵詞：模型

莫凌飛，蔣紅亮，李煊鵬

（東南大學儀器科學與工程學院，江蘇南京 210096）

“我們缺乏的一個關鍵要素是預測(或無監督)學習：機器具有模擬環境，預測未來的可能性，以及通過觀察和參與理解世界如何運作的能力。”[1]

近年來，深度學習在學術界和工業界得到了廣泛的發展和應用，其在計算機視覺[2-6]、語音識別[7]、自然語言處理[8-9]以及游戲策略[10-11]等眾多領域取得豐碩成果，在某些領域甚至取得了超越人類的表現。但當前的深度學習算法模型大部分都是以有監督的方式訓練，模型嚴重依賴于大量的標注數據和長時間的訓練。以知名的ImageNet數據集[12]為例，其包含1 500萬張人工標注的圖片，超過2.2萬個類別，創建和標注一個如此大規模的數據集需要耗費許多人數月的時間才能完成。另外，依賴大量的標記數據來獲取概念和知識與人類的學習機制不符，人類依賴很少的樣本就可以獲取一個新的概念。當兒童第一次觀察到“貓”并被告知這種動物是“貓”以后，兒童并不需要長期被重復告知這是“貓”，但監督學習的方式需要大量的樣本以及多次重復訓練，才能掌握“貓”的概念。以類似人類的方式，通過有限樣本或者無監督的方式獲取知識和表征，成為當前人工智能領域的熱點研究問題。

另外，人類與其他動物的一個重要區別是人類有很強的預測能力。盡管一些動物也有一些預測能力，例如在圍捕獵物、躲避天敵和預測天氣變化上等；但人類顯然有更強的推理和預測能力，例如，人類駕駛汽車時可以推理其他汽車的運行軌跡，提前決策。當前計算機視覺領域的研究，也逐漸開始借鑒人類這種“預測編碼”能力。

在這種背景下，視頻預測因其可以用海量的無標注自然視頻數據來訓練，而且具有廣泛的應用場景，成為了當前深度學習研究領域的一個熱點研究方向，并且已經取得了一定的研究成果。

給出一個視頻序列，預測未來視頻，這需要構建一個可以精準建模視頻內容和動態變化的內部表征模型，這也是視頻預測被視為無監督表征學習的一個很有前景的研究方向的原因。視頻預測模型學習到的表征可以遷移到監督學習任務中。例如，文獻[13]通過實驗證明，通過無監督視頻預測模型學習到的表征可以在動作識別數據集上提升分類結果，因此建模視頻動態是一種有效的無監督表征學習方法。另外，在視頻中推斷未來的場景可以使機器人、自動駕駛汽車和無人機提前決策，因此有廣泛的應用價值。

1 深度學習概述

機器學習算法是一種可以自動從數據中發現規律，并利用此規律對未知數據進行預測的算法，機器學習在數據挖掘、計算機視覺、自然語言處理、搜索、推薦系統以及策略游戲等眾多領域得到了廣泛的應用，取得了突出的成果。然而，自然界的原始數據，例如圖像、視頻和傳感器測量數據等一般具有高維度、高復雜性和高冗余性的特點，人工提取特征需要依賴專家知識，費時費力且提取到的特征通常不太好。而傳統機器學習算法往往依賴人工提取特征，導致實際的機器學習問題退化為數據預處理和特征工程[2]，成為機器學習應用和發展的一大障礙。

深度學習是人工神經網絡(artificial neural network, ANN)的一個分支。最早的人工神經網絡研究可以追溯到Mcculloch和Pitts[14]在1943年提出的閾值邏輯單元，他們從原理上證明了人工神經網絡可以計算任何算術和邏輯函數。隨后Hebb學習規則[15]、感知機[16]、反向傳播算法[17]等概念先后被提出，并得到了一定的應用，例如手寫數字識別[18]和語音識別[7]。然而，由于當時人們對神經網絡認識有限，計算機的計算能力也有限，神經網絡并未得到過多關注。2006年，Hinton等提出以無監督限制玻爾茲曼機(restricted Boltzmann machine, RBM)進行逐層預訓練的方法來高效地訓練多層神經網絡[19]，深度學習的概念開始進入公眾視野。2012年Krizhevsky等使用深度卷積神經網絡(convolutional neural network, CNN)[18]構建的 AlexNet模型[3]以絕對優勢贏得了ImageNet大規模圖像識別競賽(ILSVRC2012)的冠軍，AlexNet的成功成為了計算機視覺發展史上的轉折點，自此深度學習得到了飛速發展。卷積神經網絡(convolutional neural network, CNN)、遞歸神經網絡(recurrent neural network, RNN)[20]、自編碼網絡 (auto encoder)[21]和生成對抗網絡(generative adversarial networks, GANs)[22]及其各種變種得到了廣泛的發展和應用。

表征學習(或特征學習, representation learning)[23]旨在利用機器自動從原始高維數據中獲得可以被機器學習算法高效利用的特征[21]。深度學習可看作一種通過簡單、非線性映射方式獲取多層特征的表征學習方法，它把原始輸入數據通過逐層映射，轉變為高階的、更為抽象的特征。以分類問題為例，高層的表征放大了那些更有區分度的特征，而抑制了那些無關變量。深度學習被證明非常擅長發現高維度數據中的復雜特征，因此在科學界和工業界得到廣泛應用，并打破了圖像識別、語音識別和機器翻譯的記錄。

2 深度學習主要模型

近些年來，有越來越多的深度學習模型被提出，其中最基礎、最重要的模型主要有卷積神經網絡、遞歸神經網絡、自編碼器以及生成對抗網絡，這幾種模型構成了視頻預測模型的基礎，下面我們簡要介紹這4種主流模型。

2.1 卷積神經網絡

卷積神經網絡是前饋神經網絡的一種，這種神經元連接模式受動物視覺皮層檢測光學信號原理的啟發[24]。1980年Fukushima等[25]提出了CNN的前身——NeoCognitron，20世紀90年代，Lecun等[18]發表論文，確立了CNN的現代結構，這是一種多層的人工神經網絡，取名為LeNet-5。自2012年起，研究人員又不斷提出更深、性能更強的卷積神經網絡模型：AlexNet[3]、VGGNet[5]和 ResNet[6]等。卷積神經網絡一般是由多個卷積層和全連接層組成，卷積操作、局部連接性和權值共享是卷積神經網絡最顯著的特點。卷積神經網絡通常用來處理2-D結構的數據，其在圖像領域和語音識別上都得到了廣泛的應用。

2010年，Zeiler等[26]首次提出了反卷積(卷積轉置或小數步進卷積，Deconvolution)的概念，用于卷積神經網絡的特征可視化以及圖像無監督特征學習。反卷積網絡被越來越多的模型所采用，例如圖像語義分割[27]、生成模型[28]等。另外，為處理序列圖像，Ji等[29]使用3-D卷積去提取數據的空間和時間特征，從而可以使卷積神經網絡能很好地處理序列信息，3-D卷積在人體動作識別等領域取得了顯著的結果。

2.2 遞歸神經網絡

遞歸神經網絡[20]是一種處理序列數據的神經網絡，它把狀態在自身網絡中循環傳遞，能夠處理任意長度的序列，遞歸神經網絡比前饋神經網絡更加符合生物神經網絡的結構。

因為RNN容易受到梯度消失或者梯度爆炸的影響，Schmidhuber等[30]在1997年提出了長短期記憶(long short term memory, LSTM)神經網絡，該模型增加了“遺忘門”和“更新門”。實驗表明，LSTM模型能有效避免梯度消失或者梯度爆炸的問題，很好地解決了長期依賴問題。隨后學者提出了很多LSTM模型的變體。Gers等[31]于2001年提出了窺視孔LSTM(peephole LSTM)，該模型增加了一個窺視孔連接，意味著可以讓門限層監視神經元狀態。Cho等[32]于2014年提出了門遞歸單元(gated recurrent unit, GRU)，它組合遺忘門和輸入門為一個“更新門”，合并了神經元狀態和隱層狀態，這個模型比標準的LSTM模型更簡單。Shi等[33]在2015年提出了卷積LSTM(convolutional LSTM)，把卷積層和遞歸層做了很好的結合，卷積LSTM與常規LSTM的區別是把部分矩陣乘積操作換成了卷積操作。因為卷積LSTM可以很好地處理圖像的空間信息和時間動態信息，它在圖像生成模型和視頻處理等領域得到了廣泛應用。

2.3 自編碼器

自編碼器是一種以無監督的方式來學習數據表征的神經網絡，通常用來做數據降維[21]。自編碼器通常分為編碼器和解碼器兩部分，編碼器將數據編碼為潛在變量，解碼器將潛在變量重建為原數據。

自編碼器有很多變體，例如降噪自編碼器[34]、稀疏自編碼器[35]、變分自編碼器(VAE)[36-37]。因為自編碼器可以高效地進行數據降維，相當一部分視頻預測模型采用了自編碼器架構。

2.4 生成對抗網絡

Goodfellow等[22]在2014年提出了生成對抗網絡的概念，其為生成模型提供了一種全新的高效訓練模式，近兩年來生成對抗網絡成為了機器學習領域最熱門的研究方向之一。LeCun認為“生成對抗網絡是過去十年來機器學習領域最有趣的想法”，很多GAN的衍生模型，如條件GAN(condition GAN)[38]、InfoGAN[39]、DCGAN[28]相繼被提出。

生成對抗網絡由一個生成器(generator, G)和一個判別器(discriminator，D)組成。生成器輸入一個潛在編碼，其輸出需無限逼近真實樣本；判別器的輸入為真實樣本和生成器的輸出，并識別出真實樣本和生成樣本。兩個網絡以零和博弈的方式交替訓練，訓練鑒別器時最小化鑒別誤差，訓練生成器時最大化鑒別誤差，最終目的是使鑒別器無法鑒別出生成樣本和真實樣本，生成器的輸出與真實樣本分布一致。生成對抗網絡的架構如圖1所示。

圖 1 生成對抗網絡架構Fig. 1 Architecture of generative adversarial nets

生成對抗網絡的目標函數可以用式(1)描述：

生成對抗網絡在生成逼真的自然樣本[28]、圖像超分辨率[40]、三維建模[41]、圖像風格遷移[42]和視頻預測領域[43]得到了廣泛應用。

3 運動預測研究

給出一張靜態圖片或者一段場景視頻，人類不僅可以迅速地獲取圖像中的即時內容，還可以推斷出圖像中的場景動態。然而，對于計算機來說，推演出圖像中的場景動態是一個比較困難的任務，因為它依賴計算機利用自然界大量難以參數化的知識來建模[44]。

在視頻預測研究興起之前，學術界比較關注的是運動預測。運動預測一般是指從靜態圖像或視頻前幾幀中推斷出人體動作、物體移動軌跡等動態信息；而視頻預測是從靜態圖片或視頻前幾幀中直接預測未來圖像。本節我們對動作、運動和物體移動軌跡預測算法進行簡要回顧。

3.1 動作和運動預測

從靜態圖像或有限幀視頻中預測人類動作和行為是一個比較基礎也比較重要的任務。在動作預測方面，研究人員主要使用統計學習方法和傳統的機器學習方法來建模。Lan等[45]和Hoai等[46]使用最大化邊界框架來推測動作場景；Ryoo[47]把動作預測問題概率化，使用時空特征積分直方圖來建模特征分布如何隨時間變化；Vu等[48]提出了一種使用動作和場景之間的關聯信息，從靜態場景中預測人類動作的方法；Pei等[49]提出了一種基于隨機場景感知語法的事件解析、推斷事件目標和預測可信動作的算法，與Vu的方法類似，該方法使用事件的層次組成和子事件間的時態關系來鑒別不同事件以及預測動作；Fouhey等[50]和Koppula等[51]通過使用條件隨機場來建模人的可能動作從而來做未來場景的預測。

Huang等[52]提出了一種基于雙實體交互的方式來理解一個實體的動作如何影響另外一個實體的動作。本文把雙實體交互模型看作一種最優控制問題，該模型使用一種基于核以及增強學習的近似軟最大值函數去處理高維度的自然人體運動，另外還使用了連續代價函數的均值轉移方法來平滑動作序列。

Pickup 等[53]、Lampert等[54]和 Pintea 等[55]分別用統計流方法、向量值回歸和隨機森林回歸算法回歸物體移動方向；Pintea等還論證了運動預測在動作識別、運動顯著性檢測等方面有很大的應用價值。也有學者使用深度學習進行動作預測。Vondrick等[44]提出一種用深度回歸網絡的方法來學習視頻表征，結合動作識別模型，能夠很好地根據靜態圖像來推測未來動作。

3.2 物體移動軌跡預測

除人體動作和運動預測外，物體軌跡預測也具有廣泛的應用價值。Kitani等[56]提出了一種基于馬爾可夫決策過程和反轉最優控制的動作理解和軌跡預測方法，并在運動分析(包括運動平滑、路徑和目的地預測)以及場景遷移學習上做了定量和定性的評估。Kitani等[56]和Gong等[57]都提出用行人軌跡預測來輔助多目標追蹤，并取得了高效的結果。

Kooij等[58]提出了一種動態貝葉斯網絡來做行人路徑預測；Walker等[59]使用條件變分自編碼器來預測靜態圖像中每個像素的運動軌跡；Walker等[60]使用光流算法來標記視頻，進而訓練一個光流預測模型，該模型可以預測每個像素的運動；Walker等[61]還嘗試了通過獎賞函數選擇最優目標的方式建模汽車運動的軌跡。

Yuen等[62]提出一種基于大數據的方法，通過檢索大數據中與被檢索圖片或視頻相似場景的方式來預測物體可能的位置，該方法類似于k近鄰算法，不需要訓練模型，在數據量足夠大的情況下可以取得比較好的效果；Mottaghi等[63]使用兩個CNN和一個RNN來建模物體移動動態，從而預測可能移動的物體。

運動預測模型一般從建模移動物體的運動軌跡出發，能較好地預測前景物體的瞬時運動軌跡，其處理的數據維度低于視頻預測，但不能預測圖像的結構信息，且其學習到的特征無法遷移到有監督學習領域，因而其應用范圍和價值有限。

4 視頻預測模型架構

“不是我創造的，我就不能理解。”著名物理學家Feynman這句話背后的內涵是：通過構建驗證過的概念來理解事物。在人工智能領域，可以理解為：如果一個機器能夠生成高度真實的數據，那么它就發展出了對自然數據的理解能力。

視頻預測是指給出一段連續視頻幀X1,X2,···,Xn，構造一個模型可以精準地生成隨后的幀Xn+1,Xn+2,···,Xn+t(t是需要預測的幀的數量)。或者，給出一段序列 X1,X2,···,XN，其中是缺失的，模型可以推斷缺失的幀(插值)。視頻預測不需要額外的標注信息，因此屬于無監督學習的范疇。

一般常用于評估視頻質量的指標有均方誤差(mean square error, MSE)、峰值信噪比(peak signal to noise ratio，PSNR)和結構相似性(structural similarity index，SSIM)。用Y來表示真實幀，表示預測幀，MSE、PSNR和SSIM的定義如式(2)～(4)：

視頻預測為一個較新的研究領域，目前尚未有專用于視頻預測的數據集，學者一般使用視頻動作數據集進行訓練和測試。表1給出了部分常用數據集和使用該數據集的部分文獻。

視頻預測模型一般基于自編碼器架構、遞歸神經網絡架構和生成對抗網絡架構，表2為部分基于以上3類架構的視頻預測文獻概覽。下面我們按照這3類進行介紹。

表 1 視頻預測算法常用數據集Table 1 Common datasets used by video prediction algorithms

4.1 自編碼器架構

自編碼器因其可以進行高效的壓縮編碼，因而很多視頻預測模型采用自編碼器來進行視頻的降維和生成。基于自編碼器的視頻預測常用架構如圖2所示。

表 2 視頻預測算法概覽Table 2 Overview of video prediction algorithms

圖 2 基于自編碼器的視頻預測模型架構Fig. 2 Architecture of video prediction based on auto encoder

Yan等[81]提出了一種深度動態編碼器模型(deep DynEncoder)，該模型輸入原始像素圖像，經編碼器編碼成隱狀態變量，然后使用動態預測器(DynPredictor)將時序動態編碼。使用合適的堆疊策略、逐層預訓練和聯合微調，可以構建多層深度動態編碼器。實驗表明，文獻[81]提到的方法可以描繪復雜的視頻動態，合成高質量的紋理序列視頻。作者還構造了基于深度動態編碼器模型的分類和聚類方法，在交通場景分類和運動分割上取得了接近甚至優于之前最好的模型的效果。

Vukoti等[65]提出基于時間差的卷積自編碼器模型。編碼器有兩個分支，一個接收輸入圖像，另外一個接收期望預測的時間差，解碼器根據編碼器輸出的潛在變量生成可信的圖像。以沒有時間差輸入的常規卷積自編碼器模型為基準，作者提出的方法在KTH數據集上生成的圖像有更高的語義性，均方誤差也更低。然而，該模型存在諸多不足，例如生成的人體動作具有歧義，不能很好地建模快速移動的物體，不能充分地處理前景和背景信息等。

Liu等[73]提出一種深度體元流模型，該模型是一種全卷積自編碼器架構，由3個卷積層、3個反卷積層和一個瓶頸層組成。為更好地保留空間信息，在每個卷積層和反卷積層之間有跳躍連接。在UCF-101和THUMOS-15數據集上的內插和外推視頻實驗上的結果表明，該模型比文獻[70]中提到的多尺度對抗訓練架構和光流法的結果要更優。

Xue等[87]提出一種基于變分自編碼器和交叉卷積網絡的模型，該模型可以從一張圖片生成可能的未來幀。該模型通過條件變分自編碼器來建模未來幀的復雜條件分布。另外，該模型利用了圖像差分(歐拉運動)原理，因為圖像差分是稀疏的，并且比原始圖像更容易建模。Xue等還在合成數據集與自然圖像上驗證了模型的有效性，另外，作者還通過實驗證明了該模型在無監督、零樣本類比學習上取得了很好的結果。

4.2 遞歸神經網絡(RNN)架構

遞歸神經網絡可以很好地進行序列數據建模，視頻預測本身也是一種序列學習問題，很多研究人員采用遞歸神經網絡來解決視頻預測問題。基于編解碼的遞歸神經網絡架構如圖3(a)所示。

圖 3 視頻預測模型的抽象結構Fig. 3 Abstract architecture of video prediction model

Ranzato等[82]從自然語言處理領域借鑒了經典的n-grams算法，將之與CNN和RNN結合起來，給出了一個視頻預測和視頻插值的基準。Ranzato還在RNN架構基礎上提出了遞歸卷積神經網絡(recurrent convolution neural network, RCNN)架構，RCNN是在RNN輸入和輸出端連接卷積層，使其能夠更好地處理圖像結構信息。

Srivastava等[13]提出了一種使用LSTM架構的無監督視頻表征學習模型。該模型將圖像經過編碼器編碼后送入LSTM網絡，解碼器可以重建原視頻，或者預測未來視頻。然而，一個高容量的自編碼器網絡傾向于記憶輸入數據，預測模型傾向于僅僅存儲最近幾幀，因此本文提出了一個復合模型，復合模型可以同時重構原圖像、預測未來圖像，強迫模型來更好地學習視頻表征。Srivastava最后把無監督學習過程學習到的表征應用到有監督學習——動作分類中，實驗結果表明，在訓練樣本很少的情況下，無監督視頻預測學習到的特征顯著提升了分類結果。

Lotter等[76]從神經科學的“預測編碼”概念獲得啟發，提出了一種視頻預測架構——PredNet，該架構的每一層只做局部預測，向后面的層傳遞殘差。PredNet在KITTI數據集上的結果表明其可以統一建模背景和移動物體(車輛、行人)的運動。

Oh等[83]受DeepMind使用雅利達(Atari)游戲進行增強學習研究的啟發，提出未來圖像不僅與過去的圖像有關，還與當前的操作行為有關。Oh因此提出一種由編碼器、操作變換和基于CNN和RNN的解碼器組成的模型。實驗結果表明，基于操作信息的條件模型可以生成視覺上較真實的、可用于游戲控制的大約100幀預測視頻。Finn等[84]隨后也提出了基于動作的視頻預測模型，該模型可以根據不同的動作預測不同的視頻，該模型主要由卷積LSTM構成，通過跳躍連接(skip connection)保存圖形背景信息，最后通過掩膜(mask)把背景和轉變圖像拼接起來。作者提出3個不同的架構：動態神經平流、卷積動態神經平流和空間變換預測器。這3個模型在視頻預測上都取得了不錯的結果。

以上提到的方法都是直接預測高階的視頻，由于誤差累積和放大，預測多幀視頻是一個非常困難的任務。Villegas等[68]用高階結構信息輔助進行視頻預測。他們提出的算法先從輸入圖像中提取人體骨架結構，然后預測骨架結構的變化，與參考圖片聯結在一起生成動作視頻。實驗表明，這種以高階結構信息為條件的視頻生成策略有效減小了誤差傳播和累積，在Human3.6M等數據集上取得了較好的效果，且可以預測多達128幀的視頻。但是該方法僅能預測一種可能的運動，而且背景信息保持不變，不能建模背景的變化，因此有一定的局限性。

有些研究人員試圖將背景和運動分開建模。Villegas等[72]提出一種基于自編碼器、CNN和卷積LSTM架構的模型，該模型有兩個編碼器輸入，其中一個編碼器接收圖像序列差分作為運動輸入，使用LSTM建模運動動態，另一個編碼器接收最后一幀靜態圖像，然后將LSTM的輸出與靜態圖像的編碼輸出組合起來，經由解碼器解碼為預測圖像。作者還提出多尺度殘差版本，將編碼器各個池化層的輸出通過快捷連接接入到解碼器，以更好地保存圖像的結構信息。

4.3 生成對抗訓練架構

生成對抗網絡為機器學習領域引入了一種新的訓練模式，其優越的性能引起了眾多學者的關注，也有很多學者采用對抗訓練的方式來進行視頻預測。一種常用的基于編解碼與生成對抗網絡的視頻預測架構如圖3(b)所示。

Lotter等[80]提出了基于編碼器、LSTM和解碼器的預測生成模型，通過對抗訓練的方式，在“彈球”數據集和計算機生成的旋轉人臉數據集上取得了很好的結果，作者還論證了無監督預測學習是一種有力的表征學習方法。

在度量生成樣本和真實樣本的距離上，學者通常使用l1或者l2距離，然而，實驗表明，僅使用l1或者l2距離作為損失函數會導致生成圖像較為模糊，當向前預測更多幀的時候，該問題更為嚴重。Mathieu等[70]為解決預測圖像模糊的問題，提出3個互補的解決策略：多尺度架構、對抗訓練方法和圖像梯度差分損失函數。

受限于卷積核的大小問題，卷積操作僅能處理短范圍的依賴；另外，使用池化還會導致分辨率降低，文獻[70]使用多尺度網絡，通過在多個不同尺度的圖像進行上采樣和線性組合操作來更好的保持高分辨率。

為解決使用l1或者l2損失函數導致的圖像模糊問題，文獻[70]使用對抗訓練方法。使用對抗訓練方法，模型生成的圖像更銳利。然而僅優化對抗損失函數會產生訓練不穩定問題，生成器生成的圖像通常可以生成“迷惑”鑒別器的樣本，然而卻與真實樣本Y并不相似。為解決這個問題，作者使生成器采用對抗損失和lp組合損失函數。通過加入損失函數迫使預測圖像的分布與真實圖像的分布保持一致。

Mathieu等[70]還提出一種圖像梯度差分損失，通過引入近鄰圖像強度差異來懲罰預測樣本和真實樣本之間的梯度不一致性。最終生成器損失函數為對抗損失、l2損失和圖像梯度差分損失的加權和。Mathieu的實驗結果表明，使用對抗損失函數和梯度差分損失函數，性能要超過僅使用l2損失函數，并且在圖像銳利度上要遠好于l2損失函數。Hintz[71]受文獻[70]的啟發，將生成器替換為儲蓄池計算，鑒別器結構以及訓練方法與文獻[70]保持相同。作者在UCF-101數據集上的實驗結果表明，雖然其在PSNR和SSIM評測上結果略低于文獻[70]，但其收斂時間明顯快于前者，也取得了相當好的結果。

圖像語義分割具有廣泛的應用價值。Luc等[85]在文獻[70]的基礎上，使用多尺度架構和對抗訓練方法來預測語義分割圖像。實驗結果表明，預測語義分割圖像的精度要好于直接預測RGB圖像，且預測分割圖像的平均IoU達到了真實圖像分割結果的2/3。

Vondrick等[43]提出使用時空卷積生成對抗網絡的視頻預測模型VGNN，該模型利用時空卷積網絡將前景和背景解耦。本文使用生成對抗網絡從潛在編碼向量生成高維視頻，分別提出了由時空卷積和反卷積組成的單流架構，以及可以建模靜態的背景和動態的前景的雙流架構。該模型在超過200萬條視頻上訓練后可以自己“創作”視頻內容。作者以自編碼器架構作為基準，經“亞馬遜土耳其機器人”測試。結果表明，雙流對抗網絡性能優于對應的單流對抗網絡，遠優于自編碼器網絡，甚至有20%的人認為模型生成的視頻比自然視頻更“真實”。在預測未來幀問題上，Vondrick等在生成器前加入一個編碼器，將靜態圖片編碼為潛在編碼向量，作為雙流生成對抗網絡的輸入，生成模型可以生成32幀的視頻(一般視頻是25幀/秒，因此模型可以生成約1.5 s的視頻)。結果表明，生成器生成的視頻雖然不是嚴格意義上的正確視頻，但在語義上是可接受的。

Vondrick等最終把通過無監督方式學習到的鑒別模型參數用在監督學習任務上(例如動作分類)，將鑒別器最后一層替換為Softmax分類器。實驗結果表明，使用無監督學習到的參數初始化分類器，在同樣樣本量大小情況下，其分類性能高于隨機初始化的網絡，對比效果圖見圖4。Jin等[79]使用基于生成對抗網絡的時空特征學習方法，結合預測轉向解析模型，可以增強現有的場景解析模型。其實驗結果表明，其在Cityscapes視頻分割數據集上取得了較好的結果。

Denton等[88]也提出將視頻背景內容和運動前景分開編碼的視頻表征分解模型，與文獻[80]不同的是，文獻[88]是以生成對抗網絡的方式訓練背景內容編碼器、運動姿勢編碼器以及解碼器。在KTH數據集上的實驗結果表明，文獻[88]的視頻預測在準確性和圖像銳利性方面要好于文獻[80]。作者還提出，背景內容編碼器可以構建圖像分類模型，運動前景編碼器可以構建視頻動作分類模型。

圖 4 在UCF101數據集上，VGAN鑒別器參數初始化分類器、隨機值初始化分類器以及隨機猜測類別的性能對比Fig. 4 Performance comparison of classifier initialized by VGAN discriminator’s parameters, classifier initialized by random value and random classification on UCF101

與文獻[68]類似，Yan等[67]基于條件GAN架構，用人體骨骼作為輔助信息，可以生成多幀栩栩如生的運動視頻。

Chen等[86]提出一種雙向預測網絡來進行視頻插值，該模型采用編碼器—解碼器架構，通過兩個編碼器分別編碼起始幀和結尾幀，從而產生一個潛在表征，解碼器以潛在表征作為輸入來生成多幀插值視頻。該模型采用多尺度架構，其損失函數為l2重建損失、特征空間損失(以AlexNet最后一個卷積層提取到的特征作為基準)與對抗損失的加權和。該模型在合成2D數據集和UCF101數據集上的結果表明，其比基于光流場的模型的效果要更好。

5 結束語

當前深度有監督學習在計算機視覺、自然語言處理和機器翻譯等領域取得了遠超傳統方法的性能，但這些成就多屬于深度學習在感知層面的工作，這屬于人工智能的第一步；下一步就是讓機器能夠理解自然界變化的規律，對自然界動態進行建模，使其能夠對現實世界中將要發生的事情進行預測，要達到這一步，需要借助于無監督學習。無監督學習因其可以在自然界海量的無標注數據上進行訓練，且應用范圍廣泛，因而被譽為“深度學習的圣杯”。

視頻預測作為無監督學習的一個最新的也是最有前景的研究方向之一，其意義不僅在于能夠很好地建模視頻場景來推測未來視頻，從而幫助機器能夠更好地決策，還在于其以無監督方式學習到的內部視覺表征可以加速或提升弱監督學習和有監督學習的性能，因此得到了越來越多學者的關注，也取得了非常多的進展。但是，現有的方法仍舊存在許多不足：

1)當前提出的各種模型，結構比較單一，多數是基于自編碼器、遞歸神經網絡(包括LSTM)和生成對抗網絡，雖然這些架構取得了不錯的效果，但是仍無法高效建模自然界復雜的動態結構，導致當前的模型僅能預測有限的幾幀或者幾十幀圖像，且在預測的后期畫面會變模糊或者失去語義信息。

2)目前學術界使用的視頻預測損失函數比較單一，常使用的損失函數是均方誤差損失、對抗損失函數和圖像梯度差分損失函數。因為圖像具有高維復雜結構信息，當前常用損失函數沒有充分考慮結構信息，導致模型預測的圖像缺乏語義信息。另外，使用峰值信噪比、結構相似性作為圖像評價標準，與人眼的視覺感知并不完全一致，人眼的視覺對于誤差的敏感度并不是絕對的，其感知結果會受到許多因素的影響而產生變化，因此在圖形評價指標上仍有待研究。

3)理論上，預測視頻動態在機器人決策、無人駕駛和視頻監控系統等領域具有廣泛的應用價值，但當前視頻預測的研究多數在學術界，且研究處于早期階段，具體在工業界的應用還未起步。

視頻預測學習是理解和建模自然界場景動態的有力手段，也是無監督學習的一個新的、重要的突破點，盡管該領域的研究面臨著不少挑戰和未解決的問題，但當前認知科學和深度學習領域發展非常迅速，尤其是在增強學習、半監督學習和無監督學習方向，且當前的計算機計算能力越來越強，這些有利因素定會加速視頻預測研究的進展。

[1]LECUN Y. Predictive Learning[R]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016

[2]LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553): 436–444.

[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. South Lake Tahoe, NV, USA, 2012: 1097–1105.

[4]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1026–1034.

[5]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[Z]. arXiv preprint arXiv: 1409.1556, 2014.

[6]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778.

[7]HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97.

[8]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:3104–3112.

[9]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3: 1137–1155.

[10]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[Z]. arXiv preprint arXiv: 1312.5602, 2013.

[11]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489.

[12]DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255.

[13]SRIVASTAVA N, MANSIMOV E, SALAKHUDINOV R.Unsupervised learning of video representations using LSTMs[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 843–852.

[14]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115–133.

[15]HEBB D O. The organization of behavior: A neuropsychological theory[M]. New York: Chapman & Hall, 1949.

[16]MINSKY M L, PAPERT S A. Perceptrons: an introduction to computational geometry[M]. 2nd ed. Cambridge,UK: MIT Press, 1988.

[17]RUMELHART D E, HINTON G E, WILLIAMS R J.Learning representations by back-propagating errors[J].Nature, 1986, 323(6088): 533–536.

[18]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324.

[19]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527–1554.

[20]JORDAN M I. Serial order: A parallel distributed processing approach[J]. Advances in psychology, 1997, 121:471–495.

[21]BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2009, 2(1): 1–127.

[22]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:2672–2680.

[23]BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence,2013, 35(8): 1798–1828.

[24]HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The journal of physiology, 1968, 195(1): 215–243.

[25]FUKUSHIMA K, MIYAKE S. Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition[M]//AMARI S I, ARBIB M A. Competition and Cooperation in Neural Nets. Berlin Heidelberg:Springer, 1982: 267–285.

[26]ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA, USA, 2010: 2528–2535.

[27]NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1520–1528.

[28]RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. arXiv preprint arXiv: 1511.06434,2015.

[29]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221–231.

[30]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780.

[31]GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como,Italy, 2000, 3: 189–194.

[32]CHO K, VAN MERRIENBOER B, GULCEHRE C, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[Z]. arXiv preprint arXiv: 1406.1078, 2014.

[33]SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015:802–810.

[34]VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371–3408.

[35]NG A. Sparse autoencoder[R]. CS294A Lecture Notes,2011: 72.

[36]KINGMA D P, WELLING M. Auto-encoding variational bayes[Z]. arXiv preprint arXiv: 1312.6114, 2013.

[37]REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[Z]. arXiv preprint arXiv: 1401.4082, 2014.

[38]MIRZA M, OSINDERO S. Conditional generative adversarial nets[Z]. arXiv preprint arXiv: 1411.1784, 2014.

[39]CHEN Xi, DUAN Yan, HOUTHOOFT R, et al. InfoGAN:interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2172–2180.

[40]LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint arXiv: 1609.04802, 2016.

[41]WU Jiajun, ZHANG Chengkai, XUE Tianfan, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 82–90.

[42]ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[Z].arXiv preprint arXiv: 1611.07004, 2016.

[43]VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 613–621.

[44]VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA,2016: 98–106.

[45]LAN Tian, CHEN T C, SAVARESE S. A hierarchical representation for future action prediction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 689–704.

[46]HOAI M, DE LA TORRE F. Max-margin early event detectors[J]. International journal of computer vision, 2014,107(2): 191–202.

[47]RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 1036–1043.

[48]VU T H, OLSSON C, LAPTEV I, et al. Predicting actions from static scenes[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland,2014: 421–436.

[49]PEI Mingtao, JIA Yunde, ZHU Songchun. Parsing video events with goal inference and intent prediction[C]//Proceedings of the 2011 IEEE International Conference on Computer vision. Barcelona, Spain, 2011: 487–494.

[50]FOUHEY D F, ZITNICK C L. Predicting object dynamics in scenes[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,USA, 2014: 2027–2034.

[51]KOPPULA H S, SAXENA A. Anticipating human activities using object affordances for reactive robotic response[J].IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 14–29.

[52]HUANG Dean, KITANI K M. Action-reaction: Forecasting the dynamics of human interaction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 489–504.

[53]PICKUP L C, PAN Zheng, WEI Donglai, et al. Seeing the arrow of time[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 2043–2050.

[54]LAMPERT C H. Predicting the future behavior of a timevarying probability distribution[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 942–950.

[55]PINTEA S L, VAN GEMERT J C, SMEULDERS A W M.Déja vu: Motion prediction in static images[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 172–187.

[56]KITANI K M, ZIEBART B D, BAGNELL J A, et al.Activity forecasting[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012:201–214.

[57]GONG Haifeng, SIM J, LIKHACHEV M, et al. Multi-hypothesis motion planning for visual object tracking[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 619–626.

[58]KOOIJ J F P, SCHNEIDER N, FLOHR F, et al. Contextbased pedestrian path prediction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich,Switzerland, 2014: 618–633.

[59]WALKER J, DOERSCH C, GUPTA A, et al. An uncertain future: Forecasting from static images using variational autoencoders[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands,2016: 835–851.

[60]WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2443–2451.

[61]WALKER J, GUPTA A, HEBERT M. Patch to the future:Unsupervised visual prediction[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 3302–3309.

[62]YUEN J, TORRALBA A. A data-driven approach for event prediction[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece,2010: 707–720.

[63]MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if...” learning to predict the effect of forces in images[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016:269–285.

[64]SCHUKDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge, UK, 2004, 3: 32–36.

[65]VUKOTI V, PINTEA S L, RAYMOND C, et al. One-step time-dependent future video frame prediction with a convolutional encoder-decoder neural network[C]//Proceedings of the 19th International Conference on Image Analysis and Processing. Catania, Italy, 2017: 140–151.

[66]IONESCU C, PAPAVA D, OLARU V, et al. Human3.6M:Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(7):1325–1339.

[67]YAN Yichao, XU Jingwei, NI Bingbing, et al. Skeletonaided articulated motion generation[Z]. arXiv preprint arX-iv: 1707.01058, 2017.

[68]VILLEGAS R, YANG Jimei, ZOU Yuliang, et al. Learning to generate long-term future via hierarchical prediction[Z].arXiv preprint arXiv: 1704.05831, 2017.

[69]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[Z].arXiv preprint axXiv:1202.0402, 2012

[70]MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[Z]. arXiv preprint arXiv: 1511.05440, 2015.

[71]HINTZ J J. Generative adversarial reservoirs for natural video prediction[D]. Austin, USA: The University of Texas.

[72]VILLEGAS R, YANG Jimei, HONG S, et al. Decomposing motion and content for natural video sequence prediction[C]//Proceedings of the 2017 International Conference on Learning Representations. Toulon, France, 2017.

[73]LIU Ziwei, et al. Video frame synthesis using deep voxel flow[C]//Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,Hawaii, USA, 2017:4463–4471

[74]GORBAN A, IDREES H, JIANG Yugang, et al. THUMOS challenge: Action recognition with a large number of classes[EB/OL]. (2015–05). http://www.thumos.info.

[75]GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The international journal of robotics research, 2013, 32(11): 1231–1237.

[76]LOTTER W, KREIMAN G, COX D. Deep predictive coding networks for video prediction and unsupervised learning[Z]. arXiv preprint arXiv: 1605.08104, 2016.

[77]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//Proceeding of the 2011 IEEE International Conference on Computer Vision, ICCV. Barcelona, Spain, 2011:2556–2563.

[78]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA,2016: 3213–3223.

[79]JIN Xiaojie, LI Xin, XIAO Huaxin, et al. Video scene parsing with predictive feature learning[Z]. arXiv preprint arX-iv: 1612.00119, 2016.

[80]LOTTER W, KREIMAN G, COX D. Unsupervised learning of visual structure using predictive generative networks[Z]. arXiv preprint arXiv: 1511.06380, 2015.

[81]YAN Xing, CHANG Hong, SHAN Shiguang, et al. Modeling video dynamics with deep dynencoder[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 215–230.

[82]RANZATO M, SZLAM A, BRUNA J, et al. Video (language) modeling: a baseline for generative models of natural videos[Z]. arXiv preprint arXiv: 1412.6604, 2014.

[83]OH J, GUO Xiaoxiao, LEE H, et al. Action-conditional video prediction using deep networks in atari games[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec,Canada, 2015: 2863–2871.

[84]FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 64–72.

[85]LUC P, NEVEROVA N, COUPRIE C, et al. Predicting deeper into the future of semantic segmentation[Z]. arXiv preprint arXiv: 1703.07684, 2017.

[86]CHEN Xiongtao, WANG Wenmin, WANG Jinzhou, et al.Long-term video interpolation with bidirectional predictive network[Z]. arXiv preprint arXiv: 1706.03947, 2017.

[87]XUE Tianfan, WU Jiajun, BOUMAN K, et al. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems.Barcelona, Spain, 2016: 91–99.

[88]DENTON E, BIRODKAR V. Unsupervised learning of disentangled representations from video[Z]. arXiv preprint arXiv: 1705.10915, 2017.