趙春飛, 張麗紅
(山西大學 物理電子工程學院, 山西 太原 030006)
隨著海量監控視頻數據的產生, 使得能對視頻數據進行有效瀏覽和分析的視頻濃縮技術成為一個研究熱點. Tonomuray 等人最早提出關鍵幀思想, 他們將每一小段視頻的第一幀當做關鍵幀[1]. Pentland等人提出將視頻序列按時間間隔等分, 從預定幀中選取關鍵幀[2]; Girgensohn等人充分考慮時間特征, 每隔相同時間提取關鍵幀, 基本可以描述整個視頻內容[3]; Zhang等人提出根據幀間差分變化選取關鍵幀[4]; Negahdaripour等人通過進一步的研究提出光流表示圖像動態空間變化以及光照輻射程度[5]; Yong Liu[6]等在物體檢測時采用圖結構并同時建模物體細節特征、 場景上下文以及物體之間關系, 從而實現物體檢測; 胡嵐清等[7]采用無監督域自適應雙工生成對抗性網絡進行物體檢測. S.Bell等提出內-外網絡: 利用跳過池和遞歸神經網絡在上下文中檢測對象[8].
上述方法都是人工定義的關鍵幀, 會丟失幀間的關聯性, 而且目標之間的相互遮擋和背景復雜程度的不同, 使得視頻濃縮很難實現高壓縮率. 因此利用卷積神經網絡[9]強大的特征提取能力和表示能力, 將交互機制融合到卷積神經網絡可提高幀間的關聯性, 以有效提高濃縮比.
圖 1 中, ROI(Region of Interest)是感興趣區域, scene是背景, edge是運動目標間的關系, 該交互機制相當于一個打分. 在背景指導下, 運動目標之間通過關系程度相互交互, 即運動目標接收背景的指導信息, 每個運動目標接收其他運動目標傳遞來的信息, 關系不同, 接收程度不同.

圖 1 交互機制結構Fig.1 Interaction mechanism structure
所以, 交互機制也是消息傳遞, 采用門控循環單元GRU(Gated Recurrent Unit)實現. 例如, 當前運動物體需要接收背景信息, 那么將當前物體的狀態作為隱狀態, 背景信息作為輸入, 輸出即為接收信息更新后的物體狀態; 同理當運動目標需要接收其他運動目標的信息, 同樣將當前運動目標狀態作為隱狀態, 其他運動目標傳遞來的信息作為輸入, 輸出即為更新后的運動目標狀態. GRU的門結構可以使得隱狀態丟棄與輸入無關的部分, 也可以選擇與輸入相關的部分來更新隱狀態. 具體的GRU門結構工作原理為:
復位開關r通過式(1)計算
r=σ(Wr[x,ht]),
(1)
式中:x是輸入;ht是運動目標前一時刻的隱狀態;Wr是權重矩陣;σ是S型函數. 同理, 更新開關z通過式(2)計算
z=σ(Wz[x,ht]),
(2)
式中:Wz為權重矩陣.
更新后的狀態ht+1用式(3)計算
(3)

因此, GRU是一種有效的存儲單元, 可以記住長期信息, 且GRU的初始狀態為空或隨機向量. 本文選擇GRU的初始狀態為隨機向量.
卷積雙流融合神經網絡是將具有特定卷積層的兩個網絡融合在一起, 使得在相同像素位置的通道被放在相對應的位置. 這樣, 如果一個物體在某個空間位置移動, 那么時間網絡就可以識別這個物體, 空間網絡就能識別物體位置, 從而得到物體的運動軌跡.
卷積雙流融合神經網絡的融合過程為:
1) 將特征圖Xa,Xb在特征通道d的相同空間位置i,j通過式(4)進行堆疊

(4)
式中:y∈RH×W×2D.
2) 將1)得到的數據與濾波器f進行卷積
yconv=ycat*f+b,
(5)
式中:f∈R1×1×2D×D,b∈RD. 輸出通道的數量是D, 而過濾器的尺寸是1×1×2D. 此時, 過濾器f用于將維度減少到原來的一半, 并且能夠在相同的空間(像素)位置上對兩個特征圖Xa,Xb進行加權組合. 當在網絡中作為可訓練的過濾器內核時,f能夠學習兩個特征映射的對應關系, 從而最小化聯合損失函數.
圖 2 為兩個卷積融合的示意圖.
圖 2(a) 為在第4個卷積層后融合,
圖 2(b) 是在第5個卷積層和fc8后融合. 注入融合層可以對雙流網絡中的參數和層數產生重大影響, 特別是如果只保留被融合的網絡, 而其他網絡塔被截斷, 如圖2(a)所示. 兩個網絡也可以在兩層融合, 如圖2(b)所示. 這樣就實現了從每個網絡(在卷積5)中對通道進行像素級注冊的最初目標, 但不會導致參數數量的減少(例如, 如果只在conv5層進行融合, 參數則會減少一半).

圖 2 卷積融合示意圖Fig.2 Convolution fusion diagram
表 1 比較了兩個網絡中不同層融合參數的數量. 使用VGG-M模型, 在不同的卷積層之后進行融合, 對參數的數量產生了大致相同的影響, 因為大多數這些參數都存儲在全連接層中.

表 1 不同層融合后網絡參數Tab.1 Network parameters of after different layers merged
在表 1 中比較了來自不同層的融合. 使用卷積融合, 融合層由與先前層的激活相加的單位矩陣初始化構成. 表1中, ReLU2, ReLU3, ReLU4, ReLU5表示融合發生的層數且采用ReLU激活函數; Accuracy表示在融合后的視頻濃縮效果; #layers代表CNN的層數; #parameters表示網絡中參數數量. 通過比較, 本文選取圖 2(a) 作為融合結構.
基于交互機制的卷積雙流融合神經網絡如圖 3 所示.

圖 3 基于交互機制的卷積雙流融合神經網絡Fig.3 Convolutional fusion neural network based on interaction mechanism
在該網絡中, 將輸入的視頻幀序列進行感興趣區域ROI選取, 然后通過卷積融合神經網絡提取運動目標和背景特征, 并將特征輸入到交互機制結構中進行關聯性運算.
在網絡中的交互機結構中, 左邊scene GRU接收場景信息, 將ROI特征作為隱狀態, 場景特征作為信息輸入. 右邊edge GRU接收其他物體的信息, 通過關系程度計算每個物體傳遞的信息, 再pooling所有物體傳遞來的整合信息, 將整合后的信息傳遞到當前ROI. 兩種GRU的輸出融合為最終的狀態表達, 作為物體狀態. 當物體狀態更新后, 物體之間的關系發生變化, 更多次的信息交互迭代可以更魯棒地表示物體狀態.
在Windows Server 2008, 2.2 GHz, 14核, 31 GB ROM的服務器上搭建網絡運行環境, 所使用的軟件有Python, MATLAB.
所使用的實驗數據如表 2 所示.

表 2 實驗所用數據集Tab.2 Experimental data set
基于交互機制的卷積雙流融合神經網絡的視頻濃縮整體算法流程圖如圖 4 所示.
1) 讀取輸入視頻文件;
2) 視頻分解: 分割輸入的視頻數據文件, 讀取視頻數據信息, 獲得對應的視頻幀序列;
3) 特征提取: 用基于交互機制的卷積雙流融合神經網絡對步驟2) 的視頻幀序列進行特征提取;
4) 相似性度量: 融合圖像的多種特征來進行視頻幀之間的相似性度量, 計算出視頻的幀序列間相似矩陣;
5) 關鍵幀提取: 將步驟4) 得到的相似矩陣進行場景聚類, 然后計算視頻幀到該聚類中心的距離, 將距離聚類中心最近的視頻幀作為場景的關鍵幀;
6) 視頻濃縮: 將提取出來的關鍵幀按照視頻流中的先后順序排列, 設置想要的幀率, 合成縮略視頻;
7) 視頻輸出: 將縮略視頻保存為avi 視頻文件, 然后輸出濃縮視頻.

圖 4 算法框圖Fig.4 Algorithm block diagram
2.3.1 視頻濃縮評價指標
本文采用保真率[10]和壓縮率[11]兩個比較客觀的指標來評價視頻濃縮質量的好壞.
輸入視頻文件S包含有N個視頻幀, 其幀序列表示為式(6); 濃縮視頻F包含K個提取出來的視頻關鍵幀, 其幀序列表示為式(7),
S={Si|i=1,2,…,N},
(6)
F={Fj|j=1,2,…,K}.
(7)
1) 保真率
保真率用來表征濃縮視頻是否完整有效準確地表達了原始視頻的結構和信息. 本文利用濃縮視頻中的關鍵幀和輸入視頻中的視頻序列之間的距離來計算保真率的大小.
關鍵幀序列Fi與原始輸入視頻文件S中任意一個視頻幀Si之間的距離定義為式(8),
d(Si,Fj)=min{d(Si,Fj)|j=1,2,…,K}.
(8)
則濃縮視頻和輸入視頻文件的距離用式(9)表示
d(S,F)=max{d(Si,F)|i=1,2,…,N}.
(9)
由此, 保真率的定義式為式(10),
FDLT=max{d(Si,Fj)|i=1,2,…,N,
j=1,2,…,K}.
(10)
2) 壓縮率
壓縮率用來表征視頻濃縮結果的冗余度, 壓縮率越大, 濃縮效果越好. 壓縮率用式(11)定義,
RoC(S,F)=1-K/F.
(11)
2.3.2 實驗結果
將本文所采用的方法和基于抽樣的視頻濃縮方法、 基于鏡頭分割的視頻濃縮方法以及基于F-RNN的視頻濃縮方法進行比較, 其結果如表 3, 表 4 所示.

表 3 保真率比較結果Tab.3 Fidelity rate comparison result

表 4 壓縮率比較結果Tab.4 Compression ratio comparison result
從表 3 中可以看出, 對于背景簡單的E類視頻, 本文所用的方法和基于F-RNN的視頻濃縮方法的保真度要優于傳統的視頻濃縮方法, 且保真度相近; 但是對于場景數量多而且復雜的視頻, 本文所用方法的保真度明顯優于其他3種方法. 從表 4 中可以看出, 視頻中存在運動的目標或者是攝像機運動時, 本文所用的方法壓縮率明顯高于鏡頭分割的方法. 因為本文方法直接利用圖像特征的差異對整個視頻幀序列進行場景聚類, 避免了場景誤檢測的問題.
針對如何實現高壓縮率的視頻濃縮問題, 本文提出采用交互機制的卷積雙流融合神經網絡提取運動目標的特征并將其與背景特征結合起來進行聚類, 從而實現高壓縮率的視頻濃縮. 克服了傳統方法中信息冗余度高、 特征關聯性差等問題. 實驗結果表明: 在保持原有信息的基礎上, 本文提出的方法能有效提升濃縮視頻的保真率和壓縮率.