李秋玲,趙 磊,邵寶民,王 雷,姜 雪
(山東理工大學 計算機科學與技術學院,山東 淄博 255049)
視頻邊界檢測[1]是處理和管理視頻的第一步,尋找一種準確高效的視頻邊界檢測算法越發受到人們的關注[2]。傳統的鏡頭邊界檢測算法,如幀差法,雖然比較簡單直觀,但其計算量大且對光照運動等干擾不敏感[3];基于聚類的檢測算法雖然不需要人為設置閾值,但卻要人為設置聚類的數目[4,5];基于雙閾值的檢測算法當漸變鏡頭溶解過程過于平緩時其難以檢測到溶解鏡頭的起始幀[6]。近來也有學者提出了一些新的思路,如基于時空卷積神經網絡的鏡頭邊界檢測算法用包含超過350萬幀的鏡頭的過渡數據集訓練CNN網絡模型,但該方法目前還缺乏普適性[7]。顏色直方圖特征可以描述圖像中顏色的全局分布,適合用于描述不需要考慮局部空間和位置的圖像[8],其不足之處在于忽視了圖像中物體的形狀和邊緣。HOG特征在行人檢測中是一種成功的邊緣特征提取方法[9],其主要描述的是目標的邊緣特征,但是卻忽略了圖像的整體顏色特征[10]。目前鏡頭邊界檢測算法中人工確定閾值存在不確定性及不穩定性問題,自適應閾值是視頻鏡頭邊界檢測算法今后發展的一個趨勢。因此本文提出了融合RGB顏色直方圖特征與HOG特征的自適應閾值鏡頭邊界檢測算法。本文通過實驗對效果進行了驗證,為鏡頭邊界檢測算法的研究開拓了思路。
在視頻鏡頭邊界檢測領域,顏色直方圖特征仍然是一個流行且有效的特征[11],因為它對描述目標形變和旋轉具有一定的魯棒性[12]。我們將R、G、B這3個顏色通道作為特征向量,并且每個顏色通道中使用8個bin進行量化,得到每個通道的8維直方圖特征,將3個通道量化后的小區間拉成一行后便可以使用512維的特征向量描述每一幀,我們用以下公式表示第n幀的顏色直方圖
R(n,i),0≤i≤M-1
(1)
其中,n和i分別表示視頻序列中的幀號和直方圖中的bin數,且M=512。
HOG表示邊緣梯度的結構特征[13],且該特征可以抵消光照變化帶來的影響也使得圖像局部像素點之間的關系可以很好地表征。HOG方向梯度直方圖利用x方向的梯度模板[-1,0,1]和[-1,0,1]T遍歷整幅圖像,遍歷之后的每個點都具有x方向和y方向兩個分梯度值,圖像中像素點 (x,y) 的梯度為
Gx(x,y)=H(x+1,y)-H(x-1,y)Gy(x,y)=H(x,y+1)-H(x,y-1)
(2)
式中:Gx(x,y)、Gy(x,y)、H(x,y) 中分別表示輸入圖像中像素點 (x,y) 處的水平方向梯度,垂直方向梯度和像素值。像素點 (x,y) 處的梯度幅值和梯度方向分別為
(3)
(4)
將每張圖片分成小的連接區域稱為cell,取每個cell的大小為8×8并且cell與cell之間沒有重疊部分,選用方向為0°到180°的無符號梯度,平均分成9個方向,并且每一個block中包含2×2個cell。由于HOG特征的維數較多,通過多次實驗的比較我們將原圖片歸一化為32×64大小,使其在較少維度下表現出較好的性能。對三通道分別提取HOG特征,將每個cell特征數據進行量化得到單個cell的9維特征,因此每個通道中可以提取到756維特征。將全部的84個cell中9個方向每個方向的個數進行統計得到每個通道的9維直方圖特征。
本文中采用自己訓練的曾用于Caltech256數據集進行圖像分類的一個多層卷積神經網絡來提取幀特征,在Caltech256中選取backpack、bear、binoculars、bonsai、butterfly這5個語義類,每類100幅共500幅圖像,選取400張圖像作為訓練集進行訓練,100張圖片進行測試。該網絡在此數據集上用于圖像分類的平均查準率和查全率均在90%以上。去掉網絡最后的損失函數層,把網絡當作一個特征提取器來提取圖像的深度特征。網絡包含五層權重,兩個卷積層后面分別對應一個最大池化層,最后是一個全連接層輸出特征向量,網絡結構如下。
C1層:輸入圖片是32×64,在C1層由20個5×5的卷積核進行卷積,得到20幅28×60的特征圖。S1層:采用最大池化進行下采樣,并且采用pooling窗口為2×2,步長為2×2,得到20個14×30的特征圖。C2層:輸入圖像是20個14×30的特征圖,C2層采用40個4×4的卷積核進行卷積,得到40個11×27的特征圖,最后用Relu激活。S2層:采用最大池化進行下采樣,并且采用pooling窗口為2×2,步長為2×2,得到20個6×14的特征圖。F1層:全連接層,將圖像展開轉換為長度為400維的特征向量。
本文將RGB顏色直方圖提取的特征中每個通道的8個bin與HOG特征提取的每個通道的9個方向進行平均權重合并得到每個通道的融合特征,將R、G、B這3個通道的特征組成了一張圖片融合之后的直方圖特征并記為H(n), 其中n指的是圖片的幀號。融合特征自適應算法流程如圖1所示。

圖1 融合特征自適應閾值多步比較鏡頭邊界檢測流程
在基于融合特征的多步比較鏡頭邊界檢測算法中首先設置一個步長l, 其中l指的是兩個幀之間的距離。分別比較n-l與n+1+l兩幀之間的顏色直方圖差異,當l等于0的時候表示的是相鄰兩幀之間的差異。兩個幀在多步之間的距離圖[14]為

(5)
其中,sigma(n,l) 表示的是h(n-l,i) 與h(n+1+l,i) 兩幀之間的直方圖差異,W和H代表幀的寬和高。多步比較算法通過計算多個步驟的幀之間的差異,生成一個模式距離圖,通過分析它們在距離圖中的模式來檢測它們的變化。圖2和圖3分別展示了突變模式距離圖和漸變模式距離圖。

圖2 突變模式距離

圖3 漸變模式距離
為了限制物體運動或攝像機運動引起的差異,從距離圖sigma(n,l) 中刪除了時間上的局部均值,定義了sigma(n,l) 的時間局部均值
(6)
其中,L是sigma(k,l) 中使用的最大步長。在被mu(n,L) 減去后,一個新的特征定義如下
eta(n,l,L)=sigma(n,l)-mu(n,L)
(7)
根據式(7)定義以下公式來表示所有可能的步長之和

(8)
在此基礎上設置零交叉檢測,如果檢測到起點eta(Kstart(L)-1,L)<0∪eta(Kstart(L)+1,L)>0, 并且檢測到終點eta(Kend(L)-1,L)>0∪eta(Kend(L)+1,L)<0時,則將幀號K被聲明為潛在峰值的起始點。將每個潛在峰區的幀數的最大值定義如下
phi(Kmax(L,i),L)=Max(phi(Kstart(L,i),L),…,phi(Kend(L,i),L))
(9)
其中,L是最大步長,Kstart(L,i) 和Kend(L,i) 分別表示起始點的幀數和第i個潛在峰值區域的端點,Kmax(l,i) 是phi(n,L) 在潛在最大峰值區域的最大值的幀號。
融合特征多步比較鏡頭邊界檢測算法步驟如下:
(1)分別提取RGB顏色直方圖特征和HOG特征并進行平均權重合并得到每張視頻幀的融合特征;
(2)計算設定步長L之間的直方圖差值,根據定義的公式計算每一幀所有可能的步長之和phi;
(3)對突變和漸變分別設置不同的步長L, 分別根據公式phi和eta來判斷突變鏡頭和漸變鏡頭。
當比較步長較小時,逐步過渡過程中幀間的差異并不明顯,因此將突變檢測模塊的最大步長L設置為4。我們通過Kmax(4,i) 來檢測突變,并提出自適應閾值的方法,相鄰幀的直方圖特征兩兩做差,記為dif={m1,m2,m3…mn},m1指的是第一幀與第二幀之間的特征差值,計算特征差值的均值和標準差
(10)
(11)
Q=αμ+σ
(12)
J=βμ+σ
(13)
其中,Q指突變鏡頭的閾值,J指漸變鏡頭的閾值,α和β是閾值因子,經實驗可得α在-1.6到-1.8,β=-1.5到 -1.8 之間效果較為理想,本文中的實驗就是在此范圍內進行的。如果
phi(Kmax(4,i),4)>Q∪eta(Kmax(4,i),0,4)≥2
(14)
那么我們就將Kmax(4,i) 保留為一個突變。
在鏡頭邊界檢測中,漸變檢測相對于突變檢測來說更加困難,因為漸變鏡頭的類型多樣,相鄰幀之間的變化很小,目前用的較多的方法如設置雙閾值,通過低閾值來檢測漸變鏡頭時很容易出現錯檢和漏檢的情況,因為傳統的思路大多考慮相鄰幀之間的差異,而漸變鏡頭,特別是漸變過程很平緩的漸變鏡頭在此時就很難檢測出來。因此本文設置一個步長L, 通過計算多個步驟的幀之間的差異來進行檢測。通過將漸變檢測模塊的最大步長L設置為10,同突變鏡頭檢測一樣,漸變鏡頭使用Kmax(10,i) 來進行檢測,在閾值方面我們仍然使用自適應閾值算法。如果
phi(Kmax(10,i),10)>J∪eta(Kmax(10,i),0,10)<2
(15)
那么從Kstart(10,i) 到Kend(10,i) 被稱為一個漸變。
本文在RAI數據集、Open-Source Video數據集、以及100段新聞聯播的新聞片段上做了測試。由于篇幅限制抽取了RAI數據集中的記錄、訪談視頻, Open-Source Video數據集中的電影視頻和新聞聯播中的一段新聞視頻作為研究案例。該測試數據集總共31 800幀,鏡頭總數為294個,其中突變鏡頭221個,漸變鏡頭73個。
本文對數據集檢測結果的評價準則選用的是查準率、查全率以及查準率和查全率的綜合標準F1, 公式[15]如下所示
(16)
(17)
(18)
其中,Rp指查準率,Rr指查全率,F1指查準率和查全率的綜合指標,Nc指正確檢測出的鏡頭個數,Nf指檢測錯誤的鏡頭的個數,Nl指漏檢的鏡頭個數。
圖4是融合特征自適應閾值算法下系統檢測的結果,圖5展示了第716幀與第717幀之間發生的突變,圖6展示了第506幀到523幀之間發生的漸變。

圖4 融合特征自適應閾值算法系統檢測結果

圖5 突變幀展示

圖6 漸變幀展示
由圖6可以看出第506幀到第523幀之間發生的漸變非常平緩,但在系統檢測的結果中沒有發生漏檢,融合特征自適應閾值算法改進了目前大多數算法中在檢測漸變鏡頭時視頻幀出現形狀、顏色單一且變化平緩時容易出現漏檢和錯檢的情況,并且融合特征自適應閾值算法對突變鏡頭也有很好的檢測效果。
3.3.1 實驗結果對比
為了驗證融合特征的多步比較鏡頭邊界檢測算法切實彌補了只提取顏色特征、邊緣形狀特征和僅使用CNN提取幀特征的算法中出現的錯檢和漏檢情況,我們將融合特征算法與只提取RGB顏色直方圖特征、HOG特征及CNN提取幀特征的多步比較鏡頭邊界檢測算法作比較,比較結果見表1,其中,FUS指的是融合特征的多步比較鏡頭邊界檢測算法,RGB、HOG、CNN分別指只提取單一特征的多步比較鏡頭邊界檢測算法。

表1 融合特征算法與單一特征算法結果比較
將表1中4種方法對漸變鏡頭的檢測結果做成圖7所示條形圖。

圖7 4種方法下漸變鏡頭檢測結果對比
本文采用計算相鄰幀間差值的均值和標準差的方法自適應設定閾值,自適應閾值的使用提高了算法性能,減少了人工確定最佳閾值的工作量和不確定性。為了驗證自適應閾值切實提高了算法性能,減少了人工確定閾值的不確定性、不穩定性,我們將融合特征的自適應閾值多步比較鏡頭邊界檢測算法同融合特征多步比較鏡頭邊界檢測算法作對比。文獻[16]提出基于遺傳算法與模糊邏輯方法的鏡頭邊界檢測算法,文獻[17]提出利用視頻相鄰幀的視覺相似性檢測突變和漸變的方法。為了驗證本文算法的有效性,我們又將本文提出的融合特征自適應閾值算法與文獻[16]和文獻[17]分別做了對比。比較結果見表2,其中ADA和FUS指的是本文提出的融合特征的自適應閾值多步比較鏡頭邊界檢測算法和融合特征多步比較鏡頭邊界檢測算法。

表2 本文算法及與其它文獻算法對比結果
將表2中4種方法對鏡頭邊界檢測的檢測結果做成圖8所示條形圖。

圖8 本文算法及與其它文獻算法鏡頭檢測結果對比
3.3.2 實驗結果分析
由表1可知,融合特征算法在查準率和查全率上都要優于基于RGB顏色直方圖特征的多步比較鏡頭邊界檢測算法和基于HOG特征的多步比較鏡頭邊界檢測算法,由此驗證了融合特征的多步比較鏡頭邊界檢測算法彌補了只提取顏色特征或邊緣形狀特征的算法中出現的錯檢和漏檢,特別是對于漸變鏡頭的錯檢和漏檢情況。CNN提取幀特征的多步比較鏡頭邊界檢測算法對突變鏡頭檢測比較敏感,但是對漸變鏡頭的檢測效果遠不如融合特征算法。且由圖7可以看出,融合特征算法對漸變鏡頭的檢測效果相比于其它3種方法都得到了較好的提升。
由表2可知,基于融合特征的自適應閾值多步比較鏡頭邊界檢測算法對突變鏡頭的檢測和漸變鏡頭的檢測結果都優于基于融合特征的多步比較鏡頭邊界檢測算法,且在算法執行過程中自適應閾值的使用能更快的確定最佳閾值,取得最佳效果,因此自適應閾值的使用切實減少了人工確定閾值的不確定性、不穩定性。本文提出的算法相比于文獻[16]和文獻[17]都得到了較好的提高,驗證了本文算法較好的彌補了目前鏡頭邊界檢測算法易出現的錯檢和漏檢情況,且本文算法對不同類型的視頻檢測具有較好的普適性。
3.3.3 算法評價
從實驗結果來看,本文提出的融合RGB顏色直方圖特征與HOG特征的多步比較自適應閾值鏡頭邊界檢測算法在查準率和查全率上都要優于單一特征的多步比較鏡頭邊界檢測算法和其它文獻的算法,且融合算法中自適應閾值的使用大幅度減少了人工需多次實驗來確定最佳閾值的工作量和不確定性。本文的多步比較算法打破了常規算法中度量相鄰幀間差值的思路,不僅可以很好檢測出突變鏡頭,且對于目前大多數算法中難以檢測的顏色單一且變化平緩的漸變鏡頭也表現出了較好的檢測效果。在單一特征算法中基于CNN提取幀特征的鏡頭邊界檢測算法對突變鏡頭的檢測效果略高于本文算法,但其對漸變鏡頭的檢測不敏感,并且該特征提取方法用于提取特征的神經網絡需要前期訓練,訓練次數過少會使得網絡提取不到更深層次的特征,訓練次數過多就會提高時間復雜度。因此,綜合來看,本文提出的融合RGB顏色直方圖特征與HOG特征的多步比較自適應閾值鏡頭邊界檢測算法切實解決和提高了其它鏡頭邊界檢測算法易造成錯檢漏檢、人工確定閾值具有不穩定性及漸變鏡頭相鄰幀之間特征變化較小難以檢測到的情況。
本文提出了一種融合RGB顏色直方圖特征與HOG特征的多步比較自適應閾值鏡頭邊界檢測算法,并用一個多層網絡來提取幀特征,最后用融合算法與單一特征多步比較鏡頭邊界檢測算法和其它文獻算法作比較,通過對比發現,本文提出的融合特征算法在保證普適性的基礎上對鏡頭邊界檢測算法進行了提高和優化,自適應閾值的使用切實減少了人工確定閾值的不確定性和不穩定性且本文的多步比較算法對目前大多數算法無法解決的漸變過程很平緩的漸變鏡頭的檢測具有較好的效果。通過分析可知融合算法中引起錯檢和漏檢鏡頭的一個原因是沒有充分考慮鏡頭運動帶來的影響,研究更復雜的度量和運動估計將是下一步的研究重點。