融合音視頻上下文時序特征的視頻片段檢測

2016-11-23 09:08:29岳占峰

中國傳媒科技 2016年10期

關鍵詞：特征

■文/岳占峰

融合音視頻上下文時序特征的視頻片段檢測

■文/岳占峰

視頻片段的自動檢測是智能廣告管理系統的重要組成部分。相比于之前的廣告視頻檢測方法只使用音視頻特征，我們提出了一種利用SVM-DP融合音視頻全局時序特征來自動檢測疑似廣告視頻片段的方法。首先，視頻被分割為以鏡頭為單元的視頻序列，然后在以鏡頭起始點為中心的多維特征窗中提取具有上下文信息的音視頻特征，結合支持向量機進行融合，獲取當前鏡頭分別作為廣告和節目的概率值。將這些概率值作為觀察值構建一條以鏡頭為單元、以廣告和節目為兩個狀態的馬爾科夫鏈。最后分別根據最小持續時長和最大分割數目約束作為搜索的約束條件，利用動態規劃算法進行最優路徑的選擇。以我國電視節目的真實視頻數據進行實驗，證明了這種方法的有效性。

融合音視頻；山下文時序；視頻片段

引言

當前，大量的電視廣告視頻對我們的日常生活產生了很大影響。從電視節目中檢測廣告視頻片段，可以幫助觀眾跳過廣告片段，也可以從廣告視頻中獲取更多的信息。作為智能廣告管理系統的重要組成部分，廣告視頻片段檢測方法近幾年吸引了越來越多的注意力。

有些研究人員從定義規則的角度，采用諸如黑幀，電視臺標的隱藏，或者幾種特征融合的方法來檢測廣告片段，但是這類方法非常依賴于這些特殊的規則，不具有通用性。后來有些學者提出基于重復視頻片段檢測的方法，這類方法利用視頻中的圖像幀指紋、聲音指紋以及高效的索引結構，取得了較好的效果。但是這類方法的缺陷是在檢測的范圍內廣告視頻片段未必重復。

為了解決上述問題，研究人員嘗試采用基于學習的方法和各式各樣的語義信息等來區分廣告片段和正常節目片段。Hua利用基于支持向量機的分類器和多種音視頻特征將每個鏡頭分為廣告鏡頭和節目鏡頭。Liu利用一個交互的全局學習方法Tri-AdaBoost進行視頻、音頻、紋理的語義融合。但是，據我們所知，很少有人在利用全局時序特征方面做過深入的研究，而全局時序特征對于提升基于鏡頭的視頻檢測是非常重要的。

在本文中，我們提出了一種新的SVM-DP方法，該方法綜合利用包含上下文信息的音視頻全局時序特征來檢測廣告片段，并通過最小持續時長約束（MDC）和最大分割數目約束（MSC）來描述全局時序特征。該方法首先利用音視頻特征和SVM分類器分別將每個鏡頭作為廣告和節目的概率值獲取，然后這些概率值被作為一個關于廣告片段和正常節目兩個狀態的馬爾科夫鏈的觀察值，最后分別把MDC和MSC作為約束條件利用動態規劃算法進行最優路徑選擇，獲取最優的檢測結果。

1.包含上下文信息的音視頻全局時序特征

1.1廣告音視頻特征選擇

廣告片段是一類特殊的電視視頻，其播放時間較短，但希望引起觀眾的注意，并向觀眾傳遞商品信息。因此廣告視頻的視覺特征在空間和時序變化都較正常節目更加劇烈，可從中提取邊緣變化率的均值和方差（2維）、幀間差異度的均值和方差（2維）和鏡頭頻率（1維）等特征。此外廣告片段中的音頻通常也具有區別正常節目的信息，比如持續吸引力的旋律。為此可從中提取音頻場景直方圖（靜音、說話、音樂、帶背景音樂的說話聲和環境音）（5維）。

FMPI （Image Frames Marked with Product Information，標記產品信息的圖像幀）常被用來分割、識別和檢索廣告視頻。廣告視頻片段通常由許多廣告鏡頭組成，因此包含廣告標題圖像（FMPI）的廣告鏡頭會經常在廣告片段中出現，而在非廣告片段中卻很少出現。為此，FMPI圖像的比率（1維）可被用來預測廣告片段是否出現。FMPI圖像的比率被定義為RFMPI=NFMPI/tfw，其中NFMPI表示特征窗口中FMPI圖像的個數，tfw表示特征窗口的長度。

1.2斐波那契序列特征窗口

眾所周知，當區分廣告和正常視頻時，當前視頻鏡頭的上下文（neighborhoods）是非常重要的信息。為了獲取包含上下文信息的特征，音視頻特征都是從當前鏡頭以及它周圍的一個多重滑動特征窗中提取。特征窗從當前鏡頭的起始時間為中心分別向兩邊擴展。特征窗的長度為F(i)*ts,i=2,...,n ，其中F(i)是斐波那契序列，ts表示時間步。因此，我們可以得到2*(n-1)+1個特征窗口。實驗中我們設置ts=5秒，n=6，從而可得到一個121維的特征向量。

1.3基于SVM的分類器

通過訓練SVM分類器來融合上述音視頻特征到廣告片段和正常節目片段的后驗概率中。SVM分類器的有效性高度受限于模型參數的選擇，由于我們使用的是RBF核，所以必須優化兩個參數，C（軟間隔SVM分類器中的代價參數）和γ（RBF核函數的寬度）。通過對電視視頻的分析，我們發現其中廣告鏡頭的數目和正常節目鏡頭的數目是非常失衡的，因此我們需要考慮三個模型參數：Ccm（廣告鏡頭中的代價參數），Cgp（正常電視鏡頭的代價參數）和γ。實驗中設定Ccm=Ncm×C（Ncm+Ngp），Cgp=Ngp×C（Ncm+Ngp），其中Ncm和Ngp分別是訓練集中廣告鏡頭數目和正常節目鏡頭的數目。此外，我們運用了開源工具LIBSVM，最優模型參數是通過交叉驗證的方式獲取的。

2.時序特征約束的動態規劃算法

在理想情況下，每一個鏡頭都可以被SVM分類器進行正確的區分，這樣廣告片段就可以很容易地被標記出來。但是，在實際過程中，由于音視頻的特征不能很好地適配模型，如果僅僅通過選擇具有最大似然值的模型結果，經常會出現一些較短的誤判，從而產生一個有噪聲的分類結果，但是通過加入全局的時序特征，這種誤判的結果可以被消除，因為錯誤匹配結果持續的時間很短。由于SVM分類器產生的概率值被認為是一個兩狀態（廣告片段和正常節目片段）的馬爾科夫鏈的觀察值，所以依賴于不同約束條件的動態規劃算法可被引入解決上述問題，其中一個約束條件是廣告片段和正常節目片段的最小持續時長，另一個是在給定時間點上的最大分割數目。

2.1最小持續時長（MDC）

眾所周知，電視視頻中廣告播出在持續時長和時間間隔上遵循一定的全局時序性，即廣告片段和正常節目交替出現，并持續一小段時間。我們可利用最小持續時長約束進行搜索，并嘗試動態規劃算法來選擇最優的狀態轉移路徑，即在每一個鏡頭單元d最大化累計概率值Li(d)=maxk{Lk(d-1)+Tp(k,i )}+Pi(d)，其中Li(d)是在鏡頭單元d，最優狀態i的情況下的累積概率值。Tp(k,i)是從狀態k轉移到狀態i的轉移概率矩陣，Pi(d)是在鏡頭單元d狀態為i時候的概率值，i=1,2分別為廣告狀態和正常節目狀態。

同時為了完善算法，我們定義新的變量：Bi(d)是狀態回溯點，記錄在單元點d處，狀態為i時，在單元點d-1處的最優狀態，C*(d)是在單元d處的狀態標號，D是總共候選點的個數，Hi(d)記錄了狀態轉移點的位置，即當前狀態的第一個起始點的位置。搜索算法如下：

初始化：

遞推：

終止：

路徑回溯：

理想情況下，搜索算法中的狀態轉移矩陣Tp(k,i)是從狀態k轉移到狀態i的轉移概率矩陣。準確的轉移概率值應由大量實際數據模擬獲得，但是這種數據很難直接得到。在我們的實驗中，我們采用最小持續時長約束進行近似模擬，主要由廣告片段最小時長 TCM和正常節目最小時長 TGP來確定。如果tde-tHbi(d)＜TCM，其中tde表示在鏡頭單元點d處的結束時間，tHbi(d)表示在鏡頭單元點Hi(d)處的開始時間，那么從廣告狀態轉移到廣告狀態的概率設為0.65，從廣告狀態轉移到正常節目狀態的概率設為0.35，反之我們就將從廣告狀態到廣告狀態和從廣告狀態到正常節目狀態的轉移概率分別設為0.55、0.45。

2.2最大分割數目約束

在一段給定的視頻片段中，廣告片段和正常節目片段的總數總會存在一個最大值，因此在這種情況下，最優的分類路徑可以通過最大化累積概率值來獲取，通過一個對分割總數目的約束條件下的動態規劃算法實現。在這個算法中，對于任意兩個鏡頭單元，起始點 db和結束點de構成的單元點區間，它作為一個狀態序列最大的累積概率值設為，用來記錄在這個狀態下最優的狀態索引：

其中Pi(d)是當前鏡頭單元點d的觀察值。對于在區間(db,de)擁有n個分割片段的最優路徑也就是當結束點在db-1時擁有n-1個分割片段的情況。因此，在給定所有的任意兩個鏡頭單元點的最優質獲取的情況下，并且允許最大分割片段數據（Nmax）的情況下，整體的結束點為 de時分割數目為n時的累計概率，因此搜索算法如下：

初始化：

遞推：

終止條件：

路徑回溯：

其中D是所有候選點的總數目，N*是最優的分割數目，L*是累積概率最大值，B(de)(n)記錄了當結束點為 de，分割數目為n的情況下的最優起始點 db通過回溯B(de)(n)和可以獲得最優的類別轉移點。

3.實驗和分析

我們的實驗數據由47小時的視頻數據組成，來自國內5個電視臺，其中包括12.8小時的廣告視頻數據和34.2小時的正常節目（包含新聞、體育、電視劇和娛樂節目4種節目類型）視頻數據。所有的視頻數據都被分割成5分鐘一段，數據中的邊界都通過人工手工標注。數據一半用來訓練，另外一半用來測試。實驗設置廣告的持續時長最小設為20秒，節目片段的最小時長設為60秒，五分鐘視頻中廣告片段和節目片段的最大數目設為3。準確率、召回率和F1值被用來評估實驗結果。

使用兩段各五分鐘的視頻數據作為樣例進行實驗，把使用音視頻特征的基于SVM分類器通過最大似然（max likelihood，ML）方法的結果作為基準，評估兩種約束方法MDC和MSC，測試結果如圖1所示。可以發現，MDC和MSC這兩種方法都可以提升分類的結果，其中MDC可以糾正許多短時的錯誤判斷，MSC則可以消除許多的噪聲片斷。在其他的廣告片段和正常節目片段的組合形式的視頻中也得到了類似的結果。

圖1　檢測結果圖示

由于正常電視節目種類有多種多樣，為此我們構建實驗來驗證在不同類型的視頻數據中該方法的有效性。從表1的結果中可以看出，該方法在所有類型的視頻數據中都能取得理想的結果，比較來說，在運動和娛樂類視頻數據中的結果不太完美，這大概是由于運動和娛樂類的節目視頻與廣告視頻相比有很多相似的音視頻特征，因為這些類型的視頻都有一些劇烈的相機移動和一些標語的使用。從表中可進一步看出使用MDC和MSC約束的動態規劃算法可以修訂這種短的誤判結果。

表1　不同類型的正常節目視頻上的F1值

更進一步地，該方法與廣告檢測的共享軟件Comskip[10]進行對比，結果如表2所示。實驗結果驗證了我們提出的方法使用全局時序特征的有效性。另外，MSC優于MDC的表現是因為MDC不能消除一些長的誤分類結果。

表2　與COMSKIP的性能對比

4.總結

本文提出了一個兩階段廣告視頻片段檢測方法，該方法首先將電視視頻節目分割成以鏡頭為單元的視頻鏡頭序列，在以鏡頭起始點為中心的多維特征窗中提取具有上下文信息的音視頻特征，結合支持向量機進行融合，預測當前鏡頭分別作為廣告和節目的概率值；然后將這些概率值作為觀察值構建一條以鏡頭為單元、以廣告和節目為兩個狀態的馬爾科夫鏈，這個馬爾科夫鏈可以合并鏡頭為一個片段；最后分別根據最小持續時長和最大分割數目約束作為搜索的約束條件，利用動態規劃算法進行最優路徑的選擇。在真實數據集上進行的實驗表明我們的方法對多種類型的視頻都是準確而有效的。在后續的工作中，我們將會嘗試把MDC和MSC融合到一個統一的搜索過程中。

[1] R. Lienhart， C. Kuhmunch and W. Effelsberg， On the Detection and Recognition of Television Commercials，Proc of IEEE Conf. on Multimedia Computing and Systems，1997.

[2] A.Albiol， M.J.Ch， F.A.Albiol and L.Torres， Detection of TV commercials， Proc. of ICASSP， 2004.

[3] X.S. Hua， L. Lu and H.J. Zhang， Robust Learning-based TV Commercial Detection， Proc. of ICME， 2005.

[4] M. Mizutani， S. Ebadollahi and S.F. Chang， Commercial Detection in Heterogeneous Video Streams Using Fused Multi-Modal and Temporal Features， Pro. ICASSP， 2005.

[5] L.Y. Duan， J.Q. Wang， Y. Zheng， J.S. Jin， H.Q. Lu， and C.S. Xu， Segmentation， categorization， and identification of commercials from tv streams using multimodal analysis， Proc. ACM MM06， pages 202-210， 2006.

[6] J.M.Gauch and A.Shivadas， Finding and identifying unknown commercials using repeated video sequence detection， Computer Vision and Image Understanding，103（1）：80C88， July 2006.

[7] J.Q. Wang， L.Y. Duan， Q.S. Liu， H.Q. Lu and J.S. Jin， Robust Commercial Retrieval in Video Streams， Proc. ICME， 2007.

[8] H.Duxans， D.Conejero and X.Anguera， Audiobased automatic management of TV commercials， Proc. ICASSP， 2009.

[9] N. Liu， Y. Zhao， Z.F. Zhu， and H.Q. Lu， Exploiting Visual-Audio-Textual Characteristics for Automatic TV Commercial Block Detection and Segmentation， IEEE Transactions on Multimedia， 13（5）：961C973，October 2011.

[10] Comskip Online： http：//www.kaashoek.com/comskip.

（作者單位：北京版銀科技有限責任公司）

TN941.2

1671-0134（2016）10-025-04

10.19483/j.cnki.11-4653/n.2016.10.006

本文由國家科技支撐計劃支持，課題名稱“數字版權資源管理系統研發與應用”，課題編號2014BAH19F01