汪玉山,史 萍
(中國傳媒大學(xué) 通信與信息系統(tǒng),北京 100024)
隨著互聯(lián)網(wǎng)的高速發(fā)展和電視網(wǎng)絡(luò)技術(shù)的普及,電視廣告在商業(yè)信息的傳遞中占據(jù)著很重要的位置,電視廣告檢測和匹配也一直是視頻檢測領(lǐng)域的一個重點和難點。對于廣告投放商而言,電視廣告檢測可以確定其廣告在電視臺的播放情況,確保其利益;對于視頻網(wǎng)站而言,廣告的檢測可以幫助他們更有效地編輯和發(fā)放視頻;對于廣告制作商,電視廣告檢測可以用來收集和研究有創(chuàng)意的廣告,以制作出新的廣告;對于普通觀眾來說,檢測電視廣告有助于他們找到需要的廣告信息或跳過廣告直接查看自己感興趣的電視節(jié)目等。
目前人們主要利用音視頻特征來實現(xiàn)廣告檢測和廣告匹配。文獻[1]利用了音頻特征來進行電視廣告的檢測和視頻的分類,取得了較好的效果。文獻[2]中融合視頻的視覺特征和音頻特征,利用基于向量機的方法進行廣告檢測,取得了很好的效果。文獻[3-5]綜合采用音頻短時能量、鏡頭檢測和字幕檢測,也較好地實現(xiàn)了廣告段落的檢測。上述研究大多集中在電視廣告段落的檢測和識別方面,而一個電視廣告段落通常包含多個廣告單元,對于廣告的檢測和廣告的匹配來說,廣告單元的分割有著很重要的意義。本文通過研究電視廣告的特點,提出了一種基于音視頻特征的方法,將視頻鏡頭檢測和靜音檢測結(jié)合起來,較好地實現(xiàn)了廣告段落中的廣告單元分割。
電視廣告通常是以廣告段落的形式播出,一般都插播在不同的電視節(jié)目之間。與電視臺播放的其他節(jié)目比較,電視廣告的色彩更加豐富,鏡頭變化頻率會很明顯的偏高,在鏡頭的表現(xiàn)手法上較多地使用了漸變,音頻的能量相對較高,波動性較大。
一個廣告段落通常由若干個不同的廣告單元組合而成,廣告單元之間的切換在音視頻上都會有所變化。在視覺的表現(xiàn)上,畫面出現(xiàn)切變(如圖1所示),在有些廣告的結(jié)尾處會出現(xiàn)靜止幀,有些廣告結(jié)尾處會出現(xiàn)此廣告的商標和名稱。音頻上的表現(xiàn)如圖2所示,在一個廣告單元內(nèi)部,音頻的能量會保持相對穩(wěn)定的一個狀態(tài),而在廣告單元與單元之間切換時,音頻能量驟減,會出現(xiàn)短暫的靜音段。
由上述分析可知,在廣告單元的邊界處,視頻的變化表現(xiàn)為畫面的切變,音頻的變化表現(xiàn)為音頻短時能量相對其他位置會很低,通常會伴隨著小段的靜音出現(xiàn);而在各個廣告單元內(nèi)部,這兩個特征是不會同時出現(xiàn)的。因此,通過對視頻切變鏡頭的檢測和靜音的檢測即可確定廣告單元的邊界。

根據(jù)廣告段落的音視頻特征,本文采用了如圖3所示的方法來實現(xiàn)廣告單元的自動分割。首先,將電視廣告分成視頻流和音頻流,通過視頻分析檢測切變鏡頭,通過音頻分析檢測靜音位置。鏡頭是視頻的基本單位,廣告單元的分割是建立在鏡頭檢測的基礎(chǔ)之上。廣告單元與單元之間的切換,以畫面的切換為主要標志,所以能否檢測出廣告單元的切變鏡頭對于廣告單元的分割準確度有著重要的影響。音頻方面,廣告單元的切換以小段靜音為標志,如果能精確地檢測出靜音位置,對于廣告單元邊界的確定十分重要。最后在匹配處理上,選取在靜音處的鏡頭切變幀作為廣告單元的結(jié)束幀,從而實現(xiàn)對廣告段落中的廣告單元的分割。下面,將介紹本文所采用的鏡頭檢測方法和靜音檢測方法以及在得到鏡頭切變位置和靜音位置后的匹配處理方法。

視頻鏡頭的轉(zhuǎn)換方式一般分為兩種:切變和漸變。在實際的電視廣告段落中,廣告單元與單元之間的轉(zhuǎn)換方式通常都是切變,而漸變都是出現(xiàn)在廣告單元內(nèi)部,因本文旨在分割廣告單元,所以只研究切變鏡頭檢測。
目前,切變鏡頭的檢測算法主要有基于像素差的方法、基于統(tǒng)計量的方法、基于直方圖的方法、區(qū)域塊的方法等[6]。在基于直方圖的方法中,切變鏡頭檢測在正確率在90%以上,且對于小的運動和噪聲不是很敏感,所以本文采用了基于直方圖的鏡頭檢測方法并對其進行了改進。
改進的基于直方圖的鏡頭檢測算法采用直方圖差作為基本特征和判決條件,采用自適應(yīng)閾值作為鏡頭突變的判別準則,設(shè)置了滑動窗口,這樣可以有助于自適應(yīng)閾值的提取,同時也可提高鏡頭檢測的效率和準確度,消除了固定閾值的局限性。
1)直方圖特征提取
由于灰度直方圖平均差可以放大相鄰幀間的差別,所以本文將采用直方圖平均差法來檢測視頻鏡頭,直方圖平均差的計算公式為

式中:Hi(j)代表的是第i幀中第j列的灰度值;Di是第i幀與第i-1幀的直方圖平均差之差。則當Di大于設(shè)置的閾值后,就判定為切變。
2)自適應(yīng)閾值的選取及算法過程
在不同的視頻片段中或同一視頻片段的不同鏡頭轉(zhuǎn)換處,幀差會有很大不同。若采用固定閾值來判別,誤檢和漏檢的可能性會很大,造成鏡頭檢測的局限性,更好的方法是根據(jù)不同的鏡頭變化情況自適應(yīng)地選取閾值。通過實驗發(fā)現(xiàn),同一鏡頭內(nèi)的幀差相差不大,基本圍繞在此鏡頭幀差的平均值上下,而鏡頭邊界處的幀差要明顯大于此鏡頭的幀差平均值,所以選取幀差平均值來自適應(yīng)得到鏡頭閾值。為了能更好地選取自適應(yīng)閾值,本文使用一個滑動窗口,計算窗口內(nèi)的幀差并取其平均值作為閾值,在窗口內(nèi)判定是否發(fā)生切變,然后將窗口向后滑動,直到檢測完所有的視頻幀。
本文采用了改進的基于直方圖的鏡頭檢測方法來進行廣告段落中的鏡頭檢測。考慮到在廣告視頻中一個鏡頭的長短關(guān)系,本文中定義滑動窗口大小為11,將幀差平均值乘一個系數(shù)作為閾值,在對于廣告視頻的反復(fù)實驗后,本文的閾值系數(shù)取值在8~9之間比較合適。實驗結(jié)果證明,這種方法對于切變鏡頭檢測具有不錯的效果。
在視頻廣告里面,音頻數(shù)據(jù)的變化相對視覺的變化更加劇烈,對于廣告視頻的檢測更具有代表性。目前,在音頻處理上人們更多的是考慮音頻的短時特征。常用的音頻特征大致分為三類:時域特征、頻域特征和聲學(xué)感知特征[7]。其中時域特征,如短時能量、短時過零率、短時自相關(guān)系數(shù)和短時平均幅度差等,僅僅利用音頻信號的時域上的信息,提取方法簡單而且高效,短時能量和短時過零率可以直接用于靜音檢測。
在電視廣告段落中,廣告單元與單元之間切換時會伴隨小段靜音的出現(xiàn)和音頻的切變。經(jīng)過試驗樣本觀察,廣告單元之間的靜音持續(xù)時間最短在20 ms左右。所以將音頻短時幀長設(shè)定為20 ms,并提取音頻幀的短時能量和短時過零率作為靜音檢測的參考特征。其中,短時能量(STE)和過零率(Zn)的計算公式分別為

由圖1可以看出,廣告單元結(jié)束位置音頻短時能量和短時過零率相較于其他位置較低,所以,檢測出短時能量低的位置和短時過零率低的位置作為靜音出現(xiàn)的位置。實驗結(jié)果表明,短時能量和短時過零率可以較好地檢測出音頻段中的靜音位置。
在得到鏡頭切變位置和靜音位置后,需要進行匹配處理。選取同時滿足切變幀和靜音幀的圖像幀作為廣告單元的切換幀,并由此得到每一個廣告單元的起始幀位置,達到廣告單元的分割效果。在實際檢測過程中,由于選取的最小靜音幀長為20 ms,當廣告單元間的靜音段過長,例如持續(xù)了60 ms,則會檢測出3個靜音幀,此時只能選取其中1幀作為靜音幀,否則會造成重復(fù)錯誤;還有可能存在切變幀與靜音幀沒有完全對應(yīng)的情況,此時在匹配的算法實現(xiàn)上,得到與靜音幀最近的切變幀即作為廣告單元的切換幀。
本文對上述方法進行了實驗仿真,實驗樣本來自中央電視臺和北京電視臺播出的電視廣告段落。通過鏡頭檢測、靜音檢測和匹配處理后,得到每個廣告單元的起始幀,實現(xiàn)了廣告單元的分割。實驗結(jié)果如表1廣告單元分割結(jié)果所示。

表1 廣告單元分割結(jié)果
實驗結(jié)果表明,這種音視頻結(jié)合的檢測算法對于廣告段落中的廣告單元分割來說具有較好的效果。其中漏檢主要是因為廣告單元與單元之間銜接的音頻過快,未能檢測出靜音段,所以沒有達到預(yù)期效果,而誤檢是因為一個廣告播放完后,播放其商標的信息時,前后都出現(xiàn)了靜音段,所以將其商標信息誤認為是一個獨立的廣告單元。這兩種情況在日常的廣告播放中不是經(jīng)常出現(xiàn),但是也不可避免地遇到,所以需要對此方法進一步改進和完善。
隨著流媒體數(shù)據(jù)的日益盛行,視頻廣告的研究將會引起人們更多的關(guān)注,隨著科學(xué)技術(shù)的發(fā)展,視頻廣告檢測算法也肯定會日益完善。本文對視頻和音頻的雙重分析后,通過鏡頭檢測和靜音檢測,較好地實現(xiàn)了視頻廣告段落中廣告單元的分割。實驗結(jié)果表明,該方法是有效的,但是,也有其局限性,對于廣告單元與單元銜接不具有明顯靜音的位置未能檢測出來,而對于廣告單元內(nèi)部出現(xiàn)靜音段時則會造成誤檢,所以,廣告單元的分割算法還有待改進。在今后的研究中,需要采用更多的音視頻特征來區(qū)別不同的廣告單元,以求更好地實現(xiàn)廣告單元的自動分割。
[1]DUXANS H,CONEJERO D,ANGUERA X.Audio-base automatic management of TV commercials[C]//Proc.ICASSP 2009.[S.l.]:IEEE Press,2009:1305-1308.
[2]楊厚德.視頻廣告的自動識別與檢測[D].北京:北京交通大學(xué),2011.
[3]葛菲.基于內(nèi)容的電視廣告檢測技術(shù)研究[D].北京:中國傳媒大學(xué),2010.
[4]葛菲,史萍.基于內(nèi)容的電視廣告段落檢測系統(tǒng)[J].電視技術(shù),2010,34(9):106-109.
[5]葛菲,史萍,姚彬,等.廣告段落分割系統(tǒng)中的字幕檢測[J].電視技術(shù),2010,34(2):25-28.
[6]張亮.魯棒的廣告視頻檢測算法的研究[D].北京:北京交通大學(xué),2007.
[7]馮哲.基于內(nèi)容的視頻檢索中的音頻處理[D].上海:復(fù)旦大學(xué),2004.