收稿日期:2007-11-03;修回日期:2008-03-10
基金項目:國家“863”計劃資助項目(2006AA01Z319);國家自然科學基金資助項目(60473117)
作者簡介:王辰(1973-),男,天津人,副教授,博士,主要研究方向為多媒體數據庫、數字視頻分析及基于內容檢索(wangchen@x263.net);吳玲達(1963-),女,教授,博導,博士,主要研究方向為多媒體信息系統、虛擬現實技術;老松楊(1968-),男,教授,博導,博士,主要研究方向為多媒體信息系統、多模式人機交互*
(國防科學技術大學 信息系統與管理學院, 長沙 410073)
摘 要:視頻的結構分析是實現視頻基于內容組織和檢索的基礎。目前,已經有很多用于視頻鏡頭分割的成熟算法,但準確探測視頻場景邊界還比較困難。提出了一種融合視頻中音頻與可視特征進行場景檢測的方法。該方法首先分別依據鏡頭的聲、像特征相關性來對鏡頭進行聚類,然后綜合處理依聲、像相關性得到的鏡頭聚類來獲取場景。實驗結果證明,此方法較一般使用單一特征的場景檢測方法提高了探測的準確率,同時也降低了誤判率。
關鍵詞:場景檢測;聲音分段;鏡頭聚類;基于內容檢索
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2008)10-3036-03
Scene detection based on combined audio and visual feature
WANG Chen, WU Ling-da, LAO Song-yang
(College of Information Management, National University of Defense Technology, Changsha 410073, China)
Abstract:Video structure extraction is essential to content-based organization and retrieval of video. While many robust shot segmentation algorithms have been presented, it is still difficult to identify scene accurately. This paper presented a scheme for determining scene which clustered shots combining audio and visual features of video. In particular, this method first clustered shots with respect to each feature, and then determined scene integrating the different cluster. Results from experiments showed that this approach to be potent.
Key words:scene detection; audio segment; shot cluster; content-based retrieval
0 引言
視頻的結構分析是指對視頻作時域上的分割。從一般的認識來說,視頻中包含這樣的結構單元:故事、場景、鏡頭和幀。對于場景,目前并沒有公認的明確定義,一般認為場景是由依據場地或事件上相關的一系列鏡頭組成的[1]。 筆者認為場景的檢測不應該涉及具體的語義內容,而是為進一步實現具體語義內容的探測提供一個有利的分析粒度。
一些場景檢測算法利用鏡頭聚類的分析方法,這樣的聚類結構只是得到視覺上相似的鏡頭集合,而且并沒有考慮鏡頭時間上的關系。而人們需要的場景卻應該是語義上相關、時間上連續的鏡頭集合。一些研究利用了聲音線索來探測場景[2],也有一些針對特定結構視頻的結構分析方法,如新聞單元的分割[3,4]、體育節目的結構分析[5]、廣告探測[6]等。
與被動視頻相比,影視節目主要由人工制作與編輯來完成,人類的工作使得影視節目表現力更強、內容更豐富,特別是聲音與畫面的配合使視頻的場景特征更加明顯。因此,結合聲像特征的分析方法可以滿足場景檢測更高的要求。本文介紹的影視場景檢測方法,其特點就是融合了影視節目的聲、像特征進行分析。
1 場景的語義模型
對于同樣的文章,不同的人可能會有不同的段落劃分,在影視節目中探測場景會有同樣的問題。但對于一些片段,所有的人都會將它看做是一個場景。例如:在一個場地上拍攝的一組連續鏡頭、一段對話等。也就是說對于場景的認識,還是有一些共同認可的規律。
筆者認為場景一般具有如下的共同特征:
a)場景中的內容一般發生在同一地點,也就是說場景是由一系列在同一場地拍攝的鏡頭組成。因此,這些鏡頭在畫面內容上有相似的地方。
b)場景中的聲場是穩定的,也就是說一個場景中的聲音特性應該保持一致。例如:在一個場景中通常采用同一段背景音樂、對話場景中只有語音的交替等。
c)有時,并不是場景中的所有鏡頭都表現出與場景一致的特征。例如:一幢安靜的大樓突然發生爆炸,這時爆炸鏡頭中的畫面和聲音特征都與整個場景不同。
d)視頻編輯過程常用淡入/淡出的鏡頭銜接方式來作為場景的過渡。
場景的這些特點是本文設計場景檢測方法的依據。從上面的這些特點可以看出,無論從影視制作還是人類感知的角度來說,人類劃分影視節目中的場景都是通過視聽結合的方式,因此,融合影視節目的聲、像特征進行場景檢測是最有效的方法。
2 場景檢測中的聲、像特征融合
場景是鏡頭的聚類,確定鏡頭之間的相關程度是進行場景檢測的關鍵。從本文對場景特征的分析來看,鏡頭之間的相關性取決于它們的聲、像特征之間的相似程度。那么,場景檢測過程應該如何融合鏡頭的聲、像特征進行判斷呢?本文的做法是首先分別依據聲、像特征計算得到的鏡頭相關性來對鏡頭進行聚類,然后綜合處理依聲、像特征得到的鏡頭聚類來檢測場景。本文之所以不首先綜合聲、像特征來計算鏡頭之間的相關性是基于如下考慮:
a)很難確定一個公平的、綜合的相關評價方法。不同特征反映鏡頭之間相關的程度不同,但是現階段還很難確定哪些特征更重要。
b)一個綜合的相關評價會破壞每個特征的語義信息。可以很容易地評價依據單一特征得到的聚類準確性,而對于綜合的聚類結果卻很難評價。
c)不同特征反映的語義有時可能是矛盾的。例如:連續的背景音樂有時會用于場景的過渡。
d)首先依據不同特征單獨計算鏡頭的相關性再綜合處理,可使本文的方法具有可擴展性,可以隨時加入新的特征。
這樣,可以利用同樣的聚類方法,分別依據按不同特征計算出的鏡頭距離來合并鏡頭;最后再對依據不同特征獲得的鏡頭聚類進行綜合處理得到場景。
3融合聲、像特征的場景檢測方法
31 鏡頭探測
本文采用的是文獻[2]中的鏡頭探測算法。這種方法可以探測硬切、淡入/淡出、融化方式的鏡頭切分點和各種編輯效果的寬度。由于鏡頭的編輯效果會使鏡頭相似度的度量產生偏差,筆者在計算鏡頭間相似度時,將屬于漸變部分的視頻幀從鏡頭中去除。
32 鏡頭聲音特征處理
由于場景的變化一般伴隨著音軌的明顯變化,本文探測視頻伴音中的聲音序列。這里,每個聲音序列中的音頻信號具有相似的特征,也就是人們所說的音頻鏡頭。
3. 2. 1 聲音序列處理
聲音序列的邊界是不同特征聲音的交界點。本文采用基于貝葉斯信息準則的音頻分段方法[7]來分割聲音序列。需要注意的是,影視節目中背景聲一般用于烘托場景氣氛,不包含有關場景內容的重要信息。但是,背景聲與前景聲一樣具有各種動態的效果。如果將背景聲與前景聲作同樣的處理,會產生很多沒有意義的聲音序列。所以,首先分離出影視節目中的背景聲,只對前景聲作進一步的處理。由于影視節目中的背景聲一般會比前景聲在音量上有明顯的降低,本文采用一種基于感知的響度度量方法[8],通過設定聲音的響度閾值來區分背景聲。
3. 2. 2 鏡頭聲音相關度度量
聲音序列的邊界確定了音頻鏡頭,本文用聲音序列的最后一個預測特征向量作為音頻鏡頭的特征。對背景聲音段也同樣計算這一特征。在用于計算鏡頭相似程度之前,首先對特征向量進行歸一化處理。這樣,對影視節目聲音的處理就產生了一系列的音頻鏡頭,用向量ASk=(FSk ,tk ,〈xk〉)表示。其中:FSk表示音頻鏡頭覆蓋的視頻幀序列;tk∈{前景聲,背景聲}; 〈xk〉是值在[0,1]的實數音頻特征向量。
依據聲音特性定義的兩個視頻鏡頭的距離稱為鏡頭的聲音距離dau(si ,sj),它是兩個視頻鏡頭所覆蓋的所有音頻鏡頭之間距離的最小值,兩個音頻鏡頭的距離是它們音頻特征向量的歐氏距離。另一種表達方式是兩個鏡頭的相似度為1- dau(si ,sj)。可以看出,當一個音頻鏡頭跨越兩個視頻鏡頭時,這兩個鏡頭的聲音距離為0。
33場景環境的檢測
依據場景的語義,同一場景中的鏡頭在視覺特征上具有相似性。本文依據鏡頭的顏色特征來計算鏡頭之間的相關程度,以此作為檢測環境的依據。
顏色內容的比較常采用的是顏色直方圖的方法,本文采用的是CCV(color coherence vector)直方圖。這種直方圖比傳統直方圖更好地利用了顏色的空間特性。它在統計某種顏色的像素數時,對連貫和不連貫的像素分別計數。若像素所屬的區域面積(如具有該顏色的與該像素相連通的8鄰域)超過一定的閾值,則認為該像素是連貫的;否則是不連貫的。因此,每個顏色j有兩個計數值:αj是具有顏色j的連貫像素的個數;βj是具有顏色j的不連貫像素的個數。圖像i的CCV直方圖用向量〈(αi1, βi1),…,(αin,βin)〉表示。兩個CCV直方圖的距離為dccv=∑nj=1[|α1j-α2j|/(α1j+a2j+1)+|β1j-β2j|/(β1j+β2j+1)]
定義依據視覺特性的兩個鏡頭的距離為鏡頭的視覺距離denv(si,sj)。denv(si,sj)=min{dccv(fi,fj)|fi∈si, fj∈sj}其中: fi是鏡頭si中的視頻幀。
34 鏡頭的聚類
有了依據聲音和視覺特征的鏡頭距離度量方法,就可以此來進行鏡頭的聚類。依據聲音距離聚類可以得到聲音特性一致的鏡頭序列,利用視覺距離進行聚類就可以得到環境特性一致的鏡頭序列。它們可以采用統一的聚類方法。
考慮到場景邊界的特殊情況,筆者在進行鏡頭聚類時,不但比較相鄰的兩個鏡頭之間的距離,還要比較有一定間隔的鏡頭之間的距離,來決定鏡頭的歸屬。本文選擇的間隔是3。簡單地說,鏡頭的聚類就是將鏡頭si和sj之間的所有鏡頭(si,si+1,…,sj)聚為一類,如果其中鏡頭si,sj的距離d(si,sj)小于閾值,而且任何的d(sh,sk),h∈[j-2,j],k∈[j+1,h+3]都大于閾值。
35 場景檢測
有了依據聲音特征的聚類和依據視覺特征的聚類,場景的確定就十分簡單了。通過綜合兩種聚類來達到更好的場景檢測效果。當兩類聚類發生重疊時,就將它們合并為一個大的聚類作為場景。依據場景的編輯特征,如果場景中有鏡頭采用淡入淡出的銜接方式,則這個場景被分為兩個場景。最后,將場景之間的“縫隙”作為一個新的場景。
綜上所述,融合聲、像特征的場景檢測方法過程如下:
a)對視頻進行鏡頭檢測;
b)對音頻進行音頻鏡頭的分割;
c)分別依據聲音距離和視覺距離對鏡頭進行聚類;
d)當兩類聚類發生重疊時,就將它們合并為一個大的聚類作為場景;
e)將其中有鏡頭采用淡入/淡出銜接方式的場景分為兩個場景;
f)將場景之間的“縫隙”,作為一個新的場景。
4 實驗結果與分析
本文分別選擇了一部電影(《Titanic》片段)、一部科教片(《人》片段)和一段新聞(中央臺1999年7月9日的《晚間新聞》)作為測試用的影視節目。視頻采用MPEG-1標準壓縮,節目伴音采用8 kHz采樣頻率、八位的單聲道音頻。這樣的聲音編碼對于影視分析已經足夠,因為一般的聲音頻率在4 kHz以下。首先人工劃分節目中的場景(場景數量分別是電影586個、科教片809個、新聞125個),以此作為標準來評價場景檢測的自動探測結果。
41 依據聲音距離的聚類結果
表1是依據聲音特征對測試影片進行鏡頭聚類的結果。
表1 依據聲音特征的聚類結果測試節目聚類數量正確數/準確率漏判數/漏判率誤判數/誤判率影片573474 / 81%112 / 19%99 / 17%科教片590530 / 66%279 / 34%60 / 7%新聞139108 / 87%17 / 13%31 / 25%
從實驗結果看到:依據聲音特征進行鏡頭聚類確定場景的方法,對于科教片的分析有較高的漏判率,對于新聞的分析誤判率較高。究其原因發現,本文選用的科教片中經常長時間地出現背景音樂,特別是當沒有解說詞出現時,背景音樂的音量往往會較大。這就造成了對背景聲的漏判,使得許多連續的場景由于具有相同的背景音樂而被合并在一起。而新聞節目中始終出現的是語音,但本文的聚類方法對語音序列的判斷卻較為困難,因為語音中經常出現小的間斷,而且音調的變化很快。除非采用成熟的語音檢測方法,否則就會造成大量的場景誤判。
42 依據可視特征的聚類結果
表2是依據可視特征進行鏡頭聚類的結果。
表2 依據可視特征的聚類結果測試節目聚類數量正確數/準確率漏判數/漏判率誤判數/誤判率影片679515 / 88%71 / 12%164/ 28%科教片494470 / 58%339 / 42%24 / 3%新聞133114 / 91%11 / 9%19 / 15%
從實驗結果來看,依據視覺特征進行鏡頭聚類確定場景的方法對于影片的分析有較高的誤判率。這是因為本文選用的影片中經常出現較多的運動鏡頭,造成鏡頭之間的視覺特征變化較大,從而引起對場景的誤判;而且注意到,影片和新聞利用視覺特征進行聚類得到的檢測結果都比實際的場景數要多。這是因為在這類影視節目中,同一場景中的不同鏡頭所拍攝的對象往往不同,造成鏡頭之間視覺特征的變化,從而引起較多的場景誤判。而科教片的探測結果卻比實際的場景數少很多,這主要是由于科教片中大部分鏡頭內容的背景和色調都十分相似,不同場景內的鏡頭會因此被聚類在一起。
43 融合聲、像特征的場景檢測
對依據聲音和視覺特征得到的聚類結果進行綜合處理,得到的場景檢測結果如表3所示。
表3 融合聲、像特征的場景檢測結果測試節目探測數量正確數/準確率漏判數/漏判率誤判數/誤判率影片592533 / 91%53 / 9%59 / 10%科教片816776 / 96%33 / 4%40 / 5%新聞122113 / 90%12 / 10%9 / 7%
從實驗結果可以看出,采用聲、像特征融合的處理方法在探測的準確率上有不同程度提高的同時誤判率也普遍有所下降。從探測的整體效果來看,達到了更加滿意的探測結果。這完全來自于聲、像特征在場景檢測中的相關互補性。例如,在科教片中背景音樂引起的誤判問題,由于科教片中場景的轉換經常采用特殊的編輯方式,如淡入、淡出等,采用聲、像特征融合的方法就可以準確地探測到場景的變換;新聞中由語音間隙引起的場景誤判,會因為視覺特征的輔助而消除。
5 結束語
本文介紹的方法融合了視頻中的音頻與可視特征進行場景檢測。從實驗結果來看,相比利用單一視頻特征進行場景檢測的方法,該方法在探測的準確率上得到提高,同時降低了誤判率。該方法的另一個特點就是具有較好的擴展性,可以根據需要加入相應的分析特征。目前本文采用的分析特征還比較簡單,特別是在可視特征上還可以研究更加符合視覺特性的視頻特征和分析方法。此外,對一些特殊事件(如對話、運動等)的探測可以有助于提高場景探測的準確程度。
參考文獻:
[1]BEAVER F. Dictionary of film terms[M]. New York:Twayne Publishing,1994.
[2]SARACENO C, LEONARDI R. Audio as a support to scene change detection and characterization of video sequences[C]//Proc of the 22nd IEEE International Conference on Acoustics. Munich:[s.n.],1997:2597-2600.
[3]SATOH S. News video analysis based on identical shot detection[C]//Proc of International Conference on Multimedia and Expo. Lausanne:[s.n.],2002.
[4]MERLINO A,MOREY D,MAYBURY M. Broadcast news navigation using story segmentation[C]//Proc of the 5th ACM International Multimedia Conference. Seattle:[s.n.], 1997:381-391.
[5]ZHONG Di, CHANG S F. Structure analysis of sports video using domain models[C]//Proc of IEEE Conference on Multimedia and Exhibition.Tokyo:[s.n.],2001.
[6]DAVID A, MARLOW S, OCONNOR N, et al. Automatic TV advertisement detection from MPEG bitstream[C]//Proc of the 3rd International Conference on Enterprise Information Systems. Setubal:[s.n.],2001:7-10.
[7]CETTOLO M, VESCOVI M. Efficient audio segmentation algorithms based on the BIC[C]//Proc of International Conference on Acoustics, Speech, and Signal Processing. Hong Kong:[s.n.], 2003.
[8]王辰,劉桂清,老松楊,等.面向事件的影片摘要方法[J].中國圖象圖形學報,2005,10(5):642-649.
[9]CHEUNG S C, ZAKHOR A. Video similarity detection with video signature clustering[C]//Proc of the 8th IEEE International Confe-rence on Image Processing.Salonika:[s.n.],2001:649-652.
[10]王辰,老松楊,胡曉峰.基于聲、像特征的視頻暴力場面的探測[J].小型微型計算機系統,2001,22(4):456-458.