摘要:傳統的基于內容的視頻檢索是利用圖像的顏色、紋理以及形狀等底層特征來對視頻進行檢索,然而這些底層特征并沒有深層次地挖掘出視頻的語義內容。在用支持矢量機對圖像進行分類的基礎上,提出了一種基于貝葉斯網絡的對視頻靜態語義如室內/室外進行探測的新方法,實驗結果驗證該方法的有效性。
關鍵詞:視頻檢索;貝葉斯網絡;支持矢量機;語義探測;語義檢索
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)19-300117-02
A New Bayesian Network Based Approach for Video Static Semantic Detection
LI Yang
(Fuyang Normal School Computer and Information Institute, Fuyang 236032, China)
Abstract: Traditional content-based video retrieval is using the low-level features such as color, texture and shape for video retrieval, but these low-level features doesn't mine the video semantic deeply. Based on the classification of images by support vector machine, a new Bayesian Network based approach for detection of video static semantic such as indoor/outdoor is presented in this paper and the results of experiment verify the validity of the method.
Key words: Video Retrieval; Bayesian Network; Support Vector Machine; Semantic Detection; Semantic Retrieval
1 引言
傳統的視頻結構分析是通過一定的突變或漸變檢測方法把視頻中的連續幀分為鏡頭,再在鏡頭的基礎上將鏡頭聚類為多個場景,這是一種最通用的視頻結構。這種視頻結構給出了拍攝者使用攝像機時鏡頭的客觀運動情況和場景變化情況,使人一目了然。但是這種視頻結構并沒有揭示出視頻內部更深層次的語義信息(如對象語義、空間關系語義、行為語義甚至情感語義等),在目前的應用中還遠遠不能滿足用戶人性化的查詢需求,比如說用戶想要查詢視頻中所有在室外或在室內發生的事件的鏡頭,或想查詢所有在某個故事片中所有出現男女主角的鏡頭,在這種情況下傳統的視頻結構就顯得無能為力,那么就需要對視頻中各種各樣的語義進行探測以支持并滿足各種用戶的查詢需求。
2 相關工作
目前大部分的語義提取工作都是基于圖像的,大多采用了機器學習的方法來設計一些分類器如貝葉斯分類器、LVQ(Learning Vector Quantization)分類器、KNN(K-Nearest Neighbor)分類器以及SVM等分類器來對圖像進行分類,來獲取圖像的語義。文章[2-5]就是采用了分類的方法來獲得圖像的語義,其中先把圖像分成很小(如16×16)的子塊,對子塊進行特征抽取,并指定每一個子塊的語義,再輸入到分類器中訓練得到模型,利用這些模型來對未知的圖像語義進行判別。上述方法的工作量太大(因為訓練圖像的每一個子塊的語義都要事先指定),而且每個小的子塊的語義并不是那么明顯。
而目前對視頻的語義檢索的研究剛剛起步,語義也是為了滿足用戶的查詢需求服務的。在本文中設計了貝葉斯網絡,它基于SVM語義探測器的判別結果來對該視頻幀是否為室內或室外來進行推理。
3 基于貝葉斯網絡的視頻靜態語義的探測
3.1 層次化語義模型
考慮到圖像語義的模糊性、復雜性、抽象性,圖像語義模型都是分層次的。主要的語義層次如圖1所示。一般來說又可以把這些籠統地分為靜態語義和動態語義兩種。在圖1所示的層次化語義模型中,對象語義、空間關系語義、場景語義都可以認為是靜態的,而行為語義、情感語義則可以認為是一種動態的語義。
3.2 貝葉斯網絡[6]的構造
貝葉斯網絡也被稱為信念網絡或者因果網絡,是描述數據變量之間以來關系的一種圖形模式,是一種用來進行推理的模型。貝葉斯網絡為人們提供了一種方便的框架來表示因果關系,這使得不確定性推理在邏輯上變得更為清晰、可理解性強。對于貝葉斯網絡,我們可以用兩種方法來看待它:首先貝葉斯網絡表達了各個節點間的條件獨立關系,可以直觀的從貝葉斯網絡中得出屬性間的條件獨立以及依賴關系;另外可以認為貝葉斯網用另一種形式表示出了事件的聯合概率分布,根據貝葉斯網絡的網絡結構以及條件概率表(CPT)就可以快速得到每個基本事件(所有屬性值的一個組合)的概率。圖2為我們構造的用來對視頻圖像中靜態語義(室內/室外)進行推理探測的貝葉斯網絡結構圖。
■
圖2 構造的貝葉斯網絡結構圖
由圖2可以看出,它是一個有向無環圖,其中每個節點代表一個屬性或者數據變量,每個箭頭(弧)表達了節點間的依賴關系,如果兩個節點間有弧連接說明兩者之間有因果關系,反之如果兩者之間沒有直接的弧連接或者是間接的有向連通路徑,則說明兩者之間沒有依賴關系,即是相互獨立的。
3.3 條件概率的獲取
首先用支持矢量機(SVM)[1]對大量的圖像進行訓練,圖像特征選取了72個bin的顏色特征、紋理特征和邊緣特征。訓練完成后用得到的模型對湖水、草地、樹木、天空以及建筑物(即圖2中的葉子結點的變量)進行語義分類。我們在選取特征的時候還考慮到了圖像局部的特征,即將圖像分成6×6子塊,對每個子塊進行特征抽取。圖3即為用訓練得到的模型對圖像進行分類的準確率,經過實驗發現加入了局部特征信息比不加局部信息的判別效果平均要8%左右。
■
圖3 SVM語義探測的準確率
經過SVM的訓練后得到的各種語義(如湖水、草地、樹木、天空以及建筑物)的判別模型就可以作為用來對視頻幀進行語義判斷的基礎和進行高層語義推理的依據。
在經過SVM語義分類后,就可以對測試的大量圖像庫中統計出貝葉斯網絡中的各個變量的條件概率(如表1所示)。
在本系統中采用了PPTC(Probability Propagation in Trees of Clusters)[6]來進行概率推理,如果在網絡中5個可觀測的變量(即葉子結點如天空,建筑物,草地,湖水以及樹木等)給定的情況下,視頻圖像被確定為室外為真的概率如果大于為假的情況,那么此幅視頻圖像就可以認為是室外,否則則可判斷為室內。經過貝葉斯網絡的推理,視頻中每幅圖像都具有了室內或室外的靜態語義,這樣就可以建立高層語義級別的索引以方便用戶的檢索。
4 實驗結果
我們對文中提出的方法進行了實驗,收集了一些視頻,分別用湖水、草地、樹木、天空以及建筑物語義探測器來對視頻中的每一幀(或隔幾幀)來判斷視頻幀中是否存在湖水、草地等對象級語義。然后在根據貝葉斯網絡中的條件概率表來對此幀的場景是否是室內或室外進行推理。視頻選取的是電影《阿甘正傳》中的片斷,實驗結果如圖4所示,這樣整個視頻就被分成了室內-室外-室內……室外的小片斷(segment),并且每個小片斷都具有一定的靜態語義,這樣就更加方便用戶的檢索。
5 結束語
在目前的視頻語義結構還遠遠無法滿足用戶查詢的需要的情況下,本文設計了一個貝葉斯網絡來對視頻中室內/室外這樣的靜態語義進行探測。實驗結果證明了該方法的有效性。本文中得到的語義只是簡單的靜態場景語義信息,今后的工作還可以放在更多的其它語義信息提取上以滿足用戶更多的查詢要求。
參考文獻:
[1] Burges C J C. A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery, 1998,2(2):1-47.
[2] A.Vailaya,A.K.Jain,H.J.Zhang.On Image Classification:City mages vc.Landscapes[J].Pattern Recognition,1998(31):1921-1936.
[3] Martin Szummer,Rosalind W.Picard.Indoor-Outdoor Image classification[J].IEEE Intl Workshop on Content-based Access of Image and Video Databases,1998.
[4] A.Vailay,A.Jain.Detecting Sky and Vegetation in Outdoor Images[J].Proc.SPIE:Storage and Retrieval for Image and Video Databases VIII,vol.3972,San Jose,CA,2000.
[5] Todd A.Stephenson.An Introduction to Bayesian Network Theory and Usage[J].IDIAP Research Report,2000.
[6] Cecil Huang,Adnan Darwiche.Inference in belief networks:a procedural guide[J].International Journal of Approximate Reasoning,1994(11):1-45.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文