陳成星
【摘 要】 本論文主要討論了鏡頭分割、關(guān)鍵幀提取的算法,是一篇基于內(nèi)容的視頻檢索技術(shù)研究,著重研究了視頻分層結(jié)構(gòu)的有關(guān)步驟及算法以及視頻內(nèi)容特征的提取。
【關(guān)鍵詞】 關(guān)鍵幀 信息檢索 近似匹配 特征提取
1 視頻檢索概念及特點
1.1視頻檢索的概念
基于內(nèi)容的視頻檢索(CBVR)是指根據(jù)媒體的內(nèi)容語義及上下文聯(lián)系進行檢索。CBVR需要利用圖像處理、模式識別、計算機視覺、圖像理解等學科中的一些方法作為基礎(chǔ)技術(shù)。CBVR不僅是基于內(nèi)容的,而且是一種信息檢索技術(shù)。
1.2視頻檢索的特點
1、從視頻數(shù)據(jù)中提取信息索引
基于內(nèi)容的檢索突破了傳統(tǒng)的基于關(guān)鍵詞檢索的局限,它直接對視頻內(nèi)容進行分析,抽取特征和語義,利用這些內(nèi)容特征建立索引,并進行檢索。
2、 基于內(nèi)容的視頻檢索是一種近似匹配
對內(nèi)容的描述不是一種準確的描述,因此,CBVR采用相似性匹配的方法逐步求精,以獲得查詢結(jié)果,即不斷減小查詢結(jié)果的范圍,直到定位于要求的目標。這一點與常規(guī)數(shù)據(jù)庫檢索中的精確匹配方法不同。
2 傳統(tǒng)的視頻檢索體系結(jié)構(gòu)
我們知道傳統(tǒng)的視頻檢索技術(shù)主要包括鏡頭檢測、關(guān)鍵幀提取或鏡頭集類、特征庫的建立以及匹配算法等,主要提取視頻特征。傳統(tǒng)的方法是先對視頻完全解碼,再分割鏡頭并提取關(guān)鍵幀,最后提取特征,這樣就會產(chǎn)生計算量比較大,影響視頻檢索效率,而對特征的描述也是使用比較直觀抽象的語言,交互性較差。
3 視頻內(nèi)容的分層結(jié)構(gòu)
視頻包含著豐富的內(nèi)容。一般對視頻采用分層的表達方式表示視頻。一個視頻可以表示為場景、鏡頭、幀幾個層次,視頻分層結(jié)構(gòu)如下圖。視頻可以先分為場景,場景可以分為鏡頭,幀是視頻最基本組成單元。將視頻分為場景的處理叫做場景檢測,將場景分為鏡頭的操作叫鏡頭分割,鏡頭分割是視頻層次化的基礎(chǔ)。
4 提取鏡頭的有關(guān)步驟及算法
視頻數(shù)據(jù)可以按照由粗到細的順序劃分為四個層次結(jié)構(gòu):視頻(Video)、場景( Scene)、鏡頭(Shot)和圖像幀(Frame)。整個視頻結(jié)構(gòu)構(gòu)造過程分以下三個步驟:從視頻流中提取鏡頭、從鏡頭中選擇關(guān)鍵幀和從視頻流中構(gòu)造場景或組。
4.1從視頻流中提取鏡頭
鏡頭是視頻數(shù)據(jù)的基本單元,視頻處理首先就需要把視頻自動地分割為鏡頭,以作為基本的索引單元,這一過程就稱為鏡頭邊界的檢測。它是實現(xiàn)基于內(nèi)容的視頻檢索的第一步,其核心處理是鏡頭切變檢測。
1、基于顏色的特征方法
(1)模板匹配法
模板匹配法又稱對應像素法,模板匹配法是將兩幀對應像素差的絕對值之和作為幀間差,當幀間差大于某個閾值t時,則認為有鏡頭的切換。模板匹配法的缺點是,由于與像素的位置密切相關(guān),因此對噪聲和物體運動十分敏感,容易造成誤識別。也有人提出將各幀劃分為8×8像素的子塊,并對每個塊取平均,再用這個平均值對前后幀的對應子塊進行比較,這種方法對小的噪聲和運動不敏感。
(2)直方圖法
直方圖法是使用得最多的計算幀間差的方法,它丟失了顏色的位置信息,因而抗噪聲能力要比模板匹配強。顏色直方圖法的缺點是,兩幅圖像可能內(nèi)容完全不同但直方圖相似,也容易造成誤識別。一種改進的方法是將圖像劃分成若干子塊分別對各子塊進行匹配。
(3)基于邊緣的方法
由于在鏡頭切變時新舊邊緣應在不同的位置,所以可先提取兩幅圖像的邊緣,計算新邊緣在舊邊緣的基礎(chǔ)上增加和減少像素比例,當大于某一個閾值時便認為發(fā)生鏡頭切換。缺點是計算量大,當邊緣不明顯時效果差。
2、光流檢測法
另外還有一種光流檢測法,該方法的原理是鏡頭切換時無光流,而鏡頭運動應適合某種特定的光流類型。它能將漸變切換與鏡頭的運動區(qū)分開來,但計算復雜且在光照變化很大情況下檢測失敗。
3、基于模型的方法
Hampapur等人通過對視頻制作過程的研究,提出了一種可用于鏡頭邊界檢測的視頻編輯模型。它的缺點是,建模過程比較復雜,需要對每種切換類型建立模型。這種方法適用于專業(yè)領(lǐng)域。
4、幾種改進的算法
雙閾值比較法:當兩幀間差在閾值d1和d2之間時,便認為潛在漸變開始,將差值開始累加,直到累加和大于d2時認為有漸變,當幀間差小于d1時認為漸變結(jié)束。這種方法對漸變檢測有較好的效果,但對鏡頭的緩慢運動仍可能會造成誤識別。
滑動窗口檢測法:先以待檢的幀作為中心開一個窗,計算各幀與鄰幀的幀間差,若該幀的差值大于窗口內(nèi)的其它所有幀的差值,且大于第二大差值的某倍數(shù),則認為是發(fā)生切換。
用雙重窗口法可進一步改進以減小搜索量,先選取一個大的窗口,取平均值,將大于均值一定倍數(shù)的差值作為候選切變幀,再以候選切變幀為中心取小窗口,檢測具體位置。大窗口可避免誤檢并減小搜索量;小窗口可避免大運動造成的漏檢。
由于在很多情況下,人們僅對圖像中的某一區(qū)域感興趣。因此,先進行圖像分割,僅利用某一區(qū)域的信息進行檢索。近幾年來這一領(lǐng)域的研究逐漸引起了人們的興趣。
4.2從鏡頭中選擇關(guān)鍵幀
關(guān)鍵幀(也稱代表幀)是用于描述一個鏡頭的關(guān)鍵圖像幀,它通常會反映一個鏡頭的主要內(nèi)容。關(guān)鍵幀的使用大大減少了視頻索引的數(shù)據(jù)量,同時也為檢索和瀏覽視頻提供了一個組織框架。關(guān)鍵幀的提取原則是“寧濫勿缺”。關(guān)鍵幀選取的方法有以下幾類:
1、基于鏡頭的方法
一段視頻分割成鏡頭后,將每個鏡頭的首幀(或首幀與末幀)作為鏡頭的關(guān)鍵幀。該方法實現(xiàn)起來比較簡單,無論鏡頭的內(nèi)容如何,關(guān)鍵幀的數(shù)量都是一定的(1幀或2幀),但效果不是很穩(wěn)定,因為每個鏡頭的首幀或末幀不一定總是能夠反映鏡頭的主要內(nèi)容。
2、基于內(nèi)容分析的方法
這種方法基于每一幀的顏色、紋理等視覺信息的改變來提取關(guān)鍵幀,當這些信息有顯著變化時,當前的幀即可作為關(guān)鍵幀。張宏江等人依據(jù)幀間的顯著變化來選擇多個關(guān)鍵幀,首先把鏡頭的第一幀作為關(guān)鍵幀,然后計算前一個關(guān)鍵幀與剩余幀之差,如果差值大于某一閾值,則再選取一個關(guān)鍵幀。這種方法可以根據(jù)鏡頭內(nèi)容的變化程度選擇相應數(shù)目的關(guān)鍵幀,但所選取的幀不一定具有代表意義,而且在有鏡頭運動時,容易選取過多的關(guān)鍵幀。
幀平均法和直方圖平均法統(tǒng)計所有幀的像素值或直方圖平均,取最接近平均值的幀作為代表幀。
3、基于運動分析的方法
Wolf通過光流分析來計算鏡頭中的運動量,在運動量取局部最小值處來選取關(guān)鍵幀,它反映了視頻數(shù)據(jù)中的靜止,視頻中通過攝像機在一個新的位置上停留或通過人物的某一動作的短暫停留來強調(diào)其本身的重要性。Wolf的這種基于運動分析的方法可以根據(jù)鏡頭的結(jié)構(gòu)選擇相應數(shù)目的關(guān)鍵幀。如果先把圖像中的運動對象從背景中取出,再計算對象所在位置的光流,可以取得更好的效果。
合成法將鏡頭中的所有運動轉(zhuǎn)換拼接成一個合成幀作為關(guān)鍵幀。
4、基于聚類的方法
聚類提取的方法首先要確定一個初始類心,然后根據(jù)當前幀與類心的距離來判斷是歸為該類還是作為新的類心,再將鏡頭中幀分類后取各類中離類心最近的幀作為關(guān)鍵幀。另外,Zhao提出了一種基于最近特征線(Nearest Feature Line,NFL) 的端點檢測算法用于選取關(guān)鍵幀。該方法的主要原理是用某些特征點的連線(特征線)近似并代表某個類的所有特征樣本軌跡,而這些特征點就是關(guān)鍵幀。
4.3從視頻流中構(gòu)造場景或組
計算鏡頭間的相似性(實際是關(guān)鍵幀間的比較),選擇合適的聚類算法進行分析。按時間順序和關(guān)鍵幀的相似程度可分為場景,也可以只按關(guān)鍵幀的相似程度進行分組。
結(jié)束語
本文主要討論了鏡頭分割、關(guān)鍵幀提取的算法,但還有許多的問題有待解決和面對,如應選取更為有效的視頻特征,現(xiàn)有的顏色、紋理等特征還不能有效表示視頻的內(nèi)容,為了提高鏡頭和場景檢索中的查全率和準確率,應該選取更為有效的視頻特征,這就給我們未來的研究提出了方向。
【參考文獻】
[1] 陳堯,張青榮.基于內(nèi)容的視頻檢索技術(shù)研究[J].產(chǎn)業(yè)與科技論壇,2017,16(14):46-48.
[2] 李向偉,康毓秀.基于內(nèi)容的視頻檢索與挖掘關(guān)鍵技術(shù)研究[J].軟件,2014,35(08):26-31.
[3] 陳秀新.基于內(nèi)容的視頻檢索技術(shù)淺析[J].信息技術(shù)與信息化,2011(02):56-58+75.