黃蘭英,張凱兵,葉從歡
(湖北工程學(xué)院 計(jì)算機(jī)與信息科學(xué)學(xué)院, 湖北 孝感 432000)
基于關(guān)鍵幀的教學(xué)視頻檢索系統(tǒng)設(shè)計(jì)
黃蘭英,張凱兵,葉從歡
(湖北工程學(xué)院 計(jì)算機(jī)與信息科學(xué)學(xué)院, 湖北 孝感 432000)
針對(duì)目前教學(xué)視頻檢索系統(tǒng)的不足, 設(shè)計(jì)并實(shí)現(xiàn)了一種基于關(guān)鍵幀的教學(xué)視頻檢索系統(tǒng)。同時(shí),介紹了該系統(tǒng)采用的關(guān)鍵技術(shù), 并對(duì)系統(tǒng)進(jìn)行了測(cè)試和驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本系統(tǒng)能滿足應(yīng)用要求。
關(guān)鍵幀檢索;顏色特征;相似度;教學(xué)視頻
隨著多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,高等院校大量教學(xué)視頻不斷涌現(xiàn),教學(xué)視頻的有效管理與再利用的效率不高,常用的教學(xué)視頻資源的檢索采用基于關(guān)鍵詞或文本的檢索方式(如通過(guò)制作節(jié)目標(biāo)題或制作時(shí)間以及拍攝地點(diǎn)等字段進(jìn)行檢索)。由于教學(xué)視頻是非結(jié)構(gòu)化的,教學(xué)視頻內(nèi)容豐富,基于關(guān)鍵詞或文本的檢索方法已不能滿足用戶對(duì)視頻資源的檢索要求。對(duì)海量教學(xué)視頻資源進(jìn)行建庫(kù)、組織,從而快速、有效地檢索需要的視頻資源,成為教學(xué)視頻資源利用中迫切需要解決的問(wèn)題[1-2]。
本文在文獻(xiàn)[3-5]的基礎(chǔ)上,設(shè)計(jì)了一個(gè)基于關(guān)鍵幀的教學(xué)視頻檢索系統(tǒng),該系統(tǒng)采用基于互信息量的關(guān)鍵幀抽取方法,采用顏色信息作為關(guān)鍵幀特征,并通過(guò)簡(jiǎn)化的直方圖距離進(jìn)行相似性計(jì)算。在查詢檢索時(shí),提供了結(jié)合關(guān)鍵字和關(guān)鍵幀的視頻檢索手段。
本文設(shè)計(jì)的基于關(guān)鍵幀的教學(xué)視頻檢索系統(tǒng)主要由視頻關(guān)鍵幀處理子模塊、數(shù)據(jù)庫(kù)和視頻檢索子模塊組成,系統(tǒng)結(jié)構(gòu)如圖1所示。

圖1 教學(xué)視頻檢索系統(tǒng)
在視頻關(guān)鍵幀處理子模塊中,運(yùn)用鏡頭檢測(cè)、關(guān)鍵幀抽取、特征提取等技術(shù)對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理,并建立視頻特征索引;視頻檢索子模塊采用基于關(guān)鍵字和基于關(guān)鍵幀相結(jié)合的方法來(lái)描述用戶的檢索,該模塊主要完成視頻特征索引、特征相似度計(jì)算與匹配,并根據(jù)相似度進(jìn)行結(jié)果排序后提交給用戶;數(shù)據(jù)庫(kù)中的視頻特征庫(kù)主要包括內(nèi)容特征(底層特征)和視頻外部信息特征(高層特征),其中視頻外部信息的描述采用了手工標(biāo)注和自動(dòng)標(biāo)注。系統(tǒng)的整個(gè)查詢過(guò)程是:用戶提出查詢條件(如關(guān)鍵字、關(guān)鍵幀的圖例或特征)→系統(tǒng)根據(jù)用戶輸入的條件,通過(guò)索引,與特征庫(kù)中的特征進(jìn)行相似度匹配→定位到具有相似特征的原始視頻數(shù)據(jù)庫(kù)(或關(guān)鍵幀庫(kù)) →返回查詢結(jié)果→完成查詢或進(jìn)行下一輪查詢。
2.1視頻關(guān)鍵幀抽取
關(guān)鍵幀是用于描述一個(gè)鏡頭的關(guān)鍵圖像幀,它反映了一個(gè)鏡頭的主要內(nèi)容, 是建立視頻索引的基礎(chǔ),關(guān)鍵幀的使用可以大大減少教學(xué)視頻索引的數(shù)據(jù)量,提高檢索速度和傳輸速度,節(jié)省存儲(chǔ)空間[4,6-7]。關(guān)鍵幀提取首先通過(guò)鏡頭邊界檢測(cè)技術(shù)將視頻流分成不同的鏡頭后,然后通過(guò)相應(yīng)的算法從每個(gè)鏡頭中提取一幅或多幅關(guān)鍵幀,對(duì)于描述鏡頭的內(nèi)容起到?jīng)Q定性的作用。因此,對(duì)于基于內(nèi)容特征的教學(xué)視頻檢索,其核心是關(guān)鍵幀的提取,直接影響到檢索系統(tǒng)性能的優(yōu)劣[4,6-7]。典型關(guān)鍵幀的提取法有:(1)基于鏡頭邊界的方法。該方法實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,關(guān)鍵幀的數(shù)量都是確定的(1幀或2幀),但是效果不穩(wěn)定[4,6]。(2)基于視覺(jué)內(nèi)容的方法。該方法可以根據(jù)鏡頭內(nèi)容的變化程度選擇相應(yīng)數(shù)目的關(guān)鍵幀,但所選取的幀不一定具有代表意義,容易選取過(guò)多的關(guān)鍵幀[4,6]。(3)基于運(yùn)動(dòng)分析的方法。這種方法根據(jù)鏡頭的內(nèi)容選擇相應(yīng)數(shù)目的關(guān)鍵幀,實(shí)現(xiàn)起來(lái)難度和工作量都比較大[4,6,8]。(4)基于聚類的方法。該方法中關(guān)鍵幀數(shù)由類別數(shù)決定,而類別數(shù)又取決于指定的閾值,閾值的選取對(duì)關(guān)鍵幀的提取結(jié)果影響較大,且計(jì)算復(fù)雜度比較大[4,6,9]。
針對(duì)上述關(guān)鍵幀抽取的特點(diǎn),本文在基于文獻(xiàn)[7-8]和[10]方法的基礎(chǔ)上,采用了一種基于互信息量的關(guān)鍵幀提取方法,該方法的主要思想是: 以連續(xù)兩幀中的互信息量來(lái)衡量?jī)蓭瑘D像之間的相似程度,并結(jié)合聚類方法,根據(jù)視頻鏡頭序列的具體特點(diǎn),為每個(gè)視頻鏡頭提取出一個(gè)或多個(gè)關(guān)鍵幀。
給定圖像A和B,互信息量定義為:
I(A,B)=H(A)+H(B)-H(A,B)
(1)
由式(1)可知互信息量I(A,B)表示兩幀相互包含對(duì)方的信息量,其中,H(A)和H(B)分別為視頻幀A和B的熵,H(A,B)為二者的聯(lián)合熵。當(dāng)I(A,B)=0時(shí),意味著A,B相互獨(dú)立,I(A,B)值越大,表明兩圖像的相似性程度越高。對(duì)于相鄰的連續(xù)兩幀, 分別獨(dú)立的計(jì)算其RGB三個(gè)分量的互信息量。由公式(1)可知, 相鄰圖像幀t,t+1在R分量上的互信息量可以表示為:

圖2 教學(xué)視頻片段的關(guān)鍵幀抽取
(2)
則圖像t,t+1 之間總的互信息量可表示為:
(3)
其中pA(a)和pB(b)分別表示視頻幀A和B中概率密度分布,則pAB(a,b)表示視頻幀A,B的聯(lián)合概率密度分布。
關(guān)鍵幀提取算法思想如下:
1)獲取的視頻相鄰幀間的互信息量I(t,t+1);
2)初始化閾值threshold1劃分類,即相鄰幀互信息量I(t,t+1)I(t,t+1)I(t,t+1)< threshold1,則開(kāi)始新的類;
3)計(jì)算每個(gè)類的平均互信息量;
4)根據(jù)閾值threshold2歸并類;
5)選擇各類中互信息量最接近該類的平均互信息量的幀作為候選關(guān)鍵幀。
如圖2所示是教學(xué)視頻片段采用互信息量抽取關(guān)鍵幀的結(jié)果情況(視頻素材是從教學(xué)視頻庫(kù)隨機(jī)選取)。
本文針對(duì)互信息量關(guān)鍵幀抽取法的性能進(jìn)行了測(cè)試(見(jiàn)表1),表1中實(shí)驗(yàn)數(shù)據(jù)有故事片斷、新聞片斷、科教片斷、動(dòng)畫(huà)片斷等,視頻格式為MPEG和AVI。

表1 實(shí)驗(yàn)測(cè)試結(jié)果
表1的測(cè)試結(jié)果表明,利用該關(guān)鍵幀提取法提取的關(guān)鍵幀能較好地表示教學(xué)視頻內(nèi)容,數(shù)據(jù)處理計(jì)算量小,但方法的不足之處在于閾值threshold2的選取需要經(jīng)過(guò)人工調(diào)試。本文設(shè)計(jì)的閾值threshold2=0.4。
2.2特征提取
一般視頻中的幀圖像特征包括基于文本的特征(如關(guān)鍵字、注釋等)和視覺(jué)特征(如色彩、紋理、形狀、對(duì)象表面等)兩類,本文的特征提取主要是對(duì)關(guān)鍵幀的顏色視覺(jué)特征提取,并將提取的特征存入特征數(shù)據(jù)庫(kù),供用戶查詢檢索;檢索時(shí)依據(jù)示例視頻幀的特征和數(shù)據(jù)庫(kù)中的視頻特征相比較,在設(shè)定的相似度內(nèi)搜索出所有符合條件的視頻。本系統(tǒng)采用的是顏色特征和RGB模型, 其中顏色直方圖統(tǒng)計(jì)如公式(4):
H(k) =nk/N,k= 0,1,……,L-1
(4)
其中k代表幀圖像的特征取值,L是顏色取值范圍,nk是幀圖像中具有特征值為k的像素的個(gè)數(shù),N是幀圖像像素的總數(shù)。這樣計(jì)算得到的顏色直方圖就是一個(gè)K維的特征向量,對(duì)幀圖像中所有像素的顏色取值所作的統(tǒng)計(jì)[3-4,6]。
2.3基于關(guān)鍵幀的檢索
視頻被抽象為關(guān)鍵幀后,教學(xué)視頻的查詢就變成按照某種特征的相似度來(lái)檢索視頻數(shù)據(jù)庫(kù)中與查詢描述相似的關(guān)鍵幀或視頻;在視頻檢索子模塊中,本文采用了基于關(guān)鍵字和基于關(guān)鍵幀相結(jié)合的方法來(lái)描述用戶的檢索要求。該子系統(tǒng)包括用戶查詢模塊和相似性匹配模塊。基于關(guān)鍵字或文本的檢索方法采用關(guān)鍵字或文本的精確匹配,而基于關(guān)鍵幀的檢索則通過(guò)計(jì)算查詢關(guān)鍵幀圖像(視頻摘要)和候選圖像(視頻庫(kù))之間在視覺(jué)特征上的相似度進(jìn)行匹配[3-4]。相似性匹配采用公式(5)中的歐氏距離來(lái)衡量幀特征之間的相似度[3-4,6]。
d2(x,y)=(x1-y1)2+(x2-y2)2+…+(xn-yn)2=(x-y)T(x-y)
(5)
其中x和y為圖像特征向量,n是特征向量的維數(shù)。
用戶查詢模塊根據(jù)用戶的查詢條件,由系統(tǒng)完成視頻特征與用戶提交的特征的相似度進(jìn)行特征匹配,并根據(jù)相似度進(jìn)行結(jié)果排序后提交給用戶,如檢索到關(guān)鍵幀,用戶就可以利用播放器來(lái)觀看它所代表的視頻片斷。
圖3顯示的是檢索出相似視頻的部分搜索結(jié)果(截圖了前4個(gè)相似視頻,顯示的結(jié)果按照相似度由大到小排列,檢索結(jié)果包括視頻的相似度、視頻大小、視頻格式等)。
本文設(shè)計(jì)了一個(gè)基于關(guān)鍵幀的教學(xué)視頻檢索測(cè)試系統(tǒng),該系統(tǒng)由前、后臺(tái)程序構(gòu)成;前臺(tái)分別采用ACCESS和ASP(Active Server Pages)編寫(xiě),后臺(tái)用Visual C++來(lái)完成,負(fù)責(zé)對(duì)視頻進(jìn)行結(jié)構(gòu)化、提取關(guān)鍵幀和特征,并存入數(shù)據(jù)庫(kù);在提取視頻的內(nèi)容特征時(shí),系統(tǒng)把每段視頻的若干關(guān)鍵幀生成一個(gè)視頻摘要存放在數(shù)據(jù)庫(kù)中;在檢索結(jié)果顯示界面,把相應(yīng)的摘要視頻提供給用戶瀏覽。實(shí)驗(yàn)結(jié)果表明,教學(xué)視頻系統(tǒng)的采用關(guān)鍵幀的檢索較為準(zhǔn)確,能夠滿足應(yīng)用要求;不足之處是實(shí)驗(yàn)數(shù)據(jù)畢竟有限,所設(shè)定的關(guān)鍵幀抽取閾值沒(méi)有經(jīng)過(guò)海量數(shù)據(jù)的驗(yàn)證,因此不能對(duì)視頻動(dòng)態(tài)細(xì)節(jié)進(jìn)行精確表述,系統(tǒng)的可靠性有待進(jìn)一步提高。

圖3 基于關(guān)鍵幀的部分視頻檢索結(jié)果
[1] 馮運(yùn)生.基于內(nèi)容的視頻檢索技術(shù)及教學(xué)應(yīng)用研究[D].新鄉(xiāng):河南師范大學(xué),2008.
[2] 劉俊曉,孟祥增.視頻的內(nèi)容分析與檢索技術(shù)及其教學(xué)應(yīng)用[J].現(xiàn)代遠(yuǎn)距離教育,2006(5):24-26.
[3] 郭威.基于內(nèi)容的視頻檢索中關(guān)鍵幀提取方法的研究及實(shí)驗(yàn)系統(tǒng)的開(kāi)發(fā)[D].吉林:吉林大學(xué), 2003.
[4] 季春.視頻檢索中關(guān)鍵幀抽取方法的研究[D].南京:南京理工大學(xué),2005.
[5] 柯和平. 基于內(nèi)容檢索的視頻數(shù)據(jù)庫(kù)系統(tǒng)研究[J].計(jì)算機(jī)與數(shù)字工程, 2007(5):69-72.
[6] 楊華芬,鄭歡鳴. 基于內(nèi)容的視頻關(guān)鍵幀提取技術(shù)研究[J].福建電腦,2010(5):49-52.
[7] Huang L Y, Ye C H. Application of mutual information key frame extraction method in the teaching video retrieval[C]//Proceedings of International Conference on Multimedia Technology, 2011.
[8] 黃蘭英.一種基于互信息量的關(guān)鍵幀提取方法[J].孝感學(xué)院學(xué)報(bào),2008(3):54-56.
[9] 潘曉英,王昊. 一種基于核聚類的關(guān)鍵幀提取方法[J].微機(jī)發(fā)展,2005(3):29-31.
[10] 陳贊,楊衛(wèi)英,張正軍.基于互信息量的關(guān)鍵幀全局優(yōu)化提取方法[J].電視技術(shù),2011(7): 6-28.
(責(zé)任編輯:張凱兵)
ResearchandImplementationofTeachingVideoRetrievalSystemBasedonKeyFrame
Huang Lanying, Zhang Kaibing, Ye Conghuan
(SchoolofComputerandInformationScience,HubeiEngineeringUniversity,Xiaogan,Hubei432000,China)
Considering the limitation of the existing teaching video retrieval systems, this paper develops and implements a teaching video retrieval systems which is based upon the detection of key frames. In addition, it introduces the key technologies of the system, tests and validates the performance of the system. Experimental results showed that the developed system could meet the requirements of applications.
key frame retrieval;color feature;similarity;teaching video
TP391.41
A
2095-4824(2013)06-0052-04
2013-10-09
湖北省教育廳項(xiàng)目(B20122604,Q20132705)
黃蘭英(1973- ),女,湖北孝感人,湖北工程學(xué)院計(jì)算機(jī)與信息科學(xué)學(xué)院副教授,碩士。
張凱兵(1975- ),男,湖北孝感人,湖北工程學(xué)院計(jì)算機(jī)與信息科學(xué)學(xué)院教師,博士。