999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義的視頻檢索關鍵技術綜述

2012-01-19 12:15:36孔英會劉淑榮張少明范啟躍
電子科技 2012年8期
關鍵詞:語義特征方法

孔英會,劉淑榮,張少明,范啟躍

(華北電力大學電氣與電子工程學院,河北保定 071003)

基于語義的視頻檢索關鍵技術綜述

孔英會,劉淑榮,張少明,范啟躍

(華北電力大學電氣與電子工程學院,河北保定 071003)

隨著大量視頻的出現,視頻內容檢索是當今多媒體應用的一個重要研究方向。現有的視頻檢索技術多是基于低層特征,這些低層特征與高層語義概念相差較多,嚴重影響了視頻內容檢索系統的實用性。由于低層特征和高層語義概念間的語義鴻溝,如何從視頻內容中提取人類思維中的語義概念,正成為目前視頻內容檢索中最具有挑戰性的研究內容。文中介紹了語義視頻檢索出現的背景和國內外最新研究動態,分析了現有方法的優缺點,對現有的關鍵技術進行綜述。

語義鴻溝;語義視頻檢索;底層特征;高層語義概念

隨著多媒體視頻數據在捕獲、存儲、傳播方面取得的重大技術進步,人們可以方便快捷地獲得大量的數字視頻,并且出現新的視頻應用。如何從網絡數據資源中,實現對含有豐富時空信息的視頻數據檢索成為人們關注的焦點問題。

早期的圖像數據庫沿襲了傳統的數據庫檢索方式,采用文本進行檢索。這種對視頻手工建立關鍵詞用文本描述信息的方式,已不適應視頻信息檢索的要求。主要原因在于:(1)視頻內容豐富,僅使用幾個關鍵字很難將其內容描述清楚。(2)依靠人工對視頻數據進行內容概括并標注,其工作量大、成本高、效率低、可擴展性差。(3)人工標注的主觀性強,同一段視頻,而不同的標注者可能標注不同,也可能不是同一段視頻不同的標注者對其標注相同,由此可能引發矛盾和混亂。因此傳統的方法不能滿足人們實際應用的需要。

人們習慣用語義概念檢索自己需要的視頻,但由于底層特征和高層語義概念之間存在語義鴻溝,在語義概念層次進行視頻內容的描述和操縱面臨較大的困難。如何從視頻內容中提取人類思維中的語義概念,成為目前視頻內容檢索中具有挑戰性的研究內容[1]。

盡管隨著人工智能、圖形處理、多媒體技術等技術的發展,前人也做了大量相關工作,基于語義視頻檢索系統的查全率、查準率有了一定的提高,但離真正的實際應用還有較大的距離。存在以下不足:(1)視頻的特征信息提取不全面、不準確。有些特征效果不好,不能準確地實現高層語義映射。(2)不能有效地降低視頻底層特征和高層語義概念間的語義鴻溝,直接影響檢索精度。(3)視頻圖像中包含大量的語義信息,并且這些信息之間存在復雜的關系,因此需要一個具有強大的表達能力的方法;其次,由于圖像理解的主觀性,視頻圖像語義的表示方法需要一定的模糊和非精確性,用以支持視頻圖像的相似度檢索。

1 國內外研究動態

視頻信息檢索是多媒體領域的重要研究課題,是跨越圖像處理、計算機視覺、模式識別、人工智能以及數據庫等領域的交叉學科,是對文本、圖像、聲音等多種媒體形式的綜合分析和查詢。當前視頻信息檢索的研究主要集中在兩大類:一類是基于視頻低層特征的樣例或樣圖查詢(Query by Examples);另一類是基于視頻描述信息的語義查詢(Query by Keywords)。第一類屬于基于樣本視頻或圖片的查詢,是利用用戶給出的查詢樣例,提取樣例視頻和數據庫視頻的低層物理特征,并根據一定的相似度度量,通過計算二者之間的相似度得到用戶所需的查詢結果。第二類屬于基于關鍵詞的查詢,是通過對視頻庫中的視頻數據進行高層語義分析,通過用戶提供的查詢關鍵詞對視頻內容進行檢索。這兩類視頻檢索方法分別從低層物理特征和高層語義特征兩個方面,對視頻內容進行分析和檢索,是視頻檢索領域兩個重要的研究方向。從2001年至今,諸如CMU、IBM等研究機構已相繼提出了一些優秀的高層語義提取算法,并且取得了較好的研究成果[2]。典型的視頻檢索系統主要有:

(1)QBIC(Query By Image Content)系統。其允許用戶使用例子圖像、用戶構建的草圖和畫圖及其選擇的顏色和紋理模式、以及鏡頭和目標運動等圖形信息,對大型圖像和視頻數據庫進行查詢。

(2)Visual Seek系統。是美國哥倫比亞大學研究的一種在互聯網上使用的基于內容的檢索系統。Visual Seek同QBIC一樣提供了多種查詢方法:根據視覺特征、圖像注釋、草圖等。

(3)VideoQ系統。是哥倫比亞大學的一個研究項目,它擴充了傳統的關鍵字和主題導航的查詢方法,允許用戶使用視覺特征和時空關系來檢索視頻。

(4)Photo Book系統。由美國麻省理工學院媒體研究室研究的Photo Book系統,能夠支持相似性圖像的檢索,可以利用人臉、形狀、紋理、相片簿等分別對人臉圖像、工具和紋理進行基于內容的檢索。

2 視頻檢索系統關鍵技術

視頻語義檢索模型主要包括底層特征提取模塊、底層特征向高層語義映射模塊、視頻語義查詢模塊[3]。

2.1 底層特征提取模塊

該模塊主要包括:視頻鏡頭檢測、關鍵幀提取、特征提取3種關鍵技術。

視頻鏡頭檢測是將視頻自動地分割為鏡頭以作為視頻基本的索引單元,因此鏡頭的自動分割是視頻結構化的基礎。視頻鏡頭的邊界變換分為兩大類:突變(cut)和漸變(Gradual Transition)。目前已經提出的算法,從方向上可分為兩類:(1)非壓縮域。(2)壓縮域。在非壓縮域,典型的鏡頭邊界檢測算法包括像素差異法、統計量法、直方圖法、基于邊緣及運動特征的方法及基于編輯模型的方法等[4]。由于現在多數視頻都是壓縮的,所以在壓縮域進行鏡頭檢測是一個趨勢。壓縮域視頻則表現為3種類型的幀,分別為I幀、P幀和B幀。I幀為主要信息攜帶者,其表現為DCT系 數,DCT系數又分為直流系數(DC)和交流系數(AC),文獻[5]提出了一種基于RS理論的壓縮域鏡頭分割算法。該算法首先根據MPEG壓縮標準,從視頻流中提取DCT系數;經預處理得到每一幀的DC系數;最后依據DC系數建立鏡頭分割信息系統模型,通過RS理論的劃分與屬性約簡得到視頻鏡頭。

關鍵幀提取模塊。由于鏡頭中包含大量相同或相似的視頻內容,存在冗余性,可以在每個鏡頭中提取最具代表性的、反映該鏡頭主要內容的若干幀來代替這個鏡頭,這些幀稱為關鍵幀。通過關鍵幀的提取,可以用微小的數據量把一個鏡頭的靜態特性表示出來,從而在視頻檢索中大大地減少數據量,為視頻索引瀏覽和檢索提供合適的摘要減少了視頻操作的數據處理量。

試驗用“水洗”低K(K≤80 mg/kg)MoO3費氏平均粒度較大,經過兩種不同工藝試驗結果見圖2、圖3。

典型關鍵幀的提取算法有:(1)基于鏡頭邊界的方法。(2)基于視覺內容的方法。(3)基于鏡頭運動的方法。(4)基于運動分析的方法。(5)基于聚類的方法。這些方法各自有優缺點,根據不同的應用環境和應用要求,選擇合適的方法。

近年來又提出了一些新的方法和改進的方法,文獻[6]提出了一種類模糊C均值聚類的關鍵幀提取算法,用該算法提取的關鍵幀不僅可以充分表達出視頻的主要內容,而且還可以根據內容的變化提取出適當數量的關鍵幀。缺陷是需要首先設定一個最初聚類中心。文獻[7]是對文獻[6]進行的改進,提出一種基于無監督聚類的自適應閾值改進算法。

特征提取模塊。是對前一模塊的關鍵幀,提取視覺特征和非視覺特征。其中視覺特征主要包括顏色、紋理、形狀及運動等的低層視覺特征,以及提取場景、行為等高層語義特征。非視覺特征包括音頻特征、文本特征等。現階段主要對視覺特征的研究居多,其中底層視覺特征分為全局特征和局部特征,常用的全局特征有顏色特征,紋理特征、形狀特征等。常用局部特征,例如SIFT特征,將圖像中關鍵點的局部表觀信息作為圖像的特征。全局特征和局部特征的結合,視覺特征和非視覺特征的結合,能有效提高視頻檢索的檢索效率和準確率。

圖1 視頻語義檢索模型

2.2 底層特征向高層語義映射模塊

底層特征空間包括視覺特征和非視覺特征,這些特征一般可以從視頻數據中直接提取。語義概念空間對應于人們通常思維中的高級語義概念。從認知層次角度進行視頻語義劃分的語義概念,主要包括事件、場景/地點和對象3類。但底層特征對用戶不可見,只有將其映射到高層語義概念空間,才能使用戶識別,它們之間無法直接用數學模型完成映射轉換,這兩個空間之間存在著難以直接跨越的語義鴻溝,如何解決語義鴻溝是視頻語義檢索研究的重點。

底層特征向高層語義映射模塊主要使映射變換模型的構建,即語義概念分類模型的構建。提取視頻語義的主要方法包括概率統計方法、統計學習方法、基于規則推理的方法、結合特定領域的等方法。

(1)概率統計方法。將視頻語義對象提取看作是待提取視頻語義對象的分類問題,利用模式分類方法來嘗試跨越語義鴻溝。語義檢索的隨機方法關注的是模型概率特性,其核心思想是用隨機數學方法來描述對象的不同特征并存此基礎建立多媒體概念模式分類器。隨機模型中加入學習/識別模塊,主要是為了能反映媒體內容本質的非確定性[8]。

(2)統計學習方法。支持向量機(Support Vector Machine,SVM)基于統計學習理論,建立在計算學習理論的結構風險最小化原則之上。其目的是在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤率。此類模型在只有小訓練樣例集的情況下,分類效果較好。

文獻[9]先提取訓練圖像庫的底層特征信息,然后利用SVM對所提取的特征進行訓練,構造多分類器。在此基礎上,利用分類器對測試圖像自動分類,得到圖像屬于各個類別的概率。文獻[10]提出一種基于主動學習SVM分類器的視頻分類算法。該算法分為兩個步驟:首先分析并提取與視頻類型有關的10維底層視覺特征;然后用SVM分類器建立這些底層特征與視頻類型之間的聯系。

(3)基于規則推理的方法。基于規則推理的方法考慮直接從系統外給定分類標準,因此語義概念的種類固定,難以滿意地描述視頻內容中大量隨機出現的語義概念。文獻[11]通過分析足球視頻的語義結構,按照足球比賽轉播、視頻編輯的一般規律,結合視頻特征的時空關系,定義足球視頻主要的語義規則,從而提出了足球視頻語義事件的分析框架結合基于專業知識的規則推理,達到有效分析足球視頻語義的目的。

(4)結合特定領域。通過限定、縮小視頻領域(Narrowing the Donmin)是目前跨越語義鴻溝的有效方法之一。限定特定的領域后,語義概念和事件的隨機性就被縮小了,簡化了底層和高層之間的語義映射關系。例如在影片語義分析領域,Rasheed等結合影片的特點只用4個視覺特征將電影分為悲劇、動作、戲劇和恐怖片幾種類型,達到影片語義分類的目的[12]。

完全手工標注的不足之處在前面已經提到過,基于機器學習的標注方法采用統計學習領域的最新研究成果,為低層特征和高層語義特征之間建立了映射,基于機器學習的方法通過對手工標注的訓練視頻數據的學習,建立各語義概念的模型,然后用該模型對未標注的視頻數據集進行分類,標注對應的語義概念[13]。文獻[14]利用機器學習對視頻的視頻類型層標注,關鍵幀圖像層標注和圖像中的物體層標注4個層次進行研究。

2.3 視頻語義查詢模塊

視頻語義查詢模塊使用戶通過查詢接口輸入相應的查詢語義,系統應能在視頻語義庫中進行信息匹配,并將查詢結果返回用戶。用戶根據本次查詢結果與自己期望結果間的相關性,向系統提交相關反饋信息。相關反饋在信息檢索中是一種指導性學習技術,用以提高系統的檢索能力。近幾年,人們對相關反饋有了很深的研究,許多新穎的算法被提出,主要有3類:第一類是以Rui為代表的權重調整算法[15];第二類是基于支持向量機的反饋方法[16],是在每次反饋過程中對用戶標記的正例和反例樣本進行學習,建立SVM分類器作為模型,并根據該模型進行檢索;第三類是基于Bayes準則的相關反饋方法[17],其基本思想是根據用戶反饋的信息進行統計判斷。

2.4 語義詞典的應用

在視頻檢索系統中,利用文本標注對圖像進行檢索是比較常用的方法,但一般的系統都是先對標注作簡單的文字匹配,然后提交相應的結果。文本標注和用戶輸入二者文字不同,而語義一致,這種方法就無法檢索到相應的內容,雖然有些系統能對這類同義詞作例外處理,但卻無法窮舉所有的情況,更無法對更高層次的語義作檢索。

許多研究者把語義詞典引入到基于語義的視頻檢索中來[18],實現圖像語義關鍵詞的擴充,提高了檢索的全面性。WordNet是一個英文詞匯的語義本體,它以認知同義詞集合為單位來組織詞語的關系。其中詞語的關系包括上下位關系、整體部分關系、同義反義關系等。正是由于wordNet的這種構建方式,越來越多的研究者將其引入到了信息檢索領域。文獻[19]描述了一個基于本體詞匯的三維模型語義檢索的方法,該方法首先對一個三維模型庫的詞匯進行語義上擴充,然后基于關鍵詞進行檢索,而不是簡單的文字匹配。

3 結束語

介紹了語義視頻檢索技術的國內外研究動態及研究內容和方法,總結和歸納了現有研究方法的不足。在特征提取方面,現階段的研究主要集中在視覺特征的提取,繼續提出一些新的特征是一個研究方向,同時將視覺特征和音頻、文本特征有效地結合是下一階段研究的重點,這樣才能全面、準確地表達視頻的內容。如何有效選擇特征,及對特征的的融合,是研究的另一個重點方向。

底層特征向高層語義映射模塊中視頻標注和語義擴展,這個問題一直是語義視頻檢索的瓶頸,有待進一步的研究和深化。目前視頻檢索中用的語義概念還主要針對對象語義,對場景語義、行為語義和情感語義的研究還較少,這些語義的不斷豐富,有利于視頻內容的語義細化描述,建立層次語義的檢索,進而使得視頻檢索更接近和滿足實際應用。

[1]魏維,游靜,劉鳳玉,等.語義視頻檢索綜述[J].計算機科學,2006,33(2):1 -8.

[2]AMIR A,ARGILLANDER J O,BERG M,et al.IBM research TRECVID -2004 video retrieval system[C].MD,USA:NIST TRECVID 2004 Workshop,Gaithersburg,2004:15 -16.

[3]張治國,劉懷亮,馬志輝,等.基于高層語義的視頻檢索研究[J].計算機工程與應用,2007,43(18):168 -180.

[4]印勇,侯海珍.基于直方圖幀差的自適應鏡頭分割算法[J].計算機工程與應用,2010,46(9):186 -189.

[5]李向偉,李戰明,張明新,等.一種新的基于RS理論的壓縮域鏡頭分割算法[J].計算機應用研究,2009,26(4):1588-1590.

[6]張亞迪,李俊山,胡雙演.類模糊 C均值聚類的關鍵幀提取算法[J].微電子學與計算機,2009,26(2):89 -92.

[7]李全棟,陳樹越,張微.一種改進的無監督聚類的關鍵幀提取算法[J].應用光學2010,31(5):741 -744.

[8]韓智廣,吳玲達,謝毓湘,等.基于貝葉斯網絡的視頻靜態語義探測新方法[J].武漢理工大學學報,2009,31(18):179-181.

[9]廖綺綺,李翠華.基于支持向量機語義分類的兩種圖像檢索方法[J].廈門大學學報:自然科版,2010,49(4):487 -494.

[10]袁勛,吳秀清,洪日昌,等.基于主動學習SVM分類器的視頻分類[J].中國科學技術大學學報,2009,39(2):473 -478.

[11]彭利民,周毅.基于規則推理的足球視頻語義事件分析研究[J].廣州體育學院學報,2008,28(2):91 -94.

[12]RASHEED Z,SHEIKH Y,SLLAH M.The use of comdutable features for film classification [J].IEEE Transactions on Circuits and Systems for Video Technology,2005,15(1):52 -64.

[13]賀莉娜.視頻語義特征提取的研究[D].北京:北京交通大學,2008.

[14]袁勛.層次化視頻語義標注與檢索[D].安徽:中國科學技術大學,2008.

[15]RUI Yong,HUANG T.Optimizing learning in image retrieval[J].Proceedings of Cornputer Vision and Pattern Recognition,2000,1(13 -15):236 -243.

[16]HONG Pengyu,QI Tian,HUANG T.Incorporate support vector machines to content-based image retrieval with relevant feedbank[EB/OL].(2000 -03 -10)[2004 -11 -14]http:/www.ifp.uiuc.edu.

[17]施智平,李清勇,史俊,等.集成視覺特征和語義信息的相關反饋方法[J].計算機輔助設計與圖形學學報,2007,19(9):1138-1142.

[18]SARA M,MOHAMMADREZA E,LILLY S A.Developing context model supporting spatial relations for semantic video retrieval[C].International Conference on Information Retrieval and Knowledge Management:Exploring the Invisible World,CAMP'10,2010:40 -43.

[19]阮佳彬,楊育彬,林金杰,等.基于本體詞匯的三維模型語義檢索[J].計算機科學,2009,36(2):152 -154.

A Survey on Semantic-based Video Retrieval Key Techniques

KONG Yinghui,LIU Shurong,ZHANG Shaoming,FAN Qiyue
(School of Electrical and Electronic Engineering,North China Electric Power University,Baoding 071003,China)

With the emergence of much video,video content retrieval becomes an active research direction in the multimedia applications.Most of the existing video retrieval technologies are based on low-level features.These features are quite different from the semantic concepts.It seriously influences the practicality of the video content retrieval system.The gap between low-level features and high semantics is difficult to narrow,so how to extract semantic concepts in the human thought from video is becoming a most challenging research of the video content retrieval.This paper introduces the background of semantic video retrieval and the latest and dynamic research at home and abroad,analyzes the advantages and disadvantages of the existing methods and summarizes the existing key technologies.

semantic gas;semantic video retrieval;low-level features;high-level semantic concept

TP391.3

A

1007-7820(2012)08-150-04

2012-03-05

孔英會(1964—),女,教授。研究方向:視頻檢索,圖像檢索。劉淑榮(1985—),女,碩士研究生。研究方向:視頻分析與視頻檢索。

猜你喜歡
語義特征方法
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
可能是方法不對
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲色图欧美激情| 不卡国产视频第一页| 亚洲精品视频免费| 成人字幕网视频在线观看| 国产精品开放后亚洲| 91www在线观看| 欧美精品啪啪| 好久久免费视频高清| 亚洲高清无码久久久| 波多野结衣在线se| 91国内视频在线观看| 国产成人你懂的在线观看| 伊人久久婷婷五月综合97色| 免费AV在线播放观看18禁强制| 人妻夜夜爽天天爽| 538国产在线| 久久无码高潮喷水| 亚洲男人天堂2020| 久久黄色视频影| 国产精品美女免费视频大全| 亚洲国产精品无码久久一线| 亚洲狠狠婷婷综合久久久久| 影音先锋丝袜制服| 国产迷奸在线看| 九九热这里只有国产精品| 无码啪啪精品天堂浪潮av| 日本伊人色综合网| 久久香蕉国产线看观| 亚洲区视频在线观看| 精品无码视频在线观看| 99久久99这里只有免费的精品| 狠狠v日韩v欧美v| 欧美国产视频| 性视频一区| 高清欧美性猛交XXXX黑人猛交| 青青青视频蜜桃一区二区| 亚洲高清在线播放| 五月丁香在线视频| 在线观看国产精品日本不卡网| 在线观看国产黄色| 免费观看男人免费桶女人视频| 国产小视频a在线观看| 国产91av在线| 午夜爽爽视频| 久久综合亚洲鲁鲁九月天| 精品国产aⅴ一区二区三区| 美臀人妻中出中文字幕在线| 亚洲成aⅴ人片在线影院八| 久久大香香蕉国产免费网站| 欧美乱妇高清无乱码免费| 免费观看精品视频999| 丝袜久久剧情精品国产| 日本高清免费不卡视频| 亚洲另类国产欧美一区二区| 国产精品亚欧美一区二区三区| 成人亚洲天堂| 特级毛片免费视频| 91在线一9|永久视频在线| 在线观看无码av免费不卡网站| 亚洲av成人无码网站在线观看| 欧美精品1区2区| 视频在线观看一区二区| 激情无码字幕综合| 欧美日韩在线观看一区二区三区| 欧美午夜在线播放| 午夜国产精品视频| 97色婷婷成人综合在线观看| 99国产精品一区二区| 亚洲欧美日韩综合二区三区| 亚洲国产清纯| 亚洲精品午夜无码电影网| 97超级碰碰碰碰精品| 欧洲极品无码一区二区三区| 国产成人夜色91| 夜夜操天天摸| 亚洲精品老司机| 狼友av永久网站免费观看| 亚洲无码视频喷水| 香蕉精品在线| 国国产a国产片免费麻豆| 在线观看91精品国产剧情免费| 71pao成人国产永久免费视频 |