摘 要 數字多媒體文件目前主要包含文本、圖像、音頻和視頻四種主要格式。在對多媒體文件進行搜索時,因為互聯網上的圖像和音、視頻文件的傳播缺乏統一規范,同一內容會采用不同的主題詞來描述,且其包含的內容豐富,數據量較大,因而傳統的主題詞方式不能滿足圖像和音視頻文件的關鍵詞搜索需求。基于內容的搜索引擎是目前搜索引擎技術發展的一個重要課題。
關鍵詞 數字多媒體 基于內容 音頻文件 視頻文件 關鍵幀
中圖分類號: TP37 文獻標識碼:A
隨著互聯網的飛速發展,信息出現爆炸式增長,搜索引擎已經成為了用戶上網查詢信息不可缺少的應用服務。搜索引擎所檢索的信息覆蓋面大,相關度高,在用戶需要進行范圍廣泛的查詢。但是隨著當今網絡上多媒體文件數據的日漸增多,傳統的基于文本的搜索引擎越來越難以滿足用戶的需要。特別對于視頻的查詢,關鍵字的標注往往難以準確描述視頻表示的含義,并且對視頻進行標注需要投入大量的人力,于是基于內容的搜索技術應運而生,迅速成為研究熱點。
數字多媒體文件目前主要包含文本、圖像、音頻和視頻四種主要格式。廣告、新聞等傳媒文件在互聯網上傳播速度快、傳播范圍廣、受眾人數多,依靠人工統計的方式難以實現對其傳播效果的分析。相對于這些傳統媒體,基于互聯網傳播的多媒體文件能夠得到媒體受眾更詳細的信息,包括性別、年齡、收入、學歷、職業等人口統計學數據,還可以得到受眾行為數據包括訪問次數、訪問時間、訪問頻次、停留時間等。網頁多媒體文件獲取的用戶行為信息比傳統媒體如報紙、廣播、電視等更為豐富,用戶還可以主動獲取自己需要的信息并作出反饋,這些受眾信息及數據是用戶訪問過程中,系統自動記錄的,相較于傳統媒體的數據統計,更為精確和可靠。基于以上于互聯網的多媒體傳播效果的特點,我們在越來越多的使用數字多媒體文件,它的傳播效果具有具有廣泛性、準確性、及時性。
采用基于內容的方式對圖像和音、視頻文件進行搜集,其首要問題就是找到能夠有效表示圖像和音、視頻文件內容的特征,因而,圖像和音、視頻文件的特征提取技術是現代傳播效果分析的主要研究內容之一。用戶在搜索某一單一文件或者某類型文件的時候,往往只能使用關鍵詞作為搜索機制。目前基于文本搜索引擎技術發展已經十分成熟,而這類搜索引擎的準確度除了依賴于搜索引擎系統的網頁信息存儲量和詞匯切割的準確度以外,用戶所搜尋的目標文件也是影響其準確度的一個重要因素,如果用戶著重于搜索文本形式的文件,此類搜索引擎的準確率已經很高。但是,傳統的基于文本搜索引擎只能分析網頁中的文本內容,無法滿足用戶對互聯網上越來越多的多媒體文件的搜索查詢需求。如果用戶希望搜索的是圖片、音頻或者視頻類無法在網頁中只用文本就能精確描述其內容的文件,則其準確率就會受到很大影響.因此基于內容的搜索引擎是目前搜索技術發展的一個重要課題互聯網的數字媒體文件搜索中文本搜索的技術是最為成熟和廣泛應用的;近幾年,隨著計算機技術的發展,基于內容的圖像、音頻、視頻搜索技術也逐漸成熟。基于內容的搜索技術嘗試直接分析圖片、視頻及音頻等媒體文件,將它們根據特征分類。用戶可以通過提交一幅圖片或者一段音頻、視頻資料來表達自己的搜索意圖(比如用戶希望能夠搜索到含有類似圖片的網站),搜索引擎系統通過對用戶提交的多媒體文件進行分析、比對,輸出檢索到的信息.我們利用自然語言處理技術、基于內容的音、視頻分析和檢索技術,實現對文本、圖像、音頻、視頻格式媒體文件的多模態搜集、分析,為更專業化的多媒體文件搜索提供完備和準確的數據。
要對多媒體文件進行搜索工作,主要完成數字媒體文件搜集工作。搜集文件首先要完成對網頁的分析工作,以對可能包含待評估數字媒體文件的網頁進行優先爬行,實現在最短的時間內,最大限度的爬行最相關的網頁,對無關的區域不予訪問,以減少對網絡信息的訪問流量和文件的下載量。然后基于數字多媒體文件的相似度的研究結果,對抓取的網頁進行分析,只保留與待搜索文件足夠相似的網頁,這樣可以得到完備、準確的搜索數據,以保證搜索的有效性和實時性。因而對互聯網的數字媒體文件進行搜集是進行文件搜索的第一項工作。
多媒體文件中:文本文件是詞匯的集合,可以通過詞匯相似度來比較文本文件的相似性;圖像文件是由圖像和描述信息共同組成,可以結合詞匯和圖像相似度來共同計算圖像文件的相似度;音頻文件是由聲音和描述信息共同組成,我們用詞匯和音頻相似度來共同度量其相似程度;視頻文件包含的信息最為豐富,其是圖像序列集合,關鍵幀是其中的代表性圖像。除此外還具有文本描述信息和音頻信息,在提取關鍵幀的基礎上,研究融合詞匯、圖像和音頻多種方式的相似性度量方法。對不同類型的多媒體文件,我們采取的內容特征提取的方式不一樣。
文本內容特征常用向量空間模型表示,向量空間模型把文檔看成是由一組詞條構成的,對于每一個詞條,以根據它在文檔中的重要程度賦予一定的權值,因此每一篇文檔都可被看作向量中由一組詞條矢量構成的一個點。詞條在文檔中出現的次數,一個關鍵詞在文檔中出現的次數愈多,其權值越大;所以一個關鍵詞在整個統計語料庫中出現的頻率越少,其在出現文檔中的權重越大。因此,文檔di可以表示成一個特征向量D=(wi1,wi2,…,wim)。為了減少計算量,通常忽略檢測在文本中先后次序。
圖像的內容特征包括基于文本的特征(如關鍵字、注釋等)和視覺特征。只有正確地提取出了圖像中所含內容的關鍵信息,才能對圖片內容進行理解、分析和辨識。圖像的內容特征也分為高級特征和低級特征.低級的特征可以由對圖像的自動分析來獲得,一般是可視化的視覺特征,如圖像的顏色、形狀和紋理等。而高級特征一般是語義相關的,通常只能半自動甚至手動提取,如圖像中人物的名字、圖像的主題等。對不同種類的圖像和不同的應用,用戶所關心的特征都有所不同。圖像文件特征如何正確的表達已經被提取的特征,是一個重要的研究內容。視覺特征描述圖像的基本信息,屬于低層特征,與圖像的具體類型無關,其主要包括色彩、紋理等。
基于內容的音頻檢索,則是通過音頻特征分析,對不同音頻數據賦予不同的語義,使具有相同語義的音頻在聽覺上保持相似。內容特征提取是指尋找原始音頻信號表達形式,提取能代表原始信號的數據。音頻內容特征提取有兩種不同的技術線路:一種是從疊加音頻幀中提取特征,其原因在于音頻信號是短時平穩的,所以在短時提取的特征較穩定;二是從音頻片段中提取,因為任何語義都有時間延續性,在長時間刻度內提取音頻特征可以更好反映音頻所蘊涵的語義信息,一般是提取音頻幀的統計特征作為音頻片段特征。
基于內容的視頻檢索(Content-Based Video Retrieval,CBVR)是根據視頻的內容及上下文關系,對大規模視頻數據庫中的視頻數據進行檢索。CBVR區別于傳統的基于關鍵字的檢索手段,融合了圖像理解、模式識別、計算機視覺等技術。它是一種根據視頻的內容及上下文關系,在沒有人工參與的情況下,自動提取并描述視頻的特征和內容,從而實現對大規模視頻數據庫中的視頻數據進行檢索的技術和方法。CBVR的關鍵技術第一部分為鏡頭分割,第二部分為關鍵幀提取,第三部分為基于特征的視頻索引與存儲組織。
應用基于內容的多媒體文件檢索技術,減少了機器的工作量,檢索結果具有較高的精確匹配度,文件數據庫管理者可以針對不同的文件類型,對關鍵詞檢索技術和基于內容的檢索技術綜合利用,以期達到最好的效果。基于內容的搜索引擎還處在探索階段,目前沒有能得到廣泛運用的通用搜索引擎。有一些研究機構正在嘗試從事特定范圍的基于內容的搜索引擎研究,如針對特定的媒體資料庫建立搜索引擎,或者對特定類型的圖片、視頻及音頻資料進行檢索等。基于內容的多媒體文件檢索技術雖然只是起步,然而其前景是輝煌的,隨著技術問題的逐步解決,基于內容的多媒體文件檢索技術將在信息社會各領域發揮重要的作用。
參考文獻
[1] 邢偉利.基于內容的音頻檢索技術.西北大學學報,2004.04.
[2] 曹亞光.基于內容的視頻檢索.北京理工大學,2006.
[3] 文軍.新聞視頻相似關鍵幀識別與故事單元關聯分析研究.軟件學報,2010.11.
[4] 王建文.一種基于圖像相關的圖像特征提取匹配算法.科技創新導報,2008.11.
[5] 王晟.基于內容的圖片搜索引擎研究,長沙大學學報,2012.03.