【摘要】用戶探索和解析多媒體內容是基于內容檢索的功能上去進行的,其次在多媒體數據中視頻的運用會占絕大部分,它會隨著時間的變化而去改變,具有非常顯著的跳躍性和不穩定性,不能用靜態特征去概括,總結起來會對內容檢索造成很大的困難。有效的對視頻數據進行處理和把控是完善其技術研究的主要目標,做好相關專業技術處理才能從基礎層面去改善情況。本文就主要探討在內容檢索的基礎下,如何對視頻處理技術進行創新和改善,并提出了有效策略。
【關鍵詞】內容檢索;技術處理;視頻
中圖分類號:TN94 ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? DOI:10.12246/j.issn.1673-0348.2021.06..007
伴隨著信息技術的迅速發展,已經形成了信息高速公路的趨勢。而在利用數字視頻這項技術時,人們比較注重它的儲存和傳輸能力。在這一方面確實也取得了比較大的突破。做到足不出戶在家中就可以通過互聯網來進行多媒體數據管理,對遠端的信息和視頻進行訪問。運用網上圖書館、電子購物等功能都非常方便,同時視頻檢索技術在當下也非常受歡迎,對于此類技術來說,市場急需專業性人才,其就業前景非常的廣闊。
1. 視頻數據的結構體系
1.1 序列的組成
視頻數據的組成可以分成諸多種形式,比如場景、幕、幀、鏡頭等。而鏡頭是一種視頻形式,它是由諸多幀共同組成的,可以對同一場景來進行不同形式的描繪,它可以是對攝像機動作或者說是某一個事件的連續動作,其中所涉及到的理念會根據表達的含義、拍攝的角度、面對的對象而改變。幕的組成則是由相關內容的鏡頭共同組合在一起的一段小視頻,它是對某一件事情或故事情節的完整表達。我們所見到的一段完整視頻都是由不同的鏡頭所組合起來的,所以鏡頭也算是視頻檢索的分支,鏡頭中對象的運動形式和圖象幀則是往下延伸的部分,而往上則是場景。所以視頻檢索的基本構成是由一幕幕、一個個場景、一個個鏡頭所共同組成的,如何針對視頻中的鏡頭場景進行合理的處理,是掌握該技巧的最基本的內容。
1.2 鏡頭的切換
視頻鏡頭也受諸多因素的阻礙,鏡頭會受空間的限制,只能對一個地點發生的事情進行不間斷的拍攝,不能做到空間和地點的切換。所能達到的能力有限。所以我們在一部完整的視頻、紀錄片或電影中看到的都是由諸多鏡頭互相剪輯、編輯連接而成的。還有一部分視頻切換的頻率會非常頻繁,而鏡頭所傳輸的時間也非常有限。比如一些故事片、紀錄片、新聞節目等。這一類視頻的表達都可以通過切換鏡頭來實現,它能對不同地點場景和時間所發生的事情來進行合理的鏡頭切換,相反,例如監控視頻和交通狀況以及體育節目賽事轉播,這一類視頻形式,它其中的鏡頭切換可能相對較少,某一個鏡頭所保持的時間會比較長,這些都是要根據不同內容的形式而做出相適應的轉變。如果是監控視頻這種類型,切換是無法有效的抓住鏡頭所發生的時事,從而進行無意義的剪輯。體育項目也是如此,某一些精彩的瞬間或鏡頭,必須要時刻抓住,否則將錯過精彩的視頻剪輯。這一類視頻盡量要做到鏡頭的少切換。它其中最關注的是鏡頭內物體的運動情況。
其次突變和漸變兩種形式都是用來作為鏡頭轉換的。而突變所表達的基本含義是,從上一個鏡頭跳入到下一個鏡頭之間的轉換,中間不會被時間因素所限制,不存在一定的延遲。而漸變從理論上來說是相反的,前一個鏡頭和后一個鏡頭之間的轉換會非常緩慢,重點是強調空間以及時間上的編輯效果,同時它所包含的方式有諸多種,以及它還處在不斷的發展當中。不斷的有新的方式出現。比如一些運用到的比較多的類型:掃轉換、慢轉換、淡入/淡出等。其中掃轉換的開端是沒有具體要求的,它可以是某一個部分的開端,下一個鏡頭逐漸的取代上一個鏡頭。慢轉換顧名思義就是在前一個鏡頭還沒有消失或逐漸減弱時,下一個鏡頭會慢慢加強畫面感。最后淡入/淡出則分別指的是把畫面進行加強,而后慢慢的減弱直至消失。
1.3 鏡頭的運動
鏡頭的運動也作為視頻處理技術中比較重要的一環,它會根據劇情的變化和需要來采取不同的技術處理。對某一個鏡頭的處理,可以通過多個攝像機來共同合作來選取最佳的鏡頭,這樣就可以從不同角度去發現其中的運動狀態。而其中最重要的就是鏡頭的運動,它所包含分為幾個方面。
其一,推拉攝影:所謂推拉則是指兩個運動方向之間的區別,由遠處慢慢向近處拍攝,通過對拍攝對象的記錄,這種方式我們統稱為“推”。而拉則表示相反的概念,從近處的景象開始拍攝,逐漸拉伸為全景,這種運動攝影形式,我們稱之為“拉”。兩種形式都可以通過運動攝影來表達,其次還可以通過變焦的方法體現。其二,搖鏡頭:把云臺來作為軸心點,拍攝過程中拍攝方位可以不斷的去改變,但是其中的觀者是不能去改變觀察位置的,在滿足以下情況下再去轉動頭頸部和眼球來觀看對象的一種體現。根據鏡頭的不斷移動,來對更多更大的情景進行拍攝,這就是所謂的搖鏡頭。其三,跟蹤:拍攝跟蹤與傳統的跟蹤意思理念非常相近,也是根據拍攝對象的移動來進行追蹤。其四,其他:這其中包括幾大類,可以有垂直的移動、俯視、仰視、遠攝、近攝等。
2. CBIR技術的展現狀
CBIR主要是指圖像檢索技術,是針對圖像來進行實踐分析和信息理解的,它的主要圖像檢索形式分為兩大部分,一是視覺特征:主要包括形狀、空間、顏色、紋理關系等。二是語言特征,包括對象語義、抽象語義等。兩者都是有關圖像技術研究的重點。其中顏色嚴格來說是一種視覺信息傳遞,相對來說具有比較穩定和簡單,容易理解的特點。對于各種形式的變化、旋轉、形變都有很強的伸縮性。在現今所有檢索系統當中,它的運用程度可以說得上是最廣泛之一。其用到最多的表現手段分為顏色布局法、中心矩法、直方圖法、顏色對直方圖法等,在這當中直方圖法運用的范圍是最廣的。最后是關于紋理方面的一些簡單定義和描述,由于其目前處于發展和完善階段,還沒有一個較為具體的定義,大多數人認為紋理元素是具有一定規律性質的排列組合,其中會涉及到一些形狀較為簡單,具有重復性質的區域,都把它當作為紋理元素的之一。紋理的含義是比較偏向于視覺感受,一些技術開發人員根據其所表達的特點進行了幾十年的研究,已經提出了許多見解和方法,例如空間域能量法、灰度差分統計法、共生矩陣法等。
3. CBVR技術及其發展現狀
3.1 視頻對象分割
引入視頻對象的引入是MPEG-4的理念,基于對象是其主要功能。但由于發展原因,目前還沒有一個具體的方法去從視頻序列中提取視頻對象,大多數用戶還是需要根據自身的研究和一些具有特定模式的算法來進行運用。以至于國內外大多數學者都分別發表了自己對于視頻對象分割的各種看法,主要可以分為兩大類:時空域信息聯合的分割方法和基于時域信息的運動分割。
時空域信息聯合的分割方法是如何運用的做出了詳細見解。我們可以把它理解為把視頻以像素的形式分解而成的時空塊,要對時間和空間進行雙方面考慮。它的中心含義是需要將圖像區域分割引進到對象分割中,其中會受到區域合并的影響而有所不同。其次就是時空對象分割算法,它也是由諸多法則組合而成:貝葉斯法、區域跟蹤法、運動相似性法等。區域分割上去對時空對象進行分割必須要建立在運動相似性的基礎上,從區域運動相似性上去將圖像區域合理的分割的運動對象是計算區域的特征。還有一種叫聚類算法,它是在區域分割形式上來進行對象分割的,而貝葉斯時空對象分割法的分層形式是需要通過區域及來把運動對象進行分割的一門核心技術。還有我們所熟知的圖像區域,它包含有紋理、形狀、顏色等各方面的特點。以區域運動來對計算區域進行合理估算是它的主要運動特征,運動特征和圖像特征雙方的共同分割對象都是要建立在時空貝葉斯對象分的算法上。而最后所說到的是區域跟蹤,它的主要特點是根據時間軸上的某一塊區域的運動性質來進行搜索,將某個時間段進行預測,以區域時空間關系來入手,用分割視頻對象的方式對區域的時間進行利用。
3.2 視頻特征提取
高層的語義特征以及底層的視覺特征都是視頻特征的分支,其中有關紋理、空間、顏色、形狀這一系列的底層視覺特征,我們把它當做和圖像特征提取的方法來一樣看待就可以了,雙方都是同樣的理念,而其中最為重要的就是視頻的運動特征。
和有關圖像和視頻的內容,我們都需要從它在時間軸上的變化形式來進行判斷,這些都是反應視頻數據最主要特征是運動的由來,它可以輔助我們對視頻進行解析和了解。其次對視頻運動信息進行合理的描繪有諸多方法。其中最主要的幾種是:運動活力屬性,它主要是用來對視頻內容的運動程度進行描繪的,還有目標跟蹤描述局部運動等,而MPEG-7統一對以上幾種方法進行了一定的描述。
最重要的是解鎖視頻數據的方法一直處于摸索中,如果是僅依靠運動信息來去運用的話,所達到的效果不盡人意。根據總結,絕大多數時候它需要與視覺信息特征去配合才能發揮意想不到的好效果。
3.3 視頻索引技術
對視頻數據進行分析,通常可以建立兩種索引形式。第一種則是對目標或運動物體等語義基元的索引,這一種索引方式內容比較復雜,在提取完后還需要去進行注釋。第二種是基于視覺特征的索引,這一類相對提取比較簡單,從關鍵幀中就可以去完成。
對視覺基元所包含的含義進行索引是要建立在視覺特征的基礎上,一些科技人員通過對語言符號進行過分析和發表過自己的看法。把符號組成傳遞的信息看作是視覺基元的基本含義,把底層視覺特征定期進行檢查,以及對它們的組合形式去自動提取含義就理所應當了。比如紋理、形狀、顏色等視覺特征,我們就可以把它化為模型化當做多維特征的點,其中還包括點訪問法這種索引形式,在實際運用當中對于表達性質所包含的特征數量和距離就是點訪問法的核心理念,其中絕大部分在性能方面。它所包含的特征數量在超過10時都會呈下降趨勢,所以先映射到低維空間,再對高維數據進行索引才是合理辦法,領域相關性小是視覺特征最主要的特點。基于這一特點。在對視頻特征進行索引時,可以將它運用到不同領域的視頻當中,運用圖像處理技術和分析技術去從視頻中進行提取也是視覺特征所包含的特點之一。
其次對語義特征進行索引又是不同的方式,它主要是要將目標進行圍繞的語義基元和有關視頻元素摻雜的含義,還可以把它當做查詢圖中提取去做比較,其中所涉及到的專業知識技術非常復雜和廣泛,它的視頻內容和相關知識需要具有一定專業技能的人才才能去合理運用,總的來說,這個運動索引的提取過程是相當復雜的。
3.4 視頻檢索技術
對視頻數據進行解析的時候,我們要先認識它的概念。它除了圖像信息之外,同時還對時間和空間運動等信息有包含,在視頻檢索技術發展的途中,人們通常認為它是信息檢索領域中一直讓人頭疼的一個問題。經過研究人們發現的主要原因是在時空信息方面的理解和描繪相當有限,缺少一定的實踐工具。在對視頻進行解鎖的途中,對于人的感知存在和有關底層信息的獲取存在一定的差異,在線研究數據上體現的主要原因,其中包括三大類:視頻中出現的片段、如何定位鏡頭、相似性檢索、相似的片段檢索,其中運用的最多的使特征檢索。
如何分辨視頻跟圖像的區別,通過運動的特征來進行分析是最有效的,所以在展開有關視頻索取的工作的同時,絕大部分都會注意力放在運動特征上。在對特征進行提取時,我們一定要先對全局運動有所了解和估計,以此來減弱對視頻運動的印象。通過群體運動來對攝像機運動進行合理的消除,在對一些事物進行分析時。可以通過幀差法去調整。
3.5 缺乏專業的知識人才和培訓計劃
視頻處理技術嚴格意義上來說屬于高新技術領域,對人才的需要和技術的考量有著非常嚴格的要求。所以就目前我國國內情況來看,缺少一定的專業性和實用性的知識人才。導致有關視頻技術處理方面無法有效進展。同時應該對從事該領域的相關工作人員進行適當的培訓和提升,從加強其基礎專業技能為目標,最終為我國關于視頻處理技術研究提供一份力。
4. 國內外視頻檢索現狀
國內外把CBVR的系統運用都做出了不同詮釋,其中國外把它則當為重點項目來進行研究,而目前的發展形勢來看,國外已經對CBVR系統進行了多年的研究,已經有非常完善的系統體系了。麻省理工學院相關的研究團隊已經研究出了photo book系統,已經可以基本的對視頻檢索和特征進行有效的運用了。而IBM公司對于視頻檢索技術也進行了有效的時間探析,做研發的QBIC系統也是用來作為商用服務的,它包含的價值信息是基于內容的形式下對信息檢索系統的代表。還有一些比較著名的大學,比如卡耐基梅隆大學,它們已經研究出了IDVL項目,與此同時還有哥倫比亞大學,所研發出來的video Q系統在發展過程中竟然還有諸多不完善的地方,對于商業價值和需求還達不到目標。但是把它當做參考意義來說是非常值得的,具有一定的商業價值。
在有關視頻文字識別、視頻分段自然語言處理、語言分析、人臉檢測等各個方面的知識,都是卡耐基梅隆大學所發明的IDVL系統中的內容,其中的內容大部分的包括了視頻資料的檢索,相對來說其包含的商業價值和信息量來說是非常完善的,而哥倫比亞大學的video Q系統在對主題瀏覽信息的查詢途徑和方法上進行了有效創新和升級,同時對于關鍵字進行了有效的擴充。讓客戶在信息系統使用的過程中,可以對時空關系和視覺特征來有效檢索。
而在國內對于視頻技術處理的內容檢索還存在著一定的差距,從技術人員到基礎設備和發展理念上都還需要完善和加強,還有非常長的道路要走。目前還處于一個探索的階段。主要有著初步的理念和設計方法。在其中一些較為專業和具有規模性質的CBVR應用系統上,還是存在著較大的技術缺陷的,在與國外研究團隊和人才進行對比時還有差距。所以我們需要正確的認識到自身的不足,抱著學習的態度進一步來提高自身的技術水平,進一步加強相關的技術研究和系統開發。
5. 結語
根據總結,關于視頻處理技術的有關檢索技術在我國還處于上升的發展狀態,還有非常多可以進步和提升的地方。總體來說還處于一個初級階段,目前我們只是在對某些算法上表達了自己的看法和做出了一定的實踐設計,但在有關相應的操作系統和完整的體系方面,還存在著一定的缺陷。所以我們需要從培養人才的角度和提升專業知識進行培訓教學方面都應該下更多功夫,經過不懈的努力和研究來獲取更大的效果。
參考文獻:
[1]余時強,張錚,張為華.近似重復視頻檢索方法研究[J].電子技術應用,2016,5:24-26.
[2]黃鶴,孟廣仕.一種基于內容的視頻檢索系統設計[J].科技創新與應用,2015,1:53.
[3]鄭銀環.基于內容的視頻檢索技術研究[D].2010.
[4]武獻宇,夏樹偉.基于內容的視頻處理和檢索技術[J].科技情報開發與經濟,2007(13):234-236.
作者簡介;楊光明,四川綿陽人,工程師,碩士研究生,單位:四川九州電子科技股份有限公司,研究方向:視頻處理技術.