段峰峰 段思遙
摘要:立體視覺資源與二維視覺資源相比,在結構原理、內容表達、視覺呈現等方面更為復雜,以二維視覺資源的分類方式對其進行管理存在缺乏資源特點、描述不準確、處理復雜度高等問題。對立體視覺資源分類方式進行了研究,闡述了基于存儲形式、編碼格式、顯示原理、顯示分辨率、結構格式、視差類型、內容類型的分類方式及原理,為更好地實現立體視覺資源的管理、利用及研究提供思路和借鑒。
關鍵詞:立體視覺資源;分類;編目存儲;檢索
DOIDOI:10.11907/rjdk.181071
中圖分類號:TP301
文獻標識碼:A文章編號文章編號:16727800(2018)009005204
英文標題Research on the Classification of Stereo Vision Resources
--副標題
英文作者DUAN Fengfeng1,2,DUAN Siyao1,2
英文作者單位(1.School of Journalism and Communication,Hunan Normal University,Changsha 410081,China;
2.Hunan Social Public Opinion Monitoring and Network Public Opinion Research Center,Changsha 410081,China)
英文摘要Abstract:Compared with two-dimensional visual resources,stereo visual resources are more complex in structure principle,content expression,visual presentation etc.There are many problems,such as lack of resource features,inaccuracy of description,high complexity for processing when managing the stereo visual resources by the classification methods of two-dimensional visual resources.The classification methods are studied for stereo visual resources to better facilitate catalogue,management,retrieval and utilization.In the paper,classification methods and principle based on storage form,encoding format,display principle,display resolution,structure format,disparity type and content type are discussed.The purpose is to provide ideas and references for better management,utilization and related research of stereo vision resources.
英文關鍵詞Key Words:stereo vision resources; classification; catalogue; retrieval
0引言
隨著立體視覺技術不斷成熟,其產業迅速發展。不同于傳統的二維視覺資源,立體視覺資源關鍵在于存在深度信息,能夠以全新立體化方式將視覺內容呈現給用戶,使用戶具有立體全真的體驗,而立體視頻技術則給用戶帶來了更加真實的體驗效果。立體視覺技術及資源在影視娛樂、科技、教育、醫療、工業等諸多領域都具有廣泛應用,隨著相關領域的發展,立體視覺技術產業在未來社會發展中將不斷增長,產生更大的應用價值。
計算機技術、數字媒體技術、互聯網技術的發展促使網絡數字資源不斷增加,以立體視覺技術為支撐的數字立體視覺資源和內容迅速增多,資源類型也呈多樣化,如圖像、視頻等立體視覺資源,半結構化、非結構化立體視覺資源,以及其它各種結構形式的立體視覺資源等。其在管理和利用方面與二維視覺資源相比具有一定的特殊性和差異性,對其進行分類研究,能較好地支持海量立體視覺資源的有效管理,實現高效的編目存儲和檢索,促進立體視覺資源更好地發展和利用。
1基于存儲形式的立體視覺資源分類
1.1立體視覺文本資源
立體視覺文本資源包括立體視覺文本和立體視覺資源文本描述。立體視覺文本指文檔和文件中的立體視覺文字,是立體視覺資源的呈現形式之一。該類立體視覺資源可以增強文本呈現的藝術性和視覺的真實感,是最簡單的立體視覺資源。立體視覺資源文本描述指立體視覺資源元數據,即基于文本對立體視覺資源進行的描述和說明,目的是更好地實現立體視覺資源高效、精確的編目管理,更好地實現基于文本的立體視覺資源獲取。
1.2立體視覺圖像資源
立體視覺圖像資源是基于立體視覺原理和技術的圖像數據。立體視覺是雙眼觀察景物能分辨物體遠近形態的感覺,即包含有重構場景的三維幾何信息。立體視覺圖像獲取有多種方式,目前主要是通過立體相機或攝像機實現。從原理上分析,立體視覺圖像獲取和實現方式有[1]:①利用測距器獲取范圍數據(Range data)信息或深度信息,并通過此信息建立三維場景;②根據近大遠小原理,利用一幅圖像所提供的深度信息建立三維場景和立體描述;③利用不同視點拍攝的圖像進行三維場景構建,即通過兩幅或兩幅以上圖像信息重構三維場景。
1.3立體視覺視頻資源
立體視覺視頻是隨時間連續的具有語義關聯的立體視覺圖像集合,是一種連續動態的視覺表達形式,本質上基于立體視覺圖像原理和技術。它能提供一種具有全新立體感的視頻表達形式,增強用戶的真實感體驗。與單通道二維視頻相比,立體視頻一般有兩個或兩個以上視頻通道,數據量遠遠大于單通道視頻,所以對立體視頻的高效壓縮尤為重要。目前對立體視頻的研究主要有視差估計、信息隱藏、錯誤隱藏、壓縮編碼、網絡傳輸、質量評價等[2]。
1.4立體視覺3D模型資源
3D模型是通過3D建模工具制作和生成的立體視覺文件形式,如3Ds Max、Maya等生成的3D模型源文件。盡管3D模型構建和呈現方式多樣,但其本質依然是基于雙目或多目視覺原理。隨著3D技術的發展, 3D模型文件在不同的應用領域以多種不同的文件格式存在[3]。
2基于編碼格式的立體視覺資源分類
2.1基于不同編碼存儲方案的立體視覺資源
雙目或多目立體視覺圖像及視頻的存儲主要有兩種方案:①直接對各個單視點文件進行獨立編碼存儲;②采用“單視點+深度”方式進行編碼存儲。單視點獨立編碼存儲是針對雙目或多目立體視覺圖像或視頻,對每個視點獨立進行編碼存儲,其本質是基于二維圖像或視頻的方法和技術,對每個視點文件進行獨立處理。該方式主要通過單通道內冗余信息的處理和壓縮實現立體視覺圖像或視頻的優化及編碼存儲[4]。對于單視點深度編碼存儲,每個單視點并不是獨立存在,而是具有一定關聯關系,其在內容獲取時通過同步設備對同一場景進行捕捉,因而在編碼存儲時可根據視點間的關系和依賴性進行處理,即采用“單視點+深度”的方式。單視點一般選取左視點,而深度則是通過視點間的匹配形成視差,進而計算出深度信息而獲取[5]。通過“單視點+深度”的形式可以大大減少立體視覺圖像或視頻的數據量,不僅可實現單通道內冗余信息的壓縮,而且可根據關聯關系實現通道間的冗余信息壓縮,在顯示時通過視點間的信息實現再現。
2.2基于不同編碼類別的立體視覺資源
主要是基于有損壓縮和無損壓縮形式存在的立體視覺資源。有損壓縮利用人類對立體視覺圖像或視頻中的某些頻率成分不敏感特性,允許壓縮過程中損失一定的信息。雖然不能完全恢復原始數據,但所損失的部分對理解原始圖像影響較小,由此換來較大的壓縮比。無損壓縮是利用數據的統計冗余進行壓縮,可完全恢復原始數據而不引起任何失真,但壓縮率通常受到數據統計冗余度的限制。該方法常用于立體視覺文本數據和特殊應用場合的圖像數據(如指紋圖像、醫學圖像等)壓縮,用于視頻資源壓縮較少。
2.3基于不同編碼算法的立體視覺資源
基于存儲和呈現形式的立體視覺資源類型很多,各種類型所采取的編碼算法也不盡相同,根據不同的存儲和傳輸需要,編碼算法也可能不同。立體視覺資源往往數據量較大,在傳輸中尤其需要高效的編碼算法。基于此,一些優秀算法在立體視覺資源編碼存儲中具有重要應用,如JPEG、PCM、MPEG、H.264等。
2.4基于不同文件格式的立體視覺資源
以立體視覺形式存在的內容資源,最終表示的格式多種多樣,根據文件編碼和存儲形式所形成的文件格式也有多種類型,這些類型的文件格式分別以不同的擴展名存在,如.jpg、.avi,以及3D模型文件格式.stl、.3ds、.obj等。
3基于顯示原理的立體視覺資源分類
3.1雙目立體視覺資源
雙目立體視覺資源主要包括雙目立體視覺圖像資源和雙目立體視頻資源。雙目立體視覺是機器視覺領域的重要技術之一,它基于視差原理并利用成像設備,從不同位置或角度獲取被測物體的兩幅圖像,通過計算圖像對應點間的位置偏差獲取物體三維幾何信息。成像時根據不同視角的雙目圖像,基于視差原理恢復為物體及場景的立體信息,重建物體三維輪廓及位置,與平面視覺圖像的最大區別在于其擁有深度信息[6]。雙目立體視頻是對同一物體或場景進行拍攝所獲取的兩路合成或兩路分離的視頻形式,并基于雙目立體視覺圖像原理進行顯示,達到立體呈現畫面的效果。
3.2多目立體視覺資源
多目立體視覺資源包括多目立體視覺圖像資源和多目立體視頻資源。多目立體視覺圖像和視頻是基于雙目立體視覺原理,用多臺相機或攝像機從多個不同角度對同一物體或場景進行圖像獲取,并基于一定結構形式進行顯示,從而產生立體視覺效果的方式。多目立體視覺是雙目立體視覺的拓展和延伸,具有更為真實、全方位的立體呈現效果。通常所見的多目立體視覺有8目立體視覺、16目立體視覺、32目立體視覺等。多目立體視頻往往比雙目立體視頻更為復雜,需要解決獲取和顯示的同步性問題。
3.3體顯示立體視覺資源
體三維顯示是在一個具有寬度、高度和深度的真實三維空間內進行圖像信息再現的技術,也稱空間加載顯示(Space-Filling Display)。它以體素作為圖像信息顯示的基本要素,因具有真實體積和深度,故也稱為“真三維顯示技術”。體三維顯示通過適當方式激勵位于透明顯示體積內的物質,利用可見輻射的產生、吸收或散射而形成體素。當體積內許多方位的物質都被激勵后,便形成由許多分散體素構成的三維圖像,浮在真實三維空間即觀察者所在的物質世界中。就像一個現實三維物體一樣,能自動滿足幾乎所有生理和心理深度暗示,可多人多角度同時裸視觀察,完全符合“真三維交互、自由裸視”要求,是一種支持人機交互的理想三維顯示方式。體三維顯示包括基于切片式投影的體顯示和基于掃描旋轉螺旋面的體顯示[7]。
3.4全息立體視覺資源
全息立體成像是基于幻影成像方式,將物體的全息影像投射到透明介質上,利用干涉原理和光束疊加產生3D立體觀感。全息成像是先利用干涉原理記錄物體光波信息,實現影像拍攝;然后利用衍射原理再現物體光波信息,達到成像效果[8]。
3.5三維全景立體視覺資源
三維全景是基于全景圖像的真實場景虛擬現實技術,通常是把相機環360°拍攝一組或多組照片拼接成一個全景圖像,經過一系列數學計算得到其球形全景的矩形投影圖或立方體圖,然后通過計算機技術實現全方位互動式觀看。三維全景技術主要包括全景圖生成技術和后期制作合成技術。全景圖生成技術包括全景圖像采集技術、圖像預處理技術、像素坐標及相機焦距估計技術、全景圖投影模型技術等[9]。后期制作合成技術是針對前期拍攝的全景素材,基于全景拼合技術并使用全景拼合軟件進行圖像拼合處理,從而實現大視角的全景展示以及立體化場景體驗[10]。三維全景有360°全景和720°全景兩種形式。360°全景展示能體驗到水平方向的全方位展示效果,而720°全景展示既能體驗到水平方向,也能體驗到垂直方向的全方位立體效果,是完全的場景展示。
3.63D動畫立體視覺資源
三維動畫通常基于制作軟件(如3Ds MAX、Maya等)在計算機中首先建立一個虛擬世界,按照要表現對象的形狀尺寸建立模型及場景,設定模型的運動軌跡、虛擬攝影機的運動和其它動畫參數,然后按要求為模型賦上特定材質并打上燈光,最后通過渲染生成動畫資源。它是基于時間線的3D序列模型文件的集合,將現實世界場景以更加真實、立體化的方式全方位呈現出來,給用戶全真的感官體驗。
4基于顯示分辨率的立體視覺資源分類
4.1標清立體視覺資源
標清(Standard Definition,簡稱SD)是物理分辨率在720p以下不足以達到高清標準的一種視頻格式,其分辨率在400線左右。常見的標清形式有480×320像素、640×480 像素視頻。以標清分辨率標準表示和呈現的立體視覺資源即為標清立體視覺資源。
4.2高清立體視覺資源
高清(High Definition,簡稱HD)最早由美國電影電視工程師協會(SMPTE)等權威機構制定相關標準。國際上公認的高清標準是:視頻垂直分辨率超過720p(逐行掃描)或1080i(隔行掃描),視頻寬高比為16∶9。常見的高清分辨率為1 024×720p 和1 920×1 080i。以高清分辨率標準表示和呈現的立體視覺資源即為高清立體視覺資源[11]。
4.3全高清立體視覺資源
全高清(Full High Definition,簡稱Full HD)指垂直分辨率為1 080p的視頻形式,即分辨率為1 920×1 080p。以全高清分辨率標準表示和呈現的立體視覺資源即為全高清立體視覺資源。
4.4超高清立體視覺資源
超高清(Ultra High-Definition,簡稱Ultra HD)由國際電信聯盟(International Telecommunication Union)界定,將屏幕的物理分辨率達到3 840×2 160(4K×2K)及以上的顯示稱為超高清,是普通Full HD(1 920×1 080)寬高的兩倍,顯示設備總像素數量達到800萬以上。常見的超高清有“4K分辨率(3 840×2 160 像素)”和“8K分辨率(7 680×4 320像素)”兩種形式。以超高清分辨率標準表示和呈現的立體視覺資源即為超高清立體視覺資源。
5基于結構格式的立體視覺資源分類
基于結構格式的立體視覺資源主要針對立體視覺圖像和視頻,本分類方法以常見的雙目立體視頻為例闡述不同類別結構格式的立體視覺資源形式[1213]。
5.1左右分離立體視覺資源
左右分離是指兩路獨立的視頻格式,和正常的左右合成格式基本相似,其視頻分辨率不發生變化,在編碼、存儲、傳輸等相關處理中可獨立操作,一般數據量較大。左右分離是目前較好的偏光立體視頻格式。
5.2左右合成立體視覺資源
包括正常左右合成格式和變形左右合成格式。正常左右合成是把左右兩路視頻合成一個視頻的偏振格式,左右視頻寬度、高度均不變,直接合成后一般是較寬的非標準格式。變形左右合成也稱為標準的左右格式,這種格式的立體視頻是一種常見的結構形式,長寬比通常是標準形式,一般為1 080P、720P、576P、480P的標準視頻。合成時分別將寬度除以2,高度不變,通過立體視頻播放器播放和顯示。
5.3上下合成立體視覺資源
主要包括正常上下合成、變形上下合成、隔離變形上下合成等格式的立體視覺資源。正常上下格式和左右格式基本一樣,也是非標準寬高比的視頻格式,是將兩路視頻以上下方式排放,寬度、高度均不變。變形上下格式也稱為標準的上下格式,具有標準的寬高比,合成時圖像左右伸拉變形,上下視頻分辨率分別在縱向上除以2,橫向不變。隔離變形上下格式是一種間隔變形上下格式的立體視頻形式,合成時同變形上下格式幾乎相同,只是中間有一條黑色間隔,在分辨率上保持寬度不變,高度分別除以2。
5.4交錯格式立體視覺資源
包括逐行掃描交錯格式和隔行掃描交錯格式立體視覺資源。逐行掃描交錯是兩重影的交錯格式,是一種比較科學但較為復雜的偏振立體格式,運用了反交錯技術。隔行掃描交錯是垂直方向隔行掃描的條形交錯格式,以交錯場直接顯示一幅立體幀。
5.5互補色格式立體視覺資源
互補色立體視覺資源是利用不同色光混合后能得到白光的原理,將以互補色表示的對象或場景進行影像重疊而產生視差,從而形成立體感[14]。包括綠紅格式、紅青、紅藍格式、紅綠格式、紅藍格式、棕藍格式、黃藍格式、黑白紅青格式等立體視覺資源。
6基于視差類型的立體視覺資源分類
雙目立體視覺系統中,立體效果的呈現關鍵在于雙目視差,而視差是由雙目成像的左右視覺差異產生的,在顯示中以雙目圖像對方式呈現。視差具有垂直視差和水平視差之分,水平視差相對于垂直視差能夠達到更理想的立體視覺效果,且能較好地實現視覺舒適度[15]。在相關研究和成像實踐中通常針對水平視差,水平視差包括正視差、負視差、零視差[16]。
6.1正視差立體視覺資源
雙目立體視覺正視差又稱入屏,指觀察者所觀測到的左右視覺成像點在成像面后,即被觀察到的影像或對象在屏幕后,遠離觀察者。基于正視差原理的視覺資源(如立體視頻鏡頭、片段等)即為正視差立體視覺資源。一般常用于需要表達視野開闊、場面宏大的視頻鏡頭或片段中。
6.2負視差立體視覺資源
雙目立體視覺負視差又稱出屏,指觀察者所觀測到的左右視覺成像點在成像面前,即被觀察到的影像或對象在屏幕前,靠近觀察者,通常會有“飛”出屏幕的感覺。基于負視差原理的視覺資源(如立體視頻鏡頭、片段等)即為負視差立體視覺資源,常用于表達驚悚、刺激、夸張的視頻鏡頭或片段中。
6.3零視差立體視覺資源
雙目立體視覺零視差,指觀察者觀測到的左右視覺成像點在成像面上,即被觀察到的影像或對象在屏幕上。在正視差和負視差情況下畫面對像呈現具有明顯深度,相應的視覺顯示呈立體感。零視差則沒有深度信息,相應的立體感也不明顯,但通常在立體視頻視覺顯示時用作正視差和負視差之間的過渡,以使視差和深度變換過程具有漸進性,緩解和減少觀察者的視覺疲勞。
7基于內容類型的立體視覺資源分類
基于內容類型的立體視覺資源主要根據常用的《廣播電視節目資料分類法》對其進行分類[17],分為政治類、法律類、軍事類、經濟類、文學藝術類、體育類、歷史地理類、科學技術類、醫藥衛生類、社會生活與社會問題類、娛樂休閑類、文化類、教育類、哲學宗教類、城鄉建設與環境類等立體視覺資源,根據需要可對各類資源進行二級、三級等深層次分類。
參考文獻參考文獻:
[1]塞利斯基.計算機視覺:算法與應用[M].艾海舟,興軍亮,譯.北京:清華大學出版社,2012.
[2]董全武,周同,郭宗明,等.立體視頻鏡頭誤差檢測和質量分析[J].北京大學學報:自然科學版,2014,50(6):9981006.
[3]李彥生,尚奕彤,袁艷萍,等.3D 打印技術中的數據文件格式[J].北京工業大學學報,2016,42(7):10091016.
[4]VETRO A,WIEGAND T,SULLIVAN G J.Overview of the stereo and multiview video coding extensions of the H.264/MPEG4 AVC standard[J].Proceedings of the IEEE,2011,99(4):626642.
[5]趙慧敏,姜秀華.基于視頻加深度格式的立體視頻技術分析[J].電視技術,2014,38(1):25.
[6]TSINGALIS I,TEFAS A,NIKOLAIDIS N,et al.Shot type characterization in 2D and 3D video content[C].2014 IEEE 16th International Workshop on Multimedia Signal Processing (MMSP),2014:15.
[7]潘文平,沈春林,蔡亮,等.交互式動態體三維顯示關鍵技術[J].科技導報,2011,29(1):4451.
[8]余文濤,張漢樂,鄧歡,等.基于全息光學元件的增強現實3D顯示系統[J].中國激光,2016,43(10):202208.
[9]趙陽.三維全景圖像生成的若干關鍵技術研究[D].沈陽:沈陽理工大學,2015.
[10]秦曉軍,黃秋儒.面向網絡視頻的三維全景展示技術[J].電視技術,2014,38(19):120122.
[11]崔建.從模擬到數字、從標清到高清——視頻記錄存儲設備的歷史回顧和發展(下)[J].現代電視技術,2016,(2):8891.
[12]邱麗娜.2D+深度格式的3D視頻重建技術研究[D].武漢:華中科技大學,2013.
[13]李響.立體影片格式有多少種[EB/OL].天極網,http://news.yesky.com/4/33946004.shtml,20121031.
[14]劉妍秀.3D顯示技術的原理及應用[J].長春大學學報,2011,21(12):5254.
[15]蔡輝躍.虛擬場景的立體顯示技術研究[D].南京:南京郵電大學,2013.
[16]段峰峰,王永濱,楊麗芳,等.一種時間一致性立體視頻深度圖序列估計算法[J].計算機應用研究,2015(10):31423146.
[17]全國廣播電視標準化技術委員會.GY/Z 199-2004.廣播電視節目資料分類法[S].北京:國家廣播電影電視總局,2004.
責任編輯(責任編輯:杜能鋼)