成于慶,姜秀華
(中國傳媒大學 信息工程學院,北京 100024)
立體電視(Stereoscopic Television)又稱三維電視(Three Dimension Television,3DTV),是數字電視和新媒體領域的一大熱點。與現行電視相比,主要區別在于現行電視只傳送一個平面的信息,而立體電視還傳送物體的深度信息。立體電視在一個平面內使人們可直接看到三維立體圖,畫中事物既可以凸出于畫面之外,也可以深藏其中,給人身臨其境的感覺,有很高的藝術欣賞價值。立體電視視頻的質量直接影響著立體電視技術的發展。目前關于立體電視視頻質量評價缺乏科學體系和行業統一的測定標準,國內外很多學者已經開始關注研究。筆者基于目前各方提出的測定標準,從立體電視技術鏈的角度,歸納出可能影響立體電視視頻質量的各個因素,以及對視頻質量的具體影響表現。
人的視覺特性和電視的電光轉換成像原理是立體電視的2個最基本的依據,2個稍有差別的圖像進入相距6~7 cm的雙眼后,由于雙目視差的存在,在大腦中綜合成有立體感的圖像。引起這種立體感覺的效應叫做“視覺位移”。兩眼同時觀察一個物體時,物體上每一點對兩只眼睛都有一個張角。物體離雙眼越近,其上每一點對雙眼的張角越大,視差位移也越大。
對于平面圖像序列,由于進入眼睛的是一幅幅角度完全相同的圖像,所以視覺和大腦無法提取畫面上物體真實意義上的空間立體感,不能體現其三維關系。而立體圖像與平面圖像有著本質的區別,平面圖像反映了物體上下、左右二維關系。人們看到的一些平面圖也有立體感,這主要是運用光影、虛實、明暗對比來體現的,而真正的立體畫是模擬人眼看世界的原理,利用光學折射制作出來,它可以使眼睛感觀上看到物體的上下、左右、前后三維關系,是真正視覺意義上的立體畫。
Julesz曾經就利用隨機點圖證明雙眼視差可以同任何視覺經驗無關[1]。后人據此建立了基于雙眼視差的立體視頻質量客觀評價的模型。
從立體電視技術鏈的角度分析,一個完整的立體電視系統主要由采集制作、發端壓縮編碼、信號傳輸、收端硬件解碼和立體顯示這5大環節組成[2],如圖1所示。最后觀眾通過佩戴立體眼鏡或者裸眼方式看到立體視頻。每個環節都可能造成視頻質量不同程度的損傷,影響最后的立體效果。
立體視頻質量的好壞很大程度上取決于前端立體視頻信號源的質量。首先考慮立體視頻內容的獲取途徑。總的來說,途徑可分為3大類:立體拍攝、立體動畫制作以及2D轉3D視頻方法,如圖2所示。


立體拍攝方法有多種:
1)使用三維掃描儀刻畫出相機到場景中每一個物體像素點的物理距離,深度信息刻畫非常精確。但是其價格昂貴,掃描時間長,只能掃描靜態物體,不能進行動態場地的三維掃描,掃描場景區域有限,因此不具備普適性。
2)使用深度相機,同樣也能獲取場景中的三維信息,但是因為深度相機較多地采用紅外線方式進行深度測量,如果發射出去的射線經過了若干個面的反射,比如反射到墻上,墻反射到地上,地又反射到桌子上,然后反射回接收器,深度計算就會產生比較大的偏差,因此精度比較低,產生的立體畫面質量比較差。
3)使用多相機拍攝系統。雙目采集通過2個攝像頭模擬人的雙眼,方便得到場景跟人眼匹配的立體信息。但是缺點在于:首先2個攝像鏡頭不可調整,其次只有2個視點,用戶無法選擇新的視點觀看場景,即缺乏交互功能。多目采集正好彌補了這些缺點,但攝像機數量多,攜帶不便,數據量非常大,壓縮起來困難。清華大學建立了一個環形的光場采集系統,在籠子里鋪上一圈攝像機,配不同的光照,采集過程中實現變光照,然后多相機多角度采集。當然,這個系統攝像機數量多,數據量也非常大,而且采集過程中光照不停變化,分析數據特性比較困難。Ijsselsteijn等人專門研究了拍攝機器參數變化對立體圖像質量的影響,對3D電視系統數據采集的攝像機參數優化有指導意義[3]。用多相機模擬系統代替人眼拍攝立體視頻存在2個問題。首先,人眼具有快速的視線聚合距離調整功能,模擬系統附加自動控制裝置模擬這些人眼的細微運動比較困難。其次,多臺攝像機的曝光、鏡頭縮放和聚焦控制必須做到同步,否則會存在stonekey,crosstalk等扭曲效應[4]。圖3為立體拍攝設備實物舉例。

計算機制作生成三維動畫的軟件非常多,如3ds Max,Maya等。這方面對立體視頻源質量不在討論范圍內。
目前通過2D轉3D技術獲得的立體視頻質量普遍不高。2D轉3D方式首先使用普通攝像機拍攝立體環境,通過光線透過鏡頭在CCD成像面上得到二維圖像,通過二維信息換算或者反算回原有的三維信息,在視覺上是一種求解過程,但未知變量個數遠遠大于所能建立起來的方程數,因此解非常多。正因如此,最終恢復出來的三維場景的結果只能是一個近似結果,不可能還原成真實的三維場景。此外,還有一個問題,因為變量個數很多,方程個數同樣很多,整個求解復雜度非常高,導致立體效果較差。
立體電視的拍攝制作都是在保持左眼信號與右眼信號分離與獨立的情況下進行的,不進行混合與碼流壓縮,保持2個信號的高質量,一旦完成制作,就要根據應用考慮下一步的處理。
現行電視只傳送一個平面的信息,而立體視頻還需傳送深度信息,立體視頻要拍攝左右眼2路視頻。這種逼真感的直接代價就是2倍甚至更多于普通視頻的數據量,這給立體視頻的傳輸和存儲帶來困難,所以必須借助于高效的編碼技術壓縮數據量。
目前立體視頻壓縮編碼方法主要有基于視差估計的編碼、多視點視頻編碼和三維網格編碼3種技術[5]。基于視差估計的編碼是尋找各視點圖像間的空域相關性,但重建的目標圖像塊效應比較嚴重。多視點視頻由放置于不同位置的攝像機對同一場景同步拍攝獲取的多個視頻序列構成,用戶觀看時可改變視點或視角。同一個場景內多個視點的畫面之間存在很高的相關性,編碼時通過消除空間冗余和時間冗余壓縮數據量,但由于不同視頻有其基于內容的特殊性,壓縮方式不一定適用于所有內容的立體視頻。三維網格用于描述三維場景、人臉部表情和身體動作的變化,通過三維建模軟件和三維掃描獲取三維網格模型,數據量巨大,一般通過量化法向、紋理坐標、顏色、頂點軌跡等屬性達到壓縮的目的,而量化造成了視頻質量不可避免的下降[6]。
Stelmach等人研究了立體視頻編碼技術與主觀感知質量間的關系。通過研究左右2視點在不同壓縮率和不同空間分辨力對立體圖像質量的影響時發現,立體圖像質量主要取決于質量較高的圖像視點,這意味著只要保持主觀質量較好的那個視點碼率不變,適當降低另一個視點圖像的編碼碼率,不會影響立體圖像的主觀質量[7]。
在研的編碼方法還包括多描述編碼(Multiple Description Coding)、信道自適應編碼(Channel Adaptive Coding)以及多視點視頻編碼(Multiple Visual Coding),不斷減小編碼環節對源視頻造成的損傷。
立體信號的傳輸離不開目前的電視傳輸手段——有線傳輸、衛星傳輸、地面傳輸以及新興的互聯網傳輸(IPTV)。3D電視數據量巨大,傳輸帶寬加大,而且數據之間還有非常緊密的聯系,傳統傳輸技術面臨挑戰。
目前國際上立體電視主要是基于衛星傳輸的立體電視業務。為了讓已安裝機頂盒的用戶解碼立體信號,基于衛星傳輸的立體電視業務傳輸的是空間交錯的SBS(Side-by-Side)的半高清立體信號,需戴眼鏡觀看。SBS方式將每幀圖像一分為二,顯然這種方式以犧牲水平分解力為代價。與SBS相對應的是up/down方式,減半垂直分解力,即每幀圖像在垂直方向上像素減半,減半的左右眼圖像合并成新的一幀,其碼流與SBS方式相當,都造成清晰度下降。
新興的基于互聯網的立體視頻點播傳輸系統框架如圖4所示。在整個框架中,立體視頻點播服務端可以和多個客戶端相連,負責立體視頻數據的RTP封裝、發送,RTSP命令的響應等,客戶端利用RTSP協議點播立體視頻節目,實現節目的播放、暫停、停止、隨機訪問等操作。網絡服務端利用網頁的方式發布節目,客戶端利用瀏覽器了解節目的相關信息并進行點播。傳輸對視頻質量造成的影響主要包括以下4點:
1)音視頻同步。當聲音與顯示的視頻圖像不匹配時,稱為音視頻失同步,通常由于視頻鏈路傳送端和接收端之間的時鐘差異導致。如果通過IP網絡傳輸立體視頻信號,由于IP網絡與生俱來就是異步的,只能通過確保充足的網絡帶寬和不存在處理瓶頸(如路由器過載等會導致分組次序錯亂)加以解決。

2)丟包。丟包是IP視頻傳輸系統經常發生的差錯之一,原因包括IP報頭破壞、鏈路過載、數量不足或網絡設備故障等。IP系統只能最大限度地降低丟包率,但對于偶爾發生的丟包現象很難避免。
3)分組抖動。當組成視頻數據流的分組無法以一種平滑連續的方式到達時,就會產生分組抖動。對于時效性要求不高的數據,例如Web網頁,抖動無影響,但是對于實時的視音頻數據流而言,抖動的危害性很大。
4)誤碼。當用戶接收的信號與最初發出的數據不同時,就出現了誤碼。不同的傳輸介質(無線、光纖、同軸電纜、雙絞線等)導致誤碼出現的原因各不相同。一些差錯僅會影響到一個像素,無害;而多數差錯會影響到一連串的視頻幀,非常嚴重。由于誤碼趨向于隨機分布,沒有太好的方法預測。目前糾正誤碼的主要方法有差錯重傳、前向糾錯等。但差錯重傳會導致延時,前向糾錯會消耗額外帶寬,實際使用時還需綜合考慮[8]。
3D顯示是3D電視技術鏈中的最后一環,也是最影響終端用戶的一環。要顯示3D內容,就要表示出每個點的深度或距離信息。3D顯示技術直接影響立體視頻清晰度、視場、深度、亮度、色度、對比度等各方面。
實現3D成像的方法有多種,設備上可分為液晶顯示器、等離子顯示器、投影儀以及新出現的手機等移動設備;技術上可分為眼鏡式3D和裸眼式3D技術2大類。表1分別對2大類立體顯示技術對立體視頻質量的影響進行了比較。
從表1中可看出,不同的顯示技術直接導致不同的立體顯示效果。雖然3種眼鏡式3D技術最終都將發展為更高一級的裸眼3D技術,但偏光式和主動快門式3D顯示技術成像效果好、技術成熟,是目前3D顯示的較好選擇。
人類的立體視覺一般由心理立體視覺與生理立體視覺兩部分組成[9]。心理立體視覺是人通過觀察事物形成的一種立體視覺經驗和視覺記憶,可以幫助人們觀看平面圖像時感覺到一定的深度信息。生理立體視覺是由人眼的晶狀體調節、雙眼會聚和雙眼視差等因素構成的立體視覺,其中雙眼視差是人眼最強烈的生理立體視覺因素。但據統計,約有4%~6%的人由于先天或后天的原因,存在視差立體感視盲,看任何物體都是平面,沒有空間距離感和深淺度。進一步估計,一般來說雙眼視力相差度數在250°以上,就可能成為“立體視覺異常”。這類人觀看立體電視時,立體感必然也會大打折扣[10]。此外,每個人由于個體的差異,雙眼視差有所不同,所看立體景深有出入,而拍攝攝像機的視差是固定的,這也會導致部分人觀看立體視頻時立體效果有所降低,或出現雙眼疲倦、身體不適感。

表1 立體顯示技術對立體視頻質量的影響
影響立體視頻質量的原因是多方面的,隨著技術的進步,研究人員正在不斷采取新的方法,提高立體視頻質量。
在編解碼方面,中國具備自主知識產權的第二代信源編碼標準AVS2定義了關于立體視頻編解碼的標準,支持深度編碼、場景編碼等新的立體視頻表示方法,并介入ISO/IEC MPEG的高效視頻編碼(HVC)的制定;國際上,藍光光盤協會制定的藍光3D標準采用了基于多視角視頻編碼(MVC)的3D視頻編碼技術,該技術是基于ITU H.264的AVC視頻編碼技術上的拓展,相比2D內容,藍光3D標準使用的MPEG-4-MVC技術對左右眼畫面的數據進行壓縮后數據增量大約為50%,能夠實現與現有2D藍光播放機的全高清1 080p高分辨力的后向兼容性。
在傳輸方面,HDMI高清晰度多媒體接口協議標準在HDMI 1.4的基礎上,專門為3D立體影像傳輸進行升級,改進的1.4a版規范和對應的兼容性測試標準(CTS)也已發布,通過改進的HDMI接口可以在一根傳輸電纜內傳送無壓縮的音頻信號及高分辨力的立體視頻信號。
在顯示方面,近日美國CES2011消費類電子展上出現了不少新型顯示器。Cinema 3D電視采用FPR(Film Patterned Retarder)技術,很好解決了主動快門式立體電視圖像模糊及閃爍問題。3D Light Boost技術采用液晶板表面薄型的薄膜,使3D影像的清晰度達到最大化。Cinema 3D電視同時配備Local Diming、微型像素控制以及支持減少運動模糊的“Tru Motion 400 Hz”功能,極大提高了立體電視的顯示效果,液晶顯示器的響應時間也得到縮減,這樣不但可使3D圖像更加清晰,還能減少鬼影現象,避免觀眾視覺疲勞[11]。多款新型主動快門式3D眼鏡重量越來越輕。其中一款用戶可以定做有度數的鏡片,方便了近視眼患者;另一款采用全新鏡架邊緣設計,鏡架連接于LCD鏡片上沿,為觀眾提供更大的畫面觀看范圍。
可以預見,隨著立體視頻技術的不斷進步,立體視頻質量將不斷提高,立體電視將成為今后一種新型主流的娛樂形式。
[1]JULESZ B.Binocular depth perception of computer-generated patterns[J].Bell System Technical Journal,1960,39(5):1125-1162.
[2]李小蘭.立體電視編碼傳輸技術及業務實現[J].電視技術,2010,34(11):4-9.
[3]IJSSELSTEIJN W,DE RIDDER H,VLIEGEN J.Subjective evaluation of stereoscopic images:effects of camera parameters and display duration[J].IEEE Trans.Circuits and Systems for Video Technology,2000,10(2):225-233.
[4]WOODS A,DOCHERTY T,KOCH R.Image distortions in stereoscopic video systems[EB/OL].[2010-12-21].http://www.andrewwoods3d.com/spie93pa.html.
[5]沈縈華,呂朝輝.3DTV中的編碼技術綜述[J].電視技術,2009,33(11):28-30.
[6]DEERING M.Geometry compression[EB/OL].[2010-12-21].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.2.8941&rep=rep1&type=pdf.
[7]STELMACH L B,TAM W J.Stereoscopic image coding:effect of disparate image-quality in left-and right eye views[J].Signal Processing:Image Communication,1998,14:111-117.
[8]辛普森,格林菲爾.IPTV與網絡視頻:拓展廣播電視的應用范圍[M].郎為民,集巧,譯.北京:機械工業出版社,2008.
[9]侯春萍.平面圖像立體化技術的研究[D].天津:天津大學,1998.
[10]孫延祿.3D影像顯示方法叢談[J].現代電影技術,2010(1):49-53.
[11]美國2011電子消費展CES2011專題報告[EB/OL].[2010-12-21].http://www.pconline.com.cn/zt/ces2011/datafamily/datafamilynews/1101/2314065.html.