胡 琨 (江西電視臺 江西南昌 330046)
論非線性編輯系統中的視音頻處理
胡 琨 (江西電視臺 江西南昌 330046)
非線性編輯系統是以計算機為操作平臺的電視節目后期編輯制作設備,隨著計算機技術的飛速發展,非線性編輯系統已廣泛應用于電視節目的制作。本文介紹了非線性編輯系統中的視音頻處理系統的組成及其工作原理。
非線性編輯;線性編輯;視頻卡;視頻壓縮;采樣頻率;壓縮比
20世紀末,科學技術和藝術的關系越來越密切,科學技術媒介被廣泛的引入藝術實踐領域,信息時代的數字技術作為一種媒介機制與藝術相結合,其中非線性編輯技術尤以其低成本、高效率、高質量和效果變換無窮的優點迅速進入了電影、電視、網絡等傳播領域。
非線性編輯是針對線性編輯而言的,在傳統的電視節目制作中,節目的制作和編輯是在編輯機上進行的。編輯機一般是由一臺放像機和一臺錄像機組成,編輯人員在放像機中選擇一段需要的素材,然后把這段素材錄制到錄像機中的磁帶上,然后再搜索下一個鏡頭,接著再進行記錄工作,之后重復以上的操作,直到把所有需要的素材按照節目要求全部順序記錄下來。[1]
用磁帶記錄畫面是順序的,所以無法在已有的畫面之間插入別的畫面,也無法刪除不需要的畫面,除非把這之后的畫面全部重新錄制一遍,插入所需的畫面,最后再把之前復制的畫面接上,這種編輯方式就叫做線性編輯,它給編輯人員帶來很多的限制,編輯效率非常的低下。
非線性編輯則是應用計算機圖像技術,在計算機中對各種原始素材進行各種編輯操作,并將最終結果輸出到計算機硬盤、磁帶、錄像帶等記錄介質上這一系列完整的工作過程。所有的原始素材是被數字化后才存儲到計算機硬盤上的,信息存儲的位置都是并列平行的,所以與原始素材輸入到計算機時間的先后順序沒有關系。于是,我們就可以對存儲在硬盤上的數字化音視頻素材進行隨意的排列組合,并可進行各種修改。這樣,非線性編輯的優勢就體現出來了,工作效率也提高了很多。編輯人員現在所要做的就是如何去創作他的作品,如何發揮他的想象力,再也不用受線性編輯的限制了。[2]
任何非線性編輯的工作流程,都可以簡單地看成輸入、編輯、輸出這樣三個步驟。當然由于不同軟件功能的差異,其使用流程還可以進一步細化。以大洋D3-Edit為例,其使用流程主要分成如下5個步驟。
(1)素材采集與導入:采集就是利用大洋D3-Edit,將模擬視頻、音頻信號轉換成數字信號存儲到計算機硬盤中,或者將外部的數字視頻存儲到計算機硬盤中,成為可以處理的素材。導入主要是把其他視頻、圖片、聲音等導入到大洋D3-Edit的素材庫中。
(2)素材剪輯:素材剪輯就是在原始素材中選取所需的各個小片段,然后按照時間順序組成不同新的素材的過程。
(3)特技處理:對于視頻素材,特技處理大概分為轉場、特效、合成疊加等。對于音頻素材,特技處理分為轉場、特效等。令人震撼的畫面效果,就是在這一過程中產生的。而非線性編輯軟件功能的強弱,往往也是體現在這方面。配合某些硬件,大洋D3-Edit還能夠實現特技播放。
(4)字幕制作:字幕是節目中非常重要的部分,它包括文字和圖形兩個方面。大洋D3-Edit中制作字幕很方便,可以實現各種預期達到的效果,并且還有大量的模板可以選擇。
(5)輸出與生成:節目編輯完成后,就可以輸出回錄到錄像帶上;也可以生成視頻文件,保存到移動硬盤上、發布到網上、刻錄VCD和DVD等。
由此可見,音視頻素材的采集與輸入是整個非線性編輯流程的第一步,也是至關重要的第一步。沒有對素材優良的采集編碼,就談不上好的非編系統,下面我們就來詳細深入地研究音視頻輸入系統。
首先,我們來說說人的視覺特性。人眼是依靠視網膜上光敏細胞一桿狀細胞和錐狀細胞獲得了彩色視覺,人眼僅對電磁波譜中的可見光區(波長從380nm到780nm)敏感,人眼對亮度的敏感程度比對顏色的敏感程度高。
了解了人的視覺特性后,我們再來研究視頻信號。一般評價和描述視頻信號的好壞,就會提到一些指標,如分辨率、幀速率和色彩數等參數。分辨率就是畫面的精密度,它反映了畫面的清晰度。分辨率為384×288的電視圖像與分辨率為384×576的電視圖像的畫面質量有明顯的區別。電視節目后期制作中,要求圖像分辨率為720×576或768×576(PAL制)。幀速率是指每秒鐘刷新的畫面的幀數,也可以理解為畫面處理器每秒鐘能夠刷新幾次。PAL制電視節目的幀速率為25fps(幀每秒);制作多媒體光盤出版物時一般選15fps的幀速率。電影和NTSC制式電視的幀速率分別為24fps和30/29.97fps。色彩數就是屏幕上最多顯示多少種顏色的總數。描述每一像素的字節數決定了最多可同屏顯示多少種顏色,一般為256色、65536色和16777216色(即真彩色)。色彩數越多,能表現的彩色層次越豐富。[3]
視音頻采集卡是非線性編輯系統的“引擎”,在非線性編輯系統中起著舉足輕重的作用,它直接決定著整個系統的性能。它主要有以下功能:完成視、音頻信號的A/D、D/A轉換,即進行視頻、音頻信號的采集、壓縮/解壓縮和最后的輸出等功能,也稱這類卡為視音頻處理卡。視音頻處理卡是模擬信號與數字信號的分水嶺,所有模擬視音頻信號在此經過A/D變換后,每一段素材都成為了一個視頻文件存放在硬盤陣列中,供計算機進行數字域的處理。需要輸出的視音頻數碼流經過D/A變換成為可供記錄或直播的視音頻信號。視音頻處理卡上包括模擬信號接口如復合、分量、S—VIDEO,已涵蓋現有模擬電視系統的所有接口形式,也包括像IEEE—1394和SDI這樣的數字接口。
視頻處理卡是非線性編輯系統產品的決定性部件。一套非線性編輯系統所能達到何種程度的視頻質量,與視頻處理卡的性能密切相關。壓縮與解壓縮是視頻處理卡的核心內容。在數字視頻信號不能被有效而高質量地壓縮時,非線性編輯都是在昂貴的工作站上實現的。因為龐大的數字視頻數據量使蘋果機和普通PC機都不堪重負,不能正常處理數碼率高達216Mb/s的無壓縮數字分量視頻信號或者142Mb/s的無壓縮數字復合數字視頻信號,從而無法勝任無壓縮數字視頻信號的非線性編輯工作。然而,隨著數字圖像壓縮技術的發展,各種圖像壓縮算法日臻成熟,使得在蘋果機和PC機上進行視頻非線性編輯成為了現實,這些圖像壓縮算法是實現相對廉價的視頻非線性編輯的關鍵所在。而視頻處理卡正是采用這樣的壓縮算法。只不過它把壓縮程序集成在硬件中。目前,國內外的非線性編輯系統,大都是采用Motion-JPEG算法。Motion-JPEG可以理解為活動圖像的JPEG壓縮,Motion-JPEG基于靜態圖像壓縮格式JPEG,對活動圖像進行實時的幀內壓縮,幀內壓縮有一個好處就是可以精確的定位每一幀圖像,這一點非常適合非線性編輯,在編輯過程中,可以隨機存取任意一幀圖像,對于幀編輯十分理想。Motion-JPEG采用DCT編碼技術。由于這種算法不太復雜,可以用很小的壓縮比(2:1)進行全幀采集,從而實現廣播級指標所要求的無損壓縮。若采用廣播級指標進行2∶1壓縮,經過壓縮的數字視頻信號其數碼率仍有108Mb/s(分量視頻)或71Mb/s(復合視頻)。Motion-JPEG的壓縮和解壓縮是對稱的,可以由相同的硬件和軟件來實現,這對壓縮/解壓電路實現高度集成化有幫助。由于這種算法不太復雜,可以用很小的壓縮比(2:1)進行全幀采集,從而實現廣播級指標所要求的無損壓縮。
Motion-JPEG的壓縮過程(如圖1)大概由5個主要部分組成:

圖1 Motion-JPEG的壓縮過程
色抽樣:在視頻處理器中處理的是分量信號(YUV),因此輸入的信號不是分量信號,需要進行轉換,亮度信號(Y)、色度信號(UV)各用8比特表示,每個采樣共用24比特。信號轉換后,亮度信號直接進入DCT編碼器中,而色度信號需要進行再抽樣、同步,然后進入DCT編碼器,這個過程是個有損失的過程,有些信息丟失后無法還原。色度抽樣時,處理U分量的同時,丟失V分量;處理V分量時,丟失U分量,這樣減少了數據量,本來需要24比特來表示一個抽樣,現在只用16比特(8比特的亮度信號,8比特的色度信號),這就是常說的4:2:2(Y:U:V)。不同的廠家可能有不同的處理方法,有的會提高壓縮比,有的可能不做處理,而采用24比特的無損信號。色度抽樣完成后,色度信號與亮度信號輸入到DCT變換器中,DCT變換器的作用主要是用頻率變換來表示圖像。
DCT:分量信號的圖像進入DCT變換器中,每幀被分割成許多8*8(像素)的正方形,一幅圖像可以分割成幾千個這樣的正方形,DCT變換器對這些正方形進行分析,計算出其灰度變化,然后用頻率表示其灰度值,比如大塊圖形或輪廓變化不大的部分用低頻表示,對邊緣或細節這樣變化大的部分用高頻表示,DCT變換器對所有正方形分析完后,在對下一幅圖像進行分析。從DCT變換器輸出的亮色信號使用頻率來表示的,進入下一個過程-量化。
量化:量化過程決定了整個壓縮過程的壓縮程度,可以采用有損壓縮或無損壓縮,一旦進行有損壓縮,丟失的信息無法還原。Motion-JPEG一般采用2:1的壓縮比,在回放時,可以達到無壓縮時的視覺效果。根據對人類視覺系統的分析,人眼對亮度和色度的敏感程度不同,在辨別一幅圖形時,亮度信號對人眼的刺激更為重要,而色度信號在損失90%的情況下,人眼仍然可以分辨出圖形。數字視頻壓縮技術參考了人眼的這個特點,對色度信號進行壓縮,來得到較高的壓縮比。量化級數是量化的重要參數,其范圍從0到255,級數越大,圖像信息丟失越多,圖像質量越差,可以得到較高的壓縮比。量化級數與每幀的數據量成反比,級數大,每幀圖像的數據量小,反之亦然。通過量化,把圖像的頻率數據根據量化轉換成一系列的數,記錄了圖像的信息。
零記數:量化過程產生一個數組,通過計算數組中的零的個數,來幫助在傳輸過程中判斷數組的尾端。這個過程多采用RLE(run-length encoding)算法。
霍夫曼編碼:霍夫曼編碼是DCT編碼的最后一步,對數據進行冗余計算,把多余的信息去掉,傳遞更少的數據。霍夫曼編碼得到的結果,就是存儲到計算機磁盤上的數據。如果要看視頻影象,將這些數據解碼,然后通過數字/模擬轉換,得到模擬的視頻信號,又可以在監視器上瀏覽或記錄在錄像帶上了。[4]
從硬件構成的角度看,視音頻采集卡可分為單通道和雙通道兩種。這里通道的意思是指在內部視頻混合器之前的獨立的視頻回放通道。目前絕大多數的非線性編輯系統使用的都是M-JPEG算法,因此可分為只有一個M-JPEG Codec(編解碼器)的單通道系統和有兩個M-JPEG Codec的雙通道系統。單通道系統只能對一路視頻信號進行壓縮記錄和解壓回放,這就意味著系統肯定無法完成多層畫面的實時處理。雙通道系統由于可以完成兩路視頻信號的解壓回放,再與系統內部其他處理單元相配合,就可以完成兩路活動畫面的實時混合處理。
自1895年法國盧米埃爾兄弟發明電影直到1927年影片《爵士歌王》出現以前,在30年里,電影一直是一個“偉大的啞巴”。在告別默片時代的今天,聲音已經越來越成為現代電影和電視藝術表現手段的一個重要組成部分,它們與視覺畫面一起共同構筑銀屏空間,推動敘事,完成藝術形象的塑造。因此,在非線性編輯過程中,如何處理好音頻也就顯得非常重要。
錄入非線性編輯系統中的聲音多數以不壓縮的采樣波形文件的形式保存。在音頻數字化時,模數轉換的采樣頻率和采樣深度影響系統中存儲的聲音信號的質量和音頻素材所占用的磁盤空間。采樣頻率越高,采樣深度越大,錄制的聲音質量就越好,相應占用的存儲空間也越大。目前多數電視臺播出時采用單聲道的電視伴音信號,一般采樣頻率22KHz以上,采樣深度16比特即可滿足要求。[5]隨著對伴音質量要求的提高,部分電視臺已過渡到使用立體聲音頻信號進行部分節目的播出,相應地需要選擇CD質量的聲音處理方式,即以44.1KHz的頻率采樣,記錄成16比特的立體聲信號。
和視頻處理卡一樣,音頻處理卡對音頻信號的處理也是一個編解碼的過程。音頻信號由模擬信號轉變為數字信號,使用壓縮技術通過編碼量化,記錄在磁盤上。音頻壓縮系統是將音頻信號的表示從時域轉換到頻域,以實現基于心理聲學的音頻壓縮,所得的頻域系數即是接下來要編碼的內容,頻域系數可數字量化,因為產生的量化噪聲將與音頻信號在同一頻率上,由于心理聲學掩蔽效應,對低的信噪比是可接受的,基于人類聽覺的心理聲學模型,對于每個單獨的頻率系數,比特分配操作決定了什么樣的SNR(信噪比)可以接受,最后,頻域系數數字量化到所需精度,并格式化音頻的基本碼流。基本碼流包括了使音頻解碼器實現相同(對編碼器)比特分配的必要信息,這樣,解碼器將基本碼流頻率系數進行分組拆裝和反量化,從而重建頻率系數。合成濾波器組是分組濾波器組的逆過程,它將重建的頻率系數還原為時域信號。
我們再來了解音頻卡中聲音信號的處理過程(如圖2)。輸入的模擬音頻信號經過前置放大器放大后,由程序可控增益放大器進一步對輸入信號的幅度進行控制。抗混濾波器根據采樣頻率濾除可能引起噪聲的頻率。經過模數轉換(A/D)和采樣保持(S/H)電路,得到8位或16位數字化聲音數據。DSP芯片對聲音數據進行ADPCM壓縮,以DMA傳送方式,通過PC總線將數據存儲在硬盤上。聲音重放輸出的過程正好相反,從硬盤讀出的編碼聲音數據,被系統以DMA方式傳道到DSP處理器,經DSP解碼和數模轉換(D/A),變成模擬信號,再由重建濾波器進行低通平滑(sinx/x)濾波。聲音信號的輸出電平在軟件的控制下,經過功率放大器輸出。

圖2 音頻卡中聲音信號的處理過程
在質量較好的非線性編輯系統中,音頻處理卡與視頻處理卡往往是集成在一塊卡上的,稱之為視音頻處理卡,完成視音頻處理工作,如采集、合成、輸出等。某些非線性編輯系統由于主處理卡沒有音頻處理功能,是通過外插音頻處理卡來解決音頻處理問題,如果使用普通的多媒體音頻卡,其音頻通道的頻響、信噪比、接口形式及是否平衡輸出都滿足不了廣播電視的要求,而且,這種低檔的音頻卡,處理速度緩慢,在采集和回放時,跟不上視頻卡處理的速度,出現視音頻信號不同步現象,為了保持視音頻同步,就會出現丟幀現象。雖然使用外插卡往往造成不同步現象,并不是說使用外插卡就一定不能滿足要求,有些高檔的專業音頻處理卡,性能優越,可以保持視音頻信號的同步,提供專業音頻接口,只不過價格相當高昂。所以音視頻處理集成在一塊卡上是比較合理的設計,既能保證音視頻信號的同步,又降低了成本,在非線性編輯系統中普遍使用。[6]
數字化電視系統發展的步伐日趨加快,計算機技術逐步滲透到廣播電視的各個領域。非線性編輯技術經歷了多年的發展,其軟硬件技術日趨成熟。既能滿足高端的電影特技制作逼真炫目的需要,又能滿足低端的新聞剪輯制作。非線性編輯系統功能將更加完善,在廣播電視行業占據的地位也會越來越重要,作為一項朝陽技術,其應用一定會迎來一個輝煌時代。
[1]余勝泉.非線性編輯系統[M].中國傳媒大學出版社,2005
[2]張曉冬,李剛.國內非線性編輯及網絡技術發展綜述[J].廣播與電視技術,2007(2)
[3]宣長林,魯巖.非線性編輯技術發展
[4]張洪甫.線性編輯和非線性編輯[J].中國有線電視,2007(03/04)
[5]楊繼榮.媒體數據傳輸及存儲管理平臺的發展思路[J].西部廣播電視,2004(10)
[6]張大衛.談非線性編輯系統[J].中國醫學教育技術,2001(02)
胡琨(1983年- ),男,江西南昌人,本科畢業于武漢理工大學,在讀中國傳媒大學工程碩士,現供職于江西電視臺新聞中心,助理工程師,從事后期制作和設備維護工作。