王 淼
(南陽市圖書館,河南 南陽 473000)
音頻信息資源數字化最常見的方式是脈沖編碼調制(PCM,Pulse Code Modulation)。其基本原理是:首先,通過播放設備將模擬音頻轉換成一連串電壓變化的信號;其次,沿橫坐標軸將信號進行等時距分割,這個分割時距就是采樣頻率;再次,把分割線與信號圖形交叉處的坐標位置記錄下來,得到每交叉點坐標,其中用于表示縱坐標數字的二進制的位數就是采樣位數,由于已經知道時間間隔,可以去除橫坐標,得到縱坐標的一個數字序列,這一序列數字就是將以上模擬信號進行數字化生產的結果。影響這種模擬信號數字化生產質量因素如下。
采樣是指用每隔一定時間間隔的信號樣本值序列代替原來在時間上連續的信號,即在時間上將模擬信號離散化。每秒的采樣次數稱為采樣頻率,以千赫茲(即,每秒幾千個樣本)來描述。根據奈奎斯特(Nyquist)采樣定理,只要采樣頻率大于或等于被采樣信號的最高頻率的兩倍,借助一定設備,就可以從樣值序列信號中無失真地恢復出原始模擬音頻信號。因此,一個數字音頻樣本所能記載的最高模擬頻率值應是其采樣頻率的一半,如:采樣頻率為44.1kHz的音頻光盤介質只能記錄最高頻率為22.05kHz的模擬聲音。這意味著當聲波經過某一點時,每秒就有44,100個離散的振幅測量值對其進行表示。
人耳可以聽到的聲音是頻率在20~20kHz之間的聲波,根據奈奎斯特采樣定理,理論上只要用40kHz以上的采樣頻率就可以完整記錄20kHz以下的信號。那么,為什么CD唱盤的規格是44.1kHz(而不是40kHz)呢?因為在CD發明前,硬盤價格昂貴,存儲數字音頻信號的主要媒體是錄像帶,用“黑”與“白”來記錄0與1。而當時的錄像帶格式為每秒30張,而一張圖又可以分為490條線,每一條線又可以儲存三個取樣信號,因此每秒有30×490×3=44,100個取樣點,為了研發方便,CD唱盤也繼承了這個規格。實際上,無論使用多么高的采樣頻率,記錄的數字與實際的信號之間總會有誤差,這種誤差稱為數字轉換失真,或稱為量化失真。
目前采樣頻率主要有96kHz和44.1kHz兩種規范。其中,檔案保存標準采樣頻率為96kHz。如果沒有資源(計算機處理能力、人員、時間及數字存儲空間等)上的限制,一般以采樣頻率為96kHz來進行音頻資源數字化生產,并以該頻率來保存數字主文檔。對于那些數字化生產資源不充足的項目,采樣頻率的選擇應基于對模擬音頻類型和質量的分析。
對于某些原始音頻資源來說,采用比44.1kHz更高的采樣頻率并不能更有效地表達出更多的信息,如乙烯錄音帶或模擬盒式錄音帶,因為這些資源不能記錄頻率高于22.05kHz的聲音。
從聲源角度,模擬音頻主要有三種類型:
(1)人類發音。所有人類發音的頻率都在20-50kHz之間,所以這類音頻信息資源數字化時的采樣頻率應該是44.1kHz。
(2)場景錄音。一般是指在一個特定場景下對人類發音進行的錄音。所以,數字化時采樣頻率也是44.1kHz。但是,如果場景錄音包括了音樂,或來自自然界的其他聲音(如昆蟲聲音,鳥叫的聲音等),數字化時的采樣頻率應該考慮96kHz。
(3)音樂錄音。是指樂器產生的寬范圍頻率的錄音。對這些錄音數字化時,雖然大多數可以以44.1kHz頻率進行采樣,但有些超過了這個采樣頻率的范圍,所以,一般都采用96kHz,這樣也有助于數字音頻的編輯。
采樣位數是指表示振幅測量值的二進制碼的位數,其單位是比特(bit)。比如,8比特位數的取值范圍是0~255,16比特位數的取值范圍為0~65,535,而24比特位數的取值范圍0~16,777,215。由于人耳對于音量較為敏感,所以,以較高采樣位數進行采樣的音頻會聽起來“更平滑”,更能真實地再現原始模擬音頻。
一般來說,人耳僅可以辨別出15比特及17比特的音頻樣本差別。有些聽音者,尤其是受過專門訓練的音頻工程師,可以辨別出同一音頻資源的24比特錄音和16比特錄音之間的差異,但一般人很難辨別出它們的差別。
錄音設備不大可能也沒必要絲毫不差地將某一音頻資源再現出來。以24比特進行高數據位數的采樣,可以明顯地消除因設備配置帶來的缺陷,并可為計算機音頻編輯系統附加的音頻處理提供更多的提升空間。
此外,數字轉換時采用的采樣頻率和采樣位數與原始音頻資源息息相關,不僅僅局限于人耳所能聽到的音域。許多聲音所表現的頻率范圍要遠遠高出22.05kHz,24比特的采樣位數比16比特的采樣位數更能清晰地記錄更多的語音信息。還有,技術飛速發展使得數字音頻的未來應用存在著諸多變化。因此,在進行音頻信息資源數字化時,最佳采樣位數的選擇受制于眾多因素。筆者列出了目前數字化項目采用不同的采樣頻率和采樣位數的優缺點(見表1)。

表1 不同采樣頻率和采樣位數的優缺點分析
記錄數字音頻時,如果每次生成一個聲波數據,稱為單聲道;每次生成二個聲波數據,稱為雙聲道(立體聲)。另外,還有四聲道、5.1聲道等。聲道數量越多,聽覺感受越好,但音頻文件存儲所占空間越大。目前為止,有下述幾種主要類型的聲道。
(1)單聲道。單聲道是比較原始的聲音轉換形式,在音頻信息資源數字化初期應用比較廣泛,但現在已很少使用。單聲道音頻播放時缺乏聲音的位置定位。
(2)雙聲道(立體聲)。雙聲道技術是指聲音在錄制過程中被分配到兩個獨立的聲道,從而達到較好的聲音定位效果,克服了單聲道的缺點。該技術可以使聽眾清晰地分辨出各種聲音的方向,使音樂更富想象力,更接近于臨場感受。時至今日,這種技術應用還比較廣泛,并且仍然有不少產品遵循該標準。
(3)準雙聲道(準立體聲)。準雙聲道是指在錄制聲音時采用單聲道,但在放音時,有時采用立體聲,有時采用單聲道。這種技術曾經使用一時,但現在已基本不再使用。
(4)四聲道。技術的發展,出現了三維音效,四聲道也應運而生。三維音效是指一個虛擬的聲音環境,通過特殊技術營造一個趨于真實的聲場,從而獲得更好的聽覺效果和聲場定位。
四聲道有4個發音點:前左、前右,后左、后右,聽眾則被包圍在中間,有時還增加一個低音(有人稱為4.1聲道),以加強對低頻信號的回放處理。四聲道技術為聽眾帶來了來自多個不同方向的聲音環繞,獲得各種不同環境的聽覺感受。如今,四聲道技術已經融入到不少產品的設計中,可能成為未來發展的主流趨勢。
(5)5.1聲道。5.1聲道已廣泛運用于各類影院中,一些比較知名的聲音錄制壓縮格式(如,杜比AC-3、DTS等)都是以5.1聲道為技術藍本。5.1聲道來源于4.1聲道,只是增加了一個中置單元。該單元負責傳送低于80Hz的聲音信號。
聲道技術發展很快,目前已出現了7.1聲道系統,該聲道是在5.1聲道基礎上增加了中左和中右兩個發音點。
模擬音頻信息資源數字轉換后以文件的形式存儲、播放和傳播。目前,數字音頻文件的格式有很多種,不同格式所采用的編碼不同,采樣頻率、采樣位數和聲道個數不一樣,壓縮算法、壓縮比例以及壓縮效果也存在一定差別。所以,數字音頻文件的保存格式也是影響模擬音頻數字轉換質量的因素之一。
目前,音頻信息資源數字化生產中常用的文件格式 有:WAV、CD、MP3、MP3PRO、WMA、MP4、SACD、QuickTime、VQF、DVD Audio、MD、RealAudio、Audible、AIFF、MAC、S48、AAC 等。
除了上述四個因素外,模擬音頻信息資源數字化生產的質量還受其他一些因素的影響,如:揚聲器質量、計算機聲卡A/D與 D/A(模/數、數/模)轉換芯片質量及各個設備連接線屏蔽效果等。
[1]林俊桂.音頻數字化簡單原理[EB/OL].[2011-02-10].http://www.nhlcgz.com/blog/u/21/archives/2007/80.html
[2]CDP.Digital Audio Best Practices Version 2.0[EB/OL].[2010-11-15].www.cdpheritage.org/digital/audio/documents/cdpdabp_1-2.pdf