摘要:文章分別從視頻教室的音頻編碼和視頻編碼的角度展開,介紹了各類相關的技術,并引出了系統所采用的先進的音視頻編碼技術。最后,說明了系統采用的音視頻流控技術的幾個優點。
關鍵詞:視頻教室;音視頻;H.264
中圖分類號:TP309 文獻標識碼:A 文章編號:1009-3044(2009)15-4017-02
Reacher Audio-video Cording Based on Video-classroom
WU Ai-lan1, LOU Jian-lie2
(1.Zhejiang highway technolgy collage,Hangzhou,310014,China;2.Zhejiang technology institute of Economy,Hangzhou 310018,China)
Abstract: This paper introducedaudio - video coding technology,and gives out system’s Advanced audio-video coding. Finally,this paper explained advantage of streaming control technology.
Key word: vedio-classroom; audio-video; H.264
自“信息高速公路”提出以來,網絡在全世界以驚人的速度發展著。因特網將全世界聯系起來,LAN、WAN使局域網內資源、信息得以傳播和共享。網絡改變了人們的學習方式、生活方式、工作方式、管理方式、金融方式、文化教育方式、娛樂休閑方式。進入數字化、信息化的二十一世紀網絡令信息的傳播速度加速、人們的工作效率提高、世界經濟發展的步伐加快。視頻教室系統就是在這種背景下蓬勃發展起來。
視頻教室系統(Videoconference)是指兩個或兩個以上不同地方的個人或群體通過傳輸線路及多媒體設備將聲音、影像及文件資料互傳達到實時互動的溝通從而完成會議目的的系統設備。視頻會議系統是集通信技術、計算機技術、多媒體技術、微電子技術于一體的遠程異地通信方式,它將計算機的交互性、通信的分布性以及電視的真實性有機地結合在一起。
1 音頻編碼
通過Internet傳輸實時的語音或圖像與傳輸普通數據是不一樣的,應用網絡的組成必須符合這種實時傳輸的需要。表1列出了國際電信聯盟G系列典型語音壓縮標準的參數。
表1中的語音質量是在理想情況下的比較,實際上,不同的編碼方法在語音質量上的性能,在不同的具體條件(如背景噪聲、多重編碼、丟幀影響)下有不同的表現。
在實際選擇語音壓縮的算法時,要綜合考慮各種因素。例如,高比特率可以保證良好的話音品質,但要占用大量存儲空間,耗費更多的系統資源;而過低的比特率又會影響話音的品質和增加延遲。所以,在較低比特率的前提下,保持較好的話音質量,是選擇壓縮算法的原則。
我們選用了G.729 A標準采用的算法,可以僅用8Kbps傳輸話音,話音質量與32Kbps ADPCM(G.724)相同(ADPCM(差分脈沖編碼調制)在全球的公共電話網絡中被用于提供長話級話音)。G.729A標準在標準PCM或線性PCM的話音采樣基礎上,每10ms生成一個10字節長的話音幀。這個算法提供了優秀音質,且延時很小,采用G.729A能最好的滿足我公司在視頻會議系統對音頻實時性和高清晰方面的高要求。
靜噪抑制技術,節省您的帶寬提高其他應用的質量:
所謂靜噪抑制技術,是指檢測到通話過程或傳真過程中的安靜時段,并在這些安靜時候停止發送語音包。大量的研究表明,在一路全雙工電話交談中,只有36%~40%的信號是活動的或有效的。當一方在講話時,另一方在聽,而且講話過程中有大量顯著的停頓。通過靜噪抑制技術,大量的網絡帶寬節省下來用于其他話音視頻或數據通信。
1.1 回聲抑制技術
在視頻會議的實際應用中,特別是會議室場景中,音箱放出的聲音又回到麥克風返回到遠程說話人那里,說話人會明顯聽到系統中有自己的回音。而系統允許多人同時發言,這樣發生回聲的可能性大大提高。為了防止類似回聲對系統效果的影響,我們采用了回聲消除技術,使用特殊的軟件代碼監聽回聲信號,并將它從聽話人的語音信號中排除掉。
1.2 話音丟包處理技術
網絡的一個特征就是網絡延時與網絡抖動,這可能導致音質下降。網絡延時是指一個IP包在網絡上傳輸平均所需的時間,網絡抖動是指IP包傳輸時間的長短變化。如果網絡抖動較嚴重,那么有的話音包因遲到而被丟棄,會產生話音的斷續及部分失真,嚴重影響音質。目前互聯網的質量,尤其是中國互聯網的質量參差不齊。很多時候,用戶即使有較高的帶寬,但卻同樣存在較高的網絡丟包率和較大的網絡抖動,這些都會對用戶在實際使用中的視頻會議質量尤其是聲音質量產生嚴重影響。
為了防止這種抖動,我們采用了獨特的語音數據包緩沖和糾錯技術,該技術可以在高達20%丟包率的網絡環境下仍然保持聲音的連貫性和良好的音質,采用上述技術山大聯潤視維TM網絡視頻會議系統在與同類產品競爭中因為語音質量的優秀脫穎而出。
1.3 話音優先技術
話音通信實時性要求較高。為了保證提供高音質的IP電話通信,在廣域網帶寬不足(擁擠)的IP網絡上,一般需要話音優先技術。針對音頻和視頻的傳輸特點,我們對RTP線程的設置很高的優先級別,把其音頻的級別設置為最高。
2 網絡視頻技術(H.264/AVC)
我們在系統中首先引入了新興的視頻編解碼標準H.264。由國際電信聯盟、國際標準化組織(ISO)以及國際電工委員會(IEC)組成的一個聯合視頻小組的成員對該系統的技術設計基礎達成了一致意見。國際電信聯盟將該系統命名為H.264/AVC,國際標準化組織和國際電工委員會將其稱為14496-10/MPEG-4 AVC。
在互聯網技術方面,H.264/AVC同以往的標準如廣泛使用的H.262/MPEG-2或H.263等格式相比,在設計上能夠更好地處理信息包和數據丟失。在視頻質量、壓縮效率和數據包恢復和數據丟失等方面,超越了現有的MPEG-2、MPEG-4和H.26X視頻通訊標準,得到了顯著的提高目前,該系統已吸引了視頻和廣播行業的極大關注。
H.264不僅比H.263和MPEG-4節約了50%的碼率,而且對網絡傳輸具有更好的支持功能。它引入了面向IP包的編碼機制,有利于網絡中的分組傳輸,支持網絡中視頻的流媒體傳輸。H.264具有較強的抗誤碼特性,可適應丟包率高、干擾嚴重的無線信道中的視頻傳輸。H.264支持不同網絡資源下的分級編碼傳輸,從而獲得平穩的圖像質量。H.264能適應于不同網絡中的視頻傳輸,網絡親和性好。
經過我們研究發現,互聯網絡的丟包率與包的大小及數據包的發送間隔相關如圖2。
根據上述結果,我們對不同的帶寬條件規定了視頻數據包的大小范圍,可能把數據大包拆成小包傳送,到緩沖區后,再裝配;也可能將數據小包組成大包后發送。關鍵幀的數據包理所當然的被優先傳送。
3 音視頻數據的流控技術(RTP/RTCP)
RTP(Real-Time Transport Protocol)/RTCP(Real-Time Transport Control Protocol)是一種應用型的傳輸層協議,它并不提供任何傳輸可靠性的保證和流量的擁塞控制機制。它是由IETF(Internet Engineering Task Force)為音視頻的實時傳輸而設計的傳輸協議,定義在RFC 1889中。
RTP協議位于UDP協議之上,在功能上獨立于下面的傳輸層(UDP)和網絡層,但不能單獨作為一個層次存在,通常是利用低層的UDP協議在組播(Multicast)或單播(Unicast)網絡服務中傳輸實時數據,而實時數據的傳輸則由RTCP協議來監視和控制。
順序號(Sequence Number Field)域的長度為16位。每發送一個RTP信息包順序號就加1,接收端可以用它來檢查信息包是否有丟失以及按順序號處理信息包。
時間戳(Timestamp)域的長度為32字節。它反映RTP數據信息包中第一個字節的采樣時刻(時間)。接收端可以利用這個時間戳來去除由網絡引起的信息包的抖動,并且在接收端為播放提供同步功能。
同步源標識符(Synchronization Source Identifier,SSRC)域的長度為32位。它用來標識RTP信息包流的起源,在RTP會話或者期間的每個信息包流都有一個清楚的SSRC。
實時傳輸控制協議(Real-Time Control Protocol,RTCP)也定義在1996年提出的RFC 1889中。RTCP是RTP的控制協議,它單獨運行在底層協議上。RTCP是由接收方向發送的報文,它負責監視網絡的服務質量、通信帶寬以及網上傳送的信息,并將這些信息發送給發送端。
RTCP的主要功能包括,數據傳輸的質量提供反饋,并提供QoS的檢測;根據時間戳提供不同媒體間的同步;在會話的用戶界面上顯示會話參與者的標識。
我們知道,視頻流和音頻流在時間軸上的連續性要求網絡的實時傳輸及高帶寬,同時又允許傳輸中存在一定的數據錯誤率及數據丟失率。由于RTP本身并不具有一種獨立傳輸能力,它必須與低層網絡協議結合才能完成數據的傳輸服務。又由于視頻和音頻在時間軸上的相關性不強,而數據的實時性要高于其可靠性,所以在UDP之上利用RTP/RTCP協議對媒體(視頻和音頻)流進行封裝、打包和同步,可以使數字視音頻信號的網絡傳輸延時達到最小。
3.1 自適應帶寬適應
在網絡會議過程中,經常會出現網絡帶寬波動的情況。如果帶寬的波動幅度使得視頻會議本身的音視頻數據無法正常傳輸,就會造成音視頻質量的下降。這時候往往會出現以下情形:聲音斷斷續續,視頻出現大量馬賽克甚至完全模糊不可辨認。這就要求系統對網絡帶寬的異常波動做出相應的處理。
經過大量的用戶調查我們發現,當網絡發生波動的時候,用戶可以接受視頻效果的一點降低但要求聲音仍保證連續、清晰。所以,視頻會議系統的設計為:當系統檢測到網絡帶寬變化時,會首先降低視頻幀率以保證聲音的連續性。幀率變化的機制完全建立在對國內互聯網絡環境的研究和測試的基礎之上的,在整個幀率調整過程中,語音的碼率是保持不變的。
3.2 寬帶環境下的高質量音視頻
隨著寬帶的不斷普及,用戶對寬帶環境下的高質量音視頻效果的要求也越來越強烈。針對這樣的需求,針對寬帶專門做了音視頻質量的優化。在寬帶環境下,用戶的視頻幅面可以達到CIF(352x288),25幀/秒,并可放大到全屏,在帶寬允許的情況下(每路視頻帶寬大于500 Kbps),視頻質量甚至可以超過VCD的畫質。同時,在寬帶環境下選擇了G.711的寬帶語音壓縮算法,保證聲音更清晰,混音效果更好,同時大幅度降低了對用戶機器資源的消耗。
4 總結
視頻教室系統在H.262標準不斷的發展和完善的同時得到了很大的發展,它應用的日漸普遍表明了視頻技術的發展符合了當今社會發展的趨勢,得到各界的肯定和支持,它將朝著多功能、高性能、智能化、集成化的方向不斷發展,我們相信,視頻教室系統在學校教育中的應用將會越來越廣泛,越來越好。
參考文獻:
[1] 張啟浩.視頻會議系統技術架構淺析[J].智能建筑,2005(8).
[2] 徐迎川等.基于IP網絡的多點視頻會議系統的設計與實現[J].電信科學,2004(11).
[3] 朱小鍵.視頻會議系統設計[J].中國金融電腦,2001(7).