薛 彬, 徐 京, 王 猛
(中國空間技術研究院航天恒星科技有限公司 北京 100086)
音視頻同步,就是通過一系列多媒體同步技術,維持發送端采集的音視頻流的時間關系,并在接收端正確播放顯示,在一定的時間偏差范圍內,保證音頻和視頻在時間上的對應關系[1]。近些年,音視頻同步技術已經開始應用于衛星直播、視頻點播、飛機和飛船駕駛艙的視頻通話、空間站與地面站的視頻會議等領域[2]。由于空間多媒體通信產品的音視頻同步難度遠遠高于在互聯網上實現音視頻同步,不僅需要在QoS[3]規定的多媒體同步偏差內保證音視頻同步傳輸,還要盡可能的在可靠傳輸的基礎上,減少同步算法的復雜度,保證多媒體通信的實時性,因此,專門針對空間通信產品的音視頻同步技術的研究已成為各個國家國防通信技術研究的熱點和難點[4]。
目前應用于互聯網的基于時間戳的音視頻同步方法主要是采用全網同步時鐘,并且需要反饋通道對發送端進行流量控制,由于空間音視頻傳輸要求在帶寬低、信道環境惡劣的情況下實現實時通信,因此,這種傳統的基于互聯網的時間戳同步技術還需要進一步改進來適應復雜的空間傳輸環境。
文中針對空間音視頻傳輸的特點,假設音視頻在采集編碼階段保持同步,提出了一種基于時間戳的音視頻同步方法,這種方法采用新的時間戳映射模型,優化了傳統的音視頻同步算法,不僅不需要全網同步時鐘,而且無需反饋通道,以更小的開銷,使音視頻傳輸不僅能夠達到同步要求,而且有較高的容錯能力。并對該方法進行測試,測試結果滿足音視頻同步的指標。
文中采用RTP/RTCP協議[5]對音視頻數據進行打包并傳輸,且提出的時間戳映射模型用于確立音視頻數據幀之間的時間關系。
RTP協議規定,不同的RTP媒體流是分開進行傳輸的,且使用各自獨立的時間戳進行同步。單個媒體會話流中的RTP時間戳只能保持媒體內同步,如圖1所示。

圖1 音視頻RTP時間戳對應原理圖Fig.1 Correspondence principle diagram of audio and video’s RTP-timestamp
圖1展示了音頻RTP時間戳、視頻RTP時間戳與絕對時間的對應關系。由于不能直接將不同RTP會話流中的RTP包中的時間戳進行比較,因此,如果要實現媒體會話流之間的同步,必須將媒體數據的RTP時間戳和RTCP SR包中NTP時間戳[6]進行對應,將所有媒體流中的RTP時間戳對應到一個NTP全網時間上。
根據 RTP協議得出公式(1),其中 tStamp(i)表示第 i幀多媒體數據的時間戳,StampleN表示一幀多媒體數據的采樣點數量。

而一幀媒體數據的采樣點數量可以由公式(2)計算,可以得到:

其中,f為采集時鐘的頻率,T為一幀媒體數據的表現時間,frameRate 為媒體流的幀率,則由公式(1)、(2)、(3)可以得出:

則有:

根據公式(5),L Bertoglio提出一種時間戳映射模型[7](詳見公式(6)。這種模型定義了RTP時間戳增量與RTCP SR包中的NTP時間戳的對應方式。

其中,ΔtsInci(k)代表相鄰兩個RTP包中的時間戳增量,由此又可以得出:

tsi(j)表示第i個RTCP SR包發出后,第j個媒體數據包的RTP時間戳,NTPtsi(j)為其對應的 NTP絕對時間,f為發送端時鐘頻率。
根據公式(6)、(7),推導以下公式:
NTPtsi(1)可由下式計算:

將公式(7)、(8)帶入(6)得到:

假設發送端編碼速率頻率是恒定的,因此可以認為在一段時間內,媒體流在編碼后產生的時間戳值呈線性增長,可以得到:

由式(9)、(10),可得媒體報對應的NTP絕對時間戳:

通過公式(11),將音視頻包的RTP時間戳映射到同一絕對參考時鐘,即發送端系統時間上。因此,文中算法不需要全網同步時鐘支持,可直接利用發送端系統時鐘。
接收端同步檢測算法用于音視頻同步檢測判決,即判斷音視頻幀的媒體間偏差是否在QoS規定的同步偏差[-80 ms,+80 ms]內。文中采用基于播放時限的同步機制[8],視頻流根據音頻播放時間戳來調整自己播放的速度,并采用第一部分介紹的時間戳映射模型,根據QoS規定的媒體同步偏差許可范圍,建立音視頻同步檢測判決規則。
接收端的同步檢測判決及相應的同步控制算法的偽代碼為:

1)測試場景:
測試平臺:DELL OPTIPLEX 745
操作系統:Windows XP
仿真工具:VC++6.0、MATLAB 2009a
2)參數配置:
測試發送端以25幀/s的幀率發送視頻流,同時以100幀/s的幀率發送音頻流,它們通過網絡傳輸到接收端,接收端分別以25幀/s和100幀/s的幀率播放視頻流和音頻流。音視頻參數如表1所示。

表1 音視頻參數表Tab.1 Parameter list of audio and video
3)測試結果及分析
文中通過測量SPD值對音視頻同步效果進行評價,其中,SPD值是H.Liu提出的對于媒體間同步性能的度量,計算公式如公式(12)。同步性能分析結果用同步性能的測量標準中的同步相位失真SPD (Synchronization Phase Distortion)來衡量。SPD值也就是QoS規定的媒體間同步偏移量,它體現了相關音視頻幀之間的失步程度。SPD定義為兩個強相關對象也即兩個時間上最鄰近的對象與其原始時間間隔,發生的時間間隔變化如公式(12),其中 Pv(n),Gv(n)是視頻流中第 n個媒體單元 (Media Unit,MU)的產生時間和播放時間,Pa(m),Ga(m)是音頻流中的第m個MU的產生時間和播放時間,Ma是音頻流中MU的總數目。

如圖2所示,對比較同步前(左圖),本文同步方法(中圖)與L Bertoglio方法(右圖)的SPD值,經計算,同步前,媒體偏差SPD有的幀超過了150 ms,遠遠達不到QoS規定的同步偏差標準,同步后,采用文中時間戳映射模型的SPD值控制在60 ms以內,同步偏差平均縮小了30.197 2 ms,同步偏差縮短了66.96%了;同步后,采用本文時間戳映射模型的SPD值控制在60 ms以,經過L Bertoglio模型處理的SPD值控制在100 ms以內,同步偏差平均縮小了8.227 6 ms,同步偏差縮短了30.75%了。

圖2 SPD值對比圖Fig.2 Contrast diagram of SPD
文中介紹了一種不需要全網同步時鐘,且不需要反饋機制的基于時間戳的音視頻同步方法。本方法同過采用一種新的時間戳映射模型,根據RTP/RTCP協議有有關時間戳的定義,僅用發送端系統時間表示NTP時間,就可將音視頻數據的RTP時間戳映射到一個統一的絕對時間軸上。并且通過對接收端進行同步控制以及緩沖區的優化,解決了在無反饋機制條件下進行播放同步的問題。文中給出了同步前、其他同步方法與文中方法比較分析,結果表明,該方法無需全網時鐘和反饋機制就能將同步偏差控制在QoS規定的[-80 ms,80 ms]范圍內,并且復雜度較低,同步偏差較小,受空間丟包率影響較小,可應用于空間音視頻傳輸領域。
[1]崔莉,王敏,吉逸.流媒體同步機制的研究[J].計算機應用研究,2005,22(1):73-75.CUI Li,WANG Min,JI Yi.Study of synchronization of streaming media[J].Application Research of Computers,2005,22(1):73-75.
[2]姜康林.中國衛星通信未來十年展望[J].中國航天,1999(5):3-4.JIANG Kang-lin.Prospect of satellite communication in China in next ten years[J].Aerospace China,1999(5):3-4.
[3]甘仲民,張更新.衛星通信技術的新發展[J].通信學報,2006,27(8):2-9.GAN Zhong-min,ZHANG Geng-xin.Current development of satellite communications technology[J].Journal on Communications,2006,27(8):2-9.
[4]Altunbasak Y,Kamaci N.An analysis of the DCT coefficient distribution with the H.264 video coder[C]//Proc.IEEE.InternationalConferenceonAcoustics,Speech,andSignalProcessing,2004:volume 3.[S.L]:IEEE Processing,2004:177-180.
[5]Blakowski G,SteinmetzR.A Media Synchronization Survey:BderenceModelspecification and case studies[J].IEEE Journal on Selected Areas in Communications,1996,14(1):5-35.
[6]許延,常義林,劉增基.多媒體同步技術研究[J].西安電子科技大學學報.2000,27(4):504-509.XU Yan,CHANG Yi-lin,LIU Zeng-ji.Study on the multime dia synchronization[J].Journal of Xidian University,2000,27(4):504-509.
[7]BertoglioL,LeonardiR,MiglioratiP.Intermediasynchronization for video conference over IP[J].IEEE Tansaction on signal Processing:Image Communieation,1999,15(1):149-164.
[8]Bomnat F,Lloret J,Garcia M.Multimedia groupand interstream synchronization techniques:A comparative study[J].Information System,2009,34(1):108-131.
[9]Schuhrinne H,et a1.RTP:A transport pmtocd for real-time applications[S].IETF RFC 3550,2003.