楊宏宇
(江蘇有線數據網絡有限責任公司,江蘇 南京 210000)
關于建設OTT TV的遠程故障診斷系統的設計思考
楊宏宇
(江蘇有線數據網絡有限責任公司,江蘇 南京 210000)
面對OTT業務的興起,深刻分析了基礎網絡運營商建立遠程故障系統診斷的必要性。將智能探測引入到故障診斷中,提出了一個全方位、多層面協同工作的遠程故障診斷系統模型,對遠程故障診斷系統的主要組成部分進行了描述,并分析了實現遠程故障診斷系統的關鍵技術,以幫助網絡運營商盡快適應OTT TV業務的發展。
OTT TV;遠程故障診斷;智能探測
自2011年底原廣電總局7張互聯網電視集成業務牌照的頒發,OTT TV產業化的大幕正式拉開,憑借先天的開放性優勢,形成了互聯網企業、運營商、機頂盒廠商、電視機廠商和牌照商都在進入OTT TV產業鏈的百花齊放局面。圍繞著OTT TV業務的競爭,目前逐步形成了電信運營商的IPTV+OTT模式、廣電運營商的DVB+OTT模式和互聯網企業的終端模式。
作為傳統的廣電網絡運營商,在前些年三網融合的推動下,各地都已建立起來廣播平面(A網)之上的IP平面(B網)。在IP平面上承載視頻業務,尤其是面向OTT的業務承載已是實際網絡運營之現實。但OTT TV業務需要通過多個參與方(包括內容提供商、電信網絡運營商、CDN服務商、用戶家庭網絡及OTT終端)的設備才能到達最終用戶,查障環節極為復雜。很多投訴內容特別是視頻收視質量下降的問題,運營商僅憑用戶描述的現象根本無法定位故障環節,即便是安排工作人員上門排查,因其故障診斷手段有限,定位問題也比較困難。一旦投訴內容牽扯到多個責任方,勢必會要求多方共同排查,其結果將會大大延長投訴周期,給用戶體驗帶來嚴重的影響,甚至造成基礎用戶的流失[1-4]。
為了適應新一代視頻業務發展的需要,網絡運營商急需建立一套全方位、多層面的OTT TV遠程故障診斷系統,從根本上分清責任段落、快速定位故障點,極大縮短用戶投訴處理周期,還能減少外派人員投入的運維成本,從而優化網絡運營能力、提高OTT業務承載競爭力。
遠程故障診斷系統就是在用戶出現投訴后,借助部署在用戶終端和核心節點的智能診斷程序,通過一些簡單的指令及用戶操作,即可全方位、多層面地對用戶投訴故障進行排查和定位的智能診斷平臺。
由于OTT TV運營平臺融合了多家合作方,每家合作方的設備和服務出現問題,都可能導致用戶投訴的出現。傳統處理投訴的方法只能是通知各合作方排查自身問題并及時做出處理,故障涉及到用戶方時,還需要安排經驗較為豐富的排障專家入戶調試,效率極為低下。遠程故障診斷系統的目標就是面對這些復雜而繁瑣的專業工作,只需要普通工作人員按照標準排障流程進行幾步簡單的遠程操作,即可快速定位故障。
遠程故障診斷系統大致包含3部分:終端智能機器人(Client Intelligent Robot)、核心智能探測點(Core Intelligent Probe)和遠程診斷中心(Remote Diagnosis Center)。當用戶出現投訴時,受理客服只需要按照標準排障流程,指導用戶或通過遠程診斷中心發送指令進行簡單的終端智能機器人操作,即可將用戶故障詳細信息發送回遠程診斷中心,一些涉及用戶網絡,機頂盒等終端的排查工作即可完成。當用戶方無法確定問題時,還可以通過遠程診斷中心對核心智能探測節點進行指令操作,完成一些涉及OTT源站(含視頻源服務器和EPG源服務器)網絡及服務質量、CDN核心節點和邊緣節點的網絡及服務質量的排查工作。
系統整體架構如圖1所示。
2.1 終端智能機器人
終端智能機器人可以和OTT TV的客戶端應用程序捆綁安裝,能夠較為真實地模擬用戶行為,并對用戶投訴故障進行一鍵報障、業務自我診斷、多級帶寬測速(含鏈路測試)等。

圖1 系統架構示意圖
當用戶投訴后,客服受理人員可以指導用戶進行一鍵報障,即可快捷有效地獲取到用戶的報障內容,含用戶ID、報障視頻、網絡環境信息(IP地址、DNS等)、報障時間等,報障內容存儲在遠程診斷中心,可供排障和備案用。
當用戶投訴視頻不能收看時,一鍵業務自我診斷功能,基本上可以很快地診斷出視頻不能收看的根源,如DNS不能解析、視頻地址調度錯誤或不能連接等。
當視頻質量下降,出現加載時間過長、卡頓、花屏等問題時,多級帶寬測試和鏈路測試能有效測出用戶網絡到駐地運營商網關、CDN邊緣及核心節點網絡的下載情況和延時情況,為排查網絡問題提供數據依據。
2.2 核心智能探測點
核心智能探測點可以部署在CDN網絡的接入層、核心層和邊緣層,對視頻流進行多層面診斷。接入層一般對OTT的源站網絡和服務進行診斷,核心層一般對CDN系統的接入層網絡和服務進行診斷;邊緣層一般對CDN系統的核心節點、邊緣節點的網絡和服務進行診斷。
核心智能探測點能夠實時接收來自遠程診斷中心的探測指令,根據探測要求,對指定OTT源站、CDN接入層設備、核心層設備和邊緣層設備的網絡性能(單連接下載速率、鏈路延遲及丟包)、解析及調度時間、連接媒體服務器時間、加載時間、緩沖時間及次數、簡要視頻質量(丟包,亂序、重復、同步等)、連接錯誤等網絡指標和業務指標進行測量和分析,并將探測結果即時回傳至遠程診斷中心。
2.3 遠程診斷中心
遠程診斷中心是遠程故障診斷系統協同工作的橋梁,它將終端智能機器人、核心智能探測點、客服人員、專業排障人員及責任方有序結合起來。系統含專業診斷中心、調度及分發、數據存儲及處理等關鍵模塊。
當用戶進行投訴時,客服人員需要登錄專業診斷中心,指導用戶進行一鍵報障或手工錄入(終端無法自動報障時),生成投訴故障單,隨后進入專業診斷模塊。模塊中預先內置了標準的排障流程,客服人員通過簡單的交互方式,借助終端智能機器人和核心智能探測節點,對投訴內容進行一步步排查。
當診斷系統自動識別出故障根源時,將自動打包故障單發送到相關責任方。當診斷系統不能智能識別故障根源時,需要專業排障人員介入,通過得到的相關數據及同時段的其他故障內容進行綜合分析,確定故障根源后,再手動打包故障單發送到相關責任方。
故障責任方處理完畢后,需將故障單打回,診斷系統根據故障單的權值和處理結果給出綜合評分,等待考核。客服人員及時反饋給投訴用戶,驗證處理結果,如果通過則關閉故障單,如果不通過,重新打回故障責任方等待處理。系統根據處理情況再次給出故障單綜合評分,等待考核。
3.1 業務自我診斷
當用戶投訴視頻內容無法收看時,傳統排障方法需要用戶協助工作人員,一步一步排查具體原因,比如本地DNS是什么,能不能解析到視頻地址,視頻地址能不能PING通等,對于不太懂互聯網的用戶來說,有很大難度。業務自我診斷,就是代替用戶來執行這些比較專業的操作,它模擬用戶請求出現問題的視頻節目,分析每一個環節的具體情況,當發現異常環節時給出提示,并將診斷結果直接返回到遠程診斷中心。
業務自我診斷技術是智能探測技術的一種應用,它通過OTT終端應用程序內置的相關接口獲取到用戶觀看的視頻地址,執行探測任務。
3.2 多級帶寬測速
多級帶寬測速是當用戶收視質量下降時,對用戶網絡、駐地運營商網絡和CDN網絡的一種較為實用的排查方法。實現原理就是通過分別下載駐地運營商節點和CDN網絡節點上的測速文件來達到測試目的。
如果用戶網絡到駐地運營節點上的速率很低,即可證明是用戶自身網絡的問題,要么用戶帶寬被其他下載程序占用,要么就是家庭網絡設備運行時間過長,需要重啟。如果用戶終端到駐地運營商節點速率很高,到CDN的多個節點有的高有的低時,可能是分配給用戶的服務節點不合理,而如果到CDN的所有節點都低時,可能是由于駐地運營商入口擁堵所致,這個時候還可以通過鏈路測試,或者從運營系統中查看對應區域的平均下載速率,進行輔助確認。
3.3 任務智能探測
故障排查的關鍵是還原用戶訪問的路徑,用戶出現問題時訪問節點設備,該設備數據流從何得來,只有進行一層層的篩查測量,才能查出問題的真正根源。由于OTT TV業務的分發路徑較為復雜,而且可能同時存在多家CDN廠商,精準的探測至關重要。
指定視頻地址、指定節點、指定測量指標是智能探測的前提條件,但要指定目標節點路徑精確測量,需要多方面的協調才能順利完成,包括各CDN廠商調度接口以及CDN內部分層接口的提供。
3.4 專業診斷中心
專業診斷中心是一套融合了排障工作流、智能故障分析、故障考核的一套專業化故障診斷系統,它可以有效地將客服人員、故障責任方、專業排障人員有序地結合起來。
排障工作流是一套適用于多數用戶投訴的標準處理流程,針對用戶投訴的內容,可以調取對應的處理流程,借助智能故障分析模塊,通過簡單的交互操作,就可以快速定位故障根源,分清責任方。
智能故障分析模塊,是通過分析及統計終端智能機器人和核心智能探測點返回的數據,進行智能化的考量,自動匹配排障工作流,減少繁瑣的人工操作。
為了能夠監督并考核各責任方故障處理的情況,加入了故障考核,采用預先劃定的權值和處理情況,給出綜合評分,然后按月進行績效考核,給出獎懲措施。
建設一套針對OTT TV業務的遠程故障診斷系統,是網絡運營商高效承載OTT TV業務的基礎手段,是提高新時代下IP網絡運維能力的又一重要舉措。通過此支撐系統的建設可實現基于網絡、面向應用的端對端全程QoS保障,為三網融合下OTT業務的開展提供必要的運維手段,確保基礎網絡運營商能更好地迎接OTT帶來的創新與挑戰。
[1] 許冬琦.2012年中國式OTT TV:多方力量的博弈[EB/OL]. [2013-10-04].http://www.cww.net.cn/tech/htm l/2013/1/4/2013141 047145622.htm.
[2] 張彥翔.理性回歸下的OTT TV思考[EB/OL].[2013-10-24].http:// www.lmtw.com/otv/vp/201305/90014.htm l.
[3]CSI.OTT and the QoS conundrum[J].CSI,2013(3):22-23.
[4] 楊宏宇.從傳統數據中心到VDC[J].電視技術,2013,37(22):11-13.
TN949
A
?? 盈
2013-11-28
【本文獻信息】楊宏宇.關于建設OTT TV的遠程故障診斷系統的設計思考[J].電視技術,2014,38(12).
楊宏宇,現任江蘇有線數據網絡有限責任公司副總經理。