李維 喬雪 徐木生
摘 要:我國IPTV業務近年來發展迅速,要提升IPTV業務競爭力,除了需要保證內容資源的豐富多彩外,基礎的感知服務也非常重要。IPTV業務由于實時性要求高、網絡流量大、影響質量因素眾多等原因,很難準確和及時的發現故障問題,IPTV電視質量告警的聚類算法研究與實踐針對這一問題提出了優化建議。通過IPTV電視質量告警的聚類算法研究與實踐可以有效的提升故障監控告警數據的有效性和告警及時性。
關鍵詞:IPTV;故障監控;質差告警;智能聚類
中圖分類號:TP311.52;TP18 文獻標識碼:A 文章編號:2096-4706(2019)02-0055-03
Abstract:IPTV services in China have developed rapidly in recent years. In order to enhance the competitiveness of IPTV services,besides ensuring the rich and colorful content resources,basic perceptual services are also very important. IPTV service is difficult to find fault accurately and timely because of its high real-time requirement,large network traffic and many factors affecting quality. The research and practice of clustering algorithm for IPTV quality warning put forward optimization suggestions. The research and practice of clustering algorithm for IPTV quality alarm can effectively improve the validity and timeliness of fault monitoring alarm data.
Keywords:IPTV;fault monitoring;quality difference alarm;intelligent clustering
0 引 言
我國IPTV業務最早開始于2004年,最初發展緩慢,一直到2015年8月開始才開始快速增長,2016年IPTV業務更是高歌猛進,2017年上半年IPTV用戶數就已經突破1億大關,而據工信部發布的2018年7月份通信業經濟運行情況來看,截至7月末,基礎電信企業發展的IPTV用戶總數達1.45億戶統計,比上年末凈增2266萬戶。IPTV業務是各大運營商進入用戶家庭的天然業務入口,圍繞固網寬帶業務,IPTV業務市場競爭非常激烈。
提升IPTV業務競爭力,除了需要保證內容資源的豐富多彩外,基礎的感知服務也非常重要。做好IPTV視頻感知質量保障和優化、售后服務工作是提升用戶感知服務的關鍵。IPTV業務由于實時性要求高、網絡流量大、影響質量因素眾多,導致很難準確和及時的發現故障問題,IPTV電視質量告警的聚類算法研究與實踐針對這一問題提出了優化建議。
1 故障監控告警手段提升研究
1.1 研究難點
IPTV業務主要的質量分析手段是通過機頂盒嵌入軟探針和部署拉流探針,實現端到端質量監控及故障快速定界、定位等能力;但隨著用戶規模快速增長,軟探針產生海量數據的同時也給IPTV感知分析、故障匯聚帶來極大的挑戰,主要表現在以下幾個方面:
(1)數據量巨大。預警實時性要求高,IPTV用戶量大,需要實時上報各項質量數據,每條數據均需要與海量的信息數據進行匹配,然后進行各維度匯聚,實時計算量大。
(2)噪聲數據多。由于用戶行為的不確定性,軟探針會上報各類因用戶行為導致的無用、無效數據,比如觀看時間極短,反復進入或退出均會產生大量的噪聲數據,噪聲數據識別、清洗是另一大挑戰。
(3)IPTV質量指標多。現網IPTV直播、點播、回看采用完全不同的協議,每類業務有超過100項指標并且主要指標完全不同,需要找出相應聚類類型相關性最強的指標。
(4)IPTV業務對網絡要求高、更敏感。在網絡丟包高于0.03%或延時超過40ms即可產生花屏,對用戶體驗造成影響,而現網大部分的網管系統配置告警、預警閥值不足觸發如此細微的問題,故通過海量的IPTV用戶真實體驗進行聚類端到端故障、隱患勢在必行。
1.2 研究方案
本研究以機頂盒軟探針上報數據、直播頻道拉流數據、IPTV網絡和業務撥測數據為基礎,關聯綜合資源管理系統、業務平臺媒體資源表等生成網絡、地理、平臺、終端廠家等4個維度的資源樹和相關標簽信息,按機頂盒劣化數據、直播頻道劣化數據輸出各層級設備和鏈路故障告警數據,采用如下幾項技術解決上述問題:
(1)采用“實時流處理+人工智能聚類算法(K- means)”,確保數據處理實時性、高效性的同時提高聚類的準確性,降低算力消耗,目前全量數據實時告警聚類時間粒度為5分鐘;
處理流程:STB數據入庫處理,將數據劃分K個對象,選定簇心,將STB數據按簇心通過歐式距離歸類,找出質差分割點;不斷有新數據入庫,循環迭代;結合新舊對象數據,重復劃分簇群,定位每個時間粒度(5分鐘、1小時等)不在變化的穩定簇群。
(2)采用“一次聚類+硬探針關聯”雙重驗證,通過不斷總結優化噪聲數據標簽,自動進行多維度的聚類,不斷總結梳理數據過濾規則,同時關聯硬探針進行輔助確定驗證、分段關聯,提高告警的準確性,目前聚類告警準確度達到95%以上,給IPTV業務,甚至整個互聯網網絡的維護帶來全新運維模式,圖1為一次聚類和二次驗證流程說明;
(3)總結梳理告警體系:通過不斷的測試驗證和模擬故障數據進行觸發,最后總結出一套告警體系,包括告警指標、閥值、聚類比例等;告警匯聚邏輯從下層節點逐步上升到上層節點,在故障排查時能從上層節點回溯到下層節點及用戶,關聯出受故障影響用戶群明細數據。
2 故障監控告警手段實驗
2.1 數據樣本
采集約500W機頂盒用戶數據,平均每小時有播放操作的流用戶數約26%,即130W+,每個機頂盒軟探針每5分鐘上報一次數據,即每個小時平臺可以收到1560W+機頂盒數據,機頂盒每次上報的數據內容包括每5分鐘內用戶播放過的每個節目的100+的指標數據,數據量非常龐大。本次實驗,我們抽取了IPTV業務繁忙的階段,已采集的機頂盒數據中隨機一天20:00-20:59一個小時內,約200萬機頂盒戶2400萬份(每5分鐘一份數據)的機頂盒上報數據作為實驗數據樣本。
2.2 數據清洗
本次實驗內容為告警聚類,是基于機頂盒視頻播放出現異常的基礎上聚類的,我們需要先對數據樣本進行清洗,剔除無播放記錄和視頻播放正常的用戶,數據清洗后,剩余約35萬份機頂盒上報數據。
2.3 數據轉換
對機頂盒用戶來說,最常見和最直觀的故障是播放視頻出現了卡頓/花屏現象,所以出現卡頓/花屏的時長直接決定了機頂盒用戶的實際感知體驗,而造成卡頓/花屏的原因是多樣的。我們先將重要故障指標轉換為數值Q1~Qn(約30個),將故障時長按實際故障時間長1~59秒轉換變量為T1~T59,>=60秒的轉換為60,共60個變量。
轉換后的變量數據,需要打上故障類型標簽,標簽內容包括故障原因、故障現象、故障嚴重等級等,變量標簽是根據實際的業務情況、用戶發展及越來越高的互聯網電視體驗感知要求而變化的,但是在通過實際用戶數據聚合變量標簽前,我們可以根據初期分析的經驗值,先為每個變量打上標簽,如:
(1)RTP網絡丟包、網絡延遲過大、TCP重傳率過高等標識為運營商網絡故障;
(2)WIFI信號強度過低、PING家庭網關時延等標識為家庭網絡問題;
(3)HTTP請求無響應、HTTP響應時延過大等標識為CDN平臺故障;
(4)CPU/內存占用、終端請求分片間隔時間偏大等標識為終端故障;
(5)PAT表格錯誤、PID丟失錯誤、視頻空包等表示為節目源故障。
再將故障類型也轉換為變量,以便下一步進行數據處理,故障類型和變量詳見表1:
2.4 數據處理
機頂盒上報的每個故障指標都是在監測軟件監測到機頂盒播放視頻有卡頓、花屏等現象的時候上報的,通過在用戶播放視頻產生故障時同步分析出來的指標,可以預判該故障時間段內獲取的指標肯定有部分指標超過故障告警門限,再同比全量機頂盒每個指標通過K-means聚合計算出來的常規值,與視頻播放異常時每個指標的值進行對比,得出單個機頂盒單次視頻播放異常時與指標常規值偏離度超過N%(經驗值)的指標(一個或多個)定義為該故障記錄數據的異常指標。
通過對異常指標、故障類型、用戶行為數據和反饋數據的關聯,后臺形成告警原因支持庫,在每個異常指標產生的時候,自動計算和匹配故障原因數據,并將異常指標匹配上故障類型時長變量和故障原因信息。
然后將每個機頂盒的異常指標及其關聯信息數據通過歐式距離,計算出每個機頂盒故障數據點的距離,通過故障數據點和中心數據點之間的距離長短,得出聚類中心點和簇群,找出質差簇群,通過質差簇群的機頂盒信息進行分類,匯聚上聯質差節點。
具體處理流程包括:
(1)系統會實時對機頂盒上報數據進行清洗和聚類,每5分鐘判斷一次聚類中心點和匯聚質差節點;
(2)每5秒聚類一次機頂盒數據,第6-10秒的新數據會在前5秒的聚類中心重新計算后作為數據前10秒的數據樣本和前5秒的數據合并計算,得出新的聚類中心點,以此類推,循環計算;
(3)每完成5分鐘聚類中心點計算,與機頂盒上聯信息關聯匹配一次,得出質差上聯節點;
(4)第二個5分鐘質差上聯節點與第一個5分鐘質差上聯節點比對,判斷質差告警是否連續;
(5)根據告警連續門限確認需要循環比對質差上聯節點的次數,達到門限則產生聚類告警,未達到門限則在下一個5分鐘計算周期循環計算。
3 結 論
通過本次聚類告警算法實踐,對35萬的機頂盒質差數據按k-means算法聚類后,發現每個5分鐘的5個聚類中心點偏差不超過3%,可以在每次聚類時都指定固定的5個聚類中心,減少循環計算量,提高告警判斷的準確性并細化告警原因。
現有告警分析技術,主要采用固定指標門限、固定故障類型、固定故障節點,部分有故障隱患但是達不到固定告警條件的數據可能會被遺漏,同時也無法進一步判斷故障原因。IPTV電視質量告警的聚類算法研究與實踐通過K-means聚類質差機頂盒匯聚上聯質差節點的方式與實際故障現象貼近,準確率85%以上。圖2為機頂盒數據聚類后的效果展示。
IPTV電視質量告警的聚類算法研究與實踐可以有效提升故障監控告警數據的有效性和及時性,在IPTV批量用戶故障投訴前通知運維人員處理故障,降低IPTV用戶投訴率,提高IPTV用戶感知。
參考文獻:
[1] 房培光,林曉琳.IPTV技術的優勢與應用 [J].信息與電腦(理論版),2017(12):158-159+162.
[2] 史林林.論IPTV技術及應用 [J].電子技術與軟件工程,2016(7):28.
[3] Anand Rajaraman,Jeffrey David Ullman.大數據——互聯網大規模數據挖掘與分布式處理 [M].王斌,譯.北京:人民郵電出版社,2012.
作者簡介:李維(1982-),男,漢族,湖南益陽人,中級工程師,工學碩士,研究方向:計算機應用技術;喬雪(1983-),女,漢族,廣東肇慶人,工學碩士,研究方向:通信與信息系統;徐木生(1980-),男,漢族,廣東梅州人,工學碩士,研究方向:通信與信息系統。