摘 要:大數據整合和創新應用在各個成為各個行業目前發展的主要突破點。大數據(big data),或稱巨量資料,指的是所涉及的資料量規模巨大,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。我們關注在運營商面對目前網絡飛速發展,業務不斷演進豐富時,如何以大數據的思路來迎接這一新的挑戰,并基于過往的經驗,提出演進的路徑。總體而言,我們的過往,或許一直到現在,都是基于設備的維護,設備的故障處理,信息的來源或者基于用戶的投訴或者基于設備網管的告警,然后根據相關的經驗和預案進行設備的處理,我們很難基于數據對故障進行預測,對用戶的QoE、對我們業務的SLA、我們IT的KPI和ROI進行基于數據的分析提供相關的業務運維,而當前,我們的用戶與業務不在僅僅是要求網絡的連通性提出要求而是對QoE、SLA有了非常明確的需求,我們的設備投資,也必須關注其ROI,我們的后臺系統的KPI也是我們必須關注的運維角度,因此,本文提出了從設備運維向數據運維演進的概念,并將其從建設到實現,提供相關的發展階段和發展路線。
關鍵詞:大數據;運營商;運維;演進
中圖分類號:F627 文獻標識碼:A 文章編號:1674-7712 (2014) 18-0000-02
一、大數據背景
大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。大數據時代網民和消費者的界限正在消弭,企業的疆界變得模糊,數據成為核心的資產,并將深刻影響企業的業務模式,甚至重構其文化和組織。因此,大數據對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。如果不能利用大數據更加貼近消費者、深刻理解需求、高效分析信息并作出預判,所有傳統的產品公司都只能淪為新型用戶平臺級公司的附庸,其衰落不是管理能扭轉的。因此,大數據時代將引發新一輪信息化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的數據量,而麥肯錫則預測未來大數據產品在三大行業的應用就將產生7千億美元的潛在市場,未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。
(一)大數據在國內的高速發展
馬云很早就意識到大數據的價值,曾經說過阿里巴巴集團價值最高的不是淘寶,不是天貓,也不是支付寶,而是阿里平臺上所產生的大量數據。阿里巴巴、天貓、淘寶、支付寶、阿里金融產生的數據構成了個人、企業、商品和金融之間的完全數據鏈,這些數據能夠讓阿里巴巴提供更精準、高效的服務,而這些數據同時也能夠給阿里巴巴帶來不菲的收入,很多天貓和淘寶的賣家都購買了數據魔方、量子衡道等基于大數據的增值服務。高德、快的等應用將阿里的數據覆蓋領域從線上延伸到了線下,其數據的復合價值也更高。阿里也在有意識地布局大數據,如收購華數傳媒、恒生電子以及中信21CN,表明阿里在大數據領域的深謀遠慮。
(二)大數據在國外的各種應用
奧巴馬基于大數據幫助競選總統,中情局利用云計算和大數據找到恐怖分子這樣的事已經不再新鮮,因為早在4年前,Google就已經利用搜索數據幫助美國政府監測全國H1N1流感疫情。作為互聯網先驅的Tim O‘Reilly已經發出了技術撼動政府的最強音:“Government as a platform”。Open Data Program是奧巴馬內閣在2009年提出的一項計劃。作為全球最具創新能力的城市之一,舊金山在2009年就開始啟動“開放數據”。這項計劃詣在讓每個市民都能充分接觸到與他們生活息息相關的非機密數據,并從中能夠得到好處。
二、數據運維,大數據在運維上作用與價值
運營商的機器數據,最直接的數據來源,將數據進行整合和關聯以及相關的分析處理以后,可以直觀對網絡進行端到端可視化的檢測,可以對網絡的故障預警處理更加即使準確,同時,可以量化IT系統的KPI以及用戶業務相關的SLA和QoE。
(一)結合大數據處理帶來的相關功能,將全部運維數據統一可視化綜合處理
1.全部設備數據統一處理
(1)基于大數據以及相關的中間件,設備信息范圍涵蓋應用、服務器、網絡設備中的所有日志、配置、信息、trap、告警、度量以及其他系統性能數據;(2)可靈活地從文件、網絡端口、數據庫、自定義API和接口中實時或按需訪問數據;(3)索引對原始數據的完整性無任何影響;(4)高效的文件系統存儲。
2.基于大數據搜索能力可以實現快捷的搜索與審查
(1)立即搜索所有IT設備中任一格式的事件;(2)交互式對比查詢,可收斂事件范圍;(3)實現實時搜索;(4)實現不同數據中心、不同地理位置、多服務器間的分布式搜索;(5)搜索保存;(6)基于瀏覽器的搜索,不依賴任何插件。
3.基于對各個數據來源進行綜合,可以關聯復雜事件
(1)關聯看上去并不相關的事件或活動;(2)基于時間或外部數據做關聯;(3)可把結果指定到報表或儀表板中。
4.基于多種條件的監測與告警,不僅僅設設備層面,而是在故障之前的預測
(1)實時告警;(2)通過電子郵件、RSS、SNMP或腳本觸發告警;(3)可通過腳本告警自動糾錯或進行后續處理動作;(4)可通過子搜索在告警中嵌入復雜的管理規則。
5.大數據報表處理形式會更加多樣
(1)結合快速、靈活的搜索功能呈現完美的交互式分析報表;(2)可通過RSS或電子郵件向已編制目錄名單發送報表;(3)十余種報表格式,如直方圖、線性圖、分區圖、圓餅圖等;(4)動態報表,可隨時點選并再次搜索;(5)報表自動存儲。
(二)基于大數據的監控系統故障處理示例
ARP病毒在IT運維中比較常見,與基于傳統工具軟件的方法不同,我們嘗試用大數據的方法來處理。
(1)大數據平臺。先說數據來源,我們有數據采集設備,大部分數據都會被記錄下來。分析監控系統,準備使用數據分析系統;(2)數據獲取。環境有了,下一步就是實現ARP數據從采集設備流向分析。導出流量的歷史數據,相對于數據包包頭12-13的位置,值為0806就是ARP包的標志位了。查看了幾種ARP包,request,reply都是這樣的。這個抓包文件也反映了一種情況,某些情況下,網絡設備工作異常,產生的不正常ARP數據包也會干擾我們的網絡;(3)數據收集。接下來要考慮如何將這些源源不斷的文件文件傳到服務器上;(4)初次查詢數據。根據已經定義好了dat input,從探針傳過來的文本格式的ARP數據會被索引,開始查詢;(5)定義異常ARP。需要定義一個正常的ARP記錄的表格,和這個表格沖突的ARP記錄為異常ARP;(6)查詢異常ARP。先找臺測試電腦設成192.168.111.222,來模擬異常ARP數據包(和基準不一樣的就算異常;(7)建視圖。定義的視圖不斷刷新,上半部分是匯總記錄,下半部分為明細記錄。都是反映過去5分鐘內,和定義的要保護監控的ARP記錄有沖突的ARP包的情況(IP有記錄,MAC不一致)。
(三)基于大數據運維的KPI監控與處理
通過多元多維的數據采集和數據加工,可以將網絡的KPI或者用戶的QoE進行可視化、指標化監控。將KPI首先定義為來源不同的數據流,下一步具體到網絡傳送的IP數據包,對故障的預警、定位以及詳細分析,則是自下而上的過程。基于大數據平臺的海量數據處理,及時數據抽取,非常有利于對KPI整體指標的分解,對細分的關聯到KPI的每一個真實數據包進行解碼計算,從而可以非常精準的定位KPI相關的問題。
我們以XX公司的BOSS系統為例,來驗證大數據平臺對BOSS KPI的關鍵作用。
平臺監控:對線路、網絡、系統、數據庫、存儲、備份等的配置、故障和性能進行監控管理。
業務監控:從業務角度對采集、計費、結算、帳務、營業、撥測、客服等業務系統的配置、故障和性能進行管理。
運維管理:從事件管理、問題管理、配置管理、變更管理、統計考核等方面對各個運行維護支持崗位進行規范管理。
隨著業務的日益龐大復雜,KPI的管理和檢測是非常關鍵的任務。
聯機計費數據采集設備采集周期:15分鐘
營業廳營業員操作日報響應的時限:10分鐘
營業廳開戶業務受理的系統處理時限:6秒
營業廳繳費業務受理的系統處理時限:3秒
帳單查詢的時限:30秒
詳單查詢的時限:30秒
月出帳時限:8小時
從數據采集完畢到形成高額報告的時限:15分鐘
服務使用記錄從采集完畢到計費批價完畢的時限:10分鐘
以傳統的手段,非常難以滿足對上述KPI的監控和管理分析,對BOSS系統的要求越來越高,而目前的BOSS系統是一個大而全、完全緊耦合的系統,可以說是牽一發而動全身,風險非常大。基于大數據的平臺,則主張將KPI進行合理的分解,逐層的處理,從底層的解碼開始,全部納入數據倉庫,從根本上應對KPI管理所帶來的各種挑戰。
(1)實時KPI。將業務應用路徑切分,按照功能模塊定義。根據應用響應預期定義并調整KPI值。實時觀察,對KPI的異常進行早期報警;(2)響應時間。根據KPI值的變化觀察應用模塊的響應時間變化。應用路徑中單個應用模塊的變慢會造成整個交易時間的變長;(3)應用FLOW。根據響應時間的變化,及時找出變慢的主機或通訊對。通過觀察響應時間分布、錯誤分布、流量曲線等指標進行快速判斷;(4)深入分析。性能變差的通訊進行深入解碼,借助Sniffer Intell/Expert系統進行診斷。
從運維角度,首先是主動運維,通過實時的監控,將各種KPI以及影響元素統一圖形化展現,一旦發現異常流量,系統自動智能挖掘相關數據,將根源發現。
三、數據運維的發展路線
從國內外運營商發展來看,運維系統的大數據平臺化是首先考慮的動作,這個系統對外部完全封閉,因此運營商可以完全主動的進行大數據建設,統一目前各個業務子系統的數據倉庫,構架基于自身業務管理方法的分析手段和計算方式。下一步可以向公眾系統開放的網絡平臺,提供基于SLA和QoE的數據分析平臺演進,目前中國移動已經開始考慮建設相關的平臺。
四、結束語
大數據革命在各個行業都是新的機遇,將更加智能快速的提升業務的供應和保障能力,因此在科技最前沿的運營商,更應該領先其他行業,將設備運維向數據運維演進,將接入服務向數據服務演進。
參考文獻:
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.盛楊燕,周濤,譯.大數據時代[M].杭州:浙江人民出版社,2013.
[作者簡介]侯軼男(1972.10-),男,河南泌陽人,碩士,高級工程師。