?
通信網管系統數據質量管控的技術研究與實現
黃敏飛,王翔,譚展
(中國移動通信集團廣西有限公司,南寧 530028)
摘 要本文提供一種新思路,即通過加強采集層的數據質量監控、質量分析、問題輔助定位,以及補救措施等技術方案提高數據質量,從而更好地保障業務支撐系統的正常運行。同時,本文提及到這些數據質量管控的技術研究方案,在統一采集平臺中得到了技術驗證,并取得了良好的應用效果。
關鍵詞網管系統數據;數據質量管控;監控
隨著全業務運營時代的到來,市場競爭壓力也越來越大,而市場也會將這種壓力逐步傳遞給網絡部門,從而需要網絡部門提供更高質量的服務,這些服務都需要強有力的IT系統來支撐。而IT系統支撐的能力,在很大程度上都依賴于數據,如果系統的數據質量差或共享不夠充分,則都會直接影響對外提供服務的能力。
此時,傳統的“煙囪式”采集及數據管理模式逐漸滿足不了網絡運維管理集中化的要求,弊端顯現如下。
(1)系統擴展能力不強,采集能力無法平滑擴展。
(2)系統可靠性低,采集任務靜態負載分配,出現故障無法自動恢復。
(3)采集資源浪費,目前不支持按需采集,采集普遍應用價錢昂貴的小型機硬件架構,但資源利用率卻很低。
(4)采集效率不高。采集速度和接入速度遠達不到應用要求。
(5)采集管理維護困難。各專業分別開發采集程序,管理維護崗位重復設置,缺乏集中維護監控手段。
(6)采集質量無法保障。缺少采集數據質量監控手段,采集數據不及時、不準確,無法自動發現。數據缺失,卻無法執行自動補采。采集問題難以定位,采集過程及指標算法不透明,無法管理。
統一采集在此種背景下應運而生,從構架上打破了傳統的以專業劃分的獨立網管系統采集建設體系,建成為一個基于私有云資源、云計算、負載均衡技術,實現采集任務管控、數據質量管控、北向接口管控的綜合采集平臺。統一采集層,實現了對設備、OMC、信令等數據的采集、管控與共享,真正實現了采集層與數據層及應用層的解耦。提升數據質量管控能力,一直是眾所關注的難題之一,而在采集層保證數據質量的高效可用將是支撐業務順利開展,提升全網管系統整體運行質量的關鍵。
本文將圍繞統一采集平臺如何提高數據質量管控領域做些相關技術研究,并結合廣西移動的實施效果做些闡述和說明。
1.1 數據質量管控現狀
由于現存的采集模式多是專業網管直采,Counter 及Counter生成KPI層的數據質量管控方式,仍采用各專業網管自管控,對以單項的、分散的、獨立的數據管控為主。而數據質量的監管方式相對單一(手動或半自動),導致了設備采集上來的數據頻頻出現了不完整、不及時、不準確狀況,直接影響到上層的數據應用。盡管各自系統都有一些補救措施,但由于補救不及時效率低,還是對業務支撐的順利開展和全網運行質量造成了負面影響,如圖1所示。
1.1.1 所采數據的質量不夠優質
(1)數據完整性不夠。現有采集模式下,往往采集上來的數據完整性不夠,數據質量達不到應用系統所需的要求,一直是運行質量得不到提升的關鍵。
(2)數據準確性不高。現有專業網管對采集數據準確性驗證的方面相對比較欠缺。采集上來的數據,缺少歷史值、經驗值的對比,即使數據異常也不會標注,由于這種異常數據(壞數據)可能導致上層分析類數據造成很大的偏差,從而影響到決策類應用。
(3)數據及時性不理想。現有的專業網管采集,由于缺少對采集數據質量監管力度,往往很難保證數據采集的及時性,直接或間接導致數據延遲上報,分析及報表類應用也常常因為數據不及時受到影響,界面數據缺失、顯示異常。
1.1.2 各專業采集數據不夠規范
目前,采集上來的數據不夠規范化,往往數據處于不同的系統不同接口,數據的格式和數據質量衡量的標準差異很大,這給上層應用的處理帶來很大不便。
1.1.3 缺乏統一的數據信息獲取途徑
設備數據采集均由各自專業網管承擔,缺少統一的數據采集出口。同一類型的數據重復采集,采集方式也不盡相同、指標算法更是難以統一,導致了數據一致性很難得到保證。這些不一致的數據應用到應用系統中,直接影響業務支撐應用的可信性,在一定程度上影響了網絡運行質量。
1.2 數據管控問題解決思路
在“4+1”網管建設模式的演進趨勢下,統一采集平臺有了新的發展空間和潛力。而在統一采集平臺下,解決專業網管“煙囪”時代采集層數據質量存在的不足和諸弊端、提高數據質量的解決方案,卻離不開采集層數據質量的監控、定期的質量分析和報表分析、問題定位以及一些補救措施和手段的應用,如圖2所示。
2.1 監控手段提升采集數據質量
統一采集平臺的數據質量管控模塊采用了監控手段提高數據質量,包括采集層的數據及時性監控、數據完整性監控、數據合理性監控、告警數據質量監控、數據異常監控等功能。通過可視化監控界面,維護人員能夠快速、簡捷定位到采集層數據的問題所在,便于及時做出決策降低了影響到上層數據應用概率。

圖1 網絡數據采集流程圖
2.1.1 數據及時性監控
對采集源的數據及時性進行監控,在數據可視矩陣圖上能夠清晰地標注出及時的數據、延時的數據以及采集異常的數據。同時,該功能能夠對不及時或異常的數據進行問題定位。通過對采集任務執行過程監控、數據采集情況的檢查信息以及采集過程出錯情況來完成數據不及時的原因。
2.1.2 數據完整性監控
數據完整性監控提供著采集源以及指標組兩種維度的監控。從采集源、指標組維度監控并顯示某個時間點數據條數、經驗數據條數以及數據完整性情況。
采集源監控維度,通過完成監控日期、監控粒度以及選定采集源后,可以看到該采集源下數據完整性監控的矩陣圖,通過矩陣圖能夠確定該采集源數據任務生成情況、下發任務的成功情況、采集異常情況以及數據的缺失情況。該界面提供具體采集信息,包括完整率、采集條數、經驗值、完整率閾值。
指標組維度監控,通過完成監控日期、監控粒度以及特定指標組的選定后,可以看到該采集源下數據完整性監控的矩陣圖,通過矩陣圖能夠確定該采集源數據任務生成情況、下發任務的成功情況、采集異常情況以及數據的缺失情況。
廠家完整性監控功能,可以根據主動監測結果,從宏觀到微觀方式監控廠家的準備情況,顯示廠家、某個采集源再到指標組的數據準備情況。從廠家完整性監控的角度,進一步提升對采集層數據質量監控的力度,保障了上層支撐應用的系統正常運行。

圖2 移動OSS 4+1系統規劃
2.1.3 數據合理性監控
針對重點考核的指標進行合理性監控和分析。
根據同期或歷史經驗值(可設置)進行重點采集和指標合理性比對分析,能夠自動對那些超出閾值或低于極限值的采集源下的重點考核指標篩選。在數據合理性監控可視界面上,系統將比對之后不合理的數據進行了標注,運維人員可及時對這些異常指標進行數據處理和采取相應補救措施,避免這些不合理的采集數據對上層應用決策和分析造成負面影響。
2.1.4 告警數據質量監控
實現了對告警數據的完整性、合理性、及時性監控,保證了從統一采集平臺輸出的告警數據質量。
完整性:協議層單位時間收到多少字節數,單位時間截取出消息的字節數,單位時間截取出的告警條數,單位時間解析后輸出的告警條數。
合理性:單位時間截取出消息的字節數/單位時間收到字節數,簡稱告警截取率;解析后條數/解析前的條數,簡稱告警解析率。
及時性:單位時間內抽樣檢查,告警解析完成的時間,該告警截取完成的時間。
2.1.5 數據異常產生告警
統一采集平臺的數據質量管控功能,具備數據異常處理或識別能力,通過該功能保證高品質的數據質量。
當采集上來的數據(包括配置、性能以及告警等數據)在解析或KPI計算的過程中處理失敗時,平臺能夠做出數據異常識別,并能夠生成數據異常告警。同時,統一采集平臺的數據質量管控功能,具備查看數據異常告警的可視界面,也應該可以將這些數據異常告警log到日志中。
2.2 質量分析和報表提升采集數據質量
統一采集平臺的數據質量管控模塊能夠通過數據質量分析和報表數據分析的手段對采集層的數據質量有一定的提升。
2.2.1 數據質量分析
統一采集平臺提供了數據質量綜合分析功能,能夠進行分析維度選擇、支持完整性分析、數據量分析、數據質量分析(日粒度、小時粒度)、任務量分析。每種分析類型的柱形圖都可下鉆至詳細信息列表。
2.2.1.1 完整性分析
從南向、采集、北向數據流向和廠家兩個維度分析某天某類網元指標數據完整性,同時對比分析各設備廠家的原始Counter數據情況,顯示某個采集源的具體情況。
支持按照專業類型、網元類型、時間的條件過濾進行完整性分析支持數據流向和廠家兩個維度。
數據流向維度:數據流向維度圖維度細化條件為南向、采集、北向,橫坐標為時間單位1,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為完整率,鼠標放到相應的柱狀條時顯示該時刻的完整性分析信息,信息包括數據流向、時間點、完整率。柱狀圖可下鉆到詳細分析信息頁面。
廠家維度:廠家維度圖維度細化條件為全部廠家,橫坐標為時間單位1 h,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為完整率,鼠標放到相應的柱狀條時顯示該時刻的完整性分析信息,分析信息包括廠家、時間點、完整率。柱狀圖可下鉆到詳細分析信息頁面。
2.2.1.2 及時性分析
從南向、采集數據流向和廠家兩個維度分析某天某類網元指標數據及時性,同時對比分析各設備廠家的原始counter數據情況,顯示某個采集源的具體情況。
支持按照專業類型、網元類型、時間的條件過濾進行及時性分析。及時性分析支持數據流向和廠家兩個維度。
2.2.1.3 數據量分析
從counter、KPI數據兩個維度分析某天某類網元的數據量。
支持按照專業類型、網元類型、時間的條件過濾進行數據量分析。數據量分析支持KPI層和counter層兩個維度。
KPI層維度:KPI層維度圖橫坐標為時間單位1h,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為歸屬為該所選網元類型的所有KPI層指標組的數據量。柱狀條可以顯示該時刻的數據量分析信息,分析信息包括時間點、數據量。柱狀圖可下鉆到詳細分析信息頁面。
counter層維度:counter層維度圖維度細化條件為原始counter表個數和原始counter表記錄數,橫坐標為時間單位1h,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為歸屬為該所選網元類型的所有原始counter層表個數和表記錄數。柱狀條可以顯示該時刻的數據量分析信息,分析信息包括時間點、數據量。能夠提供查看詳細信息。
2.2.1.4 數據質量分析
從廠家維度對比分析counter數據完整性、及時性。
支持按照專業類型、網元類型、時間的條件過濾進行采集數據分析。采集數據分析的時間粒度為天粒度和小時粒度。
采集數據分析天粒度廠家維度:采集數據分析天粒度廠家維度細化條件為采集完整性、采集及時性,橫坐標為廠家,縱坐標為完整率和及時率。柱狀條能顯示該時刻的采集數據分析信息,分析信息包括維度、廠家、與維度相關的分析值,柱狀圖可下鉆到詳細分析信息頁面。
采集數據分析小時粒度廠家維度:采集數據分析小時粒度廠家維度細化條件為采集完整性、采集及時性,橫坐標為廠家,縱坐標為完整率和及時率。柱狀條能夠顯示該時刻的采集數據分析信息,分析信息包括維度、廠家、時間點、與維度相關的分析值。柱狀圖可下鉆到詳細分析信息頁面。
2.2.1.5 任務量分析
從任務和負荷兩個維度分析任務整體執行情況和對應采集機負荷。
支持按照時間、采集機的條件過濾進行任務量分析,可以選擇某一特定采集機也可以選擇全部采集機。任務量分析支持任務和負荷兩個維度。
任務維度:任務維度細化條件為執行失敗、正在執行、等待執行、執行時長小于10 min、執行時長大于10 min,橫坐標為時間單位1 h,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為任務量,鼠標放到相應的柱狀條時顯示該時刻的任務量分析信息,分析信息包括細化維度、時間點、任務量。柱狀圖可下鉆到詳細分析信息頁面。
負荷維度:負荷維度橫坐標為時間單位1 h,不足一天以當天0點到當前時刻的前一個整點的數據來統計,縱坐標為負荷率,鼠標放到相應的柱狀條時顯示該時刻的任務量分析信息,分析信息包括采集機、時間點、負荷率。柱狀圖可下鉆到詳細分析信息頁面。采集機可以選擇某一特定采集機也可以選擇全部采集機。
2.2.2 數據質量報表
系統提供數據的完整性、及時性、合理性的報表。
數據分析報表:支持完整性、及時性、合理性的小時報、日報表。選擇過濾條件包括報表類型、專業、層次、時間周期、廠家、數據類型、開始時間、結束時間、指標組名。
從數據質量報表進行數據質量分析,在某種程度為提升數據質量管控能力尋求了另一種保障手段。
2.3 補救措施提升采集數據質量
當數據不完整、數據延時、數據不準確的諸多狀況已經發生,在統一采集平臺上要保障采集層數據質量,能夠支撐上層應用系統正常運行,管控功能少不了補救措施。目前,應用到統一采集平臺的補救措施有3種,分別為數據自動補采、數據人工補采、數據填補。
2.3.1 自動補采
通過設定自動補采策略,作為后續數據自動補采的基準。策略中,內容包括采集源、補采檢查點、一天后補采檢測點、描述信息等。
統一采集平臺的管理服務器的自動補采線程,定時輪詢檢測數據完整率情況,當數據完整率低于90%(設定值)時,管理服務器會根據補采策略下發補采任務,自動執行數據補采操作。
數據自動補采功能,很大程度上提高了數據的完整率,從而保證了采集層的數據質量。
2.3.2 人工補采
通過選擇需要補采的指標組,制定補采策略。
界面上提供了可手工補采單個或多個時間點的數據的功能,同時支持對系統所有采集源某個時間段的數據進行補采,支持批量補采。
手動補采:選擇對有問題的數據手動補采,系統提示操作是否成功,補采執行次數由系統累加,手工重采時間記錄為最后補采時間。
批量補采:可對缺失的數據按照指標組進行批量補采,操作時需要選擇要進行補采的指標組和補采策略,完成批量補采集。
2.3.3 數據填補
可以制訂數據填補規則。當數據缺失或異常時,系統允許運維人員根據數據填補規則對近期缺失或異常的數據進行批量填補,以確保共享數據的完整性。
數據填補規則包括指標的設定、指標值的范圍設定(平均值、最大值、經驗值,數值可編輯)、數據填補時間段及時間點的設定。當滿足填補條件時,系統能夠自動根據規則進行數據填補;數據填補完成,系統記錄對哪些數據進行了填補,記錄填補前后的值。
從數據填補功能上,可以憑借經驗值對由于設備故障或網絡等因素產生的異常數據或者偏離很大的數據進行修補,從而使數據質量管控得到了保障。
2.4 問題輔助定位
可根據采集流程中各個監控點信息,輔助進行問題定位,應該能夠從以下3個方面完成問題定位。
(1)監控廠家側數據準備情況,判斷采集數據問題是否由廠家側導致。
(2)監控廠家側數據準備情況,判斷數據質量問題是否由廠家側導致。
(3)監控數據采集過程中錯誤信息,判斷采集數據問題由采集過程的哪個具體環節導致。
目前,上述技術和解決方案已在中國移動通信集團廣西有限公司統一采集平臺項目中得到了驗證和實施。
從實施的規模和應用效果來看,在采集層數據質量的管控手段和措施得到了豐富,在功能上嘗試了一定創新,尤其是在監控力度和方式得到了進一步的擴大和深入。
表1是傳統網管的采集層數據質量管控模式與統一采集平臺內實現的數據管控模塊的差異對比。
經過統一采集平臺的數據質量管控的實現及應用,采集層數據質量的完整性、及時性、合理性、告警數據的數據質量等方面得到了10%~20%的提升,如表2所示。
廣西移動統一采集平臺數據質量管控現網運行的功能具有以下功能。
(1)完整性監控功能展現:該采集源在某一時刻的具體采集信息,包括完整率、采集條數、經驗值、完整率閾值。

表1 采集層數據質量管控模式差異性對比

表2 傳統網管與統一采集平臺數據管控模式數據質量提升對比
(2)任務流向監控展現:從某一個異常KPI可以順序追溯到數據共享、數據匯總、計算甚至采集源頭是否有異常。
(3)數據報表展現:數據質量報表子菜單,界面如圖所示,支持完整性、及時性、合理性的小時報、日報表。選擇條件包括報表類型、專業、層次、時間周期、廠家、數據類型、開始時間、結束時間、指標組名。
(4)數據質量分析:及時性分析、完整性分析、數據量分析、任務量分析、全采集機負荷分析。
(5)問題定位展現:根據采集流程中各個監控點信息,從數據采集過程、數據準備情況、錯誤信息3個方面完整問題定位。
(6)告警數據質量監控展現:提供“專業”,“采集源”“開始時間”、“結束時間”等查詢維度。 包含“完整性”、“合理性”、“及時性”3張圖表。完整性是接收字節數、截取條數、解析條數的疊加;合理性是截取率、解析率的疊加;及時性是解析用時。
Research and implementation of communication OSS system data quality control
HUANG Min-fei, WANG Xiang, TAN Zhan
(China Mobile Group Guangxi Co., Ltd., Nanning 530028, China)
Abstract This paper provides a new way, through enhancing the quality of data acquisition layer monitoring, quality analysis, problem assisted positioning, and there medial measures to improve data quality and to better protect the normal operation of business support systems. Meanwhile, the data quality control technology resolution that the paper referred to,has been verifi ed and achieved good effect in General Collection Platform.
Keywords data network management system; data quality control; monitor
收稿日期:2015-03-01
文章編號1008-5599(2015)04-0019-07
文獻標識碼A
中圖分類號TN915