阮宜龍 李晨陽 梁艷春 張宏俊
近幾年,通信產業迅猛發展,數據規模呈爆炸式增長。在此背景下,通信運營商開始意識到數據的重要作用。通信服務類型多樣,系統復雜,運行維護費用高。針對上述問題,本文提出了一個基于大數據平臺的通信數據管理系統。
隨著大數據技術的發展以及通信產業中日益增長的業務數據,傳統的運營分析體系已遭遇瓶頸,新的大數據運營分析系統逐步上線。大數據平臺數據倉庫的界面層每天都會有海量的數據被訪問,這些數據必須被保存起來,并與過去所存儲的商業數據一起,用于決策分析。根據不同的商業情景,采用不同的方法進行數據分析。現有的一些軟件能夠很好地解決數據的采集、存儲、分析和查詢等方面的問題。大數據平臺的根本特征是組件多,節點多,復雜性高。通信產業大數據平臺中,包含了大量的構件、節點,同時也存在著大量的業務數據與指標,需要對其進行有效的管理。因此,如何設計一個高效、輕量級的大數據平臺,對其進行有效的管理是非常關鍵的。

如圖1所示,通信數據管理系統是以大數據平臺為基礎的,它由接口采集模塊、程序調度模塊、平臺告警模塊、數據營銷分析模塊以及可視化模塊構成。接口采集模塊主要完成對大數據平臺構件和服務、虛擬化系統以及物理節點的工作時間周期數據的獲取,并對所收集到的數據進行格式化,并將其傳送給程序調度模塊。在數據營銷分析模塊,利用流式計算和深度學習的方法,深度分析用戶的性別、年齡以及產品的使用狀況,并根據性別、年齡、年齡等因素,為用戶提供個性化的產品推薦。查詢可視化模塊主要是對歷史資料及分析模組的實時資料進行存取、儲存,并提供資料查詢與視覺化展示,以供使用者日后進行商業分析之用。
針對大數據平臺構件與服務多樣化、獲取模式多樣、數據意義多樣等特征,研究針對不同構件或服務的專用收集模塊具有重要意義。從數據源獲取數據后,用戶可以從界面中獲取相應的數據,從而得到更加豐富和完備的數據。本文采用Java進程采集節點上的數據,并定期啟動特定的任務訪問構件或服務提供的接口,對采集到的數據進行篩選和抽取,并將其格式化,并將其發送給程序調度模塊。在虛擬化的基礎上,建立了一個虛擬節點,即虛擬節點。虛擬結點的操作資料是通過一個開放的界面來實現的。通過在特定節點上啟動Java進程,啟動構件和服務,并向聚集和存儲模塊發送格式數據,實現持久存儲。對于實體資料節點的資料采集,則必須先建立指令碼,然后在實體節點上進行部署。該腳本通過調用Linux的指令,獲得CPU,內存,硬盤,網絡以及其他的用法,并返回Linux命令的結果。通過字符串的匹配、分析,抽取出有意義的字段,然后將這些字段進行格式化,然后將這些字段傳送給程序調度模塊。
在數據收集完成后,還需對數據進行ETL等處理,其主要由對應的腳本程序來完成。針對不同的系統,其數據處理過程各不相同,所以要結合具體的工作環境,分別編寫相應的腳本。通過編程界面,實現了對程序運行狀態的實時監測,并將其存入MySQL數據庫。當程序出現故障時,將自動重啟。以前的計劃表存在著不足,如沒有對程序進行完整的監測,沒有對程序進行有效的控制,也沒有對自動腳本進行完整的配置。所以,這個模塊就是針對上述不足而設計的。該模塊主要由ETL和相應的腳本程序配置兩大函數構成。大數據調度平臺的總體運行接口及實施方式,與現有的倉儲調度體系完全相同,其工作流程見圖2。本項目的核心內容是采用Linux中通用的SSH通信協議,調度平臺能夠以大數據為簇的方式分布執行任務。采用這種方式的優勢在于,無需將任務腳本放在一臺服務器上,而是可以將運行的不同種類的任務分散到不同的服務器端,并且能夠針對任務的特征做出適當的調整,在不同的集群系統之間增加多任務的分布式執行,增強了程序之間的耦合程度,降低了調度服務器的資源負荷。此外,我們還通過增加多任務的分布式執行,使得不同的任務可以相互關聯和協作,提高了整體的任務執行效率。同時,由于不同的集群系統之間可以共享任務執行結果和資源,從而降低了調度服務器的資源負荷,使得整個系統更加穩定和高效。

本文提出了一種基于大數據平臺的通信數據管理系統,主要研究了接口采集模塊和程序調度模塊。對于其他功能模塊,本論文是在現有的基礎上,對現有的大數據管理系統做了一些小的改善,從而提高了整個系統的總體性能,提高了用戶的使用體驗。在保證數據遷移效率的前提下,保證了系統的穩定可靠。通過本文的研究,希望能夠從根本上解決目前通信數據管理系統存在的問題,提升通信數據的處理效率,提升通信數據的分析質量,為企業提供更加高效便捷的數據管理方案。
基金項目:江蘇省研究生科研與實踐創新計劃項目(KYCX22_1019)。
作者單位:阮宜龍 中國電信集團有限公司
李晨陽 、張宏俊 中國通信服務股份有限公司
梁艷春 中國通信建設集團有限公司