韓宇 李世沖 朱祥磊 何啟明 王新安 孔慶濤 李濤
隨著云化演進,運營商CRM系統(tǒng)正在由面向數(shù)以千計的操作員轉(zhuǎn)變化為面向數(shù)以千萬計最終用戶的系統(tǒng),系統(tǒng)規(guī)模也呈幾十倍增長,業(yè)務(wù)監(jiān)控體系逐步由“關(guān)注系統(tǒng)完好性”的集中式監(jiān)控演進為以“關(guān)注客戶體驗”為核心的分布式監(jiān)控體系。對監(jiān)控的自動化和智能化提出了更高的要求。
傳統(tǒng)業(yè)務(wù)監(jiān)控方法僅能從個別因素進行監(jiān)控(如僅針對具體業(yè)務(wù)、僅針對網(wǎng)絡(luò)、僅針對應(yīng)用等),無法從客戶體驗和業(yè)務(wù)全流程角度實現(xiàn)整體粒度和細粒度統(tǒng)籌監(jiān)控管理,主要表現(xiàn)在以下幾點:
(一)缺乏面向業(yè)務(wù)全流程的智能分析系統(tǒng)
業(yè)務(wù)由多個應(yīng)用組成,而每個應(yīng)用部署位置環(huán)境都不一樣,核查分析業(yè)務(wù)需要跨多臺主機。無法實現(xiàn)以業(yè)務(wù)為視角的立體式全景監(jiān)控分析。
(二)缺乏一個快速有效的深度挖掘平臺
各個應(yīng)用缺少業(yè)務(wù)明細日志分析,無法從地市、業(yè)務(wù)渠道、業(yè)務(wù)類型、 影響時間、成功率等各個更細的維度找出系統(tǒng)應(yīng)用和業(yè)務(wù)瓶頸,無法針對性地進行深度挖掘分析。
(三)缺乏面向一線和后端運維人員的分析平臺
日益復(fù)雜多樣的業(yè)務(wù),運維人員每日游走在各主機中提取相關(guān)數(shù)據(jù), 再進行匯聚分析,使得運維的工作日益繁重。故障發(fā)現(xiàn)也變得被動、故障定位過程復(fù)雜和耗時。
(一)新的業(yè)務(wù)監(jiān)控方法論:U-B-A-N
核心思想:以業(yè)務(wù)為主線,涵蓋從用戶端到末端數(shù)據(jù)庫端的全鏈路監(jiān)控,實現(xiàn)業(yè)務(wù)從用戶發(fā)起到返回的全路徑跟蹤,實現(xiàn)從面到點的監(jiān)控。……