藍(lán)小明,鄭云彬,劉 沙,張 琦
(中國煙草總公司福建省公司,福建 福州 350001)
業(yè)務(wù)數(shù)據(jù)的可視化能將無形的業(yè)務(wù)流量匯總成直觀展示的有形的大數(shù)據(jù)模型,行業(yè)能夠借助它來分析包括卷煙營銷、專賣監(jiān)管和物流管理等相關(guān)業(yè)務(wù)系統(tǒng)的情況。同時,業(yè)務(wù)對數(shù)據(jù)應(yīng)用也不應(yīng)局限于傳統(tǒng)的統(tǒng)計(jì)分析層面,通過網(wǎng)絡(luò)流量分析技術(shù)來探索行業(yè)數(shù)據(jù)流向可視化的應(yīng)用,在已經(jīng)搭建的數(shù)據(jù)統(tǒng)一管理結(jié)構(gòu)基礎(chǔ)上,結(jié)合煙草行業(yè)特點(diǎn),打通國家局-省局-地市局的業(yè)務(wù)數(shù)據(jù)流向的可視化框架,便能實(shí)現(xiàn)全行業(yè)資源集成和信息共享。
對煙草行業(yè)網(wǎng)絡(luò)中承載業(yè)務(wù)的數(shù)據(jù)流的采集,以KPI指標(biāo)的形式展示各類業(yè)務(wù)信息系統(tǒng)的運(yùn)行檢測、故障發(fā)現(xiàn)及預(yù)警的情況,包括兩級指標(biāo),一級指標(biāo)(First level KPI)為能通過數(shù)據(jù)包采集手段直接對網(wǎng)絡(luò)業(yè)務(wù)流采集檢測的基礎(chǔ)指標(biāo),二級指標(biāo)(Secondary KPI)為在一級指標(biāo)的基礎(chǔ)上進(jìn)行統(tǒng)計(jì)和學(xué)習(xí),綜合形成的故障診斷指標(biāo)(Fault diagnosis KPI)、危險(xiǎn)預(yù)警指標(biāo)(Risk warning KPI)、安全檢查指標(biāo)(Safety check KPI)等。

圖1 服務(wù)質(zhì)量關(guān)鍵指標(biāo)模型示例圖
First level KPI包括系統(tǒng)的載荷吞吐量、數(shù)據(jù)傳輸時間、重傳次數(shù)、連接請求數(shù)、各服務(wù)器的交易時間、自定義子網(wǎng)組響應(yīng)時間、同一IP地址建立連接次數(shù)、各主機(jī)流量占用、網(wǎng)絡(luò)響應(yīng)時間、服務(wù)器響應(yīng)時間、應(yīng)用響應(yīng)時間、零窗口、連接建立時間、網(wǎng)絡(luò)利用率、傳輸延遲、服務(wù)器與主機(jī)之間發(fā)送的數(shù)據(jù)包數(shù)量、丟包率等多個指標(biāo)。這些指標(biāo)包括應(yīng)用性能指標(biāo)、網(wǎng)絡(luò)性能指標(biāo)、利用率指標(biāo)、VoIP指標(biāo)、MAC指標(biāo)、VLAN指標(biāo)以及ARP指標(biāo),通過定義一級指標(biāo)能實(shí)現(xiàn)流量數(shù)據(jù)基本信息的可視化。
Fault diagnosis KPI能排查出系統(tǒng)中具體業(yè)務(wù)出現(xiàn)故障的位置。例如某個業(yè)務(wù)服務(wù)由于載荷過大而停止工作等,針對此類問題通過各類業(yè)務(wù)服務(wù)協(xié)議具體分析,建立故障樣本表及故障網(wǎng)絡(luò)模型,形成故障定位規(guī)則集指標(biāo)。該指標(biāo)相對應(yīng)的First level KPI大致包括具體業(yè)務(wù)分類有丟包率、延遲時間、自定義最慢子網(wǎng)組、載荷吞吐量,最慢應(yīng)用、最慢服務(wù)器、流量占用最大主機(jī)等。故障診斷指標(biāo)反映網(wǎng)絡(luò)故障、應(yīng)用性能異常、業(yè)務(wù)中斷的基本面,能在故障排查階段支持系統(tǒng)運(yùn)行維護(hù)工作的開展,規(guī)范網(wǎng)絡(luò)安全故障排查機(jī)制,可較大限度上提升運(yùn)維效率。
Risk warning KPI是可以反應(yīng)系統(tǒng)某業(yè)務(wù)中可能存在風(fēng)險(xiǎn)的指標(biāo),通過該指標(biāo)的建立的風(fēng)險(xiǎn)預(yù)警模型能夠展示行業(yè)應(yīng)用風(fēng)險(xiǎn)級別,并且可以檢測出解決風(fēng)險(xiǎn)的策略對系統(tǒng)是否達(dá)到行業(yè)要求。該指標(biāo)相對應(yīng)的First level KPI大致基于某業(yè)務(wù)分類包括網(wǎng)絡(luò)響應(yīng)時間、服務(wù)器響應(yīng)時間、重傳率、應(yīng)用響應(yīng)時間、數(shù)據(jù)傳輸時間、重傳次數(shù)、網(wǎng)絡(luò)利用率、傳輸延遲、丟包率等。對于以上指標(biāo)都應(yīng)建立流量排名模型,對于風(fēng)險(xiǎn)指數(shù)靠前的資產(chǎn),特別是核心資產(chǎn),在指標(biāo)數(shù)據(jù)達(dá)到可能產(chǎn)生性能波動的閾值之前,將資產(chǎn)信息予以歸納和排查,實(shí)現(xiàn)風(fēng)險(xiǎn)可控。風(fēng)險(xiǎn)預(yù)警對于研究已知風(fēng)險(xiǎn)和未知風(fēng)險(xiǎn)都有較大意義,將所有風(fēng)險(xiǎn)納入管控,對于可能影響網(wǎng)絡(luò)運(yùn)行的行為進(jìn)行約束,從安全層面發(fā)揮該指標(biāo)最大的優(yōu)勢。
Safety check KPI是展示行業(yè)系統(tǒng)業(yè)務(wù)的安全情況的指標(biāo),結(jié)合安全指標(biāo)能夠建立起安全核查模型,可以判斷出系統(tǒng)基于具體業(yè)務(wù)是否受到攻擊,包括對于信息系統(tǒng)完整性、保密性以及可用性的監(jiān)控,例如DDoS攻擊、ARP欺騙等,并對部分攻擊行為進(jìn)行預(yù)警。該指標(biāo)項(xiàng)對應(yīng)的First level KPI大致針對某業(yè)務(wù),包括同一IP請求連接系統(tǒng)次數(shù)、服務(wù)器與主機(jī)之間發(fā)送的數(shù)據(jù)包數(shù)量、每秒連接失敗次數(shù)、連接失敗率、各主機(jī)流量占用、丟包率等[1]。所有的安全檢查指標(biāo)都應(yīng)結(jié)合業(yè)務(wù)特點(diǎn)進(jìn)行規(guī)劃,注重保密性層面的業(yè)務(wù)應(yīng)首先多關(guān)注通過信息加密、身份認(rèn)證、訪問控制的KPI;關(guān)注可用性的業(yè)務(wù)可將網(wǎng)絡(luò)連接、授權(quán)訪問、性能恢復(fù)的指標(biāo)列為首要監(jiān)測目標(biāo);偏重完整性的業(yè)務(wù)則可選擇將傳輸、交換、存儲和處理相關(guān)指標(biāo)作為第一監(jiān)控對象。消除網(wǎng)絡(luò)攻擊,保證信息系統(tǒng)的安全可用,是該指標(biāo)最大特征。
對于服務(wù)質(zhì)量指標(biāo)集中的First level KPI,對載荷吞吐量、數(shù)據(jù)傳輸時間、重傳次數(shù)、連接請求數(shù)、各個服務(wù)器的交易時間、自定義子網(wǎng)組響應(yīng)時間、各主機(jī)流量占用、網(wǎng)絡(luò)響應(yīng)時間、服務(wù)器響應(yīng)時間等基本KPI進(jìn)行高效準(zhǔn)確的收集。

圖2 業(yè)務(wù)系統(tǒng)服務(wù)質(zhì)量分析模型示例圖
采用基于端口匹配和基于應(yīng)用層載荷匹配相結(jié)合的方法,采集并聚類業(yè)務(wù)流First level KPI,采用統(tǒng)計(jì)學(xué)方法,從時間軸線統(tǒng)計(jì)流規(guī)律,建立正常業(yè)務(wù)流量模式庫,形成正常業(yè)務(wù)流量各個指標(biāo)的基線模型;采用機(jī)器學(xué)習(xí)的方法根據(jù)采集的數(shù)據(jù),自動調(diào)整、完善基線模型;運(yùn)用主成分分析法、時間序列分析法以及統(tǒng)計(jì)學(xué)中偏差、方差等方法形成指標(biāo)集計(jì)算模型;利用基線模型和計(jì)算模型,建立與各服務(wù)相關(guān)的指標(biāo)集流分析模型,來對服務(wù)質(zhì)量做出準(zhǔn)確及時的判斷,形成服務(wù)質(zhì)量鑒定模型。
根據(jù)First level KPI,采用混合流量模型來計(jì)算分析業(yè)務(wù)流,建立網(wǎng)絡(luò)流量的服務(wù)特征,以更加全面地描述復(fù)雜網(wǎng)絡(luò)中的流量特性和預(yù)測網(wǎng)絡(luò)流量,得到故障診斷指標(biāo)、危險(xiǎn)預(yù)警指標(biāo)、安全檢查指標(biāo)等Secondary KPI。在傳統(tǒng)的流模型基礎(chǔ)上,由于網(wǎng)絡(luò)流量具備多個特征,可通過多模型組合得到綜合流量模型達(dá)到預(yù)測業(yè)務(wù)流規(guī)律的目的,擬合多個模型的優(yōu)點(diǎn),實(shí)現(xiàn)對網(wǎng)絡(luò)故障點(diǎn)的有效檢測。將傳統(tǒng)統(tǒng)計(jì)學(xué)上的自相關(guān)模型和現(xiàn)代人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型結(jié)合起來,既保證計(jì)算的有效性又利用神經(jīng)網(wǎng)絡(luò)優(yōu)良的非線性特征,以提高分析的效率和精度。

圖3 可視化業(yè)務(wù)拓?fù)淠P褪纠龍D
可視化業(yè)務(wù)拓?fù)涞姆?wù)質(zhì)量檢測分析是業(yè)務(wù)服務(wù)質(zhì)量指標(biāo)落地的基礎(chǔ)技術(shù)保障。服務(wù)質(zhì)量指標(biāo)體系的落地是通過基于流量分析的可視化業(yè)務(wù)拓?fù)鋵I(yè)務(wù)系統(tǒng)服務(wù)質(zhì)量呈現(xiàn)出來的。可視化業(yè)務(wù)拓?fù)浒〝?shù)據(jù)包捕獲、服務(wù)質(zhì)量分析、可視化拓?fù)涞饶K的建設(shè)工作[2]。
基于服務(wù)質(zhì)量指標(biāo)、結(jié)合實(shí)時預(yù)警、網(wǎng)絡(luò)拓?fù)洹⒐收显\斷等場景,構(gòu)建完整的數(shù)據(jù)流量的可視化拓?fù)洌Y(jié)合指標(biāo)關(guān)聯(lián)分析出資產(chǎn)關(guān)聯(lián)模型,各資產(chǎn)之間予以二級指標(biāo)或者一級指標(biāo)進(jìn)行連接標(biāo)記,基于服務(wù)質(zhì)量分析出的結(jié)果以界面的形式進(jìn)行展現(xiàn)。通過實(shí)時告警、業(yè)務(wù)網(wǎng)絡(luò)拓?fù)洹⒐收显\斷,其中實(shí)時告警子模塊主要對于網(wǎng)絡(luò)中的異常;業(yè)務(wù)網(wǎng)絡(luò)拓?fù)渥幽K主要是展示各業(yè)務(wù)的網(wǎng)絡(luò)拓?fù)鋱D,結(jié)合網(wǎng)絡(luò)流量的關(guān)聯(lián)分析直觀的觀察數(shù)據(jù)流向情況,同時在拓?fù)鋱D上標(biāo)注故障點(diǎn);故障診斷子模塊負(fù)責(zé)將業(yè)務(wù)拓?fù)渥幽K上所標(biāo)注故障的原因,將故障源予以呈現(xiàn)。
(1)對網(wǎng)絡(luò)通信數(shù)據(jù)進(jìn)行采集、分析分類存儲需求,Norros提出基于FBM(Frac-tional Brownian Motion)過程的定長服務(wù)時間的無窮大緩存的工作負(fù)載模型[3],可得出可視化業(yè)務(wù)拓?fù)淠P偷拇鎯π枨笈c平均利用率的關(guān)系。
(2)極速混合智能流分析技術(shù):通過對捕獲的業(yè)務(wù)流量數(shù)據(jù)進(jìn)行分類存儲和分析,結(jié)合傳統(tǒng)統(tǒng)計(jì)模型和大數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)智能分析模型,實(shí)現(xiàn)業(yè)務(wù)梳理、追蹤源頭、故障排查等能力。
(3)基于統(tǒng)計(jì)模型推理的故障定位診斷技術(shù):通過全面深入的性能監(jiān)測和指標(biāo)分析,結(jié)合自定義的實(shí)時告警,用戶可迅速發(fā)現(xiàn)系統(tǒng)故障。通過業(yè)務(wù)會話流的異常通信來發(fā)現(xiàn)網(wǎng)絡(luò)故障,以此得到故障診斷的初步結(jié)論,最后通過建立貝葉斯網(wǎng)絡(luò)模型來推理出最終的網(wǎng)絡(luò)故障原因及故障點(diǎn)[4]。
(4)全面的業(yè)務(wù)性能指標(biāo)檢測技術(shù):Map-reduce技術(shù)并行實(shí)時分析數(shù)據(jù)包,進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)包7層解碼分析,對應(yīng)用協(xié)議分析與解碼。
(5)多維度業(yè)務(wù)流拓?fù)浞治隹梢暬夹g(shù):多種維度的數(shù)據(jù)可展示網(wǎng)絡(luò)中各業(yè)務(wù)的服務(wù)質(zhì)量及安全態(tài)勢,在可視化拓?fù)鋱D中通過過濾、移動、修改屬性等交互方式對網(wǎng)絡(luò)數(shù)據(jù)流向及服務(wù)質(zhì)量進(jìn)行分析和監(jiān)控。
(6)網(wǎng)絡(luò)安全分析技術(shù):對應(yīng)用協(xié)議解碼,依據(jù)各種安全威脅的網(wǎng)絡(luò)行為特性,完成多種安全威脅的分析、確認(rèn)和告警,包括ARP攻擊、蠕蟲病毒、DDoS攻擊等。
通過對卷煙銷售單位的屬性(包括采購頻率、品牌愛好等方面)進(jìn)行采集分析,形成適合卷煙銷售單位的對口模型,行業(yè)將能在此基礎(chǔ)上開展精準(zhǔn)營銷,做到實(shí)時營銷和生命周期管理,通過對市場和消費(fèi)類型的信息收集分析,形成營銷市場分析模型,便能夠在貨物智能配送、市場投放、渠道優(yōu)化等方面提供數(shù)據(jù)支撐。
以國家局-省局-地市局的垂直管理模式對庫存、物流確認(rèn)、營銷策略等開展信息收集和關(guān)聯(lián)分析,形成可視化的真煙流動模型實(shí)時掌握貨物信息,發(fā)現(xiàn)非法流動等情況及時預(yù)警,對非法活動動向進(jìn)行預(yù)測;以客戶的背景(包括行政處罰等信息)為基礎(chǔ),匯總專賣市場監(jiān)管模型,對市場數(shù)據(jù)監(jiān)管分析,幫助行業(yè)有效開展執(zhí)法監(jiān)察。
收集物流(包括貨物存儲、分揀、配送等)各個環(huán)節(jié)的信息,形成物流管理優(yōu)化模型,能夠在卷煙存放、優(yōu)化物流線路、合理分配庫存方面提供優(yōu)化建議,實(shí)時記錄物流信息和貨運(yùn)司機(jī)狀態(tài)信息,以可視化的界面展示物流線路、司機(jī)狀態(tài),有助于行業(yè)實(shí)現(xiàn)物流管理的低成本和高效率。
隨著信息化的建設(shè)和發(fā)展,煙草行業(yè)將通過對業(yè)務(wù)數(shù)據(jù)流向可視化的研究,實(shí)現(xiàn)煙草行業(yè)標(biāo)準(zhǔn)體系的建立;通過對卷煙營銷、專賣監(jiān)管和物流管理等業(yè)務(wù)流的統(tǒng)計(jì)分析,建立并標(biāo)準(zhǔn)化服務(wù)質(zhì)量檢測指標(biāo)體系,為業(yè)務(wù)系統(tǒng)的日常運(yùn)維、故障監(jiān)測及風(fēng)險(xiǎn)預(yù)警提供指導(dǎo)依據(jù);利用多級指標(biāo)對系統(tǒng)可用性的監(jiān)測,為應(yīng)用平臺提供安全保障,同時可以對各類信息資源的合理分配提供指導(dǎo)依據(jù),有助于提升煙草業(yè)務(wù)服務(wù)質(zhì)量和客戶滿意度,進(jìn)一步增加企業(yè)的信譽(yù)及行業(yè)競爭力。■