孫煜華,張 雨
(廣州供電局有限公司信息中心,廣州 510620)
近年來隨著技術(shù)的發(fā)展,基于網(wǎng)絡(luò)旁路數(shù)據(jù)監(jiān)控的業(yè)務(wù)系統(tǒng)監(jiān)控方式得到了行業(yè)內(nèi)運維者的廣泛認可:這種方式具有不需要對業(yè)務(wù)系統(tǒng)進行改造、無運行風(fēng)險、實時性高、部署快速等傳統(tǒng)應(yīng)用管理方案所不具備的優(yōu)勢。
業(yè)務(wù)系統(tǒng)的量化需要通過對業(yè)務(wù)指標(biāo)數(shù)據(jù)的分析來實現(xiàn)。常用的業(yè)務(wù)監(jiān)測指標(biāo)有:日均登錄用戶數(shù)、日均用戶活躍率、日均訪問量、日均業(yè)務(wù)處理數(shù)量、業(yè)務(wù)平均耗時、應(yīng)用模塊的有用性和可靠性、業(yè)務(wù)告警數(shù)等指標(biāo)。
通過監(jiān)測的指標(biāo)反映系統(tǒng)實用化程度情況,真實客觀快速梳理業(yè)務(wù)應(yīng)用組件之間的邏輯訪問關(guān)系,根據(jù)組件之間和告警的邏輯關(guān)系,自動定位問題節(jié)點;多維度統(tǒng)計視圖,深入分析,逐層解析問題,從統(tǒng)計數(shù)據(jù)追蹤到單筆交易,深入問題根源,有效利用現(xiàn)有的數(shù)據(jù),為高層管理決策提供服務(wù),同時也為行業(yè)的戰(zhàn)略發(fā)展目標(biāo)和市場策略的制定提供了依據(jù),從而提高了企業(yè)的風(fēng)險控制能力和經(jīng)營決策能力以及競爭能力。
業(yè)務(wù)架構(gòu)作為電力公司企業(yè)架構(gòu)(EA)的重要組成部分,其描述了業(yè)務(wù)域、一級業(yè)務(wù)分類、二級業(yè)務(wù)分類、業(yè)務(wù)流程以及業(yè)務(wù)分類之間的協(xié)作關(guān)系、業(yè)務(wù)流程之間的協(xié)作關(guān)系,是信息化系統(tǒng)實現(xiàn)的重要參考。
電力公司業(yè)務(wù)系統(tǒng)設(shè)計遵循電力公司企業(yè)架構(gòu),系統(tǒng)業(yè)務(wù)模型、需求分析和詳細設(shè)計基本遵從了EA的業(yè)務(wù)架構(gòu),但系統(tǒng)實用化后面臨以下問題:一是應(yīng)用系統(tǒng)的最終實現(xiàn)與EA的業(yè)務(wù)架構(gòu)的映射缺少有效的版本檢測應(yīng)用;二是無法實現(xiàn)對業(yè)務(wù)系統(tǒng)各應(yīng)用模塊的實用精益化管理。業(yè)務(wù)系統(tǒng)實用精益化運行監(jiān)測與分析對于業(yè)務(wù)系統(tǒng)持續(xù)改進和優(yōu)化有非常重要的意義。
研究路線分兩個維度:系統(tǒng)運行和部署維度、用戶行為以及業(yè)務(wù)邏輯維度。一是系統(tǒng)運行和部署維度:需要收集業(yè)務(wù)部署機器的資源狀況,中間件和數(shù)據(jù)庫軟件的運行狀態(tài),以及業(yè)務(wù)系統(tǒng)軟件部署文件的變化。二是用戶行為以及業(yè)務(wù)邏輯維度:需要從數(shù)據(jù)流量中分析和統(tǒng)計業(yè)務(wù)對象(單據(jù))的數(shù)量和狀態(tài)變化,業(yè)務(wù)平均耗時和業(yè)務(wù)環(huán)節(jié)超時數(shù)量,需要統(tǒng)計用戶登錄和退出以及各個模塊的使用狀況。
對于這兩個維度的需求,我們分別采用不同的解決方法。一是系統(tǒng)運行和部署維度:在軟件部署和運行的各臺機器上部署Agent服務(wù),Agent收集CPU和內(nèi)存資源消耗,中間件和數(shù)據(jù)庫運行狀況,業(yè)務(wù)系統(tǒng)部署文件列表,數(shù)據(jù)庫Schema等數(shù)據(jù),并上報到Master服務(wù),Master服務(wù)將數(shù)據(jù)入庫,并在Web頁面展示。實現(xiàn)這部分功能的軟件系統(tǒng)叫做運行監(jiān)測子系統(tǒng)。二是用戶行為以及業(yè)務(wù)邏輯維度:使用TCP數(shù)據(jù)復(fù)制和分流的方法,將用戶訪問系統(tǒng)的數(shù)據(jù)流量導(dǎo)入到監(jiān)測系統(tǒng)中。系統(tǒng)從數(shù)據(jù)流恢復(fù)出Http日志(請求和響應(yīng)),進而從Http請求和響應(yīng)中抽取出業(yè)務(wù)數(shù)據(jù)和用戶行為數(shù)據(jù),并將數(shù)據(jù)入庫。
(1)業(yè)務(wù)數(shù)據(jù):用戶進行業(yè)務(wù)對象的查看和修改操作時,業(yè)務(wù)數(shù)據(jù)會被包含到Http的響應(yīng)文本中。DaaS系統(tǒng)能夠從Http響應(yīng)中抽取出格式化的業(yè)務(wù)數(shù)據(jù)。
(2)用戶行為數(shù)據(jù):從Http日志中還可以抽取用戶登錄、退出以及頁面訪問等數(shù)據(jù)。這些數(shù)據(jù)可以統(tǒng)計用戶在線時間、模塊使用狀況等指標(biāo)實現(xiàn)這部分功能的軟件系統(tǒng)叫做日志分析系統(tǒng)。
系統(tǒng)由多個功能模塊組成,包括用戶日志獲取(嗅探器)、機器信息獲取(探針)、業(yè)務(wù)運行監(jiān)測、實時日志分析、指標(biāo)統(tǒng)計和展示、報警、審計,個人中心、系統(tǒng)管理。這些模塊的結(jié)構(gòu)如圖1所示:

圖1 技術(shù)架構(gòu)
系統(tǒng)硬件部署架構(gòu)采用網(wǎng)絡(luò)監(jiān)控軟件旁路模式,就是通過端口鏡像來進行監(jiān)控。旁路監(jiān)聽的優(yōu)勢主要體現(xiàn)在:旁路部署方案是對當(dāng)前網(wǎng)絡(luò)影響最小的監(jiān)控模式;充分利用已有硬件的功能,部署方便,不會影響現(xiàn)有的網(wǎng)絡(luò)結(jié)構(gòu);不會對網(wǎng)速造成任何影響。旁路模式分析的是鏡像端口拷貝過來的數(shù)據(jù),對原始數(shù)據(jù)包不會造成延時;旁路監(jiān)控設(shè)備一旦故障或者停止運行,不會影響現(xiàn)有網(wǎng)絡(luò);旁路部署方案一樣可以對上網(wǎng)行為進行控制。旁路監(jiān)控系統(tǒng),通過接入一個非侵入式的設(shè)備進行監(jiān)測,能在不改造原有系統(tǒng)下實現(xiàn)準(zhǔn)實時,不占用生產(chǎn)環(huán)節(jié)資源,對所有時間、所有用戶和所有交易進行監(jiān)測的能力。通過這套系統(tǒng)能建立一套有效的監(jiān)控系統(tǒng),對IT的各個系統(tǒng)進行監(jiān)測,可以把IT監(jiān)控劃分為網(wǎng)絡(luò)監(jiān)控、服務(wù)器監(jiān)控、數(shù)據(jù)庫監(jiān)控和應(yīng)用程序監(jiān)控等;實現(xiàn)對企業(yè)的業(yè)務(wù)應(yīng)用進行監(jiān)測和優(yōu)化,提高企業(yè)應(yīng)用的可靠性和質(zhì)量,保證用戶得到良好的體驗,降低IT總擁有成本(TCO)。
采用網(wǎng)關(guān)或負載均衡等設(shè)備,從業(yè)務(wù)系統(tǒng)服務(wù)器流量入口處將服務(wù)器接收的數(shù)據(jù)全量復(fù)制,非侵入地監(jiān)控應(yīng)用系統(tǒng)的用戶訪問行為,用于精確分析用戶行為特征,為業(yè)務(wù)系統(tǒng)優(yōu)化再將TCP/IP協(xié)議數(shù)據(jù)轉(zhuǎn)換封裝成Http數(shù)據(jù)包,然后通過數(shù)據(jù)分析等工作解析出每個業(yè)務(wù)流程環(huán)節(jié)的用戶動作,為實際應(yīng)用提供統(tǒng)計數(shù)據(jù)依據(jù),并可視化展現(xiàn)。
主要開展版本檢測報告、指標(biāo)管理、數(shù)據(jù)采集管理、實用精益化報告等方面的工作。

圖2 業(yè)務(wù)功能體系
(1)業(yè)務(wù)系統(tǒng)版本檢測。以持續(xù)掃描和探測業(yè)務(wù)系統(tǒng),獲取業(yè)務(wù)系統(tǒng)的當(dāng)前最新狀況,將業(yè)務(wù)系統(tǒng)功能設(shè)置與期望狀況之間的差異在時間維度上進行展現(xiàn),從而可以觀察到業(yè)務(wù)系統(tǒng)建設(shè)的當(dāng)前狀況和歷史發(fā)展,為公司信息系統(tǒng)的建設(shè)和發(fā)展提供參考。
(2)業(yè)務(wù)系統(tǒng)應(yīng)用模塊實用精益化管理。隨著信息系統(tǒng)的不斷建設(shè)和發(fā)展,業(yè)務(wù)系統(tǒng)的功能越來越多。這些業(yè)務(wù)系統(tǒng)需要持續(xù)地維護和改進,以提高業(yè)務(wù)辦理的質(zhì)量。為了對業(yè)務(wù)進行維護和改進,我們需要了解業(yè)務(wù)模塊被使用的狀況。對于被頻繁使用的模塊,需要投入更多資源去維護其運行的穩(wěn)定性。這對于公司調(diào)度有限的開發(fā)和維護資源有重要的參考意義。
此外,各個業(yè)務(wù)模塊在被使用的過程中會持續(xù)產(chǎn)生業(yè)務(wù)相關(guān)的數(shù)據(jù),如業(yè)務(wù)流程單的創(chuàng)建、簽發(fā)、審批和實施等數(shù)據(jù)。這些業(yè)務(wù)數(shù)據(jù)一方面可以幫助發(fā)現(xiàn)業(yè)務(wù)流程的瓶頸,對于了解和改進業(yè)務(wù)流程有非常重要的意義;另一方面,可以幫助管理者方便直接地掌握員工的辦事效率,提高管理效率。
(3)業(yè)務(wù)數(shù)據(jù)采集管理。通過對業(yè)務(wù)系統(tǒng)產(chǎn)生的網(wǎng)絡(luò)流量進行旁路監(jiān)聽,實現(xiàn)版本特征與實用化精益化相關(guān)的業(yè)務(wù)數(shù)據(jù)的采集管理。具體來說,需要采集業(yè)務(wù)流程的狀態(tài)以及操作,并根據(jù)這些數(shù)據(jù),統(tǒng)計單據(jù)流轉(zhuǎn)的指標(biāo),以及體現(xiàn)單據(jù)流轉(zhuǎn)的狀況。這些指標(biāo)包括:每日發(fā)起單據(jù)數(shù)、單據(jù)流轉(zhuǎn)時長、每個環(huán)節(jié)的單據(jù)數(shù)、每個環(huán)節(jié)的流轉(zhuǎn)時長等。
(4)應(yīng)用模塊實用精益化管理報告。最終對采集的指標(biāo)信息進行監(jiān)控和展現(xiàn),例如用戶情況展現(xiàn)及應(yīng)用模塊情況展現(xiàn)功能,用戶情況展現(xiàn)可分為日均登錄用戶數(shù)、日均用戶活躍率、用戶訪問次數(shù)和活躍率變化、用戶活躍度等,應(yīng)用模塊情況展現(xiàn)可分為應(yīng)用模塊響應(yīng)時間、應(yīng)用模塊的有用性和應(yīng)用模塊可靠性等。通過相關(guān)指標(biāo)的展示,形成實用精益化管理報告,從而實現(xiàn)系統(tǒng)應(yīng)用模塊的實用精益化管理。
用戶使用情況涉及的統(tǒng)計指標(biāo)如表1所示:
下面給出幾個主要的功能模塊實例來說明是如何對業(yè)務(wù)系統(tǒng)進行實用精益化運行監(jiān)測的。
部門活躍度反映部門下所有用戶在一段時間內(nèi)的登錄次數(shù),登陸次數(shù)越多,越頻繁,說明該部門用戶越活躍。該功能可以選擇多個部門進行活躍度比較,同時也能按時間反映每天的活躍度變化情況。

表1 用戶使用情況涉及的統(tǒng)計指標(biāo)

圖3 部門活躍度
訪問量主要反映部門用戶對各業(yè)務(wù)模塊的訪問次數(shù)。用戶可以選擇多個部門并按訪問量大小排序,可以選擇指定的業(yè)務(wù)模塊進行分析,同時也能按時間反映每天的訪問量變化情況。通過該指標(biāo),用戶可以了解掌握每個部門,每個業(yè)務(wù)模塊的訪問情況。

圖4 訪問量分析
業(yè)務(wù)單據(jù)數(shù)及業(yè)務(wù)耗時指標(biāo)主要反映業(yè)務(wù)的處理數(shù)量及業(yè)務(wù)環(huán)節(jié)平均處理時間。通過該指標(biāo)用戶可以全面了解和掌握個部門的業(yè)務(wù)處理情況,為各部門的業(yè)務(wù)績效考核提供依據(jù)。
有用性指標(biāo)主要通過訪問率來定義,訪問率越高,說明功能模塊越有用。有用性指標(biāo)有四種類別定義,分別是非常頻繁,使用頻繁,偶爾使用,幾乎不用。可靠性指標(biāo)主要通過錯誤率來定義,錯誤率越高,說明功能模塊越不可靠。可靠性指標(biāo)也有四種類別定義,分別是非常可靠,比較可靠,基本可靠,很不可靠。有用可靠性指標(biāo)可以讓用戶了解掌握一段時間內(nèi)各功能模塊是否有用以及是否可靠。

圖5 單據(jù)處理分析

圖6 可靠性分析
實用化告警分為業(yè)務(wù)告警和應(yīng)用告警。業(yè)務(wù)告警主要反映業(yè)務(wù)環(huán)節(jié)處理超時數(shù)量。用戶需要先為每個業(yè)務(wù)環(huán)節(jié)設(shè)置或定義一個超時時間。該配置可以依據(jù)業(yè)務(wù)環(huán)節(jié)的變化進行適當(dāng)調(diào)節(jié),以更好地適應(yīng)業(yè)務(wù)系統(tǒng)的變化。當(dāng)業(yè)務(wù)環(huán)節(jié)的處理時間超過設(shè)置的超時時間閾值時,則生成業(yè)務(wù)超時告警信息。應(yīng)用告警主要反映應(yīng)用模塊的訪問錯誤數(shù)。當(dāng)訪問出現(xiàn)錯誤時,生成應(yīng)用告警信息。通過實用化告警信息,用戶可以了解和掌握一段時間內(nèi)業(yè)務(wù)環(huán)節(jié)處理超時數(shù)量,并督促業(yè)務(wù)人員提高業(yè)務(wù)處理效率。

圖7 實用化報告
通過對業(yè)務(wù)系統(tǒng)進行實用精益化運行監(jiān)測與分析研究,可以全面掌握企業(yè)信息系統(tǒng)的運行狀況,發(fā)現(xiàn)企業(yè)信息系統(tǒng)實用化薄弱環(huán)節(jié),針對出現(xiàn)的問題制定解決方案,提高現(xiàn)場實施人員業(yè)務(wù)和技術(shù)水平,全面提升公司信息系統(tǒng)實用化水平,實現(xiàn)客戶與企業(yè)雙贏。同時有效利用現(xiàn)有的數(shù)據(jù),為高層管理決策提供服務(wù),為行業(yè)的戰(zhàn)略發(fā)展目標(biāo)和市場策略的制定提供依據(jù)。