

“只有可見的,才是可運維的。”這是IT運維人員常說的一句話。
然而現(xiàn)實往往并不能如愿以償,過去的很長一段時間內(nèi),企業(yè)IT團隊的精力往往都放在應(yīng)用系統(tǒng)的建設(shè)上,工作重心多是完成一個又一個項目,很少真正對所有的應(yīng)用系統(tǒng)做詳細的梳理、弄清楚其中的邏輯關(guān)系。再加上早期開發(fā)的一些應(yīng)用系統(tǒng)并沒有建立良好的開發(fā)和運維流程,應(yīng)用系統(tǒng)之間的關(guān)聯(lián)關(guān)系也往往沒有規(guī)范的文檔可以查詢。這樣久而久之,隨著運維人員的交替,支撐企業(yè)業(yè)務(wù)的應(yīng)用架構(gòu)已經(jīng)變得難以梳理,IT運維面臨的壓力也越來越大。
而在眾多信息化建設(shè)開始較早的企業(yè)中,這種情形尤為明顯,一方面是由于建設(shè)時資源緊張等特殊因素,某臺服務(wù)器上可能運行著多個不同的應(yīng)用程序,或者有一些邊緣組件平時不太引人注意。這些問題伴隨開發(fā)人員的更替,逐漸被人們淡忘,為后來的運維工作埋下了隱患,國內(nèi)某大型商業(yè)銀行便是這方面的典型案例。
應(yīng)用可視化是關(guān)鍵
為此,該銀行開展了相應(yīng)的治理工作,以清除IT運維工作中存在的死角。該項目負責(zé)人姜巖在接受采訪時表示,由于運維人員的不斷交替,對整個應(yīng)用系統(tǒng)缺乏清晰的認識是運維工作面臨的最大難題。
顯然,如果沒有一種有效的梳理手段支撐,企業(yè)要解決應(yīng)用梳理問題,無疑是一項充滿挑戰(zhàn)的工作。特別是在業(yè)務(wù)與IT系統(tǒng)越來越緊密關(guān)聯(lián)的趨勢下,業(yè)務(wù)運行會很依賴IT系統(tǒng)的支持,如果缺乏對IT架構(gòu)的理解,每一個未知風(fēng)險都可能導(dǎo)致業(yè)務(wù)的嚴(yán)重中斷;另一方面,業(yè)務(wù)快速變化也對IT運維的敏捷性提出了前所未有的要求,運維人員只有對IT架構(gòu)保持充分的了解,才能讓IT跟得上業(yè)務(wù)變化的節(jié)奏。因此,如今的運維人員已經(jīng)不能僅滿足于知道有哪些應(yīng)用和節(jié)點部署在企業(yè)中,更需要知道它們之間是如何連接和交互的。
為此,姜巖和他的團隊嘗試過多種方法,比如使用Agent模式、日志分析、代碼植入等方式,不過效果并不盡如人意。由于這些方式直接與被管理系統(tǒng)、應(yīng)用程序產(chǎn)生交互,也就是說其在監(jiān)視數(shù)據(jù)產(chǎn)生的同時,本身也會消耗系統(tǒng)、應(yīng)用程序資源,而這往往會導(dǎo)致資源緊張,進而導(dǎo)致業(yè)務(wù)處理性能下降,甚至有不少用戶因此而遭受了嚴(yán)重的業(yè)務(wù)中斷故障。
在經(jīng)過多方考量后,最終他們采用了基于網(wǎng)絡(luò)數(shù)據(jù)資源的應(yīng)用性能管理方法,使用CrossFlow BPC(Business Performance Center)網(wǎng)絡(luò)與應(yīng)用性能管理產(chǎn)品進行應(yīng)用梳理,并進行相關(guān)的監(jiān)控管理。
而之所以采用這樣的方式,也是因為在當(dāng)前的應(yīng)用架構(gòu)下,應(yīng)用服務(wù)層級劃分已十分清晰,各層級間的交易全部通過網(wǎng)絡(luò)傳輸來完成,基礎(chǔ)設(shè)施和交付設(shè)施本身都以服務(wù)為中心向應(yīng)用提供界限明確的服務(wù)功能,使得數(shù)據(jù)采集設(shè)備可以輕松獲取關(guān)鍵交易環(huán)節(jié)的網(wǎng)絡(luò)數(shù)據(jù),這給網(wǎng)絡(luò)數(shù)據(jù)源的獲取帶來了極大的便利和靈活性。
據(jù)姜巖介紹,整個項目的實施主要有五個關(guān)鍵步驟,包括應(yīng)用整體監(jiān)控的標(biāo)準(zhǔn)化制定;監(jiān)控統(tǒng)一管理的必要性分析;明確監(jiān)控統(tǒng)一管理的主要目標(biāo);掌握監(jiān)控統(tǒng)一管理的關(guān)鍵技術(shù)及監(jiān)控統(tǒng)一管理最終如何展現(xiàn)與運用。“整個項目的關(guān)鍵詞就是整體、統(tǒng)一。”姜巖解釋說,只有做到整體監(jiān)控、統(tǒng)一管理,才能使IT系統(tǒng)可視化,運維工作才能得心應(yīng)手。
整體監(jiān)控 統(tǒng)一管理
在具體的實施過程中,姜巖首先對現(xiàn)有應(yīng)用系統(tǒng)的整體構(gòu)成做了全面了解、仔細排查,包括哪些應(yīng)用是跨節(jié)點、跨層面的,哪些應(yīng)用是多維度的;然后按照應(yīng)用構(gòu)成信息的不同(不同應(yīng)用的基礎(chǔ)層面構(gòu)成信息、應(yīng)用內(nèi)部構(gòu)成信息、應(yīng)用外部關(guān)聯(lián)信息等都不盡相同),設(shè)定不同的KPI監(jiān)控指標(biāo),再根據(jù)相應(yīng)的指標(biāo)分發(fā)相應(yīng)的監(jiān)控策略。姜巖表示,這樣做的好處就是可以全方位多維度地梳理應(yīng)用監(jiān)測點,并以體系化的監(jiān)控指標(biāo)作為分發(fā)策略的參考。在此基礎(chǔ)上,構(gòu)建起了三層架構(gòu)的監(jiān)控統(tǒng)一管理平臺,其中包含監(jiān)控對象及代理層、監(jiān)控工具層及監(jiān)控管理平臺,進而對應(yīng)用產(chǎn)生的數(shù)據(jù)進行采集、處理、監(jiān)控及管理。
其中作為數(shù)據(jù)采集的關(guān)鍵,中間層的監(jiān)控工具層起著至關(guān)重要的作用。因此,據(jù)姜巖介紹,他們前后部署了多個監(jiān)控工具用以監(jiān)視各個部件的情況,有針對惠普小型機監(jiān)控的OVO、針對網(wǎng)絡(luò)事件監(jiān)控的SORLAWINDS、針對IBM小型機監(jiān)控的TIOVLI、針對數(shù)據(jù)庫監(jiān)控的OMS、針對應(yīng)用性能整體監(jiān)控的CrossFlow BPC及針對存儲環(huán)境監(jiān)控的SOC等。
其中針對小型機、存儲、網(wǎng)絡(luò)的監(jiān)控工具主要監(jiān)控的是單一類型的系統(tǒng),而針對應(yīng)用性能監(jiān)控的CrossFlow BPC則能在一定程度上起到全局監(jiān)控的作用。因為當(dāng)系統(tǒng)中的某一應(yīng)用出現(xiàn)故障時,CrossFlow BPC能夠及時發(fā)現(xiàn),并追根溯源,進行自動故障定位,在呈現(xiàn)應(yīng)用故障對用戶體驗影響的同時,指出導(dǎo)致問題發(fā)生的根源組件和原因。
CrossFlow BPC能夠通過交易筆數(shù)、成功率、響應(yīng)時間、響應(yīng)率及返回碼5個指標(biāo)及交易時間、交易筆數(shù)2個維度對關(guān)鍵業(yè)務(wù)指標(biāo)進行統(tǒng)計,并進行深入的分析。而其內(nèi)置的SPV Discovery還能自動呈現(xiàn)被監(jiān)控網(wǎng)絡(luò)數(shù)據(jù)的IP連接性,快速梳理應(yīng)用組件之間的邏輯訪問關(guān)系。
也正是由于以上的種種特性,姜巖使用其對銀行的核心業(yè)務(wù)進行監(jiān)控,通過關(guān)鍵交易當(dāng)前的狀態(tài)分析、性能趨勢對比、交易直接探測等措施,明確當(dāng)前的各項交易處于什么狀態(tài)、有無威脅,并通過CrossFlow BPC梳理各項應(yīng)用之間的邏輯關(guān)系,降低人為出錯的可能性。
在實際環(huán)境中,當(dāng)其中某項業(yè)務(wù)出現(xiàn)故障時,CrossFlow BPC會以明顯的顏色加以區(qū)分,并告知故障定位及告警數(shù)目,以方便用戶做進一步的故障判斷。
據(jù)姜巖介紹,通過上述一系列的應(yīng)用梳理,數(shù)據(jù)采集、處理、分析工作,并在監(jiān)控統(tǒng)一管理平臺統(tǒng)一呈現(xiàn),最終實現(xiàn)了應(yīng)用整體監(jiān)控的既定目標(biāo),即在應(yīng)用整體結(jié)構(gòu)管理方面,能夠梳理應(yīng)用整體結(jié)構(gòu),達到自動實時監(jiān)測;在應(yīng)用健康運行監(jiān)視方面,做到實時采集并監(jiān)測應(yīng)用運行的狀態(tài);在應(yīng)用運行故障預(yù)警方面,實時分析并監(jiān)控應(yīng)用運行的關(guān)鍵KPI;在應(yīng)用運行故障報警方面,實時自動檢查應(yīng)用服務(wù)狀態(tài)的異常情況;在應(yīng)用故障原因分析方面,采集故障現(xiàn)場數(shù)據(jù),并進行關(guān)聯(lián)數(shù)據(jù)分析。
如今,通過新建立的監(jiān)控統(tǒng)一管理平臺,姜巖的運維工作已經(jīng)變得得心應(yīng)手。姜巖表示,現(xiàn)在通過總行的告警監(jiān)控視圖,運維人員可以輕松查看各個部分的運行情況。當(dāng)某一部分出現(xiàn)故障時,通過整體報警消息,運維人員可以做到快速接管、準(zhǔn)確檢查、全程跟蹤并及時通報。