姜濤
【摘 要】隨著IT業(yè)務(wù)的不斷發(fā)展,弱電工程對于網(wǎng)絡(luò)數(shù)據(jù)量的需求大幅提升。使得IT基礎(chǔ)架構(gòu)的管理建設(shè)在弱電工程中占據(jù)越來越重要的位置。本項研究基于從業(yè)務(wù)視角管理IT出發(fā),探尋弱電工程中IT子系統(tǒng)管理的拓展與延伸,為IT子系統(tǒng)的管理探索一種全新的視角。
【關(guān)鍵詞】IT基礎(chǔ)架構(gòu);IT業(yè)務(wù);IT綜合管理
1 弱電工程中IT基礎(chǔ)架構(gòu)管理的現(xiàn)狀
隨著弱電工程信息化的發(fā)展,人們對IT系統(tǒng)的安全運行要求越來越高。IT系統(tǒng)的平穩(wěn)運行關(guān)系到弱電工程各個子系統(tǒng)的正常運行。為此,IT系統(tǒng)維護所需要的人員也越來越多,技術(shù)水平要求也越來越高。這就需要對IT環(huán)境和運行情況進行監(jiān)控,將故障解決在萌芽之中。
當(dāng)前弱電行業(yè)在IT子系統(tǒng)管理主要存在以下的難點:
(1)無法從業(yè)務(wù)角度發(fā)現(xiàn)IT業(yè)務(wù)的問題
由于IT業(yè)務(wù)的運行依賴于諸多IT資源,當(dāng)業(yè)務(wù)出現(xiàn)異常后的逐一排查增加了處理時間和業(yè)務(wù)中斷造成的損失,降低了運維效率。
(2)缺少統(tǒng)一的報表及分析工具
目前數(shù)據(jù)統(tǒng)計依賴手動的方式,無法實現(xiàn)自動匯聚、抽取、分析數(shù)據(jù)。用戶無法通過報表進行決策分析,管理決策沒有數(shù)據(jù)依據(jù)。
(3)缺乏有效的IT資產(chǎn)管理手段
面對眾多的IT硬件資產(chǎn),無法準(zhǔn)確、有效的進行資產(chǎn)的配置項變更管理。
2 建立IT綜合管理平臺的探索
通過建立IT綜合業(yè)務(wù)監(jiān)控管理平臺,用ITIL理論及實踐來指導(dǎo)、規(guī)范和提升弱電工程IT子系統(tǒng)信息化水平,為其建立高效IT監(jiān)控與靈活服務(wù)管理平臺,形成一套規(guī)范的管理體系,解決實際運行維護問題,實現(xiàn)精細(xì)化管理,降低運營成本和操作風(fēng)險,提高工作效率和服務(wù)品質(zhì)。
3 構(gòu)建基于業(yè)務(wù)視角的綜合管理平臺
3.1 邏輯架構(gòu)設(shè)計
IT綜合管理平臺的邏輯架構(gòu)設(shè)計可分為如下四層:
數(shù)據(jù)采集層:由各種協(xié)議適配器構(gòu)成,向上層提供統(tǒng)一的接口訪問管理協(xié)議棧,獲取管理信息,并在初始發(fā)現(xiàn)時作為驅(qū)動模塊構(gòu)建信息模型。
數(shù)據(jù)匯聚層:統(tǒng)一描述底層數(shù)據(jù),組織管理信息庫。使得各個業(yè)務(wù)模塊面對統(tǒng)一的數(shù)據(jù)模型,方便對資源進行權(quán)限管理,使得面向事務(wù)的并發(fā)管理成為可能。
數(shù)據(jù)處理層:專注實現(xiàn)管理業(yè)務(wù),不關(guān)心底層差異協(xié)議。響應(yīng)前臺應(yīng)用的請求,完成數(shù)據(jù)查詢,處理等功能。
數(shù)據(jù)展現(xiàn)層:從數(shù)據(jù)處理層得到數(shù)據(jù)在前臺界面顯示。
利用分布式總線實現(xiàn)各邏輯層之間的通信。模塊通過內(nèi)部定義數(shù)據(jù)接口,進行交互式操作。
3.2 技術(shù)架構(gòu)設(shè)計
IT綜合監(jiān)控管理平臺的技術(shù)架構(gòu)擁有以下幾方面的特性:
(1)符合信息行業(yè)標(biāo)準(zhǔn)和規(guī)范,采用層次化、模塊化的設(shè)計,各模塊采用松耦合設(shè)計,可部署于不同的服務(wù)器上;
(2)選用的產(chǎn)品或工具平臺均是業(yè)界成熟、穩(wěn)定、主流的,對監(jiān)控對象的影響達到最小;
(3)監(jiān)控指標(biāo)、策略均可通過配置界面進行增加和調(diào)整,無需修改源程序;
(4)按照統(tǒng)一工作平臺現(xiàn)有集成規(guī)范與統(tǒng)一工作平臺進行集成,按照運維管理系統(tǒng)的集成規(guī)范與其他子系統(tǒng)進行整合集成;
(5)用戶界面采用B/S架構(gòu),支持通用的瀏覽器,集成接口良好,支持通用標(biāo)準(zhǔn),支持向大型監(jiān)控顯示屏輸出顯示;
(6)支持國際標(biāo)準(zhǔn)協(xié)議,如HTTP、JMX、SNMP、JDBC、Telnet、WMI等。
3.3 平臺集成設(shè)計
管理邊界應(yīng)為網(wǎng)絡(luò)內(nèi)的所有IT網(wǎng)元元素,通過標(biāo)準(zhǔn)的監(jiān)控協(xié)議及數(shù)據(jù)接口監(jiān)控業(yè)務(wù)系統(tǒng)信息。與其他系統(tǒng)平臺的數(shù)據(jù)交互將通過數(shù)據(jù)接口及Web Service 的方式實現(xiàn),監(jiān)控系統(tǒng)在管理邊界上以主動推送事件為主。
3.4 平臺功能設(shè)計
3.4.1 業(yè)務(wù)健康分析指數(shù)的建立
以關(guān)鍵業(yè)務(wù)為中心,提供圖形化工具,根據(jù)實際環(huán)境,定義個性化模型,從業(yè)務(wù)角度對被監(jiān)測資源進行關(guān)聯(lián)、重組,建立業(yè)務(wù)內(nèi)部關(guān)系模型圖,幫助管理者搭建業(yè)務(wù)卡片視圖,準(zhǔn)確判斷業(yè)務(wù)健康度、繁忙度、層級和告警等內(nèi)容,客觀評估業(yè)務(wù)運行水平,為管理者提供準(zhǔn)確、有價值的管理信息。管理者宏觀可掌握業(yè)務(wù)整體運行狀況,微觀可查詢底層資源運行狀況,提高故障定位準(zhǔn)確性,保障業(yè)務(wù)穩(wěn)定運行。
3.4.1.1 構(gòu)建IT健康指數(shù)
該指數(shù)通過關(guān)鍵業(yè)務(wù)系統(tǒng)、關(guān)鍵資源的參數(shù)計算得來,包括業(yè)務(wù)的連續(xù)運行時間、故障恢復(fù)時間、告警信息、健康度、繁忙度等信息。綜合反應(yīng)整體IT運維狀態(tài),構(gòu)建管理視角,快速定位環(huán)境弱點。
3.4.1.2 關(guān)鍵業(yè)務(wù)的健康度管理
指標(biāo)由IT資源實時采集而得,包含業(yè)務(wù)系統(tǒng)可用性和性能狀態(tài)指標(biāo),記錄每天不同時間段的健康度指標(biāo),形成平均值,通過K線圖顯示
業(yè)務(wù)健康度監(jiān)控指標(biāo)項包含有:
(1)IT資源的連通性
(2)URL服務(wù)的狀態(tài)、響應(yīng)時間、響應(yīng)結(jié)果正確性
(3)數(shù)據(jù)庫的狀態(tài)、響應(yīng)時間、響應(yīng)結(jié)果正確性
3.4.1.3 關(guān)鍵業(yè)務(wù)監(jiān)控
使用360度雷達掃描視圖,及時發(fā)現(xiàn)并了解關(guān)鍵業(yè)務(wù)的薄弱環(huán)節(jié)、運行狀況,并同步顯示到業(yè)務(wù)健康分析視圖之上,方便管理人員了解業(yè)務(wù)狀況,提前預(yù)知故障,及時采取措施。
3.4.1.4 關(guān)鍵業(yè)務(wù)建模
通過點擊進入告警控制臺,實時呈現(xiàn)所有的網(wǎng)絡(luò)、系統(tǒng)、應(yīng)用、安全等告警信息,包含告警的時間、告警源、告警次數(shù)、告警類型、告警描述等,支持運維知識庫的創(chuàng)建和修改。并支持直接通過告警信息關(guān)聯(lián)到IT資源的詳細(xì)信息監(jiān)測頁面。
3.4.1.5 關(guān)鍵業(yè)務(wù)的繁忙度
綜合管理平臺可以就業(yè)務(wù)繁忙程度進行建模管理,提供相應(yīng)監(jiān)控指標(biāo),支持查看歷史性繁忙度數(shù)據(jù)、對繁忙度指標(biāo)進行權(quán)重比調(diào)整。endprint
3.4.1.6 關(guān)鍵業(yè)務(wù)的SLA指標(biāo)建立
對業(yè)務(wù)系統(tǒng)的SLA指標(biāo)進行考核需要重點考慮各資源間的權(quán)重比關(guān)系,通過選擇重要資源,用權(quán)重比計算方式,計算業(yè)務(wù)系統(tǒng)的健康度和繁忙度等指標(biāo)。
3.4.2 綜合資源管理
弱電工程有大量資源,因此平臺要自動發(fā)現(xiàn)全網(wǎng)網(wǎng)絡(luò)設(shè)備,其次發(fā)現(xiàn)網(wǎng)絡(luò)中的安全設(shè)備,服務(wù)器,應(yīng)用軟件及機房環(huán)境等,并能自動計算出設(shè)備之間的線路連接關(guān)系。通過網(wǎng)絡(luò)拓?fù)洌峁?zhǔn)確數(shù)據(jù),完成網(wǎng)絡(luò)管理。
3.4.2.1 資源的自動發(fā)現(xiàn)
平臺應(yīng)全面支持SNMP 協(xié)議,能根據(jù)網(wǎng)絡(luò)規(guī)模、協(xié)議應(yīng)用情況,有針對性的配置發(fā)現(xiàn)協(xié)議、并發(fā)進程、管理域和區(qū)域、屏蔽設(shè)備和網(wǎng)段等參數(shù)信息。
通過向?qū)酵負(fù)滟Y源發(fā)現(xiàn)功能,使用戶能夠快速了解平臺自動發(fā)現(xiàn)的各類設(shè)備的統(tǒng)計信息,實時觀測進程,掌握發(fā)現(xiàn)情況,減少管理復(fù)雜程度。
3.4.2.2 網(wǎng)絡(luò)故障監(jiān)控
平臺應(yīng)根據(jù)預(yù)先設(shè)定的參數(shù),跟蹤網(wǎng)絡(luò)拓?fù)涞淖兓?dāng)網(wǎng)絡(luò)發(fā)生故障或拓?fù)浒l(fā)生變化時可迅速通過前臺拓?fù)浞从常烧宫F(xiàn)設(shè)備故障、鏈路故障、網(wǎng)絡(luò)協(xié)議故障事件等。通過節(jié)點告警將故障進行展現(xiàn),顯示在統(tǒng)一告警控制臺中。根據(jù)報警事件的重要級別、優(yōu)先級等信息,可以直觀、快速地了解報警事件的緊要性。可設(shè)定報警過濾器和排列順序,重點關(guān)注重要的網(wǎng)絡(luò)報警事件。系統(tǒng)支持通過聲音、郵件、短信等方式提示及時告警,為用戶發(fā)現(xiàn)和處理事件提供數(shù)據(jù)信息支持。
3.4.2.3 網(wǎng)絡(luò)資源性能監(jiān)控
平臺實時監(jiān)測網(wǎng)絡(luò)設(shè)備、服務(wù)器的端口流量、丟包率、Ping延時、CPU利用率等運行參數(shù),超過預(yù)設(shè)閥值時能在拓?fù)鋱D上據(jù)定義閥值以不同顏色、粗細(xì)顯示線路運行狀態(tài),當(dāng)鏈路出現(xiàn)異常自動告警。并提供歷史數(shù)據(jù)統(tǒng)計分析。
3.4.2.4 主機操作系統(tǒng)管理
平臺可實現(xiàn)對Windows、IBM AIX、Linux、等各種操作系統(tǒng)的主機的關(guān)鍵資源的自動監(jiān)控,幫助管理員及時發(fā)現(xiàn)故障和故障隱患。
3.4.2.5 應(yīng)用監(jiān)控管理
系統(tǒng)能監(jiān)控Oracle、SQL Server、J2EE、JBOSS、Mysql、DB2等應(yīng)用,按照屬性分為數(shù)據(jù)庫工作狀態(tài)、表空間的利用情況、數(shù)據(jù)文件和數(shù)據(jù)設(shè)備的讀寫命中率等。可直接使用相關(guān)的監(jiān)控參數(shù)和項目,也可支持自定義。
3.4.2.6 機房動力環(huán)境
平臺能集動力環(huán)境設(shè)備監(jiān)控、安防報警系統(tǒng)、網(wǎng)絡(luò)監(jiān)控系統(tǒng)于統(tǒng)一的平臺。可實現(xiàn)安防報警、供配電、UPS、空調(diào)、溫濕度監(jiān)測等子系統(tǒng)的統(tǒng)一監(jiān)控,提高系統(tǒng)可靠性,減輕用戶工作負(fù)擔(dān)。
3.4.3 故障及告警事件處理
平臺在事件發(fā)生時通過事件過濾、壓縮和根因分析等方式幫助管理人員定位故障,向相關(guān)人員發(fā)送報警,及時處理問題,提高工作效率。建立綜合告警通知機制,例如短信、郵件、移動終端、桌面即時通訊工具等;
4 構(gòu)建綜合監(jiān)控管理平臺的顯示意義
4.1 管理效益分析
從管理效益分析:
(1)減少系統(tǒng)事故發(fā)生,降低事故造成的影響和損失。
(2)通過管理工具及時獲悉資源狀態(tài),處理潛在問題,提高工作效益。
(3)建立IT資源與業(yè)務(wù)的關(guān)系,提升項目的影響度。
(4)通過IT服務(wù)管理保障體系的建立實施,規(guī)范和評估第三方維護公司的工作質(zhì)量。
4.2 經(jīng)濟效益分析
從經(jīng)濟效益分析:
(1)全面、及時發(fā)現(xiàn)問題,針對信息系統(tǒng)具體情況,制定相關(guān)解決方案,保證系統(tǒng)平穩(wěn)運行,減少投資成本。
(2)使運維人員的時間和精力放在解決技術(shù)問題上,利用知識庫降低人員變動風(fēng)險,減少聘請專業(yè)人員開支。
(3)降低事故發(fā)生的次數(shù)、減少不利影響帶來的損失,提高系統(tǒng)可用性、可靠性、運行效率,帶來間接的經(jīng)濟效益。
【參考文獻】
[1](荷)博恩.基于ITIL的IT服務(wù)管理基礎(chǔ)篇.北京,清華大學(xué)出版社,2007.
[2](南非)布魯克斯.IT服務(wù)管理指標(biāo).北京,清華大學(xué)出版社,2008.
[3]黎連業(yè).智能建筑弱電工程設(shè)計與實施.北京,中國電力出版社,2006.endprint