中國石油吐哈油田是我國較大的陸上油田之一,經(jīng)過多年企業(yè)信息化建設,逐步建立了涵蓋油田公司各個單位、涉及油田所有員工的各類信息應用系統(tǒng)近百套,信息系統(tǒng)已經(jīng)成為油田生產(chǎn)、生活、經(jīng)營、管理必不可少的一部分。
不足的是,在網(wǎng)絡及系統(tǒng)之上的應用層缺乏相應的監(jiān)控告警手段,處于被動維護模式,無法從根本上保障各個應用系統(tǒng)的穩(wěn)定運行,也無法在第一時間內(nèi)獲知應用系統(tǒng)的狀態(tài),往往是在用戶告知后,信息中心才開始根據(jù)告知尋找應用系統(tǒng)故障。油田公司信息系統(tǒng)運維所面臨的主要問題是缺乏以終端用戶體驗管理為綱、以應用性能管理為目的、以IT基礎設施管理為基礎的完整運維管理體系。
基于此,吐哈油田引進了以美國Compuware公司Vantage為基礎的信息運維管理套件,參考中石油總公司、工信部、國家及國際組織信息建設、維護標準,建設了一套完整的吐哈油田信息系統(tǒng)運維管理系統(tǒng)。
業(yè)務應用
與用戶體驗雙保險
為了讓信息系統(tǒng)應用得更順暢,吐哈油田信息中心采用了國際成熟、先進的模型來構(gòu)建信息運維保障系統(tǒng),目的是保證業(yè)務應用功能高效且穩(wěn)定地實現(xiàn)。
首先是采用了強大的數(shù)據(jù)塊技術,分別為基層技術、中層管理、高層決策等不同角色、不同層次的人員提供了個性化的信息門戶。全方位、大縱深、多角度、積木式地展示整個油田各個業(yè)務部門信息應用系統(tǒng)、相關IT基礎架構(gòu)的實時狀態(tài),以及歷史統(tǒng)計報表。
其次是通過自動化與手工相結(jié)合的建模引擎來保證業(yè)務邏輯與信息基礎架構(gòu)的有效關聯(lián),當應用系統(tǒng)性能下降或IT設備發(fā)生故障時,能迅速、精準、正確定位故障原因,并快捷、全面評估故障影響范圍,引導相關部門根據(jù)事件輕重緩急來采取響應措施。
最后是多種數(shù)據(jù)采集接口將企業(yè)所有的信息管理工具軟件、業(yè)務部門考核指標、流程規(guī)章管理制度,甚至場地安防管理等與信息相關的數(shù)據(jù)全部集成到統(tǒng)一的管理平臺上。
而在用戶體驗保障方面,信息中心能通過網(wǎng)絡端口鏡像分析出用戶操作在客戶端、網(wǎng)絡段、服務器端、頁面生成等4個時段的精確用時與流量,7×24小時監(jiān)測所有用戶在所有地點對油田內(nèi)部網(wǎng)絡和業(yè)務應用的使用體驗。
以用戶體驗監(jiān)測為例,這套系統(tǒng)不僅能自動從IP地址、OA用戶名、VPN用戶名、Web網(wǎng)頁用戶名等監(jiān)測用戶訪問應用系統(tǒng)每一個頁面、每一個動作的響應時間與數(shù)據(jù)量,而且能夠按頁面訪問組合來監(jiān)測完整事務性能。具體到隔離故障區(qū)域,強大的多種數(shù)據(jù)專家分析模塊可以綜合分析多種數(shù)據(jù)源,對TCP/UDP/HTTP/HTTPS/DNS/SMTP等協(xié)議、VOIP質(zhì)量、數(shù)據(jù)庫查詢、Exchange收發(fā)郵件、SAP GUI操作、XML/SOAP訪問等等進行詳細分析,在不干擾用戶前提下準確隔離用戶性能問題發(fā)生的具體區(qū)域,如客戶端、網(wǎng)絡、服務器端或者頁面設計問題等。而通過優(yōu)化運維流程,可以引導相關專業(yè)部門、人員根據(jù)用戶體驗監(jiān)測主動優(yōu)化業(yè)務應用,并利用系統(tǒng)報表以及靈活的數(shù)據(jù)挖掘接口DMI按照企業(yè)運維要求建立起持續(xù)優(yōu)化的信息運維流程體系(如圖)。
保障基礎架構(gòu)性能
與國內(nèi)外多數(shù)網(wǎng)絡系統(tǒng)綜合管理軟件類似,吐哈油田現(xiàn)有的網(wǎng)管系統(tǒng)重點要解決的是信息基礎架構(gòu)所涉及資源的監(jiān)測管理問題,即對網(wǎng)絡設備、服務器、數(shù)據(jù)庫、存儲設備等等IT基礎架構(gòu)的相關參數(shù)進行實時、定時、連續(xù)性監(jiān)測,顯示資源的邏輯拓撲結(jié)構(gòu)以及物理地理分布圖,并按某種邏輯進行業(yè)務關聯(lián)等等。
在此基礎上,吐哈油田新建成的運維保障系統(tǒng)將對基礎架構(gòu)所承載的業(yè)務系統(tǒng)進行端到端的性能管理監(jiān)測,重點包括三方面。
一是在網(wǎng)絡上,采用無干擾的探針方式對網(wǎng)絡上的數(shù)據(jù)流量按照業(yè)務、協(xié)議、鏈路、設備進行解碼分類并計算出應用響應時間,自動生成應用訪問拓撲邏輯,評估系統(tǒng)運行效能,發(fā)現(xiàn)網(wǎng)上應用漏洞。
二是在服務器上,采用統(tǒng)一的管理模板和先進的專家經(jīng)驗庫對業(yè)務性能相關的IT基礎架構(gòu)進行監(jiān)測,包括各種硬件平臺、操作系統(tǒng)、數(shù)據(jù)庫、應用服務器、虛擬機服務器等等,降低技術人員對運維管理的學習難度,提高系統(tǒng)運行效率與排錯能力。
三是在業(yè)務應用上,可以根據(jù)需要在生產(chǎn)環(huán)境中分布式部署代理程序,深度分析應用性能的根本原因,為軟件開發(fā)人員提供精準的優(yōu)化指導。