周宇



【摘 要】文章從維護部門的角度,主要討論應用系統維護所遇到的問題,分析問題的一些管理解決方案、制度。并探討發展科學系統的應用系統維護解決方法。
【關鍵詞】應用系統維護;解決方案;操作規則
中圖分類號: TP311.52 文獻標識碼: A文章編號: 2095-2457(2019)05-0160-004
1 應用系統維護的問題
隨著當今社會技術的迭代更新,數據機房IDC化、數據應用云網化,網絡條件的大幅度提升,應用系統維護員不再是僅僅面對一兩臺設備的管理,而是要面對的許多不同類型、不同型號的設備,甚至是云化的設備集群。此時,一個高技術應用系統維護人員不可能把精力平等的分給所有的設備,有時候甚至是不夠時間來照看所有的設備。
而與此同時,高技術的應用系統維護人員需要全面的技術培訓以及長時間的經驗積累。特別是高級別的技術專家、熟練的維護人員,一旦發生人員變更,對整個應用系統的穩定性和持久性,都將會有巨大的挑戰。
2 應用系統維護的問題分析
現有應用系統地維護,已經不是僅僅依靠個人或一個團隊的技術就能長期地防控風險地發生,只能暫時性地維護并保持一個應用系統的正常運行。文章認為造成這個問題地根本原因,是維護部門和團隊,一直以來只是從技術的角度來看待對于應用系統地維護,只是針對一個個孤立的故障案例來進行技術分析處理,缺少一個整體性的解決發難。
應用系統維護應該是一整套的體系、制度來對應用系統維護進行控制,這也是文章所探討的主題。
3 應用系統維護的解決方案
如上所說,現在技術更新迭代的速度越來越快,軟件及硬件更新也越來越快,往往老的技術還沒有全部掌握,新的技術就已經出現了;另外,設備、軟件功能類型日益分工專業化,僅應用系統所承載的服務器分類就有許多種,例如:IBM公司的aix,HP公司的hp-ux,SUN公司的Solaris,Linux不同的變種,windows系列等等。同一種系統在不同的階段還有不同的版本。技術的更新,類型的多樣,還有版本問題,這些都是應用系統維護人員的噩夢。雖然私有云、公有云等云化的架構,可以使得應用管理人員對硬件設備透明,但對于云系統的提供商來說,這些問題依舊存在。而且針對各類中間件、開發平臺、系統接口,同樣的問題依舊存在。同時每個人的精力都是有限的,如果需要應用系統維護人員對上面所說的每種設備都能輕松應對,那幾乎是不可能的,即使有,也只是極少數。同時,現在許多應用系統維護的軟件,也只是提供了一種可視化的、集成的、圖形管理的工具,只能相應減少應用系統維護的工作,并不能真正的解決現階段的問題。
所以,現在的應用系統維護已經不僅僅是技術領域的范疇,而是應該從一個更高更大的層次上來提供解決方案。即建立一整套應用系統維護的體系,真正的從管理的角度來管理系統,而不是從技術上來管理系統。在此稱之為應用系統維護的解決方案。
3.1 解決方案的核心
解決方案的核心:使系統在可控制的情況下,平穩運行盡可能長的時間。
這個也就是應用系統維護的根本目的。可以分為兩個部分來看
3.1.1 使系統在可控制的情況中
首先,系統需要處于可控制的情況中,這個是指應用系統維護人員應處于能對設備進行操作、管理的情況中;因為現在由于網絡十分發達,機房往往位于不同的地方,應用系統維護員也可能只在遠程操控;而一旦設備當機,無法啟動,或者由于網絡問題管理員無法連接到設備,那么技術再高的人也沒有辦法了。所以,必須確保管理人員能連接上設備,或者通過虛擬設備漂移等技術手段,實現設備容災冗余。
3.1.2 平穩運行盡可能長的時間
對于系統來說,經常有升級補丁等需要,那么作為應用系統維護員是否需要經常安裝這些呢?為了確保系統能正常安全,首先考慮的應該是系統穩定。因為安裝補丁程序,本身就是一項增加風險的操作。所以,平穩是先決條件,新形成的系統都是不平穩的,只有經過時間考驗的,才能認為是平穩的。因此對于核心部分的設備,補丁升級一定需要兼顧系統穩定性及系統安全性。
3.2 解決方案的規則
有了核心之后,需要制定一個整體的規則,以可以稱之為步驟,來確保核心的實現,這里稱之為解決方案的規則。主要有三個:
3.2.1 用數據找出缺陷
首先,需要先確定一個概念:缺陷是指存在于系統中,未被發現的,可能造成故障或災難的地方。好的應用系統維護員可以依靠自己的經驗,找出系統中存在的缺陷,但是,正如前面所說的,如果是對于不同的系統,那么技術再高的應用系統維護員也往往束手無策。
所以,應該通過數據積累,從數據上的增長趨勢和不正常的變化,來找出潛在的缺陷。首先,對需要監控的系統,實行定點定時的數據采集、性能采集,然后根據得到的數據,建立系統的基準線;然后根據基準線的趨勢,預測今后可能發生的上限、下限和峰值。當某時刻的數據發生了突變,就預示著缺陷的存在和發生。如下圖所示:
12日的CPU使用率接近峰值,有可能造成系統崩潰。這樣,管理員就需要察看當日的系統上運行了什么軟件或應用,有什么人員登陸,然后分析得出造成該現象的具體原因;那在以后進行同樣操作的時候,就可以事先預知系統的承載能力,而將其它的事務(如ORACLE數據庫的導出備份等)分派到其他的時段,以避免CPU的超負載。
當數據積累到了一定的程度,基準線和上、下限也得到了比較正確的數值的時候,應用系統維護員就能將各階段、各日期、格時段的風險值以散列圖的方式展現出來,這樣就能在高風險的時候更多的注意需要照顧的系統。
比如在月初或月末,由于系統需要出帳,系統的風險值就會明顯上升,在這段時間內,管理員對系統需要進行全面的監控。也許這不是一個最好的辦法,隨著時間的積累,數據的精確性會不斷的上升,而應用系統維護所需的穩定性也會隨之上升。
另一個優勢在于,一個新上任的應用系統維護員可以在很短的時間內,了解一個新系統的基本運行情況、需要關注的時間段以及需要特別注意的某個操作。
3.2.2 用制度防范風險
作為規則的第一步,通過數據的收集、分類、整理,應用系統維護就面臨著如何運用這些數據,如何通過建立完善的制度來將存在的風險轉移出去。
正如前面所說的,應用系統維護是一項需要時間培養的工作,但是通過制度的制定,可以讓應用系統維護人員的培養變得有章可循,也可以讓應用系統維護工作真正做到具體化、細致化。
如上圖顯示:
原應用系統維護,主要取決于個人的技術和操作,這樣就會導致每個應用系統維護員都有自己的一套應用系統維護方法,當發生人員、技術甚至系統發生變化的時候,就可能導致在管理工作的延續上發生斷層,與此同時的系統的平穩性也受到威脅。
而解決方案,則是采用通過數據—〉制度—〉系統,不同的應用系統維護人員可以通過不同的方法、經驗采集數據,但必須通過建立制度來對系統進行管理,這樣就可以避免人員的變動造成管理的混亂,因為新任的管理人員可以按部就班的根據以往的制度來繼續原先的管理步驟;然后根據自己的經驗,對數據的收集方式、收集量進行調整,然后優化制度;最后通過優化后的制度來管理系統,以便提供更全面的數據。
這樣就形成了一個封閉的循環,可以不斷的改善應用系統維護的方式方法和制度,并令系統的平穩狀況得到更好的保證。
3.2.3 用技術解決故障
根據前兩步的操作,應用系統維護人員已經建立了可以不斷完善的體制來預防、分解存在的缺陷風險;但是,對于突發故障(比如,掉電造成的系統當機、文件系統的負載過高、人為操作的失誤等)的發生,應用系統維護面對的就不僅僅是靠制度能解決的問題了,這是就需要依賴技術層面來解決問題;當遇到無法解決的問題時,可以提供進一步的咨詢方案,并實施保護數據的措施,將損失、停機時間控制在最小的范圍之內。
綜上所述,經過三個步驟:用數據找出缺陷、用制度防范風險、用技術解決故障;這樣就能形成一個應用系統維護步驟的封閉環。
3.3 解決方案的具體操作建議
經過上面兩部分關于解決方案的核心和規則的討論,已經有了一個相對較為清晰的管理模式,或者稱為解決方案,就如一棟大廈的主體結構,已經初步呈現。下面討論得如何運用這核心、規則,建立起一套真正的制度,對應用系統維護進行可操作的應用。也就是從細微處著手,給大廈進行裝修,使之成為可以生活、生產的地方。
3.3.1 用數據找出缺陷
缺陷采集主要通過三個方面來實現,即性能收集、故障收集和數據收集;
性能收集方面,首先,在各類應用上,各個應用時間點和各類硬件設備上,對cpu、memory、文件系統、輸入輸出和進程等性能方面的數據進行收集。
其次,當發生故障的時候同樣收集各類數據形成故障報表;
最后,通過性能報表、故障報表生成相應的數據庫,形成圖形的數據報表;
3.3.2 用制度防范風險
(1)必須給所有的系統劃分等級,有限的精力不可能平均的分配到所有的設備上,所以只有給系統劃分等級之后,合理分配應用系統維護人員的時間和精力;
(2)根據分級定期收集察看系統日志;系統日志的重要性是不可忽視的;一般的系統告警,都會在系統日志重有所表現;對于日志的收集也能為系統以后的診斷提供幫助;
(3)根據分級定期備份系統級重要文件;當系統發生不可預見的問題之后,這些重要文件的存檔,可以幫助應用系統維護縮短系統故障的時間;
(4)登陸用戶分級并各自進行記錄;
(5)日常操作必須規范,管理員的每個操作都應該進行日志記錄;
(6)風險管理;進行對系統可能產生重大影響的操作之前,可以通過系統全鏡像并單獨隔離的方法來實現對現有系統的存檔;當操作的結果穩定之后,再回復同步鏡像;對于長期的風險,可以通過風險累計的方式,令各系統的風險值根據不同的應用、運行時間而不斷變化,然后按風險值進行從高到低的排序,排列出風險值最高的一個或幾個系統,對風險清單設備加強監控;通過故障表的統計,得出何鐘應用的系統在風險值為多大的時候可能引發缺陷,從而得出具體峰下那閥值,便于監控那些風險值高于閥值的那些系統;
3.3.3 用技術解決故障
(1)應用系統維護人員對于不同的故障應采取不同的措施;對于那些小故障,應用系統維護員應該有能力去解決,對于諸如硬件等重大故障,應用系統維護員應該快速定位故障信息,并實施保護數據等措施;
(2)知識庫、經驗庫、技術文檔、技術論壇共享,電話支持
(3)實驗環境的組建
(4)人員培訓
4 應用系統維護解決方案圖示
5 結論部分
對于大量的系統需要管理時,就應該通過建立科學的體制來進行管理,通過對于數據的采集來進行優化已有的制度,運用技術來解決已發生的故障;通過類似方法論的方式,從理論的角度令管理人員理解如何解決問題,而不是單從技術角度進行維護管理。
【參考文獻】
[1]張巨儉,甘仞初.管理信息系統的發展方向及實現技術[J].計算機應用研究,2003,1.
[2]穆緒濤,穆建華,鄒微,孫志紅.管理信息系統的作用及應用[J].現代情報,2005,10.