
摘要:該文探討了軟件系統通用維保模式的構建與實踐,旨在通過建立軟件系統通用維保體系,實現系統的集中標準化維護,從而有效降低成本,減少對原廠的依賴,并顯著提升運維效率。該文首先分析了系統維保面臨的復雜性與多樣性、對原廠依賴的現狀與問題、維保成本與效率的挑戰,以及第三方運維服務的現狀與趨勢。隨后提出了降低對原廠依賴、優化維保成本和提高運維效率的具體策略,并詳細介紹了自動智能運維工具在維保中的應用及維保服務的實施與管理方法。最后探討了實際應用中遇到的技術和管理挑戰,并給出了相應的對策與建議。
關鍵詞:通用維保;統一維保體系;自動智能運維
doi:10.3969/J.ISSN.1672-7274.2024.11.028
中圖分類號:TP 273" " " " " " " " "文獻標志碼:B" " " " " " 文章編碼:1672-7274(2024)11-00-03
Exploration and Practice of Universal Maintenance Mode for Software Systems
LIN Shunfu, LIN Ziqi, XIE Haiming
(China Mobile Communications Group Guangdong Co., Ltd., Guangzhou 510623, China)
Abstract: This article explores the construction and practice of a universal maintenance mode for software systems, aiming to establish a universal maintenance system for software systems, achieve centralized and standardized maintenance of the system, effectively reduce costs, reduce dependence on original factories, and significantly improve operation and maintenance efficiency. The article first analyzes the complexity and diversity faced by system maintenance, the current situation and problems of dependence on the original factory, the challenges of maintenance cost and efficiency, as well as the current situation and trends of third-party operation and maintenance services. Subsequently, specific strategies were proposed to reduce dependence on the original factory, optimize maintenance costs, and improve operation and maintenance efficiency. The application of automatic intelligent operation and maintenance tools in maintenance and the implementation and management methods of maintenance services were also introduced in detail. The article also explores the technical and management challenges encountered in practical applications, and provides corresponding countermeasures and suggestions.
Keywords: general maintenance; unified maintenance system; automatic intelligent operation and maintenance
隨著信息技術的快速發展,軟件系統在各行各業中得到了廣泛應用。軟件系統的維護與保障(維保)工作變得日益復雜和多樣化,傳統的維保模式高企的成本和依賴性對企業形成較大的壓力。當前,許多企業依賴原廠進行系統維保,導致維保成本高、效率低,缺乏獨立自主。對此,筆者認為應建立統一的軟件系統維保體系,實現對系統的集中標準化維護,降低維保成本,減少對原廠的依賴,并提高運維效率。
1" "系統維保的挑戰與趨勢
1.1 系統維保的復雜性與多樣性
系統的維保工作實際上是一項復雜且多樣化的任務,其間涉及軟件系統的大規模維護和保障工作,涵蓋了對系統故障情況的檢測與修復、性能優化方面的提升、數據核查修改以及安全加固措施等多個重要方面。各種不同類型的軟件系統在架構設計、功能實現及應用環境等諸多領域存在顯著差異,這就導致軟件系統的維保要求和難度各不相同。在那些大型企業中,通常會同時運行著好幾套不同的軟件系統、不同的數據庫、不同的操作系統,這些既獨立又相互關聯的軟件之間還可能存在集成問題或者兼容性問題,這無疑進一步增加了整個維保工作的復雜程度。
1.2 對原廠依賴度過高
企業在系統維保方面嚴重依賴原廠,特別是在使用復雜、專有技術時,這帶來了一系列問題,如高昂的維保費用、較長的服務響應時間,以及對原廠維保策略和升級計劃的過度依賴。對原廠服務的過度依賴使企業的維保知識和技能得不到積累和提升,一旦更換供應商或原廠停止服務,企業將面臨巨大的風險。降低對原廠的依賴,構建自主的維保能力,是企業亟待解決的問題。
1.3 維保成本與效率的挑戰
在當前的經濟環境下,企業普遍面臨著降低運營成本和提高運維效率的壓力。傳統維保模式依賴人力操作,導致效率低下且成本高企。系統故障排查和修復耗時長、投入資源多,增加了維保成本的不確定性。為了降低維保成本,提高效率,企業需要探索新的維保模式和技術手段,實現維保工作的自動化和智能化,從而減少人力投入,提高故障處理的及時性和準確性。
1.4 當前市場狀況分析
當前,各種類型的第三方運維企業遍布各地,提供范圍廣泛的軟件系統和應用場景相關服務。從整體看,該領域規模龐大且重要,而且需要專業技術人才。隨著市場競爭加劇,多數服務商正努力提升自身技術水準與管理精細度,以應對客戶復雜化、多樣化的需求。在表面繁榮背后存在服務質量不一的問題,公司在選定合作伙伴時需進行深入調查、評估以確定其是否真正符合特定維護要求和期望值[1]。
1.5 第三方運維的發展趨勢
技術進步和企業需求的變化推動了第三方運維服務出現新趨勢。自動化與智能化技術廣泛應用,第三方運維正在向智能化方向轉型,包括應用人工智能等技術,以提升故障檢測與修復效率。云計算、大數據技術促使第三方運維服務更靈活高效地解決問題,并支持大規模多系統集中管理維護。定制化和個性化成為顯著趨勢;根據客戶特定需求設計實施方案以優化服務質量和結果。面對企業日益增加的數據安全及隱私保護要求,第三方運維商也全力提升安全合規性[1]。
2" "降低原廠依賴、降本增效與構建通用維保體系
2.1 降低原廠依賴的策略
一種方式是減少對設備制造商依賴,實現系統維護保養自主與經濟成本降低;引入第三方運維服務和培養內部運維團隊,可顯著降低對原廠的依賴程度;建立健全技術培訓體系,提升內部人員整體水平,確保他們能獨立管理并解決系統問題;與不同第三方服務提供商建立穩定合作關系,獲取廣泛技術支持和全面服務,分散風險并保證系統運行穩定性[2];自主研發或定制開發關鍵組件和工具可明顯減少在技術上對原廠依賴,從而實現真正意義上的技術自主可控。
2.2 維保成本控制與優化
在構建統一的軟件系統維保體系過程中,維保成本的控制與優化是一個關鍵環節。通過對比不同維保模式的年度維保成本(見表1),我們發現采用統一維保體系后,年度維保成本顯著降低,從原廠維保模式的650萬元降至452萬元,成本降低率達到37.4%。這一數據表明,統一維保體系不僅能夠有效控制維保成本,還能顯著提高經濟效益。
2.3 提高運維效率的措施
引入高度自動化工具和智能監控體系,實現狀態實時全面監測,并能自動解決部分問題,同時減少人力介入,優化處理速率。建構規范流程及詳盡操作手冊可確保維護作業有序且減小失誤風險。周期評估與性能優化可有效消除障礙,加快響應速度并提升處理能力。建立系統運維知識庫,基于AI大模型結合通信軟件的機器人問答功能實現自助智能答疑和操作指引,減少運維人力的投入,提升運維的效率。
2.4 維保體系設計原則
通用維保體系設計注重科學性、規范性和實用性的三項原則。建立通用維?!拔褰y一”服務體系:統一數據采集、統一運維服務、統一配置管理、統一運維管理、統一維護流程。系統狀態和需求決定了設計方向,布局要科學,以確保各部分協調一致。統一維護標準與操作規程,提升工作效率,使流程順利進行。
2.5 體系結構與關鍵組件
體系結構和關鍵組件設計應合理選擇,以建立統一維保體系。該體系包括指標監控模塊、應急響應模塊、故障管理模塊及數據分析模塊等必要部件。系統全部接入已建設的統一運維平臺,平臺無法滿足的可基于低代碼開發SRE小工具解決,盡可能減少重復開發,目的是減少人工投入,如監控、性能巡檢、業務指標保障等工作。指標監控模塊負責接入系統的運行狀態實時監測,異常情況產生告警;應急響應模塊實現各系統的應急管理,以及根據預設應急方案進行演練;故障管理模塊采用指標檢測手段和算法排查,快速通過數字機器人提醒廠家跟進處理;數據分析模塊通過挖掘信息支撐決策,推薦優化方向[3]。該體系需具備良好可拓展性、兼容性和可復制性,適配不同系統平臺及裝置類型,滿足不斷變化環境下的維保要求。
3" "自動智能運維工具的應用
3.1 自動化運維工具的選擇與應用
為了更好的落地通用維保體系,需選擇可靠的自動化運維工具實現監控整個系統狀態并管理各種操作,提升效率和減少人為失誤。工具要求功能全面、容易使用及擴展性強,具備基于低代碼平臺快速開發實現可視化應用。例如,利用低代碼平臺對服務器集群進行通用數據配置、批量修改密碼和批量系統打補丁等,自動觸發告警通過對接短信和郵件接口實現即時提醒,減少人工介入,從而降低維護成本。這些工具對批量處理、監控告警等起到關鍵作用,可縮短運維時間,并提升系統穩定性、及時性與可用性。
3.2 智能運維平臺的構建
智能運維平臺的建設對系統運維具有極其重要的意義。平臺集成了多種工具和模塊,引入了標準化接口對接各系統采集數據,加入了強大的數據分析功能,增加了閉環管理流程,大幅優化運維效率。該平臺具備包括故障預警、賬號管理、應用層巡檢、系統備份、故障管理、業務指標保障、合規整改、漏洞整改、連通性分析、應急演練、性能優化及資源管理在內的運維功能,幫助運維人員及時發現、分析和解決問題。通過精細化建模和歷史數據預測發現風險隱患,并實施維護以減少故障發生[4]。
3.3 實例分析與效果評估
某運營商的網管中心選擇第三方廠家統一運維5個網管系統,保障系統穩定性,并實現降本增效目標。該項目引入的智能運維平臺全面集成了日志分析、告警分析、工單閉環管理、大數據分析和自動化運維技術,實現了對網管各定制軟件系統的高效監控與管理。在實施過程中對這5個網絡管理系統進行接入驗證,這些網管系統處理高并發的網絡任務,還包含復雜的業務邏輯,對運維工作的要求比較高。運維人員對各系統中的數據進行標準化接口對接采集,包括性能、告警、日志和故障等數據,并運用大數據分析技術對這些數據建立識別規則,平臺輸出運行中的性能瓶頸告警和故障告警。在此基礎上,平臺根據歷史節假日數據分析進行智能預測,并提醒運維人員采取措施防范。智能運維平臺能夠實時監控和分析海量的系統日志數據,快速定位系統異常情況,并結合案例生成故障處理建議,顯著縮短了故障響應時間。平臺定期執行健康檢查和性能優化,有效預防了資源過載和性能下降。為了以科學方法驗證平臺效果,運維人員仔細對比了引入前后的關鍵性指標情況,具體數據如表2所示。
表2顯示,智能運維平臺在多項關鍵指標上實現了顯著提升。原先處理故障平均需要116分鐘,現在這一時間已降至43分鐘,效率提升了62%。這得益于智能運維平臺的自動化處理和實時故障預警功能,使得運維團隊能夠更快地響應系統問題。引入智能運維平臺后,告警處理及時率從50%提升至91%,提升了82%。故障響應時間也從35分鐘減少到4分鐘,提升了88.57%。此外,工單7天辦結率從70%提升至92%,提升了31.43%。這些優化不僅縮短了業務中斷時間,提高了工作效率,還顯著提升了客戶服務體驗和系統的持續性。通過常態的自動健康檢查和性能調整,系統趨于更穩定,并降低了錯誤率。操作員的滿意度也從70%躍升至90%,提升了28.6%。在運營商網管中心應用這一平臺,顯著提升了系統維保效果、告警處理及時率,減少了故障響應時長,還能改變以往煙窗式維護的定制的多業務軟件系統中存在的問題,保障集中、統一運維系統的穩定性。
4" "結束語
在軟件系統維保模式的探索與實踐中,我們推動了統一維保體系和自動運維平臺的構建。通過實現系統維護的標準化、自動化,改變了以往煙窗式定制系統維護模式,我們減少了對原廠的依賴,有效壓縮運維成本,從而實現降本增效的目標,并顯著提升運維人員維護效率。展望未來,隨著體系的完善和技術的發展,我們可以進一步拓展通用軟件維保模式的覆蓋范圍,為社會創造更多的經濟效益和社會效益。
參考文獻
[1] 曹陳涵.面向運維工單的自動化管理系統[D]. 南京:南京郵電大學,2023.
[2] 李子航,葛陽,劉思語,等.人工智能軟件系統的非功能屬性及其質量保障方法[J].互聯網周刊,2023(12):21-23.
[3] 王珍.自動喚醒智能運維[N].中國紀檢監察報,2021-08-09(008).
[4] 薛曉慧,郭志華,黃超,等.基于HPLC拓撲自動識別技術的營配智能運維系統設計[J].信息通信,2020(10):58-60.