文 / 國家電網(wǎng)有限公司信息通信分公司 杜靜 楊猛 田思涵
新一輪的科技革命和產(chǎn)業(yè)變革席卷全球,實體經(jīng)濟與數(shù)字經(jīng)濟深度融合[1],國家作出數(shù)字中國、新型基礎(chǔ)設(shè)施等重大戰(zhàn)略部署,加速推進企業(yè)數(shù)字化轉(zhuǎn)型,并指出要探索構(gòu)建適應(yīng)企業(yè)業(yè)務(wù)特點和發(fā)展需求的“業(yè)務(wù)中臺”“數(shù)據(jù)中臺”等新型IT 架構(gòu)模式,加快形成集團級數(shù)字技術(shù)賦能平臺。因此,電力系統(tǒng)建設(shè)也朝著云上微服務(wù)架構(gòu)快速演進[2]。為滿足業(yè)務(wù)快速迭代的需求,系統(tǒng)檢修頻率激增,對運維人員的技能水平要求越來越高,運維面臨的痛點難點問題日趨嚴重,有必要對運維管理問題開展深入研究,提供更佳的問題解決方案[3]。
雖然企業(yè)已經(jīng)出臺多項通用制度,規(guī)定了數(shù)字化項目建設(shè)的工作職責(zé)、流程要求,但由于可研、設(shè)計、測試、運維承擔(dān)主體不同,各自執(zhí)行的標準與規(guī)范不統(tǒng)一,部分項目技術(shù)路線執(zhí)行不剛性,如果在上線前期出現(xiàn)架構(gòu)不合理等問題,則難以整改。此外,部分系統(tǒng)建設(shè)存在系統(tǒng)設(shè)計對運維支撐能力考慮不足、系統(tǒng)應(yīng)用日志可讀性較差等問題,嚴重影響系統(tǒng)異常排查效率。
巡檢監(jiān)控能夠先于用戶發(fā)現(xiàn)平臺運行問題,爭取問題消缺時間,是運維管理的核心工作。目前,各專業(yè)監(jiān)控工具存在多、小、散的特點,云上用戶無法整體感知云平臺PaaS 層、IaaS層,以及相關(guān)云外主機、安全、網(wǎng)絡(luò)等軟硬件設(shè)備運行狀態(tài),跨專業(yè)臨時協(xié)同排查時效率低、溝通成本高;同時,云上系統(tǒng)集成關(guān)系復(fù)雜、耦合性大,缺乏共享業(yè)務(wù)能力的固化沉淀,上層業(yè)務(wù)與下層應(yīng)用組件、基礎(chǔ)平臺組件關(guān)聯(lián)關(guān)系不明晰,且微服務(wù)數(shù)量大、調(diào)用鏈路長,這些都給系統(tǒng)問題的排查定位增加了較大難度。
以往,我們主要依靠壓力測試來發(fā)現(xiàn)系統(tǒng)瓶頸。但壓力測試主要在測試環(huán)境開展,而測試環(huán)境的節(jié)點規(guī)模、壓測并發(fā)量及業(yè)務(wù)數(shù)據(jù)均與生產(chǎn)環(huán)境存在較大差異。考慮臟數(shù)據(jù)的影響,生產(chǎn)環(huán)境的壓力測試目前也只能開展點對點查詢類的并發(fā)測試,這會導(dǎo)致壓力測試結(jié)果并不準確,更無法有效確定系統(tǒng)全鏈路各環(huán)節(jié)的性能瓶頸及缺陷。
運維人員溝通交流渠道較少,人員技能水平差異較大,相同故障在不同業(yè)務(wù)系統(tǒng)中重復(fù)發(fā)生,整體協(xié)同支撐機制較弱,運維經(jīng)驗未能有效沉淀及共享,全網(wǎng)運維力量未能發(fā)揮合力。
1.全面梳理分散在建設(shè)、運行階段的規(guī)章制度、標準規(guī)范和技術(shù)要求,結(jié)合在長期運行工作中沉淀積累的系統(tǒng)部署規(guī)范、安全基線配置、集成規(guī)范、微服務(wù)設(shè)計原則等技術(shù)要點,統(tǒng)籌制定覆蓋系統(tǒng)全生命周期的統(tǒng)一技術(shù)架構(gòu)管控標準,確保衡量尺度一致性,全生命周期管控統(tǒng)一性。
2.運維關(guān)口前移,從可研編制、需求審查、概設(shè)評審、安全防護方案制定、系統(tǒng)研發(fā)測試等關(guān)鍵環(huán)節(jié)入手,由運維人員提前介入、參與把控,及時發(fā)現(xiàn)問題、解決隱患,及時提出運維支撐功能及日志輸出標準等非功能性需求,提高系統(tǒng)自描述、自監(jiān)測及自恢復(fù)能力。
1.基于智能一體化運維支撐平臺,匯聚、整合各專業(yè)、各層級運維監(jiān)控數(shù)據(jù),打造公司級統(tǒng)一全景監(jiān)控共享平臺,建立信息化職能管理部門牽頭的運維數(shù)據(jù)管理體系,打通各專業(yè)監(jiān)控數(shù)據(jù)壁壘,各專業(yè)部門分層維護治理,企業(yè)級共享共用,確保運維數(shù)據(jù)靈活接入、可用好用。
2.基于全景監(jiān)控共享平臺數(shù)據(jù)支撐,開展運維數(shù)據(jù)智能分析應(yīng)用,以微應(yīng)用形式快速構(gòu)建以業(yè)務(wù)為視角、業(yè)務(wù)-平臺縱向關(guān)聯(lián)、總部-省側(cè)兩級貫通的全鏈路可視化監(jiān)測場景,增強業(yè)務(wù)異常感知能力及故障定位效率;結(jié)合人工智能[4][5]、大數(shù)據(jù)等技術(shù)加強運行狀態(tài)及應(yīng)用日志關(guān)聯(lián)分析,深入挖掘系統(tǒng)運行監(jiān)測分析數(shù)據(jù)價值,開展“系統(tǒng)畫像”及“業(yè)務(wù)畫像”,分析系統(tǒng)健康狀態(tài)和運行特點,精準繪制業(yè)務(wù)潮汐圖,實現(xiàn)系統(tǒng)精益運維。
明確系統(tǒng)響應(yīng)時間、處理能力、吞吐量、并發(fā)用戶數(shù)、內(nèi)存使用率等各項性能指標,依照大型互聯(lián)網(wǎng)企業(yè)壓測經(jīng)驗,結(jié)合企業(yè)業(yè)務(wù)特點,構(gòu)建全鏈路壓力測試平臺,在生產(chǎn)環(huán)境以核心業(yè)務(wù)場景為試點開展全鏈路、高并發(fā)壓力測試,最大程度模擬用戶真實并發(fā)請求流量,有效探知系統(tǒng)真實負載能力,及時發(fā)現(xiàn)系統(tǒng)性能瓶頸及缺陷,主動提前開展優(yōu)化消缺,確保系統(tǒng)能夠可靠支撐業(yè)務(wù)運營活動。
1.建立運維交流支撐平臺,具備豐富編輯形式、高效分享交流和互動次數(shù)、貢獻排行、熱門文檔,以及點贊排行等功能,為全網(wǎng)信息運維人員提供一個便于日常運維交流、經(jīng)驗分享的公共平臺,激發(fā)運維人員相互學(xué)習(xí)、主動分享的積極性,發(fā)揮高水平運行人員能力,持續(xù)沉淀運維經(jīng)驗知識。
2.建立企業(yè)級運維知識庫,制定全生命周期的知識管理流程,覆蓋知識上傳、知識篩選、知識審核、知識入庫、知識反饋、知識更新六大環(huán)節(jié),對知識進行全生命周期管理,構(gòu)建知識庫生態(tài)化運營機制,為知識的高效利用和價值發(fā)揮打好基礎(chǔ)。
云上微服務(wù)架構(gòu)的電力系統(tǒng)性能突出,但運維難題也日益凸顯,研究微服務(wù)架構(gòu)系統(tǒng)的運維管理技術(shù)也變得越來越重要。云計算、大數(shù)據(jù)、人工智能等新技術(shù)的愈發(fā)成熟助力智能化運維的發(fā)展,運維管理將趨向于集、管、控一體化。本文詳細探討運維管理策略,提出建立統(tǒng)一技術(shù)管控標準、統(tǒng)一全景監(jiān)控共享平臺、全鏈路壓力測試平臺、運維交流支撐平臺,從技術(shù)標準管控、運維工具支撐、運維人員能力等多方面強化提升,確保電力系統(tǒng)安全穩(wěn)定運行。