李 林,張亞輝,陳 森,陳建新,米廣勇
(中國移動通信集團設計院有限公司山東分公司,山東 濟南 250000)
運維集中化已經不是一個新鮮的詞,從ITIL引入中國開始,傳統離散的各自為戰的運維模式就受到了很大的沖擊,運維逐漸由小團隊合作,向集中化的融合式團隊發展,運維實現了簡單的標準化和統一管理,運維關注點不再是一個簡單的主機故障或者存儲故障,而是逐漸轉移到業務運營上來,如何讓系統變得更加穩定,更加健壯,成為了后時代運維的目標。
新時期信息技術的快速發展,使運維內容變得更加豐富。云計算的彈性伸縮能力、容器化的快速部署和隔離優勢、微服務技術異構靈活部署、DevOps及CI/CD相關技術的研究應用以及大型資源池的持續建設上線,都對運維提出了新的要求。硬件、架構及技術的統一使得運維變得簡單,龐大的業務和基礎資源規模以及種類繁雜的云原生技術布局應用又使得運維變得復雜,運維人員運維的資源量級明顯提升了,這是運維效能的體現,服務的內容逐漸變得簡單,分工更加細化,專業的人做專業的事情,這是組織的優化。
在這種背景下,大集中團隊再次產生分化,向專業集中的集中化團隊轉變,分工更加細致且整合更加合理,不僅保留了原有的運維生態,新的集中模式實質上是基于當前業務和資源的特點而進行的嘗試,運維專業化程度加強,但是運維管理卻走在了相對的路線上,運維管理逐漸向運營和開發融合,協作更加頻繁,復合型運維人員的需求在增加。
最后,隨著專業分工更加明晰,信息技術和智能化、線上化研究應用的普及,運維效能也走在的變革的關鍵口,企業要想在“自動駕駛”方面走在前列,必須進行統一規劃和布局,在IT服務的每個關鍵節點發揮上層組織管理和技術的引領作用,否則,在人工成本不斷壓降,資源受限,企業加速發展的時刻,必然會引發重大問題。
根據技術應用現狀,管理的優化經常是落后于技術的應用,當新的技術應用生產后,企業管理制度和相關的規范流程尚未經過實踐的檢驗,新技術的應用本身又要消耗一定的資源去適應,管理成本和時間成本如果無法及時投入,管理優化及其他跟進提升的支出被無形中壓縮,導致后期管理一直是處于“湊合”的狀態,集中化的效果以及新技術的作用完全無法發揮,甚至讓人產生還不如過去的認知。
運維集中化不只是一個組織或者管理的命題,它也是一個技術命題,集中化的運維自帶技術背景。我們經常面臨的問題是,沒有人關注是否需要技術對集中化進行支撐,簡單的認為只是人或者資源湊到了一起,管理上發生了變化而已,這恰恰是非常要命的。
集中化必然是公司或者業務發展到一定程度后的產物,它的存在就是要解決企業不斷增加的成本問題、組織混亂冗雜職責不明問題、管理交叉分工不清問題、新技術迭代運維能力不足問題、運維手段落后效能低下問題等,以上這些是阻礙企業發展的重要因素。
集中化后,資源高度集中,所需的管理成本成幾何倍數增加,且交付質量卻是逐步下降的,這是集中化的詬病,但是,集中化的好處也是顯而易見,集中化帶來的不僅有資源,更多是一種思維上的變革,它引導著管理者向更高效更先進管理模式運作,而運維集中化運營模式的變革才能引起技術上的變革,大多數企業還停留在資源堆積和優化上,而由集中化引起的技術革命才是我們的追求,我們不為集中化而集中化。
得益于云原生在ICT各領域的快速應用和發展,業務和應用的實現變得相對簡單,而DevOps、容器等的應用使得運維與傳統IT運維有了極大的不同,我們不再僅僅追求服務器CPU使用率是否超過指標,不再關注單個設備是否發生了重大故障,我們更加關注的是應用和業務運營是否良好,PaaS層是否穩定,資源調度是否合理,能否實現計算彈性伸縮、服務治理和應用灰度發布等能力。
業務價值的實現需要運維更多地參與到整個生產鏈條中來,需要與需求、設計、開發、測試、部署、上線等有更多的交互和合作,共同完成整個業務的持續集成和發布。集中化運維不能再固守“地盤”,它需要敞開“懷抱”,與開發、測試、需求等深度合作,讓業務更加可靠穩定,讓團隊保持活力,但這有賴于技術的革新來釋放運維人員的精力,讓人回到更有意義的崗位,充分發揮主觀能動性。
用頂層設計的思路,縱觀全局,打通底層數據,消除數據和應用煙筒,實現企業數據和服務治理,這是一條必經之路,也是最困難的路,它需要企業有大決心和高投入。
在調研過程中,我們發現企業的很多底層數據存放在各個不同的平臺,提取使用存放非常困難,管理職能隔離、制度制約、流程束縛、數據壁壘、執行困難的現象普遍存在,如果不能盡早解決,那么在企業高速規模化發展的時候,必將成為企業發展的短板。所以,企業要想花費較小的代價解決上述難題,就需要在開始顯現的時候,以“開天辟地”的勇氣和決心,以上從下,革新全公司的運營體系,融合現有的治理技術,實現企業發展所必需的數據標準化、數據集中化、數據共享的能力,可以引入中臺的能力,實現服務、能力和數據的治理,讓不同的用戶根據不同的權限方便地獲得所需要的服務和數據[1]。
根據公司組織實施培訓的實際案例來分析一下公司治理中遇到的問題。

表1 原始培訓耗時記錄表
如果能夠打通底層數據,建設好內部的培訓平臺,將視頻會議數據接口打通,內部數據可以進行良好互通和共享,將極大的減少我們在綜合事務、重復過程及不必要流程上付出的精力和時間,通過實驗,我們得出以下結果:

表2 治理后的培訓耗時記錄表
通過治理,可以使我們的應用和平臺真正發揮其應用的作用,數據質量提升,數據的提供有了統一的接口,相互之間統一調度,使我們的工作效率提升了接近70%,數據質量、完整性、一致性、可靠性有了保障。
市場競爭的加劇,成本的透明,對企業自身的健壯性提出了更嚴苛的要求,哪個企業運營的更好,就可以有更大的機會活下去,所以治理體系是企業發展必將經歷的關鍵階段,只有體系完善,才能保障企業更“強壯”,更“健康”,才能更好地切入市場,才能有更大的動力調整“船頭”。要想用最小的代價完成企業轉型升級,頂層設計宜早不宜晚,治理體系的建設更加刻不容緩。
隨著數字中國概念的提出,新技術的應用將會大大提前,在IT運維領域,技術革命必將來臨,而且會很快到來。為實現企業轉型發展,跟上時代步伐,企業一定繞不過“IT換人”這個點。
通過近些年對國內企業的研究發現,人工增長極為迅速,企業利潤空間進一步被壓縮,人工成本已經成為企業發展的沉重包袱。在人力和資源有限的情況下,如何保障企業的高速增長,如何實現企業的轉型發展,改善企業的資源投入模式,這正是我們要解決的問題,而包括云原生的云產品體系在內的新技術快速布局和應用,以及我們在運維領域常年深入實踐的經驗為我們提供了實現的可能。
通過總結經驗,發揮在IT運維行業領域的積累優勢,借助云原生產品體系,打造一套融合資源彈性控制、應用智能編排、開發效能一體化、持續發布、智能運維運營功能的集中化平臺,這不僅實現從需求到開發,從開發到上線,從上線到運維的整個IT服務鏈建設,還提供了故障智能定位、數據智能分析、業務智能恢復、管理智能服務等數智化運維能力[2]。
通過云原生和集中化運維平臺,打造基于數智化的基礎設施聯合、數據整合、業務聚合、服務融合的價值服務體系,可以為企業注入新的動能和活力,為集中化建設和集中化運維賦能。
下面是基于云原生的運維服務體系設計:

圖1 基于云原生的集中運維平臺架構設計

圖2 基于云原生的集中運維平臺功能設計
在應用交付過程中經常出現應用BUG、代碼錯誤、數據丟失等一系列問題,我們需要跳出具體問題的范疇,從源頭從整個鏈條去思考這些問題出現的根本原因。為此,為保障服務高質量可持續,在整個系統建設的過程中,引入DevOps一體化理論和CI/CD流水線模式,可形成敏捷開發,持續集成的良好循環。
我們需要從每個環節入手,確定每個環節所需要的輸入、輸出和范圍,為整個過程建立規范和流程,為每個節點設立細則,將每一個步驟進行精細化管控,保障系統上線前的質量,以防多次上線不成功或者上線后系統故障頻發。
系統交付后要發揮集中運維優勢,做好運維規范化管理,特別是問題管理和需求優化管理,不僅能減少故障的頻發次數,更可以為系統持續迭代建設賦予生命力。
如上面第二點講到的,還需要為開發、部署、運維等提供面向用戶的操作平臺,以平臺為基礎,整合打通數據,將資產資源和運維管理數字化,將業務運營智能化,以標準化的過程管控能力為抓手,才能真正讓IT服務實現流水線模式,更可以將原生產品體系凝聚為一個統一的生態服務鏈,真正為企業自動駕駛提速賦智[3]。

圖3 開發運維流水線模式
技術的不斷革新推動著管理體系和模式的變革,“IT換人”的持續推進以及企業對效能提升的重視,會不斷促使企業IT運維向智能化的方向前進,不管這個變革是從上而下還是自下而上,過程必定是曲折的,也必定會歷經艱難的抉擇,因為資源總是有限的,我們不能等量變引起質變,要提前布局和思考企業下一輪的增長動能在什么地方。面臨運維靠人堆,產值瀕臨上限,資源處處掣肘的困境,如何讓為智能化而付出的成本發揮其應有的價值,才是企業下一步要花大力氣解決的方向。■