王海柱 鄧大為 盧建剛 周 波 閆訓超
(1.廣東電網有限責任公司電力調度控制中心 廣州 510600)(2.南瑞集團公司(國網電力科學研究院) 南京 211106)
電網運行管理系統(OMS)作為電網調度規范化、流程化和一體化管理的技術支撐與保障手段,是電力企業的基礎系統之一。傳統的OMS 系統采用主備用方式,正常情況下在主用系統中運行,發生故障時手工或自動切換到備用系統中運行,在一定程度上保障了電網調度業務連續性。近年來,隨著電網負荷的快速增長,以及大區電網互聯的逐步形成,電力企業對電網調度業務連續性的要求不斷提高,需要新一代的一體化OMS 系統具備更高標準的可靠性和穩定性[1]。虛擬化、云計算等新興技術的興起,雙活系統已成為大勢所趨。相對于主備用方式,雙活系統的兩個系統均處于業務運行狀態,在發生故障或災難時能夠進行業務無中斷的自動切換,保證了數據的完整性、正確性、可靠性。同時雙活系統避免了以往處于冷備狀態的系統常年處于閑置狀態而造成的浪費,提高了業務的服務能力[2~5]。本文將利用雙活集群應用技術,提出一套基于存儲、數據庫和文件服務的OMS 雙活方案,并運用馬爾可夫模型對此雙活方案進行可用度分析,通過實際試點應用,該方案的設計和實施能夠達到數據安全存儲和應用容災的效果,可以完全保證電網調度業務的完整性、可用性和連續性。
OMS 系統雙活方案需要涉及到網絡、存儲、數據庫、文件、應用服務等技術層面的統籌考慮,并根據OMS 系統自身技術特點選取合適的雙活集群應用技術進行周密設計,才能實現整個系統層面的雙活[6~10]。
1)網絡雙活
網絡系統是用戶訪問OMS 系統的通道,也是OMS 系統硬件環境內部各層級相互傳輸數據的橋梁。在“雙活”模式下,外部訪問利用負載均衡技術,實現流量在不同應用服務器集群之間的調度以及在單應用服務器集群內多服務器的負載分擔。內部傳輸通過裸光纖線路實現,能夠提供較高的鏈路質量和帶寬。
2)存儲雙活
存儲系統是OMS 系統存儲各類數據的基礎平臺,使信息能在數據庫服務器之間共享、存取或移動。存儲雙活利用存儲虛擬化功能和數據鏡像功能,將各種不同的存儲系統在邏輯層面聯合成為單一資源,使得數據存儲的過程對OMS 系統保持透明。雙活的存儲設備均處于運行狀態,共同承擔數據的訪問與讀取工作,且互為備份,提高了整體服務能力和系統資源利用率。
3)數據庫服務器雙活
數據庫服務器用來對結構化數據進行統一組織管理。數據庫雙活采用ORACLE 擴展的11G RAC技術,其中一臺數據庫服務器由于硬件或者軟件原因宕機,則Oracle數據服務會自動切換到另外一臺服務器的數據庫服務,不會影響系統的正常使用,同時可以有一定的時間及時處理宕機的數據庫服務,從而提高了數據庫安全使用性,降低了系統的故障率。
4)文件服務器雙活
文件服務器用來對非結構化數據進行統一組織管理。文件服務器雙活采用Linux環境下的邏輯卷管理器(Logical Volume Manager,LVM)機制,實現雙活存儲之間的附件數據同步問題,保證數據不論從哪個存儲寫入都能被同步到另外一臺存儲上。
5)應用服務器雙活
應用服務器是OMS 系統對外提供服務,對內訪問數據的中間環節。應用服務器雙活通過服務器集群技術結合中間件集群技術實現,在應用處理層面實現了完全冗余,使得服務能力成倍增加,業務連續性和穩定性得到了大大的提高。
IT 系統的可用性(Availability)是衡量其服務水平的重要指標,主要用來反映IT 系統在執行任務的任意時刻能正常工作的概率[11~15]。本文利用可用性來評估OMS 雙活系統從發生問題開始直到重新工作的能力。
OMS 系統的可用性基于OMS 系統的可靠性(MTTF)與可維護性(MTTR),是一個比率。其可用性公式如下:

其中,可靠性(MTTF)通常用系統平均故障時間(Mean Time To Failure)來表示,可維護性(MTTR)通常用系統平均修理時間(Mean Time To Repair)來表示。
在OMS雙活環境下擁有主/冗余節點。如果其在相同時刻同時出現問題且無法正常工作,此時對于OMS 雙活系統來說,則處于故障狀態。利用Markov過程[10],可以設定:
1)針對OMS雙活系統的每個組件均有工作/故障兩種狀態;
2)排除OMS 雙活系統的每個組件設備之間的差異性;
3)針對OMS 雙活系統的每個節點,其彼此可正常切換并能夠承擔對方業務;
4)時間區間為(t,t+Δt),各獨立節點若出現問題,則可用λΔt表示當時概率。同時對問題出現時間進行分析,發現其符合指數分布特性;
5)時間區間為(t,t+Δt),各獨立節點若出現恢復,則可用μΔt表示此時概率。同時對恢復出現時間進行分析,發現其符合指數分布特性;
6)λ(問題發生率)也屬于常量,μ(問題恢復率)屬于常量,η(節點切換成功率)屬于常量;
7)關于出現問題與出現恢復的關系是彼此獨立的,并且和另外的情況也彼此獨立。
在OMS 單機系統的情況下,其狀態機組成部分為日常運行狀態(0)與發生問題狀態(1)。用E={0 ,1} 表示總的狀態集合。其中,W={0 } 表示單機系統運行情況;F={1} 表示單機系統出現問題情況。
依據概率論定理(全概率公式),推導出OMS單機系統的可用度線性方程組。

計算出:

則在單機環境下Markov 狀態轉移圖如圖2 所示。

圖2 單機環境下Markov狀態轉移圖
單機環境下,可用度A(t)的值為


在OMS 雙活系統的情況下,其狀態機組成部分包括0/1/2/3 等情況[11],其中“0”表示OMS 雙活系統的所有節點處于工作模式;“1”表示OMS 雙活系統的節點由于運行問題,彼此正常切換并承擔對方業務;“2”表示OMS雙活系統處于工作模式的節點數為l;“3”表示OMS 雙活系統所有節點無不能工作。
OMS雙活系統中用E={0 ,1,2,3} 表示總的狀態集合。其中,W={0 ,2} 表示雙活系統運行情況;F={1 ,3} 表示雙活系統出現問題情況。則根據Markov狀態轉移圖可見。

圖3 雙活環境下Markov狀態轉移圖
計算得出OMS雙活系統的可用度:

若假定節點能夠彼此切換并承擔對方業務,即

推導結果說明:在系統故障率方面,擁有主/冗余節點的雙活系統故障率更小。或者說在系統瞬時可用度方面,擁有主/冗余節點的雙活系統更優。
隨著大電網發展的需求和保障安全運行的壓力,對OMS 系統的業務持續性服務能力提出了更高要求。傳統的主備用數據中心的部署模式其前期建設成本與后期運維成本均比較可觀,且備用數據中心只在災難發生時才發揮作用,在一定程度上造成閑置資源的浪費。因此,在保障OMS 系統安全穩定可靠運行的前提下,如何實現系統建設與運維的降本增效成為一個值得研究的課題。近年來,隨著云計算、虛擬化等新技術的飛速應用,“雙活”系統已成為大勢所趨。本文在研究雙活集群應用技術的基礎上,提出了新一代OMS 系統的雙活方案。并運用馬爾可夫模型對此雙活方案的可用度進行推導分析,數據表明雙活方案具有很高的可用度,能夠保障OMS系統的安全、穩定運行的需求。
目前,采用雙活模式的部署架構已在南方電網新一體化電網運行智能系統(OS2)省級主站OMS系統中得到很好的應用,通過全冗余、高可用的軟硬件架構,實現高等級的數據可用性和業務連續性,徹底消除以往存在的單點故障風險,最大限度地保障了OMS 系統的可靠性及可用性。本方案的應用能夠順應時代發展的要求,對電網安全穩定運行具有重要的意義。