張 雄 肖 平 郭賚佳 于 魁
1(艾默生控制系統(上海)有限公司 上海 201206) 2(皖能合肥發電有限公司 安徽 合肥 230041) 3(上海漕涇熱電有限責任公司 上海 201507)
1997年電力規劃設計總院提出在火力發電廠建設廠級監控信息系統(Supervisor Information System,SIS)[1]。2000年國家頒布了火力發電廠設計技術規程(DL5000-2000,大火規)[2]。2004年后,隨著火力發電廠基建工程進入高速發展期,SIS也順勢得到了快速發展,國內涌現出一批SIS集成商,不少SIS廠家也開發了自主知識產權的實時數據庫產品。SIS在遠程設備狀態監視、性能分析、綜合報表和輔助決策等方面發揮了重要作用,幫助電廠里的技術和管理人員提高了工作效率,使電廠數字化和信息化水平上了一個臺階。
但是SIS的定位一直存在爭議[3-4],爭議的核心問題有兩個:(1) 第一個問題是SIS網絡結構是否合理,是否有必要把SIS的安全等級提高到接近控制系統的安全等級,從而造成系統復雜性和系統投資的增加[5-6]。根據2005年頒布的電力二次系統安全防護規定,SIS的安全等級高于管理信息系統(Management Information System,MIS)(安全四區),低于分散控制系統(Distributed Control System,DCS)(安全一區),SIS實時數據庫服務器要分別部署于安全二區和三區,其中二區部署雙機熱備實時數據庫服務器共享磁盤陣列,三區部署鏡像實時數據庫服務器,二區和三區之間設置正向物理隔離裝置(網閘)。(2) 第二個問題是將各種高級優化功能模塊劃入SIS是否合適,如吹灰優化、負荷優化分配、故障預警和故障診斷等。由于DCS和SIS之間有網閘,使得SIS里的高級應用模塊只能以開環指導系統方式運行,無法與DCS的控制指令結合做閉環控制,限制了這些高級應用模塊發揮更大的作用。
鑒于傳統SIS存在的不足,近年來一些新建電廠在DCS招標時就將DCS和SIS功能進行了優化規劃,老電廠則根據自己的實際情況對老的SIS進行了升級改造,例如:2016年華電土右電廠在新建機組DCS招標中考慮了吹灰優化、鍋爐燃燒優化等高級應用模塊;2018年利港電廠將SIS里的故障診斷預警功能遷移到DCS中;2018年華能上安電廠在SIS系統改造招標文件中明確要求取消安全二區,數據直接進入安全三區里的實時數據庫[8]。2019年侯子良[7]提出ICS概念(智能DCS),該文的核心觀點是將SIS里的高級優化功能模塊下移到DCS,即在DCS里實現基于高級優化功能模塊的閉環優化控制。
本文針對某電廠SIS改造項目,對傳統SIS網絡結構方面存在的問題進行了總結,提出了新的并聯交叉網絡結構,并對其可靠性進行了深入的分析。
傳統SIS系統網絡架構如圖1所示。通信接口機上的數據采集程序從DCS或PLC系統讀取數據,將數據以UDP協議發送到正向隔離裝置,正向隔離裝置采用數據擺渡機制將接收到的數據發送到二區的實時數據庫服務器,二區實時數據庫服務器再將數據發送到正向隔離裝置外側的鏡像實時數據庫服務器。Web服務器從鏡像實時數據庫服務器獲取數據并對外發布數據。MIS里的客戶端機器只能訪問鏡像實時數據庫服務器或Web服務器,不能直接訪問二區里的實時數據庫服務器。
SIS總體上是一種串聯冗余的架構,只是二區實時數據庫服務器采用雙機熱備并列冗余配置。這種SIS架構存下面五個問題:(1) 雙機熱備共享磁盤陣列方案使得系統復雜不好維護,如果磁盤陣列損壞則整個SIS系統無法使用,不方便做系統級備份;(2) 大部分SIS的二區實時數據庫服務器里的歷史數據無法自動同步到三區鏡像服務器,除非通過人工操作將二區實時數據庫里的歷史數據拷貝恢復到三區實時數據庫中;(3) 實時數據從二區服務器同步到三區服務器會產生一定時間的延遲,使得SIS只能完成一些簡單的現場事故分析,對時間敏感度高的事故分析還得依靠DCS;(4) 鏡像服務器、Web服務器、接口機等設備沒有冗余配置,任何一個節點故障都會影響整個SIS;(5) 由于二區和三區有網閘,SIS管理員無法用辦公電腦對二區的實時數據庫服務器進行遠程管理。
改進的SIS采用并列交叉冗余的網絡架構,如圖2所示。與傳統SIS相比,改進的SIS有三點改進:(1) 取消安全二區,數據直接進入三區實時數據庫服務器;(2) 所有服務器和網絡設備都冗余配置;(3) 相互冗余的Web服務器、實時數據庫服務器、交換機、防火墻、網閘和接口機都可以進行交叉連接。
改進的SIS網絡架構的優點體現在以下三個方面:(1) 減少了一個實時數據庫服務器和磁盤陣列,增加了一個Web服務器、若干網絡設備和接口機,硬件成本與老SIS基本相當;(2) A、B兩列服務器和網絡設備分別構成可獨立工作的SIS子系統,可靠性明顯高于傳統SIS;(3) 通過交叉連接,使得相同設備可以互相替換,進一步提高系統的可用性。
改進的SIS里的A、B列設備冗余方式有兩種。一種是雙主模式,即除了防火墻與MIS交換機的連接不一樣外,A列Web服務器和實時數據庫服務器朝MIS側的配置完全一樣,包括IP地址和端口等。如果防火墻路由器A與MIS交換機相連,則防火墻路由器B與MIS交換機斷開;反之,如果防火墻路由器B與MIS交換機相連,則防火墻路由器A與MIS交換機斷開。辦公網里的SIS客戶端電腦只能連接A列或B列的Web服務器和實時數據庫服務器。只有當其中一列出現故障時,才將另一列設備整體切換成在線狀態。這種模式的優點是未與MIS交換機相連的Web服務器和實時數據庫服務器的安全性高,不存在被黑客和病毒攻擊的可能性,缺點是需要手工切換防火墻路由器與MIS交換機的網線。另一種是主備模式,即A列和B列設備配置不同的IP地址,兩列設備可以同時工作,辦公網里的客戶端電腦根據不同的IP地址訪問不同的Web服務器和實時數據庫服務器。這種模式的優點是A、B列設備同時工作,無須人工切換。缺點是客戶端電腦要分別用兩個不同的IP來訪問A列或B列的服務器,系統的安全性不如雙主模式。
SIS的性能計算模塊和報表統計模塊需要用到一些人工輸入的數據,這些數據一般是由電廠人員在Web界面輸入,數據保存在Web服務器里的關系數據庫中。如果SIS是主備模式則有兩種選擇,一是在人機界面分別往Web服務器A和Web服務器B輸入數據,二是只往主Web服務器寫數據,將主Web服務器里的數據同步到備用Web服務器。如果是雙主模式,則只能采用第二種方法。
如果A列和B列子系統里各有一個設備出現故障,則A列和B列子系統都不能正常工作。只要A列和B列的故障設備不是互為冗余的設備,就可以用交叉連接法將A列和B列的非故障設備組態成一個能正常工作的系統。交叉連接涉及硬接線的切換、網絡參數配置和應用軟件參數配置的切換。可以交叉連接的設備分6種情況,不同的交叉連接對應不同的硬件接線、網絡配置和應用軟件配置,具體如下:
1) 接口機與正向隔離裝置交叉連接。
接口機上配置雙網卡,一個接隔離裝置A,一個接隔離裝置B。隔離裝置采用珠海鴻瑞公司的HRwall-85M-II型正向隔離器,該設備有雙輸入雙輸出硬接線接口,可以在軟件里定義多條通信鏈路,可以用UDP協議進行數據通信,可以用TCP/IP協議進行單向文件傳輸。主備模式和雙主模式采用相同的硬接線、網絡參數配置和軟件配置。
硬件接線方法:每個DCS或PLC系統配兩個接口機,每個接口機多配兩個網卡專門用來往實時數據庫發送數據。例如:一個DCS系統對應兩個接口機1A和1B,每個接口機上的兩個網卡分別接正向隔離器1A和1B。
網絡參數配置:接口機1A上的兩個網卡和接口機1B上的兩個網卡分別配置不同的IP地址,保留網卡原始的Mac地址,將IP地址和Mac地址配置在隔離裝置的通信鏈路中。
應用軟件配置:接口機1A和接口機1B上分別運行2個數據采集軟件,分別將數據發送給實時數據庫服務器1A和1B。
2) 正向隔離裝置與SIS系統交換機交叉連接。
主備模式和雙主模式采用相同的硬接線法,即正向隔離器的兩個輸出接口分別接SIS交換機1A和1B。切換交換機時,無須更改硬接線。
3) SIS交換機1與實時數據庫服務器交叉連接。
主備模式和雙主模式采用相同的硬接線和軟件配置。
硬接線法:SIS交換機1A和1B分別接實時數據庫服務器1A和1B。切換實時數據庫時,無須更改硬接線。
網絡參數配置:實時數據庫服務器1A和1B各有4塊網卡,同一臺服務器上的網卡1和網卡2綁定成一個虛擬網卡1(兩塊綁定的網卡共享虛擬網卡的IP地址),服務器1A和1B的虛擬網卡配置不同的IP地址。利用Mac地址修改軟件將服務器1B上的兩塊網卡的Mac地址改成和服務器1A上的兩塊網卡的Mac地址一樣。這樣接口機、隔離裝置、交換機和實時數據服務器之間的硬件接線和網絡參數配置都不用修改。每一個隔離裝置里配置4條通信鏈路,例如接口機1A里的4條通信鏈接分別為:接口機1A(網卡1)與實時數據庫1A(網卡1)、接口機1A(網卡2)與實時數據庫1B(網卡1)、接口機1B(網卡1)與實時數據庫1A(網卡2)、接口機1B(網卡2)與實時數據庫1B(網卡2)。
應用軟件配置:每一個接口機上運行2個數據采集程序,分別向實時數據庫1A和1B發送數據。
4) 實時數據庫服務器、SIS交換機2與Web服務器交叉連接。
主備模式和雙主模式采用不同的硬接線和軟件配置,分別說明如下:
(1) 主備模式。
硬接線法:實時數據庫服務器1A上的網卡3和網卡4分別接SIS交換機1A和1B。實時數據庫服務器1B上的網卡3和網卡4分別接SIS交換機2A和2B。Web服務器1A接SIS交換機2A,Web服務器1B接SIS交換機2B。
網絡參數配置:實時數據庫服務器1A上的網卡3和網卡4綁定成虛擬網卡2。實時數據庫服務器1B也同樣配置。實時數據庫服務器1A和1B上的虛擬網卡2的IP地址設成不一樣的地址。
應用軟件配置:正常情況下,Web服務器1A從實時數據庫1A采集數據,Web服務器1B從實時數據庫1B采集數據。如果Web服務器1A和實時數據庫1B故障,則可以通過修改Web服務器1B里的軟件配置,將數據采集從實時數據庫1B切換到實時數據庫1A。用同樣的辦法可以將Web服務器1A與實時數據庫1B配成通信模式。
(2) 雙主模式。
硬接線法:實時數據庫服務器1A上的網卡3與SIS交換機1A相連,網卡4與SIS交換機2B斷開。實時數據庫服務器1B上的網卡3與SIS交換機2B相連,網卡4與交換機2A斷開。Web服務器1A與SIS交換機2A相連,Web服務器2B與SIS交換機2B相連。如果Web服務器1A和實時數據庫服務器1B同時故障,只要把實時數據庫服務器1B上的網卡3與SIS交換機2A斷開,把實時數據庫服務器1A上的網卡4與SIS交換機2B連接,這樣Web服務器1B就可以從實時數據數據庫服務器1A獲取數據。
網絡參數配置:實時數據庫服務器1A上的網卡3和網卡4綁定成虛擬網卡2。實時數據庫服務器1B也同樣配置。實時數據庫服務器1A和1B上的虛擬網卡2的IP地址設成一樣的地址。
應用軟件配置:正常情況下,Web服務器1A上的應用軟件從實時數據庫1A采集數據,Web服務器1B上的應用軟件從實時數據庫1B采集數據。如果Web服務器1A和實時數據庫1B交叉連接的話,不需要更改應用軟件配置。
5) 防火墻路由器與SIS系統交換機2交叉連接。
主備模式和雙主模式采用相同的硬接連,防火墻路由1A與SIS交換機2A連接,防火墻路由1B與SIS交換機2B連接。
如果防火墻路由1A和SIS交換機2B同時故障,則將防火墻路由1B和SIS交換機2A進行交叉連接。如果是主備模式,防火墻路由與MIS交換機的連接不用改變。如果是雙主模式,則要斷開防火墻路由1A與MIS交換機的連接,將防火墻路由1B與MIS交換機連上。
6) MIS交換機與防火墻路由器交叉連接。
主備模式下,防火墻路由器1A和1B同時接在MIS交換機上,配置不同的路由表。
雙主模式下,只有防火墻路由1A與MIS交換機相連,防火墻路由1B與MIS交換機斷開,路由1A與1B配置完全相同的路由表。當1A出現故障時,將路由1A與MIS交換機斷開,將1B與MIS交換機相連。
要實現SIS的高可用性,需要對服務器和網絡設備的運行狀態進行實時監測,當設備出現故障時監測系統能及時將異常報警顯示在SIS中。對于網閘外側(即MIS側)的所有服務器和網絡設備來說,有很多開源或商用的網絡監測軟件可用,也可以根據SNMP簡單網絡管理協議開發監視軟件,本文不贅述。但是常規方法無法監視物理隔離裝置另一側的硬件和軟件健康狀態,即SIS管理員無法在辦公電腦上(即SIS客戶端電廠)直接監視接口機硬件和接口通信軟件的運行狀態。本文利用實時數據庫里的模擬量點作為特征點來間接判斷接口機和通信軟件的狀態,具體辦法如下:選擇變化比較頻繁且變化幅度比較大的模擬量點作為特征點,例如鍋爐爐膛負壓測點。如果特征點過去一分鐘的平均值不等于該測點的實時值,說明這個特征點是正常的(用1表示),否則認為這個特征點是異常的(用0表示)。根據多個特征點的狀態組合可以判斷網閘、接口機和通信軟件的運行情況,如圖3和圖4所示,其中“√”表示軟件或硬件設備處于正常狀態,“×”表示軟件或硬件設備處于故障狀態。實時數據庫A里取2個特征點P1和P3,P1的輸入數據來自接口機A里的數據采集程序1,P3的輸入數據來自接口機B里的數據采集程序1。實時數據庫B里取2個特征點P2和P4,P2的輸入數據來自接口機A里的數據采集程序2,P4的輸入數據來自接口機B里的數據采集程序2。特征點P1-P4的狀態組合有16種,組合1表示所有硬件和軟件都是正常的,組合2-7和組合12-15說明只有一個硬件設備或軟件有問題,其他的特征點組合無法用來判斷某一個硬件設備或軟件是否問題,但是可以用來鎖定故障設備和軟件的范圍。本文人為規定了兩個故障排查優先級規則,優先級由符號“√×”和“×√”表示,“×√”表示優先懷疑的對象,“√×”表示排除掉“×√”對象后剩余值得懷疑的對象。
(1) 如果一個硬件設備上有兩個通信軟件,且特征點的故障與這兩個通信軟件都相關,則優先認定是硬件故障,排除硬件故障后,再繼續排查軟件故障,如組合10、11、16。
(2) 如果一個硬件設備上有兩個通信軟件,且特征點的故障只與其中一個通信軟件有關,則優先認定通信軟件故障,排除軟件故障后,再繼續排查硬件故障,如組合8、9。
在不增加任何硬件設備的情況下,只要把相關設備進行交叉連接就能大大提高系統的可靠性,本文用概率分析法對交叉冗余連接網絡的可靠性進行量化分析。假設單列系統包含的主要設備數量為m,則并列冗余系統有2×m個設備,例如A列設備包括接口機1A、網閘1A、交換機1A、實時數據庫服務器1A、WEB服務器1A、交換機2A、防火墻路由1A,B列設備也由同樣的設備組成。設單個設備的故障概率為Pf,故障設備數量為n,根據概率論,得到以下計算結果。
設串聯網絡由m個設備組成,其中有n個設備出現故障的組合數和故障率計算方法如下,結果如圖5所示。
串聯系統不能正常運行的組合數為:
C1(m,n)=Csn∈[1,m]
C1(m,n)=0n=0
串聯系統能正常運行的組合數為:
C2(m,n)=Cs-C1n∈[0,m]
n個設備同時出現故障的概率為:
n個設備同時出現故障時系統可正常工作的概率為:
P2(m,n)=P1(m,n)×C2(m,n)/Cs
設并聯網絡由2列設備組成,每列有m個設備,總共2×m個設備,其中n個設備出現故障的組合數和故障率計算方法如下,結果如圖6所示。
并列不交叉冗余網絡,系統不能正常運行的組合數為:
C3(m,n)=0n=0
并列不交叉冗余網絡,系統能正常運行的組合數為:
C4(m,n)=Cp-C3(m,n)n∈[0,2m]
并列交叉冗余網絡,系統不能正常運行的組合總數:
C5(m,n)=0n=0
并列交叉冗余網絡,系統能正常運行的組合總數:
C6(m,n)=Cp-C5(m,n)n∈[0,2m]
n個設備同時出現故障的概率為:
最多n個設備同時出現故障的概率分布為:
從圖8可以看出,對于新建SIS,單個設備的故障率很低時,有80%概率不會有設備出現故障。隨著SIS使用年限的增長,單臺設備的故障率不斷增加,第2年80%概率至少會壞1臺設備,第4年有80%概率至少會壞3臺設備,第6年有80%概率至少會壞4臺設備,第8年有80%概率至少會壞5臺設備,第10年有80%概率至少會壞7臺設備。
對于并列不交叉冗余網絡,系統能正常工作的概率
P5(m,n)=P3(m,n)×C4(m,n)/Cpn∈[0,2m]
對于并列交叉冗余網絡連接,系統能正常工作的概率
P6(m,n)=P3(m,n)×C6(m,n)/Cpn×[0,2m]
至少幾臺設備故障時,系統可正常工作概率結果見圖9、圖10。
SIS的可用率是不同數量設備故障情況下的系統可正常工作的概率的期望值。根據概率計算公式E(X)=∑xP(X=x),其中x表示n個設備故障時的概率,P(X=x)表示n個設備故障時系統仍能正常工作的概率,可針對不同的SIS網絡架構推導出期望值計算公式。
串聯SIS可正常工作的概率:
P(X=x)=C2(m,n)/Cs
并聯不交叉SIS可正常工作概率:
P(X=x)=C4(m,n)/Cp
并聯交叉SIS可正常工作概率:
P(X=x)=C6(m,n)/Cp
根據上述期望值計算公式,得到計算結果如表1和圖11所示。

表1 三種網絡架構的SIS可用率對比
SIS是電廠里廣泛使用的廠級監控信息系統,在不增加硬件投資的情況下,將傳統的串聯結構SIS改成并聯結構可以提高SIS的可靠性。在并聯結構的SIS基礎上,通過軟件配置將不交叉的并聯網絡結構配置成并聯交叉的網絡結構,可以進一步提高SIS的可靠性。特別是隨著SIS使用年限的增長,單個設備出現故障的概率逐年增加,交叉冗余SIS網絡的可靠性明顯高于不交叉的SIS網絡。由于交叉冗余配置無需額外投入,因此在工程中很有實用價值,值得推廣。