黃 逸,管運全,穆海洋,龐宇琦
(江蘇核電有限公司,江蘇 連云港 222000)
作為信息技術、控制技術和網絡技術高度結合的產物,數字化儀控系統被廣泛應用于核電項目中。歷經數十年的技術革新和應用積淀,核電廠數字化儀控系統朝著更加精益、高效的方向發展,對系統運行可靠性提出更高要求。
通訊網絡作為數字化儀控系統的重要組成,承載著系統內部大量的數據傳遞任務,是實現核電廠工藝系統及設備監視和控制功能的核心環節。通訊網絡所基于的工業以太網技術特點、運行原理、可靠性逐漸成為在建電廠數字化儀控系統設計選型的要素,也勢必成為數字化儀控系統可靠性提升領域的熱點議題。
核電廠數字化儀控系統是一個大型系統集合。其中,非安全級數字化儀控系統為電廠正常運行工況下對機組參數及重要系統設備狀態進行事實監視,為操縱員安全有效控制及操作核電廠提供各類必要的信息,對機組運行期間的安全性、穩定性及經濟性意義重大。

表1 非安全DCS系統應用情況Table 1 Application of non safety DCS system

圖1 HRP協議測試幀傳遞示意Fig.1 Schematic diagram of HRP protocol test frame transfer
目前,國內在建及運行電廠中,非安全系統及其網絡技術應用情況見表1。
西門子公司TXP/T2000平臺作為最早應用于國內核電廠的DCS系統,其基于單環網絡結構搭建的通訊網絡有其顯著的特點和優點:層級清晰、結構簡明,實現網絡負載分離;基于HRP[1](High-speed Redundancy Protocol)協議,網絡故障響應及網絡重構快速;提供多種遠程診斷功能(基于SNMP/HTTP/PROINET協議),可用性高且維護便捷。但其相較隨后出現的雙環、MESH、雙網冗余等網絡形式,在容錯能力和可靠性等方面存在一定優化和改進空間。
TXP/T2000系統通訊網絡符合“單一故障”[2]設計準則,在保證冗余功能的同時,確保通訊路徑唯一。網絡結構基于單環網絡(又稱“虛擬環”[3])形式,遵循HRP協議,通過指定或自動協商方式確定一臺RM(Ring Manager)交換機進行網絡拓撲管理,實現單一故障下總線通訊的冗余功能。具體過程如下:
HRP協議下,RM交換機以20 ms時間頻率“虛擬環”雙向發送對MAC層以上網絡層透明[4]的測試幀,測試幀經過環網中其余交換轉發后,會返回RM交換機。
正常情況下,RM交換機的2個組網端口(ring port)上,連續接收到對端發出的測試幀。RM交換機將指定其中1個組網端口置于“監聽”狀態,即不轉發數據包,以保證環網內各交換機遵循CSMA/CD協議進行數據通訊[5]。
當發生網絡故障,測試幀轉發過程中斷。RM交換機通過雙向上同時連續丟失3個測試幀判斷網絡故障,并將在300 ms內啟用“監聽”端口數據轉發功能,確保環網內數據通訊功能及時恢復。

圖2 TXP/T2000系統通訊網絡拓撲示意Fig.2 Topology of TXP/T2000 system communication network
基于上述“虛擬環”基本結構,結合工藝系統設計及功能分布,將TXP/T2000系統通訊網絡劃分為若干個環網。其中,子環網絡直接連接一層控制器,范圍覆蓋其所在的控制功能通道;主環網絡連通各個子環,成為TXP/T2000系統通訊網絡核心部分。主環與子環間設有兩路獨立上行鏈路,以熱備用方式冗余運行。
TXP/T2000系統中,一層過程控制功能由AS620(Automation System 620)系統完成。AS620系統承擔工藝過程的自動控制任務,是DCS系統與工藝系統的接口。它采集來自現場變送器的過程測量值和狀態量,根據實際應用情況對這些信息在AS620中進行開環和閉環控制運算和處理,然后把產生的命令送往現場執行機構(如閥門、電機等),實現控制功能。
AS620系統控制運算功能,實際由分布于若干自動處理機柜內的冗余控制器(控制器AP_a和AP_b)完成,并依托“單環網結構”的通訊網絡實現控制站間及一層、二層系統間數據通訊和控制命令交互。其過程可簡單描述為:冗余配置的控制器AP_a和AP_b同步接收數據,同步計算處理,互為冗余熱備用。其中,一個控制器作為主用控制器的輸出處理結果,當主用控制器發生故障,可以自動無擾切換到冗余備用控制器,繼續運行。與此同時,自動處理機柜與其他控制系統組件之間保持兩條物理通訊鏈路,以實現AS620系統內的通訊冗余功能。
基于上述系統及網絡冗余運行原理,TXP/T2000系統可以承受單環中出現“單斷點”故障。在此情況下,AS620系統可用性和通訊冗余不受任何影響。但如果“單斷點”故障進一步惡化,形成“雙斷點”,則可能導致雙斷點范圍內的自動處理機柜通訊中斷。核電廠運行人員無法監控通訊故障范圍內自動處理機柜中的設備和信號,且因雙斷點故障范圍內的自動處理機柜與其余機柜之間通訊中斷,極可能導致重要工藝設備誤動的情況出現,進而影響機組正常運行。
國內某核電站曾因交換機組環端口性能下降,出現“閃斷閃連”故障,引發一起機組非計劃停運事件,“閃斷閃連”故障導致環網中單方向通訊間歇性中斷。若RM交換機此時啟動監聽端口的數據轉發功能,則未出現通訊中斷的數據流向,形成物理環網。由此形成“網絡風暴”將一瞬間蔓延至整個網絡,并最終導致系統癱瘓。為此,上述網絡故障期間環網冗余功能強制未觸發,“閃斷閃連”故障點疊加RM交換機上監聽端口,最終演化為“雙斷點”故障。
通訊網絡中的“閃斷閃連”狀態是物理鏈路老化、通訊性能下降的表現,在工程應用中無法被完全消除。“閃斷閃連”故障期間,網絡拓撲處于一種非穩定的切換狀態,這將對冗余網絡協議(HRP協議及生成樹協議)的正常運作和通訊負荷產生極大的沖擊和挑戰。
通過增加并啟用鏈路監測機制,可以有效解決因物理鏈路性能下降引發的網絡異常。TXP/T2000系統通信網絡中,可通過“測試幀”雙向收發,實現對每一條物理鏈路狀態的實時監測。在物理鏈路性能下降時,“測試幀”接受計數<發送計數。若兩者差值滿足特定的變化率,則判斷物理鏈路不可靠,并以閉鎖通訊端口方式主動切斷問題鏈路,確保通訊網絡始終處于穩定狀態,為冗余網絡協議對網絡故障識別和響應提供輔助和支持。

圖3 環網形成“雙斷點”故障示意Fig.3 “double breakpoints” fault of ring network

圖4 優化后網絡結構分布Fig.4 Distribution of optimized network structure
合理規劃子環網絡范圍和關鍵網絡節點設置,對優化傳輸路徑、降低通訊負荷和提升網絡故障容錯性意義重大。在上述網絡故障導致非停事件的經驗反饋中,網絡結構及配置存在不合理之處:
“閃斷閃連”故障所在子環網絡范圍過大,其下連接有40對AP控制器,承載著全廠60%以上的自動控制器通訊任務;同時,冗余上行鏈路交換機和RM交換機采用緊鄰設置,位置分布不合理。上述因素疊加,致使“閃斷閃連”故障期間超過半數以上AP控制器通訊中斷,大范圍設備及其信號失去監視。
針對上述情況的優化方案為:在不違背功能及實體隔離原則的前提下,根據交換機物理位置,將原子環網絡“一分為二”拆解成兩個獨立子環,并對子環關鍵網絡節點做合理化配置:兩臺上行交換機呈對稱分布,即中間盡量間隔等量的交換機;RM交換機設置在距離兩臺上行交換機中間位置。

圖6 "雙斷點"故障測試情況示意Fig.6 Schematic diagram of "double breakpoint" fault test
上述調整優化可以減少子環網絡故障期間受影響的控制機柜數量,有效控制并緩解子環網絡“雙斷點”故障對AS620系統功能的影響,降低系統失效風險。
“雙斷點”故障突破了“虛擬環”網絡的冗余設計準則,其潛在影響及風險具體,必須予以有效控制和規避。解決子環網絡內“雙斷點”故障影響的關鍵所在為:如何確保冗余控制器2路物理通訊鏈路始終維持1路以上的正常工作。
結合冗余控制器和“虛擬環”網絡工作原理,對控制器在子環網絡連接方式進行重新排布,可以消除子環網絡“雙斷點”故障對控制系統的影響,具體為:
以子環網絡中兩個上行交換機為界,將子環分為了A側半環和B側半環兩部分。子環中所有控制器AP_a分配在A側半環,將所有處理控制器AP_b分配在子環的B側半環。上述結構可應對子環中出現的各種雙斷點故障。
1)當雙斷點出現在A側半環,極端情況下會導致A側半環連接的所有自動處理機柜中的控制器A離線,但是由于B側半環連接著自動處理機柜中所有的控制器B,各自動處理機柜仍可以實現子環中各機柜間的通訊以及通過上行鏈路與主環通訊,所以自動處理機柜的功能不受影響。
2)當雙斷點出現在B側半環,極端情況下會導致B側半環連接的所有自動處理機柜中的控制器B離線,但是由于A側半環掛載著自動處理機柜中所有的控制器A,各自動處理機柜仍可以實現子環中各機柜間的通訊以及通過上行鏈路與主環通訊,所以自動處理機柜的功能不受影響。
3)當雙斷點分別出現在A側和B側半環,即A側半環出現1個斷點并且同時B側半環出現1個斷點,此時子環被分割成兩段獨立的總線,其中一段經上行鏈路A與主環通訊,另一段經上行鏈路B與主環通訊,子環中所有自動處理機柜均有一個控制器保持在線,所以自動處理機柜功能不受影響。

圖5 優化后控制器網絡接入分布Fig.5 Network access distribution of optimized controller
在經過理論分析及實體測試以驗證其可行性及有效性后,上述網絡優化方案被成功實施應用于運行核電機組。
具體測試方式為:手動斷開通訊鏈路或對交換機斷電方式模擬網絡故障,并重點對子環網絡“雙斷點”故障情況進行逐一驗證,包括:“上行交換機同側雙斷點”“上行交換機異側雙斷點”“單交換機雙斷點”等。
測試結果顯示:網絡故障出現前后二層系統對全廠系統及設備的監視、控制功能不受任何影響,報警序列中不會出現AP完全故障(Total Failure)和AP-AP通訊故障(conn.flt Failure)報警,僅在“上行交換機同側雙斷點”和“單交換機兩側雙斷點”時,出現部分AP-AP通訊冗余失去(Redundancy Loss)的報警。

表2 測試驗證結果Table 2 Test verification results
測試結果表明:優化后的網絡拓撲結構更加合理,功能配置更加完善,故障監測響應能力和容錯能力進一步提升,同時能有效應對子環網絡“雙斷點”故障對控制系統實時數據通訊的影響,降低或減少由此引發的機組瞬態乃至非停事件。
伴隨著國內核電行業的跨越式發展,數字化DCS系統技術取得了長足的進步,并對系統網絡的可用性和可靠性提出更高的要求。TXP/T2000系統網絡作為一種典型工業控制網絡,在國內核電廠中取得較為廣泛的應用。結合TXP/T2000系統運行原理及其網絡固有特點,開展網絡技術解析及優化策略研究意義重大,且具備一定的參考借鑒意義和推廣價值。