華能威海發電有限責任公司 吳建國 馬東森 于信波 薛 松 楊 春 陳 湘 常曉杰 王少君 北京必可測科技股份有限公司 羅小龍 鄭雪琴
通過對DCS 控制系統的質量碼信息進行深入研究,當出現質量碼狀態異常時,尋找與系統各部件之間的關聯關系,從而分析得出可能存在的問題根源,問題擴大前進行人為干預,可有效避免DCS 控制系統的突發故障。同時結合歷史故障記錄、投運壽命等信息對DCS 控制系統進行綜合的健康度評價,實現預防性檢修更換。
目前,DCS 主控單元通常以兩個主控單元雙冗余配對使用,主從控制單元通過網絡聯接實現數據同步。其電源系統采用冗余供電,配置2~4塊電源模塊,除電源模塊同時損壞的極端情況外,其中任意一個模塊故障均不影響主控單元的正常運行。當其中一個控制單元故障時,看守檢測電路將禁用主控的I/O 接口,并將故障告知副控。隨后副控接管I/O 總線控制,開始執行過程控制應用程序。整體過程為自動無擾切換,保證DCS 系統I/O 柜的正常運轉。同時發出故障報警,提醒熱控人員處理。
主控狀態監測主要依賴于系統內部的狀態監測,提供給用戶實時狀態:主控、副控、離線、故障等,并以質量碼方式呈現具體報警內容。DCS 系統的日常維護則主要以定期工作為主,通過檢修期的定期切換試驗,線路緊固檢查,日常巡檢狀態檢查、電子溫濕度控制等方式,保證主控單元的正常。
本文針對當前存在問題,通過對狀態質量碼的深度解析,將系統狀態代碼轉化為易于普通用戶使用的語言。使得用戶在控制器出現異常變化初期,即可清晰直觀獲取相關信息,并融合各類DCS 歷史故障案例及專業技術人員維護經驗,整合各類故障現象,形成系統化故障診斷模型,第一時間為用戶提供故障原因分析及處理建議,提升故障處理的及時性準確率。同時結合外部綜合因素,如環境溫濕度、投用壽命、電源狀態、盤柜狀態、歷史故障信息等對DCS 系統進行綜合狀態診斷。因此,開展DCS 系統狀態監測診斷能減少系統故障造成的突發事件,實現系統故障及隱患的提前感知與報警,自動診斷故障隱患點,進而有效提升發電機組運行可靠性、安全性。熱控設備實施狀態檢修的意義主要表現在以下方面:
設備狀態深度解析。通過對主控單元狀態質量碼的深度解析及綜合整合研判,將系統狀態代碼轉化為易于普通用戶識別和使用的語言,使得用戶可清晰直觀獲取相關狀態信息。在控制器出現異常變化初期,即可根據質量碼狀態發現早期異常,并為用戶提供異常生成原因及處理建議;專家故障診斷。將DCS 廠家知識庫、歷史故障案例及專業技術人員維護經驗,以故障模型方式融入診斷系統,形成系統化故障診斷模型,第一時間為用戶提供故障原因分析及處理建議,提升故障處理的及時性準確率。
系統內部綜合診斷。采集DCS 系統其他部件狀態信息如電源、網絡、接口卡、I/O 卡件、盤柜等,尋找與主控單元相互間關聯規律,充分整合離散式報警信息,形成全方位多角度綜合研判算法。通過分散的信息數據呈現集中的狀態預警;系統外部綜合診斷。結合外部綜合因素,如環境溫濕度、投用壽命、歷史故障信息、定期/巡檢工作記錄、檢修記錄等,對DCS 主控單元進行綜合狀態診斷,進行健康狀態評價及庫存壽命評估。為用戶進行狀態檢修、預防性維護更換,提供實際數據和理論依據。
DCS 控制系統功能強大、結構復雜,通過單一的診斷方法無法全面監測狀態信息,進而進行準確的狀態診斷及智能預警,須通過多方位特征狀態信息對其進行綜合性的狀態診斷評估。本方案從故障診斷和健康狀態評估兩個維度對主控單元開展研究。
DCS 系統內部對主控單元及各部分有著較為全面的監測方式,能發現系統存在的絕大部分異常并提供報警給用戶。但一般以“報警”“故障”或“離線”等較為籠統的匯總式報警信息呈現出來,用戶很難通過報警全面了解系統出現問題的具體原因,需人員進入軟件內部進行查詢。查詢方式及獲得的信息專業性極強,普通的電廠熱控維護人員不易理解,造成問題處理的遲滯[1]。本文通過對DCS 系統質量碼信息的深入解析和分析整合,結合DCS 各部件、各工藝參數之間的關聯關系,對DCS 系統的狀態形成更加全面、直觀的故障監測診斷方法。包括建立數據庫、質量碼解析、建立模型及狀態監測診斷四個步驟,以下就每個步驟展開論述:
2.1.1 建立數據庫
建立數據庫作為整體診斷系統的信息源,明確每一個DCS 部件的唯一點名及其對應的信息,內容主要包含設備點名、點描述、盤柜號、型號規格、投用日期、序列號等信息,以設備臺帳形式導入軟件系統中,采用設備點名檢索,匹配相關信息。
2.1.2 質量碼解析
在DCS 系統當中,針對每個站點(包含主控單元、工程師站、操作員站、歷史站等)、模塊卡件、網絡節點及I/O 點等狀態,通常使用質量碼來表達其不同狀態及導致該狀態的可能原因。例如艾默生公司的Ovition 系統支持四種質量狀態:GOOD(正常)、FAIR(強制)、POOR(算法狀態)、BAD(故障)。
每種狀態指出點的操作和運算條件。某種質量狀態的點可能有多個原因,這些原因存儲在狀態字(如1W2W 字段)的數據位中。可能的質量原因包括點值被保持、硬件出錯、點振蕩、傳感器標定、掃描被停止、數據鏈路故障、工程值限值、接地故障、電源消失等。這些信息可呈現出當前點位的狀態及原因,為進一步故障診斷提供了準確可靠的基礎信息。通過對這些信息的篩取、組合、分析,形成綜合故障診斷模型,對所監測設備實現全面性、前瞻性、綜合性的智能預警診斷。
質量碼解析方法為:參照《DCS 系統記錄類型參考手冊》整理質量碼信息清單,根據DCS 故障手冊定義質量碼信息含義及應用場景。通過與DCS 控制系統建立通訊對接,通常以OPC 通訊方式實現系統聯通。通過檢索數據庫點名實現數據對接,然后根據站點狀態字段編號及數據位編號,提取到相應的質量碼信息。按照點名——字段編號——位編號的檢索順序,提取到對應的點的質量碼信息。例如獲取#1盤柜#1主控的當前控制模式信息:首先在數據庫中查詢到點名為“DROP1”,字段FB、位編號4為“真”時,表示當前狀態為主控模式。
其中一部分質量碼信息可直接用于主控單元狀態顯示及預警,如“控制模式”、“備用模式”、“網絡超時”、“主副控不匹配”等,這些信息可直觀呈現出主控單元的當前狀態,用戶收到報警信息后可第一時間做出判斷和處理,因此無需二次處理,質量碼狀態為真時可直接進行報警。
另一部分質量碼如“離線模式”、“檢測到此站發生故障”、“站處于報警狀態”、“檢測到無效控制回路頁”等,這些信息發出時用戶無法根據信息直接得知系統存在的問題,需同時與其他信息進行綜合研判解析,進行二次診斷后生成狀態預警信息。例如“檢測到此站發生故障”,需同步檢索當前站點所含電源狀態、網絡狀態、主控狀態、IOIC 卡狀態,I/O 卡件狀態,及其他發生變化的質量碼信息。根據不同狀態異動確定此站發生故障的原因,從而為用戶提供直觀的綜合故障信息。例如同步檢測到IOIC 卡狀態異常,則可研判為“IOIC 卡狀態異常導致站點故障報警”。
2.1.3 模型建立
質量碼獲取到后,如何判斷當前狀態是否正常,因此模型的建立是確定設備是否異常的關鍵步驟,通過分別建立主控單元正常模型與故障模型,建立主控正常與故障的判斷基準。
建立正常模型:通過正常模型的建立,可為系統建立一套正常運行及正常停運狀態下的基準值,包含狀態開關量點、正常運行區間值、正常或停運狀態時各設備的狀態信息。當狀態偏離此模型時視為設備存在異常;建立故障模型。參考《防止電力生產事故的二十五項重點要求》、《GBT 35731-2017火力發電廠分散控制系統運行維護與試驗技術規程》、《火電廠熱控系統可靠性配置與事故預控》、DCS 故障案例、專家經驗等相關主控單元案例,建立主控單元異常故障診斷模型。
建立趨勢模型。主控單元的負荷率總應維持到一個合理范圍內,當負荷率突然變化超出范圍時,代表主控運算量過多,容易發生主控死機等故障。產生原因主要有兩方面:一類是現場設備的實際操作量和變化量突然增多,此類造成的負荷率短時突升屬于正常情況,可排除主控異常風險,但長時負荷率居高不下則代表主控長期運算量加大、存在故障風險,此時應對負荷率重點監測,必要時應調整主控所帶設備數量;另一類是主控本身或關聯部件存在異常,造成的負荷率突升,此類是重要需重點監測和解決的風險。因此根據負荷率與主控部件的關聯關系建立相應的趨勢模型。
采集主控單元負荷率,顯示負荷率實時及歷史趨勢。通過對負荷率趨勢的監測,可對主控負荷異常突升、頻繁大幅波動、長期高于標準區間或歷史區間等非正常負荷變化進行監測,從另一維度開展對主控單元的診斷預警。
2.1.4 狀態監測診斷
通過以上數據庫建立、質量碼解析、正常與故障模型建立后,所有診斷算法模型均置入到系統中,在系統內部建立故障診斷知識庫,故障診斷條件滿足時,根據算法模型發出預警或報警;實現主控單元實時狀態監測和預警。
主控單元除上述實時狀態監測診斷外,其他非實時性設備信息,如歷史故障記錄、同批次設備信息、投用壽命時長、環境溫濕度等,也對主控單元的使用壽命產生影響,因此應結合上述信息對主控單元進行綜合健康狀態評估,為狀態檢修策略提供數據依據。健康狀態評估與故障診斷從兩個維度同步進行,形成完整的監測診斷評價體系[2]。
歷史故障記錄:按每個盤柜中所包含的部件建立存儲數據庫,每次主控單元發生故障時,將故障信息存儲到數據庫中,形成歷史故障信息記錄表。如:當IOIC 卡編號0001設備發生故障時,平臺通過網絡通信的方式會讀取到該設備存儲在數據棧的故障信息,并將該故障信息存儲到數據庫中,同時通過該設備的KKS 編號等標識信息以及根據配置的周期時間,在數據庫中查找該設備在周期內發生過的歷史故障信息,通過故障編號進行比對,當在歷史故障信息表中匹配到了相同的故障編號,就可判定在周期內再次發生了同類故障系統自動記錄故障時間、故障內容,并將故障原因存儲至對應部件的存儲數據庫,健康狀態評估為“存在重復故障,建議擇機檢查處理”,建議檢修期進行更換或重點處理。
同批次設備關注:與上述方法類似,通過事先建立的設備臺帳數據庫,將設備投運時間存入數據庫。當任一故障發生時,調取設備臺帳中投用壽命同月份主控單元,同批次主控列入關注清單;一定周期內同批次其他主控單元出再次出現該故障,同批次主控顯示報警,健康狀態評估為“同批次設備存在重復故障,建議擇機檢查處理”,建議檢修期進行更換或重點處理。
超壽命評估:調取“設備臺帳”投運時間,自動匹換算為小時單位,投運壽命大于87600h 或最早批次主控列入關注清單;任一故障在最早批次主控單元發生,推送全部同批次主控單元清單,列入重點關注清單;該故障在最早批次主控單元重復發生,輸出超壽命報警。健康狀態評估為“設備超壽命運行且出現過故障,建議擇機檢查處理”,同時推送至檢修管理模塊,檢修前60天推送狀態檢修設備名細,建議檢修期進行更換或重點處理。
綜上,此狀態監測方法可擴展至DCS 各部件,將DCS 系統內部的信息加以識別和分析研究,不僅可實時監測到各部件的狀態,通過綜合的研判機理,對健康度及可用壽命進行評估,更可將難以直觀識別的質量碼信息進行可視化轉換,變成易于熱控檢修人員理解的狀態信息。對對DCS 控制系統進行有效的監測和故障預防,有著積極和實用的輔助作用。