張浩 焦仕立 崔常府 高偉 張勇 王榮 伍玉輝
中海石油(中國)有限公司湛江分公司潿洲作業公司
羅克韋爾公司的ICS AADvance 系統作為較早取得SIL3 認證的控制系統,在海上采油平臺的SIS系統(包括ESD緊急停車系統和FGS火氣系統)上有著廣泛應用。某海上油田群油氣水中心處理平臺擁有多套ICS系統,處理原油達數百萬立方米,平臺一旦發生關停,將會導致整個油田群關停。2019年6月14日、7月3日、8月27日,平臺連續發生3次ESD 系統主備CPU(處理器模塊)同時故障停機,導致油田群生產關停,對油田的平穩運行造成極大的影響。通過與廠家技術人員探討,發現可能存在以下幾個問題影響系統的穩定性,導致了系統停機[1]:偶發性兩個CPU 同時停機導致平臺關停;CPU掃描周期偏長,掃描周期不穩定;單CPU機架滿載48塊卡后背板電流偏高。
AADvance 是一種工業控制器,是一個靈活、擴展性強的系統,其組件可被配置為單重化、雙重化或三重化[2],可以為其配置單重化或容錯的控制和安全應用程序。其單一處理器模塊(CPU)組合成的系統符合SIL2要求,冗余處理器模塊(2個或2 個以上)組合的系統滿足SIL3 的要求[3]。海上采油平臺為了實現容錯功能滿足SIL3 的要求,通常采用雙重冗余的方式組成SIS 系統中的ESD 系統和FGS系統(圖1)。

圖1 現場ESD系統結構示意圖Fig.1 Schematic diagram of ESD system structure on site
發生關停平臺現場擁有兩套ESD 系統和三套FGS 系統,其中ESD1 系統帶載CPU 卡件(處理模塊T9110)2 塊、DI 卡件(數字量輸入卡T9402)6塊、AI卡件(模擬量輸入卡T9432)8塊、DO卡件(數字量輸出卡T9451)34 塊;ESD2 系統帶載CPU卡件2 塊、DI 卡件2 塊、AI 卡件10 塊、DO 卡件36塊,FGS1、FGS2系統也都滿載了48塊卡件。其中T9110、T9402、T9432 額定功率4W,電壓范圍直流18~32V;T9451 額定功率3W,電壓范圍直流18~32V。
2019 年6 月14 日16:40,平臺ESD 系統突然停機,上位機大部分設備無數據顯示,現場部分電泵、SDV閥失控導致平臺全部關停,同時造成上游平臺隨之關停。初步檢查原因為ESD 系統ESD1 的兩塊CPU 同時故障,安全網交換機存在故障報警,FGS系統正常,PCS系統正常?,F場更換安全網交換機后,斷電復位ESD系統,系統硬件運行正常,ESD系統程序運行正常。
2019年7月3日00:22,平臺ESD系統再次突然停機,導致平臺全部關停,造成上游平臺隨之關停。初步檢查原因也是ESD 系統ESD1 的兩塊CPU同時故障,此次關停時安全網交換機運行正常,FGS系統正常,PCS系統正常,可以排除交換機故障引起關停。斷電復位ESD 系統,更換ESD1 系統的兩塊CPU 卡件及背板,重新下載程序,系統硬件運行正常,ESD系統程序運行正常。
2019 年8 月27 日12:37,平臺中控ESD 系統又突然停機,導致本平臺和上游平臺第三次全部關停。檢查原因為ESD 系統ESD1 兩塊CPU 同時故障,造成ESD系統崩潰,導致整個生產關?!,F場FGS 系統正常,PCS 系統正常,可以初步認為ESD系統崩潰與CPU卡件硬件故障關聯不大。
對以下幾方面進行了現場研究和考察:系統供電及帶載能力分析;建立現場系統功率評估模型,評估系統功率;系統主備CPU 同時故障的概率與掃描周期的關系;研究一種油田ESD 系統不停產升級方法。通過搭建實驗測試系統,評估系統功率、調整程序掃描方式和控制帶載量對系統進行優化,并實際應用到現有系統,改善了系統的穩定性能,避免了故障的再次發生?,F場實驗系統搭建由2 塊CPU 卡件、10 塊AI 卡件、8 塊DI 卡件、12 塊DO卡件組成。
AADvance 系統所有卡件的工作電壓范圍均為18~32 V,常用電壓為24 V,而系統的最大IO數量與其使用的環境溫度存在一定的對應關系,如圖2中的黃色曲線。

圖2 系統在25 ℃環境溫度下帶載量與電壓關系示意圖Fig.2 Schematic diagram of the relationship between load capacity and voltage of the system at an ambient temperature of 25 ℃
平臺中控室常年溫度在25 ℃左右,圖中藍色區域為全部帶載4 W 的DI/AI 卡件的危險區分界,黃色區域為帶載50%DI/AI 卡,50%DO 卡(平均功率3.5 W的分界)的危險區分界,紅色區域為全部帶載DO卡件的危險區分界,通過簡單的顏色差別即可直觀判斷系統卡件配置是否安全。與廠家確認后,目前已經逐步把平臺AADvance 系統背板電壓從24 V 提升到28 V,把系統工作區域從黃色區移位到安全區,提升系統的穩定性。實驗測得在不同供電電壓下電壓與功率情況如表1所示,電壓與電流的對應關系如圖3所示,電壓與功率的對應關系如圖4所示。

表1 不同供電電壓下電壓和功率統計Tab.1 Voltageandpowerstatisticsunderdifferentsupply voltages

圖3 系統電壓與電流對應關系示意圖Fig.3 Schematic diagram of the corresponding relationship between system voltage and current

圖4 系統電壓與功率對應關系示意圖Fig.4 Schematic diagram of the corresponding relationship between system voltage and power
從此次實驗可以看出,通過調整供電電壓從24 V提升到30 V,系統供電電壓提升25%,供電電流降低17%,功率只上升了2.6%,系統帶載能力提升了17%。實驗證明了通過提高系統電壓、降低工作電流來提高系統負載能力的可行性。經現場實際應用,把目前的ESD 系統背板電壓從24 V 穩步提升到28 V,背板電流降低了13%。
ESD 系統的功率作為系統穩定性的重要指標,可以通過實驗和模型計算出其實際功耗和最大功耗。實驗在28 V 的穩定電源供電情況下(在用系統實際供電28 V),ESD 系統穩定在Run 工作模式時,首先去掉備I/O卡,再去掉主備I/O卡,測量并計算出每種類型的卡件工作狀態下的平均功耗。其中AI 卡或DI 卡的A/D 轉換功耗不受外接變送器等電流、電壓影響,DO 卡件對外供電由外部電源引入,不增加背板負載。實驗模型中DO卡件通道均未帶載設備,DO 卡的單個通道晶閘管的功耗按照陽極與門極100 倍放大倍數計算,由DO 卡件直接輸出的情況下,單通道最大驅動電流2A,單通道功耗24 V×2 A/100=0.48 W。通道外接繼電器時,單通道最小驅動電流30 mA,正常驅動電流40 mA。單通道驅動正常功耗24 V×0.04 A/100=0.009 6 W,8通道全部輸出為0.08 W。實驗數據見表2,DO卡件輸出結構如圖5所示。

表2 卡件功耗試驗記錄Tab.2 Power consumption test record of the card

圖5 DO卡件輸出示意圖Fig.5 Schematic diagram of DO card output
平均功耗計算:
式中:I1為去掉卡件前電流,A;I2為去掉備用卡件后電流,A;I3為主備卡件全去掉后電流,A;P1為單個備用卡平均功率,W;P2為主備用卡件平均功率,W;P3為卡件平均功率,W;V為供電電壓,V;N1為備用卡數量;N2為卡件數量。
通過表2可得出系統功率評估模型:
式中:X為CPU卡件數(T9110型);Y為AI卡件數(T9432型);Z為DI卡件數(T9402型);U為DO 卡件數(T9451 型);W為全部有輸出的通道數;P4為功率模型估算功率,W;P5為系統卡件額定功率,W。
根據現場實際安裝卡件類型及數量(DO 卡件輸出全部為繼電器輸出),假設DO 通道全部投用,ESD1 系統評估功率為109.21 瓦特,額定功率為174 瓦特;ESD2 系統評估功率為110.14 瓦特,額定功率為172 瓦特?,F場實際測量ESD1 系統電流3.79 A,電源輸出28 V;ESD2 系統電流3.76 A,電流輸出28 V。具體測量參數見表3。

表3 功率模型評估與實測功率Tab.3 Power model evaluation and measured power
通過對實驗系統的主備卡件進行插拔,測量在不同情況下的電流值,測算推導系統的功率評估模型。經過對現場系統測量,證明該模型評估功率與實際測量功率較為接近,此模型評估有效。系統評估功率仍有近40%的安全余量,由此可說明系統故障停機與系統是否超過額定功率無關。此功率評估模型可為其他油田AADvance 系統功率評估提供參考。
根據現場設備實際應用情況,重點研究ESD系統在Trigger cycle 模式下,主備CPU 同時故障停機的概率與持續超過CPU 的掃描周期設定值之間的關系[4]。通過在實驗系統上復現停機故障,統計停機概率來評估該模式導致CPU 同時停機的可能性。系統掃描模式如圖6所示。

圖6 系統掃描模式示意圖Fig.6 Schematic diagram of system scanning mode
本次實驗將ESD 系統置于Trigger cycle 模式,通過調整程序大小使CPU 實際掃描周期穩定150 ms,在Trigger cycle 模式中分別把周期設置為100 ms、160 ms、200 ms的情況下,對CPU超時次數、Healthy報警和死機情況進行記錄。經過2周運轉,發生超時次數1 021次,在超過200次后,CPU卡件的狀態燈Healthy 燈亮紅燈;但是2 周內并未發生主備CPU 同時故障停機,運行1 個月后發現1次單CPU 故障的情況,說明在該模式下系統存在CPU故障停機風險。
經過不斷調整Trigger Cycle 模式的設定周期,確定在使用該模式時,必須使Trigger Cycle 的設定時間是實際掃描周期的2 倍以上時,也就是負荷(CPU掃描周期/設置的掃描周期)低于50%的情況下,才能確保不發生掃描超時問題。目前ESD1 的CPU 掃描時間為180~470 ms,最長時達到750 ms,比出廠時要求的200 ms 偏高。同時對ESD2,FGS1及FGS2 控制器日志進行了分析檢查,實際掃描時間分別為141 ms、152 ms、153 ms,不存在超時現象。
AADvance 系統廠家開發了不少標準化模塊,但是在使用過程中發現,為了實現標準化,模塊里面70%以上的功能是油田的ESD系統不需要的,這些多余的功能占據了CPU大量的工作時間。ESD系統在建造招標時,一般的掃描周期要求為300 ms以內,系統負荷不超過50%。但是該要求未考慮到中心平臺普遍存在的后期新加卡件問題,未預留足夠冗余量。目前平臺的5 套AADvance 系統CPU 都是400M 主頻,掃描周期普遍在120~160 ms 之間,其主要原因就是程序優化程度不夠,未達到ESD系統快速穩定邏輯判斷的要求。
在本次實驗中,通過不斷調整Trigger cycle 模式下的掃描周期設定值,證明了CPU 的掃描周期在持續超過設定值時,系統將存在CPU 故障停機風險。通過對程序的DO、DI 模塊進行優化,盡量減少子程序的數量,精簡模塊的處理功能,用更簡單和巧妙的方法實現邏輯的自鎖等操作。最終實驗結果可以把實驗CPU 的掃描周期從150 ms 減少到120 ms以下,減少20%的CPU負荷。
ESD 系統作為油田安全生產的重要安全屏障,一般設置為故障安全型,即CPU 停機或者離線下載程序,都會導致整個油田所有設備關停。但是在油氣生產過程中,ESD系統不可避免地要進行增加卡件、調整程序結構等操作,大多數情況下這些操作都要求CPU停機才能進行。
在油田不停產進行相關操作時,需要對現場設備ESD關停信號進行旁通處理,包括對關斷閥手動強制打開,配電柜跳電信號硬線旁通、上下游油田的連鎖信號進行旁通處理等,這些都需要大量的準備工作,而且在功能強制到功能恢復的時間內,存在SIS 系統長時間失效的風險。本次實驗對這個問題進行了相關總結,提出了2個減少停產損失、提高維修效率的關鍵方法。
2.4.1 DO卡設置為故障保持
把AADvance 系統DO 卡件通道設置為故障保持即DO卡件通道的Hold Last State狀態,這樣可以在CPU 故障停機或DO 卡件故障的過程中,保證DO 卡件輸出不變,為后續應急處理爭取時間。而在系統正常工作時,不影響程序運行產生的邏輯關停,DO 卡件通道可以正常輸出[5]?,F場中控為24小時有人值守,在中控組態畫面對卡件進行狀態監控,如有DO卡件發生故障報警可及時通知維修人員處理。如果發生緊急情況,可以采用立即對ESD機架電源斷電的方法,實現平臺的一級關停,也可對部分卡件的斷電實現分級關停。但是該方法在AAdvance的CPU故障重啟或停機重啟后DO卡上電過程中存在閃跳問題,需要配合方法2使用。
2.4.2 DO卡件的輸出繼電器選型為可強制型
將ESD 系統所有輸出到現場的DO 點都增加可強制繼電器,在需要離線程序下載前把繼電器打到強制狀態進行旁通,即可短時間內完成ESD信號的旁通和恢復[6]。CPU 故障停機后對保持住的DO 點進行繼電器強制,系統正常啟動后再對繼電器強制功能進行釋放,這樣即可實現不停產離線下載。建議在招標階段要求ESD系統輸出使用可強制型繼電器,在油田現場使用信號旁通體系對該繼電器的旁通加強管理。
在本次實驗中,通過對DO 卡件的故障保持狀態的設置與輸出繼電器的功能強制,實現了實驗系統在不停產情況下離線下載程序。在現場實際作業過程中,通過加強現場監管與安全風險分析等人為控制方式,與本方法配合成功實現了SIS 系統的不停產升級。
針對ESD 系統主備CPU 同時故障問題,提出搭建實驗測試系統的方法,通過評估系統功率、調整程序掃描方式和評估帶載量等手段對系統進行優化。實驗系統進行測試后運用到現場的系統,提升了ESD系統工作的穩定性,成功避免了ESD系統主備CPU 同時故障停機造成的生產關停,保障了現場的安全生產,也節約了對SIS 系統更換的時間成本和資金成本。平臺ESD系統穩定性提升后,2020年初至今未再次發生主備CPU 同時故障停機問題。相比2019年,直接提升生產時效3 h,減少停產原油產量損失1 500 m3,降低直接經濟損失300 萬元。此次問題的解決也為國內其他油田控制系統類似問題的解決提供了一種新的思路。
本文所使用的實驗方法在解決ESD 系統主備CPU同時故障停機問題上取得了良好的效果,但控制系統穩定性還存在提高的空間。下一步需要研究何進一步優化程序縮短掃描時間、減少系統故障率,從而達到安全、穩定生產的目的。