李學(xué)偉,姚常青,高 嵩
(1.華電章丘發(fā)電有限公司,濟(jì)南 251200;2.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院,濟(jì)南 250003)
MaxDNA控制系統(tǒng)DPU頻繁切換導(dǎo)致機(jī)組跳閘故障分析
李學(xué)偉1,姚常青2,高 嵩2
(1.華電章丘發(fā)電有限公司,濟(jì)南 251200;2.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院,濟(jì)南 250003)
對(duì)一起335 MW機(jī)組MaxDNA控制系統(tǒng)DPU(分布式處理單元)頻繁切換導(dǎo)致機(jī)組跳閘的故障進(jìn)行分析,通過(guò)進(jìn)行切換試驗(yàn)、故障統(tǒng)計(jì),對(duì)比DPU版本號(hào)和查閱MaxDNA系統(tǒng)硬件手冊(cè),發(fā)現(xiàn)該切換故障是由DPU本身硬件缺陷所導(dǎo)致的。制定解決方案對(duì)相應(yīng)的DPU模塊進(jìn)行更換,有效地防止了該類(lèi)型故障的發(fā)生。
機(jī)組跳閘;分散控制系統(tǒng);分布式處理單元;頻繁切換
1.1 系統(tǒng)組成
華電章丘發(fā)電有限公司二期工程建設(shè)2臺(tái)350 MW機(jī)組,機(jī)組分散控制系統(tǒng) (Distribution Control System,DCS)采用MaxDNA系統(tǒng)。3號(hào)機(jī)組和4號(hào)機(jī)組分別于2006年8月和2006年11月相繼投產(chǎn)。
MaxDNA系統(tǒng)的結(jié)構(gòu)如圖1所示。MaxDNA的網(wǎng)絡(luò)結(jié)構(gòu)取消了過(guò)程級(jí)控制和監(jiān)督級(jí)控制之間的區(qū)分,把兩者的控制組建在了同一層網(wǎng)絡(luò)拓?fù)渲?,稱(chēng)之為MaxNet通信網(wǎng)絡(luò)。MaxNet通信網(wǎng)絡(luò)采用符合IEEC802.3的雙層以太網(wǎng)介質(zhì)、物理星型、邏輯環(huán)型拓?fù)洌哂腥哂嗤ㄐ殴δ堋axNet的網(wǎng)絡(luò)帶寬可達(dá)1 G bit/s,足以勝任大型控制系統(tǒng)的通信負(fù)載要求,直連在MaxNet網(wǎng)絡(luò)上的有工作站和DPU,共享MaxNet帶寬。工作站與DPU之間的數(shù)據(jù)通信不需要服務(wù)器中轉(zhuǎn),可以直接點(diǎn)對(duì)點(diǎn)(DPU與DPU之間)或通過(guò)廣播 (工作站與工作站或工作站與DPU之間)進(jìn)行數(shù)據(jù)通信[1-2]。每1臺(tái)工作站或1個(gè)DPU在MaxNet網(wǎng)絡(luò)看來(lái)都是1個(gè)結(jié)點(diǎn)(Node),也就是MaxDNA取消了過(guò)程級(jí)控制和監(jiān)督級(jí)控制之間的區(qū)分,解決了這兩層控制層之間存在的服務(wù)器瓶頸問(wèn)題。
3號(hào)機(jī)組DCS由25對(duì)DPU構(gòu)成 (含2對(duì)公用系統(tǒng)),4號(hào)機(jī)組DCS由23對(duì)DPU構(gòu)成,軟件版本為DPU4F 4.3,操作員站各7臺(tái),歷史站各1臺(tái),工程師站各1臺(tái)。各對(duì)DPU功能分配如表1所示。
正常情況下,每對(duì)分布式處理單元的2臺(tái)DPU同時(shí)運(yùn)行,1臺(tái)工作1臺(tái)熱備用。當(dāng)主DPU故障時(shí)將自動(dòng)切換到副DPU運(yùn)行,副DPU將接管網(wǎng)絡(luò)和I/O系統(tǒng)。主、副DPU通過(guò)組態(tài)來(lái)選擇,一對(duì)DPU中任何一個(gè)都可以作為主控制器。如果檢測(cè)到重大的診斷錯(cuò)誤,控制權(quán)將自動(dòng)傳給副控制器。DPU可以下載變化的數(shù)據(jù)并無(wú)擾傳給組態(tài)。組態(tài)的下載可以是整個(gè)控制策略也可以是一個(gè)單獨(dú)的點(diǎn)。完全面向?qū)ο蟮脑O(shè)計(jì)允許對(duì)控制策略的數(shù)據(jù)進(jìn)行封裝以防止在下載和測(cè)試過(guò)程中由于疏忽引起的擾動(dòng)。

圖1 MaxDNA系統(tǒng)結(jié)構(gòu)

表1 DPU功能分配
1.2 系統(tǒng)故障情況
2014-07-19T02∶10∶14,4號(hào)機(jī)組A引風(fēng)機(jī)和B引風(fēng)機(jī)動(dòng)葉調(diào)節(jié)指令由48%突減至18%(引風(fēng)機(jī)動(dòng)葉調(diào)節(jié)指令自動(dòng)時(shí)低限設(shè)置為18%,手動(dòng)時(shí)低限設(shè)置為0%),動(dòng)葉調(diào)節(jié)開(kāi)度減小,引風(fēng)機(jī)出力降低,爐膛壓力升高,達(dá)到跳閘值,鍋爐MFT。期間4號(hào)機(jī)組參與引風(fēng)機(jī)自動(dòng)控制運(yùn)算的BO6副DPU控制故障,向主DPU自動(dòng)切換。查閱DCS引風(fēng)機(jī)系統(tǒng)控制器4B06_P在線(xiàn)組態(tài)數(shù)據(jù),參與控制器間調(diào)用的中間變量信號(hào)間通信故障報(bào)警,無(wú)法讀取其余控制器的變量,通過(guò)切換實(shí)驗(yàn)初步判斷為DPU故障。
1.3 故障測(cè)試
由于DCS系統(tǒng)采用的是MaxDNA早期產(chǎn)品,存在網(wǎng)絡(luò)通信故障的隱患[3-4]。2012年和2014年利用機(jī)組檢修的機(jī)會(huì),委托DCS廠(chǎng)家先后對(duì)4號(hào)、3號(hào)機(jī)組DCS控制系統(tǒng)進(jìn)行了升級(jí),更換了上位機(jī)硬件,DPU軟件版本由4.1升級(jí)到4.3,控制器(DPU)硬件未進(jìn)行更換,升級(jí)后各項(xiàng)功能正常,切換試驗(yàn)正常。系統(tǒng)升級(jí)后,通過(guò)運(yùn)行一段時(shí)間的觀察,DPU切換次數(shù)較升級(jí)前明顯增多。問(wèn)題發(fā)生后,對(duì)DPU頻繁切換的原因進(jìn)行了分析,并將故障DPU返廠(chǎng)進(jìn)行進(jìn)一步測(cè)試,分別進(jìn)行3種切換方式試驗(yàn)。1)復(fù)位切換:復(fù)位主控制器,則輔助控制器應(yīng)接管運(yùn)行,然后復(fù)位輔助控制器,則主控制器接管運(yùn)行;2)拔卡切換:拔掉主控制器,則輔助控制器應(yīng)接管運(yùn)行,然后拔掉輔助控制器,則主控制器接管運(yùn)行;3)畫(huà)面軟件切換:在控制器監(jiān)控畫(huà)面中,選擇輔助控制TAKEOVER按鈕,點(diǎn)確認(rèn),則輔助控制器接管運(yùn)行。在控制器監(jiān)控畫(huà)面中,選擇主控制器TAKEOVER按鈕,點(diǎn)確認(rèn),則主控制器接管運(yùn)行,每次都切換正常。在測(cè)試過(guò)程中,DPU工作正常未出現(xiàn)網(wǎng)絡(luò)通信故障或DPU切換故障。為了徹底排除靜電干擾,增設(shè)了獨(dú)立的DCS接地極和接地電纜并經(jīng)測(cè)試合格。
1.4 故障影響
自2014年2月至2015年1月,3號(hào)、4號(hào)機(jī)組共發(fā)生DPU切換45次,其中3號(hào)機(jī)組23次、4號(hào)機(jī)組22次,DPU切換相當(dāng)頻繁,且不具有周期性和規(guī)律性。DPU頻繁切換增大了控制器故障的概率。DPU頻繁切換的主要風(fēng)險(xiǎn)有:一旦主控制器異常切換副控制器失敗時(shí),相關(guān)的所有參數(shù)將無(wú)法顯示,設(shè)備無(wú)法操作;而當(dāng)主控制器切換后,接管的副DPU故障時(shí),也可能造成切換不成功控制器內(nèi)部保護(hù)信號(hào)的翻轉(zhuǎn)或者模擬量指令的跳變,造成保護(hù)誤動(dòng),重要輔機(jī)跳閘甚至機(jī)組跳閘。如:2011-12-28T09∶16,3號(hào)爐C磨煤機(jī)跳閘,首出原因?yàn)?“一次風(fēng)機(jī)全?!?。C1、C2給煤機(jī)連鎖跳閘,就地檢查3號(hào)爐C磨煤機(jī)電機(jī)開(kāi)關(guān)無(wú)報(bào)警信號(hào)。檢查歷史趨勢(shì)發(fā)現(xiàn)從09∶14中斷2 min,查看DCS系統(tǒng)狀態(tài)中3F03控制器狀態(tài),發(fā)現(xiàn)3F03主控制器在09∶14重啟復(fù)位。檢查磨煤機(jī)跳閘邏輯,3F03控制器調(diào)用的一次風(fēng)機(jī)關(guān)反饋的初始值為1,即在控制器重啟復(fù)位時(shí),默認(rèn)初始值,一次風(fēng)機(jī)全停信號(hào)被誤發(fā)出來(lái),C磨煤機(jī)跳閘。主控制器故障復(fù)位,由于控制器軟件版本較低,副DPU切換不成功。
針對(duì)DPU頻繁切換的情況,通過(guò)深入分析現(xiàn)場(chǎng)的一些故障信息與現(xiàn)象,基本上可以確定DPU切換是由DPU故障[5-7]造成的,DPU4F所采用的CPU芯片存在相應(yīng)的缺陷(BUG)。
DPU4F的CPU采用AMD公司的GeodeSC2200。早期的DPU4F采用D3版本的GeodeTMSC2200,D3版本的CPU由于存在相應(yīng)不足,后來(lái)經(jīng)過(guò)AMD公司的改進(jìn),GeodeTMSC2200升級(jí)到D3.3版,在CPU升級(jí)后,DPU4F也采用D3.3版本的CPU。D3.3與D3版的一個(gè)重要升級(jí),修復(fù)了存在于D3版本中嚴(yán)重BUG。關(guān)于這個(gè)BUG,AMD官方有一個(gè)文檔描述[3-5],具體如下。
異步事件的具體調(diào)整導(dǎo)致宕機(jī)
說(shuō)明:如果CPU取指令跨越了頁(yè)邊界,并導(dǎo)致tablewalk,PCI總線(xiàn)主控事件,中斷事件發(fā)生在一個(gè)非常具體的調(diào)整;CPU可能出現(xiàn)宕機(jī)。
含義:這個(gè)宕機(jī)的概率是非常小的。根據(jù)長(zhǎng)期以非常極端的負(fù)載條件測(cè)試微軟WindowsXP和Linux操作系統(tǒng)內(nèi)核2.4.17版本及以上的版本,宕機(jī)現(xiàn)象已經(jīng)被觀察到。而這種危險(xiǎn)應(yīng)該也在其他操作系統(tǒng)存在,只是故障還沒(méi)有被觀察到。
解決方法:無(wú)。宕機(jī)的概率有可能通過(guò)減少的IRQ和/或SMIs的頻率被降低??偩€(xiàn)一次掌管高速緩存行大小(8字節(jié)),而不是更少的量,這樣也將減少宕機(jī)發(fā)生的概率。
通過(guò)上述說(shuō)明可以看出當(dāng)CPU在某種情況下,會(huì)出現(xiàn)宕機(jī)現(xiàn)象。雖然發(fā)生這種宕機(jī)的概率較小,但當(dāng)計(jì)算負(fù)荷大且測(cè)試時(shí)間足夠長(zhǎng),這種宕機(jī)現(xiàn)象是確實(shí)存在的。
因此可以判斷,當(dāng)DPU運(yùn)行時(shí)間較長(zhǎng)后,D3版本中存在的這個(gè)BUG就可能導(dǎo)致該DPU發(fā)生宕機(jī),如果此時(shí)該DPU的狀態(tài)正是Active時(shí),由于Active DPU已不能產(chǎn)生相應(yīng)的心跳信息,那么此時(shí)就會(huì)發(fā)生切換,另一個(gè)DPU就會(huì)進(jìn)行接管。該DPU的心跳信號(hào),與發(fā)生宕機(jī)時(shí)會(huì)出現(xiàn)的現(xiàn)象非常吻合。另外從全廠(chǎng)所有的DPU來(lái)看,一個(gè)月內(nèi)會(huì)發(fā)生一次DPU的切換,然而根據(jù)用戶(hù)報(bào)告,發(fā)生切換的DPU并不是同一個(gè),即這次切換是這個(gè)DPU,下次是另一個(gè)DPU,可以看出這種情況只有在DPU運(yùn)行時(shí)間足夠長(zhǎng)的時(shí)候才會(huì)出現(xiàn),因此與AMD官方文檔的描述也基本吻合。由于這個(gè)問(wèn)題,牽涉到CPU底層的硬件問(wèn)題,單獨(dú)的軟件修復(fù)解決這個(gè)問(wèn)題的可能性不大,因此唯一的辦法就是更換DPU,徹底解決D3版本的GeodeTMSC2200所存在的這個(gè)BUG。最后確定徹底解決這一問(wèn)題的方法就是硬件升級(jí)和更換新的DPU卡件徹底替換掉那一批DPU,特別是計(jì)算負(fù)荷大的DPU要優(yōu)先更換。
DCS廠(chǎng)家研發(fā)人員對(duì)現(xiàn)場(chǎng)情況進(jìn)行檢查,2013年脫硝DPU連續(xù)運(yùn)行2年多未發(fā)生切換的情況基本確定頻繁切換的原因?yàn)镈PU本身硬件存在BUG造成。
利用機(jī)組調(diào)停的時(shí)間,首先對(duì)4號(hào)機(jī)組的部分DPU進(jìn)行了更換和調(diào)整。利用現(xiàn)有的4塊全新的備品以及后上系統(tǒng)(脫硝系統(tǒng)、4B塔脫硫系統(tǒng)、脫硝空壓機(jī)系統(tǒng))DPU為2005年以后的產(chǎn)品,不存在設(shè)計(jì)漏洞。對(duì)10塊DPU進(jìn)行了調(diào)換,通過(guò)對(duì)低版本升高版本以及將相對(duì)重要性差一點(diǎn)或者輔助運(yùn)行的高版本DPU更換到相對(duì)重要的主DPU運(yùn)行各5塊。這樣4號(hào)機(jī)組23對(duì)DPU中保證有16對(duì)DPU的主運(yùn)行DPU為高版本DPU,低版本的DPU作為熱后備使用;2015年9月15日對(duì)3號(hào)機(jī)組DCS系統(tǒng)DPU升級(jí),更換DPU 8對(duì),DPU軟件升級(jí)為MR版,運(yùn)行情況正常,至此所有整改措施完成,這個(gè)結(jié)果與能夠大幅的降低DPU頻繁切換的次數(shù)的分析相符合,也進(jìn)一步證明了DPU頻繁切換確是由于2004生產(chǎn)的DPU存在BUG的推斷,隨著DPU全面升級(jí)計(jì)劃(考慮電子元器件壽命)的實(shí)行,故障得到徹底解決。
對(duì)一起335 MW機(jī)組MAXDNA系統(tǒng)DPU頻繁切換導(dǎo)致機(jī)組跳閘的故障進(jìn)行分析,通過(guò)切換試驗(yàn)、故障統(tǒng)計(jì)、對(duì)比DPU版本號(hào)和查閱MAXDNA系統(tǒng)硬件手冊(cè),發(fā)現(xiàn)該切換故障是由DPU本身硬件BUG所導(dǎo)致的,并制定了相應(yīng)的解決方案對(duì)相應(yīng)的DPU模塊進(jìn)行了更換,實(shí)際運(yùn)行中大大降低了DPU的切換次數(shù),4號(hào)機(jī)組運(yùn)行近一年多時(shí)間、3號(hào)機(jī)組運(yùn)行近半年的時(shí)間內(nèi)未發(fā)生DPU頻繁切換的故障,取得了預(yù)期的效果。在現(xiàn)場(chǎng)設(shè)備維護(hù)過(guò)程中DPU頻繁切換是一種異常狀態(tài),是機(jī)組跳閘的先兆,一旦發(fā)現(xiàn)一定要找出真正原因并徹底解決,徹底消除控制系統(tǒng)安全隱患。
除了要加強(qiáng)設(shè)備巡檢維護(hù),對(duì)電源電壓經(jīng)常檢測(cè)灰塵清理和接地檢查外,建議廠(chǎng)家完善對(duì)DPU運(yùn)行狀態(tài)的監(jiān)視功能,提高DPU切換及故障報(bào)警級(jí)別,運(yùn)行過(guò)程中主DPU要時(shí)刻監(jiān)測(cè)副DPU的心跳信號(hào)和網(wǎng)絡(luò)狀態(tài),發(fā)現(xiàn)異常語(yǔ)音報(bào)警同時(shí)對(duì)副DPU進(jìn)行隔離,一旦此時(shí)主DPU也發(fā)生故障將不再進(jìn)行切換,而是根據(jù)實(shí)際情況模擬量保持安全值、開(kāi)關(guān)量保持原狀態(tài)。
[1]何滔.MaxDNA集散控制系統(tǒng)故障分析[J].電工技術(shù),2013(3):50-51.
[2]曹曉雨.國(guó)電智深DCS系統(tǒng)DPU異常切換的處理[J].電子技術(shù)與軟件工程,2015(24):134.
[3]楊麗.MaxDNA分散控制系統(tǒng)的分析與探討[J].儀器儀表用戶(hù),2012,19(1):88-91.
[4]曹光偉.MaxDNA分散控制系統(tǒng)在安慶電廠(chǎng)的應(yīng)用[J].電力建設(shè),2008,29(3):88-90.
[5]吳科,馬振華,朱能飛,等.國(guó)產(chǎn)MaxDNA大型分散控制系統(tǒng)在1 000 MW機(jī)組一體化控制中的應(yīng)用[J].華電技術(shù),2015,37(8):6-9.
[6]陳建.新華DCS系統(tǒng)DPU頻繁切換故障的處理[J].寧夏電力,2011(5):47-48.
[7]何滔,張宇飛.MaxDNA集散控制系統(tǒng)在火力發(fā)電廠(chǎng)中的應(yīng)用[J].工業(yè)控制計(jì)算機(jī),2013,26(7):6-7.
[8]陳珍順.DCS系統(tǒng)DPU網(wǎng)絡(luò)故障導(dǎo)致操作失控案例分析[J].內(nèi)蒙古電力技術(shù),2015,33(1):94-97.
Fault Analysis of Unit Trip Caused by DPU Frequent Switching of MaxDNA System
LI Xuewei1,YAO Changqing2,GAO Song2
(1.Huadian Zhangqiu Corporation,Zhangqiu 251200,China;2.State Grid Shandong Electric Power Research Institute,Jinan 250002,China)
A unit trip fault caused by DPU frequent switching of MaxDNA system in a 350 MW power unit is analyzed.The switch fault is found to be caused by the DPU hardware bug through analyzing the switching test and fault statistics,contrasting the DPU version number and consulting the MaxDNA system hardware manual.The corresponding solution is formulated,and the corresponding DPU module is replaced,which effectively prevents the occurrence of the fault.
unit trip;distribution control system (DCS);distribution processing unit(DPU);frequent switching
TM621.6
B
1007-9904(2017)03-0070-04
2016-09-11
李學(xué)偉(1967),男,高級(jí)工程師,從事發(fā)電廠(chǎng)熱工控制系統(tǒng)維護(hù)工作。