王曉嬌
(山東核電有限公司,山東 海陽 265116)
設備故障、人因失效、質量問題、不當維修及操作、組織管理問題等在核電站的運行中是需要引起足夠重視的問題。如何通過一種系統、正規的、邏輯的方法找出問題所在,對故障的每個環節都加以分析,最后加以綜合整理,得出問題根本原因,從而有針對性的制定出出合理的糾正性行動,消除問題產生的根本原因,防止相同或類似的問題重復發生,這就需要用到根本原因分析技術(Root Cause Analysis,RCA),這是我們使用RCA的目的所在。
美國Vogtle核電站從建造階段開始就非常重視對于設備故障、組織管理問題、人因失效、系統異常等的分析,通過多年的摸索和經驗積累,逐步建立了一套完整的根本原因分析組織管理體系,使用TapRooT 公司開發的根本原因分析技術,同時也使用其它類型的RCA技術,對出現的重大問題(或反復出現的問題)進行根本原因分析,制定糾正措施,對結果進行有效性審查,保證了設備系統的安全可靠運行,促進了管理的改進,提升了電站性能。
Vogtle電站在績效改進部 (Performance Improvement Department)下設RCA組,有3名專業工程師專門從事根本原因分析工作。根據Vogtle電站狀態報告分級,SL1級的CR需要對其進行根本原因分析;RCA小組采取項目組的形式管理,由根本原因主管經理直接領導;RCA小組的組長及成員由根本原因管理層指定,取決于被調查的項目,組員的來源如下,以便于對需處理的狀態有一個全面、徹底的分析。
(1)專業問題專家
(2)當事部門
(3)受糾正性行動影響的部門
(4)培訓部

圖1 RCA組織機構
進行根本原因分析要使用一種或多種正規的根本原因分析技術,在不同的工業領域使用的根本原因分析技術有1300多種,對于不同的事件各種技術都有自己的優缺點。在Vogtle電站,使用了8中根本原因分析技術,分別是:
(1)屏障分析法
(2)變更分析法
(3)事件&病原分析法
(4)故障樹分析法
(5)Kepner-TregoeTM(KT)問題分析法
(6)風險樹分析法
(8)人因差距分析法
應用上述技術,可以對事件進行評估,確定根本原因,給出適合的解決辦法防止事件重復發生。如前所述,可以使用的RCA技術不僅限于這8種,但是這8種方法是經過驗證的、在工業領域廣泛采用的方法,使用這些方法,可以對技術問題、管理缺陷、設備故障、人因失效等不同類型的問題進行評估分析。在某些情況下,使用單一一種技術就能確定根本原因,但是經驗證明在大多數情況下,如果要確定事件的根本原因,需要多種RCA技術配合使用。
進行根本原因分析所采取的一系列有關聯的活動,取決于在根本原因調查階段遇到的具體情況。經驗表明,通常調查、分析以及報告編寫過程是一個反復的過程,而非按次序一步一步進行到底的。如下圖所示,進行根本原因調查分為三個階段。直到原因被確定了才能采取糾正性行動。

圖2RCA過程
Vogtle核電站的狀態報告CR分為4級,分別為SL1、SL3、SL4、SL5,其中對SL1級的CR進行根本原因分析。(注:SL1級CR:對電站安全、公眾/個人安全、電站運行有重大影響的事件,在CAPCO會議上確定CR等級。)
當一個狀態被確定需要進行RCA時,就開始進行根本原因調查;當RCA的結果被電站管理層批準,糾正性行動發布后,根本原因調查過程結束。
管理層指定根本原因主管經理來組織及管理整個過程。SL1級的事件需要進行根本原因調查,由事件審查小組來執行。該小組的成員包括:組長、有資質的分析員、專業問題專家。取決于事件的風險和重要程度,可能需要一個由管理層直接領導的事件獨立審查小組來。
3.3.1 問題描述
分析員和組長使用如下導則對問題進行界定并描述。問題描述需經根本原因管理層的討論和同意。
1)與當事人交流,獲得初步信息,對被感知的問題以及由該問題導致的后果有一個初步的了解。被感知的問題不可能總是反映實際發生的問題,但是它可能是實際發生問題的表征。
2)進行問題描述,需要考慮以下要素:
(1)恰當的問題描述,由三個要素組成:
①來源
②狀態
③結構
(2)明確是什么發生了問題(而不是為什么發生了問題),其目的是明確該問題僅限于某一設備或狀態(但是也可能適用于其它相同或類似的設備或狀態)。
(3)明確問題的不利影響和后果以及后果的嚴重程度。
(4)確保問題描述只包含1個問題;
(5)不要將問題描述與后果相混淆;
(6)不要將問題描述與糾正性行動相混淆;
(7)在調查過程中,持續使用問題描述以保證關注點不偏移。
3.3.2 取決于被調查問題的重要性,RCM應就技術根本原因評估的獨立審查給出一個初期的定性
例如,如果設備的失效牽涉到一系列非常少見的工況或非普遍的失效模式,而不像那些在之前發生過并被成功修復故障,那么進行獨立審查就是必要的。由于現有技術資源的局限性,確定故障模式的起因會受到限制。
3.4.1 為了避免發生下列問題,要馬上開始進行調查
1)證據(物證或書面證據)遺失(如硬件、記錄文件、計算機信息等);
2)當事人和目擊者的第一手報告隨著時間的流逝會發生改變(由于壓力、記憶力下降等);
3)相似的問題可能重復發生。
3.4.2 現場保護
為了進行現場保護而采取的一系列行動可能有所不同,包括但又不限于以下所列:
1)延遲現場清掃;
2)在由于清潔導致信息丟失或消除前獲取信息;
3)采取照相、錄像等手段記錄現場;
4)與事故相關的重要材料,如實記錄發現它時的狀態;
5)記錄事件目擊者或參與者的名字;
6)收集與當事人對于其所參與活動的陳述;
7)盡早對當事人進行面談,最好在輪班結束之前進行;
8)在與事件有關的設備/構筑物/部件拆除前采集圖像,圖像要有比例尺和方位顯示。
3.4.3 盡早進行實物證據的收集
為了進行實物數據的收集而采取的一系列行動可能有所不同,包括但又不限于以下所列:
1)對拆除的每個階段連續拍照記錄,內容有劃痕、褪色、尺寸、方位等;
2)對失效設備進行保護(保持原狀,便于后續分析);
3)不要對斷裂面、涂層、潤滑油等做任何改動;不要對失效設備進行去污、清掃等操作;如果需要對取樣進行化學分析,帶上干凈的手套;
4)將失效部件分開裝袋,標明設備名稱、編號、日期等;
5)將物品移至受控區域存放,防止竄改或丟失;
6)收集樣品:
(1)潤滑油或冷卻劑
(2)涂層、涂料
(3)灰燼或其它降級的材料
7)拷貝可能有關聯的文件
(1)工作包
(2)值班日記
(3)計算機數據,帶狀記錄紙等
3.4.4 保證客觀性,避免武斷地得出結論
最重要的是對事實進行證明,而不是做出假設。例如:你不能假設工人使用了程序,或按照規定執行了程序,或操縱員聽到了報警記錄儀上記錄的報警;同樣,你也不能假設通過電話給出的指令被接聽者聽到并理解了。要確保記錄的所有事實得到證明,所有假定有清楚的指示。
3.4.5 必要的時候,考慮進行實驗室試驗,獲取破壞性/非破壞性故障分析結果,邀請廠內/廠外專家參與;就評估代價VS收益進行判斷
記住:所有的人因事件都是由人的錯誤引起的。但也要避免把所有的故障根本原因都歸結于人因,而是要找到錯誤最根本的原因。
3.5.1 調查事實
這一步進行的調查所獲取的信息要用于下一步如何“分析結果”。
1)調查的開始有時是很困難的,下列技巧有助于工作的開展:
(1)確定本應該存在的屏障;
(2)確定初始行動;
(3)確定故障先兆;
(4)確定本應該提供保護的防御物/措施;
(5)確定適當的目標、策略及程序;
(6)確定Error是活躍的還是潛伏的;
(7)如果Error是活躍的,任務的執行需要技巧、規則或相應的知識嗎?
(8)涉及到什么樣人類工程學因素(Human engineering factor)?
(9)什么樣的人因工具是適用的(在故障時)?
(10)考慮使用“紙上談兵”式的分析;
2)進行數據及文件審查;
3)與當事人面談;
4)進行人因審查;
5)搜索有關系的 CR/OE(condition report/operating experience);
6)從初步調查中,要明確要附加信息的方面(領域):
(1)明確證據的關鍵部分(如失效部件、日志等),應對其進行面試的關鍵人員;
(2)關鍵人員是那些對事件有了解和經驗的人,在根本原因評估過程中要對其進行面談,包括:
①事件現場的人員;
②控制室或C&T辦公室的人員;
③事件發生后去過現場的人;
④在調查階段也要明確其他的關鍵人員,分析員要保證對這些人也進行了面談,列在根本原因報告中。
7)進行附加調查,通過多種渠道來證實當事人的陳述。從多種渠道收集信息,與關鍵人員面談。
3.5.2 分析結果
分析結果的過程是一個整合全部信息的過程,通過正規的根本原因分析方法(如事件-起因圖表、K-T問題分析法、MORT)來確定“為什么”事件會發生。
1)確定是否需要更多的信息或后續的調查,直到調查結束。調查的過程是一個“迭代”過程,新的數據及證據都要整合到分析中去。分析員(或整個小組)要對以下所列進行追蹤:
(1)所有事件的進展;
(2)所有證據的來源;
(3)所有結論的理由;
(4)所有假設的基礎;
(5)所有文件的來源;
2)將附加信息添加到已經獲得的證據及相關的事實中去;
3)保持所有信息的條理性,便于在調查中檢索;
4)將根本原因調查報告作為質量記錄保存起來,調查中收集到的支持信息要保存5年左右的時間。
3.5.3 進行調查
分析結果來確定“為什么”事件會發生。
1)對收集到的信息進行分析直到:
(1)起因在SNC的控制范圍之外;
(2)再沒有其它的起因來解釋事件的結果了。分析員要對每一個發生的問題問“為什么”直到所有的“為什么”都有了令人滿意的解釋。例如,調查的問題為“截止閥泄漏”,調查者應該詢問:
①“截止閥為什么泄漏?”
②因為該閥門沒有正確的密封。
③“為什么閥門沒有正確的密封?”
2)根本原因方法總結文件定稿(如E&CT圖表,K-T報告等);
3)確定恰當的原因編碼(根本原因和因果因子);
4)解決所收集的文件中相互沖突的信息(如日志、面談記錄等);
5)確認新的信息不會使得出的結論發生改變。
6)如果出現了根本原因不明確的狀況,那么:
(1)解釋為什么沒有確定根本原因的依據;
(2)描述難以獲得的用來確定根本原因的信息;
(3)描述為了確定根本原因,哪些進一步行動是必要的;
(4)明確可能的起因;
(5)提供證據來支持所闡明的可能的起因。
3.5.4 進行廣泛性(Broadness)審查
1)進行狀態程度及起因程度審查 (Extent Of Condition/Extent Of Cause);
2)重復事件評估(NMP-GM-002-GL03):如果該問題或相似的問題以前在電站、集團公司或工業領域發生過,就要對為什么沒有被預防進行評估;
3)進行安全文化評估(NMP-GM-002-F24)。
4)組織及程序審查(NMP-GM-002-F08)。
3.5.5 根本原因證實
對問題的真實根本原因進行證實。
1)使用如下標準對原因進行證實:
(1)如果根本原因不存在的話,該問題不會發生。例如,如果預防性維修是充分的,那么閥門就不會泄漏。
(2)把原因消除或糾正后問題不會再次發生 (因為有相同的病原)。例如:如果修改了預防性維修的要求,即便是預防性維修不充分,閥門也不會再次泄漏。
(3)原因的消除或糾正會防止該問題或相似問題的反復出現。例如:糾正針對泄漏閥門的預防性維修,使用相同的預防性維修程序,也會防止其它閥門的泄漏。
3.5.6 推薦糾正性行動
為了解決問題的起因,防止問題再次發生,對糾正性行動給出建議:
1)糾正性行動計劃應包含如下所列行動:
(1)當前的糾正性行動——可能已經完成;
(2)臨時的行動;
(3)用于糾正每個根本原因的CAPRs;
(4)針對病原(Causal Factor)的糾正性行動;
(5)來源于狀態程度及起因程度審查的糾正性行動;
(6)來源于以前發生的類似事件審查的糾正性行動;
(7)來源于安全文化審查的糾正性行動。
3.5.7 有效性審查
1)作為根本原因評估的一個組成部分,需要進行有效性審查。有效性審查的目的是為有效性審查人員提供根本原因糾正性行動目的的概要,讓有效性審查人明白如果遵照并執行了推薦的糾正性行動,其效果是什么樣的。
2)對有效性審查沒有固定格式要求,需要考慮包括的有:
(1)有效性審查的范圍(如糾正性行動的時間表包含什么,預期是什么?)
(2)關鍵的方面/標準(例如:What will success look like?)
(3)是否需要臨時的有效性審查?
3)有效性審查方案也應該考慮并明確:在存在什么樣的時機下才能進行有效性的確定。有效性審查的到期日應該與當時存在的時機相一致。
3.5.8 潛在問題分析(PPA)
使用K-T潛在問題分析技術或其它相似的技術對所推薦的糾正性行動進行分析。進行PPA的目的是對所推薦的糾正性行動進行評估,確保找出所有的非故意結果并加以處理。分析員/調查小組組長應該把所審查的領域(Area)和考慮的項目(Item)記錄下來,將其整合到所推薦的糾正性行動中去。
將根本原因分析的整個過程的發現記錄下來,作為永久保存、查詢的記錄;為后續趨勢跟蹤、問題解決及糾正性行動審查提供檢索信息。
(1)糾正性行動項要得到責任部門經理的同意;
(2)由 MRM(Management Review Meeting)來批準糾正性行動;在糾正性行動得到落實前,為了防止相同或類似的事件再次發生,應該按照下列要求來做:
1)在事件發生后的5個工作日內,進行根本原因分析的人員就應該確定是否需要采取臨時行動來挽回損失、彌補缺陷;
2)臨時行動項應分發給責任部門,用工單、狀態報告或行動項的方式對其進行跟蹤;
3)臨時行動項要遞交給根本原因分析主管,拿到MRM上討論;
4)舉例:設備失效所采取的臨時行動有:
(1)安裝備用設備
(2)臨時變更
(3)等效性決策
(4)變更設備運行方式
(5)使用運行票或隔離牌
(6)進行預防性維修
(6)與TS(技術規格書)相關的設備故障需要做可運行性決策,這個過程就包括了臨時行動項
6)涉及人因失效的事件,也要采取臨時性的糾正行動,包括以下方面:
(1)人員培訓
(2)輪班培訓,辦公室發公告
(3)停工整改
根本原因中規定了RCA的到期日,通常是45天(從指派根本原因小組組長及分析員當天開始)。第一階段要在30天內完成,第二階段要在第一階段結束15天內完成。除非得到管理層(延期由VP來批準)的批準,否則要嚴格按照上述時間要求來執行。RCA延期需要滿足以下條件:
1)提供延期的理由;
2)描述由于延期對于電站的影響;
3)對所采取的臨時行動進行描述;
4)接受糾正性行動延期風險的依據。
在進行根本原因分析的過程中,有些錯誤的出現會直接影響分析結果的公正性和準確性。因此,從業人員應特別注意:
1)受慣性思維的影響。依據自己已有的經驗,在頭腦中已經有了對根本原因的初步認識,在后續的調查過程中受此認識影響,使對問題的判斷按照“既定方向”行進,導致無法找到問題的根本原因。
2)缺乏足夠的證據支持。行動不及時,喪失了第一時間獲取實物證據、當事人證言、文件/計算機證據的時機;調查不夠深入、充分,導致對實際情況的了解有限。
3)思路狹窄。依賴簡單的思維模式將“根本原因”置于已有的經驗模式中,造成無法找到根本原因。
4)迷信權威,沒有進行獨立思考。對于“權威”的判斷和結論盲目相信,自己沒有進行獨立思考。
5)忽視細節。問題的關鍵有時候隱藏在細節中,在進行事件調查的時候缺乏精密的試驗和分析,得到的結論缺乏有力的依據,使之無法找到根本原因。
6)信息過濾。對于事件的調查可能觸動個人、部門的利益,在調查階段利益相關人/部門不配合,隱匿關鍵信息,或有意將重要信息置于次要位置。
7)應付交差。由于時間要求緊迫,或領導催促,為了及時完成任務,對大量信息、證據無法一一證實、確認,缺乏全面的試驗或深入的分析,最終得到的分析報告不能完全反映根本原因。
1)對于狀態報告的分級要明確。Vogtle電站對所有出現的問題,不管是技術問題、管理問題,還是程序問題、人因問題,都是通過發起狀態報告來處理的。每年大概會有11000~12000個CR產生,面對這么多需要處理的CR,需要對其進行準確的分類,根據重要程度劃分等級。Vogtle電站的CR分為四個級別,分別是SL1、SL3、SL4、SL5,對每個級別都有非常詳細的定義,并且要在CAPCO會議上討論確定,其中需要對SL1級的CR進行根本原因分析;如果對于狀態報告沒有一個詳細的分級,對所有的CR都進行根本原因分析,將會造成人力資源、技術資源、行政資源的浪費,對此需要引起足夠的重視。
2)對于經驗反饋工程師的培養要盡早開始,人力搭配要合理。Vogtle電站的績效改進部(PI部)有3位專業工程師做原因分析,采取了“老中青”相結合的方式,他們都參加了TapRootR公司的授權課程并取得了相應的資質。其中的一個老工程師叫Danny的具有運行、維修(電氣、儀控)、技術支持、保健物理、培訓多專業背景,具有非常豐富的經驗。公司的AP1000項目馬上就要開始調試了,在調試階段可以深入了解設備、系統性能,積累豐富經驗,為后續的調查分析工作打下基礎;在這個階段就要有意識的、系統的、規劃明確的培養經驗反饋工程師。
3)強有力的組織體系是開展RCA的保障。在Vogtle電站,很多工作都是以專項(Program)的形式開展并完成的,根本原因分析作為CAP(Corrective Action Program)專項的一部分,由上至下受控于一個嚴格的組織體系,每個環節的參與者都有明確的分工和接口,中間有監督機構,后續有有效性審查措施,保證了RCA過程的順利執行。
4)建立運行經驗(Operating Experience,OE)數據庫,加入 INPO/WANO,在全世界范圍內分享核電業界經驗數據,有助于RCA的深入開展。
5)領導層要對根本原因分析給予充分的支持。事件的處理通常分為調查取證、分析、采取糾正性行動三個階段。而往往在第一個階段完畢后,人們就急于采取糾正性行動,而把第二階段給忽略掉,這時候需要根本原因分析小組堅持自己的工作原則,頂住來著各方面的壓力(如時間壓力、行政壓力等)。高級別領導層的對于RCA的支持會保證整個RCA過程的順利推進,取得令人滿意的結果。
6)重視對于領導層的培訓。領導層的推動是工作開展的關鍵因素,而有些問題也是由于領導所處的“特殊”位置,“特殊”影響力導致的。因此,加強對領導層的培訓,從管理層面、工作分配層面來做,使他對他的職責有非常明確的認識,我個人認為也是推動工作開展的一個重要方面。
7)Vogtle電站的根本原因分析報告要被本廠、佐治亞州政府、集團公司、INPO、NRC等多方監管,寫報告占據了他們很大的精力和時間,但又不得不做。我們要做的是把整個RCA過程詳盡的記錄下來,嚴格按程序的規定去做,最總綜合整理就是一份完美的報告。
8)在整個核電站范圍內不斷完善根本原因分析體系,形成根本原因分析的氛圍和文化。在實踐中學習,在實踐中提高,相信根本原因分析工作定會在核電站的防止重大事件的重發以及解決重大技術問題方面發揮越來越重要的作用。