葉順流



摘? 要:故障報告、分析和糾正措施系統(FRACAS)是用于產品故障歸零進而實現可靠性增長的管理系統,其實現方案與產品特點和研制流程的適應性是確保系統有效可用的關鍵。本文根據核電廠儀控系統研制工作的特點,提出了一種基于開源缺陷跟蹤工具Bugzilla實現FRACAS故障閉環流程的技術方案。該方案以數據定義和流程配置為核心,將可靠性信息和故障處理流程進行整合,實現定制化故障管理系統。結合在某型儀控系統研制階段的實際應用,記錄并解決了大量的故障。通過分析采集的故障數據發現,儀控系統實際發生故障與可靠性預計故障在分布趨勢上具有一致性,為儀控系統的可靠性設計和維修策略提供了參考,并驗證了該實現方案的有效性。
關鍵詞:FRACAS? 儀控系統? 故障數據? 可靠性? Bugzilla
中圖分類號:TP273? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)01(a)-0038-05
Abstract:Failure reporting, analysis and corrective action system (FRACAS) is a management system used for return-to-zero of product failure and achieving reliability growth. The key to ensure the system effective and functional is that implementation scheme should be compatible with product features and development workflow. According to development work characteristics of instrument and control (I&C) system for nuclear power plant, a technical scheme is proposed to implement FRACAS failure close-loop process based on an open source bug-tracking tool named Bugzilla. The core work of the scheme is data definition and workflow configuration. Reliability information and failure process are integrated to achieve customized failure management system. Combining with actual application in the development phase of a certain type of I&C system, large amount of failure is recorded and solved with the system. Accumulated failure data indicates that actually occurred failure and predicted failure of the I&C system show consistency in distribution trend. It provides reference for reliability design and maintenance strategy of I&C system, while the implementation scheme is proved to be effective.
Key Words:FRACAS; I&C system; Failure data; Reliability; Bugzilla
為確保核電廠能安全穩定地運行,其儀控系統應當具有相當高的可靠性和安全性水平。在產品研制階段盡早發現并解決潛在故障,是提高核電廠儀控系統固有可靠性的有效方法。GB/T 9225中提出,為了估計儀控系統的可靠性,其數學模型要求各個部件故障率數值作為輸入,需建立相應的數據程序。故障報告、分析和糾正措施系統(FRACAS)就是一種有效的故障管理方式,在軍工、航空和軌道交通等領域有廣泛應用。針對核電廠儀控系統的FRACAS也有原理和使用流程方面的研究[1],但在實現方案以及運行數據方面的研究較少。
現有FRACAS實現方案主要以專業的商用軟件為主,如部分軌道裝備產品研制單位的FRACAS軟件[2-3]。由于該類信息化軟件需要根據企業的實際工作流程和架構進行定制開發,購置費用也相對較高。結合到核電廠儀控系統研制階段對故障管理的特定需求,考慮到實際情況,嘗試以通用流程管理工具為基礎進行自定義配置,從而實現FRACAS的核心功能。
1? 基于Bugzilla的FRACAS實現方案
FRACAS的核心是故障數據記錄和故障閉環流程,與通用的流程管理系統具有一定的相似性。Bugzilla是一款B/S架構的開源缺陷跟蹤工具,主要用于軟件開發過程的缺陷跟蹤。該工具中的缺陷記錄和流程跟蹤功能與FRACAS中的故障報告和故障閉環方法具有共通性,差異在于FRACAS面向產品全壽命周期的可靠性問題,與產品構型、故障模式、維修措施、故障率以及可靠性分析等信息關聯,缺陷跟蹤更側重于問題本身的記錄和關閉過程。考慮到兩者在數據記錄和流程驅動方面的相似性,以及Bugzilla靈活的系統配置和數據查詢功能,選用該工具進行了自定義配置,用以實現符合需求的FRACAS系統。
1.1 核電廠儀控系統的FRACAS系統架構
通用的FRACAS要求在GJB 841-90中進行了詳細說明,結合儀控系統研制工作的實際需求,并參考文獻[4]中的FRACAS架構設計,對本工作預期實現的FRACAS進行架構設計,具體如圖1所示。
其中,數據管理和閉環流程部分以Bugzilla工具自定義配置實現,數據采集和數據統計部分暫時由研發人員以該FRACAS系統為依托手動錄入故障信息和篩選可靠性數據。由于Bugzilla現有功能模塊沒有可靠性相關的專業算法,指標計算和趨勢統計需要結合數據篩選導出功能進行輔助開展。
本文主要工作集中在結合儀控系統的架構、模塊和故障相關的數據定義,通過故障信息與產品信息進行關聯,將自定義的FRACAS流程以通用流程驅動功能進行配置實現,從而實現產品信息、故障信息、故障狀態、人員分配以及流程步驟等定制化。
1.2 Bugzilla的數據和流程配置
1.2.1 數據項配置
參考圖1中的數據采集和數據管理部分,故障數據不只包括軟件缺陷,需要擴展到所有可靠性問題,并與產品構型關聯。因此,在Bugzilla中定義了研制中的儀控系統、硬件模塊、軟件模塊、版本號、故障發生階段、故障狀態、故障描述模板以及嚴酷度等信息作為輸入。對于FRACAS中的故障報告表、故障分析報告表等內容,以模板化格式在故障描述中進行記錄,如故障現象、故障模式、分析說明、故障原因以及糾正措施建議等信息,并且可用于后續數據篩選時作為關鍵字。數據項配置情況如圖2所示。
1.2.2 故障閉環流程配置
FRACAS故障閉環流程的核心是推動故障的分析和解決,針對不同的企業組織架構和研制流程需要進行適應性調整。文獻[5-6]介紹了針對柴油機和系留氣球定制的故障閉環流程,文獻[1]中介紹了核電廠安全級DCS系統產品FRACAS的工作流程。綜合參考以上方案,并結合儀控系統研發工作實際情況,自定義了適合當前核電廠儀控研制工作的故障閉環流程,具體如圖3所示。
基于Bugzilla的工作流自定義功能,將以上流程和節點進行了相應配置。故障報告對應測試人員發起的未確認故障,根據故障涉及的硬件或軟件自動分配給設定的產品負責人進行核實和分配,即故障處于已指定狀態。收到報告的故障負責人基于故障描述信息,結合故障復現情況進行故障定位、原因分析,并采取相應措施,即處于分配和解決狀態之間的過渡態。根據處理情況再進行糾正措施有效性驗證,測試人員通過回歸測試驗證故障是否有效解決,并根據結果選擇下一個流程是解決或重新打開故障。以上各個狀態可在Bugzilla工作流定義功能中進行選擇配置,配置過程示意如圖4所示。
圖4中已勾選方塊代表可選的故障處理流程節點及相互轉換的約束關系,每個節點定義了默認產品負責人和待指定的故障負責人,各個節點的負責人執行圖3中各個流程的工作項,并記錄該工作項的分析和實施情況。通過上述流程配置,將角色和流程進行約束,使工作流以設計的FRACAS流程運行。
1.2.3 其他配置
FRACAS是流程驅動的故障閉環管理方式,可通過新任務郵件通知和截止時間告警等方式有效地推動故障處理流程。在Bugzilla中也對相關通知機制和鏈接進行了配置。
統計分析是FRACAS另一個重要功能,是實現故障數據反饋于產品設計的重要方式。由于Bugzilla在數據統計上的功能相對簡單,缺乏可靠性專業相關的算法,且無法與可靠性預計和FMEA等工作進行整合,因此,暫時通過數據查詢和導出的方式獨立開展統計分析。具體應用情況在下一節詳細介紹。
2? FRACAS系統的統計數據分析
上述基于Bugzilla自定義配置實現的FRACAS已在多個核電廠儀控系統的研制工作中得到應用,并采集了一定數量的故障數據。以下根據某型儀控系統調試測試階段收集的硬件故障數據進行了統計分析。通過將統計數據與可靠性預計數據進行對比分析,評估了FRACAS的運行情況和應用效果,并綜合分析了產品的故障風險。
由于調試和測試階段的故障報告時間與測試工作的安排相關,因此時間因素在該階段為非應力因子,只作為故障的標識信息。因此以下分析中不包含故障隨時間變化的趨勢分析,該分析可在產品進入運行和維護階段后進行。該階段受設計、制造、操作等因素的影響較大,為系統性失效而非隨機性失效,且數量樣本較小,因此分析結果只做定性參考。
從系統級故障統計看,某型儀控系統研制階段的硬件故障數據統計如圖5所示。
這與通常對產品可靠性的認知是一致的。產品可靠性是設計出來的,其次是制造出來的。需求不明、設計偏差和制造工藝缺陷是可靠性問題的最主要原因。基于故障原因分類,更有針對性地開展更確切的需求分析和嚴格的設計評審,可有效降低主要故障類型。
從模塊電路級故障統計看,對FRACAS硬件故障統計數據和可靠性預計值進行了綜合分析。以某型DO功能模塊為例,對硬件故障按電路功能單元進行劃分,對其故障分布進行了定量統計對比,具體如表1所示。
將統計故障和失效率預計值按各電路故障所占百分比進行對比,進行硬件故障分布趨勢分析,如圖6所示。
基于FRACAS統計數據和設計階段的可靠性預計值發現,兩者在分布趨勢上呈現一致性,即故障風險主要集中在DO輸出通道、人機交互(包括LED、接口)和電源管理部分。因此,可以從DO通道故障診斷、接口部分ESD保護以及電源散熱等方向有效地提高可靠性。同時,基于歷史故障信息可進一步優化前期FMEA分析的結果,將實際發生故障與預測的故障模式進行綜合分析,更準確地評估故障模式的風險水平[7]。
3? 結語
本文基于對開源工具Bugzilla的工作流、數據項和相關功能自定義,介紹了一種面向核電儀控系統研制需求的FRACAS系統實現方案。通過將該系統應用于核電廠儀控系統研制工作,推進了故障解決進度,積累了產品在研制階段的可靠性信息,為新產品的研發提供了可靠性設計的經驗,為系統維修提供了故障定位和解決的經驗庫。根據產品的故障統計分布情況,結合設計階段開展的可靠性分析工作,對比驗證了可靠性預計結果與實際發生的故障分布具有一致性。下一步的工作方向是將該FRACAS與可靠性設計和分析工作進一步整合,持續優化產品的可靠性設計,并將該系統拓展應用到產品運行階段,以獲取更貼近實際使用場景的可靠性數據,更有效地分析和解決故障。
參考文獻
[1] 許標,馬權,彭勇,等.FRACAS在核電廠安全級DCS產品故障管理過程中的應用[J].儀器儀表用戶,2018,25(2):71-74.
[2] 李敏,宋玉慶,劉偉.FRACAS在城軌動車企業的應用[J].機械設計與制造工程,2016,45(4):60-62.
[3] 田雅華.基于售后服務現場的故障分析報告和糾正措施系統的建立及應用[J].鐵道機車與動車,2016(6):25-28.
[4] 沈佳塔,丁春光,葛智君,等.基于流程驅動的FRACAS的設計與應用研究綜述[J].電子產品可靠性與環境試驗,2018,36(S1):248-253.
[5] 李兆勇,林淑彥,張振勝,等.FRACAS在裝備制造企業中的應用研究[J].內燃機與動力裝置,2017,34(4):75-78.
[6] 聞麗,理海濤.故障報告、分析和糾正措施系統的應用研究[J].航空標準化與質量,2017(2):46-48.
[7] 孟玉慈,孫東旭,梁媛.利用歷史故障信息提升機載計算機FMEA分析準確性[J].航空計算技術,2017,47(4):126-129.