陳 帥
(中航工業西安航空計算技術研究所,陜西 西安 710065)
故障樹分析法在某型飛機DPC模塊故障診斷中的應用
陳 帥
(中航工業西安航空計算技術研究所,陜西 西安 710065)
故障樹分析法是可靠性分析中常用的一種分析方法。它具有很大的靈活性,可以根據圖形演繹的方法清晰地分析出系統的各種故障狀態,也可以圍繞某些特定的故障做層層深入的分析。在科研生產中,故障樹被技術人員廣泛應用于故障分析的過程中,效果甚佳。文章以某DPC模塊低溫故障為例,詳細闡述故障樹的原理及實效使用。
故障樹;分析;DPC
某型飛機系統的數據處理模塊(以下簡稱“DPC模塊”)結構復雜,排故周期長、困難大,故障原因難以定位。我們急需一種方法來對故障及時做出準確判斷、查明故障部位、找出故障原因及排除方法,這樣可以大大減少產品維修的盲目性、縮減經費、提高效率。而在目前的科研生產中,故障樹分析法正越來越受到技術人員的“青睞”。實踐證明,故障樹分析法在DPC模塊的故障定位過程中可以發揮很大的作用,我們可以從上至下畫出故障發生的邏輯框圖,可以直觀地看出DPC模塊故障發生的各種原因,并對系統進行全面的分析,從而確定故障發生的原因,采取相應的維修措施和改進辦法,收效甚好,可以大力推廣使用。
故障樹分析法(Fault Tree Analysis,簡寫FTA)是通過對可能造成產品故障的硬件、軟件、環境等因素進行分析, 畫出故障原因的各種可能組合方式和其發生概率的一種分析技術。它具有很大的靈活性,可以根據圖形演繹的方法清晰地分析出系統的各種故障狀態,也可以圍繞某些特定的故障做層層深入的分析。
在使用FTA分析法的時候,故障樹模型以系統最不希望的事件為頂事件(根節點), 以可能引發頂事件的其他事件作為中間事件(中間節點)和底事件(葉節點)。故障樹的建立步驟主要分以下四步:a.確定頂事件,是指確定要分析的對象事件,頂事件是一個系統最不希望發生的事情,一般情況下,我們將頻繁發生的故障或比較危險的事件作為頂事件。b.分析頂事件,調查分析與頂事件有關的全部原因,再將頂事件作為輸出時間,所有原因作為輸入條件。c.分析輸入事件,若此事件還能繼續分解,就把它作為下一級的輸出事件。d.依照上面的步驟,層層向下分解,直至所有的輸入事件不能再分解。
3.1 問題概述
某型飛機系統的DPC模塊,負責整個系統的數據計算、數據管理和VME總線傳輸控制。在進行環境應力篩選試驗時,試驗人員發現某DPC模塊在低溫-55℃時自測試故障。
3.2 DPC模塊工作機理
DPC模塊采用PC755處理器平臺,對外為VME總線接口,其組成結構如下圖1所示。

圖1 DPC模塊系統架構
DPC模塊為處理器PC755+橋接器PC107平臺結構,還配置存儲器電路、VME橋電路、以太網接口電路等功能部件,完成分機的數據處理功能。
3.3 故障樹的建立與分析
故障的DPC模塊在低溫(-55℃)環境下,1小時后,通過多次上電測試驗證,發現故障在測試程序加載環節。當該DPC模塊加電后,引導程序(Boot)和操作系統啟動正常,但在用戶應用程序啟動正常加載操作時,DPC模塊無響應,應用程序未能正常啟動。下面對問題從故障樹角度,逐一對各個影響因素進行分析。針對DPC模塊應用程序無法正常加載的故障原因進行分析,本次故障的故障樹如圖2所示。

圖2 DPC模塊應用程序無法啟動的故障樹
引起該DPC模塊應用程序無法正常啟動的故障原因如下:
(1)軟件故障:包括DPC模塊的引導程序故障和操作系統程序故障;
(2)硬件故障:包括電源電路故障,復位電路、時鐘電路故障、處理器電路故障和存儲器電路故障。
3.4 利用故障樹定位故障原因
3.4.1 軟件故障
(1)引導程序故障
DPC模塊處理器在上電后,運行引導程序完成對處理器PC755,以及PC107橋進行存儲器、IO等接口的初始化配置進行初始配置,包括:處理器訪問空間設置,PC107橋SDRAM接口初始化,UART初始化等配置操作。若硬件配置操作錯誤,會導致啟動異常。
DPC模塊中的引導程序是一個經過軟件測評后版本確定的引導軟件,該驅動程序已經在同批次的多臺分機上進行了驗證測試,都未發生該故障現象。經查過程記錄,故障的DPC模塊上的引導程序軟件已按照軟件配置管理規定辦理了相關的軟件出入庫手續,確認固化版本狀態正確,所以排除引導程序故障。
(2)操作系統程序故障
DPC模塊中的操作系統程序是一個經過軟件測評后確定版本軟件,且該操作程序已經在同批次的多臺分機上進行了驗證測試,都未發生該故障現象。此次故障的DPC模塊的操作系統程序軟件經過檢查記錄核實,已按照軟件配置管理規定辦理了相關的出入庫手續,確認固化版本狀態正確,因此排除操作系統程序故障。
3.4.2 硬件故障
(1)電源電路故障
DPC模塊功能電路是否能正常工作的前提,是各級電壓是否正常。
通過萬用表對DPC模塊的3.3V平臺電壓,2.5V橋芯片(PC107)核工作電壓以及FPGA核工作電壓,2.0V處理器核工作電壓進行了常溫測試,測試結果如表1;
因此次故障發生在低溫環境下,通過示波器對DPC模塊的3.3V平臺電壓,2.5V橋芯片(PC107)核工作電壓以及FPGA核工作電壓,2.0V處理器核工作電壓進行了低溫(-55℃)測試,測試結果如表1;

表1 供電要求及實測結果
經數據對比表明,上述三種電源均滿足設計要求。此外,引導程序和操作系統能夠正確執行,并且通過仿真器連接處理器進行測試程序的運行,也表明電源電路工作正常穩定,故排除電源電路故障。
(2)時鐘電路故障
通過對DPC模塊的運行機理分析,時鐘電路是處理器PC755、PC107橋、FPGA、PCI設備正常運行的關鍵要素,其功能指標特性直接影響到處理器PC755、PC107橋、FPGA、PCI等設備,是DPC模塊實現數據處理功能性能,以及各項技術指標要求的保證。
①PCI橋時鐘電路
DPC模塊的時鐘網絡使用的是PC107橋的時鐘電路,如圖3,外部晶振輸出33MHz時鐘到PC107,然后PC107分別產生66MHz提供給處理器和SDRAM使用,提供33MHz時鐘供PCI總線使用。因故障發生為PCI總線,因此重點對33MHz輸入時鐘和33MHz輸出時鐘進行測量,測試時鐘是否滿足PC107時鐘特性要求,主要測量參數有:時鐘上升下降沿,占空比,jitter(抖動)。

圖3 時鐘網絡示意圖
通過示波器測量PC107橋的工作時鐘(33MHz),CPU工作時鐘(66MHz),FPGA工作時鐘(64MHz),VME橋芯片(UniverseⅡ)工作時鐘(64MH),及PCI總線工作時鐘(33MHz)。測量結果如下:
PC107橋的33MHz輸入端時鐘信號OCN_IN的測量結果為:
上升1.2ns,下降沿1.2ns,占空比49%,jitter:108ps;
33MHz輸出端時鐘信號PCI_SYNC_IN測量結果:
上升1.2ns,下降沿1.2ns,占空比49%,jitter:90ps。
對比PC107橋生產商提供的技術資料,表明測量結果數據滿足PC107對時鐘特性的要求。
在CPU模塊上電過程中,針對性地進行了PC107橋的時鐘信號測量,測量得到的波形見圖4。當5V電源啟動后,PC107橋的PLL在3ms后開始輸出33MHz的PCI總線時鐘信號。在低溫條件下,進行相同測試,結果一致,時鐘信號正常,表明PC107內部鎖相環電路工作穩定,測量結果也滿足器件手冊要求,故排除上電過程時鐘電路故障。

圖4 時鐘上電過程的波形圖
VME總線橋時鐘網絡如圖5,輸入時鐘有33MHz,64MHz,輸出為16MHz。因故障發生為PCI總線,因此對輸入時鐘33MHz進行測量,VME總線橋手冊上無關于PCI時鐘的參數要求,因該時鐘為PCI107輸出,測量能滿足PCI107輸出即正常。

圖5 VME橋時鐘網絡
測量結果滿足PCI總線規范對時鐘信號的特性要求,因此時鐘電路滿足VME總線橋工作要求,排除VME橋時鐘電路故障。
③時鐘電路總結分析
在低溫(-55℃)條件下,通過示波器測試以上時鐘信號的參數,測試結果各項指標均正常,滿足各級器件對時鐘信號要求。
通過上述測試結果,證明時鐘電路功能正常,排除時鐘電路故障。
(3)處理器電路故障
處理器電路包括處理器PC755、PC107橋、復位電路等功能部件,保證處理器PC755能夠正常完成對存儲器單元的取指、運算以及數據輸入輸出功能指令代碼的執行,保證DPC模塊的數據處理功能和性能滿足技術指標要求。DPC模塊的性能受到外部電應力影響而受損。
假設該公司2017年采購10000件,單位成本16元,銷售15000件,結轉銷售成本=10000*16+3000*18+2000*15=244000元
在低溫(-55℃)環境下,通過連接TRACE32仿真器對處理器電路進行測試,PC755的上電啟動、程序加載、代碼執行功能均正常,加載測試程序進行處理器PC755和PC107橋的測試,處理器的加、減、乘、除等基本運算正確,浮點運算正確,定時器和中斷功能均正常。通過上述測試,證明處理器電路無故障。從故障現象上看,故障僅是發生在應用程序啟動時,之前進行的引導程序和操作系統均加載、運行正常,表明處理器電路功能(運算、load/store、中斷、定時器等功能)正常,排除處理器電路故障。
通過上述測試,證明處理器電路功能正常,排除處理器電路故障。
(4)存儲器電路故障
①FLASH故障
FLASH存儲器用于保存引導程序、操作系統程序以及用戶應用程序固化代碼,在處理器初始上電時,執行FLASH中的硬件初始化,代碼搬家操作,實現引導程序和操作系統程序代碼從FLASH到SDRAM的加載過程。
低溫(-55℃)下,對FLASH電路進行以下測試:
將DPC模塊加電后,通過連接TRACE32仿真器對FLASH地址空間進行測試,發現FLASH內數據正確。通過寫序列操作修改FLASH內數據,修改正確。DPC模塊進入地面引導狀態,當進入用戶應用程序時,通過示波器測試FLASH的“片選信號”和“使能信號”,片選信號和使能信號正常,但是用戶應用程序仍無法啟動;重新將DPC模塊進入地面引導狀態,進入FLASH固化目標碼界面,進行“寫FLASH”操作,通過示波器測試FLASH的“片選信號”和“讀信號”,片選信號和寫信號正常,FLASH能夠正常固化目標碼;
經過上述測試,證明FLASH電路功能正常,排除FLASH故障。
②NVRAM故障
NVRAM存儲器用于保存關鍵數據和用戶數據,在處理器初始上電時,讀取NVRAM的數據,實現引導程序、操作系統程序和用戶應用程序關鍵數據的讀取,同時保證處理器下電時,將關鍵數據保存。
低溫(-55℃)環境下,對32KB的NVRAM空間進行讀寫測試正常,下電后重新上電測試,數據可以保存。將DPC模塊進入地面引導狀態,當進入用戶應用程序時,通過示波器測試NVRAM的“片選信號”和“使能信號”,片選信號和使能信號正常。
經過上述測試,證明NVRAM電路正常,排除NVRAM故障。③SDRAM故障
SDRAM存儲器用于加載引導程序、操作系統程序和應用程序代碼,并保存程序代碼中的堆、棧等配置。
低溫(-55℃)下,對SDRAM進行以下測試:
更改Pubit測試程序,擴大了NVRAM、SDRAM以及FLASH測試的空間,以及增加測試過程中數據的監控。將DPC模塊在低溫(-55℃)下存儲1小時后,進入空中引導狀態,進行DPC模塊上電Pubit測試,發現NVRAM、FLASHPubit測試報錯,但是通過分析監控的測試過程數據,測試過程的數據值相同,最后判斷的結果卻不一致,對比故障樹的其它分支(處理器電路、FLASH測試、NVRAM測試)的測試結果,初步判斷SDRAM的部分空間“讀”存在問題。
將DPC模塊加電后,通過連接TRACE32仿真器對SDRAM地址空間進行寫測試,寫入數據(例如:0x0,0x55555555,0xaaaaaaaa以及0xffffffff),發現地址空間0xDA00-0xDFF0,D45位SDRAM芯片的部分單元數據錯誤,無法寫入。
經過上述測試,確定D45位SDRAM在低溫(-55℃)下,部分單元讀寫錯誤,導致DPC模塊無法正常啟動,在終端上無輸出。
3.5 故障定位總結
利用故障樹分析法,筆者最終定位此次故障原因為SDRAM芯片損壞。該DPC模塊在低溫(-55℃)環境下,D45位SDRAM出現故障,部分單元無法正確讀寫,導致DPC模塊無法正常啟動用戶應用程序。更換該芯片后,DPC模塊工作正常,故障排除,證明故障樹分析法得出的結論正確。
實踐表明,故障樹分析法能夠有效快捷的處理DPC模塊故障,同理,在處理結構相似的CPU、MBI模塊故障時,故障樹分析法都能派上用場。它能從故障現象著手理清各種原因及其邏輯關系,從而實現快速的診斷。它相對于直接經驗方法而言,具有邏輯性強,不易遺漏各種可能故障原因等特點,對復雜故障的分析和故障點定位具有較好適用性,給科研技術者提供了一個高效的排故選擇。
[1] 陳越洲,譚琳,邢維艷,等.一種新的故障樹定性分析方法[J].計算機工程,2008,34(13):67-68.
[2] 張麗卿,王瑞峰.故障樹分析法在信號設備中的應用[J].科技信息,2007,(5):47-48.
[3] Huang Hongzhong,Zhang Hua,Li Yanfeng.A new ordering method of basic events in fault tree analysis[J].Quality and Reliability Engineering.International,2012,28(3):297-305.
[4] 李巖,范書義.基于故障樹的診斷知識庫設計[J].武器裝備自動化,2006,25(3):13-14 .
[5] 柯銘銘.故障樹在無人機發射機故障診斷中的應用[J].現代電子技術,2011,(19):18-20.
[6] 王杰.模糊綜合評判在故障樹分析法中的應用[J].電子設計工程,2012,20(6):41-43.
Application of Fault Tree Analysis Method in Fault Diagnosis of a Certain Type of Airplane DPC Module
Fault tree analysis method is a common method in reliability analysis,it is very flexible.It can analyse any fault state syllabify by the method of graphics deduction,and could analyse thoroughly based on some special fault.In scientific research and manufacture, Fault tree analysis method is used widely in fault analysis by engineers,the effect is superduper. This article expatiates the theory and use of the fault tree analysis in example of a certain DPC module's low temperature fault.
Fault tree;analysis;DPC
V26
A
1008-1151(2015)03-0012-04
2015-02-10
陳帥(1987-),男,江蘇淮安人,中航工業西安航空計算技術研究所助理工程師,從事計算機應用方向的研究。