霍明亮 王 軍 趙 宇 趙 超 孫中興
1.中國人民解放軍63611部隊,新疆庫爾勒 841000 2.中國人民解放軍63610部隊,新疆庫爾勒 841000
火箭外測系統是運載火箭測試發射任務的重要組成部分,通過高精度的飛行彈道參數測量,保證了航天測試發射任務的正常展開。隨著電子元器件的不斷發展,外測系統測試設備多由復雜的機械電子部件構成,其性能的穩定關系著整個外測系統的成敗。因此,一旦外測系統測試設備出了問題,必須及時準確定位問題,然后利用相關試驗和理論分析等手段弄清楚問題發生的機理和根本原因,并通過復現問題的現象驗證問題定位的準確性和機理分析的正確性,在此基礎上再制定有針對性的、具體可行的有效措施解決問題,最后把相關問題在同型號、同系統的產品上舉一反三,防止同類問題的發生[1-2]。本文利用故障樹分析法對某型火箭外測系統服務器啟動緩慢故障進行了分析研究,為外測系統設備故障診斷提供了一種有效的方法。
故障樹分析法[3](Fault Tree Analysis,FTA)是安全系統工程的重要分析方法,它從一個可能的故障事件開始,一層一層地逐步尋找產生故障事件的各種因素(包括硬件、軟件、環境、人為因素等),并分析這些因素之間的相互邏輯關系,用邏輯樹圖(即故障樹)把故障原因以及它們的邏輯關系表示出來,其根本目的是找出故障所在,明確引起故障的原因、產生的影響及發生的概率,為后續的產品設計改進提供支撐。故障樹分析是一種演繹分析方法,即從結果分析原因分析方法,它廣泛應用于一些重大軍事裝備研制和宇航、電子、化工等行業的安全分析中[4]。
外測系統的主要功能包括2個方面:1)與地面測量設備配合,完成導彈飛行的外彈道測量,為結果分析提供依據;2)與地面測控設備配合,完成地面無線安檢任務,達到發現故障后,由地面終止導彈飛行的目的[5]。服務器A在某型火箭外測系統中作為外測地面測試設備的集中監控中心,是用戶與設備的交互中心,負責外測系統測試流程生成、箭載設備和地面設備工作模式控制以及工作狀態顯示、數據處理等。同時作為服務器A軟件和雙機熱備份軟件的載體,服務器A通過與軟件和其他硬件協同工作配合整個外測系統完成某型火箭的各項測試發射工作。
某型火箭在進行模飛總檢查測試前準備工作時,外測系統操作手啟動位于廠房外面技術保障車中的服務器A時,耗時近20min才開機完畢(正常情況下僅需5min左右),同時服務器A前面板出現黃色指示燈亮的現象(正常情況下黃色指示燈不亮),如圖1所示。關閉后重新啟動服務器A,啟動過程依然很緩慢,服務器A前面板仍然出現黃色指示燈亮的現象。通過更換備份服務器A后,前面板未出現黃色指示燈亮的現象,參加模飛總檢查測試,整個外測系統流程正確,各設備工作正常。

圖1 服務器A前面板黃色指示燈亮
更換備份服務器A后將原服務器A移至室內測試間,1h30min后重新加電啟動,啟動過程仍然緩慢,服務器仍然出現黃色指示燈亮的現象;第2次再重新加電啟動,啟動過程正常(啟動時間約5min,服務器前面板黃色指示燈滅)。后續又進行了6次加電啟動,啟動過程正常。
采用故障樹分析法對某型火箭外測設備服務器A進行故障分析,就是將該服務器A啟動緩慢作為頂事件,通過建立故障樹,逐步分析可能導致故障發生的原因,并進行具體的定性分析,為某型火箭外測設備服務器A的故障診斷和維修提供理論依據。
通過查閱相關資料,了解到服務器前面板黃色指示燈亮有以下幾種原因:
1)服務器性能下降,包括內存數據錯誤,導致內存反復讀取數據以及硬盤驅動器缺失導致讀取數據下降;
2)工作溫度超出額定溫度;
3)計算機CPU故障。
根據測試過程中出現的異常現象和服務器A的工作原理,現以服務器A啟動緩慢為頂事件,從硬件、軟件和外部3個因素進行故障樹分析,如圖2所示。

圖2 服務器A啟動緩慢故障樹
3.2.1 硬件因素故障樹分析
1)X1底事件“CPU問題”分析
CPU是整個服務器A的核心部件,服務器正常加電時,BIOS會對CPU進行檢測,如果檢測到CPU故障,系統則不能通過BIOS自檢,無法進入操作系統。當CPU嚴重故障時,服務器無法運行BIOS程序。因此“CPU問題”與故障現象不相符,故底事件X1可以排除。
2)X2底事件“內存問題”分析
如果服務器A內存出現故障,服務器開機時,BIOS會對內存進行檢測,如果檢測到內存故障,系統則不能通過BIOS自檢,導致操作系統內核無法加載入內存或者服務器自身發出蜂鳴聲,系統無法啟動,因此“內存問題”與故障現象不相符,故底事件X2可以排除。
3)X3底事件“硬盤問題”分析
服務器A開機時,BIOS在運行過程中會對硬盤進行檢測,如果硬盤只是輕微扇區損壞,如果沒有影響到存放操作系統的區域,系統可以正常啟動而不會出現啟動緩慢的現象。如果影響操作系統存放區域,系統則無法啟動或者提示報錯信息。嚴重故障時硬盤無法被計算機識別,BIOS檢測不能通過且無法讀取硬盤里的系統數據,因此“硬盤問題”與故障現象不相符,故底事件X3可以排除。
4)X4底事件“主板問題”分析
主板是整個服務器A的橋梁,是連接各個部件的物理通道,如果服務器主板硬件故障,則主板供電和運行均無法正常工作,導致服務器無法開機或者服務器開機后無法通過BIOS自檢時對服務器主板硬件的檢測,因此“主板問題”與故障現象不相符,故底事件X4可以排除。
3.2.2 軟件因素故障樹分析
1)X5底事件“BIOS軟件問題”分析
根據BIOS工作原理,在服務器A啟動過程中,BIOS系統首先檢查BIOS軟件代碼的完整性,然后執行代碼,如果BIOS軟件有問題,則BIOS系統會先檢查出軟件代碼完整性不滿足要求,繼而不會執行BIOS代碼,因此“BIOS軟件問題”與故障現象不相符,故底事件X5可以排除。
2)X6底事件“Windows Server操作系統軟件問題”分析
在服務器A啟動過程中,首先BIOS會檢測硬件是否正常,如果硬件正常,則將操作系統加載至內存中,啟動相關服務進程,進而系統正常啟動。如果操作系統有問題,首先在啟動過程時會報錯,無法正常啟動系統,并提示系統修復選項。因此“Windows Server操作系統軟件問題”與故障現象不相符,故底事件X6可以排除。
3.2.3 外部因素故障樹分析
1)X7底事件“工作環境不滿足要求”分析
服務器A工作環境主要包括設備振動環境、內部溫度、濕度、潔凈度等,服務器A參加完成了3次飛行試驗,對比之前的試驗,技術保障車停放位置相同,設備振動環境、環境濕度和潔凈度均與前3次試驗一致,唯一發生變化的是環境溫度,前幾次試驗是在夏秋之際,此次試驗在深冬季節,因此可能導致服務器A工作時內部環境溫度差異較大,引起故障發生。
BIOS在運行過程中會對系統溫度或者溫度組件進行檢測,如果系統溫度超出規范或者溫度組件異常, BIOS則通過服務器前面板指示燈指示。查閱IBM服務器指示信息[6]包括硬盤故障、CPU故障、溫度超標等,其中溫度超標為可能因素之一。由于技術保障車置于戶外9天,且最低溫度達到-20℃左右,從設備加電自檢后7天內,車內一直未進行加電,因此服務器溫度處于熱平衡狀態。另外,安裝服務器A的周圍空間狹小且空氣流通不暢,熱平衡效果差。雖然第8天上午9點左右車內空調開始加溫,下午14點左右服務器內部有可能溫度仍然較低,未達到正常啟動所要求的的5℃~40℃的溫度條件,出現溫度超范圍報警,進而出現啟動緩慢現象。故底事件X7不能排除。
2)X8底事件“低溫引起性能下降”排查
由于電子元器件在低溫條件下性能下降,導致硬盤讀寫速度下降,進而影響到計算機運行速度快慢,最終影響服務器的速度。故底事件X8不能排除。
為進一步進行故障診斷,分別將服務器A放置于技術保障車內降溫13.5h、37.5h,驗證低溫對其啟動過程的影響,具體過程和結果如下。
1)第1天19:00至第2天8:30將服務器放置在技術保障車內,8:55服務器第1次開機,服務器表面溫度約-17℃,前面板出現黃色指示燈亮的現象,系統長時間處于停滯狀態,9:04前面板黃色指示燈消失,系統正常啟動,9:09系統啟動完成,啟動時長共計14min。9:13系統關機后將服務器移至技術保障車外,30min后測量服務器表面溫度約為-15℃。再將服務器移至技術保障車內,9:51服務器第2次開機,前面板出現黃色指示燈亮的現象,系統長時間處于停滯狀態,9:54前面板黃色指示燈消失,系統正常啟動,9:57系統啟動完成,啟動時長共計6min。設備溫度采用紅外溫度測量儀進行測量,測量數據如表1所示。

表1 第2天溫度測量數據
2)第2天19:00至第4天8:30,服務器放置在技術保障車內,第4天8:46服務器啟動,服務器表面溫度約-4.5℃,服務器風扇運轉后至8:51,服務器表面溫度出現最低值-8.9℃,前面板出現黃色指示燈亮的現象,9:08系統啟動完成,啟動時長約22min。設備溫度采用紅外溫度測量儀進行測量,測量數據如表2所示。

表2 第4天溫度測量數據
由試驗過程來看,低溫條件下服務器開機過程前面板會出現黃色指示燈亮、開機時間延長的現象。由于服務器內部溫度無法測量,且服務器加電時間間隔等不同,可能造成服務器啟動延長時間存在差異。
第4天9:15將服務器A移至室內測試間,11:00啟動服務器,前面板黃色指示燈不再點亮,服務器運行速度恢復正常。11:00后反復開機關機30次,每次開啟時間約5min,關機時間約1min,服務器運行速度均正常,表明在正常工作溫度條件下服務器的性能正常。
3)上述2項工作完成后,對服務器A開蓋檢查,未發現明顯異常。
綜上所述,造成頂事件“服務器A啟動緩慢”的原因為X7底事件“溫度環境不滿足工作條件”或X8底事件“低溫引起性能下降”。
由于電子元器件在低溫條件下性能下降,可能導致硬盤讀寫速度下降,進而影響到計算機運行速度快慢,可以分為IO速度和計算速度。如果溫度過低,將導致IO速度和計算速度都下降,最終影響服務器的速度,可能機理分析如下:
1)IO速度的影響
服務器開機啟動時,操作系統需要加載大量的初始化數據。對應于底層硬件,則是CPU通過IO芯片從硬盤讀取數據,交給CPU進行計算,由于硬盤速度遠遠低于CPU性能,所以為了提高運行速度,大量的數據都存放在內存中。
如果由于溫度過低而頻繁出現內存數據錯誤,導致內存ECC校驗都無法糾正時,CPU會對錯誤數據反復讀取,直到讀取到有效可用的數據為止。而原始數據就存放在硬盤中,因此CPU不得不反復從硬盤上讀取數據,而硬盤的性能相比于CPU和內存而言差距巨大,因此數據反復讀寫過程將導致系統性能急劇下降,從而出現啟動緩慢的現象。
2)計算速度的影響
低溫條件下,除了內存受到明顯的影響外,服務器整體性能都會下降,這是因為無論CPU、IO芯片還是主板上大量的表面安裝元器件都是半導體材料,在低溫環境下半導體的共性[7]是:由于載流子濃度指數式增大(施主或受主不斷電離),而遷移率也是增大的(電離雜志散射作用減弱導致),所以這時電阻率隨著溫度的升高而下降。在室溫時,由于施主或受主雜質已經完全電離,則載流子濃度不變,但遷移率將隨著溫度的升高而降低(晶格振動加劇,導致聲子散射增強),所以電阻率將隨著溫度的升高而增大。而室外低溫環境下,在服務器剛開機時,電子線路性能比室溫工作狀態相對下降,造成系統工作穩定性等各方面技術指標相對室溫條件下有所下降。隨著時間的推移,電子線路逐漸升溫,系統性能逐漸提升,最終服務器工作恢復正常。
技術保障車外測系統服務器A啟動緩慢的主要原因是服務器內部溫度較低,超出了5℃~40℃服務器工作溫度條件,且設備本身低溫適應能力較差,也是引起此現象的原因之一。針對上述故障原因,采取相應的措施,主要包括:更換備份服務器參加后續測試,調用同批次產品作為備份件;測試前對車內進行提前加溫,提高車內溫度;測試流程開始前首先對服務器加電,確認其工作狀況滿足測試要求。
針對某火箭外測系統服務器A啟動緩慢現象開展故障樹分析,準確找出導致故障產生的原因,制定適當的措施以保證后續火箭測試工作正常開展,同時建議開展相關設備改進研究,提高設備在低溫環境下工作的可靠性。