趙海濤,熊 笑,謝 軍,鄭晉軍,谷 巖
(1. 北京空間飛行器總體設(shè)計(jì)部,北京 100094;2. 中國(guó)空間技術(shù)研究院,北京 100094)
衛(wèi)星導(dǎo)航系統(tǒng)是當(dāng)今國(guó)民經(jīng)濟(jì)和國(guó)防建設(shè)不可或缺的重要空間基礎(chǔ)設(shè)施。導(dǎo)航信號(hào)的連續(xù)可用是衛(wèi)星導(dǎo)航系統(tǒng)成功運(yùn)行的根本保證。在民航、交通運(yùn)輸?shù)葢?yīng)用中,導(dǎo)航信號(hào)中斷可能帶來(lái)嚴(yán)重后果。如果導(dǎo)航信號(hào)頻繁中斷,衛(wèi)星導(dǎo)航系統(tǒng)將失去應(yīng)用價(jià)值。因此,可用性、連續(xù)性是衛(wèi)星導(dǎo)航系統(tǒng)的關(guān)鍵頂層技術(shù)指標(biāo)。
中斷是指導(dǎo)航衛(wèi)星不能提供規(guī)定導(dǎo)航信號(hào)服務(wù)的狀態(tài)。衛(wèi)星導(dǎo)航系統(tǒng)的可用性、連續(xù)性都與導(dǎo)航衛(wèi)星的中斷直接相關(guān)。導(dǎo)航衛(wèi)星中斷既可能由故障引起(一般表現(xiàn)為導(dǎo)航信號(hào)或數(shù)據(jù)的丟失或異常),也可能由維護(hù)操作引起(如相位保持),前者對(duì)應(yīng)非計(jì)劃中斷,后者對(duì)應(yīng)計(jì)劃中斷。計(jì)劃中斷可通過(guò)提前給出衛(wèi)星不可用標(biāo)識(shí)而不影響導(dǎo)航信號(hào)連續(xù)性,但非計(jì)劃中斷由于發(fā)生的不確定性,必然對(duì)導(dǎo)航信號(hào)的連續(xù)可用造成影響。因此,為保證導(dǎo)航信號(hào)的連續(xù)可用,我國(guó)北斗導(dǎo)航衛(wèi)星首次將中斷頻次作為衛(wèi)星的技術(shù)指標(biāo)。
中斷頻次可定義為單位時(shí)間內(nèi)導(dǎo)航衛(wèi)星信號(hào)中斷的次數(shù)。在調(diào)研GPS、Galileo、GLONASS的公開資料中,只有GPS明確提出了中斷頻次指標(biāo)[1],但未見具體的分析方法。目前GPS已運(yùn)行20多年,其中斷頻次指標(biāo)早已得到在軌驗(yàn)證。我國(guó)北斗全球衛(wèi)星導(dǎo)航系統(tǒng)起步晚,由于缺少實(shí)測(cè)數(shù)據(jù),在工程研制階段如何分析與驗(yàn)證中斷頻次是制約衛(wèi)星可用性量化設(shè)計(jì)的瓶頸問(wèn)題,其中需解決的關(guān)鍵問(wèn)題又包括:
1)底層中斷事件的確定。故障不一定導(dǎo)致中斷,一顆衛(wèi)星有百余臺(tái)設(shè)備、幾萬(wàn)個(gè)元器件,全面分析這些設(shè)備/元器件和衛(wèi)星中斷的關(guān)系將耗費(fèi)大量的資源,需要通過(guò)簡(jiǎn)單有效的方式確定底層中斷事件,剔除與導(dǎo)航信號(hào)中斷無(wú)關(guān)的設(shè)備、元器件。
2)中斷建模方法。需要考慮以何種方法建立中斷頻次的分析模型,能夠覆蓋中斷有關(guān)的各類因素,并能以數(shù)學(xué)方法方便地得到分析結(jié)果。
3)器件功能異常率的獲取。器件功能異常率是整星中斷頻次分析的數(shù)據(jù)基礎(chǔ),這一指標(biāo)和器件自身的單粒子本征翻轉(zhuǎn)率有很大差異,需要考慮器件單粒子軟錯(cuò)誤的傳播過(guò)程及實(shí)際設(shè)計(jì)情況。地面試驗(yàn)、故障仿真都只能解決有限范圍的問(wèn)題。
當(dāng)前國(guó)內(nèi)外鮮見中斷頻次分析方面的研究資料,相關(guān)研究主要集中在星座及單星可用性綜合分析[2-6]、單粒子軟錯(cuò)誤定量表征與評(píng)價(jià)[7-10]方面,前者以單星中斷頻次、中斷恢復(fù)時(shí)間等指標(biāo)為輸入,考察星座層面的可用性,后者主要進(jìn)行器件單粒子軟錯(cuò)誤及其傳播概率的理論計(jì)算,兩者均未給出中斷頻次分析的系統(tǒng)解決方案。
為此,本文面向?qū)Ш叫l(wèi)星中斷頻次分析的工程需求,針對(duì)中斷頻次分析的關(guān)鍵問(wèn)題,提出了具體實(shí)施方法。
導(dǎo)航衛(wèi)星在軌運(yùn)行期間,其中斷具有隨機(jī)性、可恢復(fù)的特點(diǎn)。引起中斷的主要故障原因包括:
1)使用了大規(guī)模FPGA等邏輯器件,以及和導(dǎo)航功能相關(guān)的設(shè)備,由于單粒子事件導(dǎo)致功能中斷或異常,繼而造成導(dǎo)航信號(hào)不可用。例如,導(dǎo)航任務(wù)處理FPGA發(fā)生單粒子翻轉(zhuǎn)后,通常需要進(jìn)行復(fù)位或整機(jī)加斷電,進(jìn)而引起信號(hào)連續(xù)性損失。
2)由于軟件錯(cuò)誤導(dǎo)致導(dǎo)航信號(hào)中斷。例如,導(dǎo)航信號(hào)生成、處理、播發(fā)相關(guān)的軟件,由于軟件設(shè)計(jì)缺陷造成運(yùn)行出錯(cuò)、復(fù)位,也可能導(dǎo)致導(dǎo)航信號(hào)不可用,從而出現(xiàn)中斷。
3)與導(dǎo)航下行信號(hào)生成與播發(fā)直接相關(guān)的設(shè)備,發(fā)生故障后切機(jī)造成功能中斷,進(jìn)而導(dǎo)致導(dǎo)航信號(hào)不可用。例如,導(dǎo)航信號(hào)播發(fā)通道的主份行波管放大器故障后,需要切換到備份行波管放大器,這一過(guò)程中相應(yīng)頻率的導(dǎo)航信號(hào)將處于不可用狀態(tài)。
以上3類原因中,單粒子事件和硬件故障在設(shè)計(jì)上是不能徹底消除的,軟件設(shè)計(jì)缺陷只要在軌糾正則不會(huì)重復(fù)發(fā)生,因此導(dǎo)航衛(wèi)星中斷頻次分析通常只考慮單粒子事件和硬件故障。
中斷頻次分析過(guò)程主要包括篩選和確定中斷影響因素、建立中斷模型、獲取FPGA功能異常率等基礎(chǔ)數(shù)據(jù)、計(jì)算中斷頻次指標(biāo)并進(jìn)行符合性驗(yàn)證,其流程如圖1所示。

圖1 導(dǎo)航衛(wèi)星中斷頻次的分析流程
中斷可由故障引起,但不是所有故障都會(huì)導(dǎo)致中斷。事實(shí)上,大多數(shù)故障和中斷無(wú)關(guān),如遙控?fù)p失一個(gè)通道只短暫影響遙控功能,地球敏感器故障后可以用備份設(shè)備或星敏感器替代,不會(huì)影響導(dǎo)航功能的正常運(yùn)行。因此,中斷頻次分析首先需要確定哪些故障可能造成中斷,即確定底層中斷事件。
ESA的可用性工程[11]和國(guó)內(nèi)航天器工程中提出了一種類似FMEA的中斷分析方法,針對(duì)星上設(shè)備列出可能的中斷事件,并進(jìn)一步分析其原因和影響。對(duì)這種中斷分析方法進(jìn)行自下而上分析,需要覆蓋所有設(shè)備,投入較大人力、時(shí)間等資源。為了提高分析效率并節(jié)約成本,可以結(jié)合功能分析、信息流分析,利用相關(guān)性分析方法,自上而下快速縮小分析范圍,分析步驟如下:
1)獲取衛(wèi)星所有分系統(tǒng)的組成、功能和冗余設(shè)計(jì)信息。
2)分析各分系統(tǒng)與導(dǎo)航信號(hào)生成與播發(fā)的關(guān)系,明確中斷影響。
3)針對(duì)可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的分系統(tǒng),分析各設(shè)備和導(dǎo)航信號(hào)生成與播發(fā)的關(guān)系,確定可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的底層故障。
為快速確定分系統(tǒng)、設(shè)備和導(dǎo)航衛(wèi)星中斷的關(guān)系,可參考表1所示的線索表。

表1 中斷關(guān)系線索
底層故障引起導(dǎo)航衛(wèi)星中斷是一個(gè)故障傳播過(guò)程,由于從器件、設(shè)備到分系統(tǒng)、整星均有一定的防護(hù)措施,而且不同設(shè)備在導(dǎo)航信號(hào)生成與播發(fā)過(guò)程中的功能不同,因此既便是與門邏輯中的底層故障也不一定必然導(dǎo)致導(dǎo)航衛(wèi)星中斷。為描述這一特征和突出中斷以軟故障為主的特點(diǎn),本文提出中斷樹,并將傳播概率納入分析過(guò)程。
中斷樹以“導(dǎo)航衛(wèi)星信號(hào)中斷”為頂事件,依據(jù)底層中斷事件的分析結(jié)果建立。中斷樹與衛(wèi)星傳統(tǒng)的故障樹的主要區(qū)別如表2所示。

表2 衛(wèi)星中斷樹與故障樹的主要區(qū)別
定義影響因子β為本級(jí)事件導(dǎo)致上一級(jí)事件發(fā)生的概率,其取值范圍如下:
1)β=1,本級(jí)事件必然導(dǎo)致上一級(jí)事件發(fā)生。
2)β=x,0 3)β=0,本級(jí)事件不會(huì)導(dǎo)致上一級(jí)事件發(fā)生。 依據(jù)中斷樹,可建立中斷頻次分析的數(shù)學(xué)模型。 當(dāng)中斷樹底事件較少、邏輯關(guān)系較簡(jiǎn)單時(shí),可以建立解析模型。依據(jù)中斷樹,導(dǎo)航衛(wèi)星中斷頻次可以分解為或門、與門及其組合。 或門邏輯下,假設(shè)有n1個(gè)底事件,第i個(gè)底事件的影響因子為βi(i=1,2,…,n1),則中斷頻次為 (1) 式中:Pso為或門系統(tǒng)的中斷頻次;Pi為第i個(gè)底事件的發(fā)生頻次;θi為第i個(gè)底事件的平均發(fā)生間隔時(shí)間。 與門邏輯下,假設(shè)有n2個(gè)底事件,且該與門的影響因子為βa,則中斷頻次為: (2) 式中:Psa為與門系統(tǒng)的中斷頻次;Pj為第j個(gè)底事件的發(fā)生頻次;θj為第j個(gè)底事件的平均發(fā)生間隔時(shí)間。 當(dāng)中斷樹底事件較多、邏輯關(guān)系復(fù)雜、采用解析式計(jì)算量大或者不適合用解析式計(jì)算時(shí),可以采用蒙特卡洛仿真方法。依據(jù)中斷樹,建立蒙特卡洛仿真流程,利用可靠性專用軟件或者編制程序,實(shí)現(xiàn)中斷頻次的仿真計(jì)算。 底事件可分為硬故障和軟故障兩類。硬故障的發(fā)生頻次可以近似采用失效率轉(zhuǎn)換為單位時(shí)間的故障次數(shù)得到。 軟故障主要關(guān)注FPGA的單粒子功能異常率,即FPGA在軌發(fā)生單粒子軟錯(cuò)誤后引起規(guī)定功能中斷的頻次。FPGA單粒子功能異常率既和器件的單粒子本征翻轉(zhuǎn)率有關(guān),也和軌道條件、器件資源使用情況、單粒子防護(hù)設(shè)計(jì)情況等有關(guān)。目前,常見的方法是進(jìn)行地面輻照試驗(yàn)或者故障注入仿真來(lái)獲得單粒子功能異常率的數(shù)據(jù),但地面輻照試驗(yàn)投入大,且試驗(yàn)結(jié)果一般不代表在軌真實(shí)情況,故障注入仿真周期長(zhǎng),且依賴模型的準(zhǔn)確性,因此均未大量應(yīng)用。為快速而有效地獲取所有相關(guān)FPGA器件的功能異常率,本文提出一種利用相似器件在軌數(shù)據(jù)的快速預(yù)估方法,主要過(guò)程如下: 1)計(jì)算FPGA在任務(wù)軌道環(huán)境條件下、考慮資源使用情況后的單粒子翻轉(zhuǎn)率。 首先獲得FPGA的單粒子本征翻轉(zhuǎn)率,包括目標(biāo)軌道環(huán)境下的存儲(chǔ)區(qū)單粒子翻轉(zhuǎn)率PbR1、配置區(qū)單粒子翻轉(zhuǎn)率PbS1;然后根據(jù)FPGA存儲(chǔ)區(qū)和配置區(qū)資源占用情況,確定存儲(chǔ)區(qū)資源占用系數(shù)βRR1和配置區(qū)資源占用系數(shù)βRS1(資源占用系數(shù)即占用資源與器件資源的比值),從而得到FPGA考慮資源使用情況后的單粒子翻轉(zhuǎn)率PM1為: PM1=PbS1βRS1+PbR1βRR1 (3) 2)利用相似FPGA數(shù)據(jù),計(jì)算未采取防護(hù)措施情況下,當(dāng)前FPGA在軌由于單粒子軟錯(cuò)誤導(dǎo)致功能異常的頻次。 首先獲得相似FPGA在軌無(wú)防護(hù)條件下由于單粒子軟錯(cuò)誤導(dǎo)致功能異常的頻次PF2;然后計(jì)算相似FPGA在考慮資源使用情況后的單粒子翻轉(zhuǎn)率PM2;再比較當(dāng)前FPGA和相似FPGA的結(jié)構(gòu)復(fù)雜性,確定結(jié)構(gòu)復(fù)雜度系數(shù)βc,從而得到未采取防護(hù)措施情況下,當(dāng)前FPGA在軌由于單粒子軟錯(cuò)誤導(dǎo)致功能異常的頻次PF1為: (4) 3)利用同型號(hào)FPGA數(shù)據(jù),計(jì)算當(dāng)前FPGA功能異常率。 首先依據(jù)同型號(hào)FPGA采取特定單粒子防護(hù)措施前后的效果比對(duì)數(shù)據(jù),確定防護(hù)系數(shù)βP(即采取措施前后的錯(cuò)誤率之比);然后得到當(dāng)前FPGA的單粒子功能異常率Po為: (5) 以上方法既考慮了FPGA在器件固有設(shè)計(jì)和應(yīng)用設(shè)計(jì)中采取單粒子防護(hù)措施后的效果,又考慮了FPGA在實(shí)際應(yīng)用條件下由單粒子軟錯(cuò)誤向最終功能異常傳播的可能性,可以快速得到預(yù)估值,從而實(shí)現(xiàn)在導(dǎo)航衛(wèi)星設(shè)計(jì)階段快速判斷設(shè)計(jì)符合性和進(jìn)行設(shè)計(jì)迭代。 某導(dǎo)航衛(wèi)星的基本任務(wù)是:接收地面控制系統(tǒng)注入的導(dǎo)航電文,并存儲(chǔ)、處理生成導(dǎo)航信號(hào),向地面控制系統(tǒng)和用戶發(fā)送。衛(wèi)星導(dǎo)航信號(hào)中斷頻次要求為小于0.5 次/年。 衛(wèi)星包括有效載荷和平臺(tái)兩部分。有效載荷的基本構(gòu)成包括導(dǎo)航、天線分系統(tǒng),平臺(tái)的基本構(gòu)成包括控制、推進(jìn)、綜合電子、測(cè)控、供配電、熱控和結(jié)構(gòu)分系統(tǒng)。 衛(wèi)星系統(tǒng)級(jí)功能樹如圖2所示。 圖2 某導(dǎo)航衛(wèi)星系統(tǒng)級(jí)功能樹 首先,依據(jù)衛(wèi)星軟硬件功能及冗余設(shè)計(jì)情況,分析各分系統(tǒng)和導(dǎo)航衛(wèi)星中斷的相關(guān)性。分析表明,分系統(tǒng)A的故障會(huì)引起導(dǎo)航衛(wèi)星中斷。進(jìn)一步依據(jù)分系統(tǒng)A的設(shè)計(jì)信息,分析各設(shè)備和導(dǎo)航信號(hào)生成與播發(fā)的關(guān)系,確定可能導(dǎo)致導(dǎo)航衛(wèi)星中斷的底事件。分析結(jié)果如表3所示。 表3 分系統(tǒng)A中設(shè)備和衛(wèi)星中斷的關(guān)系 根據(jù)中斷相關(guān)性分析結(jié)果,建立導(dǎo)航衛(wèi)星中斷樹如圖3所示。根據(jù)以往歷史數(shù)據(jù)確定各底事件相對(duì)頂事件的影響因子。 圖3 某導(dǎo)航衛(wèi)星中斷樹 結(jié)合表3的分析,圖3的底事件發(fā)生頻次可分為兩類: 1)設(shè)備A2、A3、A4由于單粒子事件引起功能中斷的頻次。 2)設(shè)備A2、A3、A4的失效率。 應(yīng)用本文提出的FPGA器件功能異常率的預(yù)估方法,以設(shè)備A2為例計(jì)算功能中斷頻次如下。 1)設(shè)備A2選用了1片300萬(wàn)門FPGA,若發(fā)生單粒子事件可能引起導(dǎo)航信號(hào)中斷,依據(jù)該器件的資源占用率和廠家提供的單粒子本征翻轉(zhuǎn)率,得到修正后的單粒子翻轉(zhuǎn)率PM1為2.4 次/天。 2)與該FPGA功能相似但未采取三模冗余、定時(shí)刷新等措施的相似FPGA,經(jīng)統(tǒng)計(jì)已累計(jì)在軌飛行16年,發(fā)生由于單粒子事件引起的異常20次,其頻次PF2為0.0034 次/天。 3)根據(jù)式(2)中相似FPGA的資源占用率和其單粒子本征翻轉(zhuǎn)率,得到相似FPGA修正后的單粒子翻轉(zhuǎn)率PM2為0.8 次/天。則結(jié)構(gòu)復(fù)雜度系數(shù)βc=3。 4)由此得到設(shè)備A2的FPGA未采取防護(hù)措施時(shí)的功能異常率為: PF1=βcPF2=3×0.0034=0.0102(次/天) 5)根據(jù)地面試驗(yàn)結(jié)果,與該FPGA設(shè)計(jì)相似的同型號(hào)FPGA采取單粒子防護(hù)措施前后的效果比對(duì),其防護(hù)系數(shù)βP=50。因此,設(shè)備A2的功能中斷頻次為: 設(shè)備A2的失效率可通過(guò)可靠性預(yù)計(jì)得到。同理可得其他設(shè)備的底事件基礎(chǔ)數(shù)據(jù)。最后計(jì)算、匯總各底事件的發(fā)生頻次如表4所示。 表4 中斷底事件發(fā)生頻次 由圖3可知,該導(dǎo)航衛(wèi)星中斷頻次為: (6) 將圖3和表4的基礎(chǔ)數(shù)據(jù)代入式(6)中,計(jì)算得該導(dǎo)航衛(wèi)星中斷頻次為0.26 次/年,滿足小于0.5 次/年的指標(biāo)要求。 研究采用合理的方法計(jì)算導(dǎo)航衛(wèi)星中斷頻次指標(biāo),有效開展可用性量化設(shè)計(jì),是保證衛(wèi)星導(dǎo)航系統(tǒng)長(zhǎng)期連續(xù)可用的基本途徑。本文面向?qū)Ш叫l(wèi)星中斷頻次分析的工程需求,針對(duì)中斷頻次分析的幾個(gè)關(guān)鍵問(wèn)題,提出了具體實(shí)施方法,并在北斗導(dǎo)航衛(wèi)星工程中得到應(yīng)用。該方法的重點(diǎn)在于通過(guò)相關(guān)性分析快速定位底層中斷事件,通過(guò)中斷樹建立指標(biāo)分析模型,利用在軌數(shù)據(jù)、地面試驗(yàn)數(shù)據(jù)快速預(yù)估得到底層功能異常率,從而系統(tǒng)地給出了中斷頻次的分析驗(yàn)證方案。這在工程設(shè)計(jì)階段對(duì)導(dǎo)航衛(wèi)星可用性的迭代改進(jìn)具有重要支撐意義。3.3 獲取底事件發(fā)生頻次
4 中斷頻次分析示例
4.1 某導(dǎo)航衛(wèi)星簡(jiǎn)介

4.2 導(dǎo)航衛(wèi)星中斷相關(guān)性分析

4.3 建立中斷樹

4.4 獲取底事件基礎(chǔ)數(shù)據(jù)


4.5 計(jì)算中斷頻次
5 結(jié)論