陳楠
(民航珠海進(jìn)近管制中心,廣東珠海,519015)
2021年3月,為進(jìn)一步推進(jìn)粵港澳大灣區(qū)的空域優(yōu)化管制服務(wù),民航珠海進(jìn)近管制中心進(jìn)行了珠海終端區(qū)轉(zhuǎn)場工作,同時(shí)正式啟用了全國民航系統(tǒng)推廣的民航通信網(wǎng)作為重要的地地通信傳輸體系。自轉(zhuǎn)場完成后,民航珠海進(jìn)近管制中心民航通信網(wǎng)TDM承載網(wǎng)的eSight監(jiān)控上長期性斷續(xù)出現(xiàn)兩起TDM業(yè)務(wù)中斷告警,引起了值班人員的關(guān)注。通過不斷地進(jìn)行測試與排查,最終確定引起故障地原因?yàn)樵O(shè)備地以太網(wǎng)端口模式不匹配導(dǎo)致。本文通過對實(shí)際運(yùn)行出現(xiàn)地兩起故障案例進(jìn)行鋪陳介紹,并詳細(xì)地介紹了故障分析思路與解決故障實(shí)際采取的措施,通過結(jié)果反面印證解決方案的有效性,并進(jìn)一步總結(jié)了出現(xiàn)該類以太網(wǎng)端口模式不匹配的可能原因,以供讀者參考。
自2021年3月開始,珠海進(jìn)近管制中心民航通信網(wǎng)TDM承載網(wǎng)AR3260設(shè)備上有一路雷達(dá)長期出現(xiàn)頻繁瞬斷現(xiàn)象。通過在民航通信網(wǎng)TDM承載網(wǎng)的eSight監(jiān)控上設(shè)置對該端口的流量性能監(jiān)控,監(jiān)控該雷達(dá)接口的流入及流出帶寬利用率,并截取一周時(shí)間內(nèi)該端口的性能監(jiān)測數(shù)據(jù)曲線,如圖1所示。

圖1 雷達(dá)端口性能監(jiān)測數(shù)據(jù)
由圖1的雷達(dá)端口性能檢測數(shù)據(jù)曲線可以看出,該端口每天均有數(shù)次業(yè)務(wù)瞬斷的現(xiàn)象發(fā)生。若該路雷達(dá)長期出現(xiàn)頻繁瞬斷的情況,瞬間變化狀態(tài)期間極易對接入該雷達(dá)的管制自動化系統(tǒng)的目標(biāo)點(diǎn)跡融合處理結(jié)果產(chǎn)生干擾,影響自動化系統(tǒng)計(jì)算得到的飛機(jī)航跡的精確度,對管制員的空中交通指揮工作帶來影響。而若將此端口雷達(dá)業(yè)務(wù)進(jìn)行長期屏蔽處置,則無法有效覆蓋該雷達(dá)掃描區(qū)域范圍內(nèi)的飛機(jī),易出現(xiàn)飛機(jī)點(diǎn)跡位置偏移,甚至是飛機(jī)點(diǎn)跡識別不到的現(xiàn)象,對管制員的空中交通指揮工作帶來不利影響。
2021年3月自珠海終端區(qū)轉(zhuǎn)場完成后,珠海進(jìn)近管制中心民航通信網(wǎng)TDM承載網(wǎng)AR3260設(shè)備節(jié)點(diǎn)上長期出現(xiàn)兩路甚高頻超控業(yè)務(wù)頻繁瞬斷的現(xiàn)象,監(jiān)控告警提示為“VC狀態(tài)Down”告警。這兩路甚高頻超控業(yè)務(wù)出現(xiàn)該情況的告警頻次較高,且持續(xù)時(shí)長從十幾秒至幾小時(shí)不等。圖2為隨機(jī)選取的兩天時(shí)間內(nèi)出現(xiàn)的該告警情況的日志記錄。

圖2 甚高頻超控業(yè)務(wù)頻繁中斷
甚高頻業(yè)務(wù)是管制員進(jìn)行空中交通指揮工作時(shí)所使用的地空通信手段,通過甚高頻業(yè)務(wù)可以完成管制員與飛機(jī)機(jī)長之間的信息交流通信。甚高頻超控業(yè)務(wù)是相鄰兩個(gè)管制區(qū)域內(nèi)所配備的共用甚高頻業(yè)務(wù),超控方管制員使用該甚高頻業(yè)務(wù)作為應(yīng)急業(yè)務(wù),當(dāng)原指揮方管制員的甚高頻業(yè)務(wù)出現(xiàn)異常時(shí),超控方管制員可以在危急情況下使用該甚高頻超控業(yè)務(wù)指揮飛機(jī)進(jìn)行盤旋、復(fù)飛等處置。這兩路甚高頻超控業(yè)務(wù)長期性出現(xiàn)頻繁中斷的情況,可能會導(dǎo)致甚高頻超控業(yè)務(wù)在發(fā)生緊急情況下不可用,影響管制的空中交通指揮工作和飛機(jī)的飛行安全。
對以上兩起故障案例進(jìn)行原因排查分析,發(fā)現(xiàn)“VC狀態(tài)Down”告警的直接導(dǎo)致原因是兩個(gè)華為AR3260設(shè)備節(jié)點(diǎn)之間的LDP標(biāo)簽分發(fā)協(xié)議的對等體均進(jìn)入下線狀態(tài),此情況可能為中繼鏈路不通,或中繼鏈路出現(xiàn)路由震蕩等原因?qū)е拢珶o法直接判斷是由具體何種原因?qū)е隆=?jīng)過持續(xù)性地觀察,發(fā)現(xiàn)在出現(xiàn)以上兩路甚高頻超控業(yè)務(wù)“VC狀態(tài)Down”告警情況的同時(shí),經(jīng)常性會伴隨出現(xiàn)該設(shè)備節(jié)點(diǎn)的上聯(lián)干線端口由“全雙工”模式自協(xié)商為“半雙工”模式的告警提示信息,如圖3所示。

圖3 “全雙工轉(zhuǎn)換成半雙工” 提示信息
根據(jù)如圖3所示的以太網(wǎng)端口模式的變更情況,對發(fā)生以上兩起案例的民航通信網(wǎng)TDM承載網(wǎng)的華為AR3260設(shè)備節(jié)點(diǎn)的以太網(wǎng)干線端口、業(yè)務(wù)端口狀態(tài)及業(yè)務(wù)配置情況進(jìn)行逐一排查。如下圖4為一臺華為AR3260設(shè)備以太網(wǎng)干線端口的狀態(tài)顯示,可以看出該端口的雙工模式為“半雙工”,自協(xié)商功能已使能,對比原先配置的“全雙工”的工作模式,可以看出該業(yè)務(wù)端口已經(jīng)被自協(xié)商為“半雙工”模式的狀態(tài)。

圖4 AR3260設(shè)備以太網(wǎng)干線端口協(xié)商為“半雙工”模式
經(jīng)排查所知,民航通信網(wǎng)TDM承載網(wǎng)的配置規(guī)范中并未涉及到對端口模式的配置,因此民航TDM承載網(wǎng)AR3260設(shè)備節(jié)點(diǎn)的各干線端口設(shè)置均為默認(rèn)的“自協(xié)商”模式,同時(shí)發(fā)現(xiàn)部分端口模式自協(xié)商為“全雙工”模式,而部分端口模式自協(xié)商為“半雙工”模式。而自協(xié)商成“半雙工”的情況總結(jié)有以下兩種:
(1)華為AR3260設(shè)備與交換機(jī)之間的端口速率適配問題
華為AR3260設(shè)備的端口為百兆速率網(wǎng)口,而交換機(jī)端口為千兆速率網(wǎng)口,兩個(gè)直連的端口速率不一致,經(jīng)過端口的速率自協(xié)商適配后會偶發(fā)性地出現(xiàn)端口協(xié)商成“半雙工”的模式,導(dǎo)致業(yè)務(wù)中斷。
(2)華為AR3260設(shè)備與光端設(shè)備以太網(wǎng)端口設(shè)置協(xié)商問題
華為AR3260設(shè)備端口初始設(shè)置為“自協(xié)商”模式,光端設(shè)備以太網(wǎng)端口初始設(shè)置為“全雙工”模式,但最終華為AR3260設(shè)備端口經(jīng)自協(xié)商后變?yōu)椤鞍腚p工”模式。根據(jù)華為官方手冊的說明文檔可知,在兩個(gè)節(jié)點(diǎn)之間的直連端口,如一端端口為自協(xié)商模式,另一端端口為全雙工模式,則模式為自協(xié)商的端口將協(xié)商為“半雙工模式”[1],導(dǎo)致業(yè)務(wù)中斷。

圖5 TDM網(wǎng)拓?fù)鋱D(含隱患標(biāo)識)
根據(jù)對故障情況進(jìn)行原因的排查分析可知,以上兩起故障案例所出現(xiàn)的TDM業(yè)務(wù)瞬斷情況均是由設(shè)備節(jié)點(diǎn)的以太網(wǎng)端口模式不匹配所致。以太網(wǎng)端口模式主要指以太網(wǎng)端口的連接速率、雙工模式及協(xié)商模式[2]。目前在以IP網(wǎng)絡(luò)為基礎(chǔ)的網(wǎng)絡(luò)設(shè)備中,常見的以太網(wǎng)端口的連接速率有10M、100M和1000M三種,雙工模式有半雙工模式和全雙工模式兩種,協(xié)商模式有自協(xié)商模式和不協(xié)商模式。
“半雙工”工作模式表現(xiàn)為允許兩臺設(shè)備節(jié)點(diǎn)間傳輸?shù)臄?shù)據(jù)在兩個(gè)方向上進(jìn)行,但同時(shí)只允許一個(gè)方向的數(shù)據(jù)傳輸。而“全雙工”工作模式在“半雙工”工作模式的基礎(chǔ)上,允許兩個(gè)方向的數(shù)據(jù)同時(shí)進(jìn)行傳輸。若以太網(wǎng)端口工作模式為“半雙工”模式時(shí),在雙方傳輸?shù)臉I(yè)務(wù)數(shù)據(jù)量較小時(shí),業(yè)務(wù)能正常進(jìn)行通信,而在業(yè)務(wù)數(shù)據(jù)量較大時(shí),就會造成業(yè)務(wù)的完全中斷現(xiàn)象。實(shí)驗(yàn)證明在流量達(dá)到15%及以上時(shí),以太網(wǎng)中會存在沖突、錯(cuò)包、甚至業(yè)務(wù)中斷現(xiàn)象[3]。
自協(xié)商指鏈路兩端節(jié)點(diǎn)自主進(jìn)行信息交換與協(xié)商,通過偵測對端的通告信息,如連接速度、雙工模式等[4],從而相互協(xié)商出匹配雙方最好的連接性能。但端口處于自協(xié)商階段時(shí),端口出現(xiàn)數(shù)據(jù)量過大或網(wǎng)絡(luò)出現(xiàn)延遲抖動等情況,數(shù)據(jù)碰撞及丟包現(xiàn)象會增多[5],這些情況可能導(dǎo)致最終協(xié)商不成功,一方出現(xiàn)“全雙工”模式,而另一方出現(xiàn)“半雙工”模式的現(xiàn)象,最終引發(fā)上述兩個(gè)故障案例中的TDM業(yè)務(wù)中斷現(xiàn)象。
根據(jù)實(shí)踐結(jié)果證明,將民航通信網(wǎng)TDM承載網(wǎng)的AR3260設(shè)備上聯(lián)以太網(wǎng)干線端口配置手動修改為“強(qiáng)制全雙工”模式,并聯(lián)系相應(yīng)運(yùn)營商將光端設(shè)備的對應(yīng)端口配置手動設(shè)置為“強(qiáng)制百兆全雙工”后,未再出現(xiàn)以上兩個(gè)故障案例中的雷達(dá)中斷和甚高頻超控業(yè)務(wù)瞬斷的告警現(xiàn)象。圖6為雷達(dá)業(yè)務(wù)恢復(fù)后的性能監(jiān)測示意圖,可以看出在修改配置后的后續(xù)持續(xù)性觀察中,故障恢復(fù)后的雷達(dá)業(yè)務(wù)端口的流入及流出帶寬利用率均保持較為平滑的曲線,未再出現(xiàn)瞬斷的現(xiàn)象。

圖6 雷達(dá)端口性能監(jiān)測數(shù)據(jù)(已恢復(fù))
本文分析了兩個(gè)實(shí)際運(yùn)行情況中出現(xiàn)的民航通信網(wǎng)TDM業(yè)務(wù)中斷的故障案例,給出了詳細(xì)的故障原因排查思路和分析方法。首先對故障現(xiàn)象及監(jiān)控提示的告警信息進(jìn)行分析,提出可能產(chǎn)生的原因列表。再通過持續(xù)性的故障情況匯總,進(jìn)一步對已發(fā)生的相關(guān)故障情況進(jìn)行關(guān)聯(lián),就同時(shí)間引發(fā)的告警事件信息進(jìn)行比對及相關(guān)性分析,確定故障出現(xiàn)的直接原因。然后通過對各華為AR3260設(shè)備節(jié)點(diǎn)的以太網(wǎng)干線端口、業(yè)務(wù)端口狀態(tài)及業(yè)務(wù)配置情況進(jìn)行全面排查,總結(jié)分析各類可能的以太網(wǎng)端口工作模式情況,找到故障點(diǎn),并提出相應(yīng)的解決方案。最后通過在邏輯推演及相同設(shè)備實(shí)驗(yàn)平臺的充分實(shí)踐測試得到可行性結(jié)論,證明解決方案切實(shí)有效。最終在實(shí)際運(yùn)行平臺采用可行性解決方案施工驗(yàn)證,解決以上兩個(gè)實(shí)際故障案例中的雷達(dá)中斷和甚高頻超控業(yè)務(wù)瞬斷告警故障。
產(chǎn)生以太網(wǎng)端口模式不匹配原因,除了上述兩個(gè)實(shí)際案例出現(xiàn)的由以太網(wǎng)端口設(shè)置自協(xié)商模式,但自協(xié)商不成功之外,還可能存在以下幾種情況:
(1)可能因?yàn)榫W(wǎng)線或光纖等線纜存在質(zhì)量問題導(dǎo)致。當(dāng)網(wǎng)線或光纖等線纜質(zhì)量達(dá)不到標(biāo)準(zhǔn)時(shí),通信網(wǎng)絡(luò)的傳輸質(zhì)量將會下降,可能導(dǎo)致原本處于“自協(xié)商”模式的端口會出現(xiàn)協(xié)商成“半雙工”模式的現(xiàn)象,最終引起直連的兩端以太網(wǎng)端口出現(xiàn)模式不匹配現(xiàn)象。
(2)可能因?yàn)橐蕴W(wǎng)端口的工作模式設(shè)置不一致導(dǎo)致。若直連鏈路兩端的以太網(wǎng)端口工作模式初始設(shè)置不一致,同時(shí)未設(shè)置“自協(xié)商”模式,兩端端口無法通過自協(xié)商達(dá)成一致,可能會出現(xiàn)以太網(wǎng)端口工作模式不匹配現(xiàn)象,最終引起該以太網(wǎng)端口業(yè)務(wù)出現(xiàn)丟包,甚至是中斷的現(xiàn)象。
(3)可能因?yàn)楹雎远丝谒俾蔬m配問題而引起了以太網(wǎng)端口模式改變的情況。實(shí)際運(yùn)用過程中,大部分的大型傳輸網(wǎng)絡(luò)的架構(gòu)基本都會存在路由器與交換機(jī)相連的情形。當(dāng)交換機(jī)的以太網(wǎng)端口為千兆速率口,而與該交換機(jī)直連的路由器的以太網(wǎng)端口為百兆速率口時(shí),交換機(jī)和路由器直連的兩端以太網(wǎng)端口進(jìn)行速率適配時(shí),兩端以太網(wǎng)端口的帶寬會協(xié)商成百兆速率傳輸端口,與此同時(shí),兩端以太網(wǎng)端口協(xié)商端口速率時(shí),可能會導(dǎo)致以太網(wǎng)端口模式由“全雙工”模式切換為“半雙工”模式的現(xiàn)象,最終出現(xiàn)直連的兩端以太網(wǎng)端口出現(xiàn)模式不匹配情況。