李騰飛
(中通服咨詢設計研究院有限公司,江蘇 南京 210019)
在IP化的背景下,移動通信核心網需要充分挖掘利用有限的IP資源,并借助IP優化維持IPv4的可持續利用。核心網在功能域上分為兩部分,分別是電路交換(Circuit Switch,CS)域和分組交換(Packet Switch,PS)域。CS域主要負責語音業務,通信之前資源預留,不同用戶獨占各自分配的資源,沒有統計復用。PS域主要負責數據業務,不同的用戶可以共享同樣的資源,統計復用。移動通信核心網同時接入這兩個域,實現核心網多元業務的同時處理。由于核心網結構復雜,同時連接大量的網絡設備,鏈路存在故障隱患,因此需要通過雙向轉發檢測(Bidirectional Forwarding Detection,BDF)協議在核心網中的準確部署來提升核心網的可靠性。
BFD協議在兩個系統之間雙向轉發檢測,當其中一個系統沒有及時接收到BFD報文時,則確定該鏈路中存在故障。根據實際需要設定報文發送周期,防止持續性雙向檢測增加網絡運行負擔[1]。BFD協議在網絡運行過程中不具有鄰居發現機制,當其發現鄰居后,將信息傳遞給BFD模塊。當BFD在規定的時間內沒有接收到網絡鏈路一端發送的報文時,則確定該鏈路出現問題并將信息傳遞給上層協議,由其做出保護決策。以中間系統到中間系統(Intermediate System-to-Intermediate System,ISIS)路由協議與BFD聯動為例:一是建立對話流程,ISIS具備鄰居發現機制,發現鄰居后建立連接,同時將信息傳遞給BFD,然后BFD與ISIS形成對話連接;二是檢測故障處理流程,當BFD檢測到故障后,會話由Up轉換成Down,將鏈路故障信息傳遞給ISIS,由ISIS進行處理決策。
BFD協議在移動通信核心網中的應用模式包括兩種,分別是異步模式與查詢模式。異步模式在網絡中的應用較為廣泛,當系統一端超過規定時間沒有接收到報文時,會話變為Down。查詢模式中,系統與BFD建立對話后自身便具有鏈路檢測能力,當該系統查詢鏈路時,會向另一個系統發送查詢報文,兩個系統也可同時查詢報文。如果網絡中建立了數量較多的BFD會話,查詢模式會檢測各個系統的鏈路情況,其中檢測鏈路由其他應用決定。此外,回聲報文可以配合異步模式或查詢模式運行,將系統端的報文反饋給對端。如果對端沒有及時接收報文,則會話變為Down[2]。采用回聲檢測鏈路會影響到BFD的報文傳輸,其直接原路徑返回報文,縮短了BFD報文發送時間,檢測也更加細致,能夠發現隱藏深處的故障問題。
BFD控制報文主要由兩部分組成:一是可選部分,主要作用是安全認證;二是必選部分,主要用于會話狀態的控制。BFD控制報文必選部分的具體結構如圖1所示。

圖1 BFD控制報文必選部分具體結構
其中Vers默認值為1,表示協議的版本號。Diag表示會話狀態發生變化的原因,屬于診斷碼。例如,Diag為0表示會話狀態沒有變化,Diag為1表示報文檢測時間過長,Diag為2表示回聲功能失效,Diag為3表示對端會話為Down等。Sta是會話狀態,Sta為 0表 示 Admin Down,Sta為 1表 示 Down,Sta為2表示Init,Sta為3表示Up。此外,P與F是報文協商,C出現說明控制平面故障,A是認證功能使能,D是查詢模式,M是網絡為點對多模式。Detect Mult主要用于確定檢測時間,Length主要顯示報文長度[3]。My Discriminator為鑒別器,可以區分不同會話,兩個對話端各自擁有自身的My Discriminator。Your Discriminator與My Discriminator相對應,當接收到對端的報文后,填寫至Your Discriminator,建立雙方的對話。Desired Min TX Interval是最小發送間隔,而Required Min RX Interval是最小接收間隔。Required Min Echo RX Interval支持對端發送的回聲報文,并給出最大速率。
核心網組網采用IP技術,通過IP骨干網承載業務,連接核心網所有的業務網元,構建扁平化網絡結構,網絡拓展能力良好。移動通信核心網在實際運行過程中可靠性面臨著考驗,例如鏈路故障導致會話中斷,信息在設備、端口延遲時間過長影響到業務處理的速率等[4]。核心網需要借助BFD協議快速雙向故障檢測機制加快故障修復速度,提高移動通信核心網維護管理的質量和效果。
將BFD協議應用于移動通信核心網,通過發送BFD報文雙向檢測核心網端對端鏈路通信故障,可以在第一時間發現故障并及時修復通信網絡,將故障鏈路切換至備用鏈路,維持核心網的永久持續運行,將鏈路通信故障影響范圍控制在最小,提升核心網的可靠性。將BFD協議毫秒級故障檢測能力與核心網其他控制協議功能進行整合,當BFD檢測到故障后,核心網中其他控制協議自動處理,實現毫米級的故障處理。此外,以BFD作為輔助機制,為核心網提供故障檢測服務功能。其接口簡單,不直接與其他網絡協議進行連接,但充分利用了其他網絡協議會話機制進行核心網鏈路的狀態檢測,獲取鏈路的運行狀況后將信息反饋給其他網絡協議,由其他網絡協議進行故障的處理與恢復工作,從而提高了核心網的可靠性[5]。
移動通信核心網主要負責數據處理,是移動通信網絡的最頂層,可以理解為一個由很多網絡設備組成的超級路由器。為了控制訪問與組網成本,核心網的網絡設備以局域網的形式連接,借助交換機及路由器接入網絡,并在相應設備上使用了虛擬路由器冗余協議(Virtual Router Redundancy Protocol,VRRP)。VRRP協議為備用機制,當核心網中的路由器出現故障后,立即由虛擬路由器接替工作,以避免核心網業務的中斷。在實際應用中,備份路由接替故障路由需要大約3 s,而將虛擬路由器冗余協議與BFD協議配合應用,可將接替時間降至1 s以下[6]。核心網先接入多個路由器,然后與多個交換機連接。在交換機之間使用VRRP協議,同時在交換機與路由器之間采用BFD協議,BFD檢測到的故障信息傳遞至VRRP,VRRP根據檢測結果確定是否需要進行備用虛擬路由的切換,加快了核心網故障處理的速度。
2.3.1 BFD和內部網關協議聯用
移動通信核心網中,路由器之間使用的是內部網關協議,比較常用的有開放式最短路徑優先(Open Shortest Path First,OSPF)與ISIS。其中,OSPF協議為分布式鏈路狀態協議,ISIS是鏈路狀態路由協議。兩者都使用“Hello”協議發現鄰居,采用一個傳播協議發送鏈接信息來完成鏈路的故障檢測。BFD檢測時間為毫秒級,一般小于30 ms,OSPF協議通常為2 s,ISIS協議為1 s。在核心網絡中,使用BFD輔助OSPF或ISIS協議可以縮短核心網鏈路故障檢測時間,確保核心網的可靠性[7]。BFD與內部網關協議聯用實現較為容易,內部網關協議使用的是“Hello”協議進行鏈路狀態檢測,在獲取檢測結果后促使兩個鄰居之間的BFD建立會話,從而進行兩個鄰居之間的鏈路檢測。一旦BFD沒有啟動,說明該條鏈路存在問題,內部網關協議獲取反饋信息后做出故障處理反應。
OSPF與ISIS協議本身存在不同,在故障處理表現上有一定的差異。OSPF處于IP層上,使用的是IPv4或IPv6協議。在應用BFD協議時,只能檢測IP協議的鏈路。在IP層發生故障后,BFD協議失效,OSPF會取消連接并重新發現鄰居,建立新的路由連接。ISIS處于數據鏈路層,支持多種傳送協議且共享路由拓撲。ISIS在核心網中通常為多拓撲結構,當ISIS與BFD協議會話建立失敗后,ISIS協議啟動保護機制。在多拓撲結構數據傳送過程中,每個拓撲傳遞不同的數據類型,即每個拓撲都會啟動一個BFD會話,當其中一個拓撲鏈路檢測到故障時,ISIS接收故障信息后取消該鏈路并刪除該路由上的數據協議,其他無故障鏈路不間斷數據傳送,同時維持拓撲中的BFD會話。ISIS多拓撲鏈路故障處理如圖2所示。核心網中同時運行數據傳送協議1、2、3,當R1與R2之間傳送協議3的鏈路出現故障后,ISIS取消數據傳送協議3,數據傳送協議1與2則正常傳送,其他拓撲不受影響[8]。

圖2 ISIS多拓撲鏈路故障處理
2.3.2 BFD與快速重路由聯用
快速重路由本質是路由備份技術,適用于核心網丟包、延時等業務。在傳統的IP網絡中,當轉發鏈路層出現故障時,鏈路連接處于Down狀態,快速重路由檢測到故障后將信息反饋至上一層路由,同時重新計算路由,這一過程需要花費大約幾秒鐘[9]。移動通信核心網的規模大,局域網絡中包含著大量的路由器,如果路由收斂時間過長造成故障處理反應不及時,將影響到核心網的可靠性。基于此,核心網中的快速重路由與BFD聯用,可以有效解決快速重路由收斂時間過長的問題,使網絡中斷時間縮減至毫秒級,進一步提升核心網的可靠性[10]。快速重路由在核心網中設有一個主用接口與一個備用接口,主用接口設置BFD協議,當BFD檢測到主用接口鏈路出現故障后,快速重路由根據BFD反饋的信息自動啟用備用接口,借助該接口連接的路由接入核心網絡,降低快速重路由在切換過程中花費的時間。在核心網業務容忍網絡中斷的時間范圍內,進一步提高核心網業務的安全可靠性。
核心網傳統的網絡控制協議在故障檢測及路由收斂過程中所需要的時間為秒級,導致移動通信網經常出現中斷,降低了核心網的可靠性。基于此,借助BFD協議毫秒級的雙向故障檢測能力,將其部署在核心網的節點間或網絡邊緣,輔助核心網中的其他網絡控制協議檢測故障,加快故障檢測及故障恢復的速度,從而提高移動通信核心網的可靠性。