許皓皓,關興民
1(寧波市氣象網絡與裝備保障中心,寧波 315012)
2(黑龍江省氣象數據中心,哈爾濱 150001)
氣象通信網絡用于氣象信息的采集,傳遞,分發和應用,是氣象業務開展的重要基礎設施載體,一旦運行不穩定或者出現重大故障,不但會影響全市氣象業務的正常開展,對當地氣象災害防御,人民生命財產安全,經濟社會健康發展都會產生一定影響.以寧波市為例,“十三五”以來,氣象大數據業務的持續開展,服務器虛擬化等云計算技術在地市級數據中心的應用都對氣象網絡系統的交換處理能力提出了更高要求[1–4],目前網絡中,核心,匯聚,接入層設備的使用年限大都比較長,在突發異常數據或攻擊時,網絡設備極易出現負載過重或宕機現象,已經無法高效承載當前氣象業務需要,當前網絡核心和接入層通過VRRP+MSTP方式組網,這種網絡架構不夠穩定,容易引起環路問題,且結構復雜不易維護.此外現網中使用了多種不同廠商,不同型號,不同定位的網絡設備,認證系統,安全系統,路由交換系統之間無法產生協同性,設備故障不易發現,導致網絡運維效率低,運維成本高.基于上述背景,對氣象核心網絡進行改造,提升網絡處理能力,穩定性和運維效率已經勢在必行.
針對寧波市氣象核心網絡存在的網絡結構不合理,設備性能和網絡效率不足,缺乏整體運維手段等一系列問題,基于交換設備虛擬化技術,對現有網絡進行升級改造,組建扁平化大二層網絡,簡化網絡結構,提升網絡傳輸性能和運行穩定性,增強網絡運維管理效率,以滿足當前氣象業務對網絡運行的要求.
寧波市氣象核心網絡采用核心,匯聚,接入三層網絡組網架構,網絡拓撲如圖1所示.其中核心層使用兩臺華為S9312交換設備基于VRRP+MSTP技術組建冗余網絡,MSTP技術提供二層的負載均衡及故障切換,VRRP在三層實現網關冗余,兩臺核心交換機路由表保持一致;匯聚層交換機用來為接入層設備做端口擴充和鏈路延伸.除中心機房服務器接入交換機外,主要業務匯聚層交換機也采用雙鏈路的冗余架構,連接寧波市 9 個區縣 (市)氣象局,同時為環保,國土,水利,海事,民航等部門提供網絡接入用于部門數據共享業務.由于氣象行業的特點,市氣象局需要與省氣象局,國家氣象局之間進行通信,現網中通過路由器實現與上級部門的互聯,啟用OSPF協議進行路由學習實現網絡互通.接入層設備主要用來為樓層用戶PC等終端設備提供網絡接入服務,通過匯聚層交換機接入核心交換機.當前網絡主要存在如下幾方面不足:① 網絡結構不夠簡潔,組網模式存在環路問題,可靠性不足;②網絡傳輸和處理能力不足,設備陳舊,運行風險性大;③ 網絡缺乏融合運行管理能力,運維效率低.

圖1 網絡現狀拓撲圖
通過對地市級氣象核心網絡現狀進行分析和研究,本次改造立足當前和未來數年全市氣象業務發展需要,力求補齊當前網絡短板,有效承載市縣兩級計算存儲資源池和應用系統網絡通信需求,實現省市縣三級氣象部門數據高效傳輸和共享.本次改造需求分析描述如下:
1)優化網絡結構.改變核心和接入層通過VRRP技術部署雙核心交換機,通過MSTP來解決二層環網的組網模式,采用扁平化,無環路的網絡架構,保證網絡的可靠性,簡化網絡結構,同時具備良好的擴展性.
2)提升設備性能和網絡效率.更新現網核心和匯聚層設備,提升背板帶寬和包轉發率,升級網絡干道帶寬,全面提升核心網絡處理和傳輸能力.
3)構建網絡運維管理體系.建設一套融合網絡運維平臺,具備可視化分析呈現能力,對網絡等設備進行集中運維,提供網絡質量分析,流量監控,故障診斷定位等功能.
現網環境中通過VRRP+MSTP實現核心交換機雙節點冗余備份.冗余結構雖然提高了網絡的可靠性,但也使得網絡結構和互聯關系更復雜,增加網絡協議的部署難度.本次改造更換了核心和匯聚層設備,實現雙機虛擬化堆疊,組建大二層網絡架構,改造后拓撲見圖2.主要改造內容和改造方式如下:① 按照用途和接入類型將匯聚交換機分為服務器接入,區縣(市)氣象局接入和外聯單位接入三種類型.服務器接入和區縣(市)氣象局接入作為關鍵氣象業務,采用iStack雙機虛擬化堆疊方式提供服務;將外部門通訊線路分離出來統一接入外聯單位接入交換機,根據業務功能不同做到區域分開,提高網絡規劃合理性和安全性.② 核心交換機替換為兩臺華為S12712,采用虛擬化堆疊方式組建CSS2(第二代集群交換機系統)集群,構建無環路網絡,核心交換機配置全網設備網關和靜態路由.③ 整合氣象部門上下行設備,寧波市區縣(市)氣象局,省局路由器,國家局路由器通過iStack雙機虛擬化堆疊交換機接入核心交換機,全部采用雙鏈接冗余,保障核心業務穩定性.④ 部署融合網絡運維平臺,對現有網絡設備和關鍵服務器做統一監控和風險實時報警,提高網絡系統的運行監控和自動運維能力.⑤ 核心層和匯聚層網絡設備改造后全部采用光纖連接,組建萬兆全光骨干網.
改造完畢后網絡結構更加扁平化,核心網絡采用低延時,大帶寬,高可靠的 CSS2 集群,網絡結構更加層次分明,互聯關系更簡單,網絡各層之間通過鏈路聚合,自然消除環路,不需要再部署 xSTP,VRRP 等協議;跨設備的鏈路均衡實現了100%的網絡鏈路和帶寬利用率;網絡虛擬化使得登陸集群系統對所有成員設備進行統一配置管理成為可能,搭配融合網絡運維平臺可以全面簡化網絡運維工作,構建高效網絡運維管理體系.和原有的華為S9312冗余核心交換機相比,兩臺華為S12712核心交換機堆疊后集群背板帶寬達到74.5 Tbps,包轉發率為 9120 Mbps,核心層網絡背板帶寬提升了6倍,包轉發率性能提升了7倍;新的S5720匯聚交換機堆疊后較原先的S5700交換機性能提升了4至5倍,網絡整體性能得到明顯提升,滿足氣象業務高可靠性和性能要求.

圖2 改造后網絡拓撲圖
鑒于氣象行業的特殊性,氣象探測報文,天氣預報和預警信息等重要氣象數據需要24小時不間斷通過網絡傳輸.而實施核心網絡的升級改造,受機柜空間等機房環境限制,涉及到原設備摘除下架,新設備上架,啟動,線纜連接等一系列過程,如果因為割接過程設計不合理導致長時間斷網,將造成嚴重的后果.因此,我們根據業務重要程度將網絡設備分為非常重要,比較重要,一般重要 3 類,采用分步實施方案,將網絡割接風險點有效分離,實現最短時間斷網,盡可能減小對重要氣象業務影響.核心交換機和區縣(市)氣象局接入匯聚交換機作為“非常重要”網絡設備,對氣象業務影響最大,割接難度最高,兩者實施均安排在業務量最小的凌晨時段進行.
(1)區縣(市)氣象局接入匯聚交換機割接步驟:
① 新匯聚交換機進行離線預配置,配置內容包括Vlan,上聯口,下聯口,虛擬化等,原交換機在不斷電情況下架,新交換機上架,此時業務不中斷.
② 新交換機用Trunk方式和核心交換機連通,測試新設備接入端口通往省氣象局業務連通性;逐一將各區縣(市)氣象局線路割接到新交換機上,割接過程保持長Ping不中斷,一條線路測試完成后再割接第二條.
③ 區縣(市)氣象局線路切換完畢后,將剩余外聯單位線路依次割接至外聯單位匯聚專用交換機,此交換機保留原始架構和配置,完成設備更換.
(2)核心交換機割接步驟:
① 先對現有2臺核心交換機進行網絡精簡,將備用核心交換機關機,保證所有業務在單核心狀態下正常工作.
② 2臺新核心交換機完成預配置,放置在機柜外加電啟動,和老核心交換機之間不做互聯打通;優先割接區縣(市)氣象局匯聚交換機線路,保持業務連通性測試,出現問題立即回退,保證業務斷網時間在1分鐘內,同樣步驟將其他線路逐一割接到新核心交換機上.
③ 線路割接完畢后,將老核心交換機下架,新核心交換機上架,考慮到意外情況發生可能,設備割接過程中,新老核心都必須保持開機狀態,這樣可以保證在任意時間段都有回退的余地.
隨著云計算的迅猛發展,虛擬化技術在信息化領域被廣泛應用.除了服務器虛擬化和存儲虛擬化之外,網絡虛擬化技術2012年開始在軟件定義網絡及OpenFlow的發展推動下應運而生并迅速發展,正在顛覆當下的網絡架構領域[5,6].本次改造使用的華為CSS(Cluster Switch System,集群交換系統)和 iStack(Intelligent Stack,智能堆疊)都是網絡虛擬化的一種形態,是指將幾臺交換設備通過專用的堆疊線纜連接起來,對外呈現為一臺邏輯交換機[7–9].
3.1.1 CSS 堆疊
CSS是一種將多臺支持集群特性的交換機設備虛擬化為一臺交換機設備的技術.本次改造采用的S12712核心交換機是在CSS的基礎上推出的第二代硬件集群系統,集群系統的控制平面與轉發平面分離,具有低延時,大帶寬,高可靠等特點.目前 CSS2 集群只支持兩臺設備,主交換機為經過集群競爭后,角色為主的交換機,負責管理整個集群系統;備交換機是主交換機的備份交換機,當主交換機發生故障時,備交換機接管主交換機的所有業務.CSS2集群建立過程如下:
1)通過專用堆疊線纜連接集群成員交換機交換網板上的集群卡,每塊集群卡上有8個10GE集群接口,按照面板接口順序的方式一對一進行連接,為保證堆疊冗余可靠性,每臺交換機至少使用兩塊集群卡.
2)集群交換機加電,最先完成啟動,并進入單框集群運行狀態的交換機成為主交換機;如設備同時完成啟動,集群優先級高的設備成為主交換機;如果設備同時完成啟動,并且集群優先級又相同時,MAC地址小的成為主交換機.
3)集群中的備交換機在啟動時,會將主交換機的當前配置文件同步到本地.集群正常運行后,用戶所進行的任何配置,都會記錄到主交換機的當前配置文件中,并同步到備交換機.通過即時同步,集群中的所有交換機均保存相同的配置,即使主交換機出現故障,備交換機仍能按照相同的配置執行各項功能[10].
3.1.2 iStack 堆疊
iStack堆疊就是將多臺設備通過專用堆疊口或業務口連接起來形成一臺虛擬的邏輯設備,用戶對這臺虛擬設備進行管理,來實現對堆疊中的所有設備的管理.iStack 堆疊具有簡化網絡配置,高可靠性,網絡擴展能力強,堆疊模式靈活等諸多優點.堆疊建立過程如下:
1)首先根據業務需求進行堆疊物理連接,可以使用專用堆疊線纜連接堆疊卡上專用堆疊口,主要優點是無需配置;也可以通過光纖線連接業務口堆疊,優點是無需專用堆疊卡,支持長距離堆疊.
2)堆疊角色選舉,角色由堆疊成員運行時間,優先級大小,MAC地址大小等因素決定.堆疊系統一共有Master,Standby 及 Slave 三種不同角色,Master設備負責管理整個堆疊,Standby設備是Master設備的備用設備,Master設備故障時Standby設備會自動接替業務,Slave設備主要用于業務轉發,一個堆疊中同時只能存在一臺Master設備和一臺Standby設備,其他設備都是Slave設備.
3)堆疊角色選取完畢后進行拓撲收集,堆疊設備通過報文交換連接關系,設備編號,優先級,MAC,運行狀態等拓撲信息,成員設備會向Master設備主動發送本機收集到的拓撲信息,Master設備會收集到所有設備的拓撲信息,根據拓撲信息計算出堆疊轉發表項和破環點信息下發給堆疊中的所有成員設備,并向所有成員設備分配堆疊ID.
4)堆疊建立完畢,Master設備將整個堆疊系統的拓撲信息同步給所有成員設備,成員設備同步Master設備的系統軟件和配置文件,進入穩定運行狀態.
可視化融合運維技術提供了所見即所得的故障監控和易用的運維工具,具備多類型設備統一資源,性能,告警,拓撲以及配置管理,網絡質量,流量等監控和快速診斷,IT資源實時,歷史數據分析等特點,通過一套系統,對所有的設備進行統一監控,故障關聯定位,以及業務的一站式配置,是提高運維效率的有效手段.本次改造部署了一套融合運維平臺,引入組件化,WEB化等關鍵技術,提供統一的告警和性能管理等全網狀態監控和恢復手段,以及豐富的可選業務組件,平臺技術特性包括:① 提供統一監控,診斷和恢復解決方案,包括性能管理,故障管理,網絡診斷和配置備份等功能;② 組件化模式,可按需構建運維平臺集成到統一的 WEB 界面;③ B/S 架構,系統輕量級,管理人員可通過瀏覽器完成所有運維操作;④ 支持多種廠商設備,可實現全網設備統一管理;⑤ 具備開放集成能力,提供Restful和SNMP兩種接口,支持第三方應用系統將運維平臺集成到業務流程中.
本次地市級氣象核心網絡升級改造工程于2017年11月初開始,歷時約一個月時間全部完成并投入氣象業務實時運行,改造利用了CSS,iStack虛擬化堆疊,可視化融合運維等技術,組建了大二層網絡.改造后網絡結構更加扁平化,同時消除了網絡環路;核心層和匯聚層網絡帶寬和包轉發率性能提升了4-7倍,關鍵氣象業務系統和數據庫訪問速度有效改善,網絡整體性能得到明顯提升;可視化平臺使網絡系統運維管理更加簡單高效;網絡系統改造完畢半年以來運行穩定,實現了零故障運行,為氣象系統各類業務的有效運轉提供了良好的網絡保障.