答嘉曦



【摘 要】基站自啟動開通已成為LTE無線網建設、維護及優化中不可或缺的方式,在提升開站效率、降低開站成本、減少人員投入方面的作用明顯。為增強基站自啟動相關故障的處理技能,切實滿足LTE無線網大規模建設的進度要求,通過對自啟動的原理、關鍵技術、端到端分析與定位手段進行研究,結合相關典型問題的分析解決,總結了現場處理自啟動問題的一些方法和經驗,從而有效提升類似問題的處理效率。
【關鍵詞】LTE基站 自啟動 端到端 故障處理
1 引言
傳統無線網的基站建設和開通模式無論采用TDM(Time Division Multiplexing,時分復用)組網還是IP(Internet Protocol,網間互連協議)組網,都需要在基站開啟環節進行相關的調測及參數配置工作,主要包括設備的軟硬件架構、模塊及板件的聯接模式、小區/扇區與天饋線的映射關系、網絡參數、傳輸參數(包括物理層、鏈路層、網絡層)的配置等。這部分的配置工作對人員的技術水平有較高要求,無法依賴建站的現場施工人員來操作,而只能通過專門的開站技術人員逐一上站并現場完成,工作量大且極易出錯。特別是在IP組網的情況下,網絡結構由點到點的資源獨占變為多點間扁平化的資源共享,網元關系由相互間強耦合變為弱耦合,傳輸資源及傳輸參數的配置由于IP化的引入變得更加靈活、難度更大,對開站人員的素質水平和技能要求也就有了更高的要求。
自配置過程是網絡中新增節點的自動操作環節,它是指通過自動配置的方式完成無線網的eNodeB(Evolved Node B,演進型Node B)加電、網絡連接、射頻發射機開啟乃至可承載業務的全過程,包括自啟動和無線配置兩大環節。其中,自啟動包括IP地址配置與OMC-R(Operations and Maintenance Center for Radio,無線接入網網管)的檢測及鑒權、與核心網建立連接、eNodeB軟件與運行參數下載等;無線配置包括物理小區lD分配、鄰小區列表建立、覆蓋與容量參數配置等。自啟動功能可以在相當大的程度上提升開站效率、降低開站成本、減少人員投入,其已成為無線網建設、維護及優化中不可或缺的手段。
2 基站自啟動關鍵技術及工作原理
2.1 關鍵技術
(1)VLAN
VLAN(Virtual Local Area Network,虛擬局域網)技術使得網絡管理員可以根據不同實際情況,將同一物理LAN(Local Area Network,局域網)網內的不同用戶按照特定邏輯分成若干個獨立的廣播域,與物理上形成的LAN有著相同的屬性。一個VLAN內部的廣播或者單播流量是無法傳播到其他VLAN中的,使流量的控制、網絡的管理、設備的維護、網絡安全保證都得到了有效優化。
(2)DHCP
DHCP(Dynamic Host Configuration Protocol,動態主機配置協議)是一個應用于局域網的網絡協議,基于UDP(User Datagram Protocol,用戶數據報協議)協議工作,用途是給內部網絡或者網絡服務供應商自動分配IP地址并對IP進行管理,其可以顯著提升IP地址的使用率。DHCP協議采用客戶端/服務器模型,主機地址的動態分配任務由網絡主機驅動。當DHCP服務器接收到來自網絡主機申請地址的信息時,才會向網絡主機發送相關的地址配置等信息,以實現網絡主機地址信息的動態配置。
新建基站采用自啟動模式開通時,相應的DHCP消息流程如圖1所示。
具體如下:
◆由于基站沒有配置,使用“0.0.0.0”為源地址,發送DHCP廣播包(DHCP Discover)。
◆DHCP Relay Agent收到廣播包后,使用單播的方式向DHCP服務器轉發。
◆DHCP服務器向DHCP Relay Agent下發配置。
◆DHCP Relay Agent將收到的配置向客戶端轉發。
無論是否存在Relay,都要4條消息完成一個DHCP過程。
2.2 工作原理
基站自啟動技術涉及的網元主要包括eNodeB與OMC-R。在OMC-R側,遠程管理人員將所需開站的基站規劃數據通過批量生成工具導入OMC-R;在eNodeB側,現場施工人員在完成機房、動力配套、天饋線及主設備安裝,并與傳輸專業確認接入層傳輸設備已調通之后,只需要將eNodeB所帶的傳輸功能板卡與接入層傳輸設備通過網線連接并上電,eNodeB經上電自檢后如運行無誤則通過指示燈顯示正常。eNodeB在自檢通過后,根據其設備內自帶的缺省配置信息,自動依據網絡的具體類型獲取相應參數并與相應的OMC-R完成連接。OMC-R提供操作維護(OM)通道,使eNodeB能夠完成配置及版本下載,并進行資產更新和自測試,最終完成啟動。在無需人工干預的條件下,eNodeB能夠自動按配置建立S1連接,小區和公共信道達到可服務的狀態。OMC-R支持相關信息以綜合報告的形式在友好的人機交互界面上進行顯示,同時支持遠程管理人員針對特別關注項進行實時查詢。
3 自啟動問題的端到端分析手段、定位方法與核查問題點
為了提升LTE基站自啟動工作的效率,從端到端網絡結構入手,結合開站實施過程及自啟動流程,總結了基站自啟動的關鍵問題點及處理方法。
3.1 自啟動工作流程及核查問題點
(1)準備工作
基站自啟動前需要在無線側、PTN(Packet Transport Network,分組傳送網)側及OMC-R側做一定的準備,具體準備工作如下:
◆無線側:完成制作目標站點的開站列表和配置文件。
◆PTN側:L2/L3設備完成調測。
◆OMC-R側:完成軟件調測,具備掛接站點能力,與各地市路由打通。
(2)自啟動開站
階段一:上站完成站點硬件安裝、與天饋線及傳輸接入層設備的聯接并上電。
階段二:開站列表、配置文件、網元版本等文件導入OMC-R的即插即用模塊。
階段三:ESN(Electronic Serial Number,電子序列號)上報后在開站列表中綁定ESN號。
階段四:在DHCP消息打印中確認目標站點的4條DHCP握手消息。
階段五:OMC-R開始下發并激活配置、軟件版本、License等文件。
(3)各階段常見問題及核查關鍵點
階段一:
◆常見問題:主控板與PTN連接光口指示燈異常。
◆eNodeB核查點:主控板指示燈閃爍是否正常;光模塊是否是1.25 G/10 km;光纖收發是否反接,光路是否正常;基站上電49天未開通不會上報帶VLAN的報文。
◆PTN核查點:傳輸設備是否存在告警;PTN的物理端口配置是否均是光口千兆全雙工;光模塊是否是1.25 G/10 km。
階段二:
◆常見問題:無DHCP Discover上報。
◆eNodeB核查點:PTN端口是否插錯;基站側DHCP開關是否打開。
◆PTN核查點:檢查PTN盒子和LTE基站直接對接的GE(Gigabit Ethernet,千兆以太網)端口基本配置,要求為TAG模式,檢查PW配置數據,確認VLAN是否正確;執行LB測試,確定L2/L3到基站的L2 PW是否是通的;L2/L3 PTN上是否開啟DHCP Relay功能;L2/L3 PTN配置的DHCP Relay目的IP地址是否跟無線OMC-R網管IP一致,L2/L3 PTN帶網關IP地址是否可以PING通OMC-R服務器IP;傳輸的L2/L3設備是否正確配置數據,包括IP地址、路由等;確認L3 PTN與本地網管網已正常對接,物理上已連通。
◆網管網核查點:網管網是否做了路由策略的約束;防火墻是否做了安全加固策略,導致DHCP報文無法透傳;防火墻來回路徑不一致檢測功能是否關閉。
◆OMC-R核查點:網管上是否創建了開站列表并啟動偵測;目標站點是否已在其他網管上開啟。
階段三:
◆常見問題:ESN號未綁定。
◆eNodeB核查點:站點ESN號是否正確填寫。
階段四:
◆常見問題:開站仍停留在OM通道檢測階段。
◆eNodeB核查點:開站列表中ESN是否綁定了錯誤的站點;開站列表中的IP、VLAN是否正確;維護通道割接失敗場景下,業務正常的站點發起自啟動會失敗。
◆PTN核查點:是否數據配置與傳輸調單不一致,如IP、VLAN等;是否漏配置虛接口;核查傳輸接入環到核心環的數據制作。
階段五:
◆常見問題:加載過程中超時。
◆eNodeB核查點:配置文件中的IP、VLAN是否正確;配置文件的版本與實際網元版本是否一致;網元與PTN的物理端口配置是否均是光口千兆全雙工。
3.2 端到端分析手段與定位方法
LTE的OMC-R一般采用集中建設模式,不同地市的基站通過本地L3 PTN傳輸接入本地市的網管網,再連接至省網管網,最終接入LTE的OMC-R所在地市的網管網。其端到端組成需要經歷以下環節:
(1)本地網傳輸(PTN,主要是華為、中興設備)。
(2)本地網管網(交換機、路由器、防火墻,主要是思科、華為設備)。
(3)省網管網(路由器、防火墻,主要是思科設備)。
(4)OMC-R所在地市的網管網(交換機、路由器、防火墻,主要是華為、思科設備)。
對于基站自啟動問題的定位,分段抓包、逐點定位是比較有效的方法。由于涉及跨地市、跨專業,因此一定要先分析清楚整個網絡端到端的組網結構,找出網絡中的關鍵節點,這樣才能提高抓包的效率,具體如圖2所示:
抓包方法定位思路如下:
(1)在位置①處eNodeB側抓包,確認eNodeB是否成功將DHCP報文發送出來。如果未發,則直接定位為eNodeB問題,否則進入步驟(2)。
(2)在位置②處抓包,確認PTN主用L3設備DHCP報文收發情況。如果抓包顯示沒有DHCP報文發送,則說明中間PTN網絡問題導致DHCP報文丟失;如果只有DHCP發送而沒有DHCP回應,則進入步驟(3)。
(3)在位置③處抓包,確認OMC-R是否接收和響應DHCP報文。如果只有發送而沒有響應,則定位為OMC-R服務器問題,否則進入步驟(4)。
(4)在位置④處抓包,確認該處是否可以收到OMC-R響應的DHCP報文。如果沒有收到,則說明PTN和OMC-R中間網絡丟棄了DHCP回應報文;如果有收到,則繼續深入檢查PTN L3數據配置是否正確,否則備用L3設備應該將該DHCP回應報文送給主用L2/L3。
4 故障案例分析
案例1:采用中興PTN的基站能正常上報ESN,采用華為PTN的基站無法上報ESN
(1)故障現象
某地市LTE基站開通過程中,采用中興PTN的基站能正常上報ESN,而采用華為PTN的基站無法上報ESN,經核查相關路由均已添加。
(2)問題分析
站點ESN通過本地PTN(故障站點使用華為PTN,而中興PTN站點不存在此問題)及網管網發送到OMC-R,在華為PTN進入路由器的端口鏡像抓包,發現攜帶基站ESN號的DHCP Discover的報文已經PTN送出;在本地網管網連接位于深圳的省網管網端口進行抓包,同時抓到了華為和中興的PTN送往深圳網管的帶有基站ESN號DHCP報文;在抓到的信令中分別選取兩個中興PTN和華為PTN上報的DHCP報文,根據報文中的ESN號與無線OMC-R核對,結果顯示華為PTN下基站的ESN號僅能上報至東莞本地網管,而中興PTN下的基站ESN號可以在東莞和深圳的4套網管上報。
選取兩個典型站點東莞塘邊村F-LH(華為PTN)、東莞嶺廈公園F-LH(中興PTN),拉通整網進行抓包,在本地L3 PTN的出口處、本地網管網出口處、省管到深圳網管網入口處、OMC-R近端交換機這幾個點同時進行抓包比對,看到現象如下:
◆在深圳網管網入口處、OMC-R近端交換機這2個抓包點只能抓到中興PTN下站點上報的ESN。
◆在東莞本地網管網出口處可以抓到基站上報的ESN,既有中興PTN下的基站,也有華為PTN下的基站。
◆從東莞本地網管網出口處抓到的報文分析,華為PTN下基站的中繼報文都是從業務網段送往OMC-R的,即100.65.X.X;而中興PTN下基站的中繼報文都是從維護網段送往OMC-R的。
東莞站點采用雙IP方案:一個業務IP,一個維護IP。正常情況下基站自啟動時,相關報文應該由維護網段送出。經過PTN分析,發現PTN網關在發送DHCP Relay報文時選擇機制上不合理,選擇了通過業務網段VLAN帶上來的信息,因此需要修改選擇機制。
LTE eNodeB與OMC-R之間的路由架構如圖3所示。
(3)故障處理
由于省網管網及深圳網管網只放通了各地市基站的維護網段,而華為PTN下的DHCP報文是由業務網段送出的,無法傳送至OMC-R,因此協調深圳網管網將東莞本地業務網段放通之后,問題得到解決,ESN號正常上報。
案例2:激活數據98%時網元連接超時問題
(1)故障現象
某地市開通LTE站點,多個站點正常綁定ESN,相關流程都正常的情況下,到激活數據98%時出現網元連接超時現象,導致站點無法正常開通,OMC-R顯示基站圖標是打叉的(連接不上),但從另一個相鄰基站通過X2口可以PING通此故障基站的業務IP地址,嘗試在OMC-R重連無作用。
(2)問題分析
由以上操作可知,業務IP地址已在基站側生效,但OM維護通道一直無法建立,通過采集故障基站的主控板的一鍵式日志分析,原因為開站列表中分配的OM IP與配置文件中分配的OM IP不同所致。
(3)故障處理
修改配置文件中分配的OM IP,待基站重新進行自啟動后正常完成站點開通。
案例3:PTN業務上下行路徑不一致,導致基站無法正常建立OM通道
(1)故障現象
某地市LTE開站時,部分站點ESN號可以上報,但是配置文件無法正常下發,OMC-R提示基站處于正在檢測OM通道狀態。
(2)問題分析
◆如圖4所示,在基站側抓取基站MAC報文,根據抓包的內容來看,基站已經生效了OM IP(100.65.193.225),并且已經給PTN回了ARP(Address Resolution Protocol,地址解析協議)響應。但PTN還是一直在發送ARP請求,從現象來看一直沒學到基站的MAC地址。
◆在PTN側進行抓包,在PTN側進行報文的統計分析時發現:其主傳輸鏈路的L2/L3節點網元7996的V-UNI(User Networks interface,用戶網絡接口)統計只有發送流量而無接收流量,在備傳輸鏈路的L2/L3節點網元7997的V-UNI統計則相反,只有接收流量。這說明業務的上下行流量在L2/L3節點與L3節點之間走的路徑不同,具體如圖5所示。
◆通過以上分析定位,確定該站點OM通道無法正常建立的原因是上下行流量經過的路徑不一致導致ARP學習異常。
(3)故障處理
由傳輸專業將備L3的VPN FRR(Fast ReRoute,快速重路由)配置倒換到備用路徑,使得流量直接路由轉發到主L2/L3設備,ARP信息可以被正常學習到,基站業務下發配置正常。
對VPN FRR功能的說明:FRR是一種實現網絡局部的、臨時性保護措施的技術。該協議通過為主路由(或路徑)建立備份路由的方式,當主路由出現故障時能夠迅速切換到備份路由上,而當主路由恢復正常時又可以快速切換回來。目前該技術可以支持IP FRR、VPN FRR和TE FRR。VPN FRR主要應用在CE雙歸屬的VPN網絡環境中,其利用網絡中的備份隧道為主用隧道做備份,并結合BFD等快速探測技術來檢測主用隧道的連通性。當主用隧道故障時,部署VPN FRR功能的PE設備在VPN路由收斂完成之前就可以將VPN流量切換到備份路徑上,從而提高了公網數據轉發的可靠性。
5 結束語
作為SON(Self-Organized Network,自組織網絡)在網絡建設與部署中的典型應用模式,基站自啟動功能在現階段大規模的網絡建設及運營期間,已成為LTE無線網快速開通和承載業務的必要手段。有針對性地處理好基站自啟動環節中出現的各種故障,是網絡建設過程中亟需解決的關鍵問題。本文通過分析LTE基站自啟動功能的關鍵技術、工作原理以及常用的端到端故障分析方法和處理手段,總結了在省內既有的網管網及PTN承載網絡架構現狀下,各類LTE基站自啟動問題的存在問題及處理經驗,從而有效提高了相關故障問題的端到端解決效率,切實滿足了LTE無線網大規模建設及開通的進度要求。
隨著LTE/LTE-A時代網絡技術的不斷發展演進、網絡結構的巨大轉變以及用戶對無線通信需求的不斷增加,未來網絡維護和優化的難度及復雜度將越來越大。以基站自啟動為代表的SON技術可顯著減少常規的手工配置和優化工作的人力需要,從而提高了網絡運維人員的工作效率,增強了網絡的可維護性,并間接提升了網絡性能,最終達到改善終端用戶的業務感知質量的目的。因此,深入研究SON技術并大規模應用于現網運營,是解決在未來網絡維護和優化工作量劇增背景下提升網絡服務質量并降低網絡運營成本的一條有效途徑。
參考文獻:
[1] 張威. GSM交換網絡維護與優化[M]. 北京: 人民郵電出版社, 2005.
[2] 張威. GSM網絡優化——原理與工程[M]. 北京: 人民郵電出版社, 2003.
[3] Seppo Hamalainen, Henning Sanneck, Cinzia Sartori. LTE自組織網絡(SON):網絡管理自動化提升運維效率[M]. 王健全,烏云宵,王波,等譯. 北京: 機械工業出版社, 2013.
[4] Harri Holma, Antti Toskala, Jussi Reunanen. LTE小基站優化:3GPP演進到R13[M]. 堵久輝,洪偉,譯. 北京: 機械工業出版社, 2016.
[5] 張長青. TD-LTE自組織網絡SON技術分析和建議[J]. 移動通信, 2012,36(22): 54-59.
[6] 朱亞威,馬賽,郝建鋼. 基站自啟動技術的原理與設計[J]. 電子設計工程, 2016(12): 118-120.
[7] 朱曉光,江華. LTE基站系統的PCI自配置技術研究[J]. 電信科學, 2014(7): 130-134.
[8] 王映民,孫韶輝. TD-LTE-Advanced移動通信系統設計[M]. 北京: 人民郵電出版社, 2012.
[9] 沈嘉,索士強,全海洋,等. 3GPP長期演進(LTE)技術原理與系統設計[M]. 北京: 人民郵電出版社, 2008.
[10] 丁丁,江鵬,王小奇. TD-LTE網絡自組織功能引入研究[A]. 2011 TD-LTE網絡創新研討會論文集[C]. 2011: 30-39.