段瓊
(中國移動通信集團河南有限公司,鄭州 450000)
中國移動WLAN網絡經過幾輪快速規模化的建設,其網絡覆蓋率、網絡容量已躍居幾大運營商之首,給廣大用戶提供了高速優質的數據體驗。然而隨著用戶數量迅速攀升,用戶對數據速率的更高要求,尤其是一些數據業務高密度區域,部分WLAN網絡容易出現高負荷過載和服務質量下降的情況,采用合理有效地手段持續地對WLAN網絡進行維護和優化,已成為當前必要的工作重點。
理論上,無線網絡優化是WLAN網絡生命周期的重要環節。在實踐中,無線網絡優化通常可以最大化的利用現有資源并有效提高用戶體驗,真正使WLAN成為可運營、可管理、可持續發展的網絡。后評估便是由集團以引導設備廠家有計劃地解決網絡運行存在的設備問題,同時完善廠商的技術及服務支持體系,以及制定提高用戶滿意度為目標而推出的規范性指導。
在既定的標準下,通常WLAN的優化主要分為射頻優化和數據優化。優化思路和手段主要是關注Wi-Fi整體覆蓋方式的合理部署,并通過信號側和數據側的優化方法最大限度削弱無線干擾帶來的影響,保證最終用戶的使用效果和用戶體驗。本文主要結合著運營及后評估中常見問題和難點問題就WLAN網優提出自己的思路,重點放在以下幾個方面。
關聯成功率是通過統計AP下無法接入的用戶數以及接入用戶的總量來衡量該AP下可用性的參考。AP關聯是WLAN服務使用的第一步。AP關聯失敗,用戶最直接的感知就是終端能接收到移動的Wi-Fi信號,但是連接不上,導致用戶體驗變差。因此,保障及提升AP關聯成功率是運維的一項重要內容,同時也是集團公司考核的一項重要指標。
顯然的,關聯成功率通常跟RF相關,因此,針對關聯成功率的優化,我們要把重點放到信號側的優化方面。
除了大家熟知的信道、功率調整外,結合著802.11協議,我們還應該從以下方面入手來進行相關優化:
通過限制用戶的接入速率來提升WLAN設備的整體吞吐量和使用率。因低速率用戶占空時間較高速率用戶比重大,極大的限制了WLAN設備整體的運行情況。默認情況下,無線網絡中大量的廣播報文和管理報文都是采用最低發送速率1Mbit/s,嚴重消耗了空口資源,一些覆蓋區域,信號強度已經不是問題,可以將1、2、6、9等低速率禁用,提高廣播和管理報文發送速率,降低空口資源消耗。另外,通過禁用速率可以達到拒絕11b終端接入的效果。
按照802.11協議規定,AP會在空口廣播同一個二層內的廣播分組,而這樣的廣播分組在網絡中出現的可能性較大,便占用了用戶有效報文的空中資源,造成資源浪費。無線網絡中,廣播/多播報文會使用最低速率發送廣播報文,所以當廣播報文比較多時,會相對較多地消耗信道空間帶寬,從而影響到整個網絡性能和應用。大部分的Wi-Fi網絡,主要為無線客戶端提供便捷的隨時隨地的上網應用,而對無線客戶端互相訪問需求不高。二層隔離功能開啟后,來自無線客戶端的廣播/多播報文只會向有線網絡發送一份,而不會再向其他無線客戶端都發送,可以極大地減少空口信道的廣播和多播報文流量,從而提高Wi-Fi網絡的整體性能和應用感受,同時也為提升AP關聯成功率打好基礎。
用戶自主選擇接入造成AP負載不均衡,特別是在會議室、室內體育場館等用戶集中、覆蓋密集的區域,開啟基于用戶的負載功能,可以優化網絡資源分布,提升高密覆蓋的能力。
AP應該具備根據用戶比例,動態調整競爭窗口的大小,以改善多用戶并發下的AP性能。
客戶端支持被動Beacon和主動Probe發現無線網絡的功能。所有的無線客戶端都會定期發送廣播Probe request探測,即使一個無線客戶端已經成功接入到Wi-Fi網絡中,它也會定期在每一個信道發送兩個Probe request報文,第一個為攜帶鏈接SSID的Probe,另外一個為廣播的Probe(ssid長度為0)。這樣在無線用戶比較多的網絡中,可能會出現一定量的Probe response報文,而且這些報文都是使用低速率進行發送,會消耗一定的空間資源。如果網絡條件允許可以考慮關閉廣播Probe探測功能以節約空口資源,當用戶關聯時AP不至于沒有足夠的資源來完成對station的正常response。
對于信號強度比較弱的無線客戶端,雖然可以接入到Wi-Fi網絡中,但是所能夠獲取的性能也要比信號強度好的無線客戶端差很多。如果這個弱信號的終端還在大量地下載數據,會占用大量信道,給該信道的其它設備留下的空間非常小,最終必然對其他的客戶端造成很大的影響。
利用類似的實現可以直接控制拒絕信號強度低于指定門限的無線客戶端接入到Wi-Fi網絡中,即可以避免低信號客戶端本身不好帶來的麻煩,也同時減少了這種終端對其他客戶端的影響,提高整個Wi-Fi網絡的應用效果和關聯成功率。
該特性主要考慮弱信號的終端發送報文通常使用比較低的速率發送,相對于信號強的終端會消耗比較多的信道,在信道資源分配上對信號強的終端不公平,為了達到各個終端在信道占用上盡量公平,可以對弱信號的AP發送報文的比例進行適當的控制。建議結合時間公平調度算法使用,在公平調度的基礎上,AC能動態的根據AP發送給無線客戶端的報文發送速率情況對客戶端的發送控制比例進行計算。
運營級的無線寬帶網絡需要關注與用戶體驗相關的各項指標,如 Portal 推送成功率、認證成功率等,這些指標是否能夠達到要求也是一個優化重點。且該項指標只體現集團后臺Portal Server和RADIUS Server等認證服務器的數據認證成功率,通常該值出現異常,涉及的組件包括AC(Portal Client/NAS)、Portal Server、RADIUS Server 3部分,因此,認證成功率的優化主要是數據側的優化。我們下面主要從AC方面來進行相關分析。
在整個的認證體系中,AC同時作為Portal Client和NAS的角色而存在,其主要作用是通過后臺的Daemon來和Portal Server以及RADIUS交互,根據集團規定的規范完成整個的認證。基于運維的相關經驗,認證成功率異常時,可從以下的原因入手進行分析和處理:
業務高峰時段,由于過多的用戶并發接入或者軟件配置參數設置不合理,可能會導致AC的CPU或者RAM被某些進程過度占用,在這種前提下,會因為高優先級任務(如中斷、收分組等)長時間占用CPU而使得認證相關模塊得不到調度,導致認證業務處理時延變大,而認證功能屬于時延敏感業務,從而導致AC與認證服務器之間的交互出現超時導致認證失敗率高,目前大部分的認證功率異常跟此原因相關,因此,需要要求廠家對核心的、關鍵的模塊提供靜態或者動態的調整方法,確保這些時延敏感的、核心的守護進程總是能夠通過快速的較高的優先級調度得到足夠的資源。
通常此類問題可以結合著統一網管的trap告警以及現場的實際測試來進行驗證。另外,我們也需要重點監控下行鏈路的利用情況,因為在下行鏈路上設計到了CAPWAP或者是CAPWAP DTLS封裝,如果配置不當會出現大量用戶業務流AC分片、重組或者重傳的情況,會對鏈路的有效資源做過多消耗。同時,也要做好廣播域的隔離工作,合理的規劃VLAN。在無線網絡中,廣播/多播報文會使用最低速率發送廣播報文,所以當廣播報文比較多時,會相對較多地消耗信道空間帶寬,從而影響到整個網絡性能和應用。特別一個廣播報文通常會向VLAN內的所有的AP發送,同時消耗所有AP的資源。
所以在構建Wi-Fi網絡的時候,在條件允許的情況下,一定為無線業務創建獨立的VLAN,而不要和有線網絡使用相同的VLAN,這樣既可以避免大量的廣播/多播報文的影響,又可以避免不必要的攻擊,以節約寶貴的空口和上行資源。
在AC上可以配置主備RADIUS地址,當主用RADIUS出現問題時,AC自動連接備用RADIUS完成認證、計費工作,并同時監測主RADIUS的工作狀態,當主RADIUS恢復后,自動切換回主RADIUS,此種方式可一定程度保障認證、計費的可靠性。
導致AP退出服務的可能原因很多,比如AP死機、AC故障、交換機故障、通信故障都可能引起AP退服,通常需要根據收集的信息做進一步的分析。以傲天動聯公司設備為例,我們可以按照圖1的思路進行分析。
然后我們可以根據收集的信息進行分析,然后根據分析結果有針對性的進行相應的調整。
除了上述分析思路外,在移動現有的瘦AP模式下,AP和AC之間通過CAPWAP隧道進行控制和數據交互,AP和AC側都有相關的Daemon來建立、維護、拆除隧道,除了keepalive機制的優化外,建議廠商對相關后臺進程的優先級做動態調度,確保CAPWAP的守護進程總是能夠通過動態的較高的優先級調度得到足夠的資源,這可有效的防止AP掉線、退服故障。

圖1 AP下線率/退服率
節電模式通常是被很多網優人員忽視的一個項目。關于STA的節電模式,當前AP通常是維護一個節電緩存隊列,該隊列是將STA處于節電狀態時AP要發送給STA的報文緩存到一個特定的隊列中,等待STA變為非節電時將緩存隊列中的報文發送到STA。這里有一個隊列深度的問題,隊列深度就關系到在STA節電時可以緩存的最大分組數及對AP性能的影響,通常節電模式因軟件設計原因會對性能和穩定性造成較大的影響。AP需要暫存處于休眠狀態的STA的幀,因此暫存空間的大小設計(隊列深度)便變得尤為重要。對于AP來說,暫存空間(buffer memory)是一項有限的資源,802.11標準要求AP必須使用某種老化功能,通過判斷數據幀的暫存時長,超過某一時限的幀,將被丟棄。標準并沒有對具體時限進行定義,但規定了在listen interval時間內,AP不得丟棄暫存數據。因此一般情況下,AP為終端暫存數據的時間至少大于listen interval所指定的時間。而PAD、手機終端設備,由于設備較小,電池續航能力較弱,尤其在使用WLAN網絡時,對電量的消耗會加劇,因此許多廠商會將其產品設計成經常性進入休眠模式,這會導致AP因暫存隊列的維護和狀態機的更新帶來額外的不確定性。由于節電模式改變了報文802.11協議的報文傳輸機制,因此也會帶來種種奇怪故障。特別是隨著Wi-Fi終端種類增加,由節電模式引起的問題也越來越多。因此在出現網絡故障或者性能較低的時候,建議對listen interval或者老化機制進行調整,以便于得到最適合當前環境的值,或者暫存時建議廠商能夠根據STA的數量和狀態對隊列深度進行動態調整,在STA取回時能夠設定相關的發送優先級以確保其它重要數據優先發送。
通過以上個人運維工作中的實際體驗心得,希望能為WLAN網絡的維護和優化提供一些有價值的實際經驗。同時,個人建議在優化實施階段必須建立詳細而完整的優化日志,這對整理優化的思路,結合統計數據,分析評估每項工作的效果,將會有極大的幫助,應該在優化中予以充分重視。