程幸生
(中國移動通信集團湖北有限公司,湖北武漢,430023)
據統計,移動運營商大部分的投訴問題都跟終端有關,或者說,終端的質量問題在整個用戶投訴中占了很大的比列,終端的質量直接影響了用戶感知。很多投訴場景復雜,問題描述不清,各廠商終端日志抓取方法封閉,終端工作正在面臨著問題分析難度大的嚴峻問題。隨著5G 網絡的商用,通信行業正式進入了5G+AICDE 的移動互聯網時代,新時代對網絡的維護與優化工作提出了更為嚴苛的要求。
用戶感知和服務品質需求伴隨著市場開發度增強不斷地提升,手機作為用戶與移動互聯網交互的重要門戶,終端質量保障將承擔更大的責任和壓力,終端工作也將逐漸的實現前端高質量測試與后端終端問題高效分析的有機結合,因此,急需開發一種基于通用終端使用的手機側抓包軟件,確保終端質量和網絡演進平滑進行。
當前手機終端與無線網絡的問題,由于整個通信過程涉及的網元、影響因素和變量非常多,技術原理和觸發機制非常復雜。在事后分析問題時,想要復現問題有時首先就非常困難,經常測試數個小時都無法復現;再者復現問題后,分析過程非繁瑣,需要用排除法逐項的排除那些可能因素,才能如剝繭抽絲般定位到真正的原因。基于此,在多年終端問題分析的基礎上,本文提出了一種基于通用終端使用的手機側抓包軟件。為了解決這兩個問題,該軟件在用戶終端上隨時記錄分析問題必需的終端側日志,并同時記錄下用戶的操作過程和終端的網絡環境、軟件環境等信息。用戶在出現問題后只需要將發生問題時段的日志數據本地解析或者上傳到云服務器,分析專家就可以根據這些日志數據進行詳細的分析,從而準確的定位問題發生的原因,不再需要費時費力的復現問題。
終端問題分析,遵照“初步評估->問題信息獲取->分析定位”的大流程,問題信息獲取、分析定位是目前的短板,基于通用終端使用的手機側抓包軟件致力于解決該短板。手機測抓包分析軟件的系統架構采用了最流行的手機端/云端服務器的結構,運行在普通用戶手機上的軟件在后臺記錄包括基帶日志、數據日志、用戶操作日志、終端性能日志等數據,并上傳到軟件的云端服務器。問題分析專家通過在云端服務器或者手機終端本地上使用各種日志分析工具和手段來找到定位問題原因的證據。

圖1 基于通用終端使用的手機側抓包分析軟件的邏輯架構
基于通用終端使用的手機側抓包分析軟件采用當前最先進的云技術架構、用戶行為分析理念、終端基帶信令分析技術和IP 通信包分析技術,對終端在用戶日常使用中出現的問題進行定位和分析。因此終端側的日志抓取技術,云端服務器的日志定位、分析輔助技術是本軟件的核心。在綜合考慮了系統的可實現性、未來的可擴展性和系統成本的基礎上,基于通用終端使用的手機側抓包分析軟件選擇了基于PHP+MySQL 的標準化輕量級架構:
(1)技術平臺:PHP Yii Framework,3 層框架結構;
(2)技術框架:輕量級高性能的Spring 框架;
(3)數據層:除了MySQL,數據層還支持多種主流數據庫;
(4)運行模式:純B/S 模式;
(5)擴展接口:基于Web Service 的服務接口,采用XML 的數據傳輸格式。
基于通用終端使用的手機側抓包分析軟件,其手機終端側應用APP 具有如下特征:
(1)實時記錄多種終端日志:可記錄的日志包括:基帶日志,IP 通信日志、系統通用日志、用戶操作日志、終端網絡狀態、終端性能日志。
(2)開機自啟動:APP 一經安裝,用戶終端每次開機重啟都會自動在后臺啟動和運行,無需用戶操作。
(3)后臺靜默運行:APP 在后臺運行時,不會對用戶的前臺操作產生任何影響,對用戶來說是透明的。
(4)無需數據消耗流量:APP 在WIFI 網絡的狀態下自動上傳日志數據,而在數據網絡狀態下不會自動上傳,除非手動操作。
(5)自動提示版本升級:在有新版本APP 客戶端時,會自動彈出窗口提升下載和升級。
(6)本機基帶日志查看:可以在本機解析和查看基帶日志,方便手工測試和即時排障。
在后臺的云端管理平臺,具有如下特征:
(1)無特定平臺和軟件依賴:支持MySQL、Oracle、SQL Server,支持Windows、Linux 操作系統,支持Unix操作系統(需要手動安裝配置)。
(2)使用開發和標準化的技術:與操作系統環境無關的純PHP 結構支持,通過Hibernate 支持多種數據庫,針對不同的數據庫和Web 環境進行了專門的調試和優化。
(3)超強并發能力:支持200 終端在線、后續調優支持300-500 終端在線;從數據庫架構、系統分布式架構的多級緩存和分離優化技術,實現性能設計的長期可增長;可以充分利用多核和多CPU、高內存的應用,支持高性能的大量信息處理和網絡接入;支持64 位版本的Windows 和Linux 等操作系統,可以支持多達500 終端同時在線的性能需求,且可以隨著硬件技術的發展而增長。
(4)業務價值:統一的終端和日志管理平臺,實現高效的終端檢索和日志查看功能;多種報表和視圖便于定位終端問題。
接下來,以一起小米用戶的投訴為例,來說明手機側抓包分析軟件的工作原理。來自EOMS 平臺的用戶投訴顯示,用戶的終端型號為紅米1S,問題描述為:使用紅米1S 通過4G 網絡訪問百度首頁www.baidu.com,偶爾出現打開網頁時延較長的情況。基于此,維護人員的測試結果如圖2所示,用戶終端故障的分析流程圖如圖3 所述。

圖2 使用用戶手機訪問百度的測試結果

圖3 用戶終端故障的分析流程
根據測試經驗,可能導致訪問百度首頁時延較長問題的原因包括:(1)網絡問題(網絡信號弱,網絡負載大,小區切換延遲);(2)終端問題(終端性能不足);(3)百度服務器問題(訪問量負載過大)。
結合測試環境進行分析,可以排除上面一些不太可能原因:
(1)小區切換延遲(排除)-測試時在辦公環境處于靜止狀態,小區不會無故切換。
(2)終端性能不足(排除)-測試終端當時只開啟了系統自帶瀏覽器,沒有打開任何后臺應用,所以不會受到后臺應用干涉,而造成瞬時性能的瓶頸。
(3)百度服務器問訪問量負載過大(排除)-測試時間為周五15:48 分,此時段為工作時間,在一天的訪問量曲線中,屬于中等偏低的時段,所以服務器負載不會過大。
(4)通過對已安裝軟件的用戶行為記錄工具的測試手機進行信令追蹤。
抓取的基帶日志記錄進行查看,發現與測試訪問百度首頁的時間所對應的日志記錄時間點有明確的數據層數據阻塞的警告記錄,對比記錄吻合,這就表明終端訪問百度首頁時延過長的原因是由于當時用戶傳輸數據量較大或網絡傳輸帶寬資源不足引起數據阻塞而造成的問題。同時信號強度信息顯示34(rssi),58(ber),其中換rssi 值可以換算為-45dbm,信號極好,從而排除了信號弱的可能性。
基于上述分析,最終的解決方案為:目前互聯網時代正處于高速發展階段,用戶量及業務需求量正在大幅增加,原有網絡傳輸通道或資源在高用戶集聚區或高業務需求區會出現如本案例一樣的資源不足造成數據阻塞或其它類似的問題,我們需要對現有網絡傳輸架構及設計在容量方面進行提升,以便更好的業務服務質量,提升用戶感知及對品牌的認可度。
基于各廠家終端抓包手段及通用抓包的遍歷性中總結、提煉,本文開發出了一套用戶行為日志管理系統,從“用戶行為記錄”、“基帶、IP 日志抓取”,到“終端行為日志管理”,可以幫助各移動運營商在錯綜復雜的終端問題分析中,高效率開展終端端到端問題分析管理工作。該軟件已進行應用落地,試運行基于通用終端的手機抓包軟件工具并實施日志管理,為提升終端質量提供新的視角和抓手。傳統的分析方法和數據源無法有效識別潛在終端問題、終端環境的關聯因子、無法定位信令層問題原因。而借助通用終端日志抓包工具,湖北公司構建了系統性的終端用戶行為分析管理辦法,高效地捕捉終端問題的行為因素、日志詳情,從而有效識別潛在的問題關鍵因子,提升針對終端問題的分析解決效率。在問題定位率從不到20%提升至60%左右,定位率提升2倍以上。