(中國移動通信集團甘肅有限公司,蘭州 730070)
所謂“打電話”,電話可以“打得通”是用戶對網絡質量是否優秀的第一感知。網絡接通率就是對這一用戶感知的直觀反映。VoLTE是全球基礎語音業務的演進方向,是實現全IP網絡結構優化調整的核心,是推動多媒體通信的基礎。但現網VoLTE呼叫也面臨著流程復雜,經過網元類型和數量多,業務觸發復雜,信令交互多,如何能夠實現“打得通”這個與用戶感知密切相關的問題,是網絡維護的關鍵。
本文結合VoLTE網絡接通提升專項優化工作,按照端到端的呼叫流程,將呼叫過程分為不同的階段,以EPC、IMS兩大域的失敗原因為抓手,深入分析呼叫在其域內失敗時所呈現的規律,總結差錯原因對應的場景,提供各場景的解決方案進行相應優化。
利用信令分析系統,對接通失敗問題進行跟蹤分析,總結差錯原因及占比:

表1 差錯碼統計
通過對各類錯誤碼的歸類、統計分析可以看出現網的主要錯誤場景為:
(1)503:Service Unavailable
(2)500:Server Internal Error
(3)408:Request Timeout
將503、500、408三類錯誤映射至EPC、IMS兩大域:梳理出EPC失敗響應錯誤碼及cancel中攜帶異常原因,定位具體失敗場景,如表2。
信令流程分析:VoLTE呼叫建立時,MME通過下發E_RABSetupRequest消息給eNodeB請求建立QCI=1的e-RAB,eNodeB回復E-RABSetupFailure給MME,攜帶原因值notsupported-QCI-value。

圖1
原因確定:eNodeB VOLTE功能開關未打開。
優化措施:(1)提取失敗消息為not-supported-QCI-value的eNodeB ID,根據問題eNodeB ID查找對應的分公司,分公司根據問題eNodeB ID進行開關核查;
(2)優化開站模版,從根本上杜絕該問題再次出現。
2.2.1 radio-connection-with-ue-lost原因值的信令流程分析
(1)在呼叫建立階段,eNodeB上發UEC on text Release Request,攜帶原因值radio-connection-with-ue-lost,表明eNodeB認為UE失聯。

表2 分域失敗原因歸類

圖2
(2)在呼叫建立階段,eNodeB上發UE Context Release Request,攜帶原因值interrat-redirection,表明UE重定向到了2/3G。

圖3
2.2.2 tx2relocoverall-expiry原因值的信令流程分析
在呼叫建立階段,eNodeB上發UEContextReleaseRequest,攜帶原因值tx2relocoverall-expiry,表明發生了X2切換請求,但是X2切換計時器tx2relocoverall超時,MME指示eNodeB釋放了UE上下文,并通過S11接口把承載失敗問題傳送給SAEGW,SAEGW通過Gx接口告知PCRF,PCRF通過Rx接口通知SBC,隨后SBC通過Gm接口給UE發送了503 SIP錯誤碼,造成呼叫失敗。
施工要點:(1)模板沿墩身周邊方向始終保持順向搭接。每一節模板安裝前進行打磨,整修并涂刷脫模劑。腳手平臺、接料平臺、拆模吊籃的荷載要保持平衡,不得超載。施工過程中經常檢查中線和水平情況,有偏差及時糾正。(2)混凝土頂面距模板頂面大于5cm。使用插入式振搗器搗固時應避免接觸模板、對拉螺栓、鋼筋或空心支撐。澆筑混凝土后,強度必須達到2.5MPa以上方可拆模翻倒。(3)拆模后及時用水泥砂漿堵塞對拉螺栓孔及修補表面缺陷。

圖4
2.2.3 Temporary failure原因值值的信令流程分析
此種場景為VOLTE用戶和CS域用戶互通經MGCF,在資源預留階段因為MGCF等待后續消息超時,產生SIP 500錯誤碼,攜帶Q.850原因“41 Temporary failure”。主要為SBC向終端發送消息后,因上行干擾小區或質差小區原因,網絡側沒有收到后續消息引起。

圖5
原因確定:弱覆蓋、X2切換切換失敗、上行干擾小區和質差小區。
優化措施:一是定期梳理干擾小區和質差清單,流轉分公司現場排查;二是形成月度MR弱覆蓋小區清單,下發分公司進行整治;三是對X2口切換請求次數為0次的小區,由平臺自動發現,派發一線逐個核查。
信令流程分析:主叫為VOLTE終端,被叫為VOLTE彩鈴用戶,進行視頻呼叫,當彩鈴AS收到后向的180 RING,向主叫域更新彩鈴的SDP,主叫終端收到更新彩鈴SDP的UPDATE消息后,回復了UPDATE 200 OK,表明主叫終端和彩鈴交互的資源預留已經完成,按規范終端無需發送UPDATE消息,但是問題終端接連發送了兩次UPDATE消息,SBC收到第二條UPDATE消息后,因為第一條UPDATE消息的確認消息UPDATE 200 OK未傳送過來,SBC就針對第二次UPDATE向主叫終端發送了500錯誤碼,終端發起了Cancel,終止了本次呼叫建立過程。

圖6
原因確定:終端版本BUG
選取目前市面上的主流終端進行測試,根據測試結果發現異常發送兩次UPDATE的終端主要為“中國移動”終端。

表3 終端測試分析統計表
優化措施:聯系集團終端公司提交錯誤碼流供終端側分析,根據規范要求進行SDP協商,若第一次回復200 OK且本端和遠端均為強制的情況下,無需再發出UPDATE請求。集團終端公司通過推送新版本解決了該問題。
信令流程分析:被叫SBC收到S-CSCF的invite消息的字節數超過1個MTU(1500字節),在Gm接口選擇TCP協議替代默認的UDP寫來來傳送,被叫SBC嘗試和終端建立TCP連接傳送,連續發送三次,因無線原因終端未回,TCP連接建立5秒后超時,SBC向S-CSCF回復了408錯誤碼。原因確定:UE起呼時Invite消息的長度為2979字節,消息經過貝爾VoLTE域的各個網元后長度達到了 4713 字 節“UE->SBC(2979)->SCSCF->SCCAS(3952)->SCSCF->VoLTE AS(3923)->SCSCF-> 彩印 AS(4004)->SCSCF(4107)->MGCF(4713)。具體分析消息,會發現Invite消息經過貝爾SCSCF后,Invite消息中增加了9個127.0.0.1(環回地址)、6個169.x.x.x(內部單板地址),這就導致Invite消息超過了SBC的最大處理長度(4096字節)。

圖7
優化措施:屏蔽Invite消息中添加的額外地址,保證Invite消息的長度在1個MTU內。屏蔽額外地址后Invite消息中不再添加環回地址和內部單板地址,長度大幅縮小。

圖8
(1)統計2017年12月1日-30日的VoLTE網絡接通率,全部在99.7%以上:

表4 2017年12月VoLTE網絡接通率統計表
對優化結束后的2018年1月至2018年2月每月跟蹤發現,各月VoLTE網絡接通率也均在99.7%以上。
(2)對策實施完成后,利用信令分析系統,對接通失敗問題進行跟蹤分析(數據取自2017年12月份19:00-20:00均值),總結差錯原因及占比,導致VoLTE接通率低的主要錯誤原因值503號、500號、408號的次數和占比均已大幅下降,不再是主要原因。

表5 優化后差錯碼統計
打得通電話,是用戶“高清VoLTE品質體驗”的第1個環節,是穩定VoLTE用戶群和持續發展用戶的保障。本文的目的,就是想通過提升VoLTE網絡接通率來提升用戶對VoLTE網絡使用的感知,同時形成分域失敗分析法,供VoLTE網絡接通率優化人員參考。