蔣修華



摘要:VOLTE網絡問題通過單一的無線測試和分析往往不能完整地得到定位,需要各個環節端到端配合進行端到端的分析才能解決。文章對VOLTE端對端優化進行了分析。
關鍵詞:終端支持;運維;設備成熟度
1VOLTE概述
由于VOLTE涉及網元更多,網絡結構與信令流程更復雜VOLTE的網絡問題與傳統網絡問題分析方式有較大區別,需要各個環節端到端配合進行端到端的分析才能解決。
2VOLTE存在的問題
現網VOLTE目前主要存在終端支持能力差、運維支撐能力弱、設備成熟度低三大類問題。
終端支撐能力差主要表現:終端穩定性差,與網絡兼容性問題多,部分功能缺失。終端穩定性差導致VOLTE接通率、掉話率、切換成功率低、ESRVCC切換成功率低。用戶感知度較低。終端與網絡兼容性問題多導致ESRVCC切換成功率低導致用戶在LTE網絡覆蓋不好的時候不能及時發生ESRVCC切換導致掉話,用戶感知度低。終端的部分功能缺失導致用戶不能享受視頻通話和高清語音通話。用戶感覺現實體驗與廣告差距較大,導致用戶對LTE網絡不認可。由于用戶對通信知識了解不是很多,用戶很少會懷疑自己手機問題,基本上都會撥打投訴電話,導致用戶投訴比較高。
運維支撐能力弱主要表現:設備可維護性差、設備存在部分安全隱患、廠家技術支撐薄弱。由于LTE網絡技術成熟度還有待提高,并且LTE網絡扁平化,造成設備問題不能明確定位問題點,設備可維護性差。目前技術成熟度在不斷完善中,存在部分設備中的安全隱患也在減少,廠家技術支撐在不斷提高中。LTE網絡人員素質也在不斷提高中。
設備成熟度低主要表現:設備穩定性差、技術方案不符合規范要求、廠家IOT配合問題多。由于LTE網絡技術在不斷完善中,設備穩定性在不斷提高,技術方案要求也越來越規范,廠家IOT配合問題在減少。設備成熟低的問題會隨著技術成熟度提聞而不斷提筒。
VOLTE信令是處理VOLTE事件的重中之重,每條的信令采集都涉及端到端的配合。目前控制面鏈接主要在RRC鏈接、NAS鏈接、SIP鏈接,如圖1所示。
RRC鏈接的主要用途是管理空口的DRB測量控制和L2參數下發,通過UU口鏈接由UE開始到ENB終止。NAS鏈接主要用于管E-RAB,QOS控制尋呼被叫等,由UE開始到MME終止如表1所示。
SIP鏈接主要用于管理IMS附著與更新管理SIP會話等,由UE開始到SBC終止,中間要經過SGW和PGW兩個中間網元。
3無線測試問題分析流程
無線測試問題分析流程如圖1所示。
為了方便分析,將VOLTE路測問題分為Ll,L2,L3及SIP問題幾大類。L1問題包括RSRP的覆蓋、RSRQ的質差、SINR等問題。12問題包括PDCP亂序,高BLER、高PADDING和RRC/DRB鏈接建立異常等問題。13問題包括E-RAB接入和建立異常。此時無線側需要核查QOS參數配置是否合理,和MME配合處理。SIP問題包括反饋4XX,5XX,6XX響應碼,出現這樣反饋大多數都需要SBC側配合排查。
L1問題在現網測試中占用比重是最大的,LTE網絡還在發展中,還有許多問題并不能滿足VOLTE的正常使用,這就需要我們進行天線優化以及后臺參數優化來提高用戶感知度。LTE網絡相比較其他網絡對基礎優化要求更嚴格更苛刻。RSRP覆蓋問題主要表現為弱覆蓋和重疊覆蓋,弱覆蓋要根據現場實際情況和后臺基站數據以及MR等多種分析手段來決定天線優化和功率優化,或者進行補點優化。重疊覆蓋要根據現場實際情況和后臺基站數據以及MR等多種分析手段找出合理的主服務小區。RSRQ的質差問題主要表現為RSRP&SINR較好RSRQ值較差。根據多平臺指標和現場實際情況來提出優化方案和解決措施。SINR問題主要是來自下行的干擾,多數PCI同模導致。
L2問題一般都是參數和容量問題,當出現PDCP亂序、高BLER等,就需要核查PDCP/RLC/MAC層參數配置,根據分析情況進行參數優化調整。
L3問題一般都出現在QOS參數配置錯誤和MME問題。當出現NAS錯誤消息時,就需要核查QOS參數配置,如果QOS參數沒問題,需要MME側核查問題,并處理問題。
SIP問題多需要SBC與無線側聯合配合問題分析解決,
如圖3所示。
5.1未接通問題處理流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態查詢,排查是否是由于基站故障與基站底噪引發,查詢終端上行發射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數核查,其中參數核查重點排查鄰區漏配,切換參數,PDCP層QCI5丟失時延和邏輯信道優先級配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,再次排查未建立QCI1專載的原因,最后排查INVITE503原因。(3)尋呼流程排查。首先需要IMS側核查INVITE重發機制,其次排查CSRETRY定時器是否合理,
再次排查MME尋呼策略重點關注MME側是否存在二次尋呼等問題。再次排查PGW信令緩存功能配置是否合理,再次排查DRA信令緩存功能,最后排查ENB尋呼策略重點關注是否是由于尋呼擁塞導致。(4)SIP流程排查。首先進行SIP消息時序標桿對比根據“三步五分鐘方法”來判斷問題出現在哪里。其次排查是否存在IMS注冊超時引起的未接通,再次排查BYE200延遲,最后排查是否為SIP信令丟失導致的。
5.2掉話問題處理流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態查詢,排查是否是由于基站故障與基站底噪引發,查詢終端上行發射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數核查,其中參數核查重點排查鄰區漏配,切換參數,PDCP層QCI5丟失時延和邏輯信道優先級配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,再次排查掛機延遲導致去激活的QI1專載的原因。(3)EPC流程排查。首先查看通話過程中異常釋放的原因值,其次查看是否存在TAU更新異常,再次排查傳輸丟包,最后排查QOS參數配置。(4)SIP流暢排查。首先進行SIP消息時序標桿對比根據“三步五分鐘方法”來判斷問題出現在哪里。其次排查是否存在IMS注冊超時引起的未接通,再次排查BYE200延遲,最后排查是否為SIP信令丟失導致的。endprint
5.3語音質差排查流程
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態查詢,排查是否是由于基站故障與基站底噪引發,查詢終端上行發射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數核查,其中參數核查重點排查鄰區漏配,切換參數,PDCP層QCI5丟失時延和邏輯信道優先級配置。(2)專載管理排查。首先編碼方式排查,其次排查QOS參數配置,再次排查IMS編碼轉換,最后排查被叫CSFB占比過高引起的質差。(3)語音質量。首先排查丟包率,其次排查端到端時延。
5.4eSRVCC切換失敗問題
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態查詢,排查是否由于基站故障與基站底噪引發的,查詢終端上行發射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數核查,其中參數核查重點排查鄰區漏配,切換門限,eSRVCC功能開啟。(2)核心網問題。首先是跨廠家配合問題,其次是跨POOL切換問題,再次EMSC參數配置是否正確,再次是HSS參數配置是否正確,最后IMS參數配置核查。(3)SRVCC功能是否開啟。(4)時延控制。控制面時延小于100ms,控制面時延小于350ms。
5.5呼叫建立時延
(1)排查無線因素。首先要進行問題路段和占用基站運行狀態查詢,排查是否是由于基站故障與基站底噪引發的,查詢終端上行發射功率,進行上行干擾排查。其次排斥問題點無線覆蓋以及下行干擾。再次進行參數核查,其中參數核查重點排查鄰區漏配,切換參數,調度參數,QCI1/5的參數配置。(2)專載管理排查。首先排查是否由于切換流程與建立QCI1專載流程沖突,其次排查異常QCI1專載去激活,核查被叫是否發生回落。(3)尋呼流程排查。核查ENB尋呼策略關注是否尋呼擁塞,核查DRA信令緩存功能,核查PGW信令緩存功能,查詢MME是否存在二次尋呼,排查IMSINVITE重發機制,核查IMSCSRETRY定時器是否滿足要求。(4)SIP流程。SIP消息時序標桿對比根據“三步五分鐘方法”來判斷問題。其次排查是否存在IMS注冊超時引起的掉話,最后排查是否為SIP信令丟失導致的。
6VOLTE問題分析經驗總結6.1方法總體簡介
在日常的優化工作中,路測分析是發現并解決問題的重要手段。在VOLTE測試的過程中,掉話、未接通是最常見的事件類型,對客戶感知影響較大,是優化工作的重點。通過大量的事件分析和經驗總結,歸納出一種行之有效、快速、精準、高效定位VOLTE業務中異常事件原因的方法,即“三步五分鐘”分析定位法(見圖4)。
看流程:是以上行鏈路問題標準信令流程和下行鏈路問題標準信令流程為基礎。
測試分析兩大維度:空口信令分析和無線情況分析
空口信令分析:空口為手機到ENodeB的接口,該接口的信令流程是判定路測異常事件的主要依據,也是進行異常事件分析的最有效的手段。
無線情況分析:DT測試數據清晰反應該路段的RSRP,RSRQ,SINR等基本信息,是判斷UE接入環境最直觀的因素。
辯特征:從兩個維度分析判定特征空口信令的典型特征和事件地點的無線特征。
定方案:精準定位形成掉話的4大原因,總結優化方案。6.2上行鏈路問題掉話原因判定
看流程:(1)手機上行鏈路問題不會進行RRC的重建。
(2)手機會發起RRC重配置,但重配置肯定失敗,因為MME己經釋放了手機的上下文信息,重配置無法完成QCI=1的專載的建立。(3)網絡側會下發BYE,會產生掉話。
辨特征:(1)網絡側會下發RRCConnectionRelease,釋放RRC連接。(2)隨即手機上發servicerequest請求接入,進行RRC重配置;RRC重配置只建立了QCI=5,QCI=9的承載。
(3)手機收到網絡下發的BYE消息,里面帶有中興CAUSE值:B200-151558。
定方案:(1)如果下行覆蓋良好,建議排查上行的干擾問題。(2)如果下行覆蓋較差,建議進行覆蓋優化。
6.3下行鏈路問題導致掉話原因的判定
看流程:手機在下行鏈路出問題后,會進行RE重建,RE重建失敗后,手機發起RRC重配置請求,RRC重配置成功可以重新建立通話,不掉話。
辨特征:手機下行鏈路出問題后會進行RE重建,不會進行RRC連接釋放,重配置可以完成QCI=1,QCI=5,QCI=93種承載的建立。
定方案:雖然RRC重配置有機會重新建立通話,不會掉話,但也是掉話發生的隱患路段,建議排查下行失步原因,進行RF優化消除下行弱覆蓋和干擾問題。
6.4上下行鏈路問題導致掉話的判定
看流程:(1)手機下行失步后,進行重建,重建失敗后,手機會發起RRC重配置。(2)但由于同時又上行失步,MME己經釋放了手機的上下文信息,重配置無法完成QCI=1的專載的建立,網絡側會下發BYE,會產生掉話。
辨特征:(1)手機下行失步進行重建,重建失敗后進行RRC重配置。(2)重配置期間又由于上行失步無法建立QCI=1的專載,最終導致掉話。(3)重配置前由于下行先失步,手機可能無法收到網絡側下發的RRCConnectionRelease消息。
定方案:(1)如果下行覆蓋良好,建議排查上下行的干擾問題。(2)如果下行覆蓋較差,建議進行覆蓋優化。
6.5下行弱覆蓋重定向到TD網絡導致掉話的判定
看流程:在進行VOLTE業務時,在4G弱覆蓋的場景下,由于ESRVCC切換的判決門限與數據業務重定向A2門限相差不大,加上弱覆蓋場景下信號的波動,導致做Volte業務時,終端容易觸發數據業務重定向A2,而不是觸發ESRVCCB2事件切換至2g小區,從而導致VoLTE語音業務中斷發生掉話事件。endprint
辨特征:網絡側會下發RRCConnectionRelease,攜帶重定向消息,并有TD小區的主頻號,隨后重定向到TD網絡。
定方案:(1)優化弱覆蓋路段的覆蓋。(2)調整小區重定向的時延參數a2timetotriggerredirect:由512ms調整為2560ms。
7VOLTE案例分享
7.1上行鏈路問題掉話典型案例描述
(1)通話狀態下的手機于11:07:04:484收到網絡側下發的RRCConnectionRelease消息,此時下行覆蓋與SINR良好。
(2)手機發起ServiceRequest,進行RRC重配置,重配置信息包含建立的2中承載:QCI=5,QCI=9,因為MME釋放了的上下文信息,RRC重配置無法建立QCI=1的專載。
(3)隨后手機收到網絡側下發的BYERequest,攜帶中性的B200-151558-1消息,結合上行信道發射功率逐漸增到的情況,判定為上行失步導致的掉話。
7.2下行鏈路問題掉話典型案例描述
(1)通話狀態的手機在14:29:39:298發起RE重建請求,原因otherfailure。
(2)RE重建被拒絕后,手機發起ServiceRequest,進行RRC重配置,重配置信息包含建立的3中承載:QCM,QCI=5,QCI=9,重配置成功完成之后重新建立通話,不會掉話。重配置前后如果覆蓋小區發生改變,會進行TAU的更新。
7.3上下行鏈路問題導致掉話的典型案例描述
(1)從手機信令流程看,手機占用239202/0信號,覆蓋電平為-102dBm,SINR為-2.8,覆蓋及通話質量較差,手機在11:07:04發起RE重建,原因是下行RLF,RE重建未能成功。
(2)隨后手機發起RRC重配,從RRC重配信息來看,只建立了QCI=9和QCI=5的承載,沒有建立QCI=1的承載,隨后收到網絡側下發的BYE,并收到手機側回復的OK。
(3)網絡側下發的BYE攜帶中興的B200-151558-1消息,判定是上行問題導致上行RLF,MME釋放了手機的上下文信息,RRC重配無法建立QCI=1的專載,重配置失敗導致掉話。7.4下行弱覆蓋重定向到TD網絡導致掉話的典型案例描述
(1)手機在通話中,占用文化局-L1小區信號,在問題區域覆蓋電平弱到-114dBm左右,SINR差,鄰區中無較強信號,通話質量惡化;達到了小區的重定向門限后,觸發重定向至TD網絡,導致VOLTE掉話。
(2)查看文化局-L1的參數設置:A2(threshold4)設置為-120,b2ThresholdlGERAN設置為-116,兩個值設置比較接近;而重定向的時延參數a2timetotriggerredirect設置為512ms〇
7.5MME處理NegotiatedQOS不正確,導致視頻呼叫失敗
案例描述
終端做視頻呼叫測試時,有時候出現主叫呼叫后馬上斷掉,被叫無任何反映的情況。
(1)在456消息里PCRF向SAEGW發送RAR,指示SAEGW為語音和視頻建立專用承載。在RAR消息里,視頻QCI=2在前,音頻QCI=1在后。
(2)在464消息里,SAEGW向MME發送Createbearerrequest,視頻QCI=2在前,音頻QGI=1在后。
(3)在468消息里,MME向ENB發送E-RABsetuprequest。QCI=2的EPS的QOS和NegotiatedQOS里的上下行速率相差極大(事實上NegotiatedQOS跟音頻QCI=1的專載相同)。
7.6INVITE503錯誤分析描述
(1)主叫收到INVITE100,因專載建立和RRC切換流程沖突,專載建立北eNB拒絕或出現未知的EnbUESlAPIDo
(2)主叫收到INVITE100,被叫無尋呼或尋呼但未收到INVITE,主叫未建立QCI1專載,疑為SBC-PRCF-PGW-MME之間的交互錯誤有關。
(3)主叫收到INVITE180,網絡下發RRCConnectionReconf(攜帶drd-ToAddModList,不是drd—ToReleaseList)異常去激活QCI1專載,網絡下發503,疑與EPS有關。
(5)主叫發出INVITE之后,主叫出現無線鏈路失敗,SBC己經發出INVITE100,導致尋呼主叫且尋呼不到主叫,QCI1專載建立失敗,網絡發出503,但終端未收到,如圖5所示。
7.7從系統消息判斷PGW問題描述
(1)SIP消息和RRC消息:INVITE100和創建專載的順
序有先有后,INVITE183和修改專載的順序有先有后。
(2)SIP消息和SIP消息:UE發送UPDATE和UE收到PRACK200OK的順序在不同場景下前后順序會互換,如圖6所不。
備注:(1)主叫側SBC同步進行,主叫側的專載建立和被叫側的錨定和域選操作,可以加速接續。(2)在SBC處將觸發SIP和RRC消息的并行執行。一般的SIP消息通過Gm接口可以快速到達UE。如果INVITE100滯后于專載建立流程,應當檢查PGW是否存在不及時發送SIP消息的問題。
8結語
目前VOLTE網絡尚不完善,系統與終端設備成熟度需要進一步提升。優化經驗和支撐手段需要積累,QoS控制和多承載優化(接入用戶數和控制信道負荷)是VOLTE未來優
(4)主叫專載建立完成,被叫發出INVITE183,此時化的重點和難點,而建立一個支撐端到端優化管理維護工具主叫無線鏈路質差,主叫未收到183且未啟動專載修改,之后是關鍵。endprint