【摘要】華為ATCA平臺和原CPCI平臺在業(yè)務(wù)能力的提供上保持一致,但ATCA平臺采用集成度高的UPB(通用業(yè)務(wù)處理)單板,軟件性能發(fā)揮硬件多核多CPU的優(yōu)勢,引入“GCU業(yè)務(wù)進程組”的概念。因此在硬件故障處理上與CPCI平臺略有不同。本案例主要講述ATCA平臺下業(yè)務(wù)單板故障的處理過程,供大家參考。
【關(guān)鍵詞】ATCU硬件平臺GCUBSGCCU
一、故障背景
6月20日邯鄲測試新局HDGS11上報0框1槽GCU單板故障,同時有M3UA鏈路故障告警。經(jīng)過多次撥打測試發(fā)現(xiàn)被叫有時不能正常接通。由于上面配置有CCU/CDB/VDB/BSG進程模塊,除了BSG模塊是負荷分擔外,其它都是主備用的,當時在1槽是主用的模塊已經(jīng)倒換到了0槽。但由于BSG上配置有M3UA鏈路,導致該BSG上的M3UA鏈路故障。
二、問題、事件描述
0框1槽GCU單板配置有CCU/CDB/VDB/BSG進程模塊,除了BSG模塊是負荷分擔外,其它進程模塊都是主備用的。在1槽GCU單板故障時,在1槽是主用的模塊均倒換到了0槽。但由于BSG模塊是負荷分擔,1槽模塊上配置有M3UA鏈路,所以導致該BSG上的M3UA鏈路故障。
三、分析與對策
1.單板故障原因分析從單板故障日志可以看到“VRD Power: Power supply failure.”的打印,即0框1槽單板VRD電源硬件故障失效且不穩(wěn)定,引起單板內(nèi)的VRD電源模塊供電不足,單板異常下電;單板VRD供電不穩(wěn)定導致單板反復重啟,一直無法進入操作系統(tǒng),頻繁引起單板異常下電告警。
2.0槽的WCCU模塊記錄的到1401、1403BSG模塊鏈路狀態(tài)正常(這兩個BSG在1槽單板,實際已經(jīng)故障),造成三種撥測失敗現(xiàn)象:現(xiàn)象一:取漫游號碼時沒有位置區(qū),被叫失敗。沒有位置區(qū)時,POOL局點默認不會下發(fā)全網(wǎng)尋呼,因此也不分配漫游號碼。沒有位置區(qū)的原因,也是由于1300,1301VDB的用戶位置更新失敗(同樣是位置更新的時候,這些WCCU將消息發(fā)到了故障BSG),刪除了用戶數(shù)據(jù),做被叫時觸發(fā)了被叫恢復,但POOL局點不會成功,因為POOL局點關(guān)閉了全網(wǎng)尋呼;現(xiàn)象二:取漫游號碼失敗。若HLR將PRN消息送到這些WCCU模塊,返回PRN時,同樣可能送給這兩塊BSG,導致失敗。現(xiàn)象三:取路由失敗。若BSC上來的業(yè)務(wù)在這些WCCU上處理,WCCU可能將取路由消息發(fā)給這兩塊故障BSG,而這兩塊BSG的鏈路是故障的,所有消息無法發(fā)出。發(fā)給其他BSG則正常處理。綜述,只要用戶位置更新成功,或者做一次主叫,就能解決現(xiàn)象一。若業(yè)務(wù)進入了異常WCCU和故障BSG這條路徑處理,則出現(xiàn)呼叫受損。
3.出現(xiàn)異常WCCU和故障BSG路徑的原因1槽單板上有1401,1403兩個BSG模塊,0槽和1槽的WCCU模塊互為主備。單板故障后,平臺檢測到BSG故障,會通知0槽的1000至1007的WCCU模塊刷新鏈路狀態(tài),WCCU正好是從備升主的倒換過程,此時刷新鏈路狀態(tài)失敗,這些WCCU仍然認為這兩個BSG上的鏈路仍然是好的,所有消息有可能發(fā)給故障BSG,造成業(yè)務(wù)受損。
四、處理結(jié)果
經(jīng)過分析此故障解決方式有三種:
(1)與故障單板形成主備關(guān)系的單板(如1槽和0槽),將該單板上WCCU模塊復位(實際上只要復位由備升主的模塊即可);
(2)更換故障單板,鏈路恢復后,能夠正常處理消息;
(3)督促廠家進行軟件補丁加載徹底解決該問題。
HDGS11的解決方案是對0槽單板的WCCU模塊進行復位后告警消除,故障消失。
建議與討論
對于ATCA硬件平臺同時滿足以下條件,則需要采取規(guī)避措施:1.硬件單板故障后無法正常啟動;2.該單板存在WCCU,WCDB,BSG模塊;3.該單板的BSG上面鏈路以前是正常工作的;故障現(xiàn)象:1.做用戶跟蹤撥測隨機失敗,局內(nèi)或者局間,被叫在本局,發(fā)現(xiàn)這些WCCU模塊的SRI消息20秒超時無響應(yīng)或者PRN消息分配后沒有IAM入局;2. UMTS或者GSM用戶發(fā)話話務(wù)測量的接通率下降明顯;3.話統(tǒng)任務(wù)中的全局失敗原因值中的115和230原因值有明顯增加【恢復措施和方案】恢復措施:和故障單板形成主備關(guān)系的單板(如1槽和0槽),將該單板上WCCU模塊進行復位。