OLT作為局端設(shè)備,主要用于對終端業(yè)務(wù)的控制和承載,同時在整個接入網(wǎng)絡(luò)中,OLT也作為承上啟下的“業(yè)務(wù)橋梁”,承擔(dān)著故障處理的“分水嶺”的重要責(zé)任。一旦OLT設(shè)備發(fā)生異常故障,就會給終端業(yè)務(wù)造成十分嚴(yán)重的影響。

圖1 大量報錯打印信息
在日常維護(hù)工作當(dāng)中,OLT所引起的故障,大家都已經(jīng)十分熟悉了,而本文則主要給大家分享一種日常不常見的OLT脫管故障及處理方法。
近 日,有 同事發(fā)現(xiàn)某地的烽火GPON機(jī)房5516-01 OLT Telnet登錄失敗,也無法ping通,專業(yè)網(wǎng)管顯示設(shè)備脫管。
步驟1:現(xiàn)場登錄主控盤上,發(fā)現(xiàn)有大量報錯打印,如圖1所示。
步驟2:這是交換芯片的ParityError報錯,芯片廠商的相關(guān)資料如下:
1.概念:ParityError稱為軟失效,軟失效是指由于高能粒子單元對芯片晶元的撞擊,產(chǎn)生大量的電子空穴對,當(dāng)這些帶電粒子的帶電量與芯片存儲單元的閥值電荷量相當(dāng)時,將會導(dǎo)致芯片比特翻轉(zhuǎn)而引起單/多比特錯誤。
2.產(chǎn)生原因:芯片尺寸越來越小,功耗越來越低,晶體管的節(jié)點電壓和工作電壓都隨之降低,使得芯片也越來越容易產(chǎn)生軟失效的問題。
軟失效的原因分為如下兩大類:芯片封裝材料中放射性元素產(chǎn)生的alpha粒子,1%的錯誤是多比特錯誤;宇宙射線的高能中子和低能中子,30%的錯誤是多比特錯誤。
3.失效概率:一般儲存器芯片廠家都會給出芯片的軟失效率(SER)。
單 位 FIT(Fail In Time),即每109個小時芯片發(fā)生軟失效的錯誤數(shù)。根據(jù)芯片儲存容量的不同一般表為FIT/Mb,其中1FIT/Mb=1fail per 109hrs per 106bits=1015fail/bithour。瑞薩提供的SER,封裝材料alpha粒子引起的SER為126FIT/Mb,宇宙射線一起的 SER為 98FIT/Mb。
4.處理機(jī)制:
問題現(xiàn)象:某個表項或者寄存器出現(xiàn)比特翻轉(zhuǎn),導(dǎo)致業(yè)務(wù)中斷。
處理機(jī)制:芯片內(nèi)部硬件周期性快速的檢查所有表項,若檢測到某個表項出現(xiàn)PARITY/ECC錯誤,則通知CPU,CPU使用該表項的軟備份配置重新刷新該表項進(jìn)行恢復(fù)。
注意事項:軟件需要備份存儲所有相關(guān)表項的配置值,若表項很大,則會耗費CPU大量內(nèi)存。
步驟3:經(jīng)過以上分析,以及結(jié)合現(xiàn)場問題的報錯打印信息,確定了該問題是由于主控盤的交換芯片的軟失效導(dǎo)致。
根據(jù)以上排查和分析,確認(rèn)問題原因是由于主控盤的交換芯片的軟失效導(dǎo)致。
1.通過查詢失效業(yè)務(wù)的相關(guān)寄存器,如果發(fā)現(xiàn)有EVEN_PARITY=1,則存在軟失效問題,此時只能重啟單盤解決。
2.如果重啟后仍然上報EVEN_PARITY并且不消失,請更換機(jī)盤。
OLT軟失效脫管故障的發(fā)生,從無法登錄OLT設(shè)備進(jìn)行查看,到維護(hù)人員初步判斷懷疑是鏈路故障、光模塊故障、設(shè)備是否掉電。而失效過程中并沒有收到OLT所帶用戶上報故障,趕到現(xiàn)場也沒有發(fā)現(xiàn)設(shè)備斷電、端口指示燈正常,有數(shù)據(jù)燈閃爍。
如何快速尋找并正確定位處理至關(guān)重要,維護(hù)人員現(xiàn)場通過采用串口線連接設(shè)備,采集設(shè)備日志信息發(fā)送給廠家,分析出產(chǎn)生故障原因,進(jìn)而采取針對性的排錯舉措。