屈斌
(河北移動公司,河北 石家莊 050021)
運營商傳輸網目前以SDHPTNOTN承載為主,三種傳輸網絡要完成的工作基本相同,但工作原理有很大差異。SDH屬于硬管道,業務一經分配和配置,通道獨享,通過幀開銷中的固定字節和比特來計算和監測不同斷層的信號傳輸質量并反饋,能夠提前發起預警;PTN屬于柔性通道,帶寬共享,通過在信號封裝解封裝的固定位置解析監測傳輸的信號包的質量,以監控和發現誤碼;OTN網絡類似硬管道,也是通過不同的開銷比特來計算和監測不同的斷層信號質量[1]。
在熟悉和了解了傳輸網絡的誤碼監控機理后,再深入學習各維護手冊上對于誤碼處理的措施和方法,應用到日常維護中,不斷的進行適應和更新,形成一套切實可行并可落地執行的誤碼監控、分析、處理的方法,在網絡運維中,由于傳輸網的組網復雜性,同時各廠家、各平面對于誤碼的監控監測、告警名稱有些不同,維護工程師對于此類誤碼故障的處理比較困難,相信采用此種方法和措施后,將會對網絡工程師處理誤碼類故障起到較好的技術指導和幫助作用。
針對當前傳輸網誤碼類告警、性能事件較多,對承載的業務造成了一定影響,為分析誤碼類告警的產生原理,不同的誤碼類型對業務造成的不同影響,并進行有效地預防和整治優化,特提出本研究課題。
(1)SDH誤碼產生原理。誤碼是指經光接收機的接收與判決再生之后,碼流中的某些比特發生了差錯。SDH系統幀結構中,開銷字節B1、B2、B3、V5分別用于監視再生段、復用段、高階通道和低階通道的誤碼。誤碼監視采用比特間插奇偶校驗方式(BIP)的偶校驗。比特間插奇偶(BIP)校驗是一種監視傳輸質量的方法。其原理是:發送端將附加的奇偶信息插入發送信號中,接收端對同一奇偶性進行核算,并與信號中插入的奇偶信息相比較,如二者不一致,則表明傳輸過程中發生了差錯[2]。
(2)SDH誤碼產生的原因:

表1 SDH 誤碼產生的原因
(3)SDH誤碼告警和分類:

表2 誤碼相關的性能和告警事件
(1)PTN誤碼告警產生原理。通過計算以太鏈路錯誤包數占總包數的比率來產生誤碼越限(dEXC)/信號劣化(dDEG)事件,其比率門限值可以設置。
(2)PTN誤碼告警產生原因:
原因1:線路信號劣化;
原因2:輸入光功率不正常;
原因3:光纖頭表面不清潔;
原因4:對端或本端光模塊出現故障。
(3)PTN誤碼告警和分類:

表3 PTN 各廠家的誤碼告警及性能事件
(1)OTN誤碼產生原理
OTN誤碼監視采用BIP-8編碼方式,編碼字節隨業務一起傳輸,信號誤碼監視范圍包括SM/PM/TCMn三個層次,發送端產生BIP-8編碼置于各段的BIP-8開銷字節內,接收端從信號取出BIP-8開銷后進行誤碼統計。
(2)OTN誤碼產生原因
原因1:光纜或合波部分的尾纖損耗過大或熔接頭反射指標不合格,或者尾纖接頭不清潔;
原因2:設備或單板溫度過高,使信號處理產生異常,產生誤碼;
原因3:DCM模塊配置不合理,在放大信號的同時,使噪聲成級數放大,信噪比降低;
原因4:合波信號光功率異常,光功率過高或過低都可能導致誤碼的產生;
原因5:光功率非線性;
原因6:設備到ODF架的法蘭盤損壞[3];
原因7:PMD嚴重超標,偏振模色散,它的單位是ps/Km,典型值是0.3~0.5ps/Km,與傳輸光纖的質量和長度有關,主要受雙折射和模式耦合兩個因素影響。
(3)OTN誤碼告警和分類:

表4 OTN 網絡與誤碼相關的性能和告警事件
(1)數據業務:數據通信中信息本身幾乎沒有冗余度,只要數據塊錯一個比特,可能會造成壞包,數據塊中錯一個比特或是錯多個比特串效果相同,會造成數據重傳及數據丟包。
(2)語音業務:語音通信中,連續的零星誤碼通常不會造成斷話影響,可能造成電話有雜音,音質下降,一般可以容忍,但對于突發性大誤碼,則很有可能造成掉話或者閃斷等問題。
(3)視頻業務:視頻通信的數據往往是壓縮編碼以后的數據,而壓縮以后的數據對誤碼非常敏感,造成誤碼環境下恢復圖像質量嚴重下降。
(4)政企專線:政企專線業務具體需要參照用戶具體傳輸的業務情況,如數據,語音還是視頻等,可能造成業務閃斷、丟包等問題。
(5)IPTV:會造成IPTV接入用戶網速不穩定,可能導致IPTV無法打開界面,視頻卡頓等現象。
檢查現網誤碼類告警,無不說明原因的緊急級別告警;每條告警有合理存在的原因,確保現網誤碼告警清零,不能清零的告警,必須確認原因。
通過查詢設備及單板當前誤碼性能,判斷設備運行情況是否正常,及時排除故障:
(1)檢查OTU單板、支線路板的性能,收發光功率應在正常范圍之內;
(2)檢查OTU單板、支線路板的性能,糾后誤碼率為0;同時,波分側15m/24h當前和歷史性能中,不可糾錯幀為0;
(3)數據業務檢查是否有異常RMON性能事件;
(4)定期查詢光功率:信號在通過傳輸系統的時候,光功率會產生一些變化。這些變化會影響傳輸線路上光信號的強度和靈敏度。光功率過高或者過低會損壞光器件或者產生誤碼,對業務造成影響[4]。
(5)PTN網管上創建了性能實例進行監控。主要是監控網元/單板運行狀況和網絡流量狀況。
單板性能:網元上的單板是否運行狀況,主要包括單板溫度,CPU和內存利用率。
端口性能:包括端口所在鏈路是否有誤碼、錯包,以及端口上接收和發送的流量、帶寬利用率
激光器性能:監控激光器工作是否正常,主要是關注激光器的功率、溫度和偏置電流等
通過性能平臺,可以實時采集各網管系統上報的性能數據,其中包括光功率、溫度、誤碼等,按照提前設定的派單規則,過濾其中的誤碼性能數據,并按照誤碼告警名稱(SDH:B1-SD、再生段(RS)背景塊誤碼(BBE)越限、RS_SD;PTN: MAC_FCS_SD、 MAC_FCS_EXC、以太網物理接口(ETPI) 信號劣化(SD)、CRC_ERR;OTN: BEFFEC_EXC、15分鐘糾錯后誤碼越限告警、FEC_D_SD)將誤碼告警推送至故障管理平臺,故障管理平臺將故障按照規則進行過濾后,將需要派單的誤碼告警信息推送至工單系統,工單系統結合綜資數據,產生性能故障工單,分別對不同地市、不同網絡相關的設備和端口進行誤碼派單,同時通過IVR語音通知相關處理人員,督促進行處理。
(1)例行查詢誤碼性能:通過網管,定期查詢網元的誤碼性能事件,及時發現問題,以達到在誤碼還沒有嚴重到影響業務之間就處理完成的目的。
(2)例行查詢單板接收光功率:對于支持查詢光功率性能事件的單板,應例行查詢并記錄全網收光功率是否在合適的范圍之內;并將本次查詢的數據,與歷史數據進行比較,如果數據有變化,應查明變化的原因[5]。
(3)關注機房環境和溫度:高溫會影響到設備的正常運行,尤其是高溫對時鐘晶振的影響大。如果機房溫度不能保持在合適的范圍內,則可能會影響時鐘質量,導致出現指針調整甚至是誤碼的情況。
誤碼的處理,常用的方法也先分析、后環回、再替換等:
(1)告警性能分析法:由于環回法對正常業務有影響,因此處理誤碼問題時,一般主要通過對誤碼性能、告警事件仔細分析,定位出故障點。
(2)逐段環回法:若條件允許,可使用環回法快速定位出故障站點。注意: 環回有可能造成ECC不通,要認真分析ECC,確認不會影響網管管理后再進行環回操作
傳輸網是運營商的基礎網絡,傳輸網上承載的各種業務量越來越大,傳輸誤碼對業務感知造成了一定的影響。通過必要的監控手段來及時發現網絡中存在的性能隱患,并分類分級進行原因分析和處理,對改善業務性能,提升業務感知尤為重要。在實踐中,通過以上的方法和手段,可以解決處理網絡中大部分的誤碼性能事件和故障,對提升網絡健康度具有重要的價值。當然,由于作者技術水平有限,同時網絡技術的發展變化日新月異,文中所講的內容可能會存在錯誤和紕漏,歡迎大家進行批評指正。