馬永剛
【摘要】 介紹了ZXSM2500光傳輸設(shè)備中的故障管理系統(tǒng),詳細(xì)分析了告警信息的查詢和處理方法,并以常見故障的分析和排除為例,說明故障管理系統(tǒng)在光傳輸網(wǎng)絡(luò)管理中的應(yīng)用,為快速查詢、處理故障提供了依據(jù)。
【關(guān)鍵詞】 光傳輸設(shè)備 故障管理 告警信息
ZXSM2500設(shè)備是由中興通訊股份有限公司生產(chǎn)的光同步傳輸設(shè)備,一般與中興ZXSM 150/600配合使用,可為用戶提供從小容量本地網(wǎng)、中容量中繼網(wǎng)或二級(jí)干線網(wǎng)到大容量一級(jí)干線網(wǎng)的一整套全面?zhèn)鬏斀鉀Q方案,廣泛應(yīng)用于民網(wǎng)和軍網(wǎng)的傳輸系統(tǒng)中。該設(shè)備提供了強(qiáng)大的網(wǎng)管功能,在網(wǎng)元級(jí)和網(wǎng)絡(luò)級(jí)對(duì)SDH(數(shù)字同步傳輸體系)網(wǎng)進(jìn)行管理,包括配置管理、故障管理、性能管理和安全管理等功能。其中,故障管理系統(tǒng)監(jiān)測整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài),并通過告警信息與用戶發(fā)生交互,用戶通過查詢、處理各種告警信息就可以了解掌握整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài),及時(shí)處理故障,保障通信的正常運(yùn)行。所以及時(shí)有效地對(duì)告警信息進(jìn)行查詢和處理在光通信網(wǎng)絡(luò)故障管理中顯的尤為重要。
一、故障管理系統(tǒng)的基本功能
ZXSM2500設(shè)備提供一個(gè)外部告警開關(guān)量輸入接口,即SWITCHING INPUT接口。可輸入4個(gè)TTL電平開關(guān)量作為監(jiān)控告警輸入,當(dāng)檢測到通信類故障和外部環(huán)境的風(fēng)扇、開門、溫度等告警時(shí),可以通過NCP(網(wǎng)元控制處理)板上報(bào)到網(wǎng)管中進(jìn)行監(jiān)視。故障管理系統(tǒng)是檢測設(shè)備故障、故障定位和故障排除等措施有關(guān)的網(wǎng)絡(luò)管理功能,其目的是保證網(wǎng)絡(luò)能夠連續(xù)、可靠的工作。設(shè)備的告警輸出接口為電源告警單元的ALARM接口,用于將設(shè)備的告警狀態(tài)輸出至機(jī)房列頭柜或告警箱,告警狀態(tài)可通過繼電器的開合輸出開關(guān)信號(hào)表示[2]。
二、告警的查詢和處理
故障管理具有對(duì)設(shè)備的檢測、診斷、恢復(fù)和故障排除等有關(guān)的網(wǎng)絡(luò)管理功能,保障網(wǎng)絡(luò)能夠提供連續(xù)可靠的運(yùn)行。故障管理從用戶得到當(dāng)前可接受的服務(wù)質(zhì)量門限和故障查詢請(qǐng)求,從性能管理得到當(dāng)前網(wǎng)絡(luò)運(yùn)行分析結(jié)果,從配置數(shù)據(jù)庫得到設(shè)備配置信息。當(dāng)發(fā)生故障時(shí),通過配置管理修改配置參數(shù)以修復(fù)或隔離故障部件將故障數(shù)據(jù)交給性能管理以分析網(wǎng)絡(luò)可用性,向用戶報(bào)告原因和處理結(jié)果,提出處理建議。
2.1告警查詢
2.1.1告警信息的收集
網(wǎng)絡(luò)系統(tǒng)可以采用定時(shí)采集和手工采集兩種方式對(duì)告警信息進(jìn)行收集。定時(shí)采集可以以某一設(shè)定的時(shí)間間隔定時(shí)對(duì)告警信息進(jìn)行收集;手工采集則由操作員設(shè)定需要采集的網(wǎng)元、單板、支路、告警類型、告警內(nèi)容等信息,系統(tǒng)按照設(shè)定進(jìn)行采集。采集的告警信息包含的內(nèi)容有:告警類別(處理類告警、通信類告警、服務(wù)告警、設(shè)備告警、環(huán)境告警等),告警級(jí)別(一般告警、嚴(yán)重告警),告警內(nèi)容,告警原因,告警對(duì)象,告警時(shí)間等。
2.1.2 告警信息的查詢
告警查詢是對(duì)網(wǎng)元側(cè)告警進(jìn)行主動(dòng)查詢。網(wǎng)管上的告警可能由于網(wǎng)管誤報(bào)、通訊中斷等原因與網(wǎng)元側(cè)的實(shí)際告警數(shù)據(jù)不一致,根據(jù)告警種類正確判斷網(wǎng)絡(luò)運(yùn)行情況,這就需要執(zhí)行告警查詢,將網(wǎng)元側(cè)的告警查詢上來。告警查詢還有一個(gè)功能是用于將非自動(dòng)上報(bào)的當(dāng)前告警或查詢到網(wǎng)管上,有利于一些相關(guān)故障的處理。網(wǎng)元告警上報(bào)包含的內(nèi)容:將告警按嚴(yán)重程度分為嚴(yán)重告警、一般告警和事件告警,按告警發(fā)生源分為傳輸告警、設(shè)備告警、外部事件告警、性能告警和軟件告警,按告警狀態(tài)分為當(dāng)前告警和歷史告警。所有應(yīng)管理的告警如下:
(1)傳輸告警
傳輸告警與STM-N傳輸信息流有關(guān),包括:
LOS(Loss of signal)接收信號(hào)丟失
LOF(Loss of frame)幀丟失
LOP(Loss of pointer)指針丟失
RDI(Far end receive failure)遠(yuǎn)端接收失效
AIS(Alarm indication signal)告警指示信號(hào)
(2)設(shè)備告警
設(shè)備告警告警與構(gòu)成SDH系統(tǒng)的物理設(shè)備有關(guān),如板的拔/插、電源故障、時(shí)鐘故障等。
(3)外部事件告警
外部事件告警是與設(shè)備環(huán)境有關(guān)的告警,如機(jī)房門開、火災(zāi)、水災(zāi)、高溫等。
(4)性能告警
性能告警即性能超值告警,如性能門限的設(shè)置,性能設(shè)置門限可以根據(jù)網(wǎng)元運(yùn)行優(yōu)劣情況進(jìn)行,一般不高于正常值的20%。
(5)軟件告警
軟件告警主要是對(duì)NCP上程序運(yùn)行過程中檢測到的通信故障和程序錯(cuò)誤進(jìn)行告警。
2.2告警處理
基于以上分類和內(nèi)容,管理系統(tǒng)應(yīng)做到:
1)主動(dòng)上報(bào)告警:設(shè)備發(fā)生告警,MCU(微處理器)檢測到,立即主動(dòng)上報(bào)給NCP;NCP收到MCU上報(bào)的告警,或自己檢測到告警,立即上報(bào)給SMCC(網(wǎng)管系統(tǒng)監(jiān)視監(jiān)控中心);SMCC收到NCP上報(bào)的告警后,立即向操作員提示或選擇性地上報(bào)ZXSM-OS(中興網(wǎng)管系統(tǒng))。2)請(qǐng)求報(bào)告告警:在某些時(shí)候,SMCC可以請(qǐng)求NCP上報(bào)其所有和某些類別的告警;NCP也可以請(qǐng)求MCU上報(bào)所有當(dāng)前告警。3)允許/禁止主動(dòng)上報(bào)某些類別的告警:SMCC可以設(shè)置NCP某些類別或所有的告警允許/禁止主動(dòng)上報(bào);NCP可以禁止/允許MCU主動(dòng)上報(bào)告警。4)請(qǐng)求報(bào)告允許/禁止主動(dòng)上報(bào)告警的狀態(tài):SMCC可以請(qǐng)求NCP上報(bào)允許/禁止主動(dòng)上報(bào)告警的狀態(tài);NCP可以請(qǐng)求MCU上報(bào)允許/禁止主動(dòng)上報(bào)告警狀態(tài)。5)告警過濾:當(dāng)若干個(gè)告警同時(shí)發(fā)生時(shí),若這些告警是相互關(guān)聯(lián)的,網(wǎng)管系統(tǒng)應(yīng)能在若干個(gè)告警中找出最主要的告警,目前只考慮在MCU級(jí)過濾。6)告警定位:網(wǎng)管系統(tǒng)對(duì)發(fā)生的告警,應(yīng)能定位到某站、某單板、某支路,時(shí)間標(biāo)記精確到秒。7)告警查詢:SMCC的操作者能根據(jù)告警時(shí)間標(biāo)記、告警狀態(tài)、告警位置、站點(diǎn)、板槽位、支路號(hào)、告警類型、告警嚴(yán)重程度等條件進(jìn)行組合查詢。8)告警刷新:當(dāng)前告警有兩種動(dòng)態(tài)顯示方式,一是在網(wǎng)絡(luò)拓?fù)鋱D中,已發(fā)生告警的網(wǎng)元圖標(biāo)和單板用醒目顏色顯示或有告警燈閃爍;二是在網(wǎng)絡(luò)導(dǎo)航樹中,已發(fā)生告警的網(wǎng)元圖標(biāo)以及從頂層子網(wǎng)圖標(biāo)到該圖標(biāo)的路徑用醒目顏色顯示。告警刷新操作是將網(wǎng)管后臺(tái)數(shù)據(jù)庫中的告警信息與前臺(tái)的顯示信息同步,實(shí)際是顯示窗口的刷新。此項(xiàng)操作不與網(wǎng)元交互信息,刷新后網(wǎng)管上即時(shí)顯示的告警信息對(duì)處理故障是相當(dāng)重要的。9) 告警屏蔽:告警屏蔽設(shè)置用于設(shè)定告警是否上報(bào)網(wǎng)管,設(shè)置為屏蔽狀態(tài)的告警將不再上報(bào)。系統(tǒng)對(duì)每個(gè)告警的初始設(shè)置均為非屏蔽狀態(tài)。配置好網(wǎng)元的告警設(shè)置后存盤,將配置數(shù)據(jù)下載到NCP板上,這時(shí)設(shè)置的參數(shù)才能生效。
三、常見故障處理
從實(shí)際工作中講,應(yīng)先收集故障現(xiàn)象和網(wǎng)管告警信息,定位故障站點(diǎn),然后利用網(wǎng)管和測試工具來確認(rèn)。用故障現(xiàn)象和網(wǎng)管告警信息來定位故障時(shí),應(yīng)按從嚴(yán)重告警到一般告警,從線路板、時(shí)鐘板告警到交叉板、支路板告警的順序進(jìn)行。需要注意的是,使用網(wǎng)管操作時(shí),應(yīng)先采集NCP時(shí)間,證實(shí)網(wǎng)管有效,否則一切操作均無效。
下面以兩個(gè)常見故障為例,說明如何利用故障管理系統(tǒng)完成故障定位和故障排除。
故障一
現(xiàn)象:2M通道中斷或不通。
分析和處理:①查詢網(wǎng)管中故障管理系統(tǒng),發(fā)現(xiàn)有TU-12終端數(shù)據(jù)丟失的告警,說明該2M口有收故障。②通過取NCP時(shí)間證實(shí)網(wǎng)管可用和有效,并進(jìn)行告警刷新操作;③采集當(dāng)前告警,查看是否有其它更高等級(jí)的告警,并確定告警狀態(tài)和告警位置;④在網(wǎng)管上對(duì)該2M口做“線路側(cè)環(huán)回”、“終端側(cè)環(huán)回”,或光線路板做環(huán)回,通過網(wǎng)管告警和兩端交換機(jī)的DT(數(shù)字中繼)板狀態(tài),來判斷哪一段不正常;⑤用誤碼儀來測試通斷情況,以便更準(zhǔn)確的定位故障。
此種故障的原因一般有如下幾種可能:①2M線短線或斷線;②2M線收發(fā)接反;③2M混線;④2M支路接口盒故障;⑤2M支路板故障。
故障二
現(xiàn)象:NCP板有告警,網(wǎng)管無相應(yīng)告警。
分析和處理:
①取該站點(diǎn)的NCP時(shí)間證實(shí)網(wǎng)管是否通訊正常;②采集該站點(diǎn)的當(dāng)前告警(有時(shí)需要多次采集);③查看告警上報(bào)設(shè)置。因?yàn)榫W(wǎng)管將告警分為主動(dòng)上報(bào)(此告警一產(chǎn)生,NCP板立刻上報(bào)網(wǎng)管)和非主動(dòng)上報(bào)(網(wǎng)元產(chǎn)生此告警,網(wǎng)管只有采集當(dāng)前告警,NCP才上報(bào));④若告警還不一致,復(fù)位該NCP板或重新下載該站點(diǎn)的告警等級(jí)庫。
四、結(jié)束語
通過對(duì)設(shè)備故障管理系統(tǒng)的查詢分析,可以及時(shí)、準(zhǔn)確的了解整個(gè)系統(tǒng)網(wǎng)絡(luò)的運(yùn)行狀態(tài),分析故障產(chǎn)生原因,并判斷故障所在位置,為快速處理故障,恢復(fù)通信暢通提供了保證。
參 考 文 獻(xiàn)
[1] 陳雄. 中興ZXSM2500SDH光傳輸系統(tǒng)[J]. 電信科學(xué),1998.
[2] 中國郵電電信總局主編.《SDH傳輸設(shè)備維護(hù)手冊(cè)》.北京:國防工業(yè)出版社,2008.
[3] 中興通訊股份有限公司.《ZXSM數(shù)字復(fù)用設(shè)備手冊(cè)》.2003
[4]《光同步數(shù)字傳輸系統(tǒng)測試》 鄧忠禮 趙暉編著 北京,人民郵電出版社 2007