摘 要:數字同步網是電信網絡的基礎支撐網絡之一,是各業務網高質量運行的保證。華為BITS(通信樓綜合定時供給系統)設備,作為整個通信樓內及通信區域內的專用定時供給發生器,是數字同步網的關鍵節點,現網應用中有V2與V3兩個版本。本文通過對中國移動秦皇島分公司一則非典型的華為BITSV3設備參考源不可用故障,進行儀表現場測試與問題排除,深入剖析故障原因,總結故障處理經驗與預防措施,為華為BITSV3設備的日常維護與故障修復提供借鑒與參考。
關鍵詞:華為BITSV3; 參考源不可用;測試;排除
一、故障現象描述
中國移動秦皇島分公司華為BITS系統連接關系如圖1所示,
(1)秦皇島分公司機房樓BITSV2設備(二級鐘),一方面通過兩套PDH系統轉接至綜合樓,為綜合樓BITSV3設備提供輸入源;另一方面為SDH網絡提供輸入源。
(2)秦皇島分公司綜合樓BITSV3設備(三級鐘),主要為綜合樓不同的MGW/Server核心網交換機提供輸入源。
(3)8月23日晚22:11左右,秦皇島分公司“綜合樓BITS V3”設備產生“系統無主用源”、“MITE(最大時間間隔誤差)、TIE(時間間隔誤差)性能越限”等告警,系統處于自由振蕩狀態,導致部分基站閃報TF(時鐘不同步)告警。
(4)8月24日凌晨2:00左右,通過對“綜合樓BITSV3”設備配置“參考源不參與選源控制”,“綜合樓BITSV3”設備重新鎖定參考源,系統恢復正常,同時基站TF告警消失。
(5)觀察兩天后,8月26日9:13,“綜合樓BITS V3”再次上報“主用源性能越限”告警,導致參考源不可用,并再次進入保持狀態。
二、故障原因分析
根據以上故障現象,分析可能的故障原因有:
(1)機房樓BITSV2輸出或相關連接件故障;
(2)負責輸入源轉接的PDH系統或相關連接件故障;
(3)綜合樓BITSV3設備LCIM(輸入測試板 )板卡或相關連接件故障;
(4)環境溫度影響綜合樓BITSV3設備SOCU(衛星信號接收及晶體振蕩器時鐘單元 )板卡工作異常。
三、現場測試與故障排除
(1)因本次故障現象多次反復,且具有一定的隨機性,因此計劃通過現場儀表測試的方式,逐一排除可能的故障原因,并最終定位故障點。測試前再次確認現網硬件連接情況(如圖1所示)。綜合樓BITS V3為三級鐘配置,2塊時鐘板均為SOCU,以恒溫晶振作為本振。綜合樓BITS V3通過PDH通道跟蹤上游BITS V2輸出的E1信號,并提供時鐘信號給下游其他設備。
(2)8月27日凌晨測試BITS V2設備及BITS V3設備輸出:
本次測試使用兩塊儀表,一是XG7230 sync analyzer,其內部配置銣鐘,除進行測試外還可以為其他儀表輸出基準源;二是JDSU MTS8000,該儀表測試需要外接基準源。
本次儀表測試連接關系如圖2所示:XG7230 sync analyzer 的RX,連接一路“綜合樓BITS V3”的輸入源;TX為JDSU MTS8000提供外接基準源。JDSU MTS8000的RX1連接“綜合樓BITS V3”TSOU板的1路輸出。
測試結果顯示,BITS V2輸出的頻率偏差小于0.1ppb,可以確認BITS V2及PDH輸出正常。BITS V3輸出的E1信號與輸入源一致,小于0.1ppb。因此可排除第1、第2種故障的可能。由于故障現象暫時沒有重現,決定掛表測試一段時間。
(3)8月28日凌晨,為了確定故障點是BITS V2設備還是BITS V3設備,使用兩臺測試儀表,分別同時測試BITS V3設備輸入(BITS V2的輸出)和輸出。多次測試發現,BITS V3設備的輸出存在幾次較大的不穩定,而輸入一直處于平穩狀態。進一步核對性能數據和操作步驟發現,BITS V3設備輸出的幾次不穩定與人員進入機房時間相符,初步懷疑人員進入機房對設備周邊環境產生的影響導致了輸出的變化。但由于這種變化沒有達到故障重現的程度,只能再次進行持續測試。
(4)8月28日上午9:40,綜合樓BITS V3設備再次上報“系統無主用源”、“MITE、TIE性能越限”等告警,故障重現。查看測試儀表確認BITS V3的輸出頻率發生了變化,儀表監測值為5ppb。BITS V3的輸入源測試結果基本不變,為0.1ppb。與機房出入記錄核對發現,此次告警與工程人員進入機房時間相符。到機房現場查看發現,BITS V3設備機柜門被打開,同時對面烽火設備機柜門關閉(前期測試時,該機柜門一直處于打開狀態),此時在BITS V3設備旁明顯感覺到有空調強風。重新恢復前天晚上的兩機柜門的位置,BITSV3輸出的頻率再次發生了變化。儀表監測值為-2ppb,負向變化了7ppb。BITS V3的輸入源測試結果基本不變,為0.1ppb。初步判斷開關機柜門對BITS V3的輸出頻率有一定的影響。
(5)綜合樓機房現場環境及機架位置如圖3所示:
機房專用空調的出風口距離BITS V3約3米,強勁出風直接朝向BITS V3機柜。烽火設備的機柜門打開時,可以恰好擋住風力。經過現場比對,在BITS V3設備機柜門打開的情況下,烽火設備機柜門的打開與關閉,短時間內BITS V3設備周邊的溫度會產生劇烈的變化。與工程人員核實后,結合設備歷史告警、性能發現,BITS V3設備每次上報告警的時間都與工程人員施工時間相符合。
(6)8月29日凌晨,針對白天發生的場景再次進行了測試。還原當時的情況后,故障重現,設備再次上報“系統無主用源”、“MTIE、TIE性能越限”等告警。為了驗證開關機柜門對BITS V3輸出的影響,分別對三塊SOCU單板(兩塊現網單板和一塊備用板)均進行機柜門開關的測試。驗證發現對三塊SOCU輸出的的頻率輸出均有影響,三塊單板的影響分別為頻偏變化5ppb,0.4ppb,0.4ppb。其中一塊SOCU對溫度的影響表現比較大。
(7)最終確定故障點為:開關機柜門導致空調對綜合樓BITS V3設備溫度和風速產生變化,引起了綜合BITS V3設備晶體輸出的頻偏發生變化,最終導致輸入源超限而系統進入保持。現場解決及預防措施:首先,改變機房空調送風方向,由橫向直吹改為上下垂直送風。避免空調對設備直吹,以免設備周邊環境溫度變化劇烈。其次,將綜合樓BITS V3設備由三級鐘升級改造為更加穩定的二級鐘,時鐘板使用SRCU(衛星信號接收及銣振蕩器時鐘單元)。銣鐘板為二級鐘的本振。二級鐘任何情況下(自由、保持、跟蹤、快捕)系統輸出信號的頻偏均小于16ppb,滿足基站50ppb的要求。
四、故障經驗總結
(1)BITS V3的性能監測數據TIE、MTIE、TDEV、頻率偏差等均使用本振系統輸出作為參考,對輸入源進行監測。系統輸出頻率的變化將導致BITS V3監測的輸入源的性能監測數據的變化。影響晶振輸出頻率的主要因素有溫度、電壓、振動。開關機柜門會影響晶振的工作溫度。
(2)通過用儀器測試結果、以及BITS V3相對于輸入的性能監測曲線數據可知,開關機柜門導致的溫度和風速的變化,引起了BITS V3的晶體輸出的頻偏發生變化,導致了BITS V3上報性能監測MTIE、TDEV、頻率偏差超限告警。而參考源性能超限告警參與了參考源選擇控制,這些超限告警導致參考源全部不可用,系統無主用源,BITS V3進入保持狀態。
(3)系統保持七天后,進入自由振蕩狀態。綜合樓BITS V3設備為晶體鐘,自由振蕩的時鐘精度無法滿足基站的要求,導致基站設備上報TF告警。
五、小結
本則非典型的華為BITSV3設備參考源不可用故障,具有一定的隱蔽性、巧合性和隨機性。正好趕上位于前后排的BITSV3設備與烽火設備同時處于施工期,且當BITSV3機柜門打開時,空調送風直對BITSV3設備時,溫度的強烈變化才會引起BITSV3設備出現告警。針對這起疑難故障,最終通過現場儀表測試、故障現象還原、原因深入分析,終于準確定位了故障點并使故障得以徹底排除。相信其排查思路、測試方法、處理經驗以及預防措施,均可對華為BITSV3設備的日常維護與類似故障處理提供借鑒與參考。
參考文獻:
[1]程根蘭.數字同步網.人民郵電出版社,2001.
[2]華為數字同步網設備SYNLOCK V3技術手冊.
作者簡介:李麗紅:通信工程師(高級),現任職于中國移動通信集團河北有限公司秦皇島分公司,網絡部傳輸班組。是中國移動通信集團公司傳輸專業(烽火)技術支援專家。主要從事傳輸網絡規劃、維護及優化工作。