袁志騫
(上海地鐵維護保障有限公司通號分公司, 200235, 上海∥工程師)
上海城市軌道交通通信系統(tǒng)作為主要的運營管理手段和數(shù)據(jù)交互媒介,隨著近年來的通信技術快速革新,已逐漸發(fā)展成為一個由傳輸、專用無線、專用電話、公務電話、技術防范(以下簡稱“技防”)、廣播、乘客信息、時鐘、通信電源、光電纜等多個子系統(tǒng)組成的龐大系統(tǒng)。各類通信終端和資源覆蓋了整個上海城市軌道交通,各通信子系統(tǒng)具有種類和制式多樣、終端數(shù)量巨大、覆蓋范圍廣等特點。目前,上海城市軌道交通逐步邁向超大規(guī)模網絡化運營,為滿足設備高可靠性的運維需求,通信系統(tǒng)在故障快速定位、跨系統(tǒng)聯(lián)動分析、狀態(tài)修策略制定等方面面臨著更高的運維管理要求。雖然各類通信子系統(tǒng)的網絡管理(以下簡稱“網管”)系統(tǒng)和信息化管理系統(tǒng)提供了一定的設備運維管理手段,但仍普遍存在集成系統(tǒng)網管功能不夠完善、各子系統(tǒng)數(shù)據(jù)相對獨立、跨專業(yè)綜合分析主要依靠工程師個人經驗等問題,且對設備在長期應用過程中產生的大量數(shù)據(jù)缺乏收集和分析的手段。因此,迫切需要結合大數(shù)據(jù)和人工智能等技術,構建通信設備的智能運維系統(tǒng)來支撐城市軌道交通的超大規(guī)模網絡化運營。本文梳理了上海城市軌道交通線網層面通信系統(tǒng)智能運維的建設需求,以期為通信系統(tǒng)智能運維建設的遠期目標提供參考。
上海城市軌道交通通信系統(tǒng)的子系統(tǒng)較多。通信子系統(tǒng)按屬性可分為資源、行車和運營3類,其中:資源類子系統(tǒng)包括傳輸、光電纜、時鐘和通信電源等;行車類子系統(tǒng)包括專用無線、專用電話和公務電話等;運營類子系統(tǒng)包括技防、廣播和乘客信息等。此外,由于上海城市軌道交通各線路的建設時期不同,且部分線路為分期/分段開通,各通信子設備建設時隨通信技術發(fā)展情況選用了不同制式、不同廠家和不同型號的設備,這為通信系統(tǒng)的設備管理和技術儲備帶來較大挑戰(zhàn)。
為滿足上海城市軌道交通運營的各類通信需求,通信系統(tǒng)各子系統(tǒng)設備覆蓋了上海城市軌道交通所有車站、運營控制中心、車輛場段、管理指揮區(qū)域和軌行區(qū),目前配置了通信機房共計449間,通信設備運維的體量巨大,運維作業(yè)面幾乎涵蓋了上海城市軌道交通的所有區(qū)域。以終端設備為例,截至2021年6月底,上海城市軌道交通網絡內有各類無線終端12 130臺,各類電話終端48 000臺,各類屏幕4 995塊,各類攝像頭40 000余個。
各通信子系統(tǒng)均設置有網管,以實現(xiàn)對各自系統(tǒng)的設備管理和狀態(tài)監(jiān)測,但是卻普遍存在智能化程度低、無數(shù)據(jù)積累和挖掘分析功能等問題。隨著城市軌道交通線網規(guī)模的持續(xù)擴大,原本由人工進行現(xiàn)場巡視和檢測的工作模式給設備的運維管理帶來非常大的壓力,急需進行技術升級。例如,對公務/專用電話語音質量、乘客信息屏幕畫質和視頻圖像質量的巡視,以及對城市軌道交通區(qū)域內無線電環(huán)境情況、漏纜和天線質量的檢測等均需實現(xiàn)自動化和智能化。
以往上海城市軌道交通通信系統(tǒng)的運維工作主要以計劃修和故障修為主,計劃修模式下消耗的資源較大,且過修現(xiàn)象普遍存在,而故障修又較為被動,無法滿足設備保障要求。為了提高通信系統(tǒng)的運維保障水平,傳統(tǒng)的計劃修和故障修模式需逐漸演變?yōu)闋顟B(tài)修模式。與信號、車輛、工務等其他專業(yè)相比,通信設備的狀態(tài)沒有明顯的線性劣化過程,這導致了通信設備狀態(tài)修的觸發(fā)點較難把握。另外,既有線路設備在設計時沒有為狀態(tài)修設計一定的安全邊界,也沒有為通信系統(tǒng)提供一個安全的狀態(tài)修觸發(fā)點,因而在既有設備上較難全面實現(xiàn)狀態(tài)修模式。
由于通信系統(tǒng)成網絡化部署,覆蓋范圍廣、專業(yè)接口較多,處理故障的過程中經常需要多部門協(xié)同進行跨車站、跨線路、跨專業(yè)的排查,且需要工程師結合故障現(xiàn)象進行邏輯分析和現(xiàn)場測試排查后才能確定故障點,因而,通信設備的故障修復周期較長,消耗的人力較多。
上海城市軌道交通通信系統(tǒng)設備的種類、型號繁多,各類業(yè)務數(shù)據(jù)變動頻繁,因而對各通信子系統(tǒng)的設備臺賬和業(yè)務臺賬管理尤為重要。目前,上海城市軌道交通通信系統(tǒng)的設備和業(yè)務臺賬管理主要以人工更新電子表格的方式為主,雖然也有多個信息化系統(tǒng)對固定資產管理、運維合約管理、業(yè)務開通流程、備品備件維修等業(yè)務進行信息化管理,但這些業(yè)務的信息化管理較為分散,設備管理部門對現(xiàn)場設備的實時掌握程度不足,設備管理體系化程度不強,與設備的全生命周期管理目標仍存在較大差距。
如圖1所示,針對目前上海城市軌道交通通信系統(tǒng)的現(xiàn)狀,本文從數(shù)據(jù)采集需求和業(yè)務功能需求兩方面對通信系統(tǒng)的智能運維建設提出建議,為后續(xù)的新建線路提供建設參考。

圖1 上海城市軌道交通通信系統(tǒng)智能運維需求分析
通信系統(tǒng)需實現(xiàn)對各子系統(tǒng)設備數(shù)據(jù)采集的全覆蓋,其監(jiān)測采集范圍包括對各子系統(tǒng)的設備狀態(tài)和告警信息,故障可定位至現(xiàn)場最小可更換單元。具體要求包括:①對傳輸、專用無線、專用電話等關鍵業(yè)務系統(tǒng),需實現(xiàn)設備性能數(shù)據(jù)采集;②對專用無線、專用電話、技防、廣播、乘客信息等用戶終端較多的系統(tǒng),需實現(xiàn)用戶操作信息采集;③對無線環(huán)境(如區(qū)間場強、越區(qū)切換、誤碼率、同頻和鄰頻干擾等)、設備房環(huán)境(如溫濕度、粉塵、煙感、水浸等)、電源(如外電網、電源屏、UPS(不間斷電源)、電池等),需實現(xiàn)對設備運行環(huán)境的監(jiān)測采集。
通信系統(tǒng)中的傳輸、專用無線(原裝部分)、電話等子系統(tǒng)具有較為完備的設備數(shù)據(jù)監(jiān)測采集能力,而其他集成子系統(tǒng)的數(shù)據(jù)采集則較為單一,且實時性較低,不能滿足多樣化感知需求。采集數(shù)據(jù)類別主要包括日志數(shù)據(jù)、故障告警、設備狀態(tài)、性能信息等。
2.2.1 日志數(shù)據(jù)
為實現(xiàn)對各通信子系統(tǒng)進行多維度的綜合分析,采集的日志數(shù)據(jù)需包括系統(tǒng)運行日志、用戶操作日志和維護操作日志。
1) 系統(tǒng)運行日志包括通用主機設備、網絡設備及各類專用設備在運行過程中產生的硬件設備運行日志,以及各業(yè)務系統(tǒng)在運行時涉及到的核心進程、應用業(yè)務程序、數(shù)據(jù)庫、中間件等產生的軟件日志。通過對此類數(shù)據(jù)的采集分析,可評估系統(tǒng)的運維狀態(tài)和健康度趨勢。
2) 用戶操作日志指用戶在操作使用設備的過程中產生的日志,如操作用戶、操作時間、操作命令、操作設備等。可通過對用戶操作日志數(shù)據(jù)的分析挖掘,對各通信子系統(tǒng)設備的操作成功率、操作響應靈敏度、描繪用戶操作特征等進行評估,以此達到預判故障、優(yōu)化系統(tǒng)配置、迭代提升系統(tǒng)設計的目的。
3) 維護操作日志主要用于記錄運維人員對各通信子系統(tǒng)的運維操作,如登錄賬戶、操作時間、查詢記錄、操作記錄等,實現(xiàn)對各通信子系統(tǒng)運維質量和安全的管控。同時,通過對處理故障期間操作記錄的分析,可不斷優(yōu)化各通信子系統(tǒng)的故障排除策略和步驟,縮短故障修復時間。
2.2.2 告警數(shù)據(jù)
各通信子系統(tǒng)的告警數(shù)據(jù)主要由網管和第三方監(jiān)測系統(tǒng)提供,可較為準確、及時地反映當前各子系統(tǒng)面臨的主要問題,如業(yè)務中斷、冗余喪失、終端設備離線、無線網絡覆蓋不良等。智能運維系統(tǒng)對各通信子系統(tǒng)的告警數(shù)據(jù)進行分級后,可作為智能檢測故障排除的觸發(fā)條件,啟動智能故障排除邏輯。通過對各通信子系統(tǒng)的告警數(shù)據(jù)進行進一步的關聯(lián)分析,可實現(xiàn)對故障影響范圍的評估和預判。
2.2.3 狀態(tài)數(shù)據(jù)
各通信子系統(tǒng)的狀態(tài)數(shù)據(jù)主要包括設備的基礎信息數(shù)據(jù)和性能數(shù)據(jù),其中基礎信息數(shù)據(jù)包括生產廠商、設備型號、生產批次、制造日期、創(chuàng)建日期等基本信息;性能數(shù)據(jù)采集類型如表1所示。狀態(tài)數(shù)據(jù)應結合各子系統(tǒng)及其設備特點進行采集。

表1 各通信子系統(tǒng)設備性能數(shù)據(jù)采集類型
各通信子系統(tǒng)網管對設備各類數(shù)據(jù)的采集相對較為完善,故通信智能運維的數(shù)據(jù)采集主要通過子系統(tǒng)的網管對接方式完成。此外,考慮到如無線環(huán)境監(jiān)測、乘客信息發(fā)布質量監(jiān)測、機房狀態(tài)監(jiān)測等數(shù)據(jù)具有分析價值,但這些數(shù)據(jù)的監(jiān)測超出了既有通信子系統(tǒng)網管監(jiān)測范圍的數(shù)據(jù)采集需求,可由通信智能運維系統(tǒng)直接進行采集。
2.3.1 系統(tǒng)對接采集
通信智能運維系統(tǒng)需兼容SNMP(簡單網絡管理協(xié)議),以及MODBUS、Webservice、CORBA等主流的協(xié)議和接口,實現(xiàn)與各通信子系統(tǒng)的接口對接,采集智能運維系統(tǒng)所需的各類數(shù)據(jù)。專用無線、高速數(shù)據(jù)網、技防、上層網時鐘、公務電話軟交換、專用電話軟交換等線網級通信子系統(tǒng)在線網核心側與智能運維系統(tǒng)進行對接,而乘客信息、廣播、線路傳輸、線路時間、電源等線路級通信子系統(tǒng)則在線路核心側與智能運維系統(tǒng)進行對接。
2.3.2 直接采集數(shù)據(jù)
在超大規(guī)模網絡化運維的背景下,以及在大帶寬無線通信技術、數(shù)字圖像識別技術、傳感器技術的加持下,在既有各通信子系統(tǒng)自身監(jiān)測范圍之外、原本由人工完成的系統(tǒng)性能檢測和狀態(tài)檢查工作,可通過通信智能運維系統(tǒng)直接進行高效、實時的數(shù)據(jù)采集。例如,通過無線終端升級或加裝監(jiān)測設備的方式,實現(xiàn)對區(qū)間和重點部位的無線環(huán)境監(jiān)測數(shù)據(jù)采集;通過既有技防子系統(tǒng)的攝像機或在特定位置加裝攝像機,實現(xiàn)對車站PIS(乘客信息系統(tǒng))屏幕的狀態(tài)數(shù)據(jù)采集;通過加裝溫度、濕度、粉塵、水浸等傳感器,實現(xiàn)對無人值守機房環(huán)境監(jiān)測數(shù)據(jù)的采集。
建立通信系統(tǒng)智能運維數(shù)據(jù)采集的網絡架構,需結合與之對接的各通信子系統(tǒng)的架構特點和傳輸網絡條件,按線網級系統(tǒng)、線路級系統(tǒng)和直采數(shù)據(jù)分類后分別進行匯聚采集。考慮到對接子系統(tǒng)數(shù)據(jù)的采集協(xié)議和數(shù)據(jù)采集模式可能存在差異,且不同子系統(tǒng)所處的網域限制可能影響數(shù)據(jù)的雙向交互,故在匯聚交換機側設置數(shù)據(jù)采集處理服務器,將采集到的數(shù)據(jù)結構化后通過高速數(shù)據(jù)網傳送至通信智能運維系統(tǒng)。
圖2為通信系統(tǒng)智能運維數(shù)據(jù)的采集邏輯架構。在建設采集網絡時,需考慮信息安全策略,配備必要的信息安全硬件并制定相應策略。同時,為實現(xiàn)智能運維數(shù)據(jù)的采集匯總,需根據(jù)上海城市軌道交通目前的傳輸線網資源情況和各被采集子系統(tǒng)設備的分布情況,結合全線網IP(互聯(lián)網協(xié)議)的地址規(guī)劃和信息安全要求,對智能運維數(shù)據(jù)采集匯聚網絡架構和IP地址進行規(guī)劃。

圖2 通信系統(tǒng)智能運維數(shù)據(jù)的采集邏輯架構Fig.2 Data acquisition logic architecture for intelligent operation and maintenance of communication system
由計劃修向狀態(tài)修逐步過渡過程中,在一段時間數(shù)據(jù)積累的基礎上,智能運維系統(tǒng)可歸納出設備故障發(fā)生前后各通信子系統(tǒng)自身和關聯(lián)子系統(tǒng)的數(shù)據(jù)特征,形成故障狀態(tài)特征庫,明確故障預警的觸發(fā)條件,并在設備性能劣化形成故障前提示運維人員介入處理,以降低故障發(fā)生概率、提升狀態(tài)修水平。
由于各通信子系統(tǒng)業(yè)務多樣,內外部接口眾多,在日常設備故障排查過程中經常需要結合各相關子系統(tǒng)網管反饋的系統(tǒng)狀態(tài),由各級運維人員協(xié)同配合,以人工方式進行逐級逐層排查。故障排查的效率較低、速度較慢,無法滿足超大規(guī)模網絡化運維要求。由此,需要依托智能運維系統(tǒng),建立跨子系統(tǒng)狀態(tài)數(shù)據(jù)分析、排查策略庫,采用端到端檢測等手段快速定位故障點,明確故障影響范圍,并給出設備故障的進一步排查和處理意見。
傳統(tǒng)的計劃修模式下,維護人員根據(jù)設備維護規(guī)程規(guī)定的運維檢修頻次對設備開展維護工作,通過年度設備評估梳理出設備的薄弱環(huán)節(jié),由各通信子系統(tǒng)的工程師制定具體設備的運維和整治計劃,確定次年的重點工作內容和相關工作的實施次序。維護人員以人工方式逐級進行設備評估梳理的周期較長,供決策參考的設備信息相對滯后,且由于計劃修模式下人工采集的設備數(shù)據(jù)量有限、顆粒度較大,一定程度上對運維策略的準確性產生影響,因此,每年設備運維策略和整治計劃的制定對工程師的業(yè)務水平和管理經驗要求較高。
為了能夠合理、精準地制定全線網各通信子系統(tǒng)設備的運維策略,需要智能運維系統(tǒng)對采集到的多維度設備狀態(tài)數(shù)據(jù)進行深入分析,提供有較強時效性的設備評估結果,為運維策略提供參考意見,輔助各通信子系統(tǒng)的工程師完成設備的年度運維整治計劃。
為持續(xù)迭代各通信子系統(tǒng)的軟硬件設計,調整、優(yōu)化運維策略,智能運維系統(tǒng)需在長時間積累歷史數(shù)據(jù)后對數(shù)據(jù)進行分析和挖掘,對各通信子系統(tǒng)進行軟硬件的橫向、縱向比較,掌握各子系統(tǒng)的運行狀態(tài)趨勢,找出同類子系統(tǒng)之間的差異特征。在此基礎上,進一步將設備運行環(huán)境、系統(tǒng)運行狀態(tài)、運維介入、用戶使用、運行成本等情況進行關聯(lián)分析,總結歸納出各子系統(tǒng)運行過程中的不利因素,為彌補現(xiàn)場設備的運行短板提供指導,并指明既有系統(tǒng)的運維重點,為后續(xù)系統(tǒng)的設計優(yōu)化提供依據(jù)。
在運維過程中,智能運維系統(tǒng)需將運維工程師對每次設備故障的處理情況及故障設備的狀態(tài)、性能、告警、故障時長、近期維護情況等數(shù)據(jù)進行匹配存檔,形成一定的數(shù)據(jù)積累后,對數(shù)據(jù)進行挖掘和分析,梳理故障現(xiàn)場、狀態(tài)數(shù)據(jù)、處理措施等因素之間的關聯(lián)關系,構建排除設備故障的知識圖譜,歸納總結出最佳的故障排除流程。
為應對通信系統(tǒng)設備種類、型號繁多,以及各類業(yè)務數(shù)據(jù)變動頻繁等系統(tǒng)特性,智能運維系統(tǒng)需對各通信子系統(tǒng)的在用設備、業(yè)務配置和備件庫存進行系統(tǒng)化管理,提供方便、快捷的在用設備臺賬查詢功能,并與生產管理系統(tǒng)對接,在日常維護、搶修、業(yè)務調整等工作開展的過程中同步更新設備臺賬、業(yè)務配置和備件庫存數(shù)據(jù),實現(xiàn)設施設備的全生命周期管理,為智能運維系統(tǒng)對運維資源的優(yōu)化配置提供支撐。
通信設備的使用需求隨運營模式的變化而變化,設備隨通信技術發(fā)展而不斷升級。由于運維要求和理念會持續(xù)調整和創(chuàng)新,智能運維系統(tǒng)較難通過一次性設計即可滿足當下和未來的所有需求。隨著新技術、新設備的引入,以及對設備運維研究的不斷深化,智能運維平臺需要具備擴展升級的能力,不斷納入新的數(shù)據(jù)類型,以模塊化嵌入的方式增加新的應用模塊,隨著上海城市軌道交通通信系統(tǒng)的發(fā)展不斷進行迭代升級。
在當下大數(shù)據(jù)、人工智能等技術高速發(fā)展的背景下,上海城市軌道交通通信系統(tǒng)必須積極跟隨技術發(fā)展的趨勢,結合系統(tǒng)自身的情況和運維現(xiàn)狀,深入分析運維管理需求,加速推進狀態(tài)修模式。通過建設智能運維系統(tǒng),可提升通信系統(tǒng)的整體運維水平,優(yōu)化運維資源配置和設計標準,從而更好地適應城市軌道交通超大規(guī)模網絡化運營的發(fā)展需要。