詹曉航
(中國移動通信集團廣東有限公司廣州分公司 廣東省廣州市 510110)
移動互聯網時代,無線數據通信技術雖然發展迅速,但通信運營商成本壓力卻不斷增加,運營商陷入“增量不增收”的困局。為解決困境,運營商都把注意力聚焦到了成本消耗最大的網絡運維上,要求通信技術(CT)團隊向ICT 轉型(即IT+CT)。然而,現有存量CT 人員規模龐大,軟件工程能力薄弱,ICT 轉型舉步維艱。在重重壓力下,運維團隊需研究如何以低成本構建一套統一的專家系統平臺,打通核心網、傳輸網、無線網、數據網、網管網、城域網等各專業網絡,并能讓CT 人員自行開發專家系統的知識庫和上層應用、編排各種自動化任務,減少現有繁多的煙囪式運維專家系統和數據孤島的困境,實現降本增效。
為降低CT 團隊ICT 轉型的門檻,本課題研究了一套網絡運維知識工程體系建設方法,解決CT 人員開發專家系統知識庫和相關應用層功能的困難,實現運營商CT 團隊快速ICT 轉型目標。
知識工程(Knowledge Engineering)研究的是如何用機器代表人類,實現知識的表示、獲取、推理、決策、包括機器定理證明,通過智能軟件而建立的專家系統。同時,還需要研究如何實現知識工程的知識工作自動化,以及如何運用知識,進行問題的自動求解等。知識工程的研究使人工智能的研究從理論轉向應用,從基于推理的模型轉向基于知識應用的模型。可見,知識工程的研究其中一個重要目標就是為了順利實現知識自動化。
知識自動化(Knowledge Automation) 是一種可執行知識工作任務的智能軟件系統。知識自動化實現了人和機器的重新分工,有助于把知識技術人員從重復性勞動中解放出來,知識自動化將工程知識體系轉換為“工程智能”。

圖1:MME 設備故障定位知識表示過程

圖2:網絡運維知識工程體系架構設計
CT 團隊雖然有豐富的運維經驗,但缺乏軟件工程能力。CT 團隊建設專家系統時,必須依賴IT 團隊開發,這種方式導致成本、開發排期、需求變更、系統測試和上線都要受IT 團隊制約。為扭轉困局,本課題為CT 團隊提供了專家系統知識庫的可視化編程(無代碼開發)能力,結合CT 團隊自身優勢,揚長避短,即可主導專家系統知識庫和任務編排的開發、知識工程體系設計、建設和測試工作等,無需IT 團隊重度參與。
本課題研究的網絡運維知識工程是以網絡運維知識和專家經驗為處理對象,借用工程化的思想,利用人工智能的原理和方法,設計、構造和維護網絡運維知識體系。運維知識工程的重要過程包括網絡運維的知識獲取、知識表示與知識利用三大過程。為順利開展網絡運維知識自動化工作,在知識工程體系架構建設的同時也要建立好網絡運維知識工程標準化工作。
運維知識獲取包括從文檔、設備運行日志、傳感器或消息信令獲取知識和信息,通常有三種方式:
(1)非自動知識獲取指知識由運維工程師通過閱讀有關文獻或與領域專家交流,將原始知識進行分析、歸納、整理,形成用自然語言表述的知識條目輸入系統數據庫。
(2)知識抽取是指系統能對專家的專業知識和經驗(如故障處理經驗)進行識別、理解、篩選、格式化,可以把需要分析和處理的文件或事件中每個知識點或信息點抽取出來,并輸入到知識庫中。
(3)機器學習知識通過機器各種傳感器直接感知外部的信息(如網絡設備間傳送的信令信息等等),或者根據系統運行經驗從已有的知識或實例中演繹、歸納出新知識,補充到知識庫中。例如,通過學習網絡中的大量信令信息,歸納出用戶畫像模型和用戶群體特征,并用此模型進行精準目標搜索等。
知識表示是對知識庫的知識進行知識編碼的活動,讓知識能方便被共享和調用。運維知識工程體系的架構設計需重點研究如何進行知識編碼。為提升知識編碼的效率,降低編碼難度,可采用可視化編程的形式。可把“流程引擎+規則引擎+解析引擎+可視化建模引擎”組合成“推理引擎”,方便運維專家進行知識編碼。
例如圖1 中所展示的案例,運維人員日常維護時經常發現設備性能下降影響業務時往往無告警產生,為解決問題,可在專家系統平臺上以可視化編程的方式開發“板卡故障診斷”的自動化檢查流程。由系統將檢查流程相關知識(如性能指標、指令、日志結果)編譯成計算機語言,形成一組可執行的軟件程序存入知識庫,即完成一次故障定位經驗流程的知識編碼工作:
(1)監控MME 設備性能指標,出現異常觸發流程;
(2)檢查MME 的關鍵指標,確認業務是否受影響;
(3)向指定MME 發送指令檢查板卡異常情況;
(4)反饋板卡檢查ping 指令結果的異常情況,如有異常即生成告警。
對于該設備,如果其他運維專家具備另外一種硬件的故障定位方法,也可以按類似的方法編譯到知識庫中。以此類推,每個專家都可以把本專業涉及的故障定位知識編譯到知識庫中。這樣,機器就可以學習到大量人類專家的故障定位經驗和知識,讓人類專家從繁重的工作中釋放出來。
知識利用包括知識搜索以及知識推理。例如,網絡運維專家可在系統平臺上根據自己專業領域發現的問題去搜索同行或者不同專業的專家的類似經驗知識,找到可參考的經驗知識后進行應用評估、推理和場景適配,快速形成本專業的解決方案。
為順利實現運維知識自動化,還需對運維知識工程的過程進行標準化,總結歸納各專業網絡運維工作場景和內容,對重要功能模塊進行標準化設計。這樣,專家在部署自動化流程時,就能輕松調用各種組件靈活拼裝,并配置規則:
(1)運維信息表示的標準化:如設備信息、資源信息、組織架構信息、性能指標數據、系統接口信息等;
(2)流程引擎組件的標準化:如流程中元知識種類的組件定義、組件的名稱、功能范圍等,目前應用較多的組件有:數據庫節點、邏輯節點、腳本節點、爬蟲節點、IA 算法節點等;
(3)日志或指令解析組件的標準化:如日志或指令解析文件中元知識對應的組件、各組件名稱、功能范圍等;
(4)知識符號邏輯表示的標準化:使知識具備顯式語義表達能力和傳播能力;
(5)信息輸入、輸出和呈現標準化:包括信息輸入輸出的粒度、并發要求、呈現方式等等。

圖3:廣州移動智能維護機器人
運維知識工程體系可根據知識工程的三個重要過程(知識獲取、知識表示與知識利用)設計架構進行建設(如圖2)。
知識工程過程中,知識獲取被許多研究者和實踐者作為一個瓶頸,限制了專家系統、人工智能系統的發展。因此,在架構設計時需考慮系統如何能提供各種接口自動采集數據、信息的能力,并形成元知識存儲到系統數據庫中供上層的“知識表示層”編譯和調用。
本課題以通信運維專家主導開發的知識自動化統一開發平臺作為“知識表示層”,需具備知識庫、以及與“推理引擎”相關的模塊或引擎。“推理引擎”可由“流程引擎”、“規則引擎”和“解析引擎”組成,為提供無代碼開發環境給通信專家使用,還需要考慮增加“可視化建模引擎”。如知識量、數據量、運算量龐大,還要考慮增加“大數據處理引擎”、“AI 處理引擎”等等。
網絡通信的知識自動化開展可以通過把各專業運維技術體系模型化,形成網絡運維知識工程體系架構,然后將模型移植到網絡運維專家系統的設計與制造平臺上,通過平臺調動各專業人員部署各種場景智能軟件的開發和迭代升級,如:設備健康智能巡檢、故障定位、配置檢查、安全審計、高危操作預警、資源智能調度等。從而由機器完成原先需要人去完成的大部分工作,讓人類有更多時間進行創造性、決策性工作。
本課題的研究成果在廣州移動網絡智能維護機器人Dr.Who 開發平臺上經過長達4年現網運行驗證(如圖3),廣州核心網人員僅用2年便順利實現了ICT 轉型,具備代碼編寫能力員工占比20%,可視化編程能力占比100%,并擴展到在傳輸網、無線網、承載網、網管網等專業,提供了支撐多專業的智能運維解決方案。希望本文能為行業相關人員對知識工程的理解和落地提供參考,共同推動知識工程技術發展。