◆馬佳華
操作系統(tǒng)、網(wǎng)絡(luò)體系與服務(wù)器技術(shù)
基于網(wǎng)絡(luò)知識資產(chǎn)庫的網(wǎng)絡(luò)協(xié)同運維系統(tǒng)研究
◆馬佳華
(92493部隊13分隊 遼寧 125000)
本文通過對本單位現(xiàn)行網(wǎng)絡(luò)運維模式的分析,針對當(dāng)前異構(gòu)網(wǎng)絡(luò)間診斷應(yīng)用系統(tǒng)資源共享和服務(wù)協(xié)同的需求,闡述了通過信息化和網(wǎng)絡(luò)技術(shù)手段,構(gòu)建網(wǎng)絡(luò)協(xié)同運維系統(tǒng),將遠(yuǎn)程網(wǎng)絡(luò)維護(hù)專家與現(xiàn)場運維人員實現(xiàn)互動,在短時間內(nèi)調(diào)動各種故障診斷資源,實現(xiàn)對網(wǎng)絡(luò)故障的快速、準(zhǔn)確恢復(fù)。
知識資產(chǎn)庫;網(wǎng)絡(luò)協(xié)同運維;資源共享
面對本單位信息化的迅猛發(fā)展,網(wǎng)絡(luò)已成為信息化戰(zhàn)爭不可或缺的重要元素。隨著新設(shè)備的不斷增加,網(wǎng)絡(luò)結(jié)構(gòu)變得日趨復(fù)雜,故障發(fā)生率也變得越來越高。新業(yè)務(wù)的不斷增加、新技術(shù)的不斷演進(jìn)、新應(yīng)用系統(tǒng)的越來越多都對網(wǎng)絡(luò)運維人員的運維知識量、故障定位和恢復(fù)效率提出了更高的要求,但網(wǎng)絡(luò)運維護(hù)人員的能力卻沒有增加甚至被削減,原因在于,知識的隱性化、共享范圍小和傳播能力低下是網(wǎng)絡(luò)運維人員維護(hù)技能不足的主要原因。傳統(tǒng)的運維模式下設(shè)備、人員相對分散,各地單獨管理,專家的經(jīng)驗和知識不能得到有效地傳遞,管理形成“孤島”,運維效率低下。當(dāng)前,網(wǎng)絡(luò)運維難度與運維人員維護(hù)技能之間的矛盾日益突出。因此,亟須一套網(wǎng)絡(luò)協(xié)同運維系統(tǒng),實現(xiàn)對網(wǎng)絡(luò)內(nèi)全系統(tǒng)的監(jiān)測,及時發(fā)現(xiàn)網(wǎng)絡(luò)故障并告警,通過本地經(jīng)驗知識庫和遠(yuǎn)程經(jīng)驗知識庫的支持以及遠(yuǎn)程協(xié)同維護(hù)專家的配合,為本地網(wǎng)絡(luò)運維人員提供輔助決策,使運維工作簡單化、科學(xué)化,快速準(zhǔn)確的解除網(wǎng)絡(luò)故障,提高時效性,為打贏信息化戰(zhàn)爭提供強有力支撐。
面對本單位網(wǎng)絡(luò)發(fā)展的迅速、復(fù)雜、龐大等特點,本單位網(wǎng)絡(luò)運維人員的運維技能顯得日益捉襟見肘,主要原因在于長期以來運維知識和經(jīng)驗不能夠得到有效的共享和傳遞,知識沒有積累并形成一種共有資產(chǎn),而是在人員更替的過程中不斷流失,從而嚴(yán)重影響了網(wǎng)絡(luò)運維的效率,初步分析主要有如下幾個特點:
由于本單位的崗位職責(zé)分工明確,網(wǎng)絡(luò)運維工作被劃分成很多崗位,運維人員對負(fù)責(zé)本崗位之外其他崗位了解非常有限,缺乏熟悉了解所有崗位情況的技術(shù)人員,當(dāng)出現(xiàn)負(fù)責(zé)某崗位的人員不在位的情況時,其他人員不能及時處理相應(yīng)崗位的網(wǎng)絡(luò)故障。
網(wǎng)絡(luò)運維知識作為一種非物質(zhì)資產(chǎn)并沒有引起足夠的重視,由于本單位的崗位具有很大的流動性,鐵打的營盤流水的兵,運維人員新老更替較快,而此時網(wǎng)絡(luò)運維人員未能及時將自己積累的所有網(wǎng)絡(luò)運維經(jīng)驗傳遞給新人,新人的知識和經(jīng)驗積累又需要漫長的過程,出現(xiàn)網(wǎng)絡(luò)故障時往往是現(xiàn)學(xué)現(xiàn)用,單位的網(wǎng)絡(luò)知識資產(chǎn)隨著人員的流動不斷的流失,大大影響了網(wǎng)絡(luò)故障恢復(fù)的效率和本單位運維人員的工作效率。
各個運維人員都在獨立進(jìn)行網(wǎng)絡(luò)管理運維工作,當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,都是獨立進(jìn)行資料查找和故障恢復(fù),效率低下。由于影響網(wǎng)絡(luò)運行的因素很多,出現(xiàn)網(wǎng)絡(luò)故障時往往需要多個崗位以至于所有崗位人員共同配合查找問題,任何一個環(huán)節(jié)都有可能影響整體恢復(fù)效率,但由于沒有一個運維知識和管理共享交流的平臺,運維知識和經(jīng)驗得不到共享,運維管理得不到專家的協(xié)助,不但增加了故障恢復(fù)時間,也造成了資源浪費。
綜上所述,本單位運維人員的技能不足是影響網(wǎng)絡(luò)運維效率的主要因素,日常的運維訓(xùn)練和突發(fā)故障的處理是積累人員運維理論知識和實戰(zhàn)經(jīng)驗的主要途徑。面對網(wǎng)絡(luò)運維復(fù)雜難度越來越大,現(xiàn)行本單位運維人員或沒有一個供人員學(xué)習(xí)、訓(xùn)練、運維的平臺,或是有但平臺孤立,知識量匱乏,可用性不大。一個統(tǒng)一的網(wǎng)絡(luò)協(xié)同運維系統(tǒng)的建立顯得迫在眉睫,一個由各單位共同支撐起來的強大數(shù)據(jù)庫將為本單位運維人員技能迅速提高提供平臺,使得本單位運維人員根據(jù)自身情況進(jìn)行不同階段的針對性訓(xùn)練,快速提高本單位運維人員工作效率。
在當(dāng)前本單位網(wǎng)絡(luò)運維需求的強烈指引下,設(shè)計了一套網(wǎng)絡(luò)協(xié)同運維系統(tǒng),先將系統(tǒng)的組織結(jié)構(gòu)介紹如下:
如圖1所示,該系統(tǒng)組織結(jié)構(gòu)由物理層、數(shù)據(jù)層、服務(wù)層和應(yīng)用層組成。
物理層由網(wǎng)絡(luò)狀態(tài)顯示設(shè)備、預(yù)警監(jiān)測設(shè)備、故障診斷設(shè)備、服務(wù)器、路由交換設(shè)備組成。
數(shù)據(jù)層由預(yù)警監(jiān)測數(shù)據(jù)庫、故障診斷數(shù)據(jù)庫、運維知識數(shù)據(jù)庫、經(jīng)驗知識數(shù)據(jù)庫、運維工具數(shù)據(jù)庫組成。
服務(wù)層由網(wǎng)絡(luò)預(yù)警監(jiān)測服務(wù)、故障智能診斷服務(wù)、網(wǎng)絡(luò)輔助決策服務(wù)、運維工具服務(wù)組成。
應(yīng)用層由預(yù)警監(jiān)測系統(tǒng)、故障診斷系統(tǒng)、輔助決策系統(tǒng)、運維工具系統(tǒng)組成。

圖1 網(wǎng)絡(luò)運維系統(tǒng)結(jié)構(gòu)圖
如圖2所示,正常運行時,整個網(wǎng)絡(luò)的設(shè)備和線路狀態(tài)以模擬仿真的形式顯示在LED狀態(tài)顯示屏上,當(dāng)網(wǎng)絡(luò)故障發(fā)生時,首先預(yù)警監(jiān)測設(shè)備監(jiān)測到網(wǎng)絡(luò)故障方向和線路,按照不同故障級別,網(wǎng)絡(luò)設(shè)備和線路以不同的顏色閃爍并聲音告警,系統(tǒng)收集故障數(shù)據(jù)提供給故障智能診斷系統(tǒng)并向其他可通遠(yuǎn)程系統(tǒng)發(fā)出故障信號。然后,故障智能診斷系統(tǒng)會結(jié)合預(yù)警監(jiān)測系統(tǒng)提供的數(shù)據(jù)進(jìn)行故障智能診斷,更深入的判斷具體故障源,并將故障描述提供給輔助決策系統(tǒng)和終端。輔助決策系統(tǒng)收集故障智能診斷系統(tǒng)提供的數(shù)據(jù)后,調(diào)用本地和遠(yuǎn)程經(jīng)驗知識庫并結(jié)合運維知識庫給出相關(guān)的輔助決策并對結(jié)果進(jìn)行優(yōu)先排序,發(fā)送至終端。
可通遠(yuǎn)程系統(tǒng)收到故障信號后,輔助決策系統(tǒng)對本地經(jīng)驗庫進(jìn)行檢索,對結(jié)果進(jìn)行優(yōu)先排序后發(fā)送給請求系統(tǒng)。并向請求系統(tǒng)發(fā)送專家在線信號,本地系統(tǒng)接收到數(shù)據(jù)后,結(jié)合本地系統(tǒng)決策對所有決策進(jìn)行優(yōu)先排序,將輔助決策信息和在線專家列表提供給本地運維人員,運維人員參考系統(tǒng)故障描述和輔助決策信息后使用運維工具系統(tǒng)中的網(wǎng)絡(luò)工具對網(wǎng)絡(luò)故障進(jìn)行檢查和修復(fù)。
當(dāng)運維人員感覺對系統(tǒng)故障恢復(fù)困難時,可點擊在線專家進(jìn)行求助,遠(yuǎn)程系統(tǒng)收到求助信號時,發(fā)出信息和聲音提示,如果遠(yuǎn)程運維人員同意幫助,本地運維人員將與遠(yuǎn)程專家建立視頻鏈接或進(jìn)行多節(jié)點視頻會議,進(jìn)行遠(yuǎn)程協(xié)助盡快恢復(fù)網(wǎng)絡(luò)故障。
網(wǎng)絡(luò)故障恢復(fù)后,運維人員將恢復(fù)經(jīng)驗進(jìn)行資料整理,通過系統(tǒng)輸入到本地運維知識庫和經(jīng)驗知識庫,對經(jīng)驗知識進(jìn)行積累。運維知識庫由所有運維人員日常進(jìn)行收集和整理,亦可針對主要網(wǎng)絡(luò)設(shè)備聯(lián)合地方科研、廠家等力量遠(yuǎn)程進(jìn)行不定期維護(hù),分布在各地的運維知識庫將定時同步更新。最終,通過使用該系統(tǒng)實現(xiàn)網(wǎng)絡(luò)知識和經(jīng)驗不斷積累豐富,達(dá)到全網(wǎng)系的資源共享,為運維人員學(xué)習(xí)、訓(xùn)練、運維和提高技能提供強有力的支撐。

圖2 網(wǎng)絡(luò)系統(tǒng)運維流程圖
網(wǎng)絡(luò)協(xié)同運維系統(tǒng)主要分為網(wǎng)絡(luò)預(yù)警監(jiān)測、故障智能診斷、輔助決策、運維工具、學(xué)習(xí)訓(xùn)練五大功能模塊,各部分功能模塊主要實現(xiàn)以下功能:
網(wǎng)絡(luò)預(yù)警監(jiān)測:負(fù)責(zé)網(wǎng)絡(luò)的安全和性能監(jiān)測,通過對系統(tǒng)的各項指標(biāo)閥值的設(shè)置,一旦發(fā)現(xiàn)有性能指標(biāo)超標(biāo)或者安全危險行為,立即發(fā)出圖示和聲音預(yù)警并收集數(shù)據(jù)提供給故障診斷模塊使用。通過查看網(wǎng)絡(luò)功能,運維人員可查看整個網(wǎng)絡(luò)的拓?fù)鋱D,圖上的設(shè)備顯示有溫度、流量、狀態(tài)等相關(guān)詳細(xì)信息。狀態(tài)分析功能為用戶提供整個網(wǎng)絡(luò)的運行狀態(tài)、趨勢、峰值等信息,為運維人員分析整個網(wǎng)絡(luò)的運行狀態(tài)提供參考。歷史記錄模塊記錄了歷史的告警、超負(fù)荷等信息,供用戶隨時查看。
故障智能診斷:網(wǎng)絡(luò)設(shè)備狀態(tài)以動態(tài)拓?fù)鋱D形式仿真在狀態(tài)顯示屏上,當(dāng)故障發(fā)生時,系統(tǒng)根據(jù)預(yù)警監(jiān)測系統(tǒng)提供的數(shù)據(jù)和運維知識庫進(jìn)行比對,智能判斷出網(wǎng)絡(luò)故障,顯示屏上故障設(shè)備閃爍,故障線路以紅色線條顯示,運維人員可通過狀態(tài)顯示屏直觀獲取故障源。
通過故障查看功能,運維人員可查看更具體的詳細(xì)故障信息,如端口協(xié)議關(guān)閉、設(shè)備死機、服務(wù)停止、流量堵塞等。通過拓?fù)渚S護(hù)功能,運維人員可更新網(wǎng)絡(luò)的拓?fù)鋱D結(jié)構(gòu)、外觀、類型等信息。
輔助決策:當(dāng)網(wǎng)絡(luò)故障發(fā)生時,系統(tǒng)會收集本地相關(guān)資源并向遠(yuǎn)程在線系統(tǒng)發(fā)出故障信號,遠(yuǎn)程系統(tǒng)收到信號后收集并傳回相關(guān)決策,遠(yuǎn)程運維人員如果在線,可根據(jù)本人經(jīng)驗向故障發(fā)生地主動推送輔助決策。本地系統(tǒng)將本地、遠(yuǎn)程和主動推送的輔助決策方案進(jìn)行整理優(yōu)先排序,運維人員通過查看功能,對輔助決策進(jìn)行參考,結(jié)合自身經(jīng)驗快速對故障進(jìn)行恢復(fù)。故障發(fā)生期間系統(tǒng)會提供遠(yuǎn)程在線專家列表,運維人員如恢復(fù)故障困難可通過即時通信功能向遠(yuǎn)程專家請求協(xié)助,遠(yuǎn)程專家通過網(wǎng)絡(luò)音視頻對故障現(xiàn)場提供技術(shù)支援。
運維工具:系統(tǒng)中包含了大量的運維工具,主要包括網(wǎng)絡(luò)工具、系統(tǒng)工具、查看工具、連接工具等,網(wǎng)絡(luò)故障發(fā)生后,運維人員可以使用這些工具,實現(xiàn)流量分析、端口查看,遠(yuǎn)程登錄等操作,進(jìn)行故障地快速查找、定位、恢復(fù)等。通過查看使用教程功能,對運維工具使用方法進(jìn)行快速學(xué)習(xí)。工具維護(hù)功能使運維人員可對本地工具庫進(jìn)行更新和豐富,以備運維時能更好對硬件支持并使用。通過工具共享,本地系統(tǒng)可快速及時地檢測到其他遠(yuǎn)程系統(tǒng)最新上傳或更新的工具并提示給用戶,為運維人員及時更新運維工具提供有效途徑。
訓(xùn)練學(xué)習(xí):該功能可提供學(xué)習(xí)、自測和考試三個模塊,學(xué)習(xí)模塊將知識資產(chǎn)庫中的數(shù)據(jù)進(jìn)行資料整理,以樹的形式分類后展現(xiàn)給運維人員,運維人員可根據(jù)自身技能情況有針對性選擇資料進(jìn)行學(xué)習(xí)。也可通過篩選和搜索等功能快速、準(zhǔn)確獲取所需知識進(jìn)行臨時性學(xué)習(xí)。當(dāng)運維人員感覺知識量積累到一定程度時,也可以使用該模塊勾選需要自測的數(shù)據(jù)庫進(jìn)行自測試卷的生成,對階段性學(xué)習(xí)進(jìn)行鞏固。管理者認(rèn)為運維人員可以進(jìn)行上崗考試時可通過系統(tǒng)進(jìn)行試卷生成,進(jìn)行在線上崗考試。

圖3 網(wǎng)絡(luò)系統(tǒng)運維系統(tǒng)功能圖
網(wǎng)絡(luò)知識資產(chǎn)庫作為網(wǎng)絡(luò)運維單位的資產(chǎn),不僅是供運維人員學(xué)習(xí)、培訓(xùn)和提高技能的基礎(chǔ)更是網(wǎng)絡(luò)協(xié)同運維系統(tǒng)能夠正常運轉(zhuǎn)的核心。本系統(tǒng)采用了Oracle數(shù)據(jù)庫作為存儲媒介來存儲網(wǎng)絡(luò)知識,Oracle Database又名Oracle RDBMS,是由美國ORACLE公司提供的以分布式數(shù)據(jù)庫為核心的數(shù)據(jù)庫管理系統(tǒng),是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),它具有完整的數(shù)據(jù)管理、分布式處理、容納數(shù)據(jù)量大、實時性高、數(shù)據(jù)可靠性高等特點,能夠輕松實現(xiàn)數(shù)據(jù)倉庫的操作。采用Oracle作為知識存儲媒介,不但保證了數(shù)據(jù)的安全性,更為系統(tǒng)間數(shù)據(jù)的共享、同步等需要打下了堅實的基礎(chǔ)。將網(wǎng)絡(luò)知識按照特點分為安全知識、交換知識、傳輸知識、智能網(wǎng)知識等大類,又將智能網(wǎng)知識劃分為網(wǎng)絡(luò)評估、資源管理、業(yè)務(wù)分析等小類,以此類推,將知識分類存入,共同組成了網(wǎng)絡(luò)知識資產(chǎn)庫。
分布式技術(shù)是指數(shù)據(jù)和程序分布在多個服務(wù)器上,它有利于任務(wù)在整個計算機系統(tǒng)上進(jìn)分配與優(yōu)化,克服了傳統(tǒng)集中式系統(tǒng)會導(dǎo)致中心主機資源緊張的缺陷,解決了網(wǎng)絡(luò)GIS中存在的數(shù)據(jù)異構(gòu)、數(shù)據(jù)共享、運算復(fù)雜等問題。分布式服務(wù)器技術(shù)在本系統(tǒng)中的應(yīng)用將有利于數(shù)據(jù)的分布存儲和共享,數(shù)據(jù)一部分存儲在本地,另一部分存儲在遠(yuǎn)端,當(dāng)本地程序需要數(shù)據(jù)時,可同時獲取本地以及遠(yuǎn)程數(shù)據(jù),不但節(jié)省了本地空間加快了本地數(shù)據(jù)的讀取,更減少了數(shù)據(jù)冗余和重復(fù)。
信息化時代,本單位對網(wǎng)絡(luò)的需求越來越多,設(shè)備的增加和不斷更新使網(wǎng)絡(luò)運維的難度不斷加大,運維人員的能力素質(zhì)成為制約工作效率的重要因素。網(wǎng)絡(luò)協(xié)同運維系統(tǒng)能夠有效解決這一問題,將各地的運維人員和資源充分調(diào)動共享起來,形成一個運維專家團(tuán)隊和龐大的網(wǎng)絡(luò)知識庫和專家經(jīng)驗庫,共同的處理網(wǎng)絡(luò)故障,不但能夠快速、準(zhǔn)確的恢復(fù)故障,提高運維效率,無形中對運維人員也進(jìn)行了一次“故障恢復(fù)培訓(xùn)”,同時也對網(wǎng)絡(luò)知識進(jìn)行了積累,為本單位運維保障、學(xué)習(xí)訓(xùn)練和知識傳遞提供了平臺。
同時,我們需要看到,協(xié)同運維系統(tǒng)只是一種輔助技術(shù)手段,再好的設(shè)備沒有人駕馭也只是一堆廢鐵,所以只有當(dāng)運維知識資產(chǎn)得到足夠的重視,通過日常不斷積累和設(shè)備廠家等科研單位的協(xié)助,逐漸形成一個龐大的分布式數(shù)據(jù)庫并被廣泛應(yīng)用時,本單位運維人員的工作效率才能隨著設(shè)備的不斷更新而快速上升。
[1]李振銀.網(wǎng)絡(luò)管理與維護(hù)[M].中國鐵道出版社,2004.
[2]王淑江,劉曉輝.網(wǎng)絡(luò)管理自動化[M].電子工業(yè)出版社, 2009.
[3]李先, 譚汝聰.網(wǎng)絡(luò)數(shù)據(jù)庫[M].機械工業(yè)出版社, 2010.