董振江 中興通訊云計算及IT研究院副院長
隨著各種應用和帶寬的快速增長,在大數(shù)據(jù)、云計算和機器學習特別是深度學習的推動下,人工智能技術獲得了長足進步,成為當今的熱門,在眾多領域得到了實際應用,效果良好。國內外的運營商都在發(fā)力如何利用人工智能技術,從網(wǎng)絡規(guī)劃與優(yōu)化、應用與管理的智能化與智能運維、運營和服務等多個維度思考,已經(jīng)產生了積極的成效,這些影響在范圍和深度上不斷地擴大,利用好這波人工智能熱潮的運營商很可能就此脫穎而出[1]。
本文通過對人工智能技術和應用的分析,探討人工智能在智能運維、智能運營、智能服務和網(wǎng)規(guī)網(wǎng)優(yōu)等領域的發(fā)展趨勢。
運營商網(wǎng)絡規(guī)模越來越大、越來越復雜,承載的業(yè)務愈來愈多樣,系統(tǒng)面臨三方面需求:一是提升運營商資源利用率的優(yōu)化問題;二是如何提升部署、運維和運營的高效性,出現(xiàn)問題后能快速解決;三是如何為內外部客戶提供優(yōu)良智能服務的問題。
從發(fā)展階段上已經(jīng)歷三個階段,正在向第四個階段快速發(fā)展中,如圖1所示。

圖1 運維發(fā)展階段
1)專業(yè)人員運維階段。專業(yè)運維人員負責日常的安裝、升級、監(jiān)控、故障處理等工作,隨著產品或者產品服務的用戶規(guī)模增長對運維人員的需求線性增長,人員成本高,復雜問題處理困難,而日常大部分運維工作本身低效重復,急需提升效率。
2)自動化運維階段。日常維護工作具有明顯的重復性,這些重復性的運維工作可由自動化工具或者腳本來實現(xiàn),在條件符合時,工具和腳本能夠被重復調用和自動觸發(fā),大大減低人工誤操作風險,也極大地減少人力成本,提高運維的效率,這就是自動化運維。
3)DevOps(Development和Operations的組合運維)階段。傳統(tǒng)的運維體系中將運維與產品開發(fā)人員分開:產品開發(fā)人員負責研發(fā)用戶需要的新功能,運維人員負責日常維護。據(jù)統(tǒng)計,現(xiàn)場出現(xiàn)的大部分故障是配置變更和升級操作導致的,而且問題出現(xiàn)后故障根因定位困難,大多是因為運維人員不了解產品的實現(xiàn)細節(jié)。為了做好軟件產品的交付和運維服務,急需開發(fā)運維一體化:運維人員早期參與研發(fā),研發(fā)時充分考慮監(jiān)控、系統(tǒng)部署和運行過程中發(fā)生的異常,運維人員了解產品研發(fā),能夠快速地找出根因。DevOps應運而生,它是一組過程、方法與系統(tǒng)的統(tǒng)稱,用于促進開發(fā)、技術運營和質量保障部門之間的溝通、協(xié)作與整合[2]。
4)AIOps(Algorithmic IT Operations,基于算法的IT運維)階段。隨著整個業(yè)務系統(tǒng)規(guī)模的急劇膨脹,以及服務類型的復雜多樣,“基于人為定義規(guī)則”專家系統(tǒng)的自動化運維和單純地研發(fā)與運維人員的協(xié)同日漸力不從心。自動化運維依賴于專業(yè)運維的經(jīng)驗,由專家發(fā)現(xiàn)規(guī)律形成規(guī)則,實現(xiàn)自動化運維。大規(guī)模運維的問題往往需要眾多專家協(xié)助才能完成,周期長、協(xié)作困難、成本高。隨著人工智能的發(fā)展和各種海量運維數(shù)據(jù)的產生,可以利用機器學習的方法,來分析、預測和決策,以解決日益復雜和變化的問題,在更高維度上實現(xiàn)自動化運維—智能運維便應運而生了。據(jù)Gartner預測,AIOps的全球部署率將從2017年的10%增加到2020年的50%。AIOps繼承了自動化和DevOps的優(yōu)點,利用機器學習提升智能性和效率[3]。
AI在運營商領域的應用前景非常廣泛,下面介紹一些典型應用場景。
1)網(wǎng)絡規(guī)劃與優(yōu)化。傳統(tǒng)的網(wǎng)規(guī)網(wǎng)優(yōu)主要依靠各種測試數(shù)據(jù)及經(jīng)驗來操作。效果和成本難以做到最優(yōu),雖然也有模擬工具來協(xié)助,但是這種做法常常是一次性的,無法做到根據(jù)實際情況的變化動態(tài)進行調整。采用機器學習/深度學習的方法,能夠做到整體的優(yōu)化,做到在線學習在線實施,經(jīng)過不斷地迭代,收集實際策略實施效果持續(xù)地改進;并由一般傳統(tǒng)的被動優(yōu)化轉化為主動優(yōu)化,將離線優(yōu)化轉變?yōu)樵诰€優(yōu)化,將階段優(yōu)化轉化為持續(xù)優(yōu)化。這依賴于領域專家、多維大數(shù)據(jù)和算法的配合及持續(xù)改進。
應用范圍不僅限于基站的無線覆蓋、無線資源管理、載波聚合、干擾協(xié)調、擁塞控制/負載均衡,還包括接入、傳輸、承載、核心網(wǎng)、CDN(內容傳送網(wǎng))與業(yè)務網(wǎng),隨著SDN(軟件定義網(wǎng)絡)/NFV(網(wǎng)絡功能虛擬化)的逐步深化,智能控制的粒度會加深,端到端的網(wǎng)規(guī)網(wǎng)優(yōu)成為常態(tài),主動預測并提前分配資源,并結合實際成效快速度量和調整,優(yōu)化的實時性更強,走向實時自治系統(tǒng)。
2)系統(tǒng)本身故障分析與糾錯。采用機器學習的方法重點集中在異常發(fā)現(xiàn)、故障定位、根因分析、故障預測四個方面。傳統(tǒng)的方法是通過數(shù)據(jù)的標注,利用傳統(tǒng)的監(jiān)督學習實現(xiàn);未來的趨勢是采用深度學習與監(jiān)督學習、半監(jiān)督學習、無監(jiān)督的方式,并與知識庫知識圖譜結合,在推理上走得更深遠,從而更好地發(fā)現(xiàn)異常,深入快速進行故障定位和根因分析,并逐步走向故障的提前預測,如CDN中硬盤故障等,與調度結合,提前行動,減少故障行為的發(fā)生,由傳統(tǒng)的以解決故障為主,轉變?yōu)橹鲃宇A防,主動設計。
3)網(wǎng)絡訪問異常。網(wǎng)絡在使用的過程中,會出現(xiàn)各種異常現(xiàn)象,如應用市場單IP刷單行為、短信彩信詐騙、新的內容出現(xiàn)后的訪問量驟升等等。通過機器學習判斷常規(guī)模式與異常模式的不同,實時準實時檢測出異常,并自我決策或者通知管理人員決策,快速進行調度或者采取行動。
4)用戶行為分析與推薦。這是人工智能發(fā)揮能力的關鍵場景,在互聯(lián)網(wǎng)領域得到了廣泛應用,取得了非常突出的效果。運營商掌握最真實的身份數(shù)據(jù)、最實時和廣泛的信息,在這里面可以做的事情非常多,不只是簡單的用戶行為分析和推薦。在群體行為、個性行為和網(wǎng)絡業(yè)務結合、對外信息脫敏后的開放上都大有可為。
5)基于NLP(自然語言處理)的智能服務。分為兩部分,一部分是對內服務,如各種知識信息的分享與積累,不僅是知識的傳遞,還有助于專家解決問題,這部分目前的挖掘還遠遠不夠;第二部分是利用NLP對外服務,典型的方式如呼叫中心中自動坐席和人工坐席的替代,為用戶提供7×24小時的服務、基于語音識別語音合成的NLP自動外呼服務、各種在線服務(微信公眾號服務、短信服務、彩信服務等)、基于NLP知識庫的專家服務等等。
人工智能在運營商的應用,在技術領域面臨如下挑戰(zhàn)。
1)海量數(shù)據(jù)實時性處理的挑戰(zhàn)。實時網(wǎng)絡運維需要實時處理和海量數(shù)據(jù)的建模,在用戶行為、網(wǎng)絡數(shù)據(jù)域環(huán)境不斷變化的情況下,需要快速地分析和決策;需要解決好兩個問題,高速實時并行化算法設計和流式數(shù)據(jù)的分析處理,可以利用Storm/Spark Steaming等流處理系統(tǒng),開源算法本身性能不高,針對性的優(yōu)化是關鍵。另一方面在預測性上多下工夫,構建預測性分析基礎能力,全面提升分析處理效率。
2)數(shù)據(jù)的稀疏性難題。高質量的標注數(shù)據(jù)數(shù)量稀少,很多情況下在某個具體問題上樣本數(shù)據(jù)本身就非常稀少,而原因又復雜多樣。在具體的實施時可考慮:①采用樹狀層級結構,逐步的細化;②利用各種方法生成數(shù)據(jù),如月度、周等周期數(shù)據(jù)或者多種數(shù)據(jù)的組合,進行數(shù)據(jù)的增強;③利用監(jiān)督、半監(jiān)督機器學習,在少數(shù)準確標注的數(shù)據(jù)學習分類模型;④專家協(xié)助的主動學習,將專家引入模型的訓練過程,在模型難以準確判斷時,由專家人工分析補充。
3)標注數(shù)據(jù)的工作量巨大,人工難以提取特征。傳統(tǒng)的機器學習建立在專家的特征提取能力上,對待各種復雜和未知場景,這方面的特征提取挑戰(zhàn)更為嚴峻,比較典型的算法有邏輯回歸、關聯(lián)關系挖掘、聚類、決策樹、隨機森林、支持向量機、蒙特卡洛樹搜索、隱式馬爾科夫模型等。DNN、RNN、CNN等深度學習方法的引入,極大提升了特征的提取能力。深度學習與多示例學習、遷移學習和傳統(tǒng)機器學習(特別是數(shù)據(jù)量少的情況下)結合,將是未來的主流方式,互聯(lián)網(wǎng)等行業(yè)實踐已見成效。
4)在線學習的挑戰(zhàn)。網(wǎng)絡日漸復雜,應用越來越多樣,很難有成熟的辦法應對持續(xù)不斷的變化,這就要求系統(tǒng)具有自我學習、在線學習、自我迭代的能力。在構建系統(tǒng)時要充分考慮兩種情況:一是隨著數(shù)據(jù)的變化,快速調整尋找新的規(guī)律的能力;二是面向新的問題在線學習的能力。這是個長期的挑戰(zhàn)。
5)不同領域的遷移挑戰(zhàn)。運營商需要面向不同的行業(yè)用戶,如何利用已有的知識,服務于新的行業(yè),如何冷啟動,快速地進行知識遷移是重大挑戰(zhàn)。
6)在NLP領域面臨的挑戰(zhàn)。在人工智能領域有一個共識,NLP被譽為人工智能皇冠上的明珠,也是最難的。NLP難點集中在普遍存在的不確定性、語言知識處理的復雜性、輸入的不規(guī)范性等三點。技術發(fā)展趨勢體現(xiàn)在以下5點。①語義表示從符號表示到分布表示。基于分布式向量的方式對詞語、句子、段落和篇章進行表示成為主流方向。②學習模式從淺層學習到深度學習。傳統(tǒng)方法需要對輸入文本順序進行分詞、詞性標注、命名實體識別等工序,才輸出最終結果,深度學習方法采用端到端的方式,輸入原始文本直接得到輸出結果。③語言知識從人工構建到自動構建。在知識圖譜構建過程中,當前仍需大量人工投入,成本高周期長,知識圖譜的半自動化構建和全自動化構建已經(jīng)是科研界和產業(yè)界重點發(fā)力的方向。④文本的理解與推理,從淺層分析向深度理解邁進。⑤文本的生成,從規(guī)范文本到自由文本。國內外已有文本自動生成的成功應用,但距離帶情感和上下文感知乃至個性化的文本生成還有相當長的一段路要走。
7)多維數(shù)據(jù)融合的挑戰(zhàn)。日志數(shù)據(jù)、用戶數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)、文本數(shù)據(jù)、圖像/視頻數(shù)據(jù)和位置數(shù)據(jù)等多種類型的數(shù)據(jù),和不同設備、不用業(yè)務、不同層次、不同用戶的數(shù)據(jù)如何融合使用,發(fā)揮出更大的成效是未來重要的挑戰(zhàn),需要我們根據(jù)場景逐步解決。
AI在運營商的領域應用,將全面滲透到網(wǎng)絡、業(yè)務和運維運營的各個層級,將從簡單地提升效率逐步過渡到AI主導,從被動處理走向主動預測,從人工到自動化再到AI的自主化智能化,從輔助決策最終走向自主決策,這要求我們引入人工智能方法論時也要有一定變化。主要體現(xiàn)在以下幾點。
1)系統(tǒng)與全流程的思路。當前AI應用大多為頭痛醫(yī)頭腳痛醫(yī)腳的方式,未來需要我們從系統(tǒng)的高度統(tǒng)一思考,如何端到端地考慮問題,類似于DevOps打破開發(fā)與運維的界限,未來AI的設計一定是用戶、業(yè)務人員、開發(fā)與運維一體的方式,各個角色和流程都要方便參與,才能將AI效能發(fā)展到極致,誰這方面做得好,更好更快地滿足用戶需求,擁有更高效更智能的運營網(wǎng)絡和業(yè)務,誰將會在這輪AI驅動的變革中脫穎而出。
2)更自然的交互方式和更靈活的圖形化展示。AI驅動的智能運營和運維,將更重視與用戶的自然交互方式,可以通過自然語言,以語音、手勢等多種方式更好地交互,同時系統(tǒng)間也會發(fā)展出超NLP的適應機器交流的方式;在結果的展示上,圖形化甚至與AR/VR結合的富媒體交互方式將成為基本方式。
3)滿足用戶自設計和自我定制的需求。用戶的需求多變、業(yè)務形態(tài)多變、接入方式多樣,加上用戶和業(yè)務的個性化需求,要求我們的AI設計一定要在滿足基本的準確度和高效穩(wěn)定的基礎上,更關注個性化定制的需求,滿足用戶/客戶自我設計的要求。從以設計為中心到以用戶為中心的變化,軟件定義網(wǎng)絡、軟件定義產品,做到產品的千人千面。
4)開放與生態(tài)。體現(xiàn)在技術的開放與開發(fā)的開放兩個方面,各項技術的實現(xiàn)一定要緊跟開源的發(fā)展趨勢,不能閉門造車,要能做好選擇拿來為己所用,在開源的基礎上做好創(chuàng)新,同時注意IPR風險,在內部的研發(fā)也要做好共享與開放,提升研發(fā)效率,減少無謂的浪費;今后業(yè)務的實現(xiàn)一定是多方參與的結果,要在生態(tài)打造上多投入,特別是以AI為主或者牽引的業(yè)務,從技術和商業(yè)上都能促進多方的參與,能夠真正做到共贏,業(yè)務模式才能長久,才能得到健康發(fā)展。
AI在運營商智能運維、智能運營和智能服務方面的應用剛剛啟動,前景非常廣闊,不僅是提高網(wǎng)絡運營效率、提升服務質量的重要工具,而且將是改變收入模式和運營模式的重要支撐。很多技術需要突破,結合場景的應用實踐是關鍵,急需我們不斷從技術、商業(yè)模式、思維方式上進行創(chuàng)新突破,充分利用AI及相關技術全面提升產品競爭力和用戶體驗,任重而道遠。
[1]呂達,董振江,楊勇.M-ICT應用發(fā)展趨勢及其關鍵技術分析[J].中興通訊技術,2017,23(2):50-55
[2]裴丹,張圣林,裴昶華.基于機器學習的智能運維[J].中國計算機學會通訊,2017,13(12):68-72
[3]Liu D,Zhao Y,Xu H,et al.Opprentice:Towards Practical and Automatic Anomaly Detection Through Machine Learning[C]//Proceedings of the 2015 Internet Measurement Conference.New York: ACM Press,2015:211-224