姜青云 王參參

摘要
在人工智能時代,IT運維管理成為數(shù)據(jù)中心發(fā)展的重要部分,傳統(tǒng)方法已無法滿足高質(zhì)量運維要求,近幾年來商業(yè)銀行正積極探索智能化IT運維管理方法,本文介紹了智能IT運維在銀行數(shù)據(jù)中心的應(yīng)用場景,并對智能運維技術(shù)案例進行淺析。
【關(guān)鍵詞】數(shù)據(jù)中心 IT運維管理 人工智能
1引言
隨著商業(yè)銀行信息科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)中心已經(jīng)由原來數(shù)據(jù)、系統(tǒng)及運營分散的管理模式轉(zhuǎn)型為異地多活分布式架構(gòu),資源利用率和靈活性顯著提升,運維工作量也明顯提升,傳統(tǒng)的“救火式”運維己不能保證數(shù)據(jù)中心應(yīng)用系統(tǒng)的安全穩(wěn)定運行,因此越來越多的商業(yè)銀行數(shù)據(jù)中心開始探索高效的IT運維管理模式。
從宏觀上看,IT設(shè)施種類各異、組成復(fù)雜,包括機房動力環(huán)境、基礎(chǔ)網(wǎng)絡(luò)、存儲、小型機及主機等平臺、中間件、應(yīng)用系統(tǒng)等,從微觀上看,特定IT設(shè)施品牌及指標繁多,以存儲為例,品牌涉及IBM、HP、EMC、華為、Netapp等,指標包括系統(tǒng)配置、電源、風(fēng)扇、控制器、硬盤狀態(tài)、實時性能,以及存儲交換機的電池、映射關(guān)系等,銀行業(yè)數(shù)據(jù)中心一般通過廠商提供的監(jiān)控管理工具查看各IT設(shè)施運行狀態(tài)和性能指標,但是這樣零散的監(jiān)控方式不僅會增加運維工作量,冗余告警還會對運維人員產(chǎn)生極大干擾,降低運維工作效率,從而影響故障點發(fā)現(xiàn)的及時性,因此傳統(tǒng)運維方式面臨的主要問題包括錯綜復(fù)雜的IT元素難以有效監(jiān)控、傳統(tǒng)運維工具單一無法集中監(jiān)控、運維過程流轉(zhuǎn)不成體系等。面對復(fù)雜的異構(gòu)環(huán)境,數(shù)據(jù)中心對數(shù)據(jù)分析和運維自動化的要求越來越高,IT運維人員也希望能夠借助海量的運維數(shù)據(jù)優(yōu)化改進當(dāng)前工作方法,建立在大數(shù)據(jù)分析和自動化運維基礎(chǔ)上的智能化運維時代即將到來。
2人工智能在金融業(yè)的應(yīng)用
當(dāng)前人工智能技術(shù)在金融業(yè)務(wù)領(lǐng)域的主要應(yīng)用包括風(fēng)控及反欺詐、精準營銷、智能投顧、智能客服等,在金融IT領(lǐng)域的主要應(yīng)用是智能運維。風(fēng)控及反欺詐是通過申請貸款的客戶社會關(guān)系數(shù)據(jù),建立與現(xiàn)有黑名單/灰名單庫的關(guān)聯(lián)強度,預(yù)測申請客戶的欺詐概率;精準營銷主要是針對用戶的行為、已有的認知習(xí)慣等數(shù)據(jù)進行挖掘分析,將符合用戶個性及偏好的產(chǎn)品適時的推薦到用戶面前;智能投顧依賴于用戶提供的風(fēng)險承受水平、風(fēng)險偏好等信息,通過不斷的自學(xué)習(xí)和分析模塊,為用戶提供投資參考及預(yù)警提醒;智能客服為銀行與海量用戶之間的溝通建立了一種基于自然語言的快捷有效手段。
對人工智能技術(shù)的研究和應(yīng)用已經(jīng)與金融業(yè)務(wù)深度融合,其中大型商業(yè)銀行銀行已經(jīng)成立人工智能實驗室,投入專門資源開展機器學(xué)習(xí)、GPU處理等相關(guān)技術(shù)的研究工作,在信用卡、快捷支付等業(yè)務(wù)中運用人工智能技術(shù)甄別潛在欺詐風(fēng)險,并提供交易阻斷、短信提醒等措施,保障客戶資金安全,同時適時引入人臉識別、聲紋識別、語音導(dǎo)航等技術(shù),搭建智能柜臺業(yè)務(wù)和客服中心,中小型銀行也紛紛打造智慧廳堂服務(wù)機器人,處理客戶提出的簡單問題。對于銀行數(shù)據(jù)中心而言,人工智能在IT運維管理方面的應(yīng)用研究也日趨明顯。
3智能IT運維
3.1 IT運維管理
IT運維管理是指數(shù)據(jù)中心采用相關(guān)方法、技術(shù)、制度、流程、文檔等,對軟硬件生產(chǎn)運行環(huán)境、業(yè)務(wù)應(yīng)用系統(tǒng)和運維人員進行的綜合管理,主要包括數(shù)據(jù)庫管理、應(yīng)用管理、可用性和性能管理、網(wǎng)絡(luò)管理、故障事件管理、日志管理、配置管理、服務(wù)臺、資產(chǎn)管理、作業(yè)調(diào)度平臺管理、硬件設(shè)備管理等。
3.2智能IT運維
智能IT運維本質(zhì)是將人工智能、大數(shù)據(jù)分析等技術(shù)應(yīng)用到運維管理場景中,實現(xiàn)運維活動的標準化及自動化,進而提升機器輔助運維決策等能力,比如對業(yè)務(wù)應(yīng)用系統(tǒng)提供自動化故障智能檢測,幫助運維人員進行故障根源判斷和處理等,在《中國銀行業(yè)信息科技“十三五”發(fā)展規(guī)劃監(jiān)管指導(dǎo)意見》分列章節(jié)“提高運維自動化水平,打造智能化運維體系”中,對智能化運維相關(guān)內(nèi)容進行了描述,包括環(huán)境部署、運維監(jiān)控、容量管理、共享協(xié)作、數(shù)據(jù)分享等。由于智能化運維的重要作用,銀行業(yè)數(shù)據(jù)中心正積極開展智能化運維的建設(shè)工作,但是由于技術(shù)架構(gòu)復(fù)雜,普遍針對特定智能化場景進行技術(shù)研究、原型測試和試點建設(shè),目前還沒有整體規(guī)劃設(shè)計,典型智能運維場景如圖1所示。
3.3智能IT運維技術(shù)
智能運維平臺是將大數(shù)據(jù)和機器學(xué)習(xí)功能相結(jié)合的軟件系統(tǒng),用以增強或部分取代廣泛的IT運維流程和任務(wù),包括可用性和性能監(jiān)視、事件相關(guān)性和分析、IT服務(wù)管理和自動化,智能化IT運維的共性特征包括以運維數(shù)據(jù)為驅(qū)動、以動態(tài)算法為核心、以機器學(xué)習(xí)為手段,主要包括以下方面功能技術(shù):
(1)運維數(shù)據(jù)抓取,允許從業(yè)務(wù)應(yīng)用服務(wù)、中間件及硬件設(shè)備生成的日志文件中捕獲可二次處理的價值數(shù)據(jù),以及用于訪問和分析的數(shù)據(jù),為方便訪問可以為日志存儲編入索引。
(2)文檔文本輸入,允許對可讀文檔進行輸入、解析和語法語義索引。
(3)運維數(shù)據(jù)存儲,允許對日志數(shù)據(jù)、軟硬件設(shè)備參數(shù)和文檔數(shù)據(jù)進行持久存儲。
(4)自動模式發(fā)現(xiàn)和預(yù)測,基于獲取到的一種或多種類型的歷史運維數(shù)據(jù),得出數(shù)學(xué)結(jié)構(gòu)模型,來描述可能被推斷出的新型關(guān)聯(lián)關(guān)系。
(5)異常檢測,使用己建立的發(fā)現(xiàn)模型確定什么是正常的系統(tǒng)行為,然后從正常的系統(tǒng)行為中辨別出偏離。
(6)根源決定,通過自動模式發(fā)現(xiàn)和預(yù)測模型建立的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)刪除依賴關(guān)系的鏈接,以提供有效干預(yù)的方法。
4智能IT運維技術(shù)案例
4.1智能容量預(yù)測
對于各應(yīng)用系統(tǒng)容量管理方面,傳統(tǒng)運維平臺無法預(yù)測當(dāng)前系統(tǒng)配置能否撐過業(yè)務(wù)高峰期,以及系統(tǒng)存在的瓶頸位置,而智能化的容量管理結(jié)合了大數(shù)據(jù)分析預(yù)測技術(shù),將銀行數(shù)據(jù)中心各物理資源(如服務(wù)器、存儲和網(wǎng)絡(luò)等資源)的實時容量快照、負載情況和未來擴容趨勢呈現(xiàn)出來。智能容量管理首先采集應(yīng)用系統(tǒng)交易量、操作系統(tǒng)性能指標、中間件性能指標等,基于機器學(xué)習(xí)算法,對交易量進行預(yù)測分析,找出交易量與各指標之間的關(guān)聯(lián),最終評估當(dāng)前系統(tǒng)承受交易量上限及瓶頸,在容量告警之前幫助維護人員及時制定有效地采購和擴容計劃,滿足用戶未來資源的高效利用。
4.2智能異常檢測
傳統(tǒng)的異常告警管理一般使用固定閥值并且需要運維人員手動設(shè)置,這種方式不僅工作量巨大且十分依賴運維人員的經(jīng)驗,若閥值設(shè)置不當(dāng)可能導(dǎo)致告警風(fēng)暴或者告警漏報等后果,異常檢測是智能運維系統(tǒng)中一項基礎(chǔ)且重要的功能,是在眾多可能引起故障的因素中,追溯到導(dǎo)致故障發(fā)生的癥結(jié)所在,旨在通過算法自動發(fā)現(xiàn)KPI時間序列中數(shù)據(jù)的異常波動,為后續(xù)的告警、根源分析提供決策依據(jù)。在實際場景中,批量時段性能指標超閥值、交易量峰值時段性能指標超閥值等成為日常告警的難點,通過時間序列分析和移動指數(shù)平均、LSTM算法等機器學(xué)習(xí)算法,進行系統(tǒng)指標的動態(tài)基線告警,并基于指標告警實現(xiàn)故障樹的構(gòu)建,輔助完成故障定位。
5展望
近年來,機器學(xué)習(xí)理論研究迅猛發(fā)展,不斷取得突破,促進了人工智能技術(shù)的飛躍,基于機器學(xué)習(xí)的智能運維今后會在銀行數(shù)據(jù)中心全面發(fā)展,因為銀行業(yè)擁有得天獨厚的大數(shù)據(jù)和應(yīng)用場景,最終成為運維人員高效可靠的助手。
參考文獻
[1]袁俊德.人工智能與生產(chǎn)運維[R].農(nóng)信銀支付清算系統(tǒng)會議,蘇州,2 018.
[2]王雄.云時代IT運維面臨哪些新的挑戰(zhàn)[J].計算機與網(wǎng)絡(luò).2018 (21): 40
[3]袁俊德,以“七臺兩庫”領(lǐng)銜智能化運維[J].金融電子化.2017 (08):75-77.