999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識庫和HSMM模型的云日志分析方法

2020-09-26 11:43:52張崢峰何成萬張進
電腦知識與技術 2020年24期

張崢峰 何成萬 張進

摘要:為了分析云基礎環境下各個組件產生的日志數據,本文提出了一個基于知識庫和HSMM(隱半馬爾科夫模型)的云日志分析方法。首先,日志分析系統整合了Flume, Kafka, Spark Streaming;然后,消費模塊實時獲取云日志,云日志經過一系列處理后形成時間事件序列用于故障預測,正確的預測結果將通過接口寫入知識庫。此外,獲取的云日志會寫入elasticsearch中用于日志檢索;最后,通過實驗對系統的實用性指標進行了評估。該云日志分析系統可以聚集多源日志,方便日志檢索,提高預測的準確度。

關鍵詞:Spark Streaming;云日志;TF-IDF;知識庫;OpenStack

中圖分類號:TP311.5 ? ? ? 文獻標識碼:A

文章編號:1009-3044(2020)24-0007-04

Abstract: In order to analyze the log data generated by various components in the cloud-based environment, this paper proposes a cloud log analysis method based on the knowledge base and HSMM (Hidden Semi-Markov Model). First, the log analysis system integrates Flume, Kafka, and Spark Streaming; then, the consumer module obtains the cloud logs in real-time, and the time event sequence formed by the cloud logs after a series of processing is used for fault prediction. The correct prediction results will be written into the knowledge through the interface. Library. Also, the obtained cloud logs will be written into an elastic search for log retrieval; finally, the usage practices of the system was evaluated through experiments. The cloud log analysis system can aggregate multi-source logs, facilitate log retrieval, and improve the accuracy of prediction.

Key words: Spark Streaming; cloud log; TF-IDF; database of knowledge; OpenStack

1引言

伴隨著云時代的到來,以OpenStack[1]搭建的云基礎平臺(IASS)越來越受到人們的重視。OpenStack搭建的云基礎平臺包含了儀表盤組件Horizon,計算組件nova,網絡組件neutron,對象存儲組件swift,塊存儲組件cinder,鏡像組件glance,身份認證組件keystone,計費組件ceilometer,編排組件heat。云日志具有多源性特點:組件的獨立性,即使是單機部署的OpenStack,不同組件運行后形成的日志文件也在不同的文件夾下面;業界熟知的阿里云,亞馬遜云等都是一個分布式集群,集群中包含了控制節點,計算節點,網絡節點和數據節點等,節點部署在集群的不同主機上,節點的分散性決定了日志多源性。

文獻[2]提到了日志對于系統的運行維護和故障診斷都具有很大的幫助。直接閱讀多源日志需要手動來回切換日志存儲目錄,不方便查詢。故障預測作為故障檢測的一種手段,讓運維人員能夠盡可能及早發現故障。日志的多源性會增加數據種類的多樣性,增加系統監聽負擔,給故障預測的準確率和實時性都提出了挑戰。

本文提出了一個基于知識庫和HSMM模型的云日志分析方法。該方法具有集中分散多源日志、方便查詢日志、能夠在不修改源日志結構的前提下進行故障預測和提供解決方案等特點。

2相關工作

關于云環境下的日志分析,很多學者對此展開了深入的研究。Shetty[3]等人提出了一種基于機器學習和控制理論模型的數據挖掘技術,可以自適應地調整檢測閾值,通過實時分析云日志來發現云環境中的異常事件,這是一種事后診斷的方法。Wang等人[4]設計并實現了一個云數據中心審計系統 CDCAS(Cloud Data Center Auditing System),用一個分布式自治代理模型來收集各種多源異構日志,基于特征的方法和相關性分析算法比較審計日志和預配置或預定義的事件模式,從而發現非法行為。由于是在非法行為已經發生了的情況下通過日志分析來發現系統異常的方法,是一種事后處理的方法。張之宣等[5]提出了一個基于HSMM模型的異常預測方法,能夠對系統故障進行預測,但是預測的準確率不高,并且故障預測的結果是基于二分類的分類方法,其最終預測結果只有異常或者正常兩類,所以異常的具體內容是無法得知的。王智遠[2]等人提出了一種日志異常的檢測方法,首先基于編輯距離進行日志聚類形成模板,然后對模板進行TF-IDF分詞處理形成數值型特征向量,然后使用貝葉斯,邏輯回歸等弱分類器構建得分特征向量,最后利用得分特征向量和隨機森林得到強分類器用于異常檢測。實驗證明了該方法具有很好的分類效果。由于是基于事件已經發生后進行的分類處理,所以還是一種事后處理辦法。

本文提出的是基于知識庫和HSMM預測方法,簡稱KDB+HSMM(Knowledge DataBase+HSMM)。隨著時間推移,知識庫內容的豐富完善,相對原有的HSMM[5]預測方法而言,能夠提高一點預測的準確度,得知異常發生的具體內容。

3系統設計與實現

整個實時系統主要分為三大部分,數據采集部分,數據分析部分,數據前端展示部分,系統的整體架構如圖1所示。

3.1數據采集

Flume是一個采集工具,主要功能是可以把各種數據源通過管道把數據下沉到目的地。通過配置數據來源和數據下沉的目的地,可以完成數據從產生的地方遷移到目的地。通過配置監聽0penStack各個組件日志文件,從而將分散的多源日志集中收集起來,便于統一進行處理。

Kafka是基于消息發布訂閱系統,由producer,broker,consumer構成,生產者向broker某個主題發布消息,消費者訂閱該主題,可以從該主題上拉取數據。作為大數據處理的中間件,起數據處理緩沖作用。Kafka作為Flume和Spark Streaming之間橋梁,Flume下沉數據到Kafka主題上,Spark Streaming訂閱主題實時消費數據。

Spark Streaming是偽實時處理框架,通過Spark Streaming提供編程模型,設置多少時間為一個批次,由于時間很短,近似看作是實時處理。Streamingcontext是Spark Streaming的程序入口。

valsparkConf ?= new SparkConf()

.setAppName(“cloudLogAnalysis”).setMaster[“local[*]”];

//配置[?t],作為數據的一個批次。

valssc = new StreamingContext(sparkConf,Seconds([?t]));

3.2 數據分析

3.2.1 故障預測

故障預測模塊實現是基于知識庫和HSMM預測方法。假設故障出現的時間點time,手動配置[?t],預測前置時間[?lt],在(time-[?lt-?t])到(time-[?lt])組成事件序列用來預測發生的time點的故障,如圖2所示。

在知識庫中建立3張核心的表。表TTC(typeId,typeContent),如表1所示;TIK(typeId,knowledge)如表2所示;FST(failSequence,typeId)如表3所示。

KDB+HSMM預測的過程,如圖3所示。

1) OpenStack日志格式統一為<時間戳><日志等級><代碼模塊><日志內容><源代碼位置>,過濾日志等級為ERROR的日志數據。時間事件序列重點關注云日志的兩個字段,時間戳(timeStamp)和日志內容(message),其他字段清理掉,簡化計算。時間戳標記事件發生的先后順序,日志內容進行事件的分類。

2)對日志內容進行常數歸一處理,降低矩陣維度和減少無意義特征,提高效率和模型精確度。例如nova-compute.log中一條錯誤日志內容AMQP server on 192.168.143.128:5672 is unreachable: Too many heartbeats missed. Trying again in 1 seconds. Client port: None: ConnectionForced: Too many heartbeats missed,替換常數后形成的日志內容為AMQP server on * is unreachable: Too many heartbeats missed. Trying again in *seconds. Client port: None: ConnectionForced: Too many heartbeats missed,不同的常數增加了維度,統一用*號去代替,降低維度。

3)將經過2)常數歸一處理后的文本信息轉為數值型特征。本文采用是TF-IDF,對日志常數歸一后的內容進行分詞。TF-IDF[7](term frequency–inverse document frequency)是一種常見的文本挖掘技術。TF意思是詞頻(Term Frequency),表示詞語在文檔中出現的詞頻,IDF意思是逆文本頻率指數(Inverse Document Frequency),是衡量詞重要性指標。

4)經過3)分詞后形成數值型特征進行分組聚類處理。日志中記錄了很多相似的錯誤事件,可以進行聚類處理。日志文本信息豐富,形成的數值型特征矩陣維度高,聚類計算量大。而K-means聚類算法能夠并行化處理,聚類速度快,spark機器學習庫里面集成了該算法,方便進行內存迭代調優。K-means算法[8]初始化中心K是人為選取的,最優K值是當走HSMM模型預測路線的預測準確率收斂于某一個值。對事件聚類的過程如圖4所示。

經過聚類處理后,可以知道每個事件到底屬于哪一個類,然后根據每個事件所標記的時間,就可以展示出時間事件序列。用上圖4中的a,b,c三個類進行舉例子,假設標記的時間先后順序為[m1,m2,m3,m5,m9,mk],那么經過聚類后所展示[m1,m2,m3,m5,m9,mk]時間事件序列如圖5所示。

5)基于4)聚類的數據結合標記時間,形成時間事件序列。

6)故障預測。故障預測的本質是實時獲取的事件序列是否包含有故障有關的序列,5)形成的時間事件序列作為預測的輸入數據。知識庫預測原理為FST中進行匹配查詢(%failSequence%=R),如果查詢有,會通過typeId關聯到typeContent,返回預測結果的具體內容。HSMM預測原理為系統的一種類型的狀態[si]對應一個 HSMM分類模型[λi],將實時獲取的時間事件序列O代入[p(o/λi)],由計算概率最大的[λi]得到系統狀態[si]。其預測示意圖如圖6所示。

3.2.2 知識庫完善

如果組件運行出現了問題,首先是根據typeId從知識庫表TIK里面去尋找對應的解決方案knowledge,如果到知識庫庫里面找不到解決方案,維護人員也不知道如何解決的情況下,點擊故障解決模塊中的網上搜尋按鈕。系統會獲取異常日志errorLogs,調用自動化測試工具selenium[9],將errorLogs作為關鍵詞在網上檢索解決方案,相對人為手動復制粘貼errorLogs到網上檢索而言,方便快捷。當到網上順利找到了對應的解決方案knowledge,維護人員將knowledge通過接口添加到TIK中,完善知識庫,其過程如圖7所示。

不同的瀏覽器選擇不同的selenium驅動,搜索網站的網址,網站的搜索框Xpath,搜索按鈕的Xpath(瀏覽器審查元素,然后復制元素Xpath獲取),寫入到配置文件中,讓程序讀取,如圖7所示。維護人員沒有配置的話,遵守約定優于配置的原則,默認是從百度上搜索解決方案。其實現的核心代碼如下:

System.setProperty(瀏覽器selenium驅動地址);

WebDriver driver=new 瀏覽器驅動

driver.get(搜索網站網址);

WebElement input =driver.findElement(By.xpath(搜索框Xpath));

input.sendKeys(errorLogs);

WebElement button = driver.findElement(By.xpath(搜索按鈕Xpath));

button.click();

3.2.3云日志檢索

云日志很明顯的一個特點是數據量大,如果用傳統的關系型數據庫存儲可能存在查詢響應慢和存儲空間不足等問題。本系統采用的是elasticsearch[6]進行日志的存儲,可以實現日志的快速檢索功能。另外,如果還有其他需求的話,可以下載kibana(kibana版本號和elasticsearch的版本號要一致),配置kibana.yml中的elasticsearch url,可以對存儲在elasticsearch中的日志進行可視化分析。Kibana和本文提到的分析系統是相互獨立的,輔助分析云日志。

4實驗結果及其比較

單機部署的OpenStack云基礎環境,通過創建和刪除云實例操作,循環反復50次后所產生的日志數據源進行實驗。

用準確率(Precision),召回率(Recall),F-measure來衡量故障預測的結果。

張之宣提出的HSMM[5]和本文中KDB+HSMM就預測結果(知識庫預測結果趨于穩定后)進行比較,結果如表4所示。

5 結語

通過整合Flume,Kafka,Spark Streaming大數據分析組件,搭建了一個實時云日志分析系統,可以集中多源日志,進行日志檢索和異常預測,提供一套異常解決方案。日志檢索模塊,基于elasticsearch引擎實現,可以水平擴展,提升存儲能力。異常預測模塊是基于KDB+HSMM,較單獨HSMM[6]而言,能夠提高一點預測的準確度,顯示即將發生異常的具體內容。不過,從實驗結果中可以看出異常預測的準確度還是很低,另外HSMM預測路線的知識庫豐富需要靠人工操作接口去補充,靈活性存在明顯的不足,還需要進一步研究,提高預測的準確度和知識庫豐富的靈活性。

參考文獻:

[1] 王志健.基于Openstack平臺的入侵檢測系統的設計與開發[D].蘇州:蘇州大學,2017.

[2] 王智遠,任崇廣,陳榕,等.基于日志模板的異常檢測技術[J].智能計算機與應用,2018,8(5):17-20,24.

[3] Shetty S . Auditing and Analysis of Network Traffic in Cloud Environment[C]// IEEE Ninth Word Congress Services. IEEE, 2013:235-258.

[4] Wang X Y,Zhang J,Wang M B,et al.CDCAS:a novel cloud data center security auditing system[C]//2014 IEEE International Conference on Services Computing. 27 June-2 July 2014, Anchorage, AK, USA. IEEE, 2014:605-612.

[5] 張之宣.云計算環境下實時日志分析系統的設計與實現[D].杭州:浙江大學,2016.

[6] 梁文楷.基于Elasticsearch全文檢索系統的實現[J].電腦編程技巧與維護,2019(6):116-119.

[7] 葉雪梅,毛雪岷,夏錦春,等.文本分類TF-IDF算法的改進研究[J].計算機工程與應用,2019,55(2):104-109,161.

[8] 俞皓芳,孫力帆,付主木.基于改進K-means++聚類的多擴展目標跟蹤算法[J].計算機應用,2020,40(1):271-277.

[9] 姜文,劉立康.基于Selenium的Web軟件自動化測試[J].計算機技術與發展,2018,28(9):47-52,58.

【通聯編輯:唐一東】

主站蜘蛛池模板: 最新精品国偷自产在线| 国产免费高清无需播放器| 国产精品尹人在线观看| 国内精品手机在线观看视频| 日韩乱码免费一区二区三区| 亚洲无码高清免费视频亚洲| 欧美第九页| av一区二区人妻无码| 国产高清在线观看| 农村乱人伦一区二区| 国产性爱网站| 国产va欧美va在线观看| 四虎永久免费网站| 亚洲中久无码永久在线观看软件 | 91在线激情在线观看| 好吊色妇女免费视频免费| 毛片一级在线| 国产精品冒白浆免费视频| 成人福利在线看| 日韩资源站| 亚洲综合专区| 亚洲国产亚洲综合在线尤物| aaa国产一级毛片| 日韩一二三区视频精品| 国产精品女主播| 免费无码在线观看| 免费一级全黄少妇性色生活片| 日韩欧美中文| 无码免费视频| 国产新AV天堂| 久久福利网| 九九热精品免费视频| 国产视频一区二区在线观看| 日本免费高清一区| 福利姬国产精品一区在线| 国产成人综合在线视频| 鲁鲁鲁爽爽爽在线视频观看 | 99激情网| 欧美成人一级| 欧美精品1区| 伊人蕉久影院| 国产成人AV综合久久| 精品国产福利在线| 中国国产高清免费AV片| 国产超薄肉色丝袜网站| 午夜三级在线| 成人a免费α片在线视频网站| 欧美日韩中文字幕在线| 夜夜操天天摸| AV在线天堂进入| 91精品国产综合久久不国产大片| 国产精品久久久久无码网站| 91麻豆国产视频| 国产麻豆91网在线看| 日韩成人在线一区二区| 欧美乱妇高清无乱码免费| 美女无遮挡拍拍拍免费视频| 免费不卡在线观看av| 亚洲一级毛片免费观看| 五月激情婷婷综合| 黄色网在线| 欧美成人a∨视频免费观看| 免费看a毛片| 最新国产精品第1页| 久久精品中文字幕免费| 国产亚洲视频在线观看| 欧美精品导航| 香蕉视频在线观看www| 国产香蕉97碰碰视频VA碰碰看| 91久久青青草原精品国产| 亚洲欧美日韩另类在线一| 成人欧美在线观看| 丝袜美女被出水视频一区| 十八禁美女裸体网站| 亚洲丝袜第一页| 亚洲国模精品一区| 2022国产91精品久久久久久| 国产成人无码综合亚洲日韩不卡| 亚洲美女视频一区| 国产激爽大片高清在线观看| 国产在线精品香蕉麻豆| 国产高清又黄又嫩的免费视频网站|