999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談基于大數(shù)據(jù)處理及文本相似度判斷的信息服務(wù)工單分析工具

2018-11-20 09:28:56屈子夢
機(jī)電信息 2018年33期
關(guān)鍵詞:數(shù)據(jù)處理文本系統(tǒng)

屈子夢

(廣東電網(wǎng)有限責(zé)任公司江門供電局,廣東江門529000)

0 引言

基于文本挖掘技術(shù)的信息服務(wù)工單分析工具,解決了當(dāng)前系統(tǒng)運(yùn)維工作中定位根因繁瑣、解決問題耗時等難題。同時,業(yè)界較為成熟的文本挖掘算法以及大數(shù)據(jù)處理引擎Spark也為該工具的可行性提供了有力的保障。本文將以信息工單數(shù)據(jù)的流向?yàn)橐罁?jù),介紹服務(wù)工單分析工具中的主要模塊,包括:Spark處理數(shù)據(jù)獲取系統(tǒng)中的重要問題,文本相似度算法計(jì)算問題的相似度,生成知識庫。在這當(dāng)中,問題相似度判斷的準(zhǔn)確性將會是實(shí)現(xiàn)該工具的難點(diǎn),同時也是其可用性的重要依據(jù),較高的準(zhǔn)確性將會很大程度上提高運(yùn)維工作的效率。

1 生成系統(tǒng)重要問題

信息系統(tǒng)中包含大量的工單數(shù)據(jù),也意味著這些數(shù)據(jù)中包含大量有價值的信息。使用Spark數(shù)據(jù)處理引擎可以有效且快速地對工單進(jìn)行匯總、分類等各項(xiàng)操作。生成重要問題的數(shù)據(jù)處理流程如圖1所示。

圖1 工單數(shù)據(jù)處理流程

在展開數(shù)據(jù)處理的流程之前,先對Spark作簡單的介紹:Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,Spark是UC Berkeley AMP Lab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類Hadoop MapReduce的通用并行框架,Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。其中,該計(jì)算框架最重要的抽象概念就是RDD(Resilient Distributed Dataset),彈性分布式數(shù)據(jù)集,即圖1中的淺灰色部分。對RDD的操作共分為兩大類:transformation(轉(zhuǎn)換)和action(動作),本篇論文所討論的數(shù)據(jù)操作過程也都是這兩大類的子集。這其中蘊(yùn)含的一個基本概念是,Spark的操作是延遲(lazy)的,即只有action才能真正觸發(fā)數(shù)據(jù)處理流程。

具體地,工單數(shù)據(jù)的處理流程主要涉及Oracle和Spark兩個組件。

(1)周期性(每月)地從Oracle讀取系統(tǒng)工單數(shù)據(jù)生成RDD。

(2)對讀取的工單數(shù)據(jù)做分組,將同類型的系統(tǒng)數(shù)據(jù)分為一組。在這個過程中涉及的轉(zhuǎn)換操作是groupBy,一個簡單的方法調(diào)用就能將大量的數(shù)據(jù)分組,這也正是Spark強(qiáng)大的地方。

(3)在這一步中,需要將(2)中的結(jié)果進(jìn)行計(jì)數(shù),即計(jì)算每個分組中包括的系統(tǒng)個數(shù),需要用到RDD的一種動作count。

(4)對分組系統(tǒng)進(jìn)行過濾,例如人們只關(guān)心當(dāng)月被用戶提的工單數(shù)大于1 000的系統(tǒng)有哪些,該過濾需要用到一種轉(zhuǎn)換操作filter。到此,就生成了該月的重點(diǎn)系統(tǒng)。

對于每個重點(diǎn)系統(tǒng)中的重點(diǎn)問題,只需要重復(fù)上述的(2)(3)(4)三個過程就可以得到結(jié)果。讀者這時可能會問,如果現(xiàn)在我關(guān)注的重點(diǎn)系統(tǒng)有50個,那上述(2)(3)(4)過程豈不是要執(zhí)行50次?完全正確!但是,這又是強(qiáng)大的Spark發(fā)揮作用的時候,雖然要得到結(jié)果確實(shí)需要再執(zhí)行50遍,但這50次執(zhí)行過程是并發(fā)運(yùn)行的,在資源充足的理想狀態(tài)下,我們可以認(rèn)為執(zhí)行50次任務(wù)的時間和執(zhí)行一次的時間相等!

Spark處理大數(shù)據(jù)量的高性能已經(jīng)被大量的工業(yè)以及學(xué)術(shù)界實(shí)踐所證明。針對每月信息系統(tǒng)中大概萬級的工單條數(shù),用三臺虛擬機(jī)部署一個Spark環(huán)境就足以用分鐘級的耗時將數(shù)據(jù)處理完畢。相比于人工逐條處理或是單純地在Oracle中使用sql語句處理,效率和準(zhǔn)確率都提升得非常明顯!

2 挖掘工單的相似性

原始的工單數(shù)據(jù)在經(jīng)過Spark的處理后具備了一定的類別性和規(guī)范性,但生成的重要問題中仍然存在很多重復(fù)的內(nèi)容。雖然有些工單問題從標(biāo)題上看并沒有關(guān)聯(lián),然而通過將其內(nèi)容進(jìn)行比對后就不難發(fā)現(xiàn)往往一些工單所反映的是同一個或者同一類問題,這就導(dǎo)致了運(yùn)維人員還是無法精準(zhǔn)且快速地根據(jù)這些重要問題制定相應(yīng)的解決方案。由此就引出了這篇論文所涉及的一個技術(shù)關(guān)鍵點(diǎn):計(jì)算文本相似度。

2.1 文本相似度的概念

顧名思義,文本相似度就是表示兩段文字相似的程度,是屬于自然語言處理的一個重要的課題。實(shí)際上我們不難發(fā)現(xiàn),人通過閱讀會很容易發(fā)現(xiàn)兩段文字分別表達(dá)的是什么內(nèi)容,也就順理成章地會給出一個相似度的高低。但這件事如果讓機(jī)器自動化地去做的話就沒有那么容易了。另外一個相似的例子是,人可以很容易地分辨出一只貓和一只狗,然而機(jī)器識別起來依舊很困難。回到文本相似度的問題上來,文本是一種高維的語義空間,如何對其進(jìn)行抽象分解,從而能夠站在數(shù)學(xué)角度去量化其相似性?下面主要對信息服務(wù)工單分析工具中使用到的兩種度量方法進(jìn)行說明。

2.2 杰卡德(Jaccard)相似系數(shù)

這種相似度計(jì)算方式相對簡單,原理也易于理解,就是計(jì)算單詞集合之間的交集和并集大小的比例,該值越大,表示兩個文本越相似。在涉及大規(guī)模并行計(jì)算時,該方法在效率上有一定的優(yōu)勢。Jaccard相似度公式如下:

舉例:

句子A:“我喜歡看電視,不喜歡看電影。”

句子B:“我不喜歡看電視,也不喜歡看電影。”

分詞去噪后:A=(我,喜歡,看,電視,電影,不);B=(我,喜歡,看,電視,電影,也,不)。

那么根據(jù)公式可得:J(A,B)=(我,喜歡,看,電視,電影,不)/(我,喜歡,看,電視,電影,也,不)=6/7=0.86。

2.3 余弦相似性

余弦相似度即計(jì)算兩個向量之間的夾角,夾角越小相似度越高。其公式為:

假定A和B是兩個n維向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],則根據(jù)公式可以計(jì)算A與B的夾角余弦。沿用2.2中的例子,計(jì)算詞頻如下:

句子A:我1,喜歡2,看2,電視1,電影1,不1,也0。

句子B:我1,喜歡2,看2,電視1,電影1,不2,也1。

生成詞頻向量:句子A為[1,2,2,1,1,1,0],句子B為[1,2,2,1,1,2,1]。使用上述公式,我們便可得到句子A與句子B的夾角余弦,即兩句話的文本相似度可以根據(jù)余弦的值去度量。

2.4 文本相似性度量的成果

信息工單數(shù)據(jù)在經(jīng)過相似性度量的算法處理后,才能得到真正意義上的重要問題庫,運(yùn)維人員可以根據(jù)這份覆蓋整個信息系統(tǒng)但又精簡、精確的問題庫生成相應(yīng)的知識庫。為避免重復(fù)計(jì)算,文本相似性的判斷只是針對問題的主體,并沒有對問題標(biāo)題作相似性度量。可以說,文本相似性算法的運(yùn)用是整個信息服務(wù)工單分析工具的核心價值。

3 結(jié)語

良好的信息系統(tǒng)建設(shè),可以支撐電網(wǎng)企業(yè)業(yè)務(wù)發(fā)展。通過大數(shù)據(jù)分析與文本相似性算法,掌握信息系統(tǒng)功能缺陷與用戶需求,可以更快、更好地改善系統(tǒng)可靠性、實(shí)用性,讓電網(wǎng)企業(yè)信息系統(tǒng)運(yùn)作更加高效,服務(wù)用戶。

猜你喜歡
數(shù)據(jù)處理文本系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
主站蜘蛛池模板: 好吊色妇女免费视频免费| 国产超碰在线观看| 国产凹凸一区在线观看视频| 97免费在线观看视频| 成人福利在线免费观看| 国产欧美视频综合二区| 亚洲男人天堂2020| 伊人五月丁香综合AⅤ| 蝴蝶伊人久久中文娱乐网| 亚洲综合专区| 中文字幕佐山爱一区二区免费| 久久香蕉国产线看观看式| 国国产a国产片免费麻豆| 无码免费的亚洲视频| 国产肉感大码AV无码| 国产不卡一级毛片视频| 99久久无色码中文字幕| 真实国产精品vr专区| 97成人在线视频| 精品成人一区二区| 真人免费一级毛片一区二区| 欧美激情福利| 综合色婷婷| 国产在线观看人成激情视频| 一级一级特黄女人精品毛片| 蜜臀AV在线播放| 成人精品午夜福利在线播放| 欧美一区二区啪啪| 97人人做人人爽香蕉精品| 国产又黄又硬又粗| 伊人久久精品亚洲午夜| 欧美日韩亚洲国产| 人人看人人鲁狠狠高清| 日本精品中文字幕在线不卡| 免费无码又爽又黄又刺激网站 | 国产美女在线观看| 亚洲黄色成人| 激情六月丁香婷婷四房播| 国产成人免费| 国产美女精品在线| 伊人久久大香线蕉综合影视| 国产精品成人AⅤ在线一二三四| 欧美一级高清片欧美国产欧美| 欧美a级完整在线观看| 在线免费观看AV| 日韩欧美国产另类| 国产性猛交XXXX免费看| 青青操视频免费观看| 欧美一级在线看| 国产丰满大乳无码免费播放| 全免费a级毛片免费看不卡| 午夜爽爽视频| 日本精品影院| 国产成人精品一区二区不卡| 拍国产真实乱人偷精品| 国产乱子伦视频三区| 黄色a一级视频| 欧美成人精品一级在线观看| 一本大道东京热无码av| 88国产经典欧美一区二区三区| 国产一区二区三区在线观看视频| 日韩欧美一区在线观看| 中文字幕亚洲电影| 亚洲av日韩av制服丝袜| 日韩无码视频专区| 亚洲av中文无码乱人伦在线r| 亚洲第一成年网| 国产产在线精品亚洲aavv| 色婷婷丁香| 日韩小视频网站hq| 日韩二区三区| 日韩在线播放欧美字幕| 日本精品视频| 精品人妻一区无码视频| 久久精品国产精品一区二区| 国产成+人+综合+亚洲欧美 | 一级毛片在线播放| 午夜啪啪网| 亚洲第一精品福利| 亚洲伊人久久精品影院| 91精品国产一区自在线拍| 欧美亚洲另类在线观看|