999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計量檢定裝置智能運維知識庫的構(gòu)建與應(yīng)用研究

2021-01-11 10:12:54陳雅倫高銘澤趙興旺
自動化與儀表 2020年12期
關(guān)鍵詞:文本故障模型

陳雅倫,凌 璐,高銘澤,趙興旺

(南瑞集團(國網(wǎng)電力科學研究院)有限公司,南京210000)

近年來,在省級計量中心智能化建設(shè)的推進下,各省公司基本建成了計量自動化生產(chǎn)系統(tǒng),有效支撐了計量器具和用電信息采集設(shè)備的集中檢定工作[1]。目前主要運維方式是人工巡檢,以人工方式開展、事后彌補手段為主,然而隨著大量新型、先進自動化設(shè)備的廣泛應(yīng)用,系統(tǒng)規(guī)模大、專業(yè)性強、復雜度高,傳統(tǒng)依靠人工處理故障的方式滿足不了低成本高效率的要求,無法做到精益化科學管理[2]。因此,為了加快設(shè)備故障的處理速度,提升運維水平和運維質(zhì)量,需要通過分析線下歷史運維日志以及故障處理方法相關(guān)材料建立一個能夠?qū)崿F(xiàn)智能應(yīng)答的知識庫[3-8]。

國內(nèi)現(xiàn)有的運維知識庫檢索方式主要采用知識檢索匹配方式,通過基于文本分析計算詞頻(term frequency,TF)和逆文本頻率指數(shù)(inverse document frequency,IDF) 確定文章關(guān)鍵詞,TF-IDF 值越大表明單詞在文章中的重要程度越高,就越可能是關(guān)鍵詞。然而,考慮到搜索語句常常包含“一詞多義”和“一義多詞”的情況,現(xiàn)有的脫離語義的文本分析方法會造成檢索結(jié)果不夠精確[9-10],導致計量檢定裝置故障處理過程中出錯風險增大,不利于智能運維工作的開展。

本文在歷史運維數(shù)據(jù)的基礎(chǔ)上構(gòu)建智能運維知識庫模型,輸入查詢數(shù)據(jù)時通過相似度計算,得到相似度排序,排序靠前的作為最優(yōu)方案。同時根據(jù)用戶反饋進行不斷地完善,構(gòu)建了能夠智能推薦處理方法并能通過用戶使用反饋進行自學習的智能運維知識庫,幫助運維人員提升故障響應(yīng)速度、運維水平和運維質(zhì)量。

1 LDA 模型

1.1 模型理論

LDA 模型是基于語義分析的文檔主題生成模型,它深入挖掘語義的方法為對每個文本提煉該文本的主題分布,即在文本(document,已知)和文本中詞(word,已知)中間加入一個隱變量主題(topic,未知)。在LDA 模型中,給定文檔dj,詞wi出現(xiàn)的概率P(wi∣dj)是確定的,而P(wi∣dj)=ΣkP(wi∣tk)P(tk∣dj)中的P(wi∣tk)和P(tk∣dj)由于含有隱變量是需要學習的項。

對于LDA 模型來說一個文檔的形成是先確定某個位置的主題,然后才選擇這個主題下的某個詞,即先確定主題后選詞。圖1 為LDA 模型結(jié)構(gòu)流程,模型中出現(xiàn)的參數(shù)如表1 所示。

圖1 LDA 模型流程Fig.1 Flow chart of LDA model

表1 LDA 模型符號說明Tab.1 Description of LDA model symbol

LDA 模型將變量分為3 個層級:α→,β→為文檔集層級變量(corpus-level),一個模型內(nèi)部文檔集層級變量一樣;θ→d為文檔層級變量(document-level),一個文檔內(nèi)部文檔層級變量一樣;wd,n為文檔d的第n詞,zd,n為文檔d第n詞的主題類型,它們均為詞層級變量(word-level),詞層級變量隨著位置的不同而不同。

通過極大似然估計最大化概率,似然函數(shù)如式(1)所示:

根據(jù)給定的限制條件為Σn zd,n=1,Σn wd,n=1,Σθd=1。參數(shù)估計(zd,n,wd,n)極大化似然函數(shù)。

采用最大期望(expectation-maximum algorithm,EM) 算法進行迭代求解,EM 算法是適用于帶有隱變量的參數(shù)估計的求解方法。每次迭代求解分為兩步,期望步(E-step)和極大步(M-step),在E-step 中求解隱變量的期望,在M-step 中使用隱變量的期望代替隱變量的值,求解模型參數(shù)。每次E-step 輸入,計算似然函數(shù)。M-step 最大化該似然函數(shù),算出不斷迭代直到收斂。

1.2 模型評價標準

困惑度(perplexity)是評價語言模型好壞的方法,其基本思想是:給測試集的句子賦予較高概率值的語言模型,當語言模型訓練完之后,測試集中的句子都是正常的句子,那么訓練好的模型就是在測試集上的概率越高越好。

困惑度表達式如式(2)所示:

式中:P(w)=ΣΣP(d)P(z∣d)P(w∣z)。其中困惑度越小代表模型效果越好。

本文首先利用Python 程序代碼塊對幾種常用模型進行困惑度評價。表2 列出各個模型所能達到的最小困惑度,從表2 可知經(jīng)過數(shù)據(jù)預處理后的LDA模型困惑度最小,模型表現(xiàn)效果較好。因此本文通過分析線下運維日志以及故障處理方法相關(guān)材料,基于自然語言預處理技術(shù)和LDA 模型構(gòu)建主題分布矩陣,從而構(gòu)成知識庫模型。

表2 不同模型困惑度比較Tab.2 Model perplexity

2 知識庫構(gòu)建

2.1 數(shù)據(jù)預處理

2.1.1 文本清洗

根據(jù)運維得到的歷史數(shù)據(jù),采用文本清洗方法排除噪聲詞匯對文本相似度的影響。由于本身報警描述中的語言較為規(guī)整,不存在錯別字、習慣用語等,文本清洗主要從以下兩步入手:

1)去除標點符號

由于標點符號本身并不帶有文本的特征信息,去除標點符號有利于減小模型輸入的維數(shù)、及其帶來的對文本相似度的干擾。

2)去除逆文本頻率指數(shù)較低的詞匯

逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量,第i個詞匯wi逆文本頻率指數(shù)表示如式(3)所示:

式中:∣D∣為文本個數(shù)。若wi∈dj則δdj(wi)=1,若wi?dj則δdj(wi)=0。

逆文檔頻率指數(shù)較低,意味著該詞匯在較多的文檔中出現(xiàn),因此判斷該詞匯為常用詞匯即不能反映文本的特征。通過該方法去除非特征詞匯不僅能降低維度,還能提升文本匹配算法的準確度。

2.1.2 文本分詞

對去除非特征詞匯的文本使用JIEBA 分詞工具,基于不同的算法,通過大量的語料訓練,實現(xiàn)中文分詞。圖2 給出了分詞過程示例。

圖2 分詞過程示例Fig.2 Example diagram of word segmentation process

2.1.3 文本向量化

分詞后形成文檔集的“詞袋”并對“詞袋”中的詞匯進行編碼。通過計算每篇文檔的詞頻將文本向量化,得到文檔集的詞頻矩陣,作為構(gòu)建知識庫模型的輸入。圖3 給出了將分詞結(jié)果向量化過程示例。

圖3 向量化示例圖Fig.3 Example diagram of vectorization

2.2 主題分布矩陣

對訓練的LDA 模型,將Topic-word 分布文檔轉(zhuǎn)換成字典,方便查詢概率,即計算困惑度perplexity中的P(w),其中P(z∣d)表示一篇文檔中每個主題出現(xiàn)的概率,P(w∣z)是詞典中的每個單詞在某個主題下出現(xiàn)的概率。對于不同的主題數(shù)量的模型,計算困惑度,畫出折線圖,確定每篇文章的主題向量維數(shù)。根據(jù)原始文本預處理后形成的詞頻矩陣,對于不同主題所訓練出來的模型,計算它的困惑度,最小困惑度所對應(yīng)的就是最優(yōu)的主題數(shù)。

2.3 相似度計算

LDA 模型最終輸出每個文檔的主題分布矩陣,構(gòu)成知識庫模型。假設(shè)有K個主題,M篇文章,主題矩陣為M×K維矩陣ti,j[ ]M×K,其中Σti,j=1,ti,j[ ]為第i篇文章的主題分布。通過計算關(guān)鍵詞在文章中出現(xiàn)的詞頻,計算詞頻向量并計算余弦相似度,使用選擇出來的關(guān)鍵詞,計算這些關(guān)鍵詞的詞頻。計算兩個詞頻向量的文本匹配度,通過余弦相似度,越接近1 的就表明相似度越高。

將知識庫中故障原因的主題分布矩陣與用戶輸入的主題分布向量進行相似度計算,得到要匹配的內(nèi)容與知識庫原有文章的相似度排序,選擇排序靠前的故障原因及相應(yīng)的處理方法提供給用戶。

2.4 迭代調(diào)優(yōu)

知識庫應(yīng)用過程中,根據(jù)用戶反饋進行不斷完善使得知識庫和智能應(yīng)答功能可根據(jù)多變的現(xiàn)實情況不斷調(diào)整,進行深度自學習,從而實現(xiàn)知識庫的迭代優(yōu)化,如圖4 所示。

圖4 迭代調(diào)優(yōu)流程Fig.4 Iterative optimization flow chart

用戶反饋來源于兩個方面:一是用戶在故障現(xiàn)象匹配結(jié)果中的選擇;二是原因排查后用戶反饋原因是否在推薦列表中。第一部分的反饋所體現(xiàn)的是文本匹配的精準度。最終的匹配結(jié)果是以用戶輸入的故障現(xiàn)象和知識庫中故障現(xiàn)象的相似度排序后的列表,用戶自主選擇列表中的故障現(xiàn)象以查看解決方法。如果用戶選擇的故障現(xiàn)象在排序列表中較后的位置說明對于此次匹配來說精確度較差,應(yīng)通過將本次輸入加入到對應(yīng)知識庫故障現(xiàn)象的描述中調(diào)整模型內(nèi)部主題詞分布的方式完善模型。第二部分的反饋所體現(xiàn)的是知識庫解決方法的完善度。若用戶原因排查后發(fā)現(xiàn)解決方法不在知識庫中,應(yīng)添加進知識庫中方便下次故障解決。圖5 為知識庫構(gòu)建流程。

3 應(yīng)用實例

3.1 關(guān)鍵技術(shù)驗證

圖5 知識庫構(gòu)建流程Fig.5 Knowledge base construction flow chart

原始數(shù)據(jù)來自于由線下運維日志整理成的處理方法編碼表,主要數(shù)據(jù)是報警原因描述以及處理方法描述。在實際應(yīng)用中,選取2015年至2019年的某省級計量中心單相一號線運維日志,通過文字識別技術(shù)掃描并形成線下運維檔案,部分日志記錄如圖6 所示。

圖6 單相一號線運維日志記錄圖Fig.6 Operation and maintenance log record of single-phase line one

通過分析得知,2015~2019年期間,有效報警原因描述共1525 條。根據(jù)數(shù)據(jù)預處理的4 個步驟對文本進行處理,如圖7 所示。由于故障描述中出現(xiàn)了較多的專有名詞,在梳理文本過程中,將設(shè)備專有名詞,如:RGV,RFID,PLC,主控等,加入詞典,通過設(shè)置用戶自定義詞典提高分詞的準確率。

圖7 數(shù)據(jù)預處理流程Fig.7 Flow chart of data pre-processing

根據(jù)文本預處理后形成的詞頻矩陣,設(shè)置不同的文本主題個數(shù)進行訓練,訓練得到的困惑度曲線如圖8 所示,橫坐標表示不同的主題個數(shù),縱坐標表示對應(yīng)的困惑度值。

圖8 模型困惑度曲線Fig.8 Confusion curve of model

根據(jù)圖8 所示,當主題數(shù)K=129 時困惑度達到最低值79.93,因此確定了LDA 模型的輸出,從而確定了運維知識庫的主題分布矩陣。當某個設(shè)備發(fā)生故障后,輸入故障現(xiàn)象為“機器人抓表異?!保扑]解決措施經(jīng)過余弦相似度計算,篩選得到的結(jié)果,列出值最接近于1 的前三條數(shù)據(jù),如表3 所示。

表3 余弦相似度計算結(jié)果表Tab.3 Result of cosine similarity calculation

根據(jù)現(xiàn)場情況,選擇適合的文檔內(nèi)容,查看建議的故障處理方法,進行故障處理。由此可見,當輸入相應(yīng)故障現(xiàn)象時,可以根據(jù)余弦相似度在已構(gòu)建的知識庫中檢索出相似文本,推薦合適的處理方法。

3.2 系統(tǒng)應(yīng)用成效

系統(tǒng)利用運維過程積累的大量數(shù)據(jù),實現(xiàn)計量平臺知識庫的搭建,對日常運維工作給予智能計算和指導。以某省電力公司計量中心現(xiàn)場室內(nèi)檢定室應(yīng)用情況為例,針對單相電能表、三相電能表、采集終端、低壓電流互感器的檢定生產(chǎn)和設(shè)備的運維工作,對智能運維知識庫部署以來的2019年10月~12月每個月運維數(shù)據(jù)進行了統(tǒng)計,設(shè)備發(fā)生故障后由知識庫推薦的故障處理方法,能夠極大程度上解決問題,使設(shè)備恢復正常運行。根據(jù)統(tǒng)計,計量檢定裝置知識庫應(yīng)用后,在檢定能力不變的情況下,平均故障處理時間下降了50%以上,極大地提升了故障處理速度,應(yīng)用效果良好。

4 結(jié)語

本文構(gòu)建了以計量檢定運維場景為載體的知識庫體系,方便了運維故障處理的知識存儲與檢索,通過知識推理、智慧推薦知識的方式,自動匹配故障描述來提供故障解決措施,從而解決問題。且知識庫本身具有“自學習”能力,可不斷擴充、完善和提煉。經(jīng)驗證,通過智能知識庫的運用,能夠提升計量檢定裝置運維工作中的效率、 節(jié)省人工成本、增強知識傳遞。

猜你喜歡
文本故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
故障一點通
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
故障一點通
主站蜘蛛池模板: 国产精品人莉莉成在线播放| 在线精品视频成人网| 看国产毛片| 亚洲一区二区无码视频| 日本影院一区| 97国产在线观看| 久久久久亚洲av成人网人人软件| 国产97视频在线观看| 青青青草国产| 丰满少妇αⅴ无码区| 丁香婷婷激情综合激情| 欧美a在线| 亚洲男人天堂2020| 中文字幕在线播放不卡| 欧美人人干| 一级毛片在线免费看| 99视频精品全国免费品| 久草网视频在线| 国产区免费| 91最新精品视频发布页| 国内99精品激情视频精品| 在线日韩日本国产亚洲| 免费午夜无码18禁无码影院| 欧美性精品不卡在线观看| 国产亚洲高清视频| 免费在线成人网| 亚洲无码免费黄色网址| 亚洲高清免费在线观看| 国产幂在线无码精品| 亚洲欧洲日韩国产综合在线二区| 亚洲天堂2014| 一级黄色片网| 成人福利在线免费观看| 最新亚洲人成网站在线观看| 欧美激情网址| 久久夜夜视频| 久久免费看片| 国产伦精品一区二区三区视频优播| 欧美中文字幕在线视频| 国产一区二区三区精品欧美日韩| 亚洲精品无码久久毛片波多野吉| 最新国产麻豆aⅴ精品无| 喷潮白浆直流在线播放| 久久精品丝袜| 好紧好深好大乳无码中文字幕| 国产精品大白天新婚身材| 亚洲a免费| 丁香婷婷综合激情| 一本色道久久88| 综合色亚洲| 国产97视频在线| 婷婷久久综合九色综合88| 午夜欧美理论2019理论| 又粗又硬又大又爽免费视频播放| 亚洲综合二区| 最新国产午夜精品视频成人| 国产高清在线丝袜精品一区| 亚洲欧美人成人让影院| 欧美激情福利| 久久综合干| 噜噜噜久久| 国产激情无码一区二区免费| 六月婷婷综合| 波多野结衣亚洲一区| 国产又黄又硬又粗| 性色一区| 国内精品久久九九国产精品| 欧美午夜视频在线| 久久精品这里只有国产中文精品| 欧美高清视频一区二区三区| 久久精品亚洲热综合一区二区| 性激烈欧美三级在线播放| 久久无码免费束人妻| 成人年鲁鲁在线观看视频| 国产超碰在线观看| 毛片国产精品完整版| 欧美三级视频网站| 黄色在线网| 55夜色66夜色国产精品视频| 免费在线一区| 老司国产精品视频91| 久久五月视频|