999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于智能辨識的配電網運檢知識服務應用模型

2021-05-10 08:12:16楊志明張征容易亮李寶福
云南電力技術 2021年2期
關鍵詞:配電網語義服務

楊志明,張征容,易亮,李寶福

(1. 云南電網有限責任公司玉溪供電局,云南 玉溪 653100;2. 云南電網有限責任公司電力科學研究院,昆明 650217)

0 前言

隨著電力自動化和信息化的發展,配電網設備的智能化管控、運檢日漸成熟,且各地區電網公司也都初步建立起了對配電網設備進行監控和管理的信息平臺,實現了對配電網設備跨專業、多場景的管控。但伴隨經濟社會的不斷發展,現有配電網的運維管理水平難以滿足用戶日益增長的用電服務需求[1]。

國內外卻缺少以配電網運檢知識服務為角度的研究,缺少線上化、智能化、專業化的配電網運檢知識服務體系。目前對于配電網運檢知識服務還停留在業內教授、線下專業期刊雜志(如:電工研究)、線上電力資訊網站(如:北極星電力網)等模式。但通過業內教授、線下期刊、資訊網站等模式,配電網運檢知識散布、普及度不高。

大部分配電網設備初級運檢人員對配電網設備的日常維護與檢修不熟悉,無法適應配電網故障場景的變化,有些甚至無從下手,且專業人員也對配電網設備的運檢知識獲取渠道局限、獲取維度小,市面上也沒有適應目前國內電力系統專業、統一、官方的具有全方面指導價值的知識體系。

配電網運檢場景眾多、錯綜復雜,且配電網運檢知識渠道局限。針對上述問題,本文將以提問傾向性預測、知識庫處理和相似度匹配為研究方向,基于提供配電網運檢人員知識獲取渠道的需求建立配電網運檢知識服務模型,實現配電網運檢知識問答。

1 電網運檢知識服務模型

本文所研究設計的配電網運檢知識服務模型最終是要實現基于配電網運檢知識庫的問答服務,其本質是一個知識庫問答(如圖1所示)。知識庫問答主要是通過對提出問題進行語義理解和分析,進而利用知識庫進行查詢、推理來得出答案。該知識庫也是基于三元組的關系,所回答的答案也主要是知識庫中的實體和實體關系,否則便是無答案。目前其實現的主要方法有語義解析、信息抽取和向量建模。

基于三元組的思想建立知識庫,通過對配電網運檢人員提出問題的語義解析和信息提取對問題-答案對進行向量建模,找出最佳答案。通過對三元組知識庫、語義解析、信息抽取和向量建模等四個模塊的建立,實現配電網運檢知識服務模型。

1.1 三元組知識庫

知識庫顧名思義便是存儲一條一條知識的地方。對于配電網運檢知識問答服務來說,“爐管泄露報警處理”便是一條知識,配電網運檢知識庫便是存儲這樣一條一條知識的地方。但對于計算機來說,這樣的自然語言文本是不易理解和處理的,于是,為了使計算機能夠更加便捷的去理解和處理,就需要將這些自然語句轉化為計算機方便理解、處理的形式,三元組便是很好的一個選擇。

三元組可以表示為(實體,關系,實體),其中關系可以是實體的屬性,也可以是實體間的關系。例如爐管泄露報警處理便可表示為(爐管泄露報警,處理,處理知識)和(爐管泄露報警,設備的處理方式,處理知識),其中第一個三元組中的處理便是屬性,第二個三元組中的設備的處理方式便是關系。對于計算機來說,這兩種表示方式皆方便其理解、處理。

進一步的,如果將三元組中的實體看作一個節點,實體關系看作邊,那么大量包含三元組的知識庫便成為了一個知識網,如圖2所示。

知識庫主要涉及到實體鏈指和關系抽取這兩大技術。其中,實體鏈指就是將文檔里面實體的名字與知識庫里面相對應的實體進行鏈接。它主要涉及到了自然語言處理的兩個方法:實體識別與實體消歧,除了將文檔中的實體識別出來,在不同環境下同一實體名稱可能也會存在歧義,如線路、報警等,此時還需要根據上下文環境進行消歧。關系抽取就是將文檔中的實體關系給抽取出來,主要涉及到了語義分析、依存關系樹等,同時還要構建SVM、最大熵模型等分類器來進行關系分類。

圖2 知識網絡圖示

1.2 語義解析

語義解析的主體思想就是將自然語言轉化為一系列形式化的邏輯形式,通過將邏輯形式進行自底向上的解析,就可以得到一種表達問題語義的邏輯形式,最后再用相應的查詢語句在配電網運檢知識庫中進行查詢,從而得出答案。

圖3 語義解析圖示[3]

在配電網運檢知識問答服務的過程中,第一個難點就是如何將問題映射到知識庫里的相關知識。語義解析在此時就是將表述問題的自然語言進行語義分析,轉化成一種知識庫可以理解的語義表示,再通過知識庫中的知識來進行推理和查詢,得出答案。簡而言之,語義解析要做的事情,就是將自然語言轉化成知識庫可以理解的邏輯形式。如果將知識庫比作數據庫,邏輯形式就是sql語句。

圖3示紅色部分即邏輯形式,綠色部分為用自然語言提出的問題,藍色部分為進行語義解析的相關操作,最終形成的語義解析樹根節點就是語義解析的結果,通過查詢語句就可以直接在配電網運檢知識庫中查詢到最終答案。

1.3 信息抽取

信息抽取就是通過提取配電網運檢人員問題中的實體,再在配電網運檢知識庫中查詢以該實體節點為中心的知識庫子圖,同時,子圖中的每一個節點或邊都可以作為候選的答案,然后依據某些規則或模板對配電網運檢人員問題進行信息抽取,得到問題特征向量,最終通過向量建模模塊來對候選答案進行篩選,從而返回最終答案。

在信息提取方面,使用語義依存樹來自然語言進行處理,提取其中的實體。主要是通過語義依存樹的依存關系來推斷出問題的關鍵實體和關鍵實體的屬性、范圍等,從而達到提取關鍵信息的效果,找出有利于尋找答案的問題特征,刪減掉不重要的信息。

在問題特征向量方面,使用二分類的思路,訓練問題-答案對數據,通過分類器的訓練找到正確答案。而問題-答案對便是特征向量的實質,特征向量中的每一維便對應一個問題-候選答案特征。每一個問題-候選答案特征都由問題特征中的一個特征,和候選答案特征的一個特征,組合而成。

1.4 向量建模

向量建模的思想基于信息抽取模塊,根據問題得出候選答案,把問題和候選答案映射為分布式表達,再通過訓練使得問題和正確答案的向量表達盡可能的準確。模型訓練完成后則可根據候選答案的向量表達和問題表達的得分進行篩選,得出最終答案。

在問題的分布式表達方面,首先把自然語言問題進行向量化,將輸入空間的維度N設置為字典的大小+知識庫實體數目+知識庫實體關系數目,對于輸入向量每一維的值設置為該維所代表的單詞在問題中出現的次數。那么,如果用q代表問題,用φ(q)代表N維的問題向量,用矩陣W將N維的問題向量映射到k維的低維空間,那么問題的分布式表達即:

在答案的分布式表達方面,與問題的分布式表達相同,如果用a表示答案,用φ(a)代表答案的輸入向量,用矩陣W將N維的問題向量映射到k維的低維空間,那么答案的分布式表達即:

最后,在向量得分方面,希望問題和它所對應的正確答案得分盡量高,通過比較每個候選答案的得分,選出最高的,作為正確答案。那么得分函數便可定義為二者分布式表達的點乘,即:

2 電網運檢知識服務實現流程

圖4 電網運檢知識服務模型實現流程

在對大量的研究成果、問答系統常用實現方法進行研究后,本文所設計的配電網運檢知識服務模型將采用基于知識庫的問答思路并作出改進,參考信息抽取(Information Extraction)的思路,實現配電網運檢知識問答服務。在實驗階段先將北極星電力網(http://www.bjx.com.cn/)中運檢知識手動進行挑選、并處理為問題+答案的內容作為知識庫并進行相關處理,隨后,對配電網運檢人員提出的問題進行關鍵詞提取,再通過編輯距離算法(Levenshtein Distance)對配電網運檢人員提出問題和知識庫中的問題進行字符串匹配,找到相似度最高的知識庫問題,返回其對應的答案,最后通過多次問答的積累,基于提問傾向性預測,提升配電網運檢知識服務模型的準確度。其實現流程如圖4所示。

2.1 關鍵詞提取

配電網運檢知識服務模型中關鍵詞的提取主要是基于TF-IDF算法,TF-IDF即詞頻(TF)和逆文檔頻率(IDF),通過在文本中關鍵詞出現的頻率的基礎上對每個詞賦予一個重要性的權重,對較常見的詞分配較小的權重,不常見的詞分配較大的權重,從一定程度上保證最終找到的關鍵詞不受常見詞干擾,這個權重就是逆文檔頻率。記某個詞在文本中出現的次數為i,文本的總詞數為I,配電網運檢知識庫中的文檔總數為W,配電網運檢知識庫中包含該詞的文檔數為W(i),則TF-IDF計算方法如下:

TF-IDF與一個詞在文本中出現的次數成正比,與該詞在整個配電網運檢知識庫環境出現的次數成反比,它能有效的反映出一段文本中的關鍵詞。配電網運檢知識服務模型將采用TFIDF值最高的三個關鍵詞與知識庫中的問題和答案進行匹配。

2.2 字符串匹配

配電網運檢知識服務模型主要基于編輯距離算法(Levenshtein Distance)進行改進來實現提問關鍵詞與配電網運檢知識庫中問題的匹配。編輯距離算法,是指在兩個字符串之間,將其中一個字符串轉變為另一個字符串所需要的最少編輯的操作次數,其中許可的編輯操作包括替換字符,插入字符和刪除字符,一般來說,編輯距離越小,相似度就越大。

以中文語句舉例來表示編輯操作:根據配電網運檢人員提出問題所提取出來的關鍵詞組“爐管,泄露,報警”與“爐管泄露報警處理方式”就需要兩次刪除“,”的操作和分別四次加入“處”、“理”、“方”、“式”的操作,共6次操作,其編輯距離為6;若關鍵詞組為“爐管,泄露”就需要一次刪除“,”的操作和分別6次加入“報”、“警”、“處”、“理”、“方”、“式”的操作,共7次操作,其編輯距離為7。此時第一個的編輯距離比第二個的編輯距離低,同時也能很明顯的看出第一個關鍵詞組和配電網運檢知識庫問題的相似度比第二個關鍵詞組的高。

s為編輯距離,兩個字符串長度分別為L(a),L(b)。一般來說,根據編輯距離的相似度算法如下所示。

但上述算法還是不夠簡潔、輕便,從上式來看,相似度是由完全長度范圍減去編輯距離所占的長度范圍,那便可直接引入非編輯距離,即無需變動的字符串長度。記非編輯距離為S,此時的相似度算法為:

基于上述相似度算法,將相似度最高的配電網運檢知識問題所對應的答案返回,得出配電網運檢人員提問的最終答案。

2.3 提問傾向性預測

無論是對某種設備類別的運檢知識傾向,還是對某種故障類別的運檢知識傾向,皆表明了配電網運檢人員最有可能想要提出的問題方向,為了提升配電網運檢知識問答服務的效率和準確度,基于SnowNIP算法的思路,對配電網運檢人員的提問進行情感傾向性的分析。通過提問傾向性預測的建立,可在配電網運檢人員提問時首先對配電網運檢人員的提問傾向進行預測,將傾向性高的配電網運檢知識問題優先匹配,進而提升配電網運檢知識問答服務的效率和準確度。

首先建立貝葉斯模型,將配電網運檢人員每次提出的問題作為訓練數據進行分詞和停詞處理來統計詞頻,進而形成一個正面詞(詞頻高的詞)字典和一個負面詞(詞頻低的詞)字典,最后再利用貝葉斯模型進行提問傾向性預測。

提問傾向性預測實現流程如圖5所示。

圖5 提問傾向性預測實現流程

2.3.1 貝葉斯模型

在配電網運檢知識問答服務的提問傾向性預測中,情感分類的基本模型便是貝葉斯模型,貝葉斯模型都是利用條件概率來進行提問傾向分類的。例如,有一個問題需要判斷是日常運維還是故障修理,該問題提取出三個關鍵詞,若將運檢類別記為X(i),三個關鍵詞分別記為a、b、c,則需要分別求解這三個關鍵詞屬于每個運檢類別的條件概率,其算法如下所示。

由于特征之間是相互獨立的,所以:P(a,b,c│X(i))=P(a│X(i))P(b│X(i))P(c│X(i))

此時,X(i)便是提問傾向類別。在配電網運檢知識服務模型中,基于貝葉斯模型將提問傾向分為兩個類別,一類是正面詞,一類是負面詞,即X(i)中的i=2。

2.3.2 樸素貝葉斯預測

樸素貝葉斯中的樸素是指特征條件獨立假設,貝葉斯則是指貝葉斯定理。貝葉斯定理中最為重要的先驗概率(prior probability)和后驗概率的概念便能很好的應用在提問傾向性的分析中。其中,事情還沒有發生,要求這件事情發生的可能性大小是先驗概率;若是事情已經發生,要求這件事情發生的原因是由某個因素引起的可能性的大小,是后驗概率[5]。樸素貝葉斯預測,便是根據正面詞庫的先驗概率判斷配電網運檢人員的提問傾向。若記正面詞庫的先驗概率為P(pos),當前要判斷傾向的句子是x,它由關鍵詞組[a,b,c]組成,其算法如下所示。

由上式可知,當配電網運檢人員提出問題時,若是其關鍵詞在正面詞庫的概率越大,便可優先檢索正面詞庫里的配電網運檢知識。

3 實驗結果

使用30組模型返回答案-常規答案實例對配電網運檢知識服務模型進行查全率(Recall)和查準率(Precision)計算,其中常規答案是指配電網專業運檢人員在運檢日常中碰到問題時會找的答案。一般來說,查準率和查全率這兩個指標相互矛盾,當查準率高的時候,查全率低;查全率高時,查準率低,所以將運用F1度量最終判斷配電網運檢知識服務模型的性能。但由于配電網運檢知識服務模型的應用環境,查準率與查全率這兩個指標并不矛盾,皆是越高模型實現效果越好,故此處對兩者進行點乘處理,結果越接近1,模型實現效果越好。模型返回答案-常規答案實例如表1所示,30組測試實例情況統計表如表2所示。

表1 模型返回答案-常規答案實例(節選)

表2 30組測試實例情況統計表

根據這30組測試實例情況統計結果,對配電網運檢知識服務模型進行查全率計算:

對配電網運檢知識進行查準率計算:

對查全率與查準率進行綜合分析,得出綜合評價分數G:

基于這30組測試實例,總的來看本文所設計的配電網運檢知識服務模型實現效果良好。但從性能來看,該配電網運檢知識服務模型基于對配電網運檢知識庫的遍歷檢索,雖然對配電網運檢知識庫進行了三元組處理和答案提煉成問題的處理方式,但實現問答匹配的方法效率較低,還有改進和發展的空間。

經過對配電網運檢知識服務模型設計的深入思考,結合國內外研究現狀,認為谷歌的PageRank算法思路可以有效的提高現有配電網運檢知識服務模型的問答匹配效率和準確率。

PageRank算法總的來說就是預先給每個配電網運檢知識庫中的知識一個PR值(PageRank值),由于PR值物理意義上為一條知識被返回的概率,所以一般是其中N為配電網運檢知識庫中知識的總數。預先給定PR值后,再通過特定的算法不斷迭代訓練,直至達到每一條知識的PR值平穩分布為止。進而通過PR值的大小來決定配電網運檢知識庫中每條知識匹配的優先級,PR值越高則優先級越高。

可將配電網運檢知識服務模型中現有的提問傾向性預測方法與PageRank算法進行有效結合,進而提升配電網運檢知識服務模型的效率與準確率。

4 結束語

本文從配電網運檢知識服務模型相關技術及文獻研究開始,找到并深入研究了幾個配電網運檢知識服務模型的設計與實現方向,最終確定了將運檢知識手動進行挑選、并處理為問題+答案的內容作為知識庫;對配電網運檢人員提出的問題進行關鍵詞提取;通過編輯距離算法(Levenshtein Distance)對配電網運檢人員提出問題和知識庫中的問題進行字符串匹配,找到相似度最高的知識庫問題,返回其對應的答案;通過多次問答的積累,基于提問傾向性預測,提升配電網運檢知識服務模型的效率及準確度的設計路線。最終實現了基于配電網運檢知識服務模型的配電網運檢知識問答服務。本模型的設計也對配電網運檢服務提供出了知識服務的思路。同時,本模型的設計同樣適用于其他領域知識問答服務,通過本文設計思路,讓知識問答簡單、明了。

猜你喜歡
配電網語義服務
語言與語義
服務在身邊 健康每一天
今日農業(2019年12期)2019-08-15 00:56:32
服務在身邊 健康每一天
今日農業(2019年10期)2019-01-04 04:28:15
服務在身邊 健康每一天
今日農業(2019年16期)2019-01-03 11:39:20
配電網自動化的應用與發展趨勢
招行30年:從“滿意服務”到“感動服務”
商周刊(2017年9期)2017-08-22 02:57:56
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
基于IEC61850的配電網數據傳輸保護機制
電測與儀表(2016年5期)2016-04-22 01:14:14
配電網不止一步的跨越
河南電力(2016年5期)2016-02-06 02:11:24
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲日本www| 国产在线自在拍91精品黑人| 99久久免费精品特色大片| AV网站中文| 高h视频在线| 免费毛片在线| 亚洲国产清纯| 九九免费观看全部免费视频| 午夜精品久久久久久久99热下载| 国产资源免费观看| 91久久性奴调教国产免费| 欧美国产日韩另类| 亚洲精品国产首次亮相| 国产在线拍偷自揄拍精品| 国产97视频在线观看| 国产91麻豆视频| 伊人久久精品亚洲午夜| 精品丝袜美腿国产一区| 国产成人永久免费视频| 伊人激情综合| 国产超碰在线观看| 毛片国产精品完整版| 在线中文字幕日韩| 亚洲三级网站| 美女无遮挡被啪啪到高潮免费| 国产成人成人一区二区| 国产精品美乳| 久久久久久高潮白浆| 69免费在线视频| 欧美精品v| 亚洲国产中文欧美在线人成大黄瓜 | 亚洲综合极品香蕉久久网| 久久久久久国产精品mv| 青青久在线视频免费观看| 一级片一区| 国产三级成人| 久久77777| 欧美午夜视频在线| 日本国产一区在线观看| 欧美福利在线播放| 久久精品91麻豆| 婷婷色一区二区三区| 在线看片免费人成视久网下载 | 亚洲swag精品自拍一区| 人人91人人澡人人妻人人爽| 九九热视频精品在线| 少妇精品在线| 啪啪免费视频一区二区| 毛片免费在线视频| 中文字幕亚洲综久久2021| 毛片最新网址| 毛片基地视频| 免费看美女自慰的网站| 国产第一色| 午夜天堂视频| 中文无码精品A∨在线观看不卡 | 久久综合结合久久狠狠狠97色| 色综合天天娱乐综合网| 国内精品久久人妻无码大片高| 日本高清视频在线www色| 女人18毛片水真多国产| 亚洲精品老司机| 欧美午夜网站| 男女男精品视频| 国产成人麻豆精品| 久久国产亚洲欧美日韩精品| 国产天天射| 日本道综合一本久久久88| 久久精品日日躁夜夜躁欧美| 视频二区亚洲精品| 综合色天天| 国产杨幂丝袜av在线播放| 日韩欧美国产三级| 色天天综合| 亚洲IV视频免费在线光看| 久久女人网| 真人免费一级毛片一区二区| 四虎免费视频网站| 国产三级a| 欧美日韩中文国产| 高清欧美性猛交XXXX黑人猛交 | 波多野结衣中文字幕久久|