王慧芳 曹靖
電力文本還可以采用正則表達(dá)式法,用于提取句中的數(shù)字、字母、特殊符號等隱含重要信息的字段。不同的文本挖掘需求可以采用一種或多種方法融合表示。
電力數(shù)據(jù)挖掘方法
電力文本在經(jīng)過預(yù)處理與表示環(huán)節(jié)后,轉(zhuǎn)化為計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),從而可以利用結(jié)構(gòu)化數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法有很多,常見的有各種機(jī)器學(xué)習(xí)方法。基于機(jī)器學(xué)習(xí)方法,可以根據(jù)學(xué)習(xí)模式將機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),是否有監(jiān)督取決于訓(xùn)練數(shù)據(jù)是否有標(biāo)注。根據(jù)學(xué)習(xí)方法,又可以將機(jī)器學(xué)習(xí)分為傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。傳統(tǒng)機(jī)器學(xué)習(xí)算法有邏輯回歸、隱馬爾科夫方法、支持向量機(jī)方法、K近鄰方法、貝葉斯方法以及決策樹方法等;深度學(xué)習(xí)算法有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)等。其中,由循環(huán)神經(jīng)網(wǎng)絡(luò)變種而來的長短時(shí)記憶網(wǎng)絡(luò),由于加入了長期記憶機(jī)制,在處理長序列時(shí)具有優(yōu)勢,因而適用于長文本的挖掘。
文本挖掘技術(shù)在
電力缺陷文本中的應(yīng)用
電力缺陷文本的特點(diǎn)及挖掘需求
在電力文本挖掘領(lǐng)域,已有一些針對電力缺陷文本的應(yīng)用。電力缺陷文本來自于電網(wǎng)企業(yè)日常運(yùn)維記錄,一般包括計(jì)算機(jī)可直接處理的格式規(guī)范、語義清晰的內(nèi)容,如缺陷設(shè)備編號、名稱、缺陷發(fā)現(xiàn)時(shí)間、缺陷等級等;也包括計(jì)算機(jī)難以理解的文本,主要為缺陷詳細(xì)描述,如“2號主變冷卻器風(fēng)扇有異響”“有載分接開關(guān)呼吸器硅膠變色2/3以上”。……