999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析優(yōu)化算法的數(shù)據(jù)快速挖掘與智能篩選

2024-05-08 00:00:00陳子健
粘接 2024年1期
關鍵詞:數(shù)據(jù)挖掘

摘 要:為進一步提高數(shù)據(jù)挖掘算法的處理速度和計算精確度,提出一種基于電力信息數(shù)據(jù)聚類分析的數(shù)據(jù)挖掘算法設計。該算法依據(jù)聚類分析原理,采用基于密度的聚類方法和相異度矩陣對數(shù)據(jù)和數(shù)據(jù)類型進行篩選和相異度計算,并基于聚類分析框架設計數(shù)據(jù)挖掘算法流程。在數(shù)據(jù)挖掘算法基本策略下對輸入的數(shù)據(jù)采用SLIO算法處理離散字段,輸出需要的數(shù)據(jù)結果。仿真結果表明,相比其他配網(wǎng)自動化系統(tǒng)數(shù)據(jù)挖掘算法,所設計算法在數(shù)據(jù)挖掘速度和準確度上均體現(xiàn)出較好的優(yōu)勢,具有良好的可信度。

關鍵詞:聚類分析法;相異度矩陣;數(shù)據(jù)挖掘;算法設計

中圖分類號:

TP311.13

文獻標志碼:

A文章編號:

1001-5922(2024)01-0189-04

Data fast mining and intelligent screening based on clustering analysis optimization algorithm

CHEN Zijian

(Foshan Power Supply Bureau of Guangdong Power Grid Co.,Ltd.,F(xiàn)oshan 528000,Guangdong Chian)

Abstract:In order to further improve the processing speed and calculation accuracy of data mining algorithm,a data mining algorithm design based on power information data clustering analysis was proposed.Based on the principle of clustering analysis,the algorithm used density-based clustering method and dissimilarity matrix to filter and calculate the dissimilarity of data and data types,and designed the data mining algorithm process based on the framework of clustering analysis.Under the basic strategy of data mining algorithm,the input data was processed by SLIO algorithm to deal with discrete fields,and the required data results were output.The simulation results showed that compared with other data mining algorithms of distribution network automation system,the designed algorithm had better advantages in data mining speed and accuracy,and had good credibility.

Key words:cluster analysis;dissimilarity matrix;data mining;algorithm design

大量的關聯(lián)大量電力用戶信息與用電行為業(yè)務數(shù)據(jù),需要通過對數(shù)據(jù)進行有效的聚類和分類分析,可以提取有價值的用戶群體和用戶用電特征,為后續(xù)的電銷策略提供支持。按數(shù)據(jù)來源劃分,用電系統(tǒng)數(shù)據(jù)主要包括終端數(shù)據(jù)的實時采集和調度中心的中央數(shù)據(jù)匯總,該數(shù)據(jù)具有狀態(tài)多樣化、變量類型復雜的特點,不利于統(tǒng)計分析。而采用聚類分析法可對其進行簡約化處理[1-3],針對在不同運行狀態(tài)下用電系統(tǒng)的數(shù)據(jù)挖掘和分析,提取有效數(shù)據(jù)及其之間的關聯(lián)性,作為系統(tǒng)隱患檢測的數(shù)據(jù)參考。因此,研究文章通過對聚類分析的數(shù)據(jù)篩選和數(shù)據(jù)類型的相異度計算,設計一種基于聚類分析的數(shù)據(jù)挖掘優(yōu)化算法。

1 基于聚類分析的數(shù)據(jù)智能篩選

常用的聚類方法主要包括基于模型的聚類方法、基于網(wǎng)格的聚類方法和基于密度的聚類方法。基于密度聚類方法的原理是根據(jù)各數(shù)據(jù)點之間的密度相對情況進行聚類,通過設定核心點與密度參數(shù)的方式,對核心店鄰域范圍內(nèi)的數(shù)據(jù)點進行迭代查找,連接所有密度可達的核心點完成全部數(shù)據(jù)的聚類。將基于密度的聚類方法應用于電銷數(shù)據(jù)的挖掘,可以提高挖掘的精度。

設計在電銷聚類分析的數(shù)據(jù)挖掘算法中采用基于密度的聚類方法篩選數(shù)據(jù)[4-5]:設低密度區(qū)域為nd,用以分割聚類空間中的數(shù)據(jù)類;分割后的數(shù)據(jù)類高密度區(qū)域設為ng,其屬性值為p。nd和ng表達式如下:

nd=(v-b1)nr,ng=(v-a1)nr(1)

式中:v為所屬空間數(shù)目;b1為低密度對象子區(qū)域數(shù)目;nr為當前節(jié)點屬性的值域;a1為高密度對象子區(qū)域數(shù)目。

結合式(1),對聚類分析數(shù)據(jù)進行篩選,可表示為:

ni=p(nd+ng)×i(2)

式中:p為分割得到的子區(qū)域數(shù)目;i為屬性值的樣本密度,也就是聚類分析數(shù)據(jù)篩選的數(shù)據(jù)對象,即篩選出屬性值中出現(xiàn)頻率最高(樣本密度也最高)的樣本密度。

2 基于聚類分析數(shù)據(jù)類型的相異度計算

依據(jù)聚類分析原理對用電數(shù)據(jù)對象進行聚類,并通過數(shù)據(jù)結構和相異度矩陣獲得數(shù)據(jù)間的相異度;數(shù)據(jù)相異度矩陣如下:

x11,…,x1f,…,x1pxi1,…,xif,…,xipxn1,…,xnf,…,xnp

聚類分析數(shù)據(jù)相異度矩陣用來存放n個數(shù)據(jù)對象兩兩之間形成的差異[6]。

式中:n表示數(shù)據(jù)矩陣對象,其間的差異值用i和f表示;p表示屬性。當差異值取正數(shù)時,f和i越接近于0,屬性值p越大,則表示f和i不相似;否則,若f和i的取值小于0,p數(shù)值就會越小,說明f和i的相似程度較高。

在上述矩陣基礎上采用聚類算法計算數(shù)據(jù)類型相異度[7],即將變量值度量化并進行標準化處理,如式(3):

sf=1ni(|x1f-mf|+|x2f-mf|)(3)

式中:sf表示變量值的絕對偏差值;mf表示f的絕對平均值。

基于式(3)計算數(shù)據(jù)類型相異度,如式(4):

d(i,j)=|xi1-xji|2+|xif-xj2|2(4)

式中:d(i,j)是對象i和對象j之間相異性的量化表示,且該相異性值通常是一個非負的數(shù)值,當對象i和j越相似時,相異性值就越接近于0;反之,值越大,且d(i,j)= d(j,i),d(i,j)=0。基于電力營銷聚類分析的數(shù)據(jù)類型相異性計算如式(5):

W=d(i,j)×kl(5)

式中:kl為聚類分析數(shù)據(jù)量。到此為止,完成了聚類分析數(shù)據(jù)類型相異度計算,接下來需要設計聚類分析數(shù)據(jù)挖掘算法的流程。

3 基于聚類分析的數(shù)據(jù)快速挖掘

聚類分析數(shù)據(jù)挖掘算法是大數(shù)據(jù)和數(shù)據(jù)挖掘最常用的經(jīng)典算法之一,也是數(shù)據(jù)挖掘的關鍵技術。通過聚類分析算法可將物理或抽象對象的集合按照相似性進行分組,然后在相似的基礎上,根據(jù)數(shù)據(jù)類型相異度挖掘出數(shù)據(jù)蘊含的潛在信息并進行數(shù)據(jù)分類。其算法流程如圖1所示。

基于聚類分析數(shù)據(jù)挖掘算法流程完成聚類分析的框架設計,如圖2所示。

對輸入的樣本向量定義為(v1,v2,…,vi,c),該向量由字段值vi和類型c組成,對應的數(shù)據(jù)記錄結構也是類型標簽+數(shù)值的訓練集。其中,該標簽也可作為輸入的經(jīng)驗數(shù)據(jù)[12]。完成分類后,可引入決策樹算法進行數(shù)據(jù)挖掘,預測準確度:首先,從數(shù)據(jù)中獲取知識;然后,利用生成的決策樹分類輸入數(shù)據(jù)。對數(shù)據(jù)屬性值進行依次測試并記錄,直到找到記錄所在的類,挖掘出數(shù)據(jù)蘊含的潛在信息[13]。

數(shù)據(jù)挖掘算法的基本策略設計如圖3所示。

基于SLIO算法的修剪樹表達式:

COST(M,D)=COST(DM)+BCOST(M)(6)

式中:COST(DM)為編碼成本;BCOST(M)為所有的分類錯誤數(shù)。

通過式(6)構建的修剪樹對數(shù)據(jù)進行修剪處理后,計算電力數(shù)據(jù)中聚類挖掘的決策中心概率值:

xk+1=COST(M,D)·sinaxk+x-(7)

式中:a表示決策中心調度參數(shù);xk表示動態(tài)慣性權重;x-表示有效信息類別。

根據(jù)中心概率的計算,挖掘出數(shù)據(jù)中的有效信息:

x″i=xi‖xi‖+xk+1 (8)

上述過程從理論層面對挖掘算法進行了研究,接下來設計仿真實驗對算法的性能進行驗證。

4 算法實例

設計仿真實驗,通過算法實例對基于聚類分析的數(shù)據(jù)挖掘算法進行可行性和有效性驗證。電力業(yè)務場景較為豐富,互聯(lián)網(wǎng)背景下的業(yè)務場景主要包括運營調控平臺、互動網(wǎng)站、業(yè)務支撐平臺以及AI能力平臺,電力業(yè)務場景結構如圖4所示。

電力業(yè)務數(shù)據(jù)的特點主要包括:數(shù)據(jù)體量大、數(shù)據(jù)類型多、價值密度低以及處理速度快的特點。實例中所用到的數(shù)據(jù)來自數(shù)據(jù)挖掘網(wǎng)站,不同類型的電力業(yè)務數(shù)據(jù)量如表1所示。

樣本數(shù)據(jù)中的關鍵數(shù)據(jù)主要為聚類數(shù)目和權重指數(shù),其中,聚類數(shù)目用于與聚類樣本的總數(shù)量比較,用以判斷數(shù)據(jù)挖掘是否有意義。即,當聚類數(shù)目大于聚類樣本的總數(shù)量時,數(shù)據(jù)挖掘才有意義。權重指數(shù)用來體現(xiàn)數(shù)據(jù)挖掘算法效果,指數(shù)越小,說明算法對數(shù)據(jù)挖掘效果越好;指數(shù)越大,說明數(shù)據(jù)挖掘效果越差。基于數(shù)據(jù)有意義挖掘需求,給出電力業(yè)務聚類數(shù)據(jù)相應的值,包括聚類數(shù)(JLN)、類間距(LJJ)、類內(nèi)距(LNJ)和準則(ZZ),如表2所示。

算法實現(xiàn)過程分為6步:(1)根據(jù)問題定義,完成數(shù)據(jù)中的空值填補和一致性優(yōu)化,做好數(shù)據(jù)準備;(2)創(chuàng)建數(shù)據(jù)倉庫用以將多個數(shù)據(jù)源集合起來,形成目標數(shù)據(jù)并存放在數(shù)據(jù)庫,作為下一步的數(shù)據(jù)應用準備;(3)為提高挖掘效率,將數(shù)值轉換為數(shù)據(jù)集壓縮形式;(4)根據(jù)實際需求,制定數(shù)據(jù)任務并使用SLIO算法挖掘數(shù)據(jù);(5)通過與需求標準對比,篩選相關模式和有價值的信息;(6)基于決策樹對最終數(shù)據(jù)進行轉化,以便于理解的語言描述或展開形式呈現(xiàn)給用戶。到此,完成基于聚類分析的數(shù)據(jù)挖掘算法過程。

分別使用設計算法和文獻[3]提出的基于支持度-置信度-提升度的配網(wǎng)自動化系統(tǒng)數(shù)據(jù)挖掘算法、基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘算法,重復實驗10次,得出實驗結果進行對比,如表3所示。

由表3可知,3種算法中只有所設計算法的挖掘速度更快,計算時間全都在1.0 s以內(nèi);基于支持度-置信度-提升度的配網(wǎng)自動化系統(tǒng)數(shù)據(jù)挖掘算法和基于神經(jīng)網(wǎng)絡的數(shù)據(jù)挖掘算法所用時間基本上為1.35 s~1.84 s,挖掘速度相對較慢。因此,在數(shù)據(jù)挖掘效率上,所設計算法具有良好的可行性。

對本文算法與其他2種算法進行數(shù)據(jù)挖掘精確度測試以驗證本文算法的應用效果,計算公式:

A=1m∑(w-w′)×100%(9)

式中:m為參與挖掘的項目數(shù)量;w為算法的實際挖掘數(shù)量;w′為預測挖掘數(shù)量。利用式(9)對上述3種數(shù)據(jù)挖掘算法的精準度進行計算并對比,結果如圖5所示。

由圖5可知,基于聚類分析的數(shù)據(jù)挖掘算法在引入決策樹算法后,其計算精準度要遠高于其他2種算法。隨著數(shù)據(jù)挖掘數(shù)量的增加,所設計算法的精準度也越來越高,接近93%左右,其他2種算法的最高精準度均在85%以下。

5 結語

聚類分析在電力行業(yè)數(shù)據(jù)挖掘中的應用,可通過制定合理的決策幫助提升電力企業(yè)的市場競爭力。而傳統(tǒng)的電力業(yè)務聚類算法挖掘速度慢,精準度低,因此設計提出的基于聚類分析優(yōu)化算法的數(shù)據(jù)快速挖掘算法,通過對數(shù)據(jù)挖掘結果進行合理的分析,可有效提升聚類數(shù)據(jù)類型的聚類性。結合算法流程設計中所用到的基本策略,可快速、精準地完成目標數(shù)據(jù)的提取。設計的數(shù)據(jù)挖掘算法創(chuàng)新點主要體現(xiàn)在兩方面,一是依據(jù)聚類分析原理,實現(xiàn)對電力業(yè)務系統(tǒng)數(shù)據(jù)的篩選。二是通過求取聚類數(shù)據(jù)距離完成對數(shù)據(jù)對象的聚類分析,計算各個數(shù)據(jù)對象之間距離的相異度。通過相關實驗測試,設計的算法在挖掘速度上基本在1.0 s以內(nèi),比其他算法提速了40%左右;在數(shù)據(jù)挖掘精確度上也平均高出了20%~40%。由此證明了基于聚類分析優(yōu)化算法的數(shù)據(jù)挖掘算法具有很好的可行性和有效性。通過實驗證明了所設計算法可以對多特征類型的電力業(yè)務數(shù)據(jù)進行有效地聚類,為電決策提供有力的數(shù)據(jù)支持,因此該算法具有較高的實際應用價值。

【參考文獻】

[1] 許統(tǒng)德,趙志俊,高俊文.多層級聯(lián)式少數(shù)類聚類高精度數(shù)據(jù)挖掘算法[J].控制工程,2018,25(5):829-834.

[2] 黃博韜,朱邦賢.基于復雜系統(tǒng)論的中藥藥對數(shù)據(jù)挖掘研究進展[J].中華中醫(yī)藥雜志,2018,33(6):2485-2487.

[3] 張磐,丁泠允,姜寧,等.基于支持度-置信度-提升度的配網(wǎng)自動化系統(tǒng)數(shù)據(jù)挖掘算法及應用[J].電測與儀表,2019,56(10):62-68.

[4] JU F X,ZHONG T G.Research on data mining algorithm based on neural network and particles warm optimization[J].Journal of Intelligent amp; Fuzzy Systems,2018,35(3):2921-2926.

[5] 文靜,曹妍,張琳,等.基于雙重遺傳的聚類分析算法研究[J].計算機工程與科學,2017,39(12):2320-2325.

[6] 李君衛(wèi),湯亞芳,郝正航,等.聚類分析及其在電力系統(tǒng)中的應用綜述[J].現(xiàn)代電力,2019,36(3):1-10.

[7] 李天華,袁永博,張明媛.基于可變模糊聚類的地震作用下電網(wǎng)節(jié)點脆弱性分析[J].科學技術與工程,2018,18(18):126-130.

[8] 林君豪,張焰,祝錦舟,等.基于宏微觀特征分層聚類的配電網(wǎng)拓撲相似性分析方法[J].電力系統(tǒng)自動化,2019,43(13):84-97.

[9] 趙書強,張婷婷,李志偉,等.基于數(shù)值特性聚類的日前光伏出力預測誤差分布模型[J].電力系統(tǒng)自動化,2019,43(13):36-48.

[10] 張江林,張亞超,洪居華,等.基于離散小波變換和模糊K-modes的負荷聚類算法[J].電力自動化設備,2019,39(2):100-106.

[11] 劉炳含,付忠廣,王永智,等.基于并行計算的大數(shù)據(jù)挖掘技術及其在電站鍋爐性能優(yōu)化中的應用[J].動力工程學報,2018,38(6):431-439.

[12] 郝艷妮,吳素萍,田維麗.數(shù)據(jù)挖掘算法在葡萄酒信息數(shù)據(jù)分析系統(tǒng)中的研究[J].計算機科學,2017,44(S1):491-494.

[13] 顏磊,祁冰.基于Android平臺的移動學習系統(tǒng)大數(shù)據(jù)挖掘技術研究[J].現(xiàn)代電子技術,2017,40(19):142-144.

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
數(shù)據(jù)挖掘在高校圖書館中的應用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 在线观看欧美国产| 99无码中文字幕视频| 中文字幕亚洲乱码熟女1区2区| 国产欧美日韩专区发布| 中文无码毛片又爽又刺激| 中文国产成人精品久久| 亚洲天堂在线视频| 色哟哟色院91精品网站| 国内精自线i品一区202| 女同久久精品国产99国| 久久a毛片| 久久国产热| 一级毛片在线播放| 欧美日韩专区| 在线观看国产精品一区| 九九久久99精品| 色色中文字幕| 99久久精品国产麻豆婷婷| 91区国产福利在线观看午夜| 香蕉精品在线| 中文字幕佐山爱一区二区免费| 色135综合网| 国内精品自在欧美一区| 亚洲小视频网站| 五月激情婷婷综合| 一级毛片在线播放免费| 亚洲专区一区二区在线观看| 日本草草视频在线观看| 精品91自产拍在线| 国内精品手机在线观看视频| 尤物特级无码毛片免费| 国产成人精品2021欧美日韩| 毛片卡一卡二| 国产尤物jk自慰制服喷水| 鲁鲁鲁爽爽爽在线视频观看 | 99ri国产在线| 国产精品观看视频免费完整版| 国产精品2| 成人福利免费在线观看| 国产哺乳奶水91在线播放| 日本影院一区| 久久精品人人做人人爽97| 国产欧美精品一区二区| 在线免费不卡视频| 色香蕉网站| 亚洲日韩精品伊甸| 免费在线看黄网址| 日韩精品亚洲一区中文字幕| 亚洲欧美另类中文字幕| 国产免费看久久久| 天堂网亚洲综合在线| 97国产成人无码精品久久久| 香蕉精品在线| 欧美亚洲欧美| 综合社区亚洲熟妇p| 国产青青草视频| 97成人在线观看| 55夜色66夜色国产精品视频| 亚洲福利视频网址| 精品五夜婷香蕉国产线看观看| 成年网址网站在线观看| 亚洲成av人无码综合在线观看| 国国产a国产片免费麻豆| a级免费视频| 国内精自视频品线一二区| 国内99精品激情视频精品| 一区二区三区四区日韩| 男女男免费视频网站国产| 日本91视频| 亚洲香蕉在线| 国产麻豆va精品视频| 99免费在线观看视频| 久久人妻xunleige无码| 欧美一道本| 麻豆精品久久久久久久99蜜桃| 亚洲天堂网在线观看视频| 美美女高清毛片视频免费观看| 国产精品乱偷免费视频| 久久女人网| 91福利片| 亚洲无码高清一区二区| 热思思久久免费视频|