999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-均值聚類和泰森多邊形的異常值檢測方法

2016-04-11 01:09:09何國良
關(guān)鍵詞:數(shù)據(jù)挖掘

孫 添,何國良

(電子科技大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 四川 成都 611731)

?

基于K-均值聚類和泰森多邊形的異常值檢測方法

孫添,何國良

(電子科技大學(xué)數(shù)學(xué)科學(xué)學(xué)院, 四川成都611731)

[摘要]離群點(diǎn)發(fā)現(xiàn)是數(shù)據(jù)挖掘研究的一個重要方面.根據(jù)數(shù)據(jù)流的特點(diǎn)提出一種基于K-均值聚類和泰森多邊形的離群點(diǎn)檢測方法,先用K-均值對數(shù)據(jù)進(jìn)行處理,生成中間聚類結(jié)果,然后用泰森多邊形方法(VOD)對這些中間結(jié)果進(jìn)行再次選擇,最后找出可能存在的離群點(diǎn).

[關(guān)鍵詞]異常值檢測;K-均值聚類;泰森多邊形;數(shù)據(jù)挖掘

數(shù)據(jù)挖掘任務(wù)一般可以分4類:(a)依賴性檢驗(yàn);(b)類別鑒定;(c)類別描述;(d)異常檢測.前面3種任務(wù)與數(shù)據(jù)集合大部分對象中的模式有關(guān).絕大多數(shù)的數(shù)據(jù)挖掘比如分類、關(guān)聯(lián)規(guī)則等都是這3類任務(wù)的范疇;但其中的第4類任務(wù)主要是研究數(shù)據(jù)集中的一小部分內(nèi)容,而這一小部分不符合數(shù)據(jù)集的一般模型或規(guī)則,這些數(shù)據(jù)對象叫做異常點(diǎn).很多挖掘方法將其看成噪聲丟掉,而在另一些應(yīng)用如保險欺詐檢驗(yàn)中,關(guān)于異常點(diǎn)的檢測在這種情況下就成為相當(dāng)重要的事情.

近年來,一種被稱為數(shù)據(jù)流的新型數(shù)據(jù)形式在相當(dāng)多的領(lǐng)域中出現(xiàn),如通話記錄等.數(shù)據(jù)流在通常情況下是一個有序的數(shù)據(jù)序列x2,…,xi,…,xn(xi為數(shù)據(jù)點(diǎn)).這些數(shù)據(jù)按i遞增的順序只能訪問少量的幾次甚至一次.

本文提出的異常值檢測方法是一種適應(yīng)流數(shù)據(jù)特點(diǎn),并且對數(shù)據(jù)分區(qū)是使用K-均值聚類方法來實(shí)現(xiàn)的,將在內(nèi)存中保存著每個部分生成的k個聚類點(diǎn).為了適應(yīng)內(nèi)存容量的限制丟掉了每部分剩余的數(shù)據(jù)點(diǎn),并且采用一種非參數(shù)方法查找異常用于累積存儲于內(nèi)存中的點(diǎn)上.這樣能降低參數(shù)對異常值檢測的影響,因而能更好地將數(shù)據(jù)中的異常值找出.之前的一些文獻(xiàn)用到聚類算法,在檢測異常值時又引入其他閾值作為判斷的依據(jù),使得算法對參數(shù)的依賴性很大;而本文對于異常值的判定選取非參數(shù)檢測方法,使得算法只受聚類參數(shù)k的影響,從而使得算法效率更高.

1相關(guān)知識

1.1離群點(diǎn)定義

對離群點(diǎn)的定義不一樣的檢測方法存在一定的差別,但Hawkins給出的形式化定義被研究者廣泛接受并成為研究離群點(diǎn)問題的基礎(chǔ)[1].

如果一個數(shù)據(jù)樣本與其他樣本之間存在足以引起懷疑的差異,則被稱為離群點(diǎn),Hawkins的定義形象地描述了離群點(diǎn)的特征.

1.2k-means聚類算法

k-means聚類僅僅是諸多劃分聚類方法中的一種.其主要流程為:(1)隨機(jī)選擇K個數(shù)據(jù)作為N個文檔初始聚類中心點(diǎn);(2)對剩余的每個數(shù)據(jù)計(jì)算它到初試聚類中心點(diǎn)的距離,并把它歸到最近的聚類中心點(diǎn);(3)將已經(jīng)得到的各類聚類中心點(diǎn)進(jìn)行重新計(jì)算;(4)重復(fù)(2)、(3),直到聚類中心點(diǎn)不再變化,然后記最終的聚類中心點(diǎn)為(si,ti).

1.3數(shù)據(jù)流離群點(diǎn)檢測

數(shù)據(jù)流數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘?qū)ο笙啾龋瑪?shù)據(jù)流數(shù)據(jù)隨著時間動態(tài)增加,數(shù)據(jù)量不斷增大等.這些特點(diǎn)使得數(shù)據(jù)流異常點(diǎn)檢測的方法需要滿足下面的要求:

1)算法可以在小空間上運(yùn)行

這是數(shù)據(jù)流挖掘面臨的首要困難,主要是由于數(shù)據(jù)量隨時間的不斷增加,離群點(diǎn)檢測針對所有存儲下來的數(shù)據(jù)來進(jìn)行是不大現(xiàn)實(shí)的,故將有限的存儲空間對“無限”的數(shù)據(jù)流進(jìn)行處理對于數(shù)據(jù)流異常值檢測算法是可行的.

2)算法只能掃描數(shù)據(jù)少量幾次甚至一次

伴隨時間的推移,使用不斷添加到數(shù)據(jù)流的新的數(shù)據(jù)代替以前存儲器中儲存的數(shù)據(jù),這樣就使得算法需要只對數(shù)據(jù)進(jìn)行少量幾次訪問甚至一次.

2離群點(diǎn)檢測方法

之前有人提出了一種基于K-均值聚類的流數(shù)據(jù)離群點(diǎn)發(fā)現(xiàn)方法[2].該方法首先在數(shù)據(jù)流分區(qū)接著使用K-均值聚類產(chǎn)生中間聚類結(jié)果(均值參考點(diǎn)集),之后再利用非參數(shù)方法對這些參考點(diǎn)找出潛在的離群點(diǎn).借鑒該種算法,文獻(xiàn)[3]提出用K-均值聚類結(jié)合凝聚聚類查找離群點(diǎn)方法,一開始將K-均值聚類應(yīng)用在各時段內(nèi)的數(shù)據(jù)流來生成對應(yīng)的中間均值點(diǎn)集,然后對這些中間均值點(diǎn)應(yīng)用凝聚聚類進(jìn)行分析,查找出那些可能存在的異常值.

根據(jù)上面兩種方法的思路,本文提出基于K-均值聚類并使用VOD離群點(diǎn)檢測方法.這個方法的主要步驟是:第一步,將數(shù)據(jù)流進(jìn)行分區(qū),然后做K-均值聚類生成相應(yīng)的聚類中心點(diǎn)集;第二步,利用泰森多邊形的方法來對這些中間均值點(diǎn)進(jìn)行異常值的判斷.相對于之前的方法,在查找異常點(diǎn)的過程中不再引入新的參數(shù),使得算法對參數(shù)的影響變小.

2.1相關(guān)定義

VOD方法的原理

Voronoi圖是一種用來描述點(diǎn)集鄰近關(guān)系的一種數(shù)據(jù)結(jié)構(gòu).給定M個點(diǎn)的集合S,點(diǎn)集S的Voronoi圖把平面劃分成M個區(qū)域.一般地,將Voronoi圖的點(diǎn)稱作Voronoi頂點(diǎn),線段稱作Voronoi邊,如圖1所示.

圖1 Voronoi圖

在點(diǎn)S集的Voronoi圖中,給定pS ,V(pi)只包含S中的一個點(diǎn).所以,相對于V(pi)多邊形范圍內(nèi)的其他任意一個點(diǎn)來講,其到pi的距離比到S中其他頂點(diǎn)的距離都要小.也就是,?j≠i}.其中,dist()是歐氏距離.

Voronoi圖上,任意pi的每一個鄰近點(diǎn)確定Voronoi多邊形V(pi)的一條邊;反過來說,可以通過V(pi)的邊找出pj的所有鄰近點(diǎn),記為VN(pi).如圖1所示,p2的鄰近點(diǎn)是p2、p3、p4、p5、p6.

根據(jù)Voronoi圖的性質(zhì),對于點(diǎn)集中S任一個點(diǎn)pi,根據(jù)pi的Voronoi多邊形V(pi)確定它的鄰近點(diǎn),再計(jì)算pi到其所有的鄰近點(diǎn)平均距離,記為Vd(pi),作為pi的近鄰分布密度,即:

(1)

Vd(pi)可以很客觀地反映點(diǎn)周圍pi的分布密度,故對于異常點(diǎn)來說,其鄰近點(diǎn)與它的距離比較大,Vd(pi)也就比較大.如果將Vd(pi)按從大到小的順序排列,那么Vd(pi)較大的點(diǎn)就可能是異常點(diǎn).

2.2算法思想

以下對本文提出的算法思想進(jìn)行闡述.首先對數(shù)據(jù)流進(jìn)行分區(qū),把順序的m個數(shù)據(jù)點(diǎn)來形成一個劃分,接著將K-均值聚類應(yīng)用在每一個劃分中的m個數(shù)據(jù)點(diǎn)上,并把產(chǎn)生的k個聚類中心點(diǎn)保存為ki(si,ti)的數(shù)據(jù)類型;然后構(gòu)造k個ki的Voronoi圖,計(jì)算每一點(diǎn)的V-鄰近分布密度Vd(pi),根據(jù)Vd(pi)的大小來判斷數(shù)據(jù)流中的異常值.數(shù)據(jù)流離群點(diǎn)檢測過程一直到某一時刻內(nèi)的數(shù)據(jù)已經(jīng)全部遍歷后才會結(jié)束.算法流程如下:

圖2 算法流程

2.3算法時間復(fù)雜性分析

算法的過程是由兩部分組成:一是分割數(shù)據(jù),分割是將連續(xù)的m個數(shù)據(jù)點(diǎn)看作一個劃分,將K-均值聚類應(yīng)用在每一個劃分上的m個數(shù)據(jù)點(diǎn)所生成的聚類中心點(diǎn)的開銷;對k個ki利用VOD方法檢測異常值的開銷.

在大數(shù)據(jù)集上應(yīng)用k-means算法,優(yōu)點(diǎn)主要表現(xiàn)為算法的可伸縮性比較好,而時間復(fù)雜度為O(tkn),其中t是算法實(shí)現(xiàn)時迭代的次數(shù),k是事先限定好的簇的個數(shù),n則是數(shù)據(jù)集合里面數(shù)據(jù)點(diǎn)的個數(shù).通常情況下,k?n和t?n.由于對每個劃分塊上的m個數(shù)據(jù)點(diǎn)進(jìn)行K-均值聚類,因此這一步的時間消耗復(fù)雜度為O(mkn).如果數(shù)據(jù)點(diǎn)的個數(shù)m取值比較小,那么相對應(yīng)的迭代次數(shù)t也會相應(yīng)比較小.

3實(shí)驗(yàn)分析

本節(jié)通過實(shí)驗(yàn)來分析算法的效率和有效性.使用二維模擬數(shù)據(jù)集來測試算法對離群點(diǎn)的檢測效果,模擬數(shù)據(jù)如圖3所示.生成的方法是在矩形區(qū)域內(nèi)產(chǎn)生1 000個符合N(4.0,1.0)的正態(tài)分布的點(diǎn),然后再產(chǎn)生1 000個均勻分布(x2+y2≤1)的隨機(jī)點(diǎn),最后加入10個異常數(shù)據(jù)點(diǎn)在空白區(qū)域.

圖3 實(shí)驗(yàn)數(shù)據(jù)集

對算法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示.

表1 實(shí)驗(yàn)結(jié)果

由圖2可知,先采用聚類算法,使得數(shù)據(jù)量急劇減少,再對生成的數(shù)據(jù)點(diǎn)進(jìn)行異常值檢測,但由于k值不同,異常點(diǎn)檢測方法的效果受到一定影響,檢測出來的異常值的數(shù)目不同.當(dāng)k為某一個恰當(dāng)值時,可以很好地找出全部的異常值.

采用文獻(xiàn)[2]提出的方法來查找異常值,查找結(jié)果如表2.

表2 對比試驗(yàn)結(jié)果

此方法也能找出異常值,但在判定異常值的過程中引入新的閾值,使得算法受到兩個參數(shù)的影響,而非參數(shù)的方法查找異常值所受到的限制更小,查找準(zhǔn)確率更高.雖然該算法對異常值的檢測與k值有關(guān),主要是K-均值聚類的效果受k的值影響較大.但在異常值檢測中,泰森多邊形是一種非參數(shù)檢測,因此本算法只受k值影響.

4結(jié)語

K-均值聚類的聚類結(jié)果比較不穩(wěn)定,即使對于同樣輸入?yún)?shù)聚類結(jié)果也可能完全不一樣.本文提出一種基于K-均值聚類和泰森多邊形的離群點(diǎn)檢測查找方法,在K-均值聚類的基礎(chǔ)上增加泰森多邊形使算法更加穩(wěn)定.對于點(diǎn)的個數(shù)很多的情況,我們第一時間可以排除其為異常值,對其他的點(diǎn)進(jìn)行異常值檢測,提高了效率.理論分析與實(shí)驗(yàn)結(jié)果表明,算法是有效、可行的.

[參考文獻(xiàn)]

[1]HAWKINSD.Identificationofoutliers[M].London:ChapmanandHall, 1980.

[2]倪巍偉,陸介平,陳耿,等.基于均值分區(qū)的數(shù)據(jù)流離群點(diǎn)檢測算法[J].計(jì)算機(jī)研究與發(fā)展,2006,43(9):1639-1643.

[3]曾穎,羅可,鄒瑞芝.基于K-均值聚類和凝聚聚類的離群點(diǎn)查找方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(29):131-133.

[4]QUJL,QINW,SAIY,F(xiàn)ENGYM.Anonparametricoutlierdetectionmethodforfinancialdata[C].Proceedingsofthe16thIEEEInternationalConferenceonManagementScience&Egneering,2009:1442-1447.

[5]黃天強(qiáng),秦小麟,葉躍飛.基于方形鄰域的離群點(diǎn)的查找新方法[J].控制與決策,2006,21(5):541-545.

[6]BREUNINGMM,KREIGELHP,NGRT,etal.LOF:Identifyingdensity-basedlocaloutliers[C].TheACMSIGMOD,Dallas,TX,2000:427-438.

[7]ESTERM,KREIGELHP,SANDERJ,etal.Adensitybasedalgorithmfordiscoveringclustersinlargespatialdatabases[C].ProcofKDD’96,PorlandOR,1996:226-231.

(責(zé)任編輯穆剛)

Outliers detection method based onK-means and voronoi diagram

SUN Tian, HE Guoliang

(School of Mathematical Sciences, University of Electronic, Science and Technology, Chengdu Sichuan 611371, China)

Abstract:Outlier discovery is an important aspect of data mining. According to the characteristics of the data stream, based on K-means clustering and outlier detection method Thiessen polygons is proposed, first with K-mean data processing, generation intermediate clustering results, and then using Thiessen polygons method (VOD). These intermediate results were once again selected, and finally the possible outliers were identified.

Key words:outliers detection; K-means clustering; voronoi diagram; data mining

[中圖分類號]O651

[文獻(xiàn)標(biāo)志碼]A

[文章編號]1673-8004(2016)02-0010-04

[作者簡介]孫添(1990—),女,河北保定人,碩士,主要從事數(shù)據(jù)分析方面的研究.

[基金項(xiàng)目]國家自然科學(xué)基金項(xiàng)目(11371288);國家留學(xué)基金項(xiàng)目.

[收稿日期]2015-06-17

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
主站蜘蛛池模板: 欧美中日韩在线| 无码专区国产精品第一页| 天堂在线亚洲| 成人av专区精品无码国产| 国产a在视频线精品视频下载| 久久国产亚洲偷自| 波多野结衣国产精品| 亚洲日韩在线满18点击进入| 91最新精品视频发布页| 久久亚洲国产视频| 国产亚洲欧美日韩在线一区二区三区 | 国产大片喷水在线在线视频| 亚洲AV无码一二区三区在线播放| 丁香婷婷激情网| 99热这里只有精品5| 婷婷色中文| 日本久久免费| 亚洲国产成人综合精品2020| 国产91小视频在线观看| 国产小视频a在线观看| 不卡午夜视频| 欧美日韩在线亚洲国产人| 在线播放91| 丁香综合在线| 国产SUV精品一区二区| 一级一级一片免费| 国内精自线i品一区202| 国产在线一区视频| 成色7777精品在线| 国产精品区视频中文字幕| 青草视频免费在线观看| 亚洲男人天堂久久| 国产粉嫩粉嫩的18在线播放91| 国产亚洲精品97在线观看| 天天干伊人| 精品欧美一区二区三区久久久| 亚洲免费福利视频| 伦伦影院精品一区| 丁香六月激情综合| 欧美成人午夜在线全部免费| 亚洲中文字幕久久精品无码一区| av无码一区二区三区在线| 韩国福利一区| 波多野结衣国产精品| 青青热久免费精品视频6| 国产玖玖视频| 久久一本精品久久久ー99| 一本色道久久88| 91福利一区二区三区| 日本不卡在线播放| 国产精品亚洲天堂| 人妻丰满熟妇av五码区| 国产又色又爽又黄| 在线一级毛片| 久久性视频| 在线国产毛片手机小视频| 国产第一页屁屁影院| 午夜国产精品视频| 又爽又大又光又色的午夜视频| 精品国产成人高清在线| 国产一级视频在线观看网站| 美女一区二区在线观看| 99精品福利视频| 国产自无码视频在线观看| 99国产精品免费观看视频| 亚洲精品国产首次亮相| 高清无码一本到东京热| 欧美性精品| 欧美另类视频一区二区三区| 国产欧美精品午夜在线播放| 久久久久九九精品影院 | 欧美日韩在线第一页| 午夜爽爽视频| 亚洲黄网视频| 亚洲一区波多野结衣二区三区| 国产区免费精品视频| 九九久久99精品| 国产一级毛片网站| 国产精品成人啪精品视频| 青青热久免费精品视频6| 精品久久久久成人码免费动漫| 国内熟女少妇一线天|