摘 要:聚類就是將數(shù)據(jù)集劃分不同類的一個過程,不同聚類數(shù)據(jù)對象相似度小于同一個聚類對象相似度,在使用聚類分析方法應(yīng)用數(shù)據(jù)集后便可以幫助研究人員分析出數(shù)據(jù)集的稠密區(qū)域與稀疏區(qū)域,辨別出各個數(shù)據(jù)之間的相關(guān)性。聚類分析算法可以分為幾種不同的形式,其中代表性的算法有層次方法、劃分方法、基于網(wǎng)格算法與基于密度算法,本文主要分析數(shù)據(jù)挖掘中聚類分析算法性能。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析算法;性能分析
中圖分類號:TP311.13;TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-7712 (2014) 16-0000-01
在技術(shù)水平的發(fā)展之下,數(shù)據(jù)挖掘技術(shù)也得到了迅速的發(fā)展,在傳統(tǒng)領(lǐng)域下,數(shù)據(jù)挖掘技術(shù)僅僅是基于統(tǒng)計學(xué)與計算機(jī)技術(shù)基礎(chǔ)上產(chǎn)生的技術(shù),目前,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各個行業(yè)中得到了廣泛的應(yīng)用,其最大的目標(biāo)市場主要集中在數(shù)據(jù)集市、數(shù)據(jù)倉庫與決策支持業(yè)界之中,下面就針對數(shù)據(jù)挖掘中聚類分析算法的性能進(jìn)行深入的分析。
一、數(shù)據(jù)挖掘中聚類分析算法的應(yīng)用
聚類就是將數(shù)據(jù)集劃分不同類的一個過程,不同聚類數(shù)據(jù)對象相似度小于同一個聚類對象相似度,在使用聚類分析方法應(yīng)用數(shù)據(jù)集后便可以幫助研究人員分析出數(shù)據(jù)集的稠密區(qū)域與稀疏區(qū)域,辨別出各個數(shù)據(jù)之間的相關(guān)性。將聚類分析法應(yīng)用在商業(yè)領(lǐng)域可以幫助研究人員對客戶群體進(jìn)行深入的挖掘,并根據(jù)客戶群體的消費心理與特征來制定營銷策略;將聚類分析法應(yīng)用在生物學(xué)領(lǐng)域能夠幫助了解人員了解人類的基因;將聚類分析法應(yīng)用在經(jīng)濟(jì)領(lǐng)域中能夠幫助研究人員來評價各個地區(qū)的經(jīng)濟(jì)發(fā)展能力。同時,聚類分析還可以幫助用戶挖掘出網(wǎng)頁中的有用信息,聚類分析能夠作為獨立工具,也可以與其他數(shù)據(jù)挖掘算法進(jìn)行聯(lián)合使用。
二、聚類分析算法的應(yīng)用要求與方法簡介
聚類分析算法的應(yīng)用需要滿足幾個特性,這包括可擴(kuò)展性、不同類型屬性處理能力、任意形狀聚類、減少輸入?yún)?shù)量、噪聲數(shù)據(jù)處理力、高維問題、約束聚類幾個內(nèi)容。根據(jù)處理數(shù)據(jù)目的、要求與類型的不同,聚類分析算法可以分為幾種不同的形式,其中代表性的算法有層次方法、劃分方法、基于網(wǎng)格算法與基于密度算法。
(一)層次方法
層次方法是一種層次廣泛的分析方法,層次方法有兩種類型,即自上而下分析法與自下而上分析法,前者強(qiáng)調(diào)將數(shù)據(jù)對象作為獨立分組,對這些對象組進(jìn)行合并處理,直至滿足終止條件;后者將所有對象作為一個分析,逐步將其分為小組,直至滿足終止條件。常用的分析法有CURE算法與BIRCH算法兩種類型。
層次方可可以得出粒度不同的多層次聚類結(jié)構(gòu),但是,由于各類因素的影響,這一分析法也有一些缺陷,其中最大的問題就是難以進(jìn)行回溯,在分析的時候必須要考慮到這一問題。
在進(jìn)行計算時,需要按照相似度來進(jìn)行分析,也能夠?qū)⒉幌嗨频牟糠址蛛x開來,判斷各個類的相似性,再根據(jù)距離來計算出類與類的差異度。
層次分析法引入了聚類特征樹與聚類特征,是針對大規(guī)模數(shù)據(jù)的一種算法,該種算法可以有效減少數(shù)據(jù)處理量,在完成壓縮之后也能夠滿足聚類信息需求,也不會影響聚類的質(zhì)量。此外,該種算法只要進(jìn)行一次掃描即可完成聚類,但是,該種算法只能夠使用直徑與半徑概念進(jìn)行分析,因此,只能夠用于對象為球形的計算中,如果數(shù)據(jù)輸入順序不同,那么就很可能產(chǎn)生不同的聚類結(jié)果。
(二)分析方法
使用分析方法可以將數(shù)據(jù)集劃分為k個聚類,這些聚類需要滿足幾個條件:(1)聚類是要包含一個及以上數(shù)據(jù)對象的;(2)每一個數(shù)據(jù)對象只與一個聚類相關(guān),對于一些模糊劃分方法,能夠適當(dāng)放寬要求。
對于所有聚類,都需要使用優(yōu)化的分析方法進(jìn)行劃分,縮小聚類對象距離,分析劃分方法質(zhì)量的標(biāo)準(zhǔn)就是聚類相似度,理想的劃分方法能夠提升數(shù)據(jù)對象相似度,常用的劃分法包括K-medoids算法與K-means算法兩種類型。
(三)基于網(wǎng)格方法
基于網(wǎng)格方法強(qiáng)調(diào)將對象空間劃分成網(wǎng)格結(jié)構(gòu),這些網(wǎng)格結(jié)構(gòu)的數(shù)目單元是有限的,一般情況下,如果劃分過于粗糙,就會影響邊界的清晰度,如果劃分過于細(xì)致,也會導(dǎo)致小聚類數(shù)量過多。為此,在使用網(wǎng)絡(luò)分析法時,就需要從小單元先進(jìn)行聚類,在逐步增加其體積,指導(dǎo)聚類質(zhì)量達(dá)到標(biāo)準(zhǔn)。
劃分對象網(wǎng)格數(shù)對于數(shù)據(jù)庫集處理時間有著重要的影響,這會有效簡化個數(shù)對于數(shù)據(jù)的影響,這即可有效提升網(wǎng)格分析法的處理速度。
假設(shè)N為數(shù)據(jù)庫對象數(shù)據(jù),且N無限大,數(shù)據(jù)對象特征會產(chǎn)生d維特征空間,在進(jìn)行計算時,數(shù)據(jù)復(fù)雜度是o(N),在對象掃描完成后需要將其分配到相應(yīng)單元中,若特征空間一個維有m個單元,就一共會出現(xiàn)md個單元,在下一步,就可以使用小波轉(zhuǎn)換來進(jìn)行處理,建立好查詢表,在數(shù)據(jù)引入其中之后,即可處理相關(guān)數(shù)據(jù),這些數(shù)據(jù)復(fù)雜度與數(shù)據(jù)對象數(shù)是沒有直接關(guān)聯(lián)的,算法時間復(fù)雜度即為o(N)。
(四)基于密度算法
基于密度算法可以分析出各種形狀聚類,這一算法主要通過獲得聚類到相鄰密度閾值獲取結(jié)果,該種算法可以起到很好的除燥作用,挖掘出形狀不同的聚類,其中最為常用的基于密度算法就是DBCLUES、OPTICS與DBSCAN。
三、結(jié)束語
總而言之,聚類分析已經(jīng)在數(shù)據(jù)挖掘領(lǐng)域中得到了廣泛的使用,聚類分析算法可以分為幾種不同的形式,其中代表性的算法有層次方法、劃分方法、基于網(wǎng)格算法與基于密度算法。每一種算法都有其不同的特征與適用性,層次方法適宜用在不同粒度多層次聚類結(jié)構(gòu)的分析;劃分方法多用于球形聚類形狀;基于網(wǎng)格算法能夠迅速處理數(shù)據(jù)對象;基于密度算法可以能夠有效消除噪聲,相信在大數(shù)據(jù)時代的發(fā)展下,聚類分析技術(shù)定可以得到更加廣泛的使用。
參考文獻(xiàn):
[1]王成,王繼順.基于因子分析與聚類分析的學(xué)生成績綜合評價[J].甘肅聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2011(01).
[2]王亮紅,宋代清,徐娜.聚類分析在學(xué)生成績分析中的應(yīng)用[J].東北電力大學(xué)學(xué)報(社會科學(xué)版),2009(04).
[3]劉思,徐靜瑞,張建偉.基于螞蟻孵化分類行為的聚類算法[J].鄭州輕工業(yè)學(xué)院學(xué)報(自然科學(xué)版),2009(05).
[4]Wenyin Gong,Zhihua Cai,Charles X.Ling.DE/BBO:a hybrid differential evolution with biogeography-based optimization for global numerical optimization[J].Soft Computing.2010(04).