999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大型數(shù)據(jù)集的聚類算法研究

2016-03-08 18:56:28杜淑穎
軟件 2016年1期
關(guān)鍵詞:效率

杜淑穎

摘要:就精確系數(shù)不算太嚴(yán)格的情況而言,針對(duì)各種大型數(shù)據(jù)集,通過(guò)對(duì)比各種聚類算法,提出了一種部分優(yōu)先聚類算法。然后在此基礎(chǔ)之上分析研究聚類成員的產(chǎn)生過(guò)程與聚類融合方式,通過(guò)設(shè)計(jì)共識(shí)函數(shù)并利用加權(quán)方式確定類中心,在部分優(yōu)先聚類算法的基礎(chǔ)上進(jìn)行聚類融合,從而使算法的計(jì)算準(zhǔn)度加以提升。通過(guò)不斷的實(shí)驗(yàn),我們可以感受到優(yōu)化之后算法的顯著優(yōu)勢(shì),這不僅體現(xiàn)在其可靠性,同時(shí)在其穩(wěn)定性以及擴(kuò)展性、魯棒性等方面都得到了很好的展現(xiàn)。

關(guān)鍵詞:部分優(yōu)先聚類算法;聚類融合;效率;精度

中圖分類號(hào):TP393

文獻(xiàn)標(biāo)識(shí)碼:A

DOI: 10.3969/j.issn.1003-6970.2016.01.030

0 引言

針對(duì)大型的數(shù)據(jù)來(lái)說(shuō),過(guò)去的聚類手段存在下面兩個(gè)關(guān)鍵的不足。首先就是其數(shù)據(jù)集不夠穩(wěn)定,與低維相比,高維的分布更加廣泛,這往往會(huì)出現(xiàn)數(shù)據(jù)之間等距的現(xiàn)象,通常而言,我們會(huì)按照距離來(lái)展開(kāi)聚類工作,這樣意味著高維數(shù)據(jù)集的構(gòu)建難度進(jìn)一步加大;其次,就高維數(shù)據(jù)集而言,其內(nèi)在的屬性往往沒(méi)有直接的聯(lián)系,所以基本上在所有維中存在類的概率為0。

1 部分優(yōu)先聚類算法(Partial PriorityAlgorithm PPA)

就引言中的問(wèn)題展開(kāi)研究,進(jìn)而提出部分優(yōu)先算法,首先將第一類從原始數(shù)據(jù)中分離出來(lái),刪除第一類數(shù)據(jù)后,再分離形成第二類,反復(fù)循環(huán)下去,我們會(huì)發(fā)現(xiàn)其計(jì)算速度非常快,但是不滿足使用的準(zhǔn)確度要求,這種算法十分適用于準(zhǔn)確度要求不是十分嚴(yán)格的數(shù)據(jù)集的計(jì)算。針對(duì)其準(zhǔn)確度不足的情況,我們結(jié)合使用了加權(quán)的方法來(lái)確定類中心,以此來(lái)提升其穩(wěn)定性與典型程度,這對(duì)于聚類的穩(wěn)定性、延伸性以及時(shí)效性都是十分有利的。

1.1 概念定義

1.r-鄰域:其中心是某一個(gè)數(shù)據(jù)點(diǎn),半徑用小寫字母r表示。

2.典型樣本p:其定義就是如果樣本集A內(nèi)部數(shù)據(jù)的r-鄰域里存在有最基本的Minpts(密度閥值)個(gè)數(shù)據(jù),那么該樣本就叫做典型樣本。

3.典型點(diǎn)C:p中全部數(shù)據(jù)的平均值為典型點(diǎn),

其中p中樣本的數(shù)量用|p|表示。

4.類中心:即樣本中全部數(shù)值的平均值。

1.2 部分優(yōu)先算法的設(shè)計(jì)案例

1.選擇某一個(gè)數(shù)據(jù)集,然后隨機(jī)抽取其中的一個(gè)樣本A,確定A典型與否。任取樣本中的某一個(gè)初始值,設(shè)置好固定的r與MinDts。然后以該點(diǎn)作為圓心,若Minpts的數(shù)值比r-鄰域內(nèi)的數(shù)據(jù)量小,那么就可以確定樣本A具有代表性;

2.如果A具有很好的代表性,即確定其典型性,那么我們可以利用公式(1)求解出C1,其中C1是樣本的典型點(diǎn),也就是樣本的中心;

3.如果A不具有代表性,即不具典型性質(zhì),那么可以重新進(jìn)行第一個(gè)環(huán)節(jié),一直到發(fā)現(xiàn)典型樣本為止;

4.樣本的中心聚類用C1表示,利用公式

求解出C1與樣本A中各對(duì)象的間距;

5.假如C1與指定對(duì)象xi兩者的間距沒(méi)有大于或等于,,那么我們將此對(duì)象合并進(jìn)A內(nèi),反之,獲取C1和其他對(duì)象Xi+l兩兩之間的間距,完成A內(nèi)包含的全部對(duì)象。

該算法的流程圖見(jiàn)圖1:

1.3 PPA的優(yōu)勢(shì)

1.旨在有效加強(qiáng)典型范例和相應(yīng)的典型點(diǎn)的計(jì)算速度,此算法放棄選取數(shù)據(jù)集全部?jī)?nèi)容而是借助于隨機(jī)挑選的方式從而獲得典型樣本,與此同時(shí)典型點(diǎn)的分析過(guò)程僅出現(xiàn)1次。

2.旨在增強(qiáng)典型點(diǎn)的代表水平,增加r-鄰域中的數(shù)據(jù)密度,此計(jì)算方法制定典型樣本數(shù)值的平均數(shù)為典型點(diǎn),另一方面此點(diǎn)也能夠被當(dāng)作聚類中心。

3.旨在下調(diào)舊有數(shù)據(jù)集的繁瑣程度,此算法在完成1個(gè)類之后,會(huì)把此類的數(shù)值從舊有合集內(nèi)刪除以避免重復(fù)。

面對(duì)數(shù)值的排列PPA并不具備敏感性,這就會(huì)使PPA面向球形以及凸形集合時(shí)的分析速度更快。與此同時(shí),PPA在樣本平均數(shù)值處獲得典型樣本,所以在處理異常數(shù)據(jù)情況上相對(duì)更為敏感,評(píng)估異常點(diǎn)相對(duì)更為準(zhǔn)確。PPA于聚類環(huán)節(jié)精簡(jiǎn)了舊有的合集,大幅度下調(diào)了舊有合集的繁瑣性,因此我們不難發(fā)現(xiàn)其于功效上具備較大優(yōu)勢(shì)。PPA的分析能力、輸入數(shù)據(jù)的敏感程度、面向異常數(shù)據(jù)的敏感程度、察覺(jué)聚類形狀等方面和K-means clustering algorithm、DBSCANclustering algorithm. COBWEB clustering algorithm_FCM clustering algorithm、單連接聚類算法、CLIQUEclustering algorithm. CUBE clustering algorithm等模型開(kāi)展比對(duì),得出的相關(guān)結(jié)論詳情見(jiàn)表1。

2 面向大型數(shù)據(jù)集的PPA的聚類融合

2.1 聚類融合基本思想

聚類融合(clustering ensemble,CE)旨在于消除單詞聚類(word clustering)的較大波動(dòng)性,把合集映射為數(shù)據(jù)點(diǎn)的相似度隨之求出融合的劃分,面向合集的歸類途徑為借助于1種算法中的多項(xiàng)參數(shù)或是多項(xiàng)算法,聚類成員的產(chǎn)生詳情見(jiàn)圖2。

CE的核心理念:假定存在n項(xiàng)數(shù)據(jù)點(diǎn)x={X1,x2,…,xn},面向x開(kāi)展H次聚類求出H項(xiàng)聚類,π={π1,π2,…,πn},在此之中πk(k=l,2,…,H)是第k次求解數(shù)據(jù)。假定存在共識(shí)函數(shù)r,詳情見(jiàn)圖3。

共識(shí)函數(shù)(consensus function,CF,也稱為一致性函數(shù))的定義標(biāo)準(zhǔn)為只要可以將需要聚類的所有聚類成員借助于其一標(biāo)準(zhǔn)完成融合過(guò)程,以共協(xié)矩陣(Co-association matrix)為例,相應(yīng)的功能為評(píng)價(jià)數(shù)據(jù)內(nèi)部的關(guān)聯(lián)性,函數(shù)方程詳見(jiàn)(3):

聚類算法總次數(shù)H

接下來(lái)我們面向前面獲得的H項(xiàng)結(jié)果展開(kāi)融合,求出所需的聚類結(jié)果π'。聚類融合的詳情情況見(jiàn)圖4。

2.2 聚類融合算法的設(shè)計(jì)

我們假設(shè)一數(shù)據(jù)合集X={X1,x2,…,xn},

xi={Xi1,xi2,…,xin},借助于PPA算法把它進(jìn)行歸納,PPA算法的特征為所有劃分行為均會(huì)先出現(xiàn)第1個(gè)類,隨后采取融合的途徑得到所需的第1個(gè)類。第1次歸納總結(jié)一直到第r次歸納總結(jié)的第1個(gè)類為{C11,C12,…,C1r}, 相關(guān)的類中心則是{

},旨在確保所有劃分行為出現(xiàn)的第1個(gè)類存在差異,算法設(shè)計(jì)借助于改變數(shù)據(jù)的輸入順序從而達(dá)到目的。

融合方式定義為:借助于加權(quán)的方法從而求出第1類的類中心,此類中心的權(quán)重需要借助于此類中的全部數(shù)據(jù)量和每類數(shù)據(jù)量之和的比例而獲得。

為類C..所含的數(shù)據(jù)量,V1定義成所需的第1個(gè)類的類中心。隨著v1的求出,再確定空集T1,將V賦予Z作為類中心開(kāi)始聚類,假設(shè)存在閥值r,利用PPA算法的第5環(huán)節(jié),求出的T1即是所需出現(xiàn)的第1個(gè)類。于所有劃分行為中把正包括的數(shù)值剔除,從而有效下調(diào)數(shù)據(jù)的繁瑣性。

按照上述步驟獲得剩余的k-l個(gè)類。由于Vi(i=l,2,…,k存在的典型性,所以出現(xiàn)T1,T2,…,Tk之后,余在舊有合集內(nèi)的數(shù)據(jù)接近于0,算法設(shè)計(jì)將余下數(shù)值平分成k份,再依次移到T1,T2,…,Tk中,函數(shù)(5)即是所有類中心的算法函數(shù),各類產(chǎn)生的詳情見(jiàn)圖5。

2.3 聚類融合算法的優(yōu)勢(shì)

1.旨在讓類中心的代表水平以及相應(yīng)的典型程度更為突出,分析歸類更為精確,類中心借助于加權(quán)的方法從而實(shí)現(xiàn)此目的,借助于公式(5)獲得所有類中心。

2.旨在增加計(jì)算性能,采用的類中心讓原有數(shù)據(jù)集的內(nèi)容極限精簡(jiǎn)。

3.旨在下調(diào)數(shù)據(jù)集的復(fù)雜程度,于歸類期間把已完成分類的部分從原有數(shù)據(jù)集內(nèi)剔除。

3 算法測(cè)試結(jié)果分析

采取9組從UCI Machine Learning Repo sitory合集中獲得的數(shù)據(jù)(Size<2*104),各為Fertility,CarEvaluation, Abalon. Artificial Characters. ISOLET,Callt2 Building People Counts (CBPC). Gas SensorArray Drift Dataset (GSADD), p53 Mutants, LetterRecognition詳細(xì)參數(shù)見(jiàn)表2,為驗(yàn)證算法是否具有穩(wěn)定性,同時(shí)測(cè)試其可行性,面向表2囊括的9組合集分別開(kāi)展5次PPA以及基于PPA的聚類融合算法,求解獲得平均時(shí)間值、精度值和方差值。

按照表3以及圖6中的內(nèi)容,我們不難發(fā)現(xiàn)PPA算法和基于PPA的聚類融合(EPPA)算法相比較,PPA的運(yùn)算效率更高一些,然而于精度層面開(kāi)展比較,則是EPPA更勝一籌。按照獲得的實(shí)驗(yàn)結(jié)果中的方差開(kāi)展對(duì)比,我們發(fā)現(xiàn)PPA的魯棒性更勝一籌。按照表4以及圖7中的內(nèi)容,我們能夠得出結(jié)論:EPPA于處理大型數(shù)據(jù)過(guò)程中的抗外界干擾能力和其可靠性均具有顯著強(qiáng)勢(shì)。

根據(jù)獲得的實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn)PPA以及EPPA容易受處理的數(shù)據(jù)量的多少以及維數(shù)大小的作用,于17,000數(shù)據(jù)處出現(xiàn)轉(zhuǎn)折情況,與此之前要更平穩(wěn),之后就出現(xiàn)時(shí)間增加過(guò)快的現(xiàn)象。于精度層次上考慮,數(shù)據(jù)集超過(guò)6,000的情況下EPPA開(kāi)始穩(wěn)定,能夠得出結(jié)論:EPPA的穩(wěn)定性和可靠程度較高,面向未知數(shù)據(jù)集的計(jì)算上存在著巨大的潛力。

4 結(jié)論

本研究將常見(jiàn)的聚類算法開(kāi)展一定程度上的優(yōu)化,得到部分優(yōu)先聚類算法,增強(qiáng)了算法的處理能力,提高其效率,然而于精度層次上考量,其可靠性仍然有待于后續(xù)優(yōu)化,本研究于部分優(yōu)先聚類算法的基礎(chǔ)上開(kāi)展了聚類融合,避免了此算法缺乏精度的缺點(diǎn),增強(qiáng)其算法精度,使其于可擴(kuò)展程度、魯棒性、可靠程度等方面均有著傳統(tǒng)聚類算法無(wú)法匹敵的優(yōu)勢(shì),對(duì)于大型數(shù)據(jù)集的計(jì)算具有舉足輕重的作用。

猜你喜歡
效率
你在咖啡館學(xué)習(xí)會(huì)更有創(chuàng)意和效率嗎?
提升朗讀教學(xué)效率的幾點(diǎn)思考
甘肅教育(2020年14期)2020-09-11 07:57:42
注意實(shí)驗(yàn)拓展,提高復(fù)習(xí)效率
效率的價(jià)值
商周刊(2017年9期)2017-08-22 02:57:49
引入“倒逼機(jī)制”提高治霾效率
質(zhì)量與效率的爭(zhēng)論
跟蹤導(dǎo)練(一)2
提高食品行業(yè)清潔操作的效率
OptiMOSTM 300V提高硬開(kāi)關(guān)應(yīng)用的效率,支持新型設(shè)計(jì)
“錢”、“事”脫節(jié)效率低
主站蜘蛛池模板: 88av在线| 真人高潮娇喘嗯啊在线观看 | 666精品国产精品亚洲| 精品国产免费观看| 1级黄色毛片| 久久99国产综合精品女同| 成人免费网站久久久| 色噜噜中文网| 超碰aⅴ人人做人人爽欧美| 在线免费a视频| 伊人久久大香线蕉aⅴ色| h视频在线播放| 丰满人妻久久中文字幕| www.国产福利| 亚洲嫩模喷白浆| 久久精品一品道久久精品| 国产成人亚洲无码淙合青草| 伊人久久婷婷五月综合97色| 91麻豆国产视频| 国产真实乱了在线播放| 亚洲天堂自拍| 91免费片| 国产素人在线| AV无码一区二区三区四区| 国产女人喷水视频| 欧美亚洲欧美区| 美女毛片在线| 亚洲国产亚洲综合在线尤物| 亚洲乱码在线播放| 国产精品白浆在线播放| 青草精品视频| 成人在线综合| 国产成人精品2021欧美日韩| 亚洲综合婷婷激情| 一本综合久久| 五月丁香在线视频| 在线观看国产精品日本不卡网| 成人午夜视频在线| 天天躁夜夜躁狠狠躁躁88| 亚洲精品欧美日韩在线| 女人天堂av免费| 97av视频在线观看| 国产欧美日韩精品综合在线| 国产亚洲视频免费播放| 国产一区二区三区免费| 国产在线第二页| 高清不卡毛片| 伊人色在线视频| 日本国产一区在线观看| 国产午夜福利在线小视频| 国产成人亚洲精品蜜芽影院| 一级毛片在线免费视频| 亚洲成人在线网| 日本一区高清| 色有码无码视频| 国产精品久久久久无码网站| 婷婷99视频精品全部在线观看 | 美女被操黄色视频网站| 国产人人乐人人爱| 亚洲精品视频网| 18黑白丝水手服自慰喷水网站| 色噜噜久久| 国产不卡一级毛片视频| 欧美精品xx| 国产精品页| 老司机精品久久| 红杏AV在线无码| 国产在线观看一区二区三区| 精品91自产拍在线| 免费在线色| 欧美日韩北条麻妃一区二区| 99视频全部免费| 成人毛片免费在线观看| 一区二区影院| 亚洲国产清纯| 国产成人8x视频一区二区| 日韩在线播放欧美字幕| 日日拍夜夜操| 一本大道香蕉久中文在线播放 | 2024av在线无码中文最新| 国产aⅴ无码专区亚洲av综合网| 久久久久久久97|