999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計(jì)算平臺的動態(tài)增量密度算法研究

2016-07-19 02:12:33孟海東任敬佩
關(guān)鍵詞:定義

孟海東 任敬佩

(內(nèi)蒙古科技大學(xué)信息工程學(xué)院 內(nèi)蒙古 包頭014010)

?

基于云計(jì)算平臺的動態(tài)增量密度算法研究

孟海東任敬佩

(內(nèi)蒙古科技大學(xué)信息工程學(xué)院內(nèi)蒙古 包頭014010)

摘要針對傳統(tǒng)密度聚類算法處理海量數(shù)據(jù)時(shí)間復(fù)雜度高且不適合處理動態(tài)數(shù)據(jù)等問題,提出一種利用參考點(diǎn)和MapReduce模型進(jìn)行動態(tài)增量聚類的密度算法。其創(chuàng)新點(diǎn)在于,該算法實(shí)現(xiàn)了一種能夠處理海量動態(tài)數(shù)據(jù)的聚類算法,保證了增量聚類與重新聚類結(jié)果的一致性,并具有可擴(kuò)展性的特點(diǎn)。實(shí)驗(yàn)結(jié)果證明:該算法降低了參數(shù)敏感性,提高了密度算法的聚類效率和資源利用率,適合大數(shù)據(jù)分析。

關(guān)鍵詞參考點(diǎn)增量聚類MapReduce動態(tài)密度算法

0引言

目前對于傳統(tǒng)密度聚類算法改進(jìn)的研究主要用包括數(shù)據(jù)場[1]、網(wǎng)格[2,3]、增量[4-6]、并行[7]和MapReduce等方法。其中研究最多的是基于MapReduce模型的并行密度聚類算法來提高算法的聚類效率和資源利用率。由于隨著數(shù)據(jù)量的增長,利用云計(jì)算處理大數(shù)據(jù)進(jìn)行聚類已成為熱點(diǎn)。文獻(xiàn)[8]提出了一種基于MapReduce層次的密度聚類算法HDBSCAN,降低了參數(shù)的敏感性,提高了算法的效率;文獻(xiàn)[9]利用MapReduce模型與粒子群優(yōu)化方法提出了DPDPSO算法,降低了內(nèi)存的依賴,同時(shí)也提高了DBSCAN算法的運(yùn)行時(shí)間;文獻(xiàn)[10]利用MapReduce機(jī)制,實(shí)現(xiàn)區(qū)域查詢和候選隊(duì)列處理,提高了算法的聚類效率;文獻(xiàn)[11-14]通過Hadoop平臺實(shí)現(xiàn)了DBSCAN算法的改進(jìn),提高了算法的加速比和可伸縮性;文獻(xiàn)[15,16]利用云計(jì)算平臺提出了增量DBSCAN聚類算法,實(shí)現(xiàn)局部挖掘知識與原先整體挖掘知識進(jìn)行類簇相似性合并,形成最終的挖掘知識。

以上都是基于靜態(tài)密度聚類,因而本文提出一種利用參考點(diǎn)作為初始中心點(diǎn)并使用MapReduce模型進(jìn)行并行計(jì)算的動態(tài)DBSCAN算法DICURDA(Dynamic and Incremental Clustering Using References and Density Algorithm)。DICURDA算法基于MapReduce模型實(shí)現(xiàn)了并行密度算法。利用虛擬的參考點(diǎn)反應(yīng)了數(shù)據(jù)空間的點(diǎn)分布特征,并在增量聚類過程中利用參考點(diǎn)和密度算法實(shí)現(xiàn)了動態(tài)聚類,降低了在增量聚類過程中參數(shù)的敏感和時(shí)間復(fù)雜度,以及對核心點(diǎn)的I/O次數(shù)。

1DICURDA聚類算法

1.1概念

設(shè)在云計(jì)算平臺處理的大數(shù)據(jù)中,原始數(shù)據(jù)集為V(v1,v2,…,vn),聚類中心點(diǎn)為Ci(i=1,2,…,k);增量數(shù)據(jù)集為△V(△v1,△v2,…,△vn),增量中心點(diǎn)△Ci(i=1,2,…,k)。

定義1(點(diǎn)的密度)在集群的各個(gè)節(jié)點(diǎn)中,對空間中的任意點(diǎn)p,給定區(qū)域半徑R,如果點(diǎn)p到其他點(diǎn)pi(i=1,2,…,n)距離dppi小于等于R的個(gè)數(shù)為ρp,則稱點(diǎn)p的密度為ρp,記作ρp(p,R)。

ρp=∑χ(dppi-R)

(1)

定義2(點(diǎn)密度距離)給定密度閾值T,設(shè)密度點(diǎn)距離δp,則:

(2)

如果ρp≥T,則稱為高密度點(diǎn),記作H(ρp,δp);反之,稱為稀疏密度點(diǎn),記作L(ρp,δp)。

定義3(參考點(diǎn))給定一個(gè)距離閾值D,根據(jù)定義2可知,若某點(diǎn)為稀疏密度點(diǎn)H(ρp,δp)且δp

定義4(核心點(diǎn))給定一個(gè)距離閾值D,根據(jù)定義2可知,高密度點(diǎn)H(ρp,δp),如果δp>D,則稱點(diǎn)p為核心點(diǎn)。

定義5(直接密度可達(dá))在給定的對象集V中,由定義2可知,高密度點(diǎn)H(ρp,δp)與H(ρq,δq),如果δq

定義6(密度可達(dá))在給定的對象集V中,存在點(diǎn)pi(i=1,2,…,n),由定義2可知,稀疏密度點(diǎn)L(ρpi,δpi),高度密度點(diǎn)H(ρq,δq),如果δq

定義7(噪聲點(diǎn))在給定的對象集V中,由定義2可知,稀疏密度點(diǎn)L(ρp,δp),如果δp>D,則p為噪聲點(diǎn)。

定義8V(v1,v2,…,vn)初始聚類過程中對象簇Ci(i=1,2,…,k)設(shè)為全局參數(shù),則Ci(i=1,2,…,k)是△V(△v1,△v2,…,△vn)的聚類的參考點(diǎn)(核心點(diǎn))。

參考點(diǎn)即是核心點(diǎn),因?yàn)樵诔跏季垲惤Y(jié)果中獲得的參考點(diǎn)都是符合定義4的點(diǎn)的集合。

定義9(簇合并)設(shè)參考點(diǎn)p和q所屬簇分別為Cp和Cq,如果點(diǎn)p到點(diǎn)q的距離小于或等于R,即:

Dis(p,q)≤R

(3)

則Cp和Cq合并為簇Cpq。

證明:設(shè)點(diǎn)p與點(diǎn)q為參考點(diǎn),由定義2和定義3可知,如果ρp>T且δp>D,p則為核心點(diǎn),當(dāng)Dis(p,q)≤R時(shí),則q屬于ρp(p,R)內(nèi)的密度點(diǎn);由定義5和定義6可知,如果點(diǎn)q是H(ρq,δq),則對象q到p是直接密度可達(dá);如果點(diǎn)q是L(ρpi,δpi),則對象q到p是密度可達(dá);因此,簇Cp和Cq可以合并為簇Cpq。

例如:設(shè)點(diǎn)的區(qū)域半徑R=10,密度閾值T=5,距離閾值D=9,P(p1,p2,…,pn)是二維空間中任意數(shù)據(jù)點(diǎn)如圖1所示,則:

圖1 二維空間數(shù)據(jù)點(diǎn)分布

根據(jù)定義1可從圖1與圖2中看出,p1、p2、p3、p4、p5的密度點(diǎn)分別為ρp1(9,10)、ρp2(11,10)、ρp3(4,10)、ρp4(1,10)、ρp5(7,10),具體如圖2所示;根據(jù)定義2,由于p1、p2、p4的密度大于T=7,則p1、p2、p5是高密度的點(diǎn),分別記作H(9,8.93)、H(11,8.97)、H(7,9.21);反之,p3、p4為稀疏密度點(diǎn),分別記作L(4,3.23)、L(1,22.92),具體如圖2所示。根據(jù)定義3和定義4可知,p1、p2、p5為高密度點(diǎn),δp1、δp2為參考點(diǎn),δp5大于D=9,則為參考點(diǎn)且為核心點(diǎn);p3、p4為稀疏點(diǎn),且δp39,則根據(jù)定義7可知,p4為噪聲點(diǎn),具體如圖1、圖2所示;根據(jù)定義5和定義6可知,δp1<9和δp2<9,且H(ρp2,δp2)∈NH(ρp1,δp1),則p2到p1直接密度可達(dá);δp3<9且L(ρp3,δp3)∈NH(ρp2,δp2),則p3到p2密度可達(dá)。由圖1所示,Dis(p1,p2)=8.93

圖2  二維數(shù)據(jù)點(diǎn)的Pi(ρpi,δpi)分布  圖3 DICURDA算法的簇合并

1.2DICURDA算法設(shè)計(jì)

根據(jù)1.1節(jié)中概念定義的敘述,DICURDA算法的聚類過程中,設(shè)噪聲點(diǎn)對象簇為Oi(i=0,1,…),增量噪聲點(diǎn)對象簇為△Oi(i=0,1,…);根據(jù)上述中定義,在數(shù)據(jù)集V可以實(shí)現(xiàn)對象簇Ci(i=1,2,…,k)。隨著數(shù)據(jù)集的動態(tài)的增長,當(dāng)增量數(shù)據(jù)集為△V時(shí),實(shí)現(xiàn)增量數(shù)據(jù)集△V的聚類過程,聚類結(jié)果新簇為△Ci(i=1,2,…,k)。ICURD算法的實(shí)現(xiàn)過程主要分為以下兩個(gè)過程:

(1) 初始聚類過程

① 對于數(shù)據(jù)集V(v1,v2,…,vn)中的每個(gè)數(shù)據(jù)點(diǎn),根據(jù)定義1計(jì)算出每個(gè)點(diǎn)的密度ρvi(vi,R)(i=1,2,…,n)。

② 根據(jù)定義2,計(jì)算出每個(gè)數(shù)據(jù)點(diǎn)的δvi(i=1,2,…,n)。

③ 根據(jù)定義3,判斷每個(gè)數(shù)據(jù)點(diǎn)是否為參考點(diǎn)的條件如下:根據(jù)定義4判斷該點(diǎn)是否是核心點(diǎn),如果是,則標(biāo)記為單標(biāo)記的簇,同時(shí),密度范圍內(nèi)的點(diǎn)標(biāo)記為同樣的簇標(biāo)識;如果不是核心點(diǎn),則根據(jù)定義5和定義6,判斷是否滿足直接密度可達(dá)和密度可達(dá)條件,如果符合條件,則把該密度范圍內(nèi)的點(diǎn)標(biāo)記為符合該條件的分配給相應(yīng)的簇中。

④ 直到數(shù)據(jù)集V(v1,v2,…,vn)中的每個(gè)數(shù)據(jù)點(diǎn)全部被標(biāo)識后,根據(jù)定義7,判斷是否存在噪聲點(diǎn),若存在,則標(biāo)記為Oi(i=0,1,…)。

⑤ 把各個(gè)簇內(nèi)各維坐標(biāo)值累計(jì)求均值,結(jié)果輸出Ci(i=1,2,…,k)。

(2) 增量聚類過程

① 設(shè)原始數(shù)據(jù)中心點(diǎn)(根據(jù)定義8)Ci(i=1,2,…,k)為△V(△v1,△v2,…,△vn)進(jìn)行聚類的參考點(diǎn)(設(shè)為全局變量。

② 計(jì)算△V(△v1,△v2,…,△vn)中△v1的ρ(△v1,R),如果是參考點(diǎn),則計(jì)算該點(diǎn)到每個(gè)Ci(i=1,2,…,k)的距離,根據(jù)“就近原則”(到給定參考點(diǎn)最短距離)分配給相應(yīng)的簇;如果不是參考點(diǎn),根據(jù)初始聚類的過程進(jìn)行聚類,實(shí)現(xiàn)新的簇△Ci(i=k+1,k+2,…)。

③ 根據(jù)定義7,判斷△Ci(i=k+1,k+2,…)中是否存在噪聲點(diǎn),若存在,生成△Oi(i=0,1,…);反之,生成新簇。

④ 對于其它的增量△vi(i=2,3,…,n),依次循環(huán)執(zhí)行②、③。

⑤ 結(jié)果輸出聚類簇△Ci(i=1,2,…,k)。

當(dāng)前強(qiáng)化信息化手段在農(nóng)村經(jīng)濟(jì)管理中的應(yīng)用,是農(nóng)村經(jīng)濟(jì)管理現(xiàn)狀的現(xiàn)實(shí)性要求,也是農(nóng)村經(jīng)濟(jì)大繁榮大發(fā)展的必然性選擇,更是農(nóng)村經(jīng)濟(jì)管理者提升自身管理能力和管理水平的工作創(chuàng)新。只有農(nóng)村經(jīng)濟(jì)管理者站在信息化時(shí)代視域推進(jìn)信息化手段與管理工作的高度融合,才能提高農(nóng)村經(jīng)濟(jì)管理工作的水平和效率,從而更好地引導(dǎo)廣大農(nóng)民發(fā)家致富。

2DICURDA算法MapReduce的實(shí)現(xiàn)

設(shè)初始數(shù)據(jù)集V(v1,v2,…,vn),增量數(shù)據(jù)集為△V(△v1,△v2,…,△vn),則ICURD算法MapReduce的實(shí)現(xiàn)如下:

① 將數(shù)據(jù)集V(v1,v2,…,vn)進(jìn)行分割,劃分為p(節(jié)點(diǎn)個(gè)數(shù))塊數(shù)據(jù)子集,并分配給p個(gè)子節(jié)點(diǎn)。

② 在各個(gè)子節(jié)點(diǎn)中,根據(jù)初始聚類過程計(jì)算出Ci(i=2,3,…,n)。

③ 在Reduce過程中,根據(jù)定義9,把Ci(i=2,3,…,n)中符合條件的簇進(jìn)行合并;并根據(jù)定義7判斷是否存在噪聲點(diǎn),若存在,則刪除。

④ 把各個(gè)簇內(nèi)各維坐標(biāo)值累加求均值,結(jié)果輸出Ci′(i = 2,3,…,n)。

⑥ 在各個(gè)節(jié)點(diǎn)中,根據(jù)增量的聚類過程計(jì)算出△Ci(i=1,2,…,k)。

⑦ 在Reduce過程中,根據(jù)定義9,把△Ci(i=1,2,…,k)中符合條件的簇進(jìn)行合并;并根據(jù)定義7判斷是否存在噪聲點(diǎn),若存在,則刪除。

⑧ 把各個(gè)簇內(nèi)各維坐標(biāo)值累計(jì)求均值,結(jié)果輸出。

3實(shí)驗(yàn)結(jié)果分析

3.1實(shí)驗(yàn)平臺、測試數(shù)據(jù)集和評價(jià)指標(biāo)

本文所有實(shí)驗(yàn)環(huán)境搭建的平臺的組成為:2臺2GHz Intel Xeon CPU、2 GB內(nèi)存和4臺2 GHz Intel Xeon CPU、1 GB內(nèi)存的PC構(gòu)成的。操作系統(tǒng)均為Ubuntu Linux 10.10,Hadoop版本選用1.1.2;Java開發(fā)包為JDK1.7版本,程序開發(fā)工具為Eclipse-standard-kepler-SR1-linux,算法使用Java實(shí)現(xiàn)。

實(shí)驗(yàn)數(shù)據(jù)集采用了UCI數(shù)據(jù)集下Synthetic_Control,分別構(gòu)造了原始數(shù)據(jù)集為0.5、1、2、4、8、16 GB與增量為0.1、0.2、0.3、0.4、0.5 GB的60維不同大小的數(shù)據(jù)集來驗(yàn)證算法的可擴(kuò)展性與時(shí)效性。為了驗(yàn)證算法的有效性,通過Iris數(shù)據(jù)集(數(shù)據(jù)對象150,屬性4),Wine(數(shù)據(jù)對象178,屬性13)數(shù)據(jù)集,Libras數(shù)據(jù)集(數(shù)據(jù)對象360,屬性90),Diabetes(數(shù)據(jù)對象768,屬性8)進(jìn)行了實(shí)驗(yàn),同時(shí)利用節(jié)點(diǎn)個(gè)數(shù)的不同驗(yàn)證了算法的可伸縮性。

在實(shí)驗(yàn)中,為了測試DICURDA算法的性能,本文采用了以下評價(jià)指標(biāo):時(shí)效性、可伸縮性和有效性。

3.2實(shí)驗(yàn)結(jié)果

3.2.1DICURDA算法的時(shí)效性

為了驗(yàn)證DICURDA算法在實(shí)際應(yīng)用中的效果,在實(shí)驗(yàn)中,根據(jù)已給定的上述數(shù)據(jù)集,設(shè)原始數(shù)據(jù)集V為:0.5、1、2、4、8、16 GB,則增量數(shù)據(jù)集為△V為(0.1、0.2、0.3、0.4、0.5GB;根據(jù)給定數(shù)據(jù)集中結(jié)果聚類的個(gè)數(shù),設(shè)R=42.25,T=10,D=42.23,則對增量△V利用DBSCAN與DICURDA算法進(jìn)行了比較,如圖4所示。

圖4 DBSCAN算法與DICURDA算法的時(shí)效性對比

從圖4可以看出,在獲得同樣正確的聚類個(gè)數(shù)的條件下,DICURDA算法比DICURDA算法的時(shí)效性高;其主要原因?yàn)椋?)DICURDA算法在進(jìn)行增量的聚類過程中已經(jīng)獲得了參考點(diǎn),節(jié)省計(jì)算每個(gè)點(diǎn)密度的時(shí)間;2)當(dāng)數(shù)據(jù)點(diǎn)不符合增量聚類過程時(shí),重新初始聚類過程的數(shù)據(jù)點(diǎn)是少量的。所以,DICURDA算法的時(shí)效性比DBSCAN算法較高。

3.2.2DICURDA算法的有效性

為了進(jìn)一步驗(yàn)證算法的有效性,文章根據(jù)不同的數(shù)據(jù)集,在已給定正確聚類個(gè)數(shù)的情況下,設(shè)不同類型的數(shù)據(jù)集作為是原始數(shù)據(jù)集與增量數(shù)據(jù)集;根據(jù)不同類型的數(shù)據(jù)集,設(shè)置了不同R、T與D不同的參數(shù)值進(jìn)行了實(shí)驗(yàn),具體如表1、表2所示。

表1 DBSCAN算法運(yùn)行結(jié)果

表2 DICURDA算法運(yùn)行結(jié)果

由表1與表2對比可知,DBSCAN算法參數(shù)設(shè)置比DICURDA算法的參數(shù)少,噪聲點(diǎn)的個(gè)數(shù)也相對于DICURDA算法比較少。然而,DICURDA算法的正確率比較高,運(yùn)行時(shí)間快;其主要原因?yàn)椋?)DICURDA算法參數(shù)設(shè)置降低了云計(jì)算過程中由于數(shù)據(jù)分片不均勻?qū)е路诸愬e(cuò)誤的概率;2)在云計(jì)算動態(tài)的增量聚類規(guī)約過程中,參數(shù)D提高聚類的效率與精度;3)DICURDA算法的初始過程為下面的動態(tài)聚類提供了參考點(diǎn),同時(shí)降低了增量聚類參數(shù)的敏感性。

3.2.3DICURDA算法的可伸縮性

為了更一步測試DICURDA算法的性能,算法采用原始數(shù)據(jù)集分別測試了不同節(jié)點(diǎn)下算法的運(yùn)行時(shí)間,進(jìn)一步驗(yàn)證了算法的可伸縮性,具體如圖5所示。

圖5 DICURDA算法的可伸縮性

從圖5可以發(fā)現(xiàn),算法的時(shí)效性不僅與數(shù)據(jù)集的大小有關(guān),而且還與實(shí)驗(yàn)平臺的數(shù)據(jù)節(jié)點(diǎn)密切系相關(guān)。當(dāng)數(shù)據(jù)節(jié)點(diǎn)較少時(shí),時(shí)效性呈現(xiàn)出線性變化的特點(diǎn);當(dāng)隨著數(shù)據(jù)節(jié)點(diǎn)的不斷增多,算法的執(zhí)行效率變化越快。同時(shí)證明,該算法適合于大數(shù)據(jù)的處理。

3.2.4聚類效果比較

DICURD算法的參數(shù)R、D與T與DBSCAN算法的參數(shù)R與T有著相似的特點(diǎn),并具有該算法的優(yōu)越性;并且DICURD算法雖然初始參數(shù)同樣難以確定。但是,對于DICURD算法來講,一旦初始參數(shù)決定在以后的增量聚類過程中,則降低了參數(shù)的敏感性。同時(shí)該算法是一個(gè)不斷的學(xué)習(xí)過程,對未知樣本的分析提高了精度,具有接近線性的時(shí)間復(fù)雜性,能夠動態(tài)地處理產(chǎn)生的新數(shù)據(jù),并保持了前后聚類結(jié)果的一致性。整體來講,DICURD算法優(yōu)于DBSCAN算法。

4結(jié)語

DICURDA算法是基于密度的一種算法。本文利用云計(jì)算平臺實(shí)現(xiàn)了DICURDA算法,無需保留原始數(shù)據(jù)就可以在增量過程中進(jìn)行數(shù)據(jù)挖掘,節(jié)省了時(shí)間。本文從時(shí)效性、有效性與可伸縮性等不同角度分析了該算法可行性。然而,由于在初始聚類過程中仍然需要輸入?yún)?shù),所以,對于參數(shù)的設(shè)定仍需要進(jìn)一步研究。

參考文獻(xiàn)

[1] 楊靜,高嘉偉,梁吉業(yè).基于數(shù)據(jù)場的改進(jìn)DBSCAN聚類算法[J].計(jì)算機(jī)科學(xué)與探索,2012,51(6):903-911.

[2] Loh W K,Moon Y S.Fast Density-Based Clustering Using Graphics Processing Units[J].Ieice Transactions on Information and Systems,2014,97(7):1349-1352.

[3] Wu Minghui,Zhang Hongxi,Jing Canghon.Cluster Algorithm Based on Edge Density Distance[J].Computer Science,2014,24(6),245-249.

[4] Li Hui Pi Dechang,Jiang Min.An incremen tal density clustering algorithm for cha otic time series[J].International Journal of Applied Mathematics and Statistics,2013,47(4):380-389.

[5] 孟靜,吳錫生.一種基于聚類和快速計(jì)算的異常數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程,2013(8):60-63,68.

[6] Singh Sumeet Awekar,Amit.Incremental shared nearest neighbor density-based clustering[C]//International Conference on Information and Knowledge Management,Proceedings.San Francisco,CA,United states.2013,31(2):1533-1536.

[7] Li Lingjuan,Xi Yang.Research on clustering algorithm and its parallelization strategy[C]//Proceedings-2011 International Conference on Computational and Information Sciences.Chengdu,Sichuan,China.2011,5(2):325-328.

[8] 郗洋.基于云計(jì)算的并行聚類算法研究[D].南京郵電大學(xué),2011.

[9] 虞倩倩.基于數(shù)據(jù)劃分的DBSCAN算法研究[D].江南大學(xué),2013.

[10] Xie YongHong,Ma Ya Hui,Zhou Fang.PDBSCAN:Parallel DBSCAN for Large-Scale Clustering Applications[J].Journal of Donghua University (English Edition),2012,7(4):76-79.

[11] Fu Xiufen,Hu Shanshan.Research of parallel DBSCAN clustering algorithm based on Map Reduce[J].International Journal of Database Theory and Application,2014,7(2):41-48.

[12] Dai BiRu,Lin IChang.Efficient map/reduce-based DBSCAN algorithm with optimized data partition[C]//Proceedings 2012 IEEE 5th International Conference on Cloud Computing,CLOUD 2012.Honolulu,HI,United states.2012,4(2):59-66.

[13] Kim Y,Shim K,Kim M S.DBCURE-MR:An efficient density-based clustering algorithm for large data using MapReduce[J].Information Systems,2014,12(4):15-35.

[14] He Y B,Tan H Y,Luo W M.MR-DBSCAN:a scalable MapReduce-based DBSCAN algorithm for heavily skewed data[J].Frontier Sof Computer Science,2014,32(8):83-89.

[15] Fu XiuFeng,Wang Yaguang.Research andapplication of DBSCAN algorithm based on Hadoop platform[J].Lecture Notes in Computer Science,2014,83(5):73-87.

[16] Goyal Navneet Goyal Poonam,Mohta Mayank P.A multi-purpose density based clustering framework[J].Communications in Computer and Information Science,2011,168(3):538-540.

RESEARCH ON DYNAMIC AND INCREMENTAL DENSITY ALGORITHM BASED ON CLOUD COMPUTING PLATFORM

Meng HaidongRen Jingpei

(School of Information Engineering,Inner Mongolia University of Science and Technology,Baotou 014010,Inner Mongolia,China)

AbstractFor the problem of traditional density clustering algorithm that it is highly time complex and is not suitable for processing dynamic data when processing massive data,we proposed a density algorithm which uses reference points and MapReduce model for dynamic and incremental clustering.The creativity of it relies on that the algorithm realises a clustering algorithm capable of processing massive dynamic data,it guarantees the consistency of incremental clustering and re-clustering results,and has the characteristic of scalability as well.Experimental results demonstrated that the algorithm decreased the sensitivity of the parameter,improved the clustering efficiency and resource utilisation of density algorithm,and was suitable for big data analysis.

KeywordsReference pointsIncremental clusteringMapReduceDynamic density algorithm

收稿日期:2014-12-11。內(nèi)蒙古自然科學(xué)基金項(xiàng)目(2012MS0611)。孟海東,教授,主研領(lǐng)域:數(shù)據(jù)挖掘技術(shù),礦業(yè)系統(tǒng)工程。任敬佩,碩士生。

中圖分類號TP311

文獻(xiàn)標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.004

猜你喜歡
定義
以愛之名,定義成長
活用定義巧解統(tǒng)計(jì)概率解答題
例談橢圓的定義及其應(yīng)用
題在書外 根在書中——圓錐曲線第三定義在教材和高考中的滲透
永遠(yuǎn)不要用“起點(diǎn)”定義自己
海峽姐妹(2020年9期)2021-01-04 01:35:44
嚴(yán)昊:不定義終點(diǎn) 一直在路上
定義“風(fēng)格”
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
有壹手——重新定義快修連鎖
修辭學(xué)的重大定義
主站蜘蛛池模板: 成人免费午夜视频| 国产精品无码AⅤ在线观看播放| 国产主播在线一区| 欧美视频二区| 国内熟女少妇一线天| 9cao视频精品| 无码中字出轨中文人妻中文中| 亚洲第一页在线观看| 亚洲国产精品无码久久一线| 亚洲欧洲日韩综合色天使| 尤物成AV人片在线观看| 亚洲人成成无码网WWW| 久久无码av三级| 国产电话自拍伊人| 91久久青青草原精品国产| 国产精品爽爽va在线无码观看| 女人18毛片一级毛片在线 | 国产性爱网站| 国产在线拍偷自揄观看视频网站| 男女性午夜福利网站| 找国产毛片看| 日韩A级毛片一区二区三区| 亚洲一区二区三区在线视频| 福利片91| 韩国v欧美v亚洲v日本v| 亚洲v日韩v欧美在线观看| 久久久久国产一区二区| 2019国产在线| 青青青草国产| 精品国产成人三级在线观看| 香蕉久久永久视频| 亚洲人在线| 男人天堂亚洲天堂| AV无码一区二区三区四区| 国产亚洲精久久久久久无码AV | 欧美特黄一级大黄录像| 日韩美毛片| 老汉色老汉首页a亚洲| 免费av一区二区三区在线| 亚欧美国产综合| 欧美一区二区精品久久久| 国产成人亚洲毛片| 免费一级α片在线观看| 超清无码一区二区三区| 人妖无码第一页| 久久福利网| 亚洲精品手机在线| 99久久这里只精品麻豆| 亚洲欧美色中文字幕| 欧美一区精品| yy6080理论大片一级久久| 另类综合视频| 国产一区二区三区在线观看免费| 国产精品福利尤物youwu | 成人字幕网视频在线观看| 中文字幕免费视频| 亚洲美女一区| 日韩第九页| 三上悠亚在线精品二区| 熟女日韩精品2区| 国模在线视频一区二区三区| 欧美中文字幕在线播放| 亚洲成人精品| 热这里只有精品国产热门精品| 国产粉嫩粉嫩的18在线播放91| 另类专区亚洲| 久久综合亚洲鲁鲁九月天| 亚洲日韩日本中文在线| 狠狠色香婷婷久久亚洲精品| 精品久久国产综合精麻豆| 国产精品一线天| 欧美亚洲香蕉| 一级全黄毛片| 国产青榴视频| 亚洲综合色吧| 亚洲精品福利网站| 天天色天天综合网| 77777亚洲午夜久久多人| 国产一级在线播放| 久久黄色视频影| 99热精品久久| 欧美影院久久|