999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不確定數據聚類算法研究

2013-01-01 00:00:00張亞昕
計算技術與自動化 2013年2期

摘要:UK均值算法需要計算每個對象之間的期望距離(EDS)和聚類中心, EDS計算的成本就成了UK均值計算的性能瓶頸。為了提高UK均值的計算效率,本文提出一種優化的UK均值算法,通過一個高效的公式來估計期望距離,大大降低了UK均值的額外時間,并在實驗中得以證明。我們還說明這個優化公式有效地將UK均值算法降低到了傳統的基于K均值的聚類算法。

關鍵詞:不確定數據; 聚類; 期望距離;UK均值算法

中圖分類號:TP301.6 文獻標識碼:A

1引言不確定性數據是近年來在傳感器網絡、無線射頻識別、數據集成、Internet應用等領域中涌現出來的一類新數據,其特點是每個數據對象不是單個數據點,而是按照概率在多個數據點上出現[1]。不確定數據的研究一般可以分為兩類:一類是存在不確定性研究,關系數據庫中的數據元組存在與否具有一定的概率,這種概率性同時又會影響其他數據元組的存在,這種“概率數據庫模式”已經被應用于半結構化數據和XML中。另一類是值不確定性研究,針對元組數目和模型己經被確定的前提下,屬性值中存在的誤差所造成的不確定信息常通過概率密度函數PDF或其他統計量(如方差、協方差等)表示。在不確定數據挖掘研究領域多考慮基

于PDF建模的不確定性數據[2]。本文研究的是基于值的不確定性。

關于不確定數據聚類,Michael Chau等人[3]首先提出了一種基于kmeans算法的不確定聚類算法,即ukmeans算法。該算法主要的計算時間是EDS的估計,它包括大量樣本點的集成,當數據集較大時,其計算代價是相當高的。為了提高UK均值算法的效率,提出了一些避免很多期望距離ED計算的修剪技術。這項修剪技術利用包圍盒以及三角不等式建立ED的上界和下界[4-6]。使用這些范圍,一些候選對象的集群作業被淘汰,因此相應的ED計算也可以避免。但這些技術并沒有減少每次ED的計算時間。此外,修剪效果不能保證,因為它取決于數據的分布情況[7-9]。在本文中,我們的目標不是使用修剪技術來提高UK算法的性能,而是推導出一個簡單的公式用于ED的計算,目的是減少計算成本會,進一步提高不確定聚類算法的效率。思想來源于剛體運動的轉動慣量的簡化計算方法。

2相關知識

2.1平行軸定理

4.2實驗設計

我們分別用真實數據和模擬數據進行實驗。真實數據來自網絡入侵檢測數據集。該數據集中每個連接記錄包含了42個固定的屬性和1個類標識。屬性包括一個TCP連接的日志記錄,含持續時間、傳輸字節數等。標識類型表明每條記錄對應于一個正常的連接或者是 4 種類型的網絡攻擊之一,例如信息收集型攻擊、利用型攻擊等。試驗中選擇42個屬性中的28個數值型屬性。

許多數據集都是根據n和k的不同產生的。用這種方法產生的每個數據集當做UK均值和CK均值的數據集。測量每種方法所消耗的CPU時間。兩種算法的/o時間相差無幾,并且在數值上都很小,可不予考慮。

4.3實驗結果和分析

4.3.1對象數量的影響

第一組的實驗數據具有不同數目的不確定對象n和相同數目的聚類k=20。 圖中曲線顯示了兩種算法所消耗的CPU時間。實驗結果如圖1。

結果表明,CK算法比UK算法快57-375倍。n值越大,速度越快。由于省略了ED的計算時間,所以CK均值很顯然會降低計算成本。實際上,CK均值的大部分計算時間花在預先計算質心上,它包括用每個對象的樣本點來估計公式(6)中的積分。一旦質心計算出來了,CK均值將需要很少的額外時間來聚類。同時發現,跟UK均值所消耗的時間相比,質心的計算時間相對較少。當n=50的時候,需花費 1.7%的時間。當n增大的時候這個百分比下降,因為質心的計算只有一次,然后在所有的迭代中重復使用。當n=1000時,百分比下降到了0.24%。迭代次數增加n,每個對象的質心計算成本就下降n。

4.3.2聚類數目的影響

我們固定對象數量n=1000,讓聚類數量k變化。實驗結果如圖2。CK均值比UK均值快19.9-796倍。每次質心的計算大概都是0.45s。這是因為對象的數目是固定的,因此,其質心計算的次數不變。總的趨勢是當k增大的時候,所需的迭代的次數也增加,CK節省的時間也增加,因為質心計算的每次迭代時間都降低。

4.3.3樣本數量的影響

研究的樣本數量的影響,其中保持n=1000,k=20,s從1000到5000不等,我們在這組實驗中采用的是二維數據。結果如圖3。

從圖中我們可以看到當s增加的時候,UK和CK的花費時間都會增加,這是因為s越大,估計等式(3)中的積分就需要更多的時間。由于UK需要大量的ED計算,所以s越大時間就會越長。對于CK均值算法, s影響到的唯一的步驟就是等式(6)中質心的計算。每個對象的樣本點越多,質心計算的代價就越大。圖中質心計算的曲線可以證明這一點。CK均值算法仍然是比UK均值算法性能好。速度是UK算法的306-527倍。

5結論

本文研究了m維歐幾里得空間中的不確定數據聚類問題。得出一個簡單的有效地預計期望距離的公式。這個公式被應用到UK均值算法并且得到證實可以減少95%的計算時間,這相當于至少提高速度20倍。在只知道m維空間中n個對象的概率信息的情況下做聚類的問題已經成功的簡化為聚類n個點的問題。這n個點是n個對象的質心或者是期望位置。今后,我們可以同樣使用期望距離作為ED的情況下將這些結果推廣到非歐式范式。

參考文獻

[1]汪金苗, 張龍波, 鄧齊志, 等. 不確定數據頻繁項集挖掘方法綜述[J].計算機工程與應用,2011,47(20):121-125.

[2]C.C.Aggarwal,P.S.Yu.Asurvey of uneertain data algorithms and applieations[R],IBM Researeh Report RC24394,2007.

[3]MICHAEL C,REYNOLD C,BEN K,et al.Uncertain data mining:an example in clustering location data[C]//Pro-ceeding of the 10th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2006).Berlin:Springer Verlag,2006:199-204.

[4]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008,19(1):48-61.

[5]X.J.Zhu.Semi-supervised learning literature survey [R].Teehnieal Report, Madison: DePartment of ComPuter Seienees, University of Wiseonsin, 2005:4-6.

[6]CHAU M,CHENG R,KAO B.Uncertain data mining:a new research direction[C]//Proceeding Workshop on the Sciences of the Artificial.Washington DC:IEEE Computer Society,2005:199-204.

[7]LEE S D,KAO B,CHENG R.Reducing uk-means toKmeans[C]//The 1st Workshop on Data Mining of Uncertain Data (DUNE),in conjunction with ICDM.Trenton,NJ:IEEE Press,2007:483-488

[8]P.Zou,Z.Zhou,G.L.Chen,etal.Approximate一baekbone guided fast ant algorithlns to QAP [J]. Journal of Software,2005,16(10):1691-1698.

[9]C.C. Aggarwal. On unifying privacy and uncertain data models[C]. Proc. of the 24thIEEE Internationa lConfereneeon Data Engineering,2008.

主站蜘蛛池模板: 国产无码在线调教| 又猛又黄又爽无遮挡的视频网站| 国产亚洲精品无码专| 手机精品福利在线观看| 人妻丝袜无码视频| 91在线日韩在线播放| 国产自在线播放| 操操操综合网| a级毛片免费网站| 亚洲毛片一级带毛片基地| 国产二级毛片| 伦伦影院精品一区| 热99精品视频| 2020久久国产综合精品swag| 久久久黄色片| 国产黄色视频综合| 亚洲天堂高清| 国产精品自拍合集| 91无码视频在线观看| 欧美va亚洲va香蕉在线| 国产成人综合网| 亚洲欧美日本国产综合在线| 亚洲中文精品久久久久久不卡| 亚洲第一区在线| 色窝窝免费一区二区三区| 国产99精品久久| 欧美综合区自拍亚洲综合天堂| 国产欧美日韩在线在线不卡视频| 97人人模人人爽人人喊小说| 亚洲精品国产首次亮相| 国产综合网站| 好吊日免费视频| 女高中生自慰污污网站| 精品人妻AV区| 欧美日韩在线第一页| 久久9966精品国产免费| 日本91在线| 亚洲国产精品不卡在线| 日本91在线| 久久精品国产电影| 97se亚洲综合不卡| 91精品国产一区自在线拍| 国产成人麻豆精品| 成人韩免费网站| 国产在线视频二区| 欧美日韩中文字幕二区三区| 亚洲男人的天堂久久精品| 亚洲综合婷婷激情| 亚洲天堂视频在线观看免费| 国产剧情国内精品原创| 2024av在线无码中文最新| 亚洲天堂网在线视频| 人妻21p大胆| 久久国产毛片| 亚洲 欧美 中文 AⅤ在线视频| 一级毛片在线播放| 亚洲综合第一页| 久久精品91麻豆| 欧美特黄一级大黄录像| 国内精品视频| 国产人人乐人人爱| 国产91视频免费| 国产精品所毛片视频| 国产在线自乱拍播放| 久综合日韩| 99热国产这里只有精品9九| 国产精品亚洲va在线观看| 欧美午夜性视频| 国产91精品久久| a在线观看免费| 四虎永久免费地址在线网站| 欧美成人手机在线观看网址| www亚洲精品| 亚洲天堂网2014| 久久综合结合久久狠狠狠97色| 91国内视频在线观看| 久久夜色撩人精品国产| av尤物免费在线观看| 成人国产精品一级毛片天堂| 久久久久国产一区二区| 国产尤物视频网址导航| 久久精品亚洲专区|