999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于圖像去噪的多密度網格聚類算法

2016-03-02 08:47:00田宇羅辛
智能計算機與應用 2016年1期

田宇 羅辛

摘 要:針對傳統網格聚類算法僅能夠去除空網格的問題,提出一種基于圖像分割思想來剔除稀疏數據的多密度網格聚類算法。該算法對原始數據進行網格劃分和數據映射,計算網格密度,將每個網格看作圖像中的一個像素點,采用Otsu算法確定合適閾值,并給出了閾值應用于網格聚類算法時的閾值折合公式,完成稀疏單元的剔除。在聚類過程中考慮到網格單元內部特征,通過兩個網格的相對密度及邊界特征得到了相鄰網格的相似度度量公式,彌補了網格聚類算法無法應對多密度數據的缺點。在Matlab中進行仿真實驗,該算法在聚類之前對網格剔除率為69%,且不需要人工干預,而GAMD和SNN算法未剔除網格。當數據維度增加時,GAMD算法時間遠遠高于本算法。實驗證明,該算法具有較好的數據過濾效果,聚類結果與數據輸入順序無關,在得到任意簇的同時,保證了較高的時間效率且能夠廣泛應用于各種數據集。

關鍵詞:網格聚類;多密度;高維稀疏數據;Otsu;聚類算法

中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2163(2016)01-

【Abstract】Based on the situation that the traditional grid clustering algorithm is only capable of removing empty grid issues,the paper presents an image segmentation thought to weed out the sparse data of multi-density grid clustering algorithm. The algorithm of the original data and data mapping mesh, mesh density calculation, each grid as a picture of a pixel, using Otsu algorithm to determine the appropriate threshold, and gives a reduced threshold algorithm formula while the threshold applies to the grid clustering , and completes culling sparse unit. In the clustering process, taking into account the internal characteristics of grid cells, characterized by the relative density and the border of the two grids ,similarity measure formula of adjacent grid is achieved, which makes up for the shortcomings of grid clustering algorithm that the grid can not cope with multi-density data . Conducted in Matlab simulation, culling rate is 69% before the algorithm clustering grid, and does not require human intervention, and GAMD and SNN algorithm does not reject grid. When the data dimension increases, SNN algorithm time is much higher than the present algorithm. Experiments show that the algorithm has better filtering effect data, independent of the data input sequence clustering results, getting any cluster, while ensuring a high time efficiency, and can be widely applied to various data sets.

【Key words】 Grid Cluster; Multi-Density;High-dimensional Sparse Data;Otsu; Clustering

1 概述

聚類算法的目的是將一組未知類別的數據樣本進行劃分,以期找到隱藏在數據集中的潛在結構,并采用相似性度量方法,將具有相似性質的數據歸于同一類,不相似性質的數據盡可能的分開 [1,2,3]。隨著聚類算法不斷成熟,對聚類算法有了更加特殊的要求,除了能夠在多密度數據集條件下發現任意形狀的簇,聚類結果與數據輸入順序無關外,還要能夠應對高維度數據集的聚類要求。

目前,聚類算法主要有基于密度的方法,基于層次的方法[4],基于網格的方法[5,6],基于劃分的方法[7],以及基于模型的方法[8]。其中,基于密度的方法能夠較好地發現任意形狀的簇,但該方法需要計算每個點與其它點的距離,時間代價過高。此外,基于網格的聚類方法采用歸一化的密度處理,處理多密度數據的聚類能力欠佳,并且起始網格順序對其影響較大。

由于高維稀疏數據存在較多的噪聲信息,一般的聚類算法往往得不到準確的聚類結果。共享鄰近(Shared Nearest Neighbor,SNN)算法[9]很好地解決了針對不同密度和不同形狀簇的聚類問題,但SNN對于噪聲的處理效果欠佳,時間復雜度為O(N2) 。STING[10]聚類算法受網格結構的最底層的粒度制約,粒度過細處理代價會明顯增大,粒度過粗又會降低算法效率。李光興,楊燕等提出的GAMD算法[11]采用數據單元密度和網格質心反映單元內數據分布特征,首先統計網格的密度,再計算每個網格的質心,將這兩個量值與其相鄰網格對應結果的進行相似性對比,時間效率較高。但該算法沒有考慮高維數據的稀疏性,將大量的稀疏單元加入了兩兩比較的計算過程。而高維數據集的稀疏空間遠遠大于有效空間,這將導致極低的算法效率,無法應對大數據環境下的聚類要求。

為了解決稀疏單元對聚類算法的影響,采用圖像分割思想剔除噪聲。在圖像處理領域,學者們采用圖像分割算法將前景與背景分開,這與聚類算法尋找簇的目標一致。采用圖像分割思想,將簇看作前景,稀疏數據看作背景,對聚類中的稀疏數據進行過濾,以減少聚類過程中的數據量,提高算法效率。

2 MACD算法思想

本文提出了一種基于圖像去噪的多密度網格聚類算法(A multi mesh density clustering algorithm based on image denoising,簡稱MDCA算法)。對高維空間進行網格劃分,統計網格密度,通過最大類間方差算法[12-13](大津算法Otsu),過濾稀疏單元,再進行聚類過程。同時在聚類過程中充分考慮到網格內部特征,提出了用于度量相鄰網格相似度的相似性函數。

2.1 大津算法

Otsu是于1987年提出的一種對圖像進行有效分割的算法,因其分割效果好,適用范圍廣泛,簡單有效。該算法思想是:以圖像的灰度等級作為依據,將圖像分成目標和背景兩部分。圖像的目標和背景的差別越大,則目標和背景之間的類間方差越大。若將部分背景錯分為目標或將部分目標錯分為背景都會導致兩部分差別變小[14]。因此,錯分概率最小時所得到的類間方差即為最理想的分割。

3 MDCA算法描述

MDCA算法由數據過濾、聚類兩個過程組成。在閾值選擇階段,通過Otsu算法選取合適閾值,在聚類過程中采用相似性函數尋找相似單元。

3.1 MDCA算法步驟

算法MDCA

輸入:n維空間上共N個數據點,相似閾值ζ

輸出:聚類結果集合

(1) 劃分網格。將數據的每一維空間以 的大小劃分為r個等長且無重合的單元,從而得到了一個有rn個單元的網格空間S。

(2) 將全部數據點映射到網格空間S,計算每個網格的密度并標記為j,j∈[0, rn]。

(3) 根據Otsu算法計算噪聲過濾閾值 ,將密度低于 的所有單元剔除。

(4) 在j中隨機選擇一個單元作為起始單元,選擇其相鄰單元,根據相似度函數和相似閾值ζ,度量其歸屬關系,若相鄰網格與起始單元屬于同一個簇,則以相鄰單元為基礎,尋找其相似網格;若相鄰網格與起始單元不屬于同一個簇,則標記為待處理單元。如此反復,直到無相鄰相似單元為止。

(5) 從剩余的未標記的單元中隨機選取一個單元作為新的起始單元,并重復步驟(4),直到無剩余的未標記單元為止。

(6) 確定待處理單元的數據歸屬。

(7) 將相似單元的數據進行提取合并,輸出聚類結果。

相似閾值ζ表示的是兩個相鄰單元的相似程度,ζ越大兩個單元的相似性越高,與全局數據無關。且相似性函數符合對稱原則,與輸入順序無關。

4 實驗評估

算法驗證實驗在win7操作系統下進行,采用MATLAB編程實現。MDCA網格劃分大小為 四舍五入后的整數。

4.1 算法有效性評估

二維數據集采用MATLAB人工合成,原始數據總數:2 717個。為了保證算法可以應對非球狀簇,數據集主要由“Clustering”與隨機生成的噪聲構成,噪聲數據點為:728個,如圖1所示。

比較維數高低與時間的關系時,將數據總量固定為2000個,維數從2維增加到10維。MDCA算法與GAMD算法,SNN算法的時間效率的比較如圖1所示。雖然MDCA算法與GAMD算法均為線性,但是當維度增加時兩者的差不斷增大,MDCA算法有比GAMD算法更好的效率,其執行時間與維數大小關系如表4-1所示:

5 結束語

評估噪聲數量與MDCA算法和GAMD算法時間效率的關系實驗中,保持目標數據量不變,其占據的網格單元傳統的網格聚類算法在應對稀疏數據時,算法效率較低。而本文提出的MDCA算法采用圖像分割思想,閾值折合公式能有效剔除稀疏單元。同時,由于MDCA算法在聚類過程中考慮到網格的內部特征,提出的相似性函數能有效識別相似網格。實驗證明,該算法對噪聲過濾效果好,執行效率高,可以較好地識別不同形狀的簇,聚類結果與數據輸入順序無關。而本文中網格劃分的大小采用統一的劃分策略,進一步的研究方向為網格劃分的大小由網格數據密度決定,全局采用多個劃分標準,網格粒度與數據密度相關聯。

參考文獻

[1] JAIN A K. Data clustering: 50 years beyond K-means[J]. Pattern Recognition Letters, 2010,31(8):651?666.

[2] SUN J G, LIU J, ZHAO L Y. Clustering algorithms research[J]. Journal of Software, 2008,19(1):48?61 .

[3] ZHU L, LEI J S, BI Z Q, et al. Soft subspace clustering algorithm for streaming data[J]. Journal of Software, 2013,24(11):2610-2627 .

[4] ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proceedings of 2nd International conference on Knowledge Discovery and Data-mining(KDD 1996). Portland, Oregen:AAAI Press, 1996, 96(34): 226-231.

[5] WANG Wei,YANG Jiong, MUNTZ R R. STING:A statistical information grid approach to spatial data mining[C]// VLDB97 Proceedings of the 23rd Internationgal Conference on Very Large Databases.San Francisco, CA, USA:Mogan Kaufmann Publishers, 1997:186-195.

[6] AFRAWAL R,GEHRKE J,GUNOPULOS D,et al.Automatic subspace clustering of high dimensional data for data mining applications[J]. Data Mining& Knowledge Discovery, 1999,27(2):94-105.

[7] KAUFMAN L,ROUSSEEUW P J. Finding Groups in Data:An Intro duction to Cluster Analysis[M].New York:John Wiley & Sons,1990.

[8] FISHER D.Improving inference through conceptual clustering[C]// AAAI87 Proceeding of the sixth National Conference on Artificial intelligence. Seattle,WA:AAAI Press, 1987,2:461-465.

[9] ERT?Z L, STEINBACH M, KUMAR V. Finding clusters of different sizes, shapes, and densities in noisy, high dimensional data[C]//Siam International Conference on Data Mining. San Francisco,CA, USA:DBLP, 2003: 47-58.

[10] YIN G, YU X, NING H. Incremental clustering algorithm based on grid [J]. Application Research of Computers, 2009,26(6): 2038-2040.

[11] LI G X, YANG Y. Multi-density clustering algorithm based on grid adjacency Relation[C]//Pattern Recognition (CCPR), 2010 Chinese Conference on. Chongqing: IEEE, 2010: 1-5.

[12] OTSU N. A threshold selection method from gray-level histograms[J]. Automatica, 1975, 11(285-296): 23-27.

[13] WU chengmao. Regularization Otsu s thresholding method based on Posterior Probability Entropy[J]. Acta Electronica Sinica, 2013, 41(12): 2474-2478.

[14] YANG M, WANG W X. Rock discontinuity spacing measurement based on image technique[J]. Journal of Computer Applications, 2010, S1:146-147,158.

主站蜘蛛池模板: 992Tv视频国产精品| 欧美特黄一免在线观看| 2020国产精品视频| 九九久久精品免费观看| 日韩视频精品在线| 国产福利观看| 国产精品.com| 不卡的在线视频免费观看| 国产伦精品一区二区三区视频优播 | 国产精品短篇二区| 国产精品林美惠子在线观看| 亚洲一区二区日韩欧美gif| 亚洲av无码成人专区| 日本一本在线视频| 久久综合久久鬼| 日韩精品无码免费一区二区三区| 国产成人a在线观看视频| 久久精品无码一区二区日韩免费| 亚洲IV视频免费在线光看| 制服丝袜 91视频| 中文无码精品A∨在线观看不卡| 91美女视频在线观看| 啦啦啦网站在线观看a毛片| 国产成人免费视频精品一区二区| 成人字幕网视频在线观看| 亚洲香蕉在线| 在线永久免费观看的毛片| 欧美色综合网站| 婷婷色狠狠干| 午夜啪啪福利| 91亚洲影院| 国产成人91精品免费网址在线| 视频一区亚洲| 国产理论精品| 狼友视频国产精品首页| 国产欧美在线观看视频| 欧洲成人免费视频| 成人福利在线视频免费观看| a天堂视频| 伊人色天堂| 91在线激情在线观看| 国产免费黄| v天堂中文在线| 免费人成黄页在线观看国产| av手机版在线播放| 青草视频在线观看国产| 国产亚洲精久久久久久久91| 91年精品国产福利线观看久久 | 中文字幕乱码中文乱码51精品| 日韩欧美中文字幕在线韩免费| 青青热久麻豆精品视频在线观看| 综合五月天网| 岛国精品一区免费视频在线观看 | 国产白浆视频| 亚洲国产日韩在线成人蜜芽| 国产成人免费| 国内精品久久久久久久久久影视 | 日韩av手机在线| 色噜噜中文网| 欧美一区二区啪啪| 久久96热在精品国产高清| 欧美一级色视频| 人妻21p大胆| 制服无码网站| 99在线观看精品视频| 国产精品精品视频| a毛片在线| 国产精品亚洲日韩AⅤ在线观看| 久久久久人妻一区精品| 91免费观看视频| 久爱午夜精品免费视频| 国产成人永久免费视频| 91精品国产一区自在线拍| 亚洲国产无码有码| www亚洲天堂| 免费观看精品视频999| 蜜桃臀无码内射一区二区三区 | 伊人欧美在线| 久精品色妇丰满人妻| 试看120秒男女啪啪免费| h网址在线观看| 58av国产精品|