面向地學(xué)應(yīng)用的不確定數(shù)據(jù)聚類算法比較研究

2015-02-10 02:25:58蔡建南，鄧敏，劉啟亮，唐建波，黃金彩

地理與地理信息科學(xué) 2015年6期

關(guān)鍵詞：質(zhì)量

蔡建南，鄧敏，劉啟亮，唐建波，黃金彩

（中南大學(xué)地理信息系，湖南長沙 410083）

0 引言

在實(shí)際應(yīng)用中，由于測量精度、地理現(xiàn)象本身的隨機(jī)性、隱私保護(hù)等因素，實(shí)際獲取的空間數(shù)據(jù)經(jīng)常包含明顯的不確定性。例如：在傳感器網(wǎng)絡(luò)中，由于受到外界噪聲或者無線傳輸誤差等影響，使得輸出數(shù)據(jù)具有不確定性［1］；在氣候監(jiān)測領(lǐng)域，一個(gè)氣象站點(diǎn)監(jiān)測的多種氣候指標(biāo)（如降水、氣溫、氣壓、濕度、風(fēng)力、風(fēng)向等）隨時(shí)間不斷變化，因而監(jiān)測站點(diǎn)的氣候條件亦具有不確定性［2］；為了保護(hù)隱私，許多隱私保護(hù)的技術(shù)使用概率攝動(dòng)的方法來降低原始數(shù)據(jù)的保真度［3］。為了更好地對不確定性數(shù)據(jù)進(jìn)行分析，在數(shù)據(jù)分析過程中一個(gè)數(shù)據(jù)對象不再是空間內(nèi)的一個(gè)確定點(diǎn)，而通常被建模為一個(gè)由一系列采樣點(diǎn)構(gòu)成的不確定區(qū)域，在這個(gè)不確定區(qū)域內(nèi)定義的概率密度函數(shù)用于描述對象落在每個(gè)確定位置上的概率［4］。空間數(shù)據(jù)的不確定性對空間數(shù)據(jù)挖掘的影響亦不可忽視，作為空間數(shù)據(jù)挖掘的一項(xiàng)主要任務(wù)，近年來不確定數(shù)據(jù)聚類分析在地學(xué)領(lǐng)域的應(yīng)用已經(jīng)引起國內(nèi)外學(xué)者的廣泛關(guān)注，旨在聚類分析過程中建?？臻g數(shù)據(jù)的不確定性，進(jìn)而獲取更加可靠的聚類結(jié)果［5，6］。在地學(xué)應(yīng)用領(lǐng)域，很多情況下不確定數(shù)據(jù)在幾何空間上具有一定的重疊，而概率分布差異顯著。例如：不同氣溫帶的氣溫波動(dòng)范圍多是重疊的，但是其氣溫的概率分布卻通常是存在差異的，該特征是區(qū)分不同氣溫帶的重要因素。目前，國內(nèi)外學(xué)者雖然已經(jīng)針對不確定數(shù)據(jù)聚類分析進(jìn)行了初步的研究，相繼提出了一系列的不確定數(shù)據(jù)聚類算法，但是這些算法在地學(xué)應(yīng)用中的有效性尚缺乏客觀的分析與比較。為此，本文首先對當(dāng)前不確定聚類方法進(jìn)行分析和歸納；進(jìn)而，采用40組模擬數(shù)據(jù)和亞洲氣候數(shù)據(jù)集對6種代表性算法進(jìn)行實(shí)驗(yàn)對比分析，并對各算法的聚類質(zhì)量進(jìn)行定量度量，給實(shí)際應(yīng)用提供指導(dǎo)。

1 不確定數(shù)據(jù)聚類算法

不確定數(shù)據(jù)聚類常與模糊聚類混淆［7］，二者與傳統(tǒng)聚類分析的區(qū)別與聯(lián)系如表1所示。傳統(tǒng)聚類分析的研究對象是用單個(gè)特征向量表達(dá)的確定點(diǎn)，且每個(gè)確定點(diǎn)歸屬于一個(gè)確定的簇。模糊聚類分析的研究對象也是確定點(diǎn)，但是每個(gè)確定點(diǎn)以不同隸屬度歸屬于多個(gè)簇，因此最后得到的數(shù)據(jù)集劃分結(jié)構(gòu)是模糊的。不確定數(shù)據(jù)聚類的研究對象是不確定對象，但是每個(gè)不確定對象歸屬于一個(gè)確定的簇。

傳統(tǒng)的聚類方法可以大致分為：基于劃分的算法、基于層次的算法、基于密度的算法、基于圖論的算法、基于格網(wǎng)的算法、基于模型的算法和混合的算法［8］?，F(xiàn)有不確定數(shù)據(jù)聚類分析算法多是在基于劃分和基于密度的聚類算法的基礎(chǔ)上，通過發(fā)展不確定對象間的相似性度量方式進(jìn)行的擴(kuò)展?，F(xiàn)有研究中不確定對象間的相似性度量的方法主要有3種：1）基于期望距離的方法；2）基于模糊距離函數(shù)的方法；3）基于相對熵的方法。下面本文將針對不確定數(shù)據(jù)聚類分析中的代表性算法進(jìn)行回顧。

1.1 基于劃分的算法

基于劃分的算法是一類應(yīng)用最廣泛的聚類算法，其核心思想是將包含n個(gè)實(shí)體的數(shù)據(jù)庫，通過不斷優(yōu)化目標(biāo)劃分準(zhǔn)則，直到數(shù)據(jù)集被劃分為所給定的k個(gè)劃分，其中每個(gè)劃分即為一個(gè)簇。代表性的算法有 K-means算法［9］和 K-medoids算法［10］等。

Chau等［11］基于 K-means算法提出 UK-means算法，用于挖掘位置不確定移動(dòng)對象的聚集模式。UK-means算法與K-means算法的聚類過程完全相同，不同之處在于簇中心和距離的計(jì)算：K-means算法中，簇中心是簇中所有確定點(diǎn)的期望值，而UK－means算法中是計(jì)算簇中所有不確定對象的期望得到的確定點(diǎn)；K-means算法中，對象到簇中心的距離是兩個(gè)確定點(diǎn)之間的距離，而UK-means算法中是對象不確定區(qū)域內(nèi)所有點(diǎn)到簇中心距離的期望，稱為期望距離。

為了提高UK-means算法的計(jì)算效率，一系列UK-means的改進(jìn)算法相繼被提出。Ngai等［12］基于期望距離的上下界提出了多種剪枝策略，避免了很多不必要的期望距離的計(jì)算。Lee等［13］利用平行軸原理證明了UK-means算法等同于對每個(gè)不確定對象的中心進(jìn)行K-means聚類，從而避免了計(jì)算各個(gè)不確定對象到簇中心的期望距離。Kao等［14］利用Voronoi圖和R樹給出了UK-means的另一個(gè)剪枝版本，進(jìn)一步提高了期望距離的剪枝效率。

Jiang等［2］采用相對熵（或 KL散度，Kullback-Leibler divergence）作為不確定對象間相似性的度量函數(shù)。KL散度雖然不滿足嚴(yán)格的距離概念（如不滿足對稱性與三角不等式），但是其可以在一定程度上顧及兩個(gè)不確定對象的概率分布相似性。進(jìn)而，基于K-medoids算法提出了K-Medoids-KL算法及近似的RK-Medoids-KL算法。為了進(jìn)一步適應(yīng)海量數(shù)據(jù)的聚類分析，Jiang等利用快速高斯變換算法提高 K-Medoids-KL和 RK-Medoids-KL算法的效率，然而其聚類精度有所降低。

1.2 基于密度的算法

基于密度的方法將簇視為一系列被低密度區(qū)域分割的高密度對象所構(gòu)成的區(qū)域［6］。代表性的算法有 DBSCAN 算法［15］和 OPTICS算法［16］等。

Kriegel等［4］通過計(jì)算兩個(gè)不確定對象間距離的概率密度分布函數(shù)定義了模糊距離函數(shù)度量指標(biāo)，用來表達(dá)兩個(gè)不確定對象間的相似性，進(jìn)而在DBSCAN算法的基礎(chǔ)上提出了FDBSCAN算法，用于探測飛機(jī)零部件CAD建模數(shù)據(jù)中的聚集結(jié)構(gòu)。FDBSCAN對DBSCAN算法中核對象以及直接密度可達(dá)的定義進(jìn)行了擴(kuò)展，提出了核對象概率和可達(dá)概率的概念，分別反映一個(gè)對象能夠成為核對象的概率及一個(gè)對象從另一個(gè)對象直接密度可達(dá)的概率。實(shí)際應(yīng)用中，F(xiàn)DBSCAN根據(jù)每個(gè)不確定對象的樣本數(shù)據(jù)計(jì)算核對象概率及可達(dá)概率。FDBSCAN算法與DBSCAN算法的聚類過程十分相似，不同之處在于DBSCAN算法是將從當(dāng)前查詢對象直接密度可達(dá)的對象加入到當(dāng)前簇，而FDBSCAN算法則是將從當(dāng)前查詢對象可達(dá)概率大于0.5的對象加入到當(dāng)前簇。Kriegel等［17］采用相同的相似性度量方式，進(jìn)一步對OPTICS算法進(jìn)行改進(jìn)，僅從理論上分析了FOPTICS算法的實(shí)現(xiàn)過程與特點(diǎn)。與K-Medoids-KL和 RK-Medoids-KL算法類似，Jiang等［2］采用相對熵作為不確定對象間相似性度量方式，對DBSCAN進(jìn)行擴(kuò)展，得到了一種基于相對熵的不確定數(shù)據(jù)聚類算法DBSCAN-KL。

進(jìn)一步，從所基于的原型算法、相似性度量方式及適用性場景3個(gè)方面對當(dāng)前不確定數(shù)據(jù)聚類分析算法進(jìn)行系統(tǒng)的總結(jié)與對比，如表2所示。

2 實(shí)驗(yàn)分析與應(yīng)用

本文的對比試驗(yàn)選取了6種代表性的算法，UK-means（UK）、FOPTICS（FOP）、K-Medoids-KL（KM-KL）、RK-Medoids-KL（RKM-KL）、DBSCAN-KL（DB-KL）和 OPTICS-KL（OP-KL）算法。由于FDBSCAN算法和FOPTICS算法都是用模糊距離函數(shù)度量對象間的相似性，而OPTICS算法與DBSCAN算法相比可以發(fā)現(xiàn)不同密度的簇［16］，因此本文只選擇了FOPTICS算法進(jìn)行實(shí)驗(yàn)分析。本文將KL散度結(jié)合到OPTICS算法中進(jìn)一步發(fā)展了基于概率分布相似性的不確定數(shù)據(jù)密度聚類算法OPTICS-KL，其拓展方法與DBSCAN-KL類似，故不做詳細(xì)介紹。本文不對算法的效率進(jìn)行測試，因此一些針對上述方法的效率改進(jìn)方法不進(jìn)行比較。通過選擇上述6種算法進(jìn)行實(shí)驗(yàn)分析，一方面可以分析同一原型方法、不同相似性度量方法的表現(xiàn)差異，另一方面可以分析相同相似性度量方法、不同原型算法的表現(xiàn)差異，故能夠較為全面地對當(dāng)前方法的表現(xiàn)進(jìn)行分析。

分別用模擬數(shù)據(jù)和2008年亞洲氣候數(shù)據(jù)對上述6種代表性算法進(jìn)行實(shí)驗(yàn)分析和比較。模擬數(shù)據(jù)為40組具有預(yù)設(shè)劃分結(jié)構(gòu)的數(shù)據(jù)，其在幾何空間上高度重合，但各個(gè)不確定對象的采樣點(diǎn)服從不同的概率分布。實(shí)際數(shù)據(jù)是根據(jù)K?ppen-Geiger氣候分類結(jié)果［18］對各測站的氣候類型進(jìn)行標(biāo)記，近似地作為數(shù)據(jù)集中預(yù)知的劃分結(jié)構(gòu)。由于模擬數(shù)據(jù)集和亞洲氣候數(shù)據(jù)集中的劃分結(jié)構(gòu)預(yù)先已知，因此實(shí)驗(yàn)采用外部評價(jià)方法評價(jià)聚類的有效性。如果兩個(gè)對象屬于同一個(gè)簇，則稱它們?yōu)橐粚Γo出以下定義：

TP：正確肯定，兩個(gè)對象在G中是一對，在C中也是一對；

FP：錯(cuò)誤肯定，兩個(gè)對象在C中是一對，在G中不是一對；

FN：錯(cuò)誤否定，兩個(gè)對象在G中是一對，在C中不是一對。

其中：G表示預(yù)先設(shè)定的劃分結(jié)構(gòu)，C表示聚類算法得到的結(jié)果?；谝陨隙x，本文采用準(zhǔn)確率（precision）和召回率（recall）作為聚類質(zhì)量的評價(jià)指標(biāo)，其中，準(zhǔn)確率表示聚類結(jié)果中正確聚類的比例；召回率表示預(yù)設(shè)聚類結(jié)構(gòu)被發(fā)現(xiàn)的比例。具體定義如下：

2.1 模擬實(shí)驗(yàn)對比分析

為了模擬幾何中心上有重疊的數(shù)據(jù)，實(shí)驗(yàn)中將每個(gè)對象的不確定范圍都限制在區(qū)間［0，1］d內(nèi)，然后通過一個(gè)連續(xù)分布產(chǎn)生一組隨機(jī)數(shù)作為連續(xù)域內(nèi)一個(gè)不確定對象的采樣點(diǎn)。預(yù)設(shè)在同一個(gè)簇中的不確定對象的采樣點(diǎn)由同一個(gè)概率分布產(chǎn)生，包括3種不同類型的概率分布：均勻分布、高斯分布、逆高斯分布。模擬具有k個(gè)簇的數(shù)據(jù)集時(shí)，將需要模擬k個(gè)不同的概率密度函數(shù)，其中有1個(gè)均勻分布、（k－1）／2個(gè)不同方差的高斯分布，以及（k－1）／2個(gè)不同方差的逆高斯分布。為了讓隨機(jī)數(shù)都落在區(qū)間［0，1］d內(nèi)，采樣點(diǎn)的平均值都設(shè)置為0.5，高斯分布和逆高斯分布的標(biāo)準(zhǔn)差設(shè)置為相同的較小值，具體取值如表3所示，使得隨機(jī)數(shù)落在區(qū)間外的幾率非常小，如果落在區(qū)間外，將重新產(chǎn)生隨機(jī)數(shù)。進(jìn)而，對連續(xù)域內(nèi)的模擬數(shù)據(jù)進(jìn)行離散化，如圖1所示，對各維空間進(jìn)行四等分，用方格的中心值表示落在同一個(gè)方格中的隨機(jī)數(shù)，得到相應(yīng)離散域內(nèi)的模擬數(shù)據(jù)。模擬實(shí)驗(yàn)中一共考慮了4個(gè)主要因素：數(shù)據(jù)的維數(shù)d，對象個(gè)數(shù)n，樣本大小s和簇的個(gè)數(shù)k，對這4個(gè)參數(shù)設(shè)置不同的值，一共產(chǎn)生了40組模擬數(shù)據(jù)集，進(jìn)行了8組對比實(shí)驗(yàn)，各參數(shù)的取值如表4所示。

連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖2和圖3所示；離散域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖4和圖5所示。評價(jià)聚類質(zhì)量時(shí)在考慮準(zhǔn)確率的同時(shí)，參考召回率對試驗(yàn)結(jié)果進(jìn)行分析，可以發(fā)現(xiàn)：1）除RK-Medoids-KL和FOPTICS外，其他算法聚類質(zhì)量（準(zhǔn)確率與召回率）對數(shù)據(jù)集的維數(shù)d、對象個(gè)數(shù)n及采樣點(diǎn)個(gè)數(shù)s都不敏感，但所有算法都會(huì)隨著數(shù)據(jù)集中簇的個(gè)數(shù)k的增加而降低；2）對于同類型的聚類算法，采用相對熵相似性的算法聚類質(zhì)量最高，即準(zhǔn)確率與召回率都相對較高；采用期望距離相似性的聚類算法聚類質(zhì)量最低；3）采用相對熵相似性的算法中，基于劃分的算法聚類質(zhì)量多優(yōu)于基于密度的算法，KMedoids-KL算法質(zhì)量最高；采用期望距離的劃分算法UK-means算法的聚類質(zhì)量最低。

圖2 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率比較Fig.2 Comparison of precision between six uncertain data clustering methods in the continuous case

圖3 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類召回率比較Fig.3 Comparison of recall between six uncertain data clustering methods in the continuous case

2.2 實(shí)際數(shù)據(jù)對比分析

本文選取的氣象數(shù)據(jù)源于美國國家大氣研究中心（http：／／rda.ucar.edu／datasets／ds512.0／）。數(shù)據(jù)集中共包含893個(gè)氣象站點(diǎn)的觀測數(shù)據(jù)，且每個(gè)站點(diǎn)都包含366 d的氣象記錄，每條記錄包含當(dāng)天的平均氣溫、總降水量和平均濕度。本文根據(jù)亞洲K?ppen-Geiger氣候分類圖［18］標(biāo)記出各個(gè)站點(diǎn)的氣候類型（圖6），作為一種近似的真值。亞洲K?ppen-Geiger氣候分類圖中共有5種主要?dú)夂蝾愋停簾釒夂?、干燥氣候、暖溫帶氣候、冷溫帶氣候和極地氣候，而本文數(shù)據(jù)中沒有分布在極地氣候帶的測站，所以只有前4種主要?dú)夂蝾愋?。一個(gè)測站每天的氣象數(shù)據(jù)可建模為一個(gè)不確定對象的樣本點(diǎn)，所以實(shí)際數(shù)據(jù)集中不確定對象的維數(shù)d＝3、對象個(gè)數(shù)n＝893、對象的樣本大小s＝366、簇的個(gè)數(shù)k＝4。

圖7顯示了各個(gè)算法得到的氣象站點(diǎn)的氣候聚類結(jié)果，圖8顯示了各個(gè)算法的聚類質(zhì)量比較結(jié)果。通過對實(shí)驗(yàn)結(jié)果進(jìn)行定量比較，可以發(fā)現(xiàn)：1）各算法聚類準(zhǔn)確率從高到低依次為：K-Medoids-KL、UK-means、RK-Medoids-KL、FOPTICS、DBSCAN-KL、OPTICS-KL。由于 OPTICS-KL 與 DBSCAN-KL算法聚類結(jié)果主要包含一個(gè)較大的簇，故其召回率較高，但是二者準(zhǔn)確率都較差，因此綜合考慮準(zhǔn)確率與召回率可以發(fā)現(xiàn)這兩種方法的聚類質(zhì)量較差；FOPTICS算法的聚類結(jié)果召回率最低，且聚類準(zhǔn)確度中等，故可以認(rèn)為其聚類質(zhì)量亦較差。2）K-Medoids-KL、UK-means、RK-Medoids-KL 3種算法的召回率相差不大，且都維持了較高的水平（介于0.6～0.7之間），因此可以認(rèn)為這3種方法的聚類質(zhì)量較高，其中K-Medoids-KL算法的準(zhǔn)確率最高，達(dá)到0.76。3）采用相對熵相似性的算法中，基于劃分算法的聚類準(zhǔn)確率優(yōu)于基于密度的算法；采用期望距離的劃分算法聚類準(zhǔn)確率優(yōu)于采用模糊距離函數(shù)的密度算法。

圖7 氣象數(shù)據(jù)聚類結(jié)果Fig.7 The clustering results of climate dataset

2.3 模擬與實(shí)際實(shí)驗(yàn)結(jié)果分析

下面基于模擬與實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果，對進(jìn)行測試的6種不確定聚類算法性能進(jìn)行系統(tǒng)的總結(jié)與分析：1）RK-Medoids-KL與 FOPTICS算法的聚類質(zhì)量對數(shù)據(jù)維數(shù)、對象個(gè)數(shù)及采樣個(gè)數(shù)較為敏感，其原因在于：RK-Medoids-KL算法在代表對象交換階段隨機(jī)選取能優(yōu)化當(dāng)前聚類結(jié)果的非代表對象與代表對象進(jìn)行交換，且不能優(yōu)化結(jié)果的非代表對象也具有較小的交換概率，因此RK-Medoids-KL算法的結(jié)果具有隨機(jī)性；FOPTICS算法采用模糊距離函數(shù)度量對象間的相似性，對幾何空間高度重疊的簇區(qū)分能力有限，同時(shí)設(shè)置聚類參數(shù)獲得k個(gè)簇的過程亦存在隨機(jī)性。各算法聚類質(zhì)量均隨簇個(gè)數(shù)k的增加而降低，說明當(dāng)前算法挖掘較為細(xì)致聚類模式的能力尚有欠缺。2）整體上，采用相對熵相似性的聚類算法聚類質(zhì)量最高，采用模糊距離相似性度量的算法次之，采用期望距離相似性度量的算法聚類質(zhì)量最差。這一實(shí)驗(yàn)結(jié)果說明：相對熵可以同時(shí)顧及不確定對象在幾何空間和概率分布上的差異性，而期望距離僅僅利用了每個(gè)不確定對象的中心信息，缺乏區(qū)分概率分布差異性的能力。模糊距離能夠獲取數(shù)據(jù)集中更多的不確定信息，能夠在一定程度上區(qū)分不確定數(shù)據(jù)的概率分布差異性。3）實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，采用相對熵相似性度量的方法中，基于劃分的算法（如RK-Medoids-KL和K-Medoids-KL）聚類質(zhì)量要整體優(yōu)于基于密度的算法（如DBSCAN-KL算法和OPTICS-KL）。當(dāng)前研究一般認(rèn)為基于密度算法的聚類質(zhì)量要優(yōu)于基于劃分的算法［6］，本文實(shí)驗(yàn)結(jié)果得出相反結(jié)論可能有兩方面原因：一方面本文實(shí)驗(yàn)中輸入?yún)?shù)k是已知的，而DBSCAN-KL算法和OPTICS-KL算法是通過將μ設(shè)置為5，并設(shè)置多個(gè)ε值進(jìn)行實(shí)驗(yàn)，以近似得到k個(gè)簇，不合理的參數(shù)設(shè)置可能會(huì)導(dǎo)致基于密度的算法的聚類質(zhì)量低于基于劃分的算法；另一方面本文實(shí)驗(yàn)中所采用的模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)在概率空間內(nèi)簇間存在相互鄰接的特點(diǎn)，將直接導(dǎo)致基于密度的算法聚類質(zhì)量下降。4）在實(shí)際數(shù)據(jù)集中，雖然K-Medoids-KL算法的聚類質(zhì)量最高，但是其聚類結(jié)果與K?ppen-Geiger氣候分類依然存在一定的偏差，其主要原因可能存在于兩方面：一方面在于氣候分區(qū)不僅考慮氣溫、降水、濕度的差異，還要綜合顧及其他氣候特征；另一方面簇的形態(tài)可能并非完全近似球形。本文研究對數(shù)據(jù)驅(qū)動(dòng)下的氣候分區(qū)可靠性給出了定量的實(shí)驗(yàn)結(jié)果。

綜合上述實(shí)驗(yàn)結(jié)果與分析，可以進(jìn)一步對不確定聚類方法在地學(xué)問題中的研究與應(yīng)用給出如下建議：1）在實(shí)際研究中，由于簇的形態(tài)與結(jié)構(gòu)是事先未知的，因此建議采用不同的不確定聚類算法進(jìn)行比較分析，目前采用相對熵相似性度量的方法聚類質(zhì)量相對較高；2）理論上基于密度的方法比基于劃分的方法適用性更強(qiáng)，不僅可以發(fā)現(xiàn)近似球形的簇，亦可發(fā)現(xiàn)非球形的簇，然而現(xiàn)有基于密度的方法的聚類質(zhì)量反而不如基于劃分的方法，對于基于密度的方法如何選取合適的聚類參數(shù)、克服簇的鄰接等問題需要開展深入研究。

3 總結(jié)與展望

本文針對不確定數(shù)據(jù)聚類算法在地學(xué)應(yīng)用中的有效性缺乏客觀比較的問題，選取了6種具有代表性算法，首先采用模擬數(shù)據(jù)進(jìn)行測試，進(jìn)而采用亞洲氣候數(shù)據(jù)集對其識別氣候區(qū)的能力進(jìn)行比較分析。通過準(zhǔn)確率和召回率定量度量6種方法處理幾何空間高度重疊、概率分布差異顯著的模擬數(shù)據(jù)與氣候數(shù)據(jù)時(shí)的聚類質(zhì)量后，發(fā)現(xiàn)：1）對于同類型聚類算法，采用相對熵相似性度量的算法聚類質(zhì)量總體優(yōu)于采用期望距離和模糊距離函數(shù)的算法；2）采用相對熵相似性度量的劃分算法聚類質(zhì)量優(yōu)于基于密度的算法，其中K-Medoids-KL算法聚類質(zhì)量最高。

進(jìn)一步的研究工作主要集中在兩方面：1）本文僅是從數(shù)據(jù)本身的不確定性出發(fā)，對各種聚類算法的應(yīng)用效果進(jìn)行了實(shí)驗(yàn)分析，未來研究中聚類模型本身的不確定性需要引起充分的重視；2）氣候分區(qū)的實(shí)際應(yīng)用中，雖然基于概率分布相似性的劃分聚類算法能夠取得較好的結(jié)果，但是需要用戶輸入簇的個(gè)數(shù)，這是一般用戶很難確定的，因此需要進(jìn)一步學(xué)習(xí)如何確定數(shù)據(jù)集中簇的個(gè)數(shù)。

［1］ CHENG R，KALASHNIKOV D V，PRABHAKAR S.Evaluating probabilistic queries over imprecise data［A］.Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data［C］.2003.551－562.

［2］ JIANG B，PEI J，TAO Y F，et al.Clustering uncertain data based on probability distribution similarity［J］.IEEE Transactions on Knowledge and Data Engineering，2013，25（4）：751－763.

［3］ AGRAWAL R，SRIKANT R.Privacy－preserving data mining［A］.ACM SIGMOD Conference，2000.

［4］ KRIEGEL H P，PFEIFLE M.Density-based clustering of uncertain data［A］.Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining［C］.2005.672－677.

［5］ SHI W Z.Principles of Modeling Uncertainties in Spatial Data and Spatial Analyses［M］.London：CRC Press，2010.

［6］鄧敏，劉啟亮，李光強(qiáng)，等.空間聚類分析及應(yīng)用［M］.北京：科學(xué)出版社，2011.

［7］ SATO M，SATO Y，JAIN L C，et al.Fuzzy Clustering Models and Applications［M］.Physica-Verlag，1997.

［8］ DENG M，LIU Q L，CHENG T，et al.An adaptive spatial clustering algorithm based on Delaunay triangulation［J］.Computers，Environment and Urban Systems，2011，35（4）：320－332.

［9］ MACQUEEN J.Some methods for classification and analysis of multivariate observations［A］.Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability［C］.1967.281－297.

［10］ KAUFMAN L，ROUSSEEUW P.Clustering by Means of Medoids［M］.North-Holland，1987.

［11］ CHAU M，CHENG R，KAO B，et al.Uncertain data mining：An example in clustering location data［A］.Advances in Knowledge Discovery and Data Mining［C］.Springer Berlin Heidelberg，2006.199－204.

［12］ NGAI W K，KAO B，CHUI C K，et al.Efficient clustering of uncertain data［A］.Proceedings of the 6th International Conference on Data Mining［C］.2006.436－445.

［13］ LEE S D，KAO B，CHENG R.Reducing UK-means to K-means［A］.Proceedings of the 7th IEEE International Conference on Data Mining Workshops［C］.2007.483－488.

［14］ KAO B，LEE S D，LEE F K F，et al.Clustering uncertain data using Voronoi diagrams and r-tree index［J］.IEEE Transactions on Knowledge and Data Engineering，2011，22（9）：1219－1233.

［15］ ESTER M，KRIEGEL H P，SANDER J，et al.A density-based algorithm for discovering clusters in large spatial databases with noise［A］.Proceedings of KDD－96［C］.1996.226－231.

［16］ ANKERST M，BREUNIG M M，KRIEGEL H P，et al.Optics：Ordering points to identify the clustering structure［A］.Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data［C］.1999.49－60.

［17］ KRIEGEL H P，PFEIFLE M.Hierarchical density-based clustering of uncertain data［A］.Proceedings of the 5th IEEE International Conference on Data Mining［C］.IEEE，2005.

［18］ PEEL M C，F(xiàn)INLAYSON B L，MCMAHON T A.Updated world map of the K?ppen-Geiger climate classification［J］.Hydrology ＆Earth System Sciences Discussions，2007，4（2）：439－473.