李曉云 周菊玲 李超群

【摘要】本文基于聚類分析在多元統計分析中的重要作用,介紹聚類分析的定義,并在聚類分析的基礎上詳細給出了類的幾個定義,并且討論了類的幾個特征及其內在關系.并用圖解的方式及解析的方式導出類與類之間的距離,從而為進一步的聚類分析做好基礎.
【關鍵詞】聚類分析;類;類的特征;類間距離
一、引 言
聚類分析是研究如何將一組樣品(對象、指標、屬性等) 進行分類的方法.分類是人們深入認識事物的一個重要方法.
本文將在聚類分析的基礎上詳細探討類和類的特征.
二、類和類的特征
1.類的定義
我們的目的是聚類,那么什么叫作類呢?由于客觀事物的千差萬別,在不同問題中類的含義是不盡相同的.因此,企圖給類下一個嚴格的定義,絕非一件易事.下面給出類的幾個定義,不同定義,適用于不同場合.
用G表示類,設G中有k個元素,這些元素用i,j表示:
定義1:T為一個給定的閾值,如果對于每一個i,j∈G,有dij≤T(dij為i和j的距離),則稱G為一個類.
定義2:對閾值T,如果對于每個i∈G,有1k-1∑j∈Gdij≤T,則稱G為一個類.
定義3:對閾值T,V,如果1k(k-1)∑i∈G∑j∈Gdij≤T,dij≤V,對一切i,j∈G,則稱G為一個類.
定義4:對閾值T,若對于任意一個i∈G,一定存在j∈G,使得dij≤T,則稱G為一個類.
由此可見,定義1的要求是最高的,凡屬于它的類,一定也是后三種定義的類.此外,凡符合定義2的類,也一定是定義3的類.
2.類的特征
現在,類G的元素用x1,…,xm表示,m為G內的樣本數(或指標數),可以從不同角度來刻畫G的特征,常用的特征有:
1.均值x-G(或稱為G的重心): x-G=1m∑mi=1xi
2.樣本散布陣及協方差陣:
SG=∑mi=1(xi-x-G)(xi-x-G)′,∑G=1n-1SG
3.G的直徑.此處給出兩種定義.
(a)DG=∑mi=1(xi-x-G)′(xi-x-G)=tr(SG)
證明:由定義知:SG=∑mi=1(xi-x-G)(xi-x-G)′,其中:
SG=∑(xi1-x-1)2∑(xi1-x-1)(xi2-x-2)…∑(xi1-x-1)(xip-x-p)
∑(xi2-x-2)(xi1-x-1)∑(xi2-x-2)2…∑(xi2-x-2)(xip-x-p)
…………
∑(xip-x-p)(xi1-x-1)∑(xip-x-p)(xi2-x-2)…∑(xip-x-p)2 ?又知,
(xi-x-G)′(xi-x-G)=(xi1-x-1)2+(xi2-x-2)2+…+(xip-x-p)2=tr(SG)
證畢.
此處,還將給出直徑的另一種定義:
(b)DG=maxi,j∈Gdij
3.類和類之間的距離
在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離.由于類的形狀是多種多樣的,所以,類與類之間的距離也有多種運算方法.另Gp和Gq中分別有k個和m個樣品,它們的重心分別是x-p和x-q,它們之間的距離用D(p,q)表示.下列是幾種常見的定義:
(1)最短距離法.
DK(p,q)=mindjlj∈Gp,l∈Gq
它等于類Gp與類Gq中臨近的兩個樣品的距離,如圖所示:
類間距離示意圖 類群距離DK(p,q)=d23
(2)最長距離法.
DK(p,q)=maxdjlj∈Gp,l∈Gq
(3)類平均法.
DK(p,q)=1LK∑i∈Gp∑j∈Gqdij
它等于類Gp與類Gq中任兩個樣品的距離的平均,式中的和分別為類和類中的樣品數.
(4)重心法.
Dc(p,q)=dx-px-q,它等于兩個重心x-p與x-q間的距離.
(5)離差平方和法.
若采用直徑的第一種定義方法,用Dp,Dq分別表示類Gp與類Gq的直徑,用Dp+q表示大類Gp+q的直徑,則有
Dp=∑i∈Gp(xi-x-p)′(xi-x-p),Dq=∑j∈Gp(xj-x-q)′(xj-x-q),
Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-),
其中x-=1k+l∑i∈Gp∪Gqxi.
用離差平方和法定義類Gp與類Gq之間的距離的平方為:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則有
Dp+q=klk+lD2c(p+q),以下將給出具體證明.
證明:由定義Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-) =Dp+∑j∈Gq(xj-x-p)′(xj-x-p)+2∑j∈Gp∪Gq(x-p-x-)′(xj-x-p)+(k+l)(x-p-x-)′(x-p-x-)
而:∑j∈Gq(xj-x-p)′(xj-x-p)=Dq+k(x-p-x-q)′(x-p-x-q)Dp+q=Dp+Dq+k(x-p-x-p)′(x-p-x-p)_k2k+l(x-p-x-p)′(x-p-x-p)
=Dp+Dq+klk+l(x-p-x-p)′(x-p-x-p)
又知:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則:D2w(p,q)=klk+lD2c(p,q) .
這說明,離差平方和法定義的距離與重心法定義的距離只相差一個常數,而這個常數與兩類樣品的個數有關.
結語:本文主要討論了類的四種定義及三個重要特征,并給出了五種類與類之間距離的計算方法,了解這些之后,可為后續經典聚類分析和模糊聚類分析奠定基礎.
【參考文獻】
[1]何曉群.多元統計分析[M].北京:中國人民大學出版社,2004.
[2]方開泰.實用多元統計分析[M].上海:華東師范大學出版社,1989.
[3]包研科.數據分析教程[M].北京:清華大學出版社,2011.
[4]莊恒揚.模糊聚類計算方法的理論分析[J].江蘇農學院學報,1998(19).
[5]何清.模糊聚類分析理論與應用研究進展[J].模糊系統與數學,1998(2).