999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類分析中類與類的特征

2015-05-30 20:01:53李曉云周菊玲李超群
數學學習與研究 2015年1期

李曉云 周菊玲 李超群

【摘要】本文基于聚類分析在多元統計分析中的重要作用,介紹聚類分析的定義,并在聚類分析的基礎上詳細給出了類的幾個定義,并且討論了類的幾個特征及其內在關系.并用圖解的方式及解析的方式導出類與類之間的距離,從而為進一步的聚類分析做好基礎.

【關鍵詞】聚類分析;類;類的特征;類間距離

一、引 言

聚類分析是研究如何將一組樣品(對象、指標、屬性等) 進行分類的方法.分類是人們深入認識事物的一個重要方法.

本文將在聚類分析的基礎上詳細探討類和類的特征.

二、類和類的特征

1.類的定義

我們的目的是聚類,那么什么叫作類呢?由于客觀事物的千差萬別,在不同問題中類的含義是不盡相同的.因此,企圖給類下一個嚴格的定義,絕非一件易事.下面給出類的幾個定義,不同定義,適用于不同場合.

用G表示類,設G中有k個元素,這些元素用i,j表示:

定義1:T為一個給定的閾值,如果對于每一個i,j∈G,有dij≤T(dij為i和j的距離),則稱G為一個類.

定義2:對閾值T,如果對于每個i∈G,有1k-1∑j∈Gdij≤T,則稱G為一個類.

定義3:對閾值T,V,如果1k(k-1)∑i∈G∑j∈Gdij≤T,dij≤V,對一切i,j∈G,則稱G為一個類.

定義4:對閾值T,若對于任意一個i∈G,一定存在j∈G,使得dij≤T,則稱G為一個類.

由此可見,定義1的要求是最高的,凡屬于它的類,一定也是后三種定義的類.此外,凡符合定義2的類,也一定是定義3的類.

2.類的特征

現在,類G的元素用x1,…,xm表示,m為G內的樣本數(或指標數),可以從不同角度來刻畫G的特征,常用的特征有:

1.均值x-G(或稱為G的重心): x-G=1m∑mi=1xi

2.樣本散布陣及協方差陣:

SG=∑mi=1(xi-x-G)(xi-x-G)′,∑G=1n-1SG

3.G的直徑.此處給出兩種定義.

(a)DG=∑mi=1(xi-x-G)′(xi-x-G)=tr(SG)

證明:由定義知:SG=∑mi=1(xi-x-G)(xi-x-G)′,其中:

SG=∑(xi1-x-1)2∑(xi1-x-1)(xi2-x-2)…∑(xi1-x-1)(xip-x-p)

∑(xi2-x-2)(xi1-x-1)∑(xi2-x-2)2…∑(xi2-x-2)(xip-x-p)

…………

∑(xip-x-p)(xi1-x-1)∑(xip-x-p)(xi2-x-2)…∑(xip-x-p)2 ?又知,

(xi-x-G)′(xi-x-G)=(xi1-x-1)2+(xi2-x-2)2+…+(xip-x-p)2=tr(SG)

證畢.

此處,還將給出直徑的另一種定義:

(b)DG=maxi,j∈Gdij

3.類和類之間的距離

在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離.由于類的形狀是多種多樣的,所以,類與類之間的距離也有多種運算方法.另Gp和Gq中分別有k個和m個樣品,它們的重心分別是x-p和x-q,它們之間的距離用D(p,q)表示.下列是幾種常見的定義:

(1)最短距離法.

DK(p,q)=mindjlj∈Gp,l∈Gq

它等于類Gp與類Gq中臨近的兩個樣品的距離,如圖所示:

類間距離示意圖 類群距離DK(p,q)=d23

(2)最長距離法.

DK(p,q)=maxdjlj∈Gp,l∈Gq

(3)類平均法.

DK(p,q)=1LK∑i∈Gp∑j∈Gqdij

它等于類Gp與類Gq中任兩個樣品的距離的平均,式中的和分別為類和類中的樣品數.

(4)重心法.

Dc(p,q)=dx-px-q,它等于兩個重心x-p與x-q間的距離.

(5)離差平方和法.

若采用直徑的第一種定義方法,用Dp,Dq分別表示類Gp與類Gq的直徑,用Dp+q表示大類Gp+q的直徑,則有

Dp=∑i∈Gp(xi-x-p)′(xi-x-p),Dq=∑j∈Gp(xj-x-q)′(xj-x-q),

Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-),

其中x-=1k+l∑i∈Gp∪Gqxi.

用離差平方和法定義類Gp與類Gq之間的距離的平方為:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則有

Dp+q=klk+lD2c(p+q),以下將給出具體證明.

證明:由定義Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-) =Dp+∑j∈Gq(xj-x-p)′(xj-x-p)+2∑j∈Gp∪Gq(x-p-x-)′(xj-x-p)+(k+l)(x-p-x-)′(x-p-x-)

而:∑j∈Gq(xj-x-p)′(xj-x-p)=Dq+k(x-p-x-q)′(x-p-x-q)Dp+q=Dp+Dq+k(x-p-x-p)′(x-p-x-p)_k2k+l(x-p-x-p)′(x-p-x-p)

=Dp+Dq+klk+l(x-p-x-p)′(x-p-x-p)

又知:D2w(p,q)=Dp+q-Dp-Dq,如果樣品間的距離采用歐氏距離,則:D2w(p,q)=klk+lD2c(p,q) .

這說明,離差平方和法定義的距離與重心法定義的距離只相差一個常數,而這個常數與兩類樣品的個數有關.

結語:本文主要討論了類的四種定義及三個重要特征,并給出了五種類與類之間距離的計算方法,了解這些之后,可為后續經典聚類分析和模糊聚類分析奠定基礎.

【參考文獻】

[1]何曉群.多元統計分析[M].北京:中國人民大學出版社,2004.

[2]方開泰.實用多元統計分析[M].上海:華東師范大學出版社,1989.

[3]包研科.數據分析教程[M].北京:清華大學出版社,2011.

[4]莊恒揚.模糊聚類計算方法的理論分析[J].江蘇農學院學報,1998(19).

[5]何清.模糊聚類分析理論與應用研究進展[J].模糊系統與數學,1998(2).

主站蜘蛛池模板: 国产成人免费视频精品一区二区| 亚洲一区二区成人| 午夜少妇精品视频小电影| 精品一区二区三区波多野结衣| 国产对白刺激真实精品91| 免费在线看黄网址| 久久亚洲天堂| 亚洲天堂.com| 欧美日韩综合网| 国产精品亚欧美一区二区| 在线国产毛片| 91小视频在线| 免费人成在线观看视频色| 亚洲成a人片7777| 欧美亚洲欧美| 亚洲天堂精品在线观看| 中文字幕人妻av一区二区| 成年女人a毛片免费视频| 国产免费怡红院视频| 亚洲视频四区| 久无码久无码av无码| 国产一区免费在线观看| 色呦呦手机在线精品| 亚洲日韩在线满18点击进入| 国产精品夜夜嗨视频免费视频| 高清码无在线看| 91丝袜乱伦| 在线观看国产精美视频| 白浆免费视频国产精品视频| 国产欧美日本在线观看| 欧美啪啪精品| 99精品伊人久久久大香线蕉 | 综1合AV在线播放| 原味小视频在线www国产| 毛片最新网址| 国产日韩欧美中文| 成人在线综合| 97国产在线播放| 亚洲精品无码av中文字幕| 日韩二区三区无| 日本高清有码人妻| 国产理论精品| 色偷偷av男人的天堂不卡| 国产大片黄在线观看| 国产18在线播放| 激情成人综合网| 欧美日韩高清| 夜色爽爽影院18禁妓女影院| 色爽网免费视频| 色香蕉网站| 久久一级电影| 天天色天天综合| 永久免费精品视频| 欧美第一页在线| 国产国语一级毛片| 国禁国产you女视频网站| 国产一国产一有一级毛片视频| 亚洲中文字幕97久久精品少妇| 国产色网站| 中文无码日韩精品| 青青极品在线| 热re99久久精品国99热| 亚洲欧美日韩精品专区| 国产尤物在线播放| 五月天在线网站| 一本久道热中字伊人| 午夜欧美理论2019理论| 久久精品只有这里有| 亚洲国产av无码综合原创国产| 色悠久久久| 午夜国产不卡在线观看视频| 亚洲中文无码h在线观看| 99热这里只有精品5| 国产亚洲精品va在线| 在线国产资源| 在线观看国产网址你懂的| 亚洲天堂免费| 国产美女视频黄a视频全免费网站| 日韩欧美中文在线| 国产女人爽到高潮的免费视频| 青青操国产视频| 欧美成一级|