999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺論多元統計的分類問題

2014-10-08 12:06:30于娜
考試周刊 2014年23期

于娜

摘 要: 分類或分組是多元統計學習的一個重要內容,聚類分析、判別分析、主成分分析及可視化分析都可以對變量或樣本進行分類或者分組。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系。本文從區別和聯系的角度對這幾種方法作簡要闡述,希望對學習數據的分類問題有所幫助。

關鍵詞: 分類與分組 聚類分析 判別分析 主成分分析 可視化分析

在生物、經濟、社會等領域的研究中,存在大量量化分類問題。例如為了研究城鎮居民的消費結構,需要將相關性強的指標歸并到一起。在生物學中,為了研究生物的演變,生物學家需要根據生物的不同特征對生物進行分類[1]。多元統計分析中可以將變量或樣本進行分類的方法很多,如判別分析,聚類分析,主成分分析,可視化分析等。盡管這些分析方法都可以基于所測量的一些特征,給出好的分組方法,對相似的對象或變量進行分組,但由于每種方法的原理不同,因此分組結果往往不同,從而解釋不同。

聚類分析是將樣品(或變量)進行分類時常用的統計方法。按分類對象的不同,分為樣品聚類(型聚類)和變量聚類(型聚類)。樣品聚類是進行判別分析前的必要工作。根據樣品聚類的結果作判別分析,得到判別函數,進而對新的樣本進行歸類判別。變量聚類在尋找研究對象彼此獨立的有代表性變量上發揮著巨大的作用[2]。

聚類方式是用來歸類的某種規則,常用的聚類方式主要有系統聚類,K均值聚類,有序樣品的聚類等。在系統聚類中,樣品歸為某一類便不能改變,因此要求各步驟的分類必須準確,分類方法恰當。另外,系統聚類需要計算樣品(或變量)間的距離(或相似性)和類間距離,要保存“類間距離”矩陣,相應計算量比較大,占用計算機內存較多。但系統聚類可以對不同類數產生一系列的分類結果。K均值聚類是一種迭代計算方法,按要求先給出一種粗糙的分類,然后根據某種原則進行迭代,樣品(或變量)可以在不同的類中有進有出,直到分類比較合理為止。K均值聚類對計算機性能要求不高,聚類結果比較簡單易懂,適用于事先明確分類數目及樣本量很大時的聚類分析;但K均值聚類只能產生指定類數的分類結果。鑒于系統聚類和K均值聚類的優缺點,在實際問題中,往往從樣本中先選取少量數據進行系統聚類,選取合適的類數,然后采用K均值聚類的方法進行聚類。若樣品的次序不可改變,則只可以采用有序樣品的聚類方法。

主成分分析是通過一組變量的幾個線性組合解釋原來變量絕大多數信息的一種統計方法。聚類分析不改變原始數據,只是根據樣本或變量之間的距離遠近或者相似性進行分類。不同于聚類分析,應用主成分分析進行分類,是將原始變量轉化為少數幾個變量,這些少數的變量(主成分)是原始變量的線性組合。以每個樣本的第一、第二主成分的值為變量進行聚類,或以第一、第二主成分為坐標軸,在平面上標出每個樣本,根據圖示,按照距離的遠近對樣本進行分類。另外,還可以以變量的因子得分做點圖,得到變量的分類情況,從而加深對樣本分類含義的全面理解。

主成分分類與一般的聚類方法相比,具有明顯的優越性:首先,主成分分類可以以點圖的方式將樣本分類結果形象直觀地呈現出來,有利于對分類結果的理解,也有利于對類型的形成原因進行探討。其次,可以借助主成分分類的中間成果對因子載荷矩陣進行點圖分類,這樣不僅能得到變量的分類情況,還能加深對樣本分類含義的全面理解。

在多元統計分析中,一些可視化的分析可以從不同角度對樣本進行分類。例如反映多個變量之間相關關系的矩陣散點圖。矩陣散點圖不僅可以在二維平面上同時反映多個變量數值,而且可以根據圖示。從某個變量的角度看,將樣本根據距離的遠近進行分類。依據矩陣散點圖的分類結果,可以與系統聚類中只考慮一個變量的分類情況進行對比、分析。利用可視化分類分類結果形象、直觀。

在生產決策和日常生活中,經常會遇到根據所觀測的樣本數據資料對所研究的對象進行分類判別的問題。例如某醫院有部分患有肝炎、糖尿病、冠心病等病人的資料,記錄了每個病人若干項癥狀指標數據。對于一個新病人,當測得這些指標時,如何利用現有的資料找出一種方法,判別患者患有哪種病。在市場預測中,根據以往調查所得的各項指標,如何判別下季度的產品是暢銷、平銷,還是滯銷。判別分析就是判斷所選樣品屬于哪一類型的一種多元統計方法。不同于聚類分析,主成分分類和可視化分類,事先并不知道類的數量和類別,判別分析是已知類的數量和類別,并且知道每個類的一些樣本的觀測數據,在此基礎上,依據某種分類準則建立分類判別式,并對新給出的樣本判別其的歸屬問題。實際應用中,判別分析和聚類分析往往是結合在一起使用的。當判別分析的類別不清楚時,可先用聚類分析等分類的方法對部分樣品進行分類,然后用判別分析法建立適當的判別準則實現對新樣品的分類。

綜上,我們對聚類分析、判別分析、主成分分析及可視化分析等分類方法作了簡要闡述。每種分類方法不同,結果和解釋的出發點也不同,但各種分類方法之間又有著千絲萬縷的關系,希望對學習數據的分類問題有所幫助。

參考文獻:

[1]朱建平.應用多元統計分析[M].北京:科學出版社.

[2]王力賓.多元統計分析[M].北京:經濟科學出版社.

本文為上海電力學院課程建設項目(No.20121207)。

主站蜘蛛池模板: 五月婷婷伊人网| 在线观看精品国产入口| 69av免费视频| www成人国产在线观看网站| 日韩精品亚洲人旧成在线| 久久婷婷国产综合尤物精品| 欧美人在线一区二区三区| 久久国产精品影院| 国产激情在线视频| 亚洲国产天堂久久综合226114| 国产JIZzJIzz视频全部免费| 亚洲成人精品| 亚洲成年人片| 熟妇无码人妻| 视频一区亚洲| 精品伊人久久久香线蕉| 色综合日本| 亚洲毛片一级带毛片基地| 最新国产成人剧情在线播放| 国产无码高清视频不卡| 精品国产网| 国产成人精品一区二区| 日韩精品一区二区三区视频免费看| 国产精品手机视频| 亚洲第一页在线观看| 亚欧成人无码AV在线播放| 免费人成黄页在线观看国产| 成年网址网站在线观看| 亚洲色图欧美激情| 国产成人a在线观看视频| 亚洲无码37.| 亚洲国产AV无码综合原创| 综合五月天网| 国产亚洲精品自在久久不卡| 一本大道视频精品人妻 | 日韩欧美综合在线制服| 1级黄色毛片| 国产91视频免费观看| 国产免费观看av大片的网站| 国内丰满少妇猛烈精品播| 视频二区欧美| 国产呦精品一区二区三区网站| 激情午夜婷婷| 婷婷色婷婷| 免费va国产在线观看| 免费福利视频网站| 狠狠色噜噜狠狠狠狠色综合久| 国产浮力第一页永久地址| 国产高清又黄又嫩的免费视频网站| 国产福利免费视频| 日韩天堂在线观看| 国产九九精品视频| 国产成人综合亚洲欧美在| 国产精品亚洲а∨天堂免下载| 亚洲日韩精品欧美中文字幕| 一级全免费视频播放| 99久久精彩视频| 人妻夜夜爽天天爽| 色首页AV在线| 日韩欧美国产成人| 亚洲免费福利视频| 喷潮白浆直流在线播放| 不卡无码网| 992tv国产人成在线观看| 2021国产精品自拍| 亚洲青涩在线| 91在线丝袜| 国产精品夜夜嗨视频免费视频 | 亚洲欧美一区二区三区麻豆| 真实国产精品vr专区| 伊人成人在线| 国产AV无码专区亚洲A∨毛片| 国产v精品成人免费视频71pao| 91精品久久久无码中文字幕vr| 午夜老司机永久免费看片| 欧美国产视频| 日本亚洲欧美在线| 日韩第八页| 四虎在线观看视频高清无码| 亚洲一区二区成人| 高清久久精品亚洲日韩Av| 亚洲动漫h|