999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于k均值聚類算法的實(shí)例分析

2018-09-27 09:31:48黃玉珠
大經(jīng)貿(mào) 2018年8期
關(guān)鍵詞:數(shù)據(jù)分析分類

黃玉珠

【摘 要】 k均值聚類算法是一種常見(jiàn)的對(duì)數(shù)據(jù)進(jìn)行分類的算法。本文通過(guò)k均值聚類算法對(duì)UCI數(shù)據(jù)庫(kù)中的Glass Identification數(shù)據(jù)集進(jìn)行分析,最后將分類結(jié)果與真實(shí)結(jié)果比較,觀察分類是否準(zhǔn)確,從而實(shí)現(xiàn)k均值聚類算法的數(shù)據(jù)分析。

【關(guān)鍵詞】 k均值聚類算法 數(shù)據(jù)分析 分類

1 引言

聚類分析是數(shù)據(jù)挖掘的一個(gè)發(fā)現(xiàn)信息的方法,已經(jīng)被人們深入的研究了很長(zhǎng)時(shí)間,主要的是對(duì)基于距離的聚類分析的研究。聚類是一種無(wú)監(jiān)督的學(xué)習(xí),而分類正好與它相反,分類是一種有監(jiān)督的學(xué)習(xí),聚類主要是劃分無(wú)標(biāo)記的對(duì)象,使這些無(wú)標(biāo)記的對(duì)象變的有意義,對(duì)預(yù)先定義的類與帶類標(biāo)記的訓(xùn)練實(shí)例不具有依賴性。所以聚類分析在我們的日常生活中的應(yīng)用范圍非常廣泛:

(1)在商業(yè)上,聚類可以根據(jù)消費(fèi)者數(shù)據(jù)庫(kù)里面所記錄的數(shù)據(jù)信息,對(duì)消費(fèi)者進(jìn)行劃分,根據(jù)各個(gè)消費(fèi)者的特征,以幫助市場(chǎng)營(yíng)銷員按照市場(chǎng)需求及時(shí)調(diào)整貨物的擺放次序等一系列營(yíng)銷計(jì)劃的實(shí)施;

(2)在社會(huì)學(xué)中,聚類用來(lái)發(fā)現(xiàn)目前社會(huì)結(jié)構(gòu)組成中潛在的社會(huì)結(jié)構(gòu);

(3)在網(wǎng)絡(luò)挖掘中對(duì)互聯(lián)網(wǎng)上批量的數(shù)據(jù)信息進(jìn)行有效的劃分與分類,實(shí)現(xiàn)信息的有效利用,對(duì)數(shù)據(jù)信息檢索效率方面有顯著提高;

(4)在生物信息學(xué)中,在大量的基因群中發(fā)現(xiàn)功能相似的基因組,對(duì)基因因功能不同進(jìn)行劃分對(duì)其固有的結(jié)構(gòu)特征進(jìn)行分析,來(lái)更好的為我們的醫(yī)學(xué)發(fā)展提供有利條件;

(5)在空間數(shù)據(jù)庫(kù)領(lǐng)域,聚類分析能對(duì)相似地理特征區(qū)域及它們的人和環(huán)境的不同特征進(jìn)行識(shí)別,來(lái)研究地域文化提供條件。

本文主要基于k均值聚類算法對(duì)數(shù)據(jù)進(jìn)行實(shí)例分析,通過(guò)比較分類結(jié)果的準(zhǔn)確率,研究k均值聚類算法的分類效果。

2 基于K均值聚類算法的數(shù)據(jù)分析

2.1 K均值聚類算法。聚類是一種無(wú)監(jiān)督的學(xué)習(xí)方法。所謂無(wú)監(jiān)督學(xué)習(xí)是指事先并不知道要尋找的內(nèi)容,即沒(méi)有目標(biāo)變量。聚類將數(shù)據(jù)點(diǎn)歸到多個(gè)簇中,其中相似數(shù)據(jù)點(diǎn)處于同一簇,而不相似數(shù)據(jù)點(diǎn)處于不同簇中。聚類中可以使用多種不同的方法來(lái)計(jì)算相似度。本文使用了聚類算法中的k均值聚類,由于該算法的簡(jiǎn)潔和效率,使得它成為所有聚類算法中最廣泛使用的。該算法首先先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心;然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心,聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類,一旦全部對(duì)象都被分配了,每個(gè)聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過(guò)程將不斷重復(fù)直到滿足某個(gè)終止條件。終止條件可以是以下任何一個(gè):

1)沒(méi)有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類。

2)沒(méi)有(或最小數(shù)目)聚類中心再發(fā)生變化。

3)誤差平方和局部最小。

2.2 實(shí)例分析。本文使用了K均值聚類算法對(duì)玻璃數(shù)據(jù)進(jìn)行分析,這是一種分類簡(jiǎn)單快速的算法,但是也有很大的限制性,比如對(duì)極端值的變化非常敏感?,F(xiàn)在我們假設(shè)只知道關(guān)于玻璃數(shù)據(jù)中9個(gè)特征指標(biāo)的值,通過(guò)使用K均值聚類算法來(lái)將數(shù)據(jù)進(jìn)行分類,最后通過(guò)與真實(shí)分類結(jié)果比較,看分類結(jié)果是否準(zhǔn)確。

2.2.1數(shù)據(jù)集介紹。通過(guò)選取UCI數(shù)據(jù)庫(kù)中的Glass Identification數(shù)據(jù)集進(jìn)行分析,該數(shù)據(jù)集對(duì)玻璃種類分類的研究有利于犯罪學(xué)的調(diào)查研究。該數(shù)據(jù)集包括了用于進(jìn)行玻璃分類的9種特征,分別為折射率(RI)、以及玻璃中的鈉(Na)、鎂(Mg)、鋁(AI)、硅(Si)、鉀(K)、鈣(Ca)、鋇(Ba)、鐵(Fe)含量,所有數(shù)據(jù)都為連續(xù)型變量。

整個(gè)數(shù)據(jù)集共214個(gè)樣本,將玻璃分為7類,分別是經(jīng)過(guò)浮動(dòng)處理的建筑物窗戶、未經(jīng)過(guò)浮動(dòng)處理的建筑物窗戶、經(jīng)過(guò)浮動(dòng)處理的車輛窗戶、為經(jīng)過(guò)浮動(dòng)處理的車輛窗戶(該數(shù)據(jù)集中未出現(xiàn))、容器、餐具、吊燈。

2.2.2數(shù)據(jù)預(yù)處理。為了便于與真實(shí)分類結(jié)果的比較,這里將數(shù)據(jù)集處理為兩種狀態(tài):一種是只包括關(guān)于玻璃的9個(gè)特征指標(biāo)的值,即去掉其中的玻璃分類標(biāo)簽;另一種是只包含玻璃分類的真實(shí)標(biāo)簽。

2.2.3數(shù)據(jù)分析。通過(guò)使用python3.7軟件實(shí)現(xiàn)K均值聚類分析算法,對(duì)玻璃數(shù)據(jù)進(jìn)行分析得出結(jié)果,如圖1。從圖1可以看出,每個(gè)顏色代表一種分類,每一類分類明顯,雖然存在個(gè)別異常值,但是大致將玻璃分為6類,似乎分類結(jié)果還不錯(cuò)。但是將該結(jié)果與真實(shí)結(jié)果比較后發(fā)現(xiàn),準(zhǔn)確率卻只有24.77%,分類效果很不理想。進(jìn)一步觀察分類結(jié)果圖,可以發(fā)現(xiàn)有很多點(diǎn)都偏離各簇,這說(shuō)明了K均值聚類可能因其非常容易受異常值的影響,導(dǎo)致分類不準(zhǔn)確。

3 結(jié)論

經(jīng)過(guò)對(duì)K均值算法進(jìn)行實(shí)例分析,發(fā)現(xiàn)該算法雖然原理簡(jiǎn)單,容易實(shí)現(xiàn),但是有許多需要改進(jìn)的地方,其中一點(diǎn)是對(duì)噪聲和離群值非常敏感,還有一點(diǎn)就是收斂太慢,只是收斂到了局部最小值,而并非全局最小值(局部最小值指結(jié)果還可以但并非最好結(jié)果,全局最小值是可能的最好結(jié)果)。

為克服K-均值算法收斂于局部最小值的問(wèn)題,所以可以引入二分K-均值對(duì)算法進(jìn)行優(yōu)化,該算法首先將所有點(diǎn)作為一個(gè)簇,然后將該簇一分為二,之后選擇其中一個(gè)簇繼續(xù)進(jìn)行劃分,選擇哪一個(gè)簇進(jìn)行劃分取決于對(duì)"其劃分是否可以最大程度降低SSE(Sum of Squared Error,誤差平方和)的值,上述基于SSE的劃分過(guò)程不斷重復(fù),直到得到用戶指定的簇?cái)?shù)目為止。

上述的K-均值算法以及二分K-均值算法并非僅有的聚類算法, 另外稱為層次聚類的方法也被廣泛使用。

【參考文獻(xiàn)】

[1] 易燕飛.基于K-means聚類的數(shù)據(jù)分析.現(xiàn)代制造技術(shù)與裝備.2017,4:8-13.

猜你喜歡
數(shù)據(jù)分析分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
我校如何利用體育大課間活動(dòng)解決男生引體向上這個(gè)薄弱環(huán)節(jié)
Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營(yíng)銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營(yíng)銷模式的影響
主站蜘蛛池模板: 国产成人禁片在线观看| 免费毛片全部不收费的| 国产乱视频网站| 亚洲首页在线观看| 欧美综合一区二区三区| 日韩免费视频播播| 色综合综合网| 日本不卡在线播放| 欧美h在线观看| 伊人天堂网| 亚洲人成人伊人成综合网无码| 国模私拍一区二区三区| 国产美女91呻吟求| 婷婷成人综合| 亚洲国产天堂久久综合| 国产手机在线ΑⅤ片无码观看| 无码'专区第一页| 无码AV高清毛片中国一级毛片| 精品国产黑色丝袜高跟鞋| 欧美精品啪啪| 无码在线激情片| 爱爱影院18禁免费| 欧美www在线观看| 中文字幕 日韩 欧美| 色哟哟国产精品| 国产91导航| 一本大道香蕉高清久久| 日韩美毛片| 高清精品美女在线播放| 国产成人精品一区二区三区| 嫩草国产在线| 欧美人人干| 国产综合色在线视频播放线视 | 伊人久热这里只有精品视频99| 国产成人综合亚洲网址| 深爱婷婷激情网| 欧美一区二区精品久久久| 中文字幕波多野不卡一区| 久久网欧美| 永久在线精品免费视频观看| 永久免费无码日韩视频| 免费观看国产小粉嫩喷水| 欧美中文字幕无线码视频| 国产精品久线在线观看| 婷婷色中文| 99热这里只有精品在线播放| 中国毛片网| 成人免费网站久久久| 国产在线观看人成激情视频| 日韩精品无码不卡无码| 国产日韩久久久久无码精品| 波多野结衣亚洲一区| 久久国产精品夜色| 亚洲黄色网站视频| 麻豆精品在线视频| 精品久久久久久中文字幕女| 在线欧美一区| 国产精品无码一二三视频| 亚洲精品免费网站| 亚洲精品国产精品乱码不卞| 亚洲日韩精品无码专区97| 国产欧美日韩精品第二区| 亚洲性影院| 国产在线一区二区视频| 国产高清无码麻豆精品| 日韩不卡免费视频| 中文字幕伦视频| 97精品久久久大香线焦| 成年片色大黄全免费网站久久| 亚洲色偷偷偷鲁综合| 大陆国产精品视频| 69国产精品视频免费| 亚洲第一页在线观看| 性69交片免费看| 亚洲黄色成人| 手机在线免费毛片| 亚洲欧美在线看片AI| 91精品国产综合久久香蕉922 | 国产乱人免费视频| 欧美综合一区二区三区| 久久久久国产精品嫩草影院| 亚洲自拍另类|