999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于離群點檢測(LOF)的K-means算法*

2019-09-03 08:57:18李丹寧王雅潔
通信技術 2019年8期
關鍵詞:分類

楊 紅 ,李丹寧 ,王雅潔

(1.貴州大學 大數據與信息工程學院,貴州 貴陽 550025;2.貴州省食品安全檢測應用工程技術研究中心有限公司,貴州 貴陽 550022)

0 引 言

伴隨著大數據時代的發展,各種數據信息呈現出爆炸式的增長,計算機軟硬件的不斷升級,讓各種數據層出不窮,為了更好的利用數據中隱藏的信息,數據挖掘技術順應時代的發展出現在了學者與研究人員的視野。進而聚類分析也再次出現在了潮流的前沿,在圖像處理、模式識別、病毒入侵檢測等等習以為常的地方總是能夠出現蕨類分析的身影。應用廣泛、理論基礎扎實、方便實用等優點,使得聚類分析幾十年來一直是研究者們的心頭所愛。

以劃分為目的的算法更是頻頻出現在各種場合,為人們解決了無數問題。而K-means作為其中最具有代表性的算法,被列入了“十大經典算法”,其產生的價值自然不必都說。雖說K-means 算法易于實現,速度理想,然而人無完人,金無足赤,該算法也理所當然的存在些許不盡如人意的地方:(1)初始聚類中心是隨機產生,進而直接導致聚類結果也存在隨機性,準確性低;(2)聚類個數K值不好確定,K值的選取直接決定了聚類結果的準確度;(3)數據集中離群點的存在也會影響聚類結果,如若將離群點選為初始中心點,不僅僅會降低速度,增加時間復雜度,甚至可能會出現錯誤[1-2]。

很多學者針對K-means存在的不足之處提出了相應的改進方法。楊莉云等[3]提出引入謝林模型,使孤立點能夠自動移動到其鄰居所在位置,消除孤立點,但是此方法對數據集進行了改變,數據集發生了變化。唐澤坤等[4]在K-means算法的基礎上權衡了密度和距離對聚類的影響,對數據進行加權處理,在權值基礎上引入“最小最大原則”選擇初始聚類中心,自動確定類中心個數。以上方法都在一定程度上對算法的聚類結果進行了優化。

1 K-means算法

聚類算法是一種無監督學習算法;何謂的無監督學習?簡而言之,就是輸入的數據沒有標簽,目標是通過對無標簽數據的學習來了解數據之間的內在聯系和本質,為下一步的數據處理及數據分類提供扎實的基礎。其算法步驟如下:

輸入無標簽數據集X,聚類數K;

i:在數據集中隨機選取K個樣本作為初始質心;

ii:分別計算數據集中每個樣本對象Xm到K個質心的歐式距離;

iii:找到與每個樣本對象Xm距離最小的質心ci,同時將該樣本對象Xm歸為與ci相同的簇中;

iv:計算同一簇中的平均值,所得即為新的質心;

v:重復i-iv,直到質心不再發生改變

通常對于歐式空間的樣本數據,以平方誤差和(Sum of Squared Error,SSE)作為聚類的目標函數,同時也可以衡量不同聚類結果的好壞。

表示樣本點x到簇點中心ci的的距離平方和,最優的聚類結果應使得SSE達到最小值[5]。

K-means算法具有執行效率高、易于實現等優點,但是分類效果會受到多種因素的影響,如數據集本身、K值的確定,初始簇中心的確定等等。

為了使最終輸出的聚類效果更加理想,文中提出利用離群點檢測算法先對數據進行預處理,剔除算法檢測出的離群點,然后再用K-means算法對處理過的數據集進行分類。

2 離群點檢測(Local Outlier Factor,LOF)算法

在數據挖掘方面,數據正式使用之前通常要進行預處理,本文便利用離群點檢測算法對數據進行了預處理,既對數據集中的離群點進行篩選,目的是減小異常點對聚類效果的影響,提高算法效率。離群點檢測算法原理介紹如下:

LOF算法相關定義:

(1)d(A,O)點A與點O之間的歐式距離。

(2)第k距離(k-distance)

點A的第k距離dk(A):dk(A)=d(A,O),從通俗意義上來講,A的第k距離,就是距離A第k遠的點到A的距離(不包括A本身)。

(3)第k距離領域(k-distance neighborhood)

點A的第k距離領域,就是以A為圓心,以第k距離為半徑的區域以內的所有點(包括圓上的點)。因此A的第k領域點的個數至少是k個。

(4)可達距離(reach-distance)

點O到點A的第k可達距離定義為:

也就是點O到點A的第k可達距離取dk(A)與d(A,O)兩者之間的較大值。

(5)局部可達密度(local reachability density)

點A的局部可達密度表示為:

表示點A的第k領域內的點的平均可達距離的倒數。

Irdk(A)代表一個密度,密度越高,代表A周圍的點越多,顯而易見,我們認為A越可能與周圍的點屬于同一簇,相反,密度越低越可能是離群點。概括來說就是,局部可達密度與成為離群點的概率成反比。

(6)局部離群因子(Local Outlier Factor)

點A的局部離群因子表示為:

點A的鄰域點Nk(p)的局部可達密度與點A的局部可達密度之比的平均數。

如果這個比值越接近1,說明A的其鄰域點密度差不多,A可能和鄰域同屬一簇;如果這個比值越小于1,說明A的密度高于其鄰域點密度,A為密集點;如果這個比值越大于1,說明A的密度小于其鄰域點密度,A越可能是異常點[6]。

3 LOF-K-means算法介紹

為了優化算法,本文提出了利用離群點檢測算法(LOF)對離群點進行篩選,其算法步驟如下:

輸入:數據集X,聚類數K;

輸出:聚類結果;

i 將LOF算法應用與iris數據集,得到每個數據的局部離群因子,從而得到一個密集點數據集iris-1和一個離群點數據集iris-2;

ii 用K-means算法對數據集iris-1進行聚類,得到該數據集的聚類結果;

iii 將數據集iris-2直接按iris-1的結果進行分類,無需重新計算質心,進行循環;

iv 輸出最終分類結果。

算法流程圖如圖1所示。

在本文提出的算法中也對傳統K-means的準則函數進行了改進,傳統準則函數僅僅考慮到類內的相似性,改進后的準則函數將類與類之間的差異性也做了充分考慮[7]。

其中,SSE1為傳統K-means算法中的準則函數,僅考慮類間相似度,d(ci,cj)為第i個質心和第j個質心間的歐式距離。

SSE2由類間距離和類內距離共同決定。類內距離小的同時類間距離大的聚類結果則是理想的聚類結果。SSE2的值與類內聚類成正比,與類間距離成反比。既分子越小,分母越大,SSE2的值就越小,聚類效果就越好。

圖1 LOF-K-means流程

4 實驗仿真與分析

為驗證文中算法的有效性及合理性,本文選用了UCI標準數據集中的鳶尾花卉數據集(iris)進行仿真實驗。該數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性,文中利用二維數據集進行實驗,篩選了數據屬性中的前2個屬性,即花萼長度和花瓣寬度。

iris數據集原圖如圖2所示。開始未對數據進行預處理,直接采用K-means對數據集分類,其中k=4,分類結果如圖3所示。

圖2 iris數據集原圖

圖3 iris數據集K-means分類

之后采用離群點檢測算法(LOF)對數據集進行預處理,篩選并剔除原數據集10%(15個)的離群點之后再利用K-means分類,結果如圖4所示。

圖4 LOF分類結果

本文采用質心兩兩之間距離的平均值來衡量類間的離散程度,質心之間的距離越大說明類間的離散程度越大,聚類效果越好,仿真結果如表1所示,由表1的數據可以看出,本文的算法比傳統的K-means算法得出的分類效果類間距離更大,類間離散效果更理想。

表1 4個質心兩兩之間距離的平均值

同時以平方誤差和(SSE)作為目標函數來評價類內聚合度。兩種算法得到的聚類效果分析數據如表2所示,由表2可知,從整體來看,本文算法得到的SSE小于傳統K-means算法得到的SSE,4種聚類結果的平方誤差和分別在原來的基礎上提高了41%、29%、46%、40%,類內聚合度平均提高了39%。由此來看本文采用的算法在提高類內聚合度上表現良好,可以在較大程度上使類內的聚合效果更加理想。

表2 兩種算法SSE比較

5 結 語

本文提出了將離群點檢測算法與K-means算法相結合,對數據集進行預處理之后再進行分類的算法,巧妙地避免了離群點對聚類效果帶來的不良影響,同時對傳統的準則函數進行了改進,本文采用的準則函數不僅考慮到了類內的相似度,也考慮到了類與類之間的差異性,使得聚類結果進一步優化。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 欧美成a人片在线观看| 日韩欧美中文字幕在线精品| 又黄又爽视频好爽视频| 国产成人超碰无码| 亚洲第一区精品日韩在线播放| 国产呦视频免费视频在线观看 | 天天色综网| 国产精品思思热在线| 五月婷婷亚洲综合| 亚洲国产av无码综合原创国产| 国产真实乱人视频| 国产精品v欧美| 中文字幕中文字字幕码一二区| 91免费国产在线观看尤物| 国产午夜不卡| 日韩性网站| 国产精品蜜芽在线观看| 亚洲成a人片| 特级aaaaaaaaa毛片免费视频| 综合亚洲色图| 国产午夜精品鲁丝片| 精品免费在线视频| 在线欧美一区| 国产精品第| 国产a网站| 国产精品部在线观看| 狠狠久久综合伊人不卡| 亚洲AV无码久久精品色欲| 99久久精彩视频| 国产乱码精品一区二区三区中文| 日韩最新中文字幕| 久久久四虎成人永久免费网站| 美臀人妻中出中文字幕在线| 另类欧美日韩| 国产导航在线| 在线免费看片a| 国内精品视频| 视频二区中文无码| 黄色网址手机国内免费在线观看| a级毛片免费播放| 国产精品hd在线播放| 中文无码影院| 日韩精品一区二区三区中文无码| 亚洲欧美激情小说另类| 男女男免费视频网站国产| 亚洲αv毛片| 欧美一区二区三区不卡免费| 久久福利网| 91久久夜色精品| 国产主播一区二区三区| 巨熟乳波霸若妻中文观看免费| 亚洲天堂久久| 久久久精品国产SM调教网站| 亚洲无码高清免费视频亚洲| 国产一级一级毛片永久| 欧美成人一区午夜福利在线| www.亚洲天堂| 亚洲一区二区三区中文字幕5566| 亚洲中文字幕在线一区播放| 99久久精品视香蕉蕉| 亚洲大学生视频在线播放| 亚洲精品自拍区在线观看| 欧美一级夜夜爽www| 成人午夜视频网站| 国产91丝袜在线播放动漫 | 欧美天堂在线| 国产一级毛片yw| 国产精品无码作爱| 国模在线视频一区二区三区| 中文字幕色在线| 亚洲人精品亚洲人成在线| 超级碰免费视频91| 99热这里只有成人精品国产| 91精品国产一区自在线拍| 久久久久久久久亚洲精品| 亚洲最黄视频| 91亚洲国产视频| 久久国产精品电影| 日韩欧美一区在线观看| 婷婷色在线视频| 美女高潮全身流白浆福利区| 97国产精品视频自在拍|