999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于偶對約束和馬氏距離的半監(jiān)督模糊聚類算法

2014-10-11 05:06:56李凱王亮周宇飛
河北大學學報(自然科學版) 2014年5期
關(guān)鍵詞:監(jiān)督實驗

李凱,王亮,周宇飛

(河北大學數(shù)學與計算機學院,河北保定 071002)

基于偶對約束和馬氏距離的半監(jiān)督模糊聚類算法

李凱,王亮,周宇飛

(河北大學數(shù)學與計算機學院,河北保定 071002)

研究了基于偶對約束的半監(jiān)督模糊聚類,將馬氏距離引入到半監(jiān)督模糊聚類SCAPC(semi-supervised fuzzy clustering algorithm with pairwise constraints)中,獲得了一種新的半監(jiān)督模糊聚類目標函數(shù),通過求解優(yōu)化問題,提出了一種基于偶對約束和馬氏距離的半監(jiān)督模糊聚類算法M-SCAPC(Modified-SCAPC).針對選擇的標準數(shù)據(jù)集和人工數(shù)據(jù)集,對提出的算法M-SCAPC進行了實驗研究,并與FCM(fuzzy C-means)、AFCC(active fuzzy constrained clustering)和SCAPC算法的聚類性能進行了比較,表明了提出的算法M-SCAPC在收斂速度和正確率方面的有效性.

半監(jiān)督聚類;偶對約束;度量學習;馬氏距離

1 引入馬氏距離的半監(jiān)督聚類算法M-SCAPC

給定一個具有N個樣本的數(shù)據(jù)集X={xi|i∈{1,…,N}},假設(shè)集合X中的樣本點被分為c個簇S1,S2,…,Sc,并記vk(k∈{1,…,c})表示c個聚類中心,uik表示樣本點xi屬于簇Sk的隸屬度,V和U分別表示由聚類中心構(gòu)成的集合與由隸屬度構(gòu)成的矩陣.

歐氏距離較適用于球形數(shù)據(jù),然而該度量受樣本間的相關(guān)性影響較大,在處理非球形數(shù)據(jù)或高維數(shù)據(jù)時聚類效果較差,同時聚類速度也較慢,而馬氏距離在處理相關(guān)性較大的數(shù)據(jù)集時具有較好的效果[6].針對這種情況,研究了使用馬氏距離的半監(jiān)督聚類,獲得了如下的目標函數(shù):

下面給出算法M-SCAPC的描述:

1)初始化最大簇數(shù)Cmax,設(shè)置簇的閾值e和ε,并初始化簇中心和隸屬度;

2)計算協(xié)方差矩陣Ck和馬氏距離;

3)利用式(3)和(4)分別計算參數(shù)β和參數(shù)α;

4)計算各簇的勢,如果簇的勢小于閾值e,則刪除該簇,并減少相應(yīng)簇的數(shù)目;

5)根據(jù)式(2)計算新的隸屬度矩陣,使用(5)更新簇中心;

2 實驗結(jié)果和分析

為了驗證算法M-SCAPC的有效性,選擇了UCI中的數(shù)據(jù)集Iris,Diabetes和Wine;同時也人工生成了數(shù)據(jù)集Data,該數(shù)據(jù)集是一個具有3維且包括150個樣本點,其簇數(shù)為3,每個簇包括50個樣本點.實驗中選取e=7,ε=0.001,從所有樣本點中選取10對約束樣本點,從而獲得約束點對集M和C集合.

2.1 參數(shù)α和β與迭代次數(shù)的關(guān)系

由目標函數(shù)可知,參數(shù)α和β是M-SCAPC算法中決定約束懲罰項的重要程度的參數(shù),為此通過Iris數(shù)據(jù)集對提出算法進行了實驗研究,隨著迭代次數(shù)的增加,α值先增加后減少,直至α值趨于穩(wěn)定.另外,隨著迭代次數(shù)的增加,β值逐漸減小,并且在迭代的初期,β值比較大,說明聚類還不穩(wěn)定,對勢的影響比較大,隨著迭代的進行,聚類數(shù)和β值都逐漸穩(wěn)定下來.另外,β值也受η0的取值影響,η0的取值將影響最終的聚類數(shù)目和迭代次數(shù),結(jié)果如表1所示.

表1 η0值對分類數(shù)目和迭代次數(shù)的影響Tab.1 Influence ofη0on the number of clusters and the number of iterations

從表1中可以看出,η0的取值會影響到算法最終的聚類數(shù)目和收斂速度.Iris正確的簇數(shù)為3,但是當給定初始化最大簇數(shù)Cmax=18和η0取值在[1,2]時,Iris數(shù)據(jù)集的簇數(shù)分別為16,14,13,說明沒有得到正確的簇數(shù),此時目標函數(shù)迭代21次.當η0取值在[4,5]時,最終聚類數(shù)為3,得到了正確的聚類結(jié)果,并且此時平均迭代次數(shù)為18左右.當η0取值在[7,9]時,算法得到的簇數(shù)是1或2,小于正確的簇數(shù)3,說明此時平衡因子的值太大使競爭超過了正常的范圍,此時的迭代次數(shù)為16次.這表明當η0的值越大,算法的迭代次數(shù)越小,實驗結(jié)果表明,當η0在[4,5]取值時會有比較好的聚類結(jié)果.

2.2 聚類收斂速度的比較

針對Iris,Diabetes,Wine和Data數(shù)據(jù)集對算法的聚類收斂速度進行了實驗研究.在對這些數(shù)據(jù)集聚類時,Cmax分別初始化為18,13,18和18,ε=0.001,η0=4.圖1至圖4分別給出了SCAPC和M-SCAPC算法關(guān)于聚類收斂速度的實驗結(jié)果.由圖1可知,SCAPC算法經(jīng)過24次迭代才使目標函數(shù)值穩(wěn)定下來,而MSCAPC算法僅用17次迭代就穩(wěn)定下來,且對于M-SCAPC算法,在第7次迭代時獲得了正確簇數(shù),而SCAPC算法在第8次得到正確的簇數(shù).同樣,由圖2至圖4的實驗結(jié)果可以獲得同樣的結(jié)論.這就表明,MSCAPC算法的收斂速度要優(yōu)于SCAPC算法.

2.3 點對約束與聚類性能的關(guān)系

由目標函數(shù)JM-SCAPC及算法可知,當給定樣本點的標簽信息和實際劃分出來的類屬信息不一致時,則目標函數(shù)中的懲罰項會變大,此時懲罰項會不斷的被調(diào)整,從而在迭代過程中一些錯誤的樣本點會被分到正確的類之中.為了驗證這個結(jié)論,對給定的4個數(shù)據(jù)集,實驗研究了點對約束數(shù)目和聚類結(jié)果的關(guān)系.針對Iris, Diabetes,Wine和Data數(shù)據(jù)集,實驗中η0分別被置為4,5,5.5和6,Cmax=18,ε=0.001,實驗結(jié)果如圖5所示.

圖1 SCAPC算法和M-SCAPC算法在Iris數(shù)據(jù)集上的聚類收斂速度Fig.1 Comparison with convergence speed between SCAPC and M-SCAPC on the Iris data set

圖2 SCAPC算法和M-SCAPC算法在Diabetes數(shù)據(jù)集上的聚類收斂速度Fig.2 Comparison with convergence speed betweenSCAPC and M-SCAPC on the Diabetes data set

圖3 SCAPC算法和M-SCAPC算法在Wine數(shù)據(jù)集上的聚類收斂速度Fig.3 Comparison with convergence speed between SCAPC and M-SCAPC on the Wine dataset

圖4 SCAPC算法和M-SCAPC算法在Data數(shù)據(jù)集上的聚類收斂速度Fig.4 Comparison with convergence speed between SCAPC and M-SCAPC on the Data dataset

圖5 不同數(shù)目的點對約束下的聚類正確率Fig.5 Clustering accuracy with different number of constraints

由圖5可以看到,隨著點對約束(must-link和cannot-link)數(shù)量的增加,M-SCAPC算法的正確率逐漸增高,這表明了約束懲罰項對目標函數(shù)有顯著的調(diào)整作用.當點對約束數(shù)目較少時,聚類結(jié)果的正確率相對較低;當點對約束數(shù)量增加時,聚類結(jié)果的正確率有顯著的提升;當點對約束數(shù)量達到一定值時,聚類結(jié)果逐漸穩(wěn)定,此時,點對約束的數(shù)目對聚類結(jié)果的影響較小.

2.4 不同算法的聚類正確率比較

為了進一步驗證M-SCAPC算法的有效性,選取FCM,AFCC和SCAPC算法進行了實驗比較.實驗中選取10個點對約束,表2給出了不同算法的實驗結(jié)果.可以看出改進的M-SCAPC算法在Iris,Diabetes,Wine和Data數(shù)據(jù)集上明顯提高了聚類結(jié)果的正確率,尤其是對于一些高維數(shù)據(jù)集如Diabetes和Wine獲得了較好的聚類結(jié)果.

表2 不同算法的聚類結(jié)果Tab.2 Clustering results using different algorithms

3 結(jié)論

本文通過應(yīng)用馬氏度量且修改半監(jiān)督模糊聚類算法的目標函數(shù),得到一個改進的半監(jiān)督模糊聚類算法M-SCAPC,并且針對不同的數(shù)據(jù)集Iris、Diabetes、Wine和Data進行了實驗研究.實驗結(jié)果表明改進的算法M-SCAPC顯著地提高了聚類結(jié)果的正確率和收斂速度.另外,與聚類算法FCM,AFCC和SCAPC進行了實驗比較,表明了M-SCAPC算法的有效性.

[1] XIANG Shiming,NIE Feiping,ZHANG Changshui.Learning a Mahalanobis distance metric for data clustering a classification[J].Pattern Recognition,2008,41(12):3600-3612.

[2] BAR-HILLEL A,HERTZ T,SHENTAL N,et al.Learning a Mahalanobis metric from equivalence constraints[J].Journal of Machine Learning Research,2005,6:937 -965.

[3] YIN Xuesong,SHU Ting,QI Huang.Semi-supervised fuzzy clustering with metric learning and entropy regularization[J].Knowledge-Based Systems,2012,35:304-311.

[4] YEUNG D Y,CHANG H.Extending the relevant component analysis algorithm for metric learning using both positive and negative equivalence constraints[J].Pattern Recognition,2006,39(5):1007-1010.

[5] FRIGUI H,KRISHNAPURAM R.Clustering by competitive agglomeration[J].Pattern Recognition,1997,30(7):1109-1119.

[6] GRIRA N,CRUCIANU M,BOUJEMAA N.Semi-supervised fuzzy clustering with pairwise constrained competitive agglomeration[Z].IEEE International Conference on Fuzzy Systems,Reno,Nevada,USA,2005.

[7] GRIRA N,CRUCIANU M,BOUJEMAA N.Active semi-supervised fuzzy clustering[J].Pattern Recognition,2008,41(5):1834 -1844.

[8] GAO Cuifang,WU Xiaojun.A new semi-supervised clustering algorithm with pairwise constraints by competitive agglomeration[J].Applied Soft Computing,2011,11(8):5281-5291.

(責任編輯:孟素蘭)

A semi-supervised fuzzy clustering algorithm based on pairwise constraints and Mahalanobis distance

LI Kai,WANG Liang,ZHOU Yufei
(College of Mathematics and Computer Science,Hebei University,Baoding 071002,China)

The semi-supervised fuzzy clustering based on pair-wise constraints which introduces Mahalanobis distance into SCAPC(Semi-supervised fuzzy Clustering Algorithm with Pairwise Constraints)algorithm is mainly studied.And a new semi-supervised fuzzy clustering objective function is obtained.By solving the optimization problem,a semi-supervised fuzzy clustering algorithm M-SCAPC(Modified SCAPC)based on pairwise constraints and Mahalanobis distance is proposed.And some experimental researches are conducted for M-SCAPC algorithm using the selected standard data set and the artificial data set.Besides,clustering performance on M-SCAPC algorithm are compared with that of FCM(Fuzzy C-Means),AFCC(Active Fuzzy Constrained Clustering)and SCAPC algorithms.From the results,M-SCAPC is effective in the convergence speed and the accuracy.

semi-supervised clustering;pairwise constraints;metric learning;mahalanobis distance

半監(jiān)督聚類是半監(jiān)督學習的一個重要研究方向,它將監(jiān)督聚類和無監(jiān)督聚類的優(yōu)勢結(jié)合起來,利用少量具有監(jiān)督信息的樣本和大量無標簽樣本進行聚類.一般來說,監(jiān)督信息主要有2種形式:一種是偶對約束,例如must-link和cannot-link;另一種是直接給出樣本點的分類標記信息.目前,針對這2種監(jiān)督信息,研究人員提出了許多不同的半監(jiān)督聚類算法,這些方法大體可以歸結(jié)為2種類型:1)將監(jiān)督信息引入到現(xiàn)有的聚類算法中,以此獲得半監(jiān)督聚類算法;2)利用監(jiān)督信息對度量進行學習[13].例如,Bar-Hillel等[2]利用mustlink約束通過學習馬氏度量提出了一種非迭代方法RCA(relevant component analysis),之后,Yeung等[4]針對RCA方法進行了擴展研究,在該方法中同時考慮了must-link約束和cannot-link約束.對于大多數(shù)聚類算法,不論是無監(jiān)督聚類和半監(jiān)督聚類,在聚類時通常都需要事先指定要聚類的簇數(shù),然而在實際問題中,這個值是很難被確定的.關(guān)于這個問題,F(xiàn)rigui等[5]提出了CA(competitive agglomeration)算法,主要通過競爭方法自動計算合適的聚類數(shù)目,遺憾的是該算法的聚類效果較差.為了提高聚類的性能,Grira等[67]將半監(jiān)督聚類方法與CA算法進行有效的結(jié)合,提出了AFCC(active fuzzy constrained clustering)算法.鑒于AFCC算法中的偶對約束懲罰項和CA算法的目標函數(shù)在數(shù)量級上不一致,在聚類過程中可能引起樣本點的隸屬度調(diào)整過度問題.在2011年,Gao等[8]進一步改進了AFCC算法的目標函數(shù),并在此基礎(chǔ)上提出了SCAPC(semi-supervised fuzzy clustering algorithm with pairwise constraints)算法.可以看到,不論AFCC算法還是SCAPC算法,在優(yōu)化問題中的目標函數(shù)都是基于歐氏距離,而歐氏距離僅對球形數(shù)據(jù)有比較好的聚類效果,對于那些非球形或者橢圓形的樣本點數(shù)據(jù),使用這些算法并不能得到較好的聚類結(jié)果.針對這種情況,本文將馬氏距離引入到算法SCAPC的目標函數(shù)中,提出了一種基于馬氏距離的半監(jiān)督模糊聚類算法M-SCAPC(Modified SCAPC).

TP391

A

1000-1565(2014)05-0535-06

10.3969/j.issn.1000 -1565.2014.05.016

2014-01 -09

國家自然科學基金資助項目(61375075);河北省自然科學基金資助項目(F2012201014)

李凱(1963-),男,河北滿城人,河北大學教授,博士,主要從事機器學習、數(shù)據(jù)挖掘等方向研究.E-mail:likai@hbu.edu.cn

猜你喜歡
監(jiān)督實驗
記一次有趣的實驗
微型實驗里看“燃燒”
突出“四個注重” 預(yù)算監(jiān)督顯實效
做個怪怪長實驗
監(jiān)督見成效 舊貌換新顏
夯實監(jiān)督之基
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
績效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監(jiān)督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 色噜噜在线观看| 欧美日本在线一区二区三区| 国产性猛交XXXX免费看| 亚洲欧美在线精品一区二区| 亚洲精品视频在线观看视频| 欧美性猛交一区二区三区| 丝袜国产一区| 国产午夜小视频| 男人的天堂久久精品激情| 免费a级毛片视频| 91久久偷偷做嫩草影院精品| 国产福利小视频高清在线观看| 久久青草免费91观看| 成年人免费国产视频| 亚洲AⅤ综合在线欧美一区| 91精品国产一区| 亚洲一级毛片在线观| 中文字幕乱码中文乱码51精品| 亚洲国产亚洲综合在线尤物| 丁香六月激情综合| 精品国产免费人成在线观看| 国产中文一区a级毛片视频| 久久精品人人做人人爽电影蜜月 | 国产福利在线观看精品| 精品少妇人妻一区二区| 国产不卡一级毛片视频| 国产91精品久久| 亚洲一区二区成人| 欧美笫一页| 国产网站在线看| 青草娱乐极品免费视频| 亚洲中文字幕在线一区播放| 亚洲精品桃花岛av在线| 亚洲成在人线av品善网好看| 亚洲 欧美 中文 AⅤ在线视频| 日本成人在线不卡视频| 国产高清又黄又嫩的免费视频网站| 国产日韩久久久久无码精品| 韩国v欧美v亚洲v日本v| 国产91av在线| 欧美日韩高清| 国产白浆一区二区三区视频在线| 亚洲 欧美 偷自乱 图片| 亚洲全网成人资源在线观看| 美女亚洲一区| 亚洲男人的天堂久久香蕉| 99久久国产精品无码| 日韩精品久久久久久久电影蜜臀| 东京热一区二区三区无码视频| 久久香蕉国产线看精品| 77777亚洲午夜久久多人| 亚洲人在线| 黄色网在线| 亚洲娇小与黑人巨大交| 国产亚洲美日韩AV中文字幕无码成人 | 亚洲国产成人自拍| 97久久精品人人| 久久黄色影院| 国产新AV天堂| 99热这里只有免费国产精品| 香蕉伊思人视频| 中文字幕啪啪| 欧美精品成人| 99re热精品视频国产免费| a在线观看免费| 美女高潮全身流白浆福利区| 少妇精品久久久一区二区三区| 国产成人久视频免费| 伊人久久婷婷| 国产91成人| 国产在线日本| 亚洲人成在线精品| 欧美色伊人| 国产成人免费视频精品一区二区 | m男亚洲一区中文字幕| 少妇极品熟妇人妻专区视频| 亚洲精品少妇熟女| 国产精品视频导航| 丰满人妻久久中文字幕| 亚洲国产成人精品无码区性色| 亚洲日韩AV无码一区二区三区人| 伊人激情久久综合中文字幕|