自適應(yīng)參數(shù)調(diào)整的近鄰傳播聚類算法

2018-07-04 10:37:34王衛(wèi)濤錢雪忠曹文彬

小型微型計算機系統(tǒng) 2018年6期

王衛(wèi)濤,錢雪忠,曹文彬

1(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院智能系統(tǒng)與網(wǎng)絡(luò)計算研究所,江蘇無錫 214122)

2(物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇無錫 214122)

3(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)

1 引言

聚類分析是對一組數(shù)據(jù)對象或者物理對象進行處理,最終將對象分成幾類,使得同一類對象之間的相似度更大,不同類對象之間的相似度更小.聚類分析已經(jīng)應(yīng)用在了數(shù)據(jù)挖掘,圖像壓縮,圖像邊緣檢測,基因識別,面部識別和文檔檢索等領(lǐng)域.在聚類分析的發(fā)展過程中,相繼提出了k-means,DBSCAN,FCM等一系列的聚類算法,近鄰傳播算法作為一個新型的聚類算法,2007年Frey和Dueck在Science上發(fā)表了Points Clustering by Passing Messages Between Data,系統(tǒng)闡述了近鄰傳播聚類算(Affinity Propagation,AP)的原理和應(yīng)用.與其他聚類方法相比,近鄰傳播算法不需要事先設(shè)定聚類的個數(shù),不需要初始化聚類中心點,是一種快速有效的聚類算法,但是在研究的過程中,發(fā)現(xiàn)近鄰傳播算法的偏向參數(shù)和聚類個數(shù)對最終聚類結(jié)果的準確性影響很大.當(dāng)偏向參數(shù)越大時,最終的聚類個數(shù)就會越多,偏向參數(shù)越小,最終聚類的個數(shù)就會越少.傳統(tǒng)AP算法選擇相似度矩陣的均值作為偏向參數(shù),對于任意分布的數(shù)據(jù)集,相似度矩陣的均值并不是最好的選擇;同時該算法聚類的類數(shù)與實際類數(shù)有差異,如何使得聚類個數(shù)更接近真實類數(shù),同時不影響聚類準確性,這也是一個需要討論的熱點.

針對上述問題,Kaijun Wang[1]提出了自適應(yīng)近鄰傳播聚類(AAP),該方法基于梯度下降自適應(yīng)的選擇偏向參數(shù),然而當(dāng)以固定步長掃描p的空間時,無法精確的獲得全局最優(yōu)解;Xian-hui Wang[2]提出了基于粒子群智能算法自適應(yīng)搜索最佳的偏向參數(shù)(PAAP);B.Jia[3]提出了基于布谷鳥智能算法自適應(yīng)搜索最佳的偏向參數(shù)(CAAP);Libin Jiao[4]提出了基于黃金分割和遺傳算法自適應(yīng)搜索最佳的偏向參數(shù)(GS-AP,GA-AP).文獻[2,3,4]中提到優(yōu)化算法固然在一定程度山可以找到最優(yōu)解,但是算法時間復(fù)雜度過大;Ping Li[5]提出在近鄰傳播算法的迭代過程中增加兩個指標,動態(tài)改變偏向參數(shù)的值(APAP).近鄰傳播算法不需要事先指定聚類個數(shù),但是為了使得聚類結(jié)果盡可能與真實情況保持一致,可以事先指定聚類的個數(shù)k來約束近鄰傳播算法,Wang Y[8],Zhang X[9]提出事先指定k個簇,來對近鄰傳播算法進行約束.

本文針對上述提到的問題,提出了GKAAP算法.首先,通過灰色狼群算法在傳統(tǒng)AP算法迭代過程中動態(tài)調(diào)整偏向參數(shù);然后,根據(jù)新的偏向參數(shù),通過二分查找算法實時的調(diào)整偏向參數(shù)的搜索區(qū)間,接著利用當(dāng)前的吸引度和歸屬度信息繼續(xù)迭代;最后由于聚類的個數(shù)無法與準確的類數(shù)保持一致,所以通過事先指定數(shù)據(jù)集的真實簇數(shù)k來對聚類結(jié)果進行約束調(diào)整.上述提到的PAAP,GS/GA-AP,CAAP并沒有從時間維度和簇個數(shù)維度來考量算法的優(yōu)劣,僅僅從聚類準確率的維度來考量.而本文提出的改進算法(GKAAP)不僅從聚類準確性的層面考慮,又基于算法時間復(fù)雜度的層面考慮.通過對比實驗的綜合比較,GKAAP算法相比AP,AAP,PAAP,GS/GA-AP,CAAP具有更好的性能.

2 近鄰傳播算法(AP)

近鄰傳播聚類算法不需要事先指定聚類的中心點,把所有的樣本點作為候選聚類中心點.近鄰傳播聚類算法主要利用數(shù)據(jù)集中任意兩個樣本點之間的相似度進行迭代計算.其中相似度的定義為兩個樣本點之間歐式距離平方的負數(shù),計算相似度矩陣的公式如下:

s(i,j)=-‖xi-xj‖

(1)

在近鄰傳播算法中需要設(shè)置偏向參數(shù)的值,默認設(shè)置為相似度矩陣的均值,即p=median(s).該算法在計算過程中引入了歸屬度矩陣A(Availability)和吸引度矩陣R(Responsibility),在算法迭代過程中兩個信息矩陣不斷的迭代更新.其中:A=(a(i,j))m×n,a(i,j)是樣本點j向樣本點i發(fā)送的信息值,表示為樣本點i選擇樣本點j作為聚類中心點的合適程度;R=(r(i,j))m×n,r(i,j)是樣本點i向樣本點j發(fā)送的信息值,表示為樣本點j作為樣本點i聚類中心點的合適程度.歸屬度矩陣和吸引度矩陣的迭代更新的計算公式如下:

r(i,k)=s(i,k)-max{a(i,j)+s(i,j)}j∈{1,2,…,N|j≠k}

(2)

r(k,k)=p(k)-max{a(k,j)+s(k,j)}j∈{1,2,…,N,j≠k}

(3)

(4)

(5)

在計算歸屬度矩陣相似度矩陣過程中,為了防止震蕩,引入了阻尼因子λ來增強算法的穩(wěn)定性,計算公式如下:

r(i,k)(t+1)=λ.r(i,k)(t)+(1-λ)·r(i,k)(t-1)

(6)

a(i,k)(t+1)=λ.a(i,k)(t)+(1-λ)·a(i,k)(t-1)

(7)

根據(jù)以上公式迭代計算歸屬度矩陣和吸引度矩陣,最終使得聚類目標函數(shù)最大化,其中聚類目標函數(shù)如下:

(8)

式(8)中,ci為樣本點i的聚類中心點,C是由ci組成的向量,i=1,2,…,N(N為樣本點個數(shù)),S(C)為所有樣本點到各自的聚類中心點的相似度之和.其中δk(C)計算公式如下:

(9)

此式為一致性約束懲罰項,如果有某個樣本點i選擇k作為其聚類中心點,即ci=k,那么樣本點k必定選擇自身為聚類中心點,即ck=k,否則函數(shù)取值-∞,使得樣本點i在下次迭代中不再選擇樣本點k作為自身的聚類中心點.

迭代結(jié)束之后通過計算A+R的值來確定聚類中心點,當(dāng)(r(k,k)+a(k,k))>0時,樣本點k即為聚類中心點.各個樣本點的聚類中心點ci的計算公式如下:

(10)

該式表示為每個樣本點選擇歸屬度和吸引度加和最大的聚類中心點作為自身的聚類中心點.

3 灰色狼群算法(GWO)

3.1 算法描述

Mirialili于2014年提出了GWO算法.在GWO優(yōu)化算法中,種群中當(dāng)前最優(yōu)個體記為α,第二優(yōu)和第三優(yōu)的個體分別記為β和δ,剩余個體記為ω,獵物的位置對應(yīng)于全局最優(yōu)解.在捕食過程中,通過式(12)對獵物進行包圍:

D=|2.r1.Xp(t)-X(t)|

(11)

其中,2.r1為擺動因子(r1為[0,1]之間的隨機數(shù)),Xp(t)為第t次獵物的位置,X(t)為第t次灰狼個體的位置.利用式(13)對灰狼位置進行更新:

X(t+1)=Xp(t)-A.D

(12)

其中,A為收斂因子,A=2.a.r2-a,r2為[0,1]之間的隨機數(shù),a隨著迭代次數(shù)線性遞減到0.

由式(14)計算出α、β、δ與其他灰狼個體的距離,然后由式(15)計算出個體向獵物移動的方向:

(13)

(14)

3.2 GWO算法的優(yōu)勢

GWO算法是靈感來自灰狼的元啟發(fā)式算法.灰狼算法通過比較得到各個灰狼社會等級提出了三個候選解決方案,用來獲取更優(yōu)值.灰狼算法通過狼群和食物的位置來控制搜索方向,更好的提高了算法的優(yōu)化效率.與其他進化算法相比,GWO算法的種群之間具有更好的信息共享能力,該算法需調(diào)整的參數(shù)較少,避免了針對各種問題人工調(diào)整參數(shù)的繁瑣,更好的適用于各種目標函數(shù).為了評估GWO的優(yōu)化能力,本文對比了遺傳算法(GA),粒子群算法(PSO),螢火蟲算法(FA),布谷鳥算法(CS),蝙蝠算法(BA).表1給出了五個benchmark測試函數(shù),其中D為維數(shù),fmin為最優(yōu)的.對比實驗見圖1到圖3.

對比實驗見圖1到圖3.

表1 三個benchmark測試函數(shù)Table 1 Three test functions of benchmark

圖1 測試函數(shù)F1的對比圖Fig.1 Comparison chart of the test function F1

圖2 測試函數(shù)F2的對比圖Fig.2 Comparison chart of the test function F2

圖3 測試函數(shù)F3的對比圖Fig.3 Comparison chart of the test function F3

benchmark測試函數(shù)是群體智能算法測試的通用性函數(shù),具有較強的可信性,其中,迭代次數(shù)從200次增加到2000次.從對比結(jié)果可以看出,GA、PSO、FA、CS、BA算法在求解最優(yōu)值時都有較大的波動,而通過GWO算法求解的五個測試函數(shù)的最優(yōu)值幾乎都處于0值附近,F1函數(shù)在迭代200次、400次和1200次時,GA要好于GWO,在其他迭代次數(shù)時,GWO最優(yōu);F2函數(shù)在所有迭代次數(shù)中,FA和GWO都是最優(yōu),但GWO要略好于FA;F3函數(shù)在所有迭代次數(shù)中,GA、FA、CS、GWO四種方法非常接近,都要優(yōu)于PSO和BA.從三組對比實驗來看,GWO算法相比其他進化算法擁有較強的全局搜索能力.

4 GKAAP算法

4.1 算法描述

從3.2中可知GWO算法相對其他算法的優(yōu)勢,AP算法的偏向參數(shù)可以作為GWO算法種群的位置,在初始化種群的位置后,進行迭代,在迭代過程中根據(jù)新調(diào)整的偏向參數(shù)去計算Fitness,用Fitness去比較α、β、δ個體的值,同時去更新種群中該三個最優(yōu)個體的位置,同時計算出種群的搜索方向,最終會搜索出最優(yōu)的位置,即AP算法中的偏向參數(shù).所以本文算法利用灰色狼群優(yōu)化算法的思想去動態(tài)調(diào)整偏向參數(shù).

為了保證實驗的效果更好,偏向參數(shù)需要在合理的范圍內(nèi)浮動,根據(jù)實驗觀察,當(dāng)偏向參數(shù)的范圍為[10pm～0.1pm]時,實驗效果更好.其中pm為相似度矩陣的均值.

在隨機選取種群之后,挑選其中最優(yōu)個體的位置作為算法的初始輸入.在迭代過程中,當(dāng)歸屬度矩陣(A)和吸引度矩陣(R)更新之后,利用灰色狼群優(yōu)化算法調(diào)整偏向參數(shù).在此算法中,偏向參數(shù)的值作為灰色狼群算法的一維輸入,灰狼的位置X(t)以及獵物的位置D都通過偏向參數(shù)來計算.

調(diào)整偏向參數(shù)之后,為了加快搜尋更合理的偏向參數(shù),需要對偏向參數(shù)的搜索區(qū)間進行調(diào)整.本文利用二分查找算法思想來動態(tài)調(diào)整搜索區(qū)間,通過當(dāng)前的偏向參數(shù)與中間值、上限、下限的比較來調(diào)整搜索區(qū)間.如果新調(diào)整的偏向參數(shù)p在[plb～pmid]范圍內(nèi),并且f(pmid)>f(pub),則有pub=pmid;如果p在[pmid～pub]范圍內(nèi),并且f(pmid)>f(plb),則有plb=pmid;如果p在[pmid-r～pmid+r]范圍內(nèi),則搜索區(qū)間不變.然后更新pmid,pmid=p,更新之后,進入下一次迭代.

其中,plb為搜索區(qū)間的下限,pmid為搜索區(qū)間的中間值,pub為搜索區(qū)間的上限,r為浮動系數(shù),本文設(shè)置為0.05,f為適應(yīng)度函數(shù).調(diào)整區(qū)間之后,以當(dāng)前的r(i,j)和a(i,j)作為起點,繼續(xù)下次的迭代,直到迭代終止.

(15)

K′′=K′-K

(16)

其中ε為閾值,本文設(shè)置為20,當(dāng)k′>ε時,K為全集K′,可以防止k′過大,影響程序的性能.

然后根據(jù)樣本點之間的相似度,分別計算出集合K′′與K中最接近的樣本點Cm,同時合并兩個類簇,最接近的樣本點Cm的計算公式如下:

(17)

其中,k為集合K元素的個數(shù),T為迭代次數(shù),本文設(shè)置為100,S(Cil,Ci)為樣本點Cil和樣本點Ci的相似程度.在計算出最接近點Cm后,更新Cil的標簽,同時生成臨時的聚類標簽組合idx′,當(dāng)算法迭代k′′(集合K′′的元素個數(shù))次之后,最終形成新的標簽組合idx′,如果f(idx′)>f(idx),則有idx=idx′,反之,idx=idx.

綜上所述,算法的偽代碼見表2.

表2 GKAAP算法Table 2 Algorithm of GKAAP

4.2 適應(yīng)度函數(shù)選取

在采用灰狼調(diào)整偏向參數(shù)時,適應(yīng)度函數(shù)的選取至關(guān)重要,本文選取蘭德指數(shù)(Rand index,RI)作為適應(yīng)度函數(shù),蘭德指數(shù)可以通過原始標簽和聚類標簽來計算最終的聚類性能.蘭德指數(shù)計算公式(13):

(18)

其中,f00表示數(shù)據(jù)點具有不同的類標簽并且屬于不同類的配對點數(shù)目;f11表示數(shù)據(jù)點具有相同的類標簽并且屬于同一類的配對點數(shù)目,N表示整個數(shù)據(jù)樣本的總量大小.RI取值范圍為[0,1],值越大意味著聚類算法的性能越優(yōu)越.

文獻[1,2,3,4]中提到輪廓系數(shù)(Silhouette)作為適應(yīng)度函數(shù),輪廓系數(shù)計算公式如下:

(19)

a(t)為聚類Cj中的樣本點t與Cj內(nèi)所有其他樣本點的平均距離,b(t)=min{d(t,Ci)},Sill為第l簇的silhouette.其中,i=1,2,…,Ki≠j,d(t,Cj)為Cj的樣本點t到另一個類Ci的所有樣本點的平均距離.

從公式(18)中可以看出輪廓系數(shù)引入了樣本點之間的距離,而不同的數(shù)據(jù)集適用于不同的距離計算規(guī)則,所以很難用一個統(tǒng)一的方式去計算輪廓系數(shù).同時從公式(17)、(18)可以看出蘭德指數(shù)是有標簽的評價指標,而輪廓系數(shù)是無標簽的評價指標,經(jīng)過大量實驗證明有標簽的評價指標要優(yōu)于無標簽的評價指標.所以經(jīng)過分析以蘭德指數(shù)(RI)作為適應(yīng)度函數(shù)更加合適.

4.3 偏向參數(shù)調(diào)整分析

本文在3.2通過測試函數(shù)驗證了灰狼算法有較強的全局搜索能力.為了驗證GKAAP算法在搜索偏向參數(shù)時,同樣具有很好的全局搜索能力.本文選取2個UCI數(shù)據(jù)集和ORL來對比其他五個算法.為了避免算法的隨機性,對比實驗都運行10次,取均值.對比結(jié)果見圖4到圖6.縱坐標p是偏向參數(shù),內(nèi)側(cè)標注的數(shù)字為偏向參數(shù)對應(yīng)的類數(shù).

圖4 Wine數(shù)據(jù)集的對比圖Fig.4 Comparison chart of Wine data set

圖中p_lower是最優(yōu)偏向參數(shù)區(qū)間的下限,p_upper是最優(yōu)偏向參數(shù)區(qū)間的上限.其中p_lower和p_upper是經(jīng)過大量的人工實驗得到的.

從圖4可以看出,AP、AAP、PAAP均沒有在最優(yōu)的區(qū)間內(nèi),PAAP有3次靠近最優(yōu)區(qū)間邊緣,CAAP和GS/GA-AP均有1次在最優(yōu)區(qū)間內(nèi),而GKAAP則有6次在最優(yōu)區(qū)間內(nèi).

從圖5可以看出,其他五個算法均沒有在最優(yōu)區(qū)間內(nèi),AAP、PAAP、CAAP、GS/GA-AP均比AP更靠近最優(yōu)區(qū)間的邊緣,而GKAAP則有9次在最優(yōu)區(qū)間內(nèi).

圖5 Soybean數(shù)據(jù)集的對比圖Fig.5 Comparison chart of Soybean data set

從圖6看出,AP和AAP均沒有在最優(yōu)區(qū)間內(nèi),PAAP有3次在最優(yōu)區(qū)間內(nèi),GS/GA-AP有2次在最優(yōu)區(qū)間內(nèi),GKAAP有5次在最優(yōu)區(qū)間內(nèi),而CAAP則全部在最優(yōu)區(qū)間內(nèi).圖6中最優(yōu)區(qū)間的范圍很小,說明在搜索時達到范圍邊緣時需要進行局部搜索,CAAP局部搜索能力要優(yōu)于GKAAP,但是GKAAP的局部搜索能力還是要明顯優(yōu)于其他四種算法.從這三個對比實驗可以看出,在搜索近鄰傳播算法偏向參數(shù)時,本文提出的GKAAP算法具有更強的全局搜索能力.

圖6 ORL數(shù)據(jù)集的對比圖Fig.6 Comparison chart of ORL data set

5 實驗結(jié)果與分析

不同指標往往具有不同的量綱和單位,這樣會影響數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱的影響,本文對數(shù)據(jù)集進行了歸一化處理.本文選取了11個數(shù)據(jù)集,其中10個UCI數(shù)據(jù)集和ORL人臉數(shù)據(jù)庫.數(shù)據(jù)集信息見表3及圖7.其中,ORL人臉庫由劍橋大學(xué)AT&T實驗室創(chuàng)建.該庫由40位志愿者,每人10幅圖像組成,每張圖像分辨率為112×92,人臉的尺度有10°的變化,深度旋轉(zhuǎn)和平面旋轉(zhuǎn)可達20°.

表3 數(shù)據(jù)集信息Table 3 Information of data set

圖7 三組ORL人臉示意圖Fig.7 Map of three groups of ORL faces

5.1 評價指標

為了更加客觀的反映聚類算法的優(yōu)劣,本文選取F-Measure作為算法的評價指標,F-Measure是由precision(精確率)和recall(召回率)共同表示,準確率(F-Measure)通常用來表示聚類準確性的優(yōu)劣.計算公式如下:

圖8 六種方法聚類類數(shù)與真實類數(shù)對比圖Fig.8 Comparison chart of six kinds of clusters with real

表4 F-measure、時間、類數(shù)對比表Table 4 Table chart of F-measure,Time,clusters

(20)

5.2 準確率、時間、類數(shù)分析

本文從準確率、時間、聚類類數(shù)三個維度對AP,AAP,PAAP,CAAP,GS/GA-AP,GKAAP做了對比.實驗為了避免算法的隨機性,每個算法運行10次,取均值.其中,F為準確率(F-measure),Time單位為秒(S).表4為數(shù)據(jù)對比,圖8為六種方法的聚類類數(shù)與真實類數(shù)的對比.

從準確率來看,GKAAP算法在這11個數(shù)據(jù)集上,相比其他5種算法有了明顯的提升,雖然在haberman數(shù)據(jù)集上AAP算法要好于GKAAP,但是GKAAP在該數(shù)據(jù)集要明顯優(yōu)于其他通過進化算法改進的AP.

從算法運行時間來看,由于原始AP算法沒有動態(tài)調(diào)整偏向參數(shù)所以在算法運行時間上要好于其他算法.AP,AAP,GKAAP的算法時間復(fù)雜度都為O(T),其中,GKAAP需要考慮優(yōu)化偏向參數(shù)時適應(yīng)度函數(shù)的計算時間,所以在運行時間上要多于AP,AAP.但GKAAP算法相比PAAP、CAAP、GS/GA-AP等通過進化算法改進的算法還是有了明顯的縮短,PAAP,CAAP,GS/GA-AP算法時間復(fù)雜度為O(T.N),由于在調(diào)整新的偏向參數(shù)后利用當(dāng)前的A和R的值,會加快算法的收斂,所以在時間復(fù)雜度上要優(yōu)于PAAP,CAAP,GS/GA-AP.

從聚類類數(shù)以及圖8的對比來看,GKAAP算法的聚類相比其他五種算法更接近真實的類數(shù).在ionosphere數(shù)據(jù)集上當(dāng)偏向參數(shù)減少到類數(shù)為4時,準確率為最好,如果繼續(xù)減少則準確率下降,所以GKAAP算法在該數(shù)據(jù)集的最終結(jié)果的類數(shù)要多于真實類數(shù),但是比其他算法更接近真實類數(shù).從4.2可知,本文算法在調(diào)整偏向參數(shù)時,總是可以找到最優(yōu)的偏向參數(shù).在輸出聚類結(jié)果之后,通過指定數(shù)據(jù)集的簇數(shù)對聚類結(jié)果進行約束調(diào)整使得聚類結(jié)果的類數(shù)和準確率更好.最后從聚類準確率、算法運行時間、聚類類數(shù)這三個維度來看,本文提出的GKAAP算法顯然性能是最優(yōu)的.

5.3 效果圖分析

為了能夠更加直觀地看出六種聚類算法優(yōu)劣,本文通過聚類效果圖展示的形式,來更加直觀的反映表4數(shù)據(jù)的有效性.為了更好的顯示聚類效果,本文通過PCA將數(shù)據(jù)集降至2維,從而可以在二維平面上顯示最終的聚類結(jié)果.本文選取Wine數(shù)據(jù)集做效果圖展示的對比.

其中Wine數(shù)據(jù)集有178個樣本點,13維屬性,3類數(shù)據(jù),其對比效果見圖9到圖14.

圖9 原始數(shù)據(jù)集分布圖Fig.9 Raw dataset distribution

圖10 Wine通過原始AP算法聚類效果圖Fig.10 Clustering effect map of Wine by AP

圖11 Wine通過AAP算法聚類效果圖Fig.11 Clustering effect map of Wine by AAP

由圖9-圖14知,AP聚10類,AAP聚8類,PAAP和GS/GA-AP均聚6類,CAAP聚4類,而GKAAP聚3類，與Wine的類數(shù)相符，且聚類后樣本點分布的區(qū)域與原始數(shù)據(jù)集分布很接近,區(qū)域密度也類似,類與類間很少交叉.AP、AAP、PAAP、CAAP、GS/GA-AP都有3個點被作為孤立點,被單獨聚為一類.證明這幾種方法在處理一些邊緣數(shù)據(jù)點時效果很差.

圖12 Wine通過PAAP和GS/GA-AP算法聚類效果圖Fig.12 Clustering effect map of Wine by PAAP or GS/GA-AP

圖13 Wine通過CAAP算法聚類效果圖Fig.13 Clustering effect map of Wine by CAAP

圖14 Wine通過GKAAP算法聚類效果圖Fig.14 Clustering effect map of Wine by GKAAP

從圖中直觀地看出GKAAP算法對傳統(tǒng)AP算法有明顯改進,同時相比較本文中提到其他的改進算法也有明顯的改進，結(jié)合表4的數(shù)據(jù)分析說明GKAAP具有很好的聚類性能.

6 結(jié)束語

本文介紹了近鄰傳播(AP)和灰色狼群(GWO)的原理與步驟,同時介紹了通過指定的數(shù)據(jù)集簇數(shù)進行約束調(diào)整的方法.然后對基于灰色狼群算法自適應(yīng)調(diào)整偏向參數(shù)(GKAAP)的問題進行建模和求解.最后在UCI數(shù)據(jù)集和ORL人臉數(shù)據(jù)庫上進行了對比實驗.證明了本文所研究的方法既能有效的調(diào)節(jié)偏向參數(shù),找出最優(yōu)的偏向參數(shù),同時使得最終的聚類與真實類數(shù)更加的接近,又能相比其他優(yōu)化算法縮短運行時間,使得最終的聚類效果達到更優(yōu).

：

[1] Wang K,Zhang J,Li D,et al.Adaptive affinity propagation clustering[J].Acta Automatica Sinica,2007,33(12):1242-1246.

[2] Wang X,Qin Z,Zhang X.Automatically affinity propagation clustering using particle swarm[J].Journal of Computers,2010,5(11):1731-1738.

[3] Jia B,Yu B,Wu Q,et al.Adaptive affinity propagation method based on improved cuckoo search[J].Knowledge-Based Systems,2017,111(C):27-35.

[4] Jiao L,Zhang G,Wang S,et al.Optimal preference detection based on golden section and genetic algorithm for affinity propagation clustering[J].International Journal of Distributed Sensor Networks,2015,9204 (64):253-262.

[5] Li P,Ji H,Wang B,et al.Adjustable preference affinity propagation clustering[J].Pattern Recognition Letters,2016,85(420):72-78.

[6] Hang W,Chung F L,Wang S.Transfer affinity propagation-based clustering[J].Information Sciences,2016,348(1176):337-356.

[7] Wang C D,Lai J H,Suen C Y,et al.Multi-exemplar affinity propagation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(9):2223-2237.

[8] Wang Y,Chen L.K-MEAP:Multiple exemplars affinity propagation with specified K clusters[J].IEEE Transactions on Neural Networks and Learning Systems,2015,27(12):1-13.

[9] Zhang X,Wang W,Norvag K,et al.K-AP:generating specified K clusters by efficient affinity propagation[C].IEEE International Conference on Data Mining (ICDM),2010 IEEE 10th International Conference on IEEE,2010:1187-1192.

[10] Wei Z,Wang Y,He S,et al.A novel intelligent method for bearing fault diagnosis based on affinity propagation clustering and adaptive feature selection[J].Knowledge-Based Systems,2017,116(C):1-12.

[11] Emary E,Zawbaa H M,Grosan C.Experienced gray wolf optimization through reinforcement learning and neural networks[J].IEEE Transactions on Neural Networks and Learning Systems,2017,PP(99):1-14.

[12] Li L,Sun L,Guo J,et al.Modified discrete grey wolf optimizer algorithm for multilevel image thresholding[J].Computational Intelligence and Neuroscience,2017,(285-296):1-16.

[13] Bose P,Dou?eb K,Iacono J,et al.The power and limitations of static binary search trees with lazy finger[J].Algorithmica,2016,76(4):1264-1275 |.

[14] Kim S,Heo K,Oh H,et al.Widening with thresholds via binary search[J].Software:Practice and Experience,2015,46(10):1318-1328.

[15] Jiang J,Huang J,Wang X R,et al.Investigating key genes associated with ovarian cancer by integrating affinity propagation clustering and mutual information network analysis[J].European Review for Medical and Pharmacological Sciences,2016,20(12):2532-2540.

[16] Zhou Shi-bing,Xu Zhen-yuan,Tang Xu-qing.A method for determining the optimal number of clusters based on affinity propagation clustering[J].Kongzhi Yu Juece/control & Decision,2011,26(8):1147-1152.

[17] Xu Ming-liang,Wang Shi-tong,Hang Wen-long.A semi-supervised affinity propagation clustering method with homogeneity constraint[J].Acta Automatica Sinica,2015(2):255-269.

[18] Xiao Yu,Yu Jian.Semi-supervised clustering based on affinity propagation algorithm[J].Journal of Software,2008,19(11):2803-2813.

附中文參考文獻：

[16] 周世兵,徐振源,唐旭清.一種基于近鄰傳播算法的最佳聚類數(shù)確定方法[J].控制與決策,2011,26(8):1147-1152.

[17] 徐明亮,王士同,杭文龍.一種基于同類約束的半監(jiān)督近鄰反射傳播聚類方法[J].自動化學(xué)報,2015(2):255-269.

[18] 肖宇,于劍.基于近鄰傳播算法的半監(jiān)督聚類[J].軟件學(xué)報,2008,19(11):2803-2813.

小型微型計算機系統(tǒng)2018年6期

小型微型計算機系統(tǒng)的其它文章: 本刊檢索與收錄; 征稿簡則; AM-BRNN:一種基于深度學(xué)習(xí)的文本摘要自動抽取模型; 多種沉默型P2P蠕蟲共同傳播的建模與分析; 第二十二屆全國網(wǎng)絡(luò)與數(shù)據(jù)通信學(xué)術(shù)會議(NDCC2018)征文通知; 利用Copeland社會選擇理論的在線商品群體評價