陳愛國,王士同
(1.江南大學 數字媒體學院,江蘇 無錫 214122; 2.香港理工大學 計算機系,香港 九龍 999077)
基于極大熵的知識遷移模糊聚類算法
陳愛國,王士同
(1.江南大學 數字媒體學院,江蘇 無錫 214122; 2.香港理工大學 計算機系,香港 九龍 999077)
針對傳統(tǒng)的聚類算法在樣本數據量不足或樣本受到污染情況下的聚類性能下降問題,在經典的極大熵聚類算法(MEKTFCA)的基礎上,提出了一種新的融合歷史聚類中心點和歷史隸屬度這兩種知識的基于極大熵的知識遷移模糊聚類算法。該算法通過學習由源域總結出來的有益歷史聚類中心和歷史隸屬度知識來指導數據量不足或受污染的目標域數據的聚類任務,從而提高了聚類性能。通過一組模擬數據集和兩組真實數據集構造的遷移場景上的實驗,證明了該算法的有效性。
知識遷移;極大熵;聚類算法;極大熵聚類;模糊聚類
聚類是一種常用的數據分析方法,在人工智能、模式識別和機器學習等領域[1-3]一直受到廣泛關注。聚類作為一種無監(jiān)督的數據分析技術,通過數據之間的疏密程度,將數據劃分到不同的數據簇中,使得簇內的數據之間關系比較緊密,而簇之間的數據關系比較疏遠。根據聚類使用方法的不同,將聚類分成常見的一些類別:基于劃分的聚類算法[4-7]、基于層次的聚類算法[8-9]、基于密度的聚類算法[10-11]、基于圖論的聚類算法[12]等。這些聚類算法在針對特定的數據集進行聚類時,通常能獲得理想的聚類效果。但這些聚類性能的有效獲得都離不開一個必要前提,那就是進行聚類時的數據必須是充分的,換句話說,這些聚類算法不適合處理數據不充分的情況。
但在實際生產、生活中,數據不充分的情況或數據受到污染的情況往往普遍存在。例如,在一個新領域收集數據之初,數據往往是不充足的。又或者由于受到硬件設備的不穩(wěn)定性或環(huán)境等一些因素的影響,可能會采集到受噪聲干擾的失真數據。對于不充足的數據和受到污染的數據進行聚類分析時,如果直接采用傳統(tǒng)聚類方法,往往會造成聚類結果的不理想,甚至有時會出現聚類失效的結果。
如何有效解決數據量不足和數據受污染情況下的數據聚類性能問題,是近年來研究工作者的方向之一。其中,知識遷移[13]機制的引入是一種有效手段。知識遷移機制是指將歷史數據(也稱為源域)中提煉的有益知識應用到對當前數據(也稱為目標域)聚類任務的指導,用于提高當前數據的聚類結果。歷史數據與當前數據之間既存在著聯系,也存在著明顯的差別。目前,應用知識遷移機制來提高聚類性能的代表性算法有:在多任務中使用共享子空間進行聚類的LSSMTC算法[14]、使用K均值組合方法的CombKM算法[14]、使用自學習遷移機制的STC聚類算法[15]、使用特征和樣本協同機制的Co-clustering聚類算法[16]及遷移譜聚類TSC算法[17]。這些基于知識遷移的聚類算法雖然提高了一定的聚類性能,但離實際應用還有一定差距,且這些聚類算法在進行聚類任務時需要完整的歷史數據集,這在一些特殊場合,如保密需要,完整的歷史數據是不可能獲得的。所以,研究一種有隱私保護的高效遷移聚類算法具有必要性和實用性。
本文在經典的MECA聚類算法的基礎上,通過對MECA算法的目標函數進行改造,使其具有學習歷史知識的能力,進而提高算法在樣本量不充分或受到污染情況下聚類的性能。
在傳統(tǒng)C均值聚類算法的基礎上,通過引入具有明確物理含義的熵,產生出了具有簡潔的數學表達式和明確物理含義特點的極大熵模糊聚類算法。極大熵模糊聚類算法有很多種不同的表達形式,其中文獻[6-7]給出的是經典的極大熵模糊聚類算法,其具體表述如下。
式中:xi表示第i個樣本點;vj表示第j類中心點;μij表示第i個樣本點隸屬于第j類的程度;‖xi-vj‖2表示第i個樣本點與第j類中心點的距離;α是正則化系數,由μij構成隸屬度矩陣U∈RN×C,由vj構成中心點矩陣V∈Rd×C。
采用拉格朗日條件極值優(yōu)化方法解得式(1)的最優(yōu)聚類中心V和隸屬度U的迭代公式為

根據上述推導,總結出MECA算法的具體步驟如下:
輸入 數據集X,分類數C,正則化系數α,最大迭代次數T,終止閾值ε。
輸出 最優(yōu)隸屬度U和聚類中心V。
1)初始化迭代計數器t=0,隨機初始化隸屬度矩陣U(0)。
2)根據式(2)和1)的隸屬度矩陣U(t)獲得新的類中心V(t)。
3)根據式(3)和2)獲得的類中心V(t)計算得新的隸屬度U(t+1)。
4)當‖U(t+1)-U(t)‖<ε或者t>T時算法終止,否則跳轉到2)。
通過觀察MECA算法的具體步驟可以看出,原始的MECA算法不具有知識遷移的能力。
MECA算法在數據量充足時,可以使用上述迭代過程獲得有效的類中心和隸屬度。但當樣本量不充足或樣本被污染的情況下,直接使用MECA算法獲得的聚類中心往往嚴重偏離實際聚類中心,甚至有時會出現聚類失效的情況。因此,在數據量不足或數據受到污染情況下,研究有效的聚類算法,具有必要性和實際價值。
在知識遷移理論[13]中,當源域數據和目標域數據既存在一定的相關性,同時又存在著明顯的差異時,可通過對源域有益知識的充分利用來指導目標域任務更好地完成。本文嘗試通過將數據量充分的源域知識遷移至數據量不足或被污染的目標域的聚類任務中,來提高目標域的聚類性能。
為了實現源域知識到目標域遷移的目的,需要解決3個核心問題:
1)遷移什么知識;
2)如何遷移;
3)什么時候遷移。
首先,解決源域到目標域遷移什么知識的問題。在基于劃分的聚類算法中,隸屬度和聚類中心點是對聚類結果具有決定性作用的兩個因素。故本文選擇隸屬度和聚類中心點作為被遷移的知識。
其次,需要解決如何才能實現將源域的隸屬度和聚類中心點知識遷移到目標域的聚類任務中的問題。我們通過以下兩個規(guī)則來實現。
1)隸屬度重要程度受約束規(guī)則
該規(guī)則對應的公式為

2)聚類中心點變化最小規(guī)則
該規(guī)則的公式為

根據上述分析,針對經典MECA算法不具有知識遷移能力的不足,本文在MECA算法的基礎上結合上述兩個規(guī)則,提出基于極大熵知識遷移模糊聚類算法,即MEKTFCA算法。該算法的原理如圖1。

圖1 MEKTFCA算法原理圖Fig.1 Overall framework of MEKTFCA algorithm
MEKTFCA算法首先對源數據集,通過經典的MECA算法獲得歷史聚類中心,然后根據目標數據集和所獲得的歷史聚類中心,通過再次使用經典的MECA算法獲得歷史隸屬度,最后通過MEKTFCA算法和歷史聚類中心及歷史隸屬度獲得最終的聚類結果。
融入了隸屬度重要程度受約束規(guī)則和聚類中心點變化最小規(guī)則得到的MEKTFCA算法的具體目標函數為

其中

MECA算法的正則化熵項。同時,根據式(6)~(8)可以發(fā)現,當隸屬度重要程度受約束規(guī)則的平衡因子λ=1而且聚類中心點變化最小規(guī)則的平衡因子β=0這種特殊情況時,MEKTFCA算法就退化為經典的MECA算法。MEKTFCA算法的本質是,通過調節(jié)平衡因子λ和β的大小,來調整歷史隸屬度和歷史類中心點對當前聚類任務的影響,從而改善由于數據量不足和數據被污染情況下直接采用MECA算法造成聚類結果不理想的情況。
2.1 參數求解
式(6)的參數求解問題,即為在有約束條件下求解最優(yōu)的參數使得目標函數值最小。與MECA求最優(yōu)解方法相同,我們采用拉格朗日乘子法進行求解,首先構造拉格朗日函數表達式,即
式中ηi為Lagrange乘子。

因為有約束條件
將式(10)代入式(11)可得
將式(12)代入式(10)可得隸屬度的迭代公式為

2.2 算法步驟
根據上述的推導過程所獲得的隸屬度和聚類中心點的迭代公式,給出MEKTFCA算法的具體步驟如下。
輸出 最優(yōu)隸屬度U和聚類中心V。
2)初始化迭代計數器t=0。
3)根據式(14)計算得到新的聚類中心V(t)。
4)根據式(13)計算得到新的隸屬度矩陣U(t+1)。
5)當‖U(t+1)-U(t)‖<ε或者t>T時算法終止,否則跳轉到3)。
以上算法步驟同時回答了實現知識遷移中的第3個核心問題:什么時候遷移。通過算法步驟可以看到,在算法不斷迭代過程中,隸屬度和中心點的迭代公式中使用到了歷史隸屬度知識和歷史類中心點知識。從而在算法的迭代過程中實現了知識的遷移。
3.1 實驗設置
為驗證本文所提MEKTFCA算法的有效性,將構造一組模擬數據集和兩組真實數據集作為實驗所使用的遷移場景。同時,選擇6種相關算法作為對比算法,對它們的聚類性能進行比較。這6種算法為:在多任務中使用共享子空間進行聚類的LSSMTC算法[14],使用K均值組合方法的CombKM算法[14],使用自學習遷移機制的STC聚類算法[15],使用特征和樣本協同機制的Co-clustering聚類算法[16],遷移譜聚類TSC算法[17]以及經典的MECA算法[6-7]。
為了對聚類算法的結果進行客觀比較,本文采用統(tǒng)一的NMI[18](normalized mutual information)和RI[19](rand index)兩種指標對實驗結果進行評價。NMI的計算公式為
式中:N代表數據集的樣本數目;Np代表聚類到p類的樣本數目;Nq代表類標簽為q的樣本數目;Np,q代表同時聚類到p類和類標簽為q的樣本數目。RI評價指標的計算公式為
式中:N00代表擁有不同類標簽的兩個樣本聚類到不同類別中的個數;N11代表擁有相同類標簽的兩個樣本聚類到相同類別中的個數。上述兩種評價指標值的變化范圍都為[0,1],且值越大,代表其算法的聚類性能越好。
在MEKTFCA算法中,涉及兩個平衡因子λ和β如何取值的問題。本文采用網格搜索進行遍歷尋優(yōu),其尋優(yōu)的范圍及其他對比算法的參數設置值如表1所示。

表1 算法參數設置值
本實驗所采用的環(huán)境是:Intel i7-5600U 2.60 GHz 8 GB RAM;Windows 8 64 bit;MATLAB R2012b。實驗所列結果數據均是在運行10次后求得的平均值。
3.2 模擬數據集實驗結果和分析
該實驗是通過構造的模擬數據集來驗證本文所提的MEKTFCA算法在樣本量不足和受污染情況下聚類算法的有效性。本實驗構造了一組源數據集S和3組目標數據集T1、T2、T3,其中源數據集和所有的目標數據集均包含3類2維的數據,這些數據的生成均采用高斯概率分布模型函數,生成時所使用的均值、方差及每個類別包含的樣本數如表2所示。
構造的源數據集S共含有1 500個樣本,這個數據集數據量充足,并且能夠從該數據集中提取出對目標數據集的聚類具有指導作用的有用知識。
構造的目標數據集T1共含有90個樣本,只占源數據集S總數據量的6%,用于代表數據量不充足的場景,雖然數據集T1與數據集S的均值存在差異,但它們的方差相同,這用于體現遷移學習中的源數據集與目標數據集之間既存在著相似性,同時也存在著一定的差別的情況。

表2 模擬數據集生成的參數設置
構造的目標數據集T2共含有450個樣本,占源數據集S總數據量的30%。用目標數據集T2來代表目標數據量充分的場景。
構造的目標數據集T3與目標數據集T2的均值、方差和數據量完全相同。不同的是,數據集T3在數據集T2的基礎上增加了方差為2、均值為0的高斯噪聲,用于代表數據量充分但受到了噪聲污染的場景。
上述構造的4組模擬數據集的數據分布如圖2所示。
在上述構造出來的各種遷移場景下,運行MEKTFCA算法和6種對比算法,得到的實驗結果如表3所示。因為TSC算法要求樣本的維數要大于聚類數目,而在模擬數據集上不滿足此條件,所以在表3中我們使用“—”來表示此算法無法運行。

(a)數據集S

(b)數據集T1

(c)數據集T2

(d)數據集T3

場景評價指標LSSMTCCombKMSTCCo-lusteringTSCMECAMEKTFCAS-T1NMI-mean0.67410.75940.15560.7372—0.73720.8024NMI-std0.03631.1703×10-1601.1703×10-16—1.1703×10-160.0022RI-mean0.86740.90240.60520.9014—0.90140.9175RI-std0.01941.1703×10-161.1703×10-162.3406×10-16—2.3406×10-160.0071S-T2NMI-mean0.73430.78760.16940.7719—0.76490.8348NMI-std0.032402.9257×10-170.0099—7.4015×10-170.0019RI-mean0.90590.92150.68790.9195—0.91680.9401RI-std0.012801.1703×10-160.0053—00.0011S-T3NMI-mean0.73460.77370.12610.7615—0.77460.8162NMI-std0.02851.1703×10-1600.0094—1.1703×10-161.1703×10-16RI-mean0.89950.91470.58780.9111—0.91480.9372RI-std0.01081.1703×10-1600.0026—01.1703×10-16
觀察表3的實驗結果可以得出如下結論:
1) 源數據集是S,目標數據集是T1,它們所代表的是數據量不足的場景。從該場景中的實驗結果可以看出,沒有使用任何遷移機制的MECA算法,在數據量不充分的情況下,其聚類性能要明顯比使用了知識遷移的MEKTFCA算法差。因為MECA算法對數據量不充足的數據集進行聚類時,產生的聚類中心將會嚴重偏離實際的聚類中心,進而導致最終的聚類結果不理想。而MEKTFCA算法由于引入了知識遷移機制,在聚類過程中,通過學習由源數據集提取的歷史類中心和歷史隸屬度中的有用知識,有效地改善了由于數據量不足而導致的聚類中心偏移的問題,最終提高了聚類性能。對于另外的4種對比算法,從它們的實驗結果可以看出,雖然這些算法都使用了不同的機制來提高聚類結果,但由于算法本身的限制,在樣本量不充足的場景下,其聚類結果不理想。
2) 源數據集是S,目標數據集是T2,它們所構成的是數據量較充足且無污染的場景。從該場景中的實驗結果可以看出,由于目標數據集T2的數據量較充分,因此所有6種算法均取得比較理想的聚類結果。這也進一步說明了傳統(tǒng)的聚類算法進行有效聚類的前提條件是數據量要充分。在這6種聚類算法中,由于MEKTFCA算法對源數據集所形成的歷史中心點和歷史隸屬度雙重有益知識進行了學習,它的聚類結果要優(yōu)于其他5種算法。
3)源數據集是S,目標數據集是T3,它們構成的是數據量較充分但受到污染的場景。從該場景中的實驗結果可以看出,當數據受到污染時,其余5種對比算法的聚類性能要明顯差于本文提出的MEKTFCA算法。因為數據集T3受到了污染,從而導致數據產生失真,數據集的聚類中心產生了顯著的偏移,數據類別之間的界限變得模糊,最終使得這五種聚類算法的聚類性能不夠理想。MEKTFCA算法在進行聚類時,通過調整兩個平衡因子的權重來學習源數據集中有益的歷史中心點知識和歷史隸屬度知識,這種遷移知識的學習機制提高了MEKTFCA算法在數據被污染情況下的聚類效果。這也使得MEKTFCA算法具有一定的抗噪性能。
3.3 文本數據集實驗結果和分析
第2個實驗基于真實的文本數據集20 Newsgroups(20 NG)[20]構造的目標數據樣本量不足的遷移場景來對MEKTFCA算法的有效性進行進一
步驗證。20 NG數據集包含大約20 000條新聞組信息,均勻地分布在20個不同的集合中。我們選擇這20個集合中的4個來生成兩組實驗用的遷移場景:“comp VS sci”和“rec VS talk”。這兩組遷移場景的數據集構成如表4所示。

表4 文本遷移場景數據集構成
這兩組遷移場景所使用的數據集的來源見表5所示。在構造這兩組遷移場景時,源數據集和目標數據集之間有一定的相似性,同時又有明顯的不同。如構造的“comp VS sci”遷移場景第1類的源數據集和目標數據集都來自同樣的“comp”大類,但它們的子類是完全不同的。第2類的源數據集和目標數據集與此類似。因為20 NG數據集的原始數據的維數較大,因此實驗之前我們使用工具BOW[21]對其進行了降維處理。本文所提的MEKTFCA算法及其6種對比算法在此數據集上的實驗結果如表6。

表5 文本遷移場景的數據集來源

表6 文本遷移場景中7種聚類算法性能對比
觀察表6的實驗結果可以得出如下結論:
1) MEKTFCA算法和TSC算法在遷移場景“comp VS sci”上的聚類結果較其他5種算法的聚類結果優(yōu)勢明顯。其他5種算法中,MECA算法的聚類結果最好,LSSMTC算法次之,Co-clustering算法、STC算法和CombKM算法的聚類結果明顯差于其他算法。究其原因,主要是由于在此構造的真實場景上MEKTFCA算法和TSC算法的遷移學習機制比其他算法更有效。
2) MEKTFCA算法和TSC算法在構造的遷移場景“rec VS talk”上的聚類結果具有同樣明顯的優(yōu)勢,而其他5種算法的聚類結果卻差很多。MECA算法因為在此遷移場景下,目標數據集的樣本量不足,且沒有引入任何遷移學習機制,導致最終的聚類結果較差。STC算法、CombKM算法、LSSMTC算法和Co-clustering算法盡管都使用了不同的遷移學習機制,但在此遷移場景下的效果不明顯,所以它們的聚類結果也明顯較差。而MEKTFCA算法和TSC算法在此遷移場景上的知識遷移效果明顯,故取得較好的聚類結果。
3) 進一步觀察表6的實驗結果可以發(fā)現,MEKTFCA算法在所構造的兩組遷移場景上的聚類性能都明顯高于經典的MECA算法,這主要是因為MEKTFCA算法是在MECA算法的基礎上通過改變兩個平衡因子的大小來調整對歷史中心點和歷史隸屬度知識的學習權重。因為對遷移知識的有效學習,所以保證了MEKTFCA算法的聚類效果始終要比MECA算法的聚類效果好。
3.4 入侵檢測數據集實驗結果和分析
最后一個實驗使用的是真實的入侵檢測數據集KDDCup99[22],使用該數據集形成一個目標數據集樣本量不足的場景,通過將MEKTFCA算法應用到該場景,再次驗證該算法的有效性。KDDCup99數據集來源于美國林肯實驗室建立的一個模擬網絡環(huán)境中收集的網絡連接和審計數據。數據集中的數據包含不同類型的用戶、各種不同類型的網絡流量以及各種類型的網絡攻擊。該數據集共收集了9周時間的數據,其中7周時間的數據作為訓練數據,約含有5 000 000個網絡連接數據,另外2周時間的數據作為測試數據,約含有2 000 000個網絡連接數據。整個數據集中的訓練數據集和測試數據集之間有著不同的概率分布,即整個數據集具有一定的相似性,同時也存在著一定的差異性,滿足知識遷移應用的條件。本文基于KDDCup99數據集構造的知識遷移場景只選擇了數據集中常見的5種類型(Normal、smurf、Neptune、satan、ipsweep)作為源數據集和目標數據集的類別,選擇每條網絡連接記錄中的32個連續(xù)型的特征屬性作為樣本數據的維度,源數據集的樣本來自原始的訓練數據集,目標數據集的樣本來自原始的測試數據集。目標數據集的樣本數量只占源數據集的樣本數量的10%,且樣本數量不大,表征的是目標數據集樣本量不足的情況。具體的入侵檢測遷移場景的數據集的樣本個數、數據的維數和類別如表7所示。

表7 入侵檢測遷移場景的數據集構成
MEKTFCA算法和其他6種對比算法在該入侵檢測數據集知識遷移場景上的執(zhí)行結果如表8所示。

表8 入侵檢測遷移場景上7種聚類算法性能對比
觀察表8實驗結果可以看出,MEKTFCA算法在兩大性能指標NMI和RI的均值要明顯高于其他6種對比算法。與上述兩個實驗結果分析的原因相同,MEKTFCA算法由于從源數據集中學習了有益的歷史中心點和歷史隸屬度知識,并對目標數據集的聚類過程形成有效指導,進而使得MEKTFCA算法在目標數據集樣本量不足的情況下仍能取得比其他6種算法更好的聚類性能。這同時也進一步驗證了對歷史知識的有效學習對當前聚類任務的有效完成具有促進作用。
由于傳統(tǒng)聚類算法在數據樣本量不足或數據受污染的情況下,其聚類效果往往不理想甚至失效,本文在經典的MECA算法的基礎上通過引入知識遷移機制,提出了基于極大熵的知識遷移模糊聚類算法,即MEKTFCA算法。MEKTFCA算法通過引入的知識遷移機制使得在對數據量不足或受污染的目標域數據進行聚類時能夠有效學習源域中有益的歷史中心點和歷史隸屬度知識,進而提高了最終的聚類結果。通過一組模擬數據集和兩組真實的數據集上的實驗結果,可以得出本文所提MEKTFCA算法較6種相關算法在聚類性能上有明顯的優(yōu)越性。本文的創(chuàng)新點主要是,在MECA算法的基礎了提出了一個新的知識遷移方法,該方法能有效解決實際生活中數據短缺和有噪聲數據場景下的聚類性能問題。此外,本文所提的MEKTFCA算法也存在著局限性,如在不同應用場景下兩個平衡參數如何進行有效確定的問題。這也是我們對該算法進行進一步研究的方向。
[1]CARIOU C, CHEHDI K. Unsupervised nearest neighbors clustering with application to hyperspectral images[J]. IEEE journal of selected topics in signal processing, 2015, 9(6): 1105-1116.
[2]ALI A, BOYACI A, BAYNAL K. Data mining application in banking sector with clustering and classification methods[C]//Proceedings of 2015 International Conference on Industrial Engineering and Operations Management. Dubai, UAE, 2015: 1-8.
[3]LI Shuai, ZHOU Xiaofeng, SHI Haibo, et al. An efficient clustering method for medical data applications[C]//Proceedings of 2015 IEEE International Conference on Cyber Technology in Automation, Control, and Intelligent System. Shenyang, China, 2015: 133-138.
[4]LIKAS A, VLASSIS N, VERBEEK J J. The global k-means clustering algorithm[J]. Pattern recognition, 2003, 36(2): 451-461.
[5]BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[M]. New York: Springer, 1981: 43-93.
[6]KARAYIANNIS N B. MECA: maximum entropy clustering algorithm[C]//Proceedings of the 3rd IEEE International Conference on Fuzzy Systems. Orlando, USA, 1994, 1: 630-635.
[7]LI Ruiping, MUKAIDONO M. A maximum-entropy approach to fuzzy clustering[C]//Proceedings of 1995 the 4th IEEE International Conference on Fuzzy System. Yokohama, Japan, 1995, 4: 2227-2232.
[8]ZHANG Tian, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[C]//Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. New York, NY, USA, 1996: 103-114.
[9]GUHA S, RASTOGI R, SHIM K. CURE: an efficient clustering algorithm for large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York, NY, USA, 1998: 73-84.
[10]ESTER M, KRIEGEL H P, SANDER J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proceeding of the Second International Conference on Knowledge Discovery and Data Mining. Portland, Oregon, USA, 1996: 226-231.
[11]ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: ordering Points to Identify the Clustering Structure[C]//Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data. Philadelphia, Pennsylvania, USA, 1999: 49-60.
[12]ARIAS-CASTRO E, CHEN Guangliang, LERMAN G. Spectral Clustering based on local linear approximations[J]. Electronic journal of statistics, 2011, 5: 1537-1587.
[13]PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 2010, 22(10): 1345-1359.
[14]GU Quanquan, ZHOU Jie. Learning the shared subspace for multi-task clustering and transductive transferclassification[C]//Proceedings of Ninth IEEE International Conference on Data Mining. Miami, FL, USA, 2009: 159-168.
[15]DAI Wenyuan, YANG Qiang, XUE Guirong, et al. Self-taught clustering[C]//Proceedings of the 25th International Conference on Machine Learning. New York, NY, USA, 2008: 200-207.
[16]GU Quanquan, ZHOU Jie. Co-clustering on manifolds[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2009: 359-368.
[17]JIANG Wenhao, CHUNG F L. Transfer spectral clustering[M]//FLACH P A, BIE T D, CRISTIANINI N. Machine Learning and Knowledge Discovery in Databases. Berlin Heidelberg: Springer, 2012: 789-803.
[18]JING Liping, NG K M, HUANG J Z. An entropy weighting k-means algorithm for subspace clustering of high-dimensional sparse data[J]. IEEE transactions on knowledge and data engineering, 2007, 19(8): 1026-1041.
[19]LIU Jun, MOHAMMED J, CARTER J, et al. Distance-based clustering of CGH data[J]. Bioinformatics, 2006, 22(16): 1971-1978.
[20]DAI Wenyuan, XUE Guirong, YANG Qiang, et al. Co-clustering based classification for out-of-domain documents[C]//Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA, 2007: 210-219.
[21]MCCALLUM A K. Bow: a toolkit for statistical language modeling, text retrieval, classification and clustering[EB/OL]. 1996. http://www.cs.cmu.edu/mccallum/bow.
[22]BAY S D, KIBLER D, PAZZANI M J, et al. The UCI KDD archive of large data sets for data mining research and experimentation[J]. ACM SIGKDD explorations newsletter, 2000, 2(2): 81-85.
A maximum entropy-based knowledge transfer fuzzy clustering algorithm
CHEN Aiguo1,2, WANG Shitong1
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Department of Computing, Hong Kong Polytechnic University, Kowloon 999077,China)
To address the issue of clustering performance degradation when traditional clustering algorithms are applied to insufficient and/or noisy data, a maximum entropy-based knowledge transfer fuzzy clustering algorithm is proposed. This improves the classical maximum entropy clustering algorithm for target domains by leveraging two kinds of knowledge from the source domain, i.e., historical clustering centers and historical degree of membership, into the objective function proposed for clustering insufficient and/or noisy target data. The effectiveness of the proposed algorithm is demonstrated by experiments on several synthetic and two real datasets.
knowledge transfer; maximum entropy; clustering algorithms; maximum entropy clustering; fuzzy clustering

陳愛國,男,1975年生,博士研究生,主要研究方向為模式識別與機器學習。

王士同,男,1964年生,教授,博士生導師,中國離散數學學會常務理事,中國機器學習學會常務理事,主要研究方向為人工智能、模式識別和生物信息。發(fā)表學術論文近百篇,其中被SCI、EI檢索50余篇。
2016-02-04.
日期:2017-02-27.
國家自然科學基金項目(61272210);江蘇省杰出青年基金項目(BK20140001);江蘇省自然科學基金項目(BK20130155).
陳愛國. E-mail:agchen@jiangnan.edu.cn.
10.11992/tis.201602003
http://kns.cnki.net/kcms/detail/23.1538.TP.20170227.1758.006.html
TP274
A
1673-4785(2017)12-0095-09
陳愛國,王士同.基于極大熵的知識遷移模糊聚類算法[J]. 智能系統(tǒng)學報, 2017, 12(1): 95-103.
英文引用格式:CHEN Aiguo,WANG Shitong. A maximum entropy-based knowledge transfer fuzzy clustering algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(1): 95-103.