基于成對約束的半監督聚類方法

2019-11-12 09:37:10陶性留王曉瑩

網絡安全與數據管理 2019年11期

陶性留，俞璐，王曉瑩

(1.陸軍工程大學通信工程學院，江蘇南京 210007；2.陸軍工程大學指揮控制工程學院，江蘇南京 210007)

0 引言

現實社會中，面臨的數據越來越多，越來越寬泛，越來越復雜，同樣數據特征的維度也越來越高。如何去挖掘有價值的信息一直是廣受關注的熱點。聚類是數據挖掘和模式識別的重要工具，它是將數據樣本劃分為不同的簇，使同一簇的數據樣本具有較高的相似性，常見的方法有K-means[1-2]、FCM[3-4]等。而半監督聚類[5]作為半監督學習的一個重要分支，它以無監督的聚類算法為基礎，通過利用少量的監督信息來提高聚類的性能。目前，半監督聚類中常見的先驗知識表現為部分樣本的類標簽信息或是反映兩樣本是否歸于同一簇的成對約束信息。所謂成對約束關系具體分為兩種：

(1)兩個樣本同屬于一個簇團(必須鏈接集Must-link，ML);

(2)兩個樣本屬于不同簇團(不能鏈接集Cannot-link，CL)。很顯然，這是一種相對較弱的指導信息，因為判斷兩個樣本是否屬于同一簇團要比判斷它們分屬于哪個簇團更加容易。通常可以通過生活經驗或者常識來判斷。

基于成對約束的半監督聚類方法的基本思想是利用先驗監督信息來調整樣本數據之間的作用力，根據少量被正確劃分的樣本數據，促使其近鄰能被正確地劃分，進而實現整個數據集的劃分。該聚類算法通常在經典的算法框架下，合理設計出目標函數再進行一定程度的優化之后得到更加符合實際，更加令人滿意的聚類算法。本文考慮在之前研究的FCM-NMF[6]算法上添加成對約束條件，以使聚類性能得到進一步的提高。

1 相關工作

1.1 NMF算法[7]

(1)

(2)

其中⊙是Hadamard積運算符，代表矩陣對應元素相乘。這時用系數矩陣HT代替原始矩陣，就可以實現對原始矩陣進行降維，從而減少存儲空間，減少計算資源。

1.2 基于非負矩陣分解和模糊C均值的聚類方法(FCM-NMF)

通過利用非負矩陣分解獨特的優勢，不僅可以進行降維，而且物理意義明確。但也有可能破壞數據樣本之間的本質結構，影響聚類效果。為了減少負面影響，希望在NMF壓縮樣本數據的過程中進行模糊聚類。對于大量高維數據，通過NMF提取樣本的本質特征，同時保留作FCM模糊分析聚類，提出了新的聚類算法FCM-NMF。它將NMF分解對原始數據樣本的影響加入到FCM的目標函數中，由交替迭代產生的新的低維表示矩陣可以用來描述樣本之間的本質關系。改進目標函數如下：

(3)

式(3)中，λ≥0是平衡系數;第一項表示模糊C均值聚類框架，第二項表示利用NMF算法處理原始數據的過程對聚類的影響程度。

使用梯度下降法和交替迭代法解得各變量的更新公式如下：

(4)

i=1,2,···,c;j=1,2,···,n

(5)

i=1,2,···,c;j=1,2,···,n

(6)

(7)

H=H⊙[1×sum(Uf)]T

1.3 基于非負矩陣分解的約束聚類[8]

基于非負矩陣分解的約束聚類的主要思想在于：當給定數據集X、必須鏈接集ML和不能鏈接集CL時，希望通過借助非負矩陣分解的手段，在FCM-NMF的聚類框架中去尋找帶有先驗知識信息的系數表示矩陣H。可以構造以下目標函數：

(8)

其中定義了監督矩陣R，它是由先驗知識構成的，反映了樣本i與樣本j之間的成對約束關系。

(9)

Must-link上兩點之間的相似性被強制近似為1，CL上兩點之間的相似性被強制近似為0。同時定義了價值系數矩陣A，其元數α與β表示所確定的ML與CL的重要性，其數值在0～1之間。

(10)

HHT是可以近似監督矩陣R，從而解決了利用系數表示矩陣來表示約束就成了問題，使得模型物理意義得以明確。然后，進行優化目標函數，利用交替迭代法求解出基矩陣W和系數表示矩陣H的更新公式：

(11)

(12)

2 基于成對約束的半監督聚類方法

2.1 模型建立

由相關知識可知，基于非負矩陣分解和模糊C均值的聚類方法(FCM-NMF算法)，其核心思想利用NMF作為特征提取的手段，為了盡可能不破壞樣本之間的本質聯系，將特征提取手段與聚類過程加以結合，融合NMF和FCM算法改變目標函數的形式，生成新的低維表示矩陣。該算法物理意義較為清晰，同時在實驗中證明了其正確性和有效性。本節考慮將成對約束條件加入FCM-NMF的目標函數框架中，通過少量監督信息的引入，進一步改善聚類性能。改進的目標函數如下所示：

(13)

在公式(13)中，λ≥0是平衡系數，f是模糊系數，其值介于1～2.5之間。第一項表示模糊C均值聚類框架，hj到vi的歐幾里得距離用dij表示。第二項表示加入了成對約束監督信息的NMF算法處理原始數據的過程對聚類的影響程度。當約束數量為0時，該算法退化為FCM-NMF算法。

2.2 模型求解

很明顯，公式(13)的目標函數是非凸的，解出它的全局最優是不實際的。因此，利用交替迭代法則去探索非凸函數的局部最優解是一個可行的辦法。通過迭代以下步驟來解決優化問題，直到目標函數收斂或超出閾值條件:

(14)

i=1,2,…,c;j=1,2,…,n

(2)固定W,H，U，通過V最優化J。V的更新準則為:

(15)

i=1,2,…,c;j=1,2,…,n

(3)固定V，H，U，通過W最優化J。W的更新規則與NMF算法一致，為:

(16)

(4)固定W，V，U，通過H最優化J。

(17)

其中，H=H⊙[1×sum(Uf)]T。1 代表具有c行的全1向量，Uf是指U矩陣的對應每個元素的f次冪。利用梯度下降法得到以下附加的更新規則:

(18)

δ是控制梯度下降步長的參數矩陣。令

(19)

然后，能得到：

由于會展旅游業相關制度的不完善，也導致了成都市會展業和旅游業的融合不暢，由此導致會展旅游業的整體營銷模式不成體系，發展滯后。目前成都市會展旅游業的營銷模式主要還是以承辦單位為主，很多會展雖然主辦方為政府和行業協會，但是這些單位往往不會參與對展會的營銷，而是由承辦單位來進行營銷宣傳，但是其作用肯定是不如主辦單位的影響力大。旅游管理部門很少關注會展旅游這一方面，在營銷上也很少配合承辦單位，常常出現會展旅游業中旅游業管理缺位的局面。承辦單位在會展營銷模式上也較為傳統，缺乏創新。

(20)

H最終的更新公式為：

(21)

Ω=XTW+2(A⊙R⊙AT)H

+4(A⊙A)(H⊙H⊙H)

Λ=HWTW+2(A⊙(HHT)⊙AT)H

+4(A⊙A)(H⊙H⊙H)

2.3 聚類算法

基于成對約束的半監督聚類算法具體流程如表1所示。通過上述推導求解，可以獲得基矩陣W，系數矩陣H，隸屬度矩陣U，聚類中心矩陣V的更新表達公式。W是降維后的低秩空間的表現形式，H是原始數據X經降維后的低維表達方式，V是該聚類過程中所形成的簇中心向量的組合形式，而隸屬度矩陣U是對所有樣本進行軟聚類的模糊隸屬度的呈現方式，Uij越大，則反映樣本j屬于簇i的概率越大，可根據其獲取樣本的標簽向量Y∈R1×n。

表1 基于成對約束的半監督聚類算法

3 實驗結果與分析

3.1 實驗環境與方法

在本節中，通過在wdbc數據集和wine數據集兩個UCI驗證集上的實驗驗證基于成對約束的半監督聚類算法的性能，包含在不同數量的監督信息的指導下其算法性能的變化情況和價值系數的變動對聚類準確率的影響。所有這些算法都是在MATLAB R2014a中實現的。將這些算法的最大迭代次數設置為10 000，并在接下來的所有實驗中保持不變。針對每種算法實驗，分別進行20次，并將實驗數據結果平均值予以記錄。表2顯示了驗證數據集的統計信息。并且選取了3種半監督聚類算法與之對比，分別是PMF[9]、SS-NMF[10]和CCSR[5]。

表2 驗證數據集的統計信息

PMF算法分別將樣本之間的約束關系ML和CL抽象為樣本數據結構關系的正邊和負邊，而利用先驗監督信息構造的鄰接矩陣則是通過圖正則化進行處理。SS-NMF是一種基于Symmetric NMF的約束聚類算法，它對滿足ML的樣本進行獎勵，對違反CL的樣本進行懲罰，同時修改樣本的鄰接矩陣。CCSR算法將數據點映射到一個新的特征空間，同時讓其滿足約束條件，它是圖聚類的一種方式，支持非線性可分數據。

3.2 評價標準

對于每個數據集，選取準確率(ACC)、歸一化互信息(NMI)和F度量(F-score)作為聚類效果的評價指標。下面的公式是本實驗聚類的評價指標。

(22)

式中，TP是指在同一個類中聚集的兩個文檔是正確分類的，TN是指在同一個類中聚集的兩個文檔是正確分開的。FP表示不應該屬于一個類別的文檔應該屬于錯誤的類別，FN表示不應該被分開的文檔應該屬于錯誤的類別。

(23)

聚類中常用NMI來衡量兩種聚類結果的接近程度。PAB(a,b)表示A和B的聯合概率分布，H(A,B)表示兩類結果的聯合熵。

(24)

(25)

(26)

F-score是一種考慮到信息檢索的精度和召回程度，以便于不同技術或系統之間進行結果比較的測量方法。在上面的公式中，P和R分別表示信息的精度和召回率。上述三個聚類評價指標的取值均在0～1之間，指標值越大，聚類效果越好。

3.3 實驗結果與分析

通過觀察圖1，從總體來看，隨著約束對的增加，兩個數據集上的聚類性能趨勢上均朝著好的方向發展，在wdbc數據集和wine數據集上實驗中其準確率最好可達95.86%和93.10%，較沒有約束的聚類算法性能有著極大的改善，說明了成對約束信息確實可以指導聚類過程，同時也說明該算法優于FCM-NMF算法，驗證了該算法的正確性和有效性。從細節上來說，在隨著約束信息增加的有些過程，其算法性能不但沒有提高，反而降低了。這也是一種合理的現象，原因在于，首先是約束信息是通過隨機方式獲取的，有些樣本之間的關系對這個數據集結構刻畫得更深入，而有些關系早已在FCM-NMF算法基礎上明確，其指導聚類的過程意義不大。再者由于成對約束是一種弱指導信息，模型的輸出樣本也許不一定滿足成對約束關系，有可能會衍生出輸出模型與監督信息不一致的性能平衡問題。

圖1 wdbc和wine數據集上聚類性能

圖2顯示了wdbc和wine數據集上價值系數α和β的變動對聚類準確率的影響。在兩個數據集上分別加入九組和五組的約束信息，通過調節價值系數的數值觀察其聚類準確率的變化情況。通過大量實驗可以看出價值系數α與β設定對聚類性能的影響匪淺，它們反映了的半監督信息ML與CL對聚類的重要性。該參數的設定與數據集本身有著密切的關系。在本實驗中，將wdbc數據集中α設為0.7，β設為0.5可以尋求到準確率的局部最優解。而在wine數據集中α設為0.8，β設為0.9可以尋求到局部最優解。

圖2 wdbc和wine數據集上價值系數α和β的變動對聚類準確率的影響

圖3顯示了wdbc和wine數據集上各半監督聚類算法性能對比圖。首先可以看到，在兩個數據集上，隨著成對約束數目增加，各算法均呈現上升趨勢。再者，CCSR在wdbc數據集上的性能表現很好，但在wine數據集上性能很差，或許因為在wine數據集上的監督信息不夠，不足以支持其達到最佳效果。相反SS-NMF在wine數據集上性能非常好，但是在wdbc數據集上其劣勢卻很明顯。因為SS-NMF修改的是鄰接矩陣，而不是直接改變目標函數。PMF算法總體性能良好，在驗證集上，比無監督聚類準確率最佳分別改善可以接近10%和8%。相較于本算法差距比較明顯，因為PMT在獎勵ML時約束的提供了一個負項，這對于整體聚類意義不大。通過驗證集的實驗驗證了所提的基于成對約束的半監督聚類方法的有效性和穩定性。

圖3 wdbc和wine數據集上各半監督聚類算法性能對比

4 結論

本文提出了基于成對約束的半監督聚類方法。其核心思想是在FCM-NMF算法的基礎上，依靠少量的成對約束監督信息的加入，改善整體聚類性能。但也有可能衍生出輸出模型與監督信息不一致的性能平衡問題，有待作深入探討。下一步考慮將成對約束條件作為監督信息應用于多視角聚類任務，并針對這個問題展開研究。