融合樣本選擇的深度圖半監督分類

2025-07-06 00:00:00李順勇文楠趙興旺

陜西科技大學學報 2025年3期

A semi-supervised classification model for fusion sample selection based on depth map

LI Shun-yong1'2，WEN Nan1， ZHAO Xing-wang3 （1.School of Mathematics and Statistics，Shanxi University，Taiyuan O3oo06，China； 2. Key Laboratory of Complex Systems and Data Science of Ministry of Education， Shanxi University，Taiyuan O3oo06，China; 3.School of Computer and Information Technology，Key Laboratory of Computational Intellgence and Chinese Information Processing of Ministry of Education，Shanxi University， Taiyuan O3ooo6，China）

Abstract： Traditional supervised learning requires a large number of labeled samples for model training，which makes it difficult to apply traditional supervised models to tasks lacking labeled samples.To address this issue，a semi-supervised classification model for fusion sample selection based on depth map（SSC_ FSSDM） is proposed. The model is divided into two parts： graph structure clustering and semi-supervised classification. In graph structure clustering，unlabeled samples are represented as high-quality graph structures using Laplace rank constraints，and the class information of labeled data is used as prior information to cluster the graph structures to obtain pseudo labels of unlabeled samples.A sample selection mechanism is used to select reliable samples from the pseudo labels，reducing the impact of noisy samples on model performance. In semi-supervised classification，reliable samples and their pseudo labels are used as inputs for deep learning to predict the labels of unlabeled samples in the original data. The performance of the SSC-FSSDM model was tested on three datasets， and various indicators showed that the SSC-FSSDM model outperformed other semi-supervised classification models.

Key words：sample selection; diagram structure; Laplace; clustering; semi-supervise

0 引言

在實際應用中，如文本分類、語音識別、電子郵件分類和計算機輔助醫療診斷，存在大量的未標記數據需要手工標記或者通過實驗獲取，此過程費時費力.充分利用這些未標記數據來完成最終的標簽預測是非常重要的，因此，半監督學習得到了越來越多的關注.

半監督學習介于無監督學習和監督學習之間，利用同時包含標簽和無標簽的數據來構建一個模型對未標記樣例進行標記，使得模型能在預測階段更好地泛化到“新\"數據。

學者們提出了大量的半監督分類方法.現有的半監督分類方法主要分為四大類：自訓練、協同訓練、生成模型以及基于圖的半監督分類.基于圖的半監督分類方法具有較好的魯棒性和靈活性，因此近年來受到越來越多的關注和研究.基于圖的半監督分類方法主要分為兩大類：使用圖嵌入和拉普拉斯正則化，具體包括標簽傳播]、流行正則化[2]、深度半監督嵌入[3]等.這些方法都需要進行隨機游走生成和半監督訓練，未能減少噪聲樣本對模型性能的影響[4.因此，本文提出了樣本選擇的方法利用可信度高的樣本進行模型訓練，減少了噪聲樣本對半監督分類模型性能的影響。

基于圖[5的技術通常能提高模型性能.構造一個圖來表示樣本數據之間的相似性以及樣本的特征，再利用光譜聚類算法或標簽傳播方法獲得最終的標簽.在這些方法中，圖結構的質量會影響半監督分類模型的性能[6].為解決這一問題，本文用拉普拉斯秩約束得到的優質圖結構表示樣本數據，有效地學習樣本的局部與全局特征.

隨著機器學習與深度學習的發展，人們將分類任務與深度學習結合在一起. w_u 等[8]引人了基于圖的神經網絡進行節點分類的相關方法.大多數圖神經網絡都是基于監督學習或半監督學習，依賴給定樣本的真實標簽作為輔助信息[9].深度圖聚類算法采用圖神經網絡進行特征提取，然后與聚類算法協同完成最終的圖聚類任務.深度聚類是一種通過深度學習和聚類算法實現的無監督學習算法.現有的一些算法中忽視了對聚類信息的利用，在基于圖的無監督任務中利用聚類標簽做的工作相對較少.因此，為解決這一問題，本文將已知標簽數據的標簽類別作為先驗信息，對未標記數據進行聚類，再將聚類結果作為半監督分類的輸入，有效地利用未標記數據以及聚類信息.

1 SSC_FSSDM模型

1.1基于圖的聚類

基于圖的聚類學習是對圖中的節點進行分類.傳統圖結構[10通過在損失函數中添加正則化來實現.2019年，Ren等[11使用了一種新穎的基于圖的聚類模型，在模型中生成一個塊對角矩陣，此矩陣恰好具有C個對角塊，得到了一個具有C個連通分量的圖.而通過這個圖結構可以直接獲得數據的聚類結果.為了實現這種理想的聚類結構，在數據初始圖矩陣上施加拉普拉斯秩約束，從而保證恰好存在C個對角塊，從而得到一個具有C個連通分量的圖結構.

1.2 學習初始圖矩陣 S

給定數據點，學習初始圖矩陣 s 的親和值[12]，數據點 x_i 和 x_j 之間較小的距離對應較大的親和值 S_ij .此外，設置 S_ii=0

求矩陣 S 的問題轉化為：

的最優解為：

1.3學習優質圖矩陣 U

得到初始圖矩陣 S 之后，對圖矩陣 S 進行拉普拉斯秩約束得到一個非負的歸一化相似矩陣 U

在此約束下，學習到的矩陣 U 具有恰當排列的塊對角線，對應的數據點直接劃分為C簇

若rank （L_U）=n-c，c=r ，則對應的 U 直接劃分為C簇.添加秩約束問題轉化為：

s.t. （20 （204最優解 u_i^* [13]可表示為：

式（4）中：， =1，表示拉格朗日乘數.

F 的最優解是由 L_U 的C個最小特征值對應的C個特征向量組成.

1. 4 SSC_FSSDM模型

傳統的半監督分類方法是利用少量的標記數據以及大量的未標記數據建立模型，存在噪聲樣本削弱了模型的性能.并且現有的一些深度聚類算法中利用聚類標簽做的工作相對較少.為了有效地學習樣本的局部與全局特征，利用未標記樣本以及聚類信息減少噪聲樣本對模型性能的影響，本文提出了融合樣本選擇的深度圖半監督分類模型（Asemi-supervised classification model for fusionsample selection based on depth map，SSC_FSS-DM）見圖1所示.

SSC_- FSSDM模型分為兩部分進行.第一部分基于圖的聚類，針對未標記樣本數據得到的圖結構進行聚類分析，得到每個類的中心以及對應的偽標簽，采用其樣本偽標簽來輔助模型訓練.執行聚類任務時，聚類任務中偽標簽的生成不依賴于標記數據.第二部分用一種樣本選擇機制從未標記樣本及其偽標簽中選擇出可信度高的樣本，然后將選擇出的樣本及其偽標簽傳遞到半監督任務中進行模型訓練.在第二部分中，主要使用圖神經網絡模型訓練，具體是將一些樣本的偽標簽引入模型訓練，優化模型的特征提取能力，提高最終模型的預測效果.

模型在第一部分聚類分析中用圖來表示數據的結構信息.先利用1.2節的方法學習初始圖矩陣S ，再將已標記數據劃分的簇類數作為先驗信息，用1.3節的方法在矩陣 s 基礎上進行拉普拉斯秩約束得到一個塊對角矩陣 U 矩陣 U 恰好具有C個連通分量，可以將樣本數據劃分為C簇（其中C是通過已標記數據獲得的簇類數）.

并不是所有從聚類中獲得的偽標簽都是正確的.假設隨機選擇一些樣本及其偽標簽作為輸人，將其傳遞給半監督分類任務進行學習，這種情況下，模型可能會受到一些噪聲數據的影響，從而削弱了半監督模型的性能.本文采用一種樣本選擇機制來解決這一問題.從巨大的數據集中選擇一些可信度高的樣本及其偽標簽進行半監督訓練.這樣可以充分利用聚類信息，同時減少噪聲數據對半監督分類任務的影響.模型的第二部分采用的樣本選擇機制：通過比較每個樣本與聚類中心的距離來判斷聚類得到的偽標簽的可靠性，將樣本與聚類中心的距離和距離閾值進行比較，決定是否丟棄一些樣本及其偽標簽.樣本越接近聚類的中心，樣本屬于這一類的概率就越大，反之概率則越小.通過樣本選擇機制選擇出各簇中偽標簽可信度高的樣本，將其擴展到標記數據集，然后進行迭代訓練優化模型，以協助半監督分類任務并提高模型的性能.距離聚類中心近的樣本的偽標簽往往具有較高的可信度并且包含更少的噪聲，利用這些樣本及其偽標簽來訓練半監督模型，減少了噪聲數據對模型性能的影響.一些被丟棄的樣本將在半監督任務的監督訓練中重新獲得新的標簽.

SSC_FSSDM模型對初始圖矩陣 S 進行拉普拉斯秩約束得到優質圖結構 U ，此圖結構 U 將數據劃分為C個不相交的簇（C為簇類數）.利用圖聚類得到聚類中心及偽標簽，再通過樣本選擇機制選擇出部分標簽可信度高的樣本[14及其偽標簽，將其引入GNN模型中進行標簽預測[15].方法中的偽標簽生成不依賴于標記數據. SSC_- FSSDM模型的偽代碼如下：

輸入：輸人數據X；距離閾值.

輸出：未標記數據的標簽，（1）通過式（2）學習初始圖矩陣S.

（2）通過式（4）優化矩陣 U ，將數據劃分為C簇.

F 的最優解由 L_U 的C個最小特征值對應的C個特征向量組成.

（3）利用聚類方法獲得樣本的偽標簽及各簇的聚類中心.

通過計算各樣本到各簇類中心的距離，并與距離閾值進行比較選出可信度高的樣本，

（4）將可信度高的樣本及其樣本的偽標簽輸入GNN模型中預測出原始樣本中未標記數據的標簽.

SSC_FSSDM模型選擇出標簽可信度高的樣本進行模型訓練，減少了噪聲樣本對模型性能的影響，優化了最終模型的預測結果.樣本選擇機制選擇更接近聚類中心的樣本，樣本屬于這一類的概率更大.其余樣本在半監督任務中重新獲得新的標簽.

2數據集

本文選取3個數據集Cora[16]、Citeseer[16]和Wiki^[16] 進行對比分析，數據集見表1所示.

Cora包含了來自7個班級的2708篇機器學習論文，每個文檔都由一個1433維的二進制向量來描述，表示相應單詞的存在；Citeseer包含了來自6個類的3312個出版物，每篇論文都由一個3，703維的二進制向量來描述.Cora和Citese-er中的文檔是由標題和摘要生成的短文.停止單詞和所有文檔頻率小于10的單詞都將被刪除；Wiki包含了來自19個類的2，405個文檔和它們之間的17，981個鏈接，此數據集的TFIDF矩陣有4，973列.

3基準方法和評估指標

將SSC_FSSDM模型與K-means 算法[17]、圖自動編碼器（GAE）[18]、變分圖自動編碼器（VGAE）[19]、對抗性正則化圖形自動編碼器（ARGE）[20]、深度注意嵌入式聚類（DAEGC）[21]、鄰接共享嵌人圖自動編碼器（EGAE-JICAS）[22]、自適應圖卷積（AGC）[23]及變分圖嵌入進行圖聚類（GC-VGE）[24]進行比較.

采用正確率（ACC）和歸一化互信息（NMI）等2個評價指標進行有效性評估.

本文提出的 SSC_- FSSDM模型與基準的半監督分類算法都作用于Cora、Citeseer以及Wiki數據集上，比較其ACC和NMI值，ACC和NMI值越接近于1表示模型更優.

3.1 SSC_FSSDM模型性能評估

隨機選擇部分樣本作為標記數據，重復20次，實驗的均值作為最后的結果.將基準算法K-Means、GAE、VGAE、ARGE、DAEGC、EGAE-JI-CAS及GC-VGE與本文提出的SSC_FSSDM模型作用在Cora和Citeseer和Wiki數據集上，實驗結果見表2所示.從表2中可以看出， SSC_- FSS-DM模型在3個數據集上的ACC與NMI值均高于其他半監督分類算法，體現了提出的 SSC_- FSS-DM模型優異的分類性能.3個數據集上的實驗結果折線圖如圖2、圖3及圖4所示，從圖2、圖3及圖4中亦可看出在數據集上 SSC_- FSSDM模型的性能明顯高于其它幾個半監督分類算法.

圖4Wiki數據集在基準方法下的ACC與NMI值3.2 拉普拉斯秩約束對模型性能的影響

本文提出的SSC_FSSDM模型中，對初始圖矩陣S進行拉普拉斯秩約束后得到一個優質的圖結構U，此圖結構U將數據集劃分為C簇.為了驗證拉普拉斯秩約束是否能生成更準確反映原始數據結構的圖結構，比較SSC_FSSDM模型中執行拉普拉斯秩約束與未執行拉普拉斯秩約束的ACC和NMI值，觀察拉普拉斯秩約束是否影響模型的性能.分別在執行拉普拉斯秩約束與未執行秩約束的情況下在數據集Cora、Citeseer、Wiki上進行實驗.實驗的ACC和NMI值如圖5所示.從圖5可明顯地看出，在原始圖結構數據上執行拉普拉斯秩約束后得到的分類結果優于未執行拉普拉斯秩約束的分類結果.分類結果表明經過拉普拉斯秩約束后的圖結構更能表現出原始數據的復雜結構，

3.3選擇可靠樣本對模型性能的影響

SSC_FSSDM模型是基于樣本選擇進行半監督分類，為了觀察選擇可靠樣本是否對模型的性能有影響.比較SSC_FSSDM模型中選擇可信度高的樣本或選擇全部樣本的ACC和NMI值，觀察樣本的選擇是否影響模型的性能.通過圖結構U得到可信度高的樣本及其偽標簽后，分別將各數據集的全部樣本或可靠樣本作為GNN模型的輸入，觀察模型的性能.在數據集Cora、Citeseer和Wiki上的ACC和NMI值如圖6所示.從圖6可看出，選擇可靠樣本比選擇全部樣本的結果更優，由此可見選擇可信度高的樣本更能代表原始數據并且減少噪聲樣本對模型的影響.

3.4可靠樣本的比例對模型性能的影響

SSC_FSSDM模型選擇可信度高的樣本減少了噪聲樣本對模型性能的影響，但是不知道具體選擇出多少比例的樣本更優于模型的性能.所以在進行樣本選擇時，通過比較選擇不同比例樣本時的ACC和NMI值來觀察當選擇多少比例樣本時模型的性能最優.實驗的ACC和NMI值如圖7所示.

從圖7可以看出，當選擇距離各簇聚類中心最近的 40% 樣本作為可信度高的樣本作為GNN模型的輸入時，模型的性能最優.選擇 10% 或 100% 比例的數據作為模型的輸入，模型性能明顯低于選擇 40% 樣本時的模型性能.當選擇 10% 的樣本時，少量數據不能很好地表現出原始數據的結構，影響了模型的性能.當選擇 100% 的數據時，將所有數據作為模型的輸入，增加了噪聲樣本對模型性能的影響.所以本文選擇了使用 40% 的樣本作為可信度高的樣本作為模型的輸人進行標簽的預測.

4結論

通過對初始圖矩陣 s 進行拉普拉斯秩約束學習到一個更具有信息性和可鑒別性的優質圖U.將原始數據根據已標記數據的類別數量將數據劃分為C簇.在以上劃分的基礎上進行聚類，得到未標記數據的簇類中心及偽標簽.再分別計算出未標記樣本到各簇類中心的距離，將距離與距離閾值進行比較，選擇大于距離閾值的樣本數據作為可信度高的樣本.選擇可信度高的樣本及其偽標簽作為GNN的輸人，預測出原始數據中未標記數據的標簽.選擇可信度高的樣本作為輸人可以減少噪聲樣本對分類性能的影響.

SSC_FSSDM模型在單視圖上表現出了優異的性能.在現實生活中，同一事物或對象存在不同角度和不同途徑的描述形式，這些不同的描述可構成多視圖.對多視圖間相互關系建模與挖掘，建立視圖間的正則化約束或依賴關系，可以有效增強學習系統的性能.

參考文獻

[1]Zoidi O，Fotiadou E，Nikolaidis N，etal.Graph-based label propagation in digital media： A review[J]. ACM Computing Surveys （CSUR），2015，47（3）：1-35.

[2] Nusrat I，Jang S B. A comparison of regularization techniques in deep neural networks[J]. Symmetry，2018，10 （11）：648-666.

[3] Lu X，Zhou Y，Wang Z，et al. Knowledge embedded semisupervised deep learning for detecting non-technical losses in the smart grid[J].Energies，2019，12（18）：3：452- 3470.

[4]高飛，朱福利.基于樣本類別確定度的半監督分類[J]. 北京航空航天大學學報，2018，44（9）：1 941-1 951.

[5］蔣林，黎瑞金，曹非.基于陣列處理器的 SVDC算法并行設計與實現[J].計算機應用與軟件，2023，40（10）： 285-290.

[6]康昭，劉亮，韓蒙.基于轉換學習的半監督分類[J]. 計算機研究與發展，2023，60（1）：103-111.

[7]杜曉昕，王振飛，王波，等.基于卡方躍遷策略的黑蜘蛛優化算法及應用[J].陜西科技大學學報，2023，41（6）： 162-175.

[8] Wu Z，Pan S，Chen F，et al. A comprehensive survey on graph neural networks[J]. IEEE Trans on Neural Networks and Learning Systems，202o，32（1）：4-24.

[9]朱玄燁，孔兵，陳紅梅，等.困難樣本采樣聯合對比增強的深度圖聚類[J].計算機應用研究，2024，41（6）：1-13.

[10]張云斌，張春梅，周千琪，等.基于 L～1 范數和k近鄰疊加圖的半監督分類算法[J].模式識別與人工智能，2016， 29（9）：850-855.

[11] Ren P，Xiao Y，Chang X，et al. Structured optimal graphbased clustering with flexible embedding[J]. IEEE Trans on Neural Networks and Learning Systems，2019，31 （10）：3 801-3 813.

[12] Wang H，Yang Y，Liu B，et al. A study of graph-based system for multi-view clustering[J].Knowledge-Based Systems，2019，163（1）：1 009-1 019.

[13]NieF，WangX，JordanM，etal.The constrained laplacian rankalgorithm for graph-based clustering[J].Proceedings of the AAAI Conference on Artificial Intelligence， 2016，30（1）：1969-1 976

[14]紀霞，施明遠，周芃，等.自適應相似圖聯合優化的多視圖聚類[J].計算機學報，2024，47（2）：310-322.

[15]王李祺，高翔，程蓉，等.基于注意卷積模塊的遙感圖像場景分類應用[J].陜西科技大學學報，2023，41（2）： 199-206.

[16]SenP，Namata G，Bilgic M，etal.Collective classification in network data[J].AI Magazine，2008，29（3）：93-106.

[17]Kwedlo W.Aclustering method combiningdifferential e volution with the K-means algorithm[J].Pattern Recognition Letters，2011，32（12）：1 613-1 621.

[18]Liao Y，WangY，Liu Y.Graph regularized auto-encoders forimage representation[J].IEEE Trans on Image Processing，2016，26（6）：2 839-2 852.

[19]Choong JJ，Liu X，Murata T.Optimizing variational graph autoencoder for community detection with dual optimization[J].Entropy，2020，22（2）：197-218.

[20]Lunardi W T，Lopez M A，GiacaloneJP.Arcade：Adversarially regularized convolutional autoencoder for network anomaly detection[J].IEEE Trans on Network and ServiceManagement，2023，20（2）：1 305-1 318.

[21]Peng Z，Liu H，Jia Y，et al. Deep attention-guided graph clustering with dual self-supervision[J]. IEEE Trans on Circuits and Systems for Video Technology，2023，33 （7）：3 296-3 307.

[22] Pan S，Hu R，Fung S，et al. Learning graph embedding with adversarial training methods[J].IEEE Transon Cybernetics，2019，50（6）：2 475-2 487.

[23]Zhu D，Chen S，Ma X，et al.Adaptive graph convolution usingheat kernel for attributed graph clustering[J].Applied Sciences，2020，10（4）：1 473-1 486.

[24]AhmadiM，SafayaniM，Mirzaei A.Deep graph clustering via mutual information maximization and mixture model [J].Applied Sciences，2022，10（5）：05 168-05 179

【責任編輯：蔣亞儒】