王 賀,張 震
(山西大學 物理電子工程學院,山西 太原 030006)
圖像分類作為計算機視覺中的基本問題備受關注,常應用于圖像檢索[1]、視頻注釋[2]和指紋識別[3]等領域。通常所研究的圖像中并非只包含一類對象,為了能夠更準確地提取圖像信息,人們開始對多標簽圖像分類(Multi-Label Image Classification,MLIC)展開研究。
早期多標簽圖像分類將圖像信息轉化為多個二分類方法進行訓練,效率較低。2017 年,Zhu F 等[4]提出了SRN 對目標出現區域進行研究,利用注意圖對每個標簽應關注的圖像區域進行劃分,使多標簽圖像分類效率有了極大提高。隨著卷積神經網絡(CNN)的發展,多標簽圖像分類的精度逐步提升,但是圖像中目標之間的關聯性還有待發掘,導致多標簽圖像分類精度不高。2019 年,Chen Z M 等[5]提出了ML-GCN,為圖像上出現的標簽建立了相關矩陣,使卷積神經網絡一定程度上學習到了標簽之間的關聯性,在多標簽圖像分類上取得了很好的結果。但是MLGCN 模型獲得的標簽相關性具有一定的局限性,因為在數據集中標簽之間的頻率關系并不代表真實場景中目標之間的關系。Chen T 等[6]提出了SSGRL,利用語義解耦模塊結合類別語義來學習特定語義的表示,將語義交互模塊與基于統計標簽共現的圖相關聯,并通過圖傳播機制探索它們之間的交互,效率獲得了很大提升。針對MLGCN 存在的問題,Ye J 等[7]提出的ADD-GCN 在一定程度上進行了改善,該方法在圖像中建立了利用注意力機制驅動的動態圖卷積網絡來表示標簽的相關性,獲得了更好的效果?!?br>