楚雅璐,顧梅花,劉 杰,崔 琳
(西安工程大學 電子信息學院,陜西 西安 710048)
服裝圖像識別是服裝圖像分析和處理的重要基礎步驟[1],為后續的服裝語義分析[2]、服裝姿態估計[3]等問題研究提供了技術保障。在計算機視覺和模式識別相關領域中,服裝圖像分析與識別技術是最近非常活躍的研究課題,其在服裝圖像檢索[4]、搭配推薦[5]以及行人描述[6]等領域都有著重要應用。然而,復雜場景下因為人體坐姿、站姿以及運動狀態的變化,存在不同程度的服裝形變問題,在一定程度上增加了服裝圖像識別的難度。
在早期服裝圖像識別研究中,采用數字圖像處理和模式識別技術提取服裝特征。對于全局特征,常用的方法有傅里葉描述子[7]、幾何不變距[8]、灰度共生矩陣(GLCM)[9]等,此類方法容易受到環境的干擾。對于局部特征,常用的方法有尺度不變特征變換(SIFT)[10]、加速魯棒特征(SURF)[11]和方向梯度直方圖(HOG)[12]等,此類方法只適合于對圖像進行匹配、檢索,對圖像理解則不太適合。近年來,出現了大量基于深度學習的圖像識別方法,典型算法有R-CNN[13]、YOLO系列[14-15]、GoogleNet[16]、ResNet[17]、Fast R-CNN[18]、SSD[19]、Mask R-CNN[20]、Faster R-CNN[21]等,此類方法提取的圖像特征魯棒性更強,泛化能力更好。研究者也已將深度學習方法應用于服裝圖像識別任務中,典型算法有:Fashion Net[22]、Match R-CNN[23]等,此類方法可以分階段完成服裝圖像分割、識別、檢索等任務,但對服裝圖像識別沒有針對性,服裝易變形,識別準確率偏低,并沒有針對形變服裝圖像識別給出解決方案。
SSD算法因其通過提取不同尺度的特征圖進行目標識別,采用不同尺度的先驗框提升算法對不同尺度目標的識別能力而得到廣泛應用。……