吳 歡, 丁笑君,, 李秦曼, 杜 磊,, 鄒奉元,
(1. 浙江理工大學 服裝學院, 浙江 杭州 310018; 2. 浙江理工大學 浙江省服裝工程技術研究中心, 浙江 杭州 310018)
通過機器視覺實現服裝商品的自動分類,便于在線零售商對帶有標簽或與服裝相關描述的圖像進行自動標注,并在社交網絡照片的設置中改進信息檢索,有助于用戶跨越語義鴻溝檢索到心儀的商品,增強購物體驗。此外,服裝的可視化分類識別有利于設計師收集服裝元素及分析時尚流行趨勢。
國內外學者集中于從圖案、顏色、風格等方面對服裝分類進行探索:Bossard等[1]建立了一種分類管道,使用顏色、圖案和外觀等視覺屬性對上身服裝進行分類;Di等[2]提出一種細粒度的方法,基于服裝面料、領型、口袋等屬性識別服裝種類;Zhang等[3]提出一種算法可對真實世界的產品輪廓進行分類,采用多模式特性和監督學習的方法自動識別剪影屬性;An等[4]運用小波傅里葉描述子描述服裝圖片的輪廓特征并降維,對比特征向量之間的相似度,結合極端學習機分類器對服裝設計平面圖進行分類;李東等[5]提出通過預處理獲取服裝輪廓信息的算法,基于服裝輪廓提取傅里葉描述子特征向量,用來表示形狀總體特征,并訓練多分類支持向量機實現分類;Yamaguchi等[6]在服裝檢索中采用超像素分割定位人體的著裝輪廓,通過歐式距離比較相似性,但無法處理復雜的特征,且分類效果較差。關于不同類別服裝的分類有很多,但能直觀反映服裝基本特征的廓形提取困難,廓形分類的準確率有待進一步提高。
卷積神經網絡(CNN)[7]能有效降低反饋神經網絡的復雜性,自動抓取分類特征,通過權值共享減少計算量。CaffeNet[8]是CNN常見的一種模型,包含5個卷積特征提取步驟和3個全連接層進行分類,能加深網絡結構提取高維特征。本文主要研究同類別服裝廓形的分類,以女褲為例,通過微調后的CaffeNet模型自動提取女褲廓形特征,并通過Softmax回歸準確地實現廓形分類。
由于目前還沒有一個不同廓形女褲的樣本庫,根據女褲的外觀廓形差異及電子商務平臺商家對女褲版型的分類,本文選擇吊襠褲、闊腿褲、喇叭褲、小腳褲和直筒褲5種廓形女褲,這5種女褲廓形分別呈現菱形、梯形、X形、倒梯形和H形,創建了一個女褲樣本庫,收集每種廓形女褲各300張,共1 500張女褲圖片,樣本來源于知名的購物網站,如淘寶網、天貓、京東商城等。由于服裝的高度變形性,且隨著圖像顯示或者拍攝方式的不同,女褲有不同形狀,因此,選擇具有白色干凈背景并且平整擺放的女褲圖像。5種女褲的樣本如圖1所示。

圖1 5種女褲的樣本Fig.1 Samples of five women′s trousers. (a) Saggy pants; (b) Broad-legged pants; (c) Flared trousers; (d) Pencil pants; (e) Straight pants
卷積神經網絡本質上是一種輸入到輸出的映射,用已知的卷積模板對網絡進行訓練,就能轉換輸入到輸出間的關系[9],具有很強的泛化能力,可識別位移、拉伸和扭曲不變形的二維或三維圖像。通常,具有卷積結構的深度網絡模型至少有2個非線性可訓練的卷積層,2個非線性的降采樣層和1個全連接層,共至少有5個隱含層,其中降采樣層即池化層,卷積神經網絡結構如圖2所示。

圖2 卷積神經網絡結構Fig.2 Framework of convolutional neural network
輸入的女褲圖像經卷積層和全連接層將多個特征映射轉化為1個特征向量,并以完全連接的方式輸出,最后連接分類器,可采用邏輯回歸、Softmax回歸或者支持向量機(SVM)等對輸入的圖像進行分類,本文采用Softmax回歸方法。
傳統的CNN網絡結構的卷積層和池化層數量較少,特征提取效果不明顯,分類效果尚不理想,而5種樣本女褲外部輪廓特征相似,加大了分類難度,廓形分類精度有待提高。本文基于CaffeNet模型,該模型包括5個卷積層、3個池化層和3個全連接層,網絡的隱含層參數如表1所示。

表1 網絡的隱含層參數Tab.1 Hidden-unit′s parameters of network
為提高女褲廓形分類識別率,通過修改網絡模型結構和超參數文件來改進CNN,將全連接層進行降維處理,設置適宜的參數值來降低損失率,改進后的全連接層6和全連接層7的輸出向量維數為512,全連接層8的輸出向量維數根據女褲廓形的總類別數設置為5;為防止模型過擬合,dropout參數值修改為0.5,隨機丟掉50%的隱含層節點,增強網絡的泛化能力;同時修改網絡的訓練批次為80,測試批次為20,初始化學習率為0.1,網絡的最大迭代次數為3 000。
改進的CNN利用反向傳播算法不斷逐層調整網絡結構中的權值參數,權值更新公式為:
Vt+1=μVt-αL(Wt)
Wt+1=Wt+Vt+1
同時采用梯度下降法最小化損失函數,損失函數是CNN中優化的目標函數,損失函數越小,模型的預測值越接近真實值,魯棒性越好,損失函數表示為


本文實驗采用Python軟件編程實現,基于臺式電腦的Win10系統(Intel(R) Core(TM) i7-8700CPU,3.20 GHz,16 GB)。
針對實驗樣本庫,隨機抽取每種女褲褲型80%的樣本數據集作為實驗的訓練集,剩余的20%作為測試集。訓練過程是從訓練圖像集的某一類別中任意選取一個參加訓練的圖像,輸入相互交替的卷積層和池化層,通過移動感受野對圖像不斷進行卷積和最大池化,學習訓練原始圖像的特征[10]。
輸入女褲圖像,從不同角度進行前一層特征圖的卷積運算,使其具有位移不變性,增強圖像的原始信號,降低噪聲。通常,卷積層的網絡結構采用卷積的離散型將原始圖像像素變換為新像素,離散型的公式為

最大池化在池化層完成,池化層即特征映射層,是對輸入的特征映射進行池化[11]操作,池化層表示為

經過交替的卷積層的特征提取和池化層的池化作用,原始女褲圖像已經獲得了高度抽象的特征,然后利用全連接層將特征集合輸出,計算該輸出與理想輸出的誤差,若輸出層無法得到期望的輸出值,則取期望與輸出誤差的平方和為目標函數,轉入反向傳播,逐層計算出目標函數對各神經元權值的偏導數,不斷調整更新權值,當測試集的誤差接近于零或者達到指定次數的迭代時模型訓練結束,再將測試的圖像輸入訓練得到的學習模型進行測試,經過隱含層,最后輸出分類結果。
為驗證微調后的卷積神經網絡對女褲廓形分類的優勢,本文采用傅里葉描述子(FD)結合SVM的方法進行對比,該方法改善了服裝款式識別中效率低、適應性差等問題,李東等[5]基于服裝輪廓運用該方法識別8種不同類別的上下裝,達到了95%的款式識別率。
本文實驗采用MatLab R2016a軟件進行編程。首先將原始圖像進行預處理,獲取輪廓邊緣,將RGB圖像轉換為灰度圖像,然后利用最大類間方差法對灰度圖像進行閾值化分割,轉化為二值化圖像,最后利用Canny算子對二值圖像進行邊緣檢測,獲取圖像的外部輪廓,女褲圖像的預處理過程如圖3所示。

圖3 圖像預處理過程Fig.3 Pretreatment process of image. (a) Grey-scale image;(b) Binary image; (c) Skeleton image
傅里葉描述子是一種基于傅里葉理論提出的形狀特征描述方法,利用傅里葉描述子在外輪廓的基礎上進行形狀特征提取,將輪廓圖像上各像素點的坐標通過傅里葉變換轉換成傅里葉描述序列:
式中:xk與yk為輪廓像素點的橫坐標和縱坐標;K為輪廓曲線上像素點的總個數,k的取值為[0,K-1];j為虛數單位;u的取值為[0,K-1]。
根據文獻[5]提出傅里葉描述子特征向量長度為20時識別準確率最高,故本文選取前20個分量對女褲輪廓進行重構,順時針順次掃描輪廓的像素點。為得到具有旋轉、平移和縮放不變性的傅里葉描述子,對傅里葉描述序列進行歸一化。采用 LibSVM工具箱[12]進行多分類,隨機選取每種類別女褲 240張圖片作為訓練樣本,不斷訓練樣本的傅里葉描述子特征矩陣和類別標簽,得到SVM分類模型;最后將測試集的傅里葉描述子的特征矩陣輸入已經訓練好的模型,將預測類別對比實際類別得出分類準確率。
改進的CNN共13層,對原始圖像進行歸一化處理,輸入層使用227像素×227像素,分辨率為 72 ppi 的圖像作為網絡的輸入,通過卷積和池化操作提取特征,將結果納入全連接層把數據流分為5類。采用改進后的 CNN對女褲廓形分類的準確率如表2所示。可知每種類別女褲的分類準確率都在95%以上。

表2 改進的CNN 對廓形分類的準確率Tab.2 Accuracy of silhouette classification by modified CNN
表3示出采用傅里葉描述子結合SVM的分類準確率。可以看出,女褲的分類準確率在85%~ 90%之間,準確率不高可能因為樣本屬于同種類別服裝,款式差異相較于不同種類服裝較小,而上下裝外觀輪廓差別較明顯。對比表2、3可看出,改進的CNN分類效果較理想,可能是因為傅里葉描述子太依賴于樣本圖像的輪廓信息,邊緣檢測的輪廓完整度和清晰度影響特征向量的提取。

表3 FD + SVM 對廓形分類的準確率Tab.3 Accuracy of silhouette classification by FD and SVM
根據女褲廓形差異及電商平臺中商家對女褲版型的分類,構建了1 500張包括菱形、梯形、X形、倒梯形和H形的5種女褲廓形樣本庫;提出一種基于卷積神經網絡CaffeNet模型,通過相互交替的卷積和池化操作自動提取女褲廓形特征、實現服裝廓形分類的方法;利用反向傳播算法進行權值參數調整,運用梯度下降法并改進全連接層參數最小化損失率,采用Softmax回歸方法對5種廓形女褲進行分類,準確率在95%以上,該方法可較好地判別差異微小的同類別女褲。