陳雙 何利力



摘 要:為了滿足近年來在服裝電子商務高速發展背景下急劇增長的服裝圖像分類與定位需求,實現對服裝圖像的目標檢測,提出基于Faster R-CNN的服裝目標檢測改進方法。借助殘差神經網絡的特征提取能力進行服裝圖像特征提取,采用RPN網絡進行服裝候選區域生成,經過RoI興趣區域池化后接入分類層與回歸層,調整網絡結構,融合服裝圖像的HOG底層特征,從而針對性地實現對服裝圖像的目標檢測。實驗結果表明,該方法構建模型的平均準確率為0.902,運行速度為8.9幀/秒,具有一定的實用價值。
關鍵詞:服裝圖像;深度學習;目標檢測;殘差神經網絡;邊緣梯度直方圖特征
DOI: 10. 11907/rjdk.191 807
開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301
文獻標識碼:A
文章編號:1672-7800(2020)004-0042-04
Improved Method for Garment Target Detection Based on Faster R-CNN
CHEN Shuang, HE Li-li
(School of Information , Zh.ejiarzg Sci-tec Urziversity , Hangzhou 3100 1 8.China )Abstract: In order to meet the demand for the classification and positioning of clothing images under the rapid development of clothinge-commerce in recent years, the target detection of' clothing images is realized. An improved method of garment target detection basedon Faster R-CNN is proposed. The f'eature extraction ability of residual neural network is used to extract the features of clothing images.The RPN network is used to generate clothing candidate regions. After the pool of RoI interest regions, the classification lay er is ac-cessed. With the regression layer, the network structure is adjusted, and the underlying features of' the HOG of the clothing image areintegrated to achieve the pertinence of the clothing, and the target detection of the clothing image is realized. The experimental resultsshoW, that the model constructed hy this method has an average accuracy of 0.902 and an operating speed of 8.9 frames per second.Which proves the method has social practical value and academic research significance.Key Words: clothing image; deep learning; target detection ; residual neu ral network ; edge gradient histogram feature
O引言
隨著互聯網信息技術與服裝電子商務的迅速發展,服裝圖像數據量呈爆炸式增長,用戶對服裝圖像識別與分類的需求日漸迫切[1-2]。通過圖像目標檢測技術得到服裝的具體類別信息與位置信息,成為當前計算機視覺技術在服裝領域的應用熱點之一。
對于一張服裝圖像,人的視覺系統能夠輕松感知到目標的款式、色彩、圖案等服裝特征信息,而計算機只能識別得到服裝圖像的RGB像素矩陣。由于環境中存在服裝圖像的光照、形變、遮擋、多主體與背景等干擾因素,計算機通過對像素的抽象難以實現較好的識別效果[3]。傳統目標檢測方法對Haar小波特征、HOG特征、LBP特征、SIFT特征等進行提取,再構建SVM、決策樹等分類器進行檢測與定位[4-5]。該方法具有一定檢測效果,但由于具有較高的時間復雜度與較低的魯棒性,難以達到使用需求。隨著深度學習在計算機視覺領域取得突破性進展,越來越多學者針對深度學習方法在服裝圖像檢測與分類方面的應用進行研究,并取得了一定成果。
目前深度學習在目標檢測方向的研究方法主要分為兩類,一類是基于區域的算法,如R-CNN、SPP-net、FastR-CNN、Faster R-CNN.R-FCN,另一類是基于端到端的算法,如YOLO、SSD。通常后者速度相對更快,但檢測準確度不如前者。國內外眾多學者將以上兩類方法應用于服裝領域,衍生出許多針對服裝圖像的目標檢測方法。如
陳雙,何利力:基于Faster R-CNN的服裝曰標檢測改進方法Yamazakj1[6]通過研究服裝的褶皺特征以檢測日常生活中隨意放置的服裝位置,同時使用高層語義與低層特征信息,有效解決了服裝圖像中的遮擋問題;Pan等。[7]通過BP神經網絡識別針織物,取得了良好的識別效果;Wang等。[8]針對服裝款式進行研究,得到準確率更高的識別方法;香港大學的Liu等[9-10]提出一個大型公開服裝圖像數據集Deep-Fashion,該數據集含有超過80萬個具有豐富類別、屬性、Bhox、特征點等標注信息的服裝圖像,并提出用FashionNet進行服裝特征學習。
本文主要進行以下3方面研究:①綜合相關數據集與爬蟲數據,進行基本預處理后構建具有服裝類別及服裝主體邊框標簽的大規模服裝圖像數據集;②基于FasterR-CNN模型進行服裝圖像特征提取、區域生成、興趣區域池化與類別判定,并修改網絡結構,融合服裝圖像的HOG顯著性底層特征,實現針對服裝圖像的目標檢測[11];③通過對比實驗設計與分析,驗證實驗模型性能。
1實驗方法
本文整體模型結構基于Faster R-CNN,融合服裝圖像顯著性特征進行目標檢測,主要分為4步:圖像特征提取、RPN區域生成網絡、興趣區域池化與分類回歸[12]。主要網絡結構如圖1所示。
主要流程如下:①將服裝圖像輸入網絡模型,通過卷積神經網絡卷積層與池化層的交替作用進行服裝圖像特征提取,得到圖像的特征圖傳人RPN網絡,并進行RoI池化。這里采用ResNetl01殘差神經網絡;②RPN網絡將輸入的特征圖輸出為多個矩形候選區域;③將直接傳人的特征圖結合RPN網絡的候選區域特征信息,通過RoI池化進行裁剪過濾,映射成7*7的特征;④根據特征白動學習服裝類別,通過Softmax分類器進行是否為目標的二分類,并通過邊界框回歸器修正區域候選框,融合服裝的HOG特征回歸邊框,得到最終的服裝主體圖像。
Faster R-CNN損失函數計算包括:RPN進行前景與背景二分類的分類損失、RPN滑動窗口的位置回歸損失、RoI分類器損失與RoI邊界框回歸損失,以四者和作為最終損失函數進行模型反向傳播[13]。
I.I殘差神經網絡
ResNet( Deep Residual Network)殘差神經網絡[14]是2015年微軟研究院提出的卷積神經網絡,一舉取得了2015年ILSVRC比賽的冠軍。ResNet將層與層之間的傳遞學習表示為輸入與輸出差別的殘差函數學習,能夠有效中和梯度爆炸問題與退化問題。
ResNet通過在不相鄰的層之間添加通路進行跨層連接,使用恒等映射將原始輸入信息直接傳輸到后面的網絡層中。在加深網絡時,對于輸入x期望,輸出為H(x),學習F(x)=H(x)-x作為ResNet的殘差學習單元,改變了學習目標,從對輸出函數的學習轉換為對殘差的學習,從而在將網絡層數據增加到152層時,仍能保持正常收斂與較好性能。相對于淺層網絡,深層網絡得到的高層抽象語義更能表現出圖像特征,具有更佳的性能。相比于一般的CNN,ResNet使用了一種shortcut連接方式。普通CNN與ResNet基本結構塊如圖2所示。殘差基本結構塊可以表示為:
其中F為殘差函數,h(x1)=X1為恒等映射,XI、X1+1.分別表示第,個殘差單元的輸入與輸出,f為ReLU激活函數,則從,至L所學習的特征為:以鏈式規則求反向傳播梯度:
可以看出,該方式能保證梯度的無損傳播,有效避免梯度消失問題,在模型中具有良好的服裝圖像特征提取效果。
1.2 RPN網絡
RPN(Region Proposal Networks)網絡是一種全卷積網絡,通過端到端的形式進行區域生成,與分類回歸共享提取到的卷積特征,相較于之前的Selective Search與EdgeBoxes方法具有更快的提取速度[15-16]。
RPN網絡將殘差神經網絡的共享特征圖作為輸入,以滑動窗口方式生成k個區域建議框,對應分類層有2k個輸出,表示判斷是目標與非目標的概率,對應回歸層有4k個輸出,表示k個區域建議框的位置。RPN 工作原理如圖3所示。
1.3興趣區域池化
在Faster R-CNN的RPN網絡后接人全連接層,通過RoI興趣區域池化層將不同大小的興趣區域轉換為固定大小。
將RPN網絡輸出建議與CNN網絡輸出特征圖輸入到RoI興趣區域池化層,以空間尺度數l/16映射回(M/16)*(N/16)的特征圖尺度,接入最大值池化層,針對將特征圖水平與豎直7等分的建議,生成7*7的輸出[17],主要過程如圖4所示。
通過RoI興趣區域池化后,對于任意尺寸大小的圖像輸入,模型后續回歸分類的全連接層具有相同維度的輸入。
1.4回歸分類
1.4.1Softmax分類器
對RoI池化得到的區域建議特征圖,經全連接層以3*3的卷積核遍歷特征圖,采用Softmax分類器計算類別概率向量,選取概率最大的k個向量作為候選區。對于每一類別的概率,令模型參數為 ,采用歸一化方法使所有概率和為1,對于所有輸入的列向量
1.4.2邊框回歸
對于圖像目標檢測的正確性,采用IoU(交并比),也稱為檢測評價函數進行度量。如圖5所示,IoU是指預測框(黑框)與真實框(紅框)交集與并集的比值。
通過邊框回歸器得到位置偏移量,使最終的回歸框更加精確,得到當前的回歸坐標值。
針對服裝的特有屬性,考慮文獻[18]中對顯著性特征的分析,調整模型并采用HOG邊緣梯度直方圖特征結合SVM分類器進行目標檢測。主要計算圖像局部區域梯度直方圖,并統計區域內的梯度直方圖構成特征向量。采用128*144的檢測子,nhins設置為9,結合服裝目標的顯著性檢測進行邊框修正,得到綜合考慮圖像底層HOG邊緣梯度直方圖特征與高層卷積神經網絡特征的服裝圖像,輸出邊框回歸坐標值[19]。
2實驗分析
2.1實驗環境與預處理
2.1.1 實驗環境
處理器:Intel Core i5-9400F@6x 4.1GHz。
顯卡:GeForce GTX 1660 Ti。
內存:16G。
操作系統:ManjaroLinux環境。
開發環境:基于Pvthon3與PvTorch。
2.1.2 實驗數據集
綜合香港中文大學提供的大型公開服裝圖像數據集DeepFashion與FashionAI、某省服裝個性化定制協同創新中心項目積累的大量圖片,以及在各電子商務網站爬取的服裝圖像,得到總計325 870張服裝圖像。關聯對應的服裝類別標簽與服裝主體邊界框標注,建立大規模服裝圖像數據集,部分圖片展示如圖6所示。
考慮日常照片中的上半身照較多,鞋子出現較少,將研究任務選取類別主要分為上衣、下裝、裙子3大類,再細分得到24個服裝類別標簽如表l所示。對沒有標注的圖像進行人工服裝類別與目標框標注,標注圖像對應的類別與邊框。參考PASCAL VOC 2007數據集格式,生成對應的XML文件。
對于建立的大規模服裝圖像數據集,將數據集隨機分成3批,采用20萬張作為訓練集,用來進行模型訓練,6萬張作為驗證集,用來進行參數調整,得到最佳模型參數,其余部分作為測試集,用來進行模型評價[20]。
2.1.3預處理
對于實驗數據集中的服裝圖像,為減少圖像冗余信息,需進行預處理,主要進行去均值與歸一化。
去均值是指消除圖像每個數據點的平均亮度值,將輸入樣本的中心定位于坐標系原點,以去除維度對樣本的影響。對于 共m個輸入樣本,維數為 為,樣本圖像像素平鋪后的i個像素,則對于該像素而言,使該點像素變為 。歸一化是將像素點除以255,歸一到[O,1]區間,統一各維度取值范圍。
2.2實驗分析
2.2.1 目標檢測評價參數
對于目標檢測模型,通常采用能綜合考慮精確度(Pre-cision)與召回率(Recall)的平均準確率均值(mAP,MeanAverage Precision)評價模型。AP是指對某一類別識別的平均準確率,mAP則可衡量對所有類別的識別效果。mAP在0-1之間,該值越大,表示模型檢測效果越好。計算公式如下:
對于實驗模型,mAP值為0.902,具有較好的檢測效果。
2.2.2運行速度
采用FPS(Frame Per Second,每秒幀率),即模型每秒處理圖像的數量描述模型運行速度。在本實驗的硬件環境中,模型對數據集的FPS為8.9幀/秒,即一秒能夠完成對8.9張圖像的目標檢測,具有較快的檢索速度。
2.3對比實驗設計
考慮采用不同卷積神經網絡進行特征提取,并進行模型檢測效果比較,得到不同模型性能對比如表2所示。
實驗結果表明,總體而言,Resnetl01與Densenet201的特征提取效果更好,但Densenet201由于深度過大,模型過于復雜,耗時遠超過其它模型,因此本文選取的Resnetl01具有最佳的綜合性能。
3 結語
本文提出一種針對服裝圖像的目標檢測方法,借助殘差神經網絡的特征提取能力進行服裝圖像特征提取,通過RPN網絡進行候選區域生成,調整Faster R-CNN網絡模型,融合服裝的高層卷積特征與底層HOG特征,從而有效提高了服裝目標的檢測準確率,并具有較快的處理速度。但由于數據集中的服裝圖像目標一般為單個,缺少對多目標、多類別的魯棒性,未來考慮從該方面出發,對服裝圖像目標檢測作更深入的研究。
參考文獻:
[1]王潛.基于卷積神經網絡的服裝分類與目標檢測研究[D].武漢:武漢理工大學,2017.
[2]蘭麗服裝圖像自動標注方法研究[D].北京:北京服裝學院,2017.
[3]張振煥,周彩蘭,梁媛.基于殘差的優化卷積神經網絡服裝分類算法[J].計算機工程與科學,2018,40(2):354-360.
[4]劉鵬飛視頻監控場景中人數統計方法的研究與應用[D].成都:
電子科技大學,2017.
[5]黃凱奇,陳曉棠,康運鋒,等智能視頻監控技術綜述[J].計算機學報,2015 .38(6): 1093-1118.
[6]YAMAZAKI K. INABA M. A cloth detection method based on image
wrinkle feature for dailv assistive robots[J].MVA,2013.
[7]PAN R. GAO W,LIU J, et al. Automatic recognition ofWoven fabricpattern based on image processing and BP neural network[J] Journalof the Textile Institute, 2011,102(1):19-30.
[8]WANG N,AI H Z,TANC F. Who hlockswho: simultaneous segmenta-tion of occluded ohjects FJl. Journal of Cnmputer Science and Tech-nology, 2013, 28(5): 890-906.
[9]LIU Z. YAN S,LLO P. et al. Fashion landmark detection in the wild[C]. European Conference on Cnmputer Vision, 2016.
[10]LIU Z, LUO P, QIU S,et al. Deepfashion: powering rohust clothesrecngnition and retrievalM-ith rich annotations[C] Computer Vision&Pattern Recognition, 20 1 6.
[II]紀娟,秦珂,楊若瑜,基于HOG和幾何特征的服裝細節要素識別與分類[J].圖學學報,2016(1):84-90.
[12]曹詩雨,劉躍虎,李辛昭.基于Fast R-CNN的車輛目標檢測[J].中國圖象圖形學報,2017,22(5):671-677.
[13]王林,張鶴鶴Faster R-CNN模型在車輛檢測中的應用[J].計算機應用,2018,38( 3):666-670.
[14]HE K, ZHANC X. REN S, et al. Deep residual learniW for image rec-ognition[C]. Cnmputer Vision and Pattern Recognition(CVPR), 2015.
[15]CHEN Y P, LI Y. WANG G.An enhanced region propnsal networkfor ohject detection using deep learning method[J]. PloS one, 201 8.
[16] 殷文斌卷積神經網絡在遙感目標識別中的應用研究[D].北京: 中國科學院大學,2017.
[17]楚翔宇.基于深度學習的交通視頻檢測及車型分類研究[D].哈爾濱:哈爾濱工業大學,2017.
[18]娜黑雅顯著區域檢測及其在服裝檢索中的應用[D].青島:中國石油大學(華東),2014.
[19]何妮.結合顯著性目標檢測與圖像分割的服飾提取算法研究及實現[D]成都:西南交通大學,2015.
[20]徐勝,昊新娟基于多示例學習的圖像檢索方法[J].信息技術,2014(7):106-110
(責任編輯:黃健)
收稿日期:2019-06-03
基金項目:浙江省科技廳(重大)項目(2015C03001)
作者簡介:陳雙(1994-),男,浙江理工大學信息學院碩士研究生,研究方向為人工智能與機器學習、大數據技術與應用;何利力
(1966-),男,博士,浙江理工大學信息學院教授,研究方向為圖形圖像、人機交互、制造業信息化、企業智能、數據庫。