999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合卷積神經網絡不同層的特征進行包類商品檢索

2018-02-27 03:06:38
計算機應用與軟件 2018年1期
關鍵詞:特征

駱 正 茂

(浙江東方職業技術學院 浙江 溫州 325011)

0 引 言

相對于傳統的逛街購物方式,網上購物具有省時省力且物美價廉的優點。隨著交易監督制度的完善、物流行業的發展以及電子商務的進步,網上購物越來越受到人們的認可,尤其是年輕人更愿意在網上購物。

包作為一種重要的商品,種類繁多款式多樣,有著極大的購物需求。因此,如何讓消費者在網購平臺上快速地查找到稱心如意的款式,是一個重要的問題。對于這個問題,現在各大電商主要采用的是基于關鍵字檢索的方法。該方法的技術雖然比較成熟,但是依然存在一些問題。例如,在構建檢索庫的過程中,需要對每一種款式的包都做詳細的文字描述,否則無法根據關鍵字進行搜索。但是,這是一項非常耗費人工的工作。并且,消費者有時候無法用文字準確地描述出自己想要購買的款式,基于關鍵字檢索的方式就無法發揮其作用。因此,該策略具有極大的局限性。

基于內容的圖像檢索是計算機視覺領域的一個重要研究方向,能夠很好地解決關鍵字檢索中所面臨的問題。首先,該方法對圖像內容進行編碼,將圖像轉換成一維向量表示。然后,通過距離度量等方式來比較向量之間的相似性,進而獲得圖像之間的相似性。因此,一個表征能力較優的向量計算方法成為衡量算法效果的一個關鍵因素。具有旋轉不變性的局部描述子SIFT算法[1]的出現,以及Sivic和Zisserman關于詞袋模型算法[2]的研究,極大地促進了基于內容的圖像檢索的發展。Fisher[3]和Vlad[4]所運用的聚合圖像局部特征點算法使圖像表征向量相對于詞袋模型具有更好的表征能力。詞袋算法和HE[5]算法相結合,也能夠取得較好的圖像檢索結果。此外,一些幾何驗證方式[6-7]和擴展查詢方法[8-9]的研究也提高了這種傳統方法的效果。近年來,圖形處理硬件(GPU)的計算能力的提升以及大規模圖像訓練集[10]的出現,都極大地促進了基于卷積神經網絡的深度學習領域的發展。大量現有工作[11-13]證明,利用卷積神經網絡訓練得到的圖像特征能夠直接用來做圖像的相似性檢索并取得相對于傳統算法更好的效果。因此,本文采用卷積神經網絡來處理包類款式的圖像檢索問題。

針對卷積神經網絡訓練需要大量數據集的問題,本文整理了5 000幅有標簽的包類款式圖像訓練集,同時提出了一種結合卷積神經網絡不同層的特征來進行包類款式的圖像內容檢索方法。實驗結果證明,本文方法能夠較好地檢索出相同或相似款式的包。

1 相關工作

基于卷積神經網絡模型Alex_net,Krizhevsky[12]等獲得了ImageNet LSVRC-2010大賽的冠軍。從那時起,卷積神經網絡吸引了越來越多學者的注意。隨著研究的深入,卷積神經網絡被應用于機器視覺的諸多領域,并且取得了很好的效果。在圖像識別問題上,基于網絡結構VGG_net[14]、 Google 公司的inception系列[15]以及何凱明等的Res_net[16]的卷積神經網絡模型,分別獲得了2014年、2015年、2016年的ImageNet 大賽的冠軍。基于卷積神經網絡的R-CNN[17-19]和YOLO[20-21]還能有效地解決通用目標檢測問題。

Krizhevsky等[12]直接利用訓練好的網絡模型來提取圖像特征,解決圖像的相似性檢索問題。在此基礎上,Babenko等[11]將在待檢索圖像上微調好的網絡模型的全連接層作為圖像的特征。Azizpour等[22]采用max-pooling特定卷積層的方式進一步提高特定物體或者場景檢索問題的效果。Babenko等[23]則提出運用sum-pooling結合白化歸一化等方式來獲得圖像特征的表征能力。Yannis等[24]進一步提出了一種基于卷積層不同維度加權聚合的方法來計算圖像特征表示。最近,一些方法基于圖像局部區域和卷積層的特征結合來構建圖像的特征表示,取得了不錯的效果[25]。

雖然已經有很多關于卷積神經網絡應用于圖像檢索方面的研究,但是基于卷積神經網絡不同層的特征應用于包類款式的圖像檢索問題研究還比較少。一方面包類圖像不是剛體比較容易受角度、亮度、尺度等因素影響。另一方面沒有針對這類問題的公開數據集。因此文章提出了一種基于卷積神經網絡不同層特征的方法來解決包類款式的圖像檢索問題,并且同時提供了一份包類款式數據集。

2 算法介紹

為了提高圖像的表征能力從而增加檢索的準確度。本文提出了一種結合卷積神經網絡不同層的特征進行圖像檢索的方法。算法一共包括三個步驟,下面將對算法進行詳細的介紹。

2.1 微調訓練

卷積神經網絡模型[12,14-16]擁有非常多的模型參數,因此具有很強的分類能力。同時,也因為其參數較多,所以需要大量的數據集進行訓練。然而,很多任務往往并沒有百萬級的數據集。遷移學習被用來緩解這種問題。在大量數據集訓練好的網絡模型基礎上,針對特定的任務利用少量的數據集進行微調訓練,是一種簡單且高效的遷移學習方法能夠取得不錯的效果。

為了能夠得到較好表示包類商品圖片的特征,算法首先利用少量數據集通過微調訓練的方式得到一個對于包類商品圖片分類能力較好的網絡模型。圖1中給出了一個微調訓練的網絡結構,固定或略微更新已經訓練好的網絡層的參數,重新訓練修改后的網絡層的參數。然后,通過優化多分類任務來訓練網絡模型的參數。定義損失函數如下:

(1)

式中:N表示訓練集的圖片數,pn表示第n張輸入圖片所有款式中的最大概率值,該值可以根據SoftMax計算得到,ln是第n張圖片對應的款式標簽。可以使用梯度下降法來優化該損失函數。

圖1 微調網絡結構

2.2 初次檢索

圖像檢索主要包括建立特征索引庫和近鄰匹配兩個步驟,接下來將圍繞這兩個方面來展開介紹。

第一步是建立特征索引庫。假設檢索庫中共有M張圖片,I表示其中一張圖片。將I作為已經微調好的網絡的輸入,做一次前向傳播操作。然后,提取網絡中的高層特征和中層特征,通過特征拼接的方式將不用層的特征拼接在一起,做一次歸一化操作得到圖片I的一維特征向量VI,其向量維度用N表示。因此,對于檢索庫中的M張圖片,分別采用這種方式提取圖片的特征就可以得到一個M×N的矩陣。這個矩陣就是要建立的特征索引庫。

第二步是近鄰匹配。用q表示輸入的查詢圖片。首先,計算出q的特征向量,計算方法與建立索引庫時的方法相同。然后,計算出索引庫中與向量Vq距離最相鄰的k個向量,采用如下距離度量公式:

Sq,i=‖vq-vi‖2i∈{1,2,…,M}

(2)

簡單地對所有的S值進行排序,即可獲得k個距離最小的向量的索引,即所查詢到的圖像的索引。

2.3 擴展搜索

根據初次搜索查詢到的k張圖片的特征向量和查詢圖片的特征向量,求出這些向量的均值,得到一個新的特征向量。利用該特征向量再做一次搜索。這種利用初次查詢的結果進行擴展查詢的方式被證明能夠取得一定的檢索精度的提升[23-24],并且本文后面的實驗部分也證明了該方法的有效性。

3 數據集和準確度度量

圖2展示了訓練集中的部分訓練圖片。訓練集一共包含50種不同的款式,每個款式有100張圖片。每種款式是由同一種款式的不同角度、亮度、背景、顏色的包類圖片組成。測試集包含50種不同的款式(和訓練集中的款式不同),每種款式包含20張圖片。這些圖片主要來源于蘑菇街網頁上的商品展示區和用戶評論區,因此數據集也考慮到了網頁圖片和現實圖片的場景差異問題。

圖2 部分訓練集中的圖片

本文采用查詢結果的平均準確率來評估算法的準確度:

(3)

式中:a表示正確的查詢結果,N表示所有的查詢結果。

4 實驗和分析

本文實驗硬件環境為一臺搭載英偉達GeForce GTX Titan-X顯卡、英特爾i7處理器、32 GB內存的臺式電腦,軟件環境為Ubuntu14.04、開源深度學習框架Caffe[26]。本部分將通過實驗來分析本文算法的可行性。

4.1 網絡模型微調

隨著深度學習研究的深入,近年來有許多網絡結構被提出來。為了選擇適合包類圖片檢索的網絡結構,本文首先在ImageNet 數據集上進行網絡模型的訓練。然后在本文提供的檢索測試集上通過計算mAP值來測量各種網絡模型的檢索效果。表1中給出了測量的結果,可以看出Google_net[15]比較適合本文的任務。因此,本文選擇該卷積神經網絡結構作為基礎網絡,在該網絡上進行微調訓練。

表1 各種網絡模型在測試集上的檢索效果比較

基于Caffe框架來進行網絡的微調訓練。首先,在原有的用來定義Google_net網絡結構的train_val.prototxt文件中修改網絡結構中loss1/classifer、loss2/classifer以及loss3/classifer層神經元的個數為50,同時修改對應的網絡層的名稱為loss1/classifer_modify、loss2/classifer_modify、以及loss3/classifer_modify。然后,在train_val.prototxt文件中分別設置這三層網絡的學習率為lr=0.000 1,設置網絡中其他層的學習率lr=0.000 01。最后在solver.prototxt文件中設置base_lr為0.001、weight_decay=0.000 4、momentum=0.9,采用增量梯度下降法來訓練網絡中的參數。該微調策略可以保證未修改層參數在原網絡上略微改變的同時,加快修改層參數的學習速率。圖3中給出了采用每層統一設置學習率和分層設置學習率的mAP值比較。從圖中曲線可以看出,單獨設置修改層的學習率的參數不僅能夠加快學習速率,而且不易陷入局部最優的情況。

圖3 統一設置學習率和分層設置學習率的結果比較

在訓練的過程中,采用數據增強來擴充訓練集。經過多次測試最終采用了圖片鏡像和改變亮度來擴充訓練集。由原先的5 000張圖片擴充到15 000張圖片。經過數據增強訓練得到的網絡模型較未經數據增強的網絡模型,在一方面能夠防止過擬合,另一方面能夠取得mAP值的提升,在本文測試集上約為1個點的提升。

4.2 結合Google_net網絡不同層進行搜索

Google_net網絡層數相比Alex_net和Vgg_net的層數較多。通過測試,提取網絡的Inception_4c/1x1層的特征作為Middle-level特征,提取pool5/7x7_s1層的特征作為High-level特征能夠取得較好的檢索效果。由于Inception_4c/1x1是卷積層特征,接下來采用文獻[22]的方法做了一次最大池化的操作得到一個128維的向量,然后對該向量做L2標準化,如圖4所示。直接提取Pool5/7x7_s1層的特征得到一個1 024維的向量,同樣做L2標準化。

圖4 提取輸入圖像的特征表示

直接拼接標準化后的兩個向量,可以得到一個1152維的特征向量。由于該特征維度較大,為了節省存儲空間,算法采用PCA來進行降維。表2中給出了在N=10時的不同降維維度的檢索結果。從表2中可以發現,特征維度的降低并沒有對檢索效果帶來很大的影響,還有可能出現結果變好的情況,這是因為PCA可能會減少一些不重要信息對檢索帶來的負面影響。因此,算法利用PCA把每張圖片的特征向量從1152維降低到128維,能夠在不影響檢索精度的前提下極大地節約存儲空間。

表2 PCA降維對檢索結果的影響

將測試集中的所有圖片通過上述方法獲得圖片的特征表示,并且建立索引表。然后,通過近鄰搜索的方式進行查詢,得到初次查詢的結果。最后,根據初次查詢的結果使用前5張最相近的圖片的特征均值進行擴展查詢,得到查詢的最終結果。表3中列舉了算法的在N=10時測試集上的使用多層和單層特征,以及擴展查詢的檢索結果比較。從結果中可以看出,通過結合不同層的特征能夠帶來檢索精度的提升。并且擴展查詢能進一步提高檢索能力。

表3 不同算法的結果比較

表4給出了本文算法和一些傳統的基于特征描述子的方法在N=10時測試集上的檢索結果比較。從表中可以看出本文算法要比這些傳統算法要好很多。這是因為有些包類商品表面比較光滑沒有一些顯著的局部信息,因此采用sift這種局部描述子和聚類算法相結合的方式就很難發揮其作用。

表4 和傳統方法的結果比較

圖5中給出了部分圖片的搜索結果,左邊第一列圖片是輸入的查詢圖片,右邊是查詢的結果。

圖5 部分查詢結果

該實驗部分充分證明算法的有效性。表1中首先給出了基于文獻[22]中直接利用在ImageNet數據集上訓練好的網絡來提取特征的方法解決包類圖像相似檢索的問題,該方法的top5準確度只能達到78.39%。為證明僅僅基于網絡高層特征作為圖像特征[11]的方法不適合做圖像相似檢索。表3給出了基于單層特征和本文提出的采用多層特征的效果比較。顯然本文提出的基于多層特征融合的方法能夠取得更好的檢索精度。同時表4中和傳統算法的對比,也證明了基于深度學習算法在包類圖像相似檢索問題上的高效性。綜上所述本文提出的基于卷積神經網絡不同層特征的方法,能夠很好地應用于包類圖像的相似檢索。

4.3 實際應用

為了說明算法的實際應用價值,本部分介紹在實際場景下本文算法的應用。上傳手機拍攝的包類圖片來搜索相同款式的包類商品。由于這種情況下拍攝的圖片往往包含比較復雜的背景,所以需要先做目標檢測。本文采用Faster-rcnn[19]算法進行包的檢測,圖6中給出了一些檢測的結果。然后,利用本文算法進行相同包類款式的檢索。為了評估算法的所需要消耗的時間,本次實驗構建了包含100萬張不同種類商品的檢索庫。表5中給出了算法在各個階段所花費的時間和總時間。實驗結果表明,本文的算法通過和檢測算法結合能夠用于街拍圖片的快速檢索。

圖6 包類商品檢測的結果

階段檢測提取特征近鄰匹配總計時間0.04s0.03s0.50s0.57s

5 結 語

本文介紹了一種結合卷積神經網絡不同層的特征進行包類商品圖像檢索的方法。詳細的實驗結果與應用證明了本文方法能夠取得較好的檢索效果。但是,算法依然存在一些不足之處,比如模型只根據較少的訓練集訓練獲得,因此模型的遷移能力有限。在今后的研究中,將進一步完善和解決本文算法所存在的問題。

[1] Lowe D G.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[2] Sivic J,Zisserman A.Video Google:A Text Retrieval Approach to Object Matching in Videos[C]//IEEE International Conference on Computer Vision.IEEE Computer Society,2003:1470.

[3] Perronnin F,Liu Y,Sanchez J,et al.Large-scale image retrieval with compressed Fisher vectors[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2010:3384-3391.

[4] Jégou H,Perronnin F,Douze M,et al.Aggregating local image descriptors into compact codes[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(9):1704-1716.

[5] Jegou H,Douze M,Schmid C.Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search[C]//European Conference on Computer Vision.Springer-Verlag,2008:304-317.

[6] Philbin J,Chum O,Isard M,et al.Object retrieval with large vocabularies and fast spatial matching[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-8.

[7] Shen X,Lin Z,Brandt J,et al.Spatially-Constrained Similarity Measure for Large-Scale Object Retrieval[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,36(6):1229-1241.

[8] Chum O,Mikulik A,Perdoch M,et al.Total recall II:Query expansion revisited[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2011:889-896.

[9] Tolias G,Jégou H.Visual query expansion with or without geometry:Refining local descriptors by feature aggregation[J].Pattern Recognition,2014,47(10):3466-3476.

[10] Russakovsky O,Deng J,Su H,et al.ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision,2015,115(3):211-252.

[11] Babenko A,Slesarev A,Chigorin A,et al.Neural Codes for Image Retrieval[M]//Computer Vision-ECCV 2014.Springer International Publishing,2014:584-599.

[12] Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.

[13] Wan J,Wang D,Hoi S C H,et al.Deep Learning for Content-Based Image Retrieval:A Comprehensive Study[C]//ACM International Conference on Multimedia,2014:157-166.

[14] Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.

[15] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:1-9.

[16] He K,Zhang X,Ren S,et al.Deep Residual Learning for Image Recognition[C]//Computer Vision and Pattern Recognition.IEEE,2016:770-778.

[17] Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition.IEEE Computer Society,2014:580-587.

[18] Girshick R.Fast R-CNN[C]//IEEE International Conference on Computer Vision.IEEE Computer Society,2015:1440-1448.

[19] Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.

[20] Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016.

[21] Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C]//European Conference on Computer Vision.Springer,Cham,2016:21-37.

[22] Azizpour H,Razavian A S,Sullivan J,et al.From generic to specific deep representations for visual recognition[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2015:36-45.

[23] Babenko A,Lempitsky V.Aggregating Deep Convolutional Features for Image Retrieval[J].Computer Science,2015.

[24] Kalantidis Y,Mellina C,Osindero S.Cross-Dimensional Weighting for Aggregated Deep Convolutional Features[C]//European Conference on Computer Vision.Springer,Cham,2016:685-701.

[25] Tolias G,Sicre R,Jégou H.Particular object retrieval with integral max-pooling of CNN activations[J].Computer Science,2015.

[26] Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional Architecture for Fast Feature Embedding[C]//ACM International Conference on Multimedia.ACM,2014:675-678.

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 久久这里只精品国产99热8| 日韩一区精品视频一区二区| 欧美不卡视频在线观看| 久久婷婷六月| 精品色综合| 宅男噜噜噜66国产在线观看| 久久精品最新免费国产成人| 一区二区影院| 国产激爽大片高清在线观看| 欧美成一级| 精品一区二区三区波多野结衣 | 亚洲高清无码久久久| 欧美国产日韩另类| 国产日韩AV高潮在线| 永久免费无码成人网站| 在线视频精品一区| 欧美亚洲综合免费精品高清在线观看| 又爽又大又黄a级毛片在线视频| 青青青视频91在线 | 欧美另类精品一区二区三区| 国产成人高清精品免费5388| 乱系列中文字幕在线视频| 亚洲精品日产精品乱码不卡| 亚洲中文字幕久久无码精品A| 亚洲高清中文字幕| 亚洲国产AV无码综合原创| 午夜毛片福利| 欧美精品在线视频观看| 天天干天天色综合网| 久久综合干| 国产91成人| 国产精品lululu在线观看| 99re这里只有国产中文精品国产精品 | 综合人妻久久一区二区精品| 国产一区成人| 色视频久久| 久久夜色精品国产嚕嚕亚洲av| 麻豆精品在线视频| 亚洲欧洲日本在线| 午夜精品久久久久久久无码软件 | 国产成人综合亚洲网址| 成年人福利视频| 久久这里只有精品2| 中文字幕人妻无码系列第三区| 亚洲色图欧美激情| 久久亚洲国产一区二区| 自偷自拍三级全三级视频| 国产美女一级毛片| www中文字幕在线观看| 婷婷综合亚洲| 精品国产电影久久九九| 又爽又大又光又色的午夜视频| 激情乱人伦| 免费无遮挡AV| 欧美激情二区三区| 国产成人精品视频一区视频二区| 久久亚洲AⅤ无码精品午夜麻豆| 中文字幕日韩丝袜一区| 看av免费毛片手机播放| 伊人查蕉在线观看国产精品| 亚洲精品视频在线观看视频| 永久免费无码成人网站| 香蕉久久永久视频| 在线免费亚洲无码视频| 亚洲精品国产日韩无码AV永久免费网 | 91久久夜色精品国产网站| 成人综合久久综合| 久久综合伊人 六十路| 日韩AV手机在线观看蜜芽| 欧美第九页| 欧美午夜在线视频| 国产午夜精品鲁丝片| 四虎综合网| 国产区人妖精品人妖精品视频| 人妻丰满熟妇AV无码区| 国产精品毛片一区视频播| 日韩成人在线网站| 91无码网站| 中文字幕久久波多野结衣| 国产毛片片精品天天看视频| 国产人人射| 亚洲国产一区在线观看|