周 曄 張軍平
(復旦大學計算機科學技術學院 上海 200433) (上海市智能信息處理重點實驗室 上海 200433) (yezhou14@fudan.edu.cn)
基于多尺度深度學習的商品圖像檢索
周 曄 張軍平
(復旦大學計算機科學技術學院 上海 200433) (上海市智能信息處理重點實驗室 上海 200433) (yezhou14@fudan.edu.cn)
商品圖像檢索的目標是檢索與圖像內容相符的商品,它是移動視覺搜索在電子商務中的重要應用.商品圖像檢索的發展,既為用戶購物提供便利,又促進了電子商務向移動端發展.圖像特征是影響商品圖片檢索性能的重要因素.復雜的圖片背景、同類商品之間的相似性和被拍攝商品尺度的變化,都使得商品圖像檢索對圖像特征提出了更高的要求.提出了一種多尺度深度神經網絡,以便于抽取對復雜圖片背景和目標物體尺度變化更加魯棒的圖像特征.同時根據商品類別標注信息學習圖片之間的相似度.針對在線服務對響應速度的要求,通過壓縮模型的深度和寬度控制了計算開銷.在一個百萬級的商品圖片數據集上的對比實驗證明:該方法在保持速度的同時提升了查詢的準確率.
商品圖像檢索;深度學習;多尺度;度量學習;模型壓縮
移動視覺搜索是指將移動終端獲取的真實世界中的圖像或視頻作為查詢對象,通過移動互聯網去搜索視覺對象的關聯信息的檢索方式[1].電子商務是近年來發展最為迅速的行業之一.商品圖像檢索是移動視覺搜索在電子商務中的重要應用.通過智能手機終端與移動視覺搜索技術的結合,用戶可以隨時在街上、商店中、家中拍攝自己看到的商品照片,并在電子商務網站中檢索對應的商品.隨著越來越多的電子商務請求從桌面端轉移到移動端,商品圖像檢索的廣泛應用可以為用戶提供精準的個性化服務,從而為電子商務網站產生巨大的經濟價值,這使得商品圖像檢索成為了一個全新的熱門研究領域.如何通過移動設備拍攝的圖片精確查找對應的商品,是一個非常困難的問題.首先,移動設備的感光元件與拍攝時的光照條件各不相同,同時,目標商品的視點和尺度的變化、遮擋和模糊等,都使得精確匹配的難度顯著加大.不僅如此,同類商品之間的外觀可能非常接近,例如服裝類的商品,不同的款式之間可能只有顏色、圖案等的微小差別.如何區分這些細粒度的物體類別是一個具有挑戰性的問題.
商品圖像檢索可以看作一種限定的基于內容的圖像檢索(content based image retrieval, CBIR)[2].在基于內容的圖像檢索系統中,圖像特征是影響性能最重要的因素之一[3].由于商品圖像檢索問題的一些特殊難點,使得商品圖像檢索對于圖像特征的敏感度和判別力提出了更高的要求.如何提取更加有效的圖像特征,成為商品圖像檢索問題研究的主要方向之一.在商品圖像檢索的研究工作中,尺度不變特征變換(scale invariant feature transform, SIFT)[4]等圖像局部特征和Fisher Vector[5-6]、局部聚合描述符(vector of locally aggregated descriptors, VLAD)[7-8]等傳統圖像全局特征等均被廣泛使用.近年來,使用深度學習方法[8-9]抽取的圖像特征在商品圖像檢索問題上取得了巨大的性能提升.在深度卷積神經網絡中,層數越深、每層過濾器(filter)數量越多的網絡,通常具有更強的特征表示能力,同時需要更多的運算量.由于在線商品圖像檢索通常由服務器端進行全部的計算操作,而圖像特征的抽取、相似度的計算等,通常耗時巨大.控制模型的復雜度、做到查詢準確率與查詢速度之間的平衡是在線商品圖像檢索需要克服的另一個重要難點.
在圖像檢索中,通常將整個查詢圖像視為一個整體處理.而商品圖像檢索問題中,查詢圖像中只包含一個特定的商品區域,其余部分均可視為背景.被拍攝商品的尺度和圖像的背景噪聲是影響商品圖像檢索性能的另外2個重要的因素.背景雜亂或被拍攝的商品在圖像中的比例過小,都會嚴重影響查詢性能.在商品圖像檢索中,一些研究工作使用人工標記目標區域[10],另一些使用了圖像分割[11]等自動方法,從查詢圖像中截取包含商品主體的區域后進行處理.與這些方法不同,在我們的方法中,查詢圖像被視為一個整體進行處理,通過多尺度方法解決商品區域的尺度問題.具體來說,我們提出了一種多尺度的神經網絡模型.它可以使用同樣的模型參數來接受不同尺寸的輸入尺寸.通過對不同尺寸的輸入圖像進行整合得到的多尺度特征,相對于單尺度特征更有利于提升特征的魯棒性,減少復雜的圖像背景對特征的影響.
除此以外,在互聯網圖像搜索引擎中,獲得有效的標簽通常需要消耗巨大的人力,因而通常采用無監督的方法.而在商品圖像檢索問題中,2幅圖像是否包含同一個商品比較容易確定.因而可以通過人工標記部分數據的標簽,使用監督方法學習圖像之間的相似度.圖像相似度學習在人臉驗證等領域中有著廣泛的應用.主成分(principal component analysis, PCA)、線性判別分析(linear discriminant analysis, LDA)等均為廣泛使用的傳統方法[12].近年來,使用深度神經網絡的圖像相似度學習方法[13-14]被廣泛應用.深度圖像相似度學習同樣應用于商品圖像檢索中,Wang等人[15]使用了孿生網絡(siamese neural networks)學習商品圖片間的相似度.我們使用了LDA學習商品圖片間的相似度,進一步增強特征的判別能力.
我們的貢獻主要有3方面.1)提出了一種多尺度深度神經網絡模型,在不需要更改模型參數的情況下,我們的多尺度模型可以接受不同尺寸的輸入.通過整合圖像的全局和局部信息,可以提升對物體尺度的魯棒性.2)商品圖像檢索對模型運算速度非常敏感.我們通過對卷積神經網絡模型進行壓縮,提出了一種更小尺寸的網絡模型,可以在壓縮模型運算量接近一半的同時基本保持特征的判別力.3)我們通過圖像相似度學習的方法進一步提升了特征的判別性能.在一個百萬級別的大規模商品圖像檢索數據集ALISC上,我們同時驗證了我們提出的方法的準確率和響應速度.在單張圖片特征抽取不超過1 s的限制內,與現有的其他方法相比,我們的方法取得了最好的檢索性能.
在圖像檢索系統中,最關鍵的部分是圖像之間相似度的計算.在我們的方法中,圖像相似度的計算流程如圖1所示.首先,我們在圖片中心截取一些可能包含目標商品的區域,然后使用神經網絡抽取特征.之后,我們使用LDA對提取的圖像特征進行變換.最后,我們使用余弦相似度對2張圖片的相似度進行度量.

Fig. 1 The pipeline of our proposed method
我們首先介紹多尺度卷積神經網絡模型.在我們提出的多尺度模型中,同一個網絡模型可以接受不同尺寸的輸入.之后,我們將介紹使用的模型壓縮方法.最后,我們將介紹圖片相似度學習與圖片相似度的度量方法.
1.1多尺度卷積神經網絡
卷積神經網絡(convolutional neural networks, CNN)近年來在圖像分類和識別中取得了巨大的成功.LeCun等人[16]將卷積神經網絡成功應用于手寫數字識別上.Krizhevsky等人提出了一個在ImageNet數據集上圖像分類性能超越傳統方法的卷積神經網絡模型AlexNet[17],該模型共有8層.Simonyan等人提出了一個16層的卷積神經網絡模型[18].Szegedy等人提出了一個22層的卷積神經網絡GoogleNet[19],其中借鑒了多尺度的思想.通常而言,隨著CNN模型深度和寬度的增加,模型分類性能和特征表示能力均有明顯的提升[3].針對GoogleNet多個損失函數較難學習的問題,Ioffe等人提出了與GoogleNet結構非常相近,但使用單一損失函數Inception-6網絡[20].在GoogleNet和Inception-6網絡中,除了通常的卷積、池化等操作,還引入Inception模塊.在Inception-6網絡的一個Inception模塊中,上層特征經過1×1、3×3、雙3×3、池化等一系列變換后,將特征進行連接作為下一層的輸入.在Inception-6網絡中,使用雙3×3卷積代替了GoogleNet的Inception模塊中使用的5×5卷積,進一步加大了模型的深度.我們使用Inception-6網絡作為基準模型.Inception-6模型的輸入尺寸為224×224,完整結構如表1中Output Size(Large)所示:

Table 1 Multi-Scale Inception-6 Model表1 多尺度Inception-6模型
在商品圖像檢索中,被拍攝的商品的尺度可能差別較大,而除了被拍攝的商品區域外,其他區域均為雜亂的背景噪聲.尺度的差別為特征提取帶來了難度.我們希望可以復用現有模型的權重信息,使得同一個卷積神經網絡模型可以接受不同尺寸的輸入數據,并通過后續的模型整合,整合不同輸入尺寸的特征,提升對于尺度的魯棒性.
在Inception-6網絡中,Inception(5b)兩層的輸出大小為7×7,而在Inception模塊中,雙3×3卷積需要輸入尺寸至少為5×5.我們將Inception(5b)的輸出尺寸縮減為5×5,計算可得圖片的初始輸入尺寸應為160×160.輸入尺寸160×160的模型參數與輸出尺寸如表1中Output Size(Small)所示.縮減了輸入大小后的模型,與原始的模型具有完全一致的權重矩陣大小.即我們可以將同樣的模型參數應用到224×224與160×160兩種不同的輸入尺寸中.
我們提出的多尺度方法本質是只計算原始圖像對應區域的特征.由神經網絡卷積層的計算公式可以得出,如果不考慮池化的影響,160×160小尺寸的輸入相當于使用原始的224×224輸入,但在每一個中間層中,都只保留與中心160×160區域對應的輸出值,其余值置為0.即在特征計算的過程中不考慮中心160×160以外的圖片背景部分.因而這樣的計算方式不僅減少了運算量,而且保留了大部分的特征表示能力,減少了背景噪聲對于圖像特征的影響.在實驗中,我們將會驗證224×224與160×160兩種不同的輸入尺寸的性能.
1.2模型壓縮
Inception-6網絡結構復雜,計算復雜度非常高,為了加速圖像特征的計算,我們希望在Inception-6網絡的基礎上進行壓縮,構造一個更小更快速的模型.神經網絡模型的壓縮通常有2種可行的方法:壓縮模型的深度和壓縮模型的寬度.壓縮模型的深度,是指通過去掉一些隱含層,使神經網絡的層數減少.壓縮模型的寬度,是指減少每一層的過濾器個數,使得每一層抽取的特征數量減少.
我們同時使用壓縮模型的深度和壓縮模型的寬度這2種方法.對比壓縮后的模型和原始的Inception-6模型,我們分別去掉了Inception(4)和Inception(5)中的一個Inception模塊,同時每一層的過濾器個數也有所減少.經過壓縮的模型記作Inception-6-Small網絡,完整的結構如表2所示:

Table 2 Multi-Scale Inception-6-Small Model表2 多尺度Inception-6-Small模型
我們進一步對深度壓縮和寬度壓縮對模型參數規模的影響進行了定量分析,對比了壓縮前和壓縮后卷積層參數的數量.結果表明:深度壓縮的過程減少了約27%的卷積層參數,而寬度壓縮的過程減少了約6%的卷積層參數.
模型參數規模的減少將會一定程度地影響模型的性能.在實驗章節中,我們將會對比經過模型壓縮的Inception-6-Small模型和原始的Inception-6模型的性能.我們的實驗結果表明:經過模型壓縮的Inception-6-Small模型只有很小的性能損失,但是大大節省了抽取特征所需的時間.
1.3圖像相似度學習與度量
卷積神經網絡模型承擔了抽取圖像特征的功能.Inception-6網絡模型的平均池化層(average pooling)的輸出,可以直接作為圖像的一個1 024維的特征.但卷積神經網絡模型訓練時,損失函數通常為圖像分類的誤差,2幅圖像特征之間的距離并沒有具體的物理意義,因而抽取得到的特征向量之間的相似度難以有效度量.我們使用了線性判別分析(LDA)對特征向量進行進一步的相似度學習,同時,LDA還可以增強特征的判別性能.LDA的目標是學習特征不同維度間的一個線性組合.LDA的目標函數定義為[12]
其中,Sb與Sw分別為類間與類內的散布矩陣,分別定義為
其中,n為總樣本數,m為總類別數,nk為對應類別中的樣本數,μ為所有樣本的均值,μk為對應類別樣本的均值.即LDA的優化目標為類間與類內散布比值的最大化.在商品圖像檢索中,不同商品之間可能極為相似,經過LDA后,相似的商品類別被盡量區分開,同類的商品盡量接近,進一步增強了特征的判別性能.

我們發現,通過LDA相似度學習,我們還擴大了圖像特征分布的空間.如圖2所示,由于CNN的激活函數為ReLU,在CNN提取出的特征中沒有負值存在,所有的特征向量都集中在第1象限.經過LDA之后,特征空間從第1象限擴大到了整個空間,有利于提升特征的判別性能.

Fig. 2 Illustration of CNN and LDA feature spaces圖2 CNN特征空間與LDA特征空間示意
圖像相似度常用的計算方法為L2距離與余弦相似度(cosine similarity)等.余弦相似度的物理意義是2個特征向量間的夾角.對于2張圖片的特征向量a和b,余弦相似度定義為

我們的實驗在ALISC(Alibaba Large-scale Image Search Challenge)*ALISC數據集來自阿里巴巴集團.數據集上進行.ALISC數據集分為3部分.訓練數據集包含約195萬張由賣家上傳的商品描述圖片.這些圖片可以分為10個商品大類和676個商品子類.驗證數據集包含1 417張手機拍攝的查詢圖片和約320萬張備選商品描述圖片.測試數據集包含3 567張查詢圖片和驗證數據集共用備選圖片.測試數據集的標簽信息不公開.
我們使用MAP@n作為檢索性能的標準.對于單條查詢,我們計算檢索結果的AP@n.AP@n的計算為

/min(m,n),
其中,如果第k條是一條正確的結果,P(k)表示查詢結果排序中到第k條為止的正確結果個數,否則P(k)=0.m表示該查詢在數據庫中的所有正確結果總數.MAP@n定義為所有查詢AP@n的平均值.在商品檢索的實際應用中,最受用戶關注的首頁檢索結果通常包含20條左右的商品.根據商品檢索的應用特點,我們使用MAP@20作為檢索性能的標準.
由于測試數據集的標簽不對外公開,為了驗證模型的性能,我們進一步隨機地將驗證數據集切分為1 000張訓練圖片與417張測試圖片.在第3節中,我們的部分實驗將會報告在驗證數據集,即417張測試圖片上的MAP@20結果.
在我們的實驗中,還使用了2個輔助數據集,分別為ImageNet與ImageNet-21K[21].ImageNet數據集是應用最廣泛的圖像分類數據集之一,包含100多萬張圖片,分為1 000個類別.ImageNet-21K數據集為ImageNet數據集的擴充,包含1 400多萬張圖片,涵蓋了21 000多個更加細致的類別.
3.1基準模型
我們使用在ImageNet-21K數據集上訓練的Inception-6模型[22]作為基準模型,抽取Inception-6模型的平均池化層直接作為圖像特征.作為對比,我們還在AlexNet模型[17]上進行實驗,在AlexNet模型上,使用最后一層全連接層的輸出作為特征.對于輸入圖片,我們將短邊壓縮到256像素,之后截取中央的224×224作為CNN的輸入.我們在ALISC驗證數據集上測試了不同模型的準確率和運行時間.測試模型運行時間的環境為Xeon E5 2650 v2 CPU,主頻為2.6 GHz.運行時間為在單核CPU上進行一次模型特征提取需要的時間.我們觀測到,使用余弦相似度計算CNN特征的相似度,普遍比使用L2距離的準確度更高,因此我們在之后的實驗中均使用余弦相似度.預訓練的Inception-6模型的實驗結果如表3所示.結果表明Inception-6模型的特征相比AlexNet模型的特征具有更強的表示能力,但是Inception-6模型消耗了更多的運行時間.

Table 3 The Results of Our Baseline Model on Validation Set表3 基準模型在驗證集上的實驗結果
我們進一步在ALISC數據集上對Inception-6模型進行微調(fine-tune).我們根據ALISC數據集的676個商品子類,訓練Inception-6模型在商品子類上的分類性能.我們將21K的softmax層替換為676類的softmax層,使用1e-4的學習率(原模型的初始學習率為1e-3)訓練到損失函數收斂為止.之后,我們調整學習率至1e-5,繼續學習到模型收斂.預訓練的Inception-6模型與經過微調的Inception-6模型在驗證數據集上的性能對比如表3所示.結果表明:微調的過程可以提升模型在商品圖像檢索問題上的判別性能.在之后的實驗中,我們采用微調Inception-6模型(之后記作Inception-6)作為基準模型.
3.2模型壓縮
本節中,我們對經過模型壓縮的Inception-6-Small模型進行實驗,對Inception-6-Small模型在ImageNet-21K數據集上進行訓練.與模型微調的過程類似,我們使用1e-3,1e-4,1e-5三種階梯學習率學習到模型收斂為止.在訓練過程中,我們使用了Batch Normalization[20]對模型進行歸一化,提升模型收斂速度.訓練過程在一臺雙路GTX Titan X的服務器上進行,耗時約2周.訓練后的模型在ImageNet-21K訓練集上的Top-1準確率為37.8%.對比預訓練的Inception-6模型在ImageNet-21K訓練集上的Top-1準確率為37.1%,證明我們提出的Inception-6-Small模型具有與Inception-6模型相近的特征表示能力.
我們在驗證數據集上對比了Inception-6與Inception-6-Small模型的檢索性能與運行時間.如表4所示,Inception-6-Small模型的性能接近Inception-6模型,但是模型消耗的運算時間減少了近一半.我們推測性能損失是由于減少了每一層特征抽取的過濾器數量,導致Inception-6-Small模型雖然在圖像分類問題上的性能與Inception-6相似,但是在圖像檢索問題上的性能有一定的損失.

Table 4 The Results of Compressed Model on Validation Set表4 壓縮后的模型在驗證集上的實驗結果
3.3多尺度模型測試
我們對提出的多尺度模型測試方法進行實驗驗證,使用Inception-6與Inception-6-Small兩個模型進行多尺度測試.我們對比了224×224的原始輸入尺寸與160×160的輸入尺寸下,模型的準確率與耗時.為了區別2種輸入尺寸,使用160×160的輸入尺寸的結果以“-160”結尾,實驗結果如表5所示.實驗結果表明:在160×160輸入尺寸下模型的計算時間大約減少了一半,但是也帶來了一些性能損失.觀察一些測試圖片之后我們發現,截取圖像中心的160×160部分之后,雖然截取圖像的中心區域可以裁剪掉了一部分背景,從而減少輸入圖像的噪聲,但如果被拍攝的商品在圖片中的位置不在正中央,或被拍攝的商品過大超出了圖像中心區域,則商品也有一部分會被裁剪掉,我們猜測這是導致160×160的小尺寸輸入產生性能損失的主要原因.

Table 5 The Results of Multi-scale Model on Validation Set表5 多尺度模型在驗證集上的實驗結果
3.4圖像相似度學習與模型整合
我們使用驗證數據集的標簽訓練LDA模型.驗證數據集的1 000張訓練圖片,總共包含約6萬個正確查詢結果,平均每張查詢圖片有60個結果.我們將每一個查詢作為子類,使用CNN特征訓練了一個1 000類的多類LDA模型.在驗證數據集上的實驗結果如表6所示.我們發現,LDA對于所有的CNN模型提取的特征均可帶來不同程度的性能提升,同時,LDA在模型測試時會帶來約0.03 s的額外時間消耗.

Table 6 The Results of LDA Features on Validation Set表6 LDA特征在驗證集上的實驗結果
我們繼續實驗了不同模型整合的效果.不同模型可以通過對多個余弦相似度取均值來實現整合.我們首先實驗了Inception-6與Inception-6-Small模型進行整合,2個模型的輸入尺寸均為224×224.同時,我們對比不同輸入尺寸的模型整合的效果.如表6所示,我們發現,將224×224與160×160兩個不同的尺度的模型進行整合,不同尺度的特征信息互相補充,可以比2個224×224大小的模型帶來更為明顯的性能提升,顯示了多尺度的重要性.若將我們提出的4種模型進行整合,性能可以進一步提升.但在線檢索服務對圖片特征提取消耗的時間非常敏感,在測試中,每張圖片特征提取的時間被限制在1 s以內,使用的模型過多則不能滿足時間限制的要求.Inception-6-Small與Inception-6-160兩個不同尺度模型的整合,同時滿足了性能和速度的要求.
最后,我們在封閉的測試數據集上測試了本文提出的方法.實驗結果如表7所示.使用我們提出的多尺度測試方法,將Inception-6-Small與Inception-6-160兩個模型進行整合,在與Inception-6單模型的計算速度相近的情況下,取得了較大的性能提升,證明了多尺度方法在商品圖像檢索問題上的有效性.使用4種模型進行整合可以取得最好的效果,但超過了圖片特征抽取的時間限制.在時間限制內,Inception-6-Small與Inception-6-160模型的組合取得了最好的效果.
我們同時對比了所提方法與Qi等人[8]提出的方法.在實驗結果中可以看到,在我們的方法與Qi等人的方法中,深度學習方法的性能均全面超過了SIFT與VLAD等傳統方法.同時,我們的圖像特征在測試集上取得了更好的效果.

Table 7 The Results of Different Methods on Testing Set表7 不同方法在測試數據集上的實驗結果
如圖3所示,我們選取了測試集中的一些代表的商品類型,展示了查詢圖片與結果圖片.結果圖片的標記表示對應的圖片在數據集標注的正確結果中出現過.結果表明,我們的方法在食品、化妝品等大類中,均可以取得較好的檢索效果.但對于服裝類等商品,商品種類繁多,不同視角、環境拍攝的商品可能外觀差異極大,難以保證結果的絕對準確.我們的方法仍然可以檢索到外觀非常相似的商品供用戶參考,但精確度還有待于進一步的提升.

Fig. 3 Some query images and results圖3 部分查詢圖片與檢索結果
本文提出了一種多尺度方法解決在線商品圖像檢索問題.我們提出了一種多尺度網絡,可以在不修改模型參數的條件下接受不同尺寸的圖像輸入.同時,我們在Inception-6模型的基礎上,將模型運算時間壓縮了近一半,同時取得了與原始模型相似的性能.我們使用了LDA進行圖像相似度學習,進一步提升了特征的判別力.在ALISC數據集上,我們的方法在相近的運行時間下,相對其他方法性能提升明顯,同時保證了檢索準確率和在線響應速度.
[1] Duan Lingyu, Huang Tiejun, Alex C K, et al. Mobile visual search: Technical bottlenecks and challenges[J]. Communications of the CCF, 2012, 8(12): 8-15 (in Chinese)(段凌宇, 黃鐵軍, Alex C K, 等. 移動視覺搜索技術瓶頸與挑戰[J]. 中國計算機學會通訊, 2012, 8(12): 8-15)
[2] Datta R, Joshi D, Li Jia, et al. Image retrieval: Ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): 5
[3] Jiang Shuqiang, Min Weiqing, Wang Shuhui. Survey and prospect of intelligent interaction-oriented image recognition techniques[J]. Journal of Computer Research and Development, 2016, 53(1): 113-122 (in Chinese)(蔣樹強, 閔巍慶, 王樹徽. 面向智能交互的圖像識別技術綜述與展望[J]. 計算機研究與發展, 2016, 53(1): 113-122)
[4] Lowe D G. Object recognition from local scale-invariant features[C] //Proc of the 7th IEEE Int Conf on Computer Vision (ICCV), Volume 2. Piscataway, NJ: IEEE, 1999: 1150-1157
[5] Perronnin F, Liu Y, Sánchez J, et al. Large-scale image retrieval with compressed fisher vectors[C] //Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2010: 3384-3391
[6] Perronnin F, Sánchez J, Mensink T. Improving the fisher kernel for large-scale image classification[C] //Proc of the 11th European Conf on Computer Vision (ECCV). Berlin: Springer, 2010: 143-156
[7] Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C] //Proc of the 23rd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2010: 3304-3311
[8] Qi Shuhan, Zawlin K, Zhang Hanwang, et al. Saliency meets spatial quantization: A practical framework for large scale product search[C/OL] //Proc of IEEE Int Conf on Multimedia & Expo (ICME) Workshops. Piscataway, NJ: IEEE, 2016 [2017-05-20]. http://ieeexplore.ieee.org/document/7574756
[9] Wan Ji, Wang Dayong, Hoi S C H, et al. Deep learning for content-based image retrieval: A comprehensive study[C] //Proc of the 22nd ACM Int Conf on Multimedia (MM). New York: ACM, 2014: 157-166
[10] Hadi Kiapour M, Han Xufeng, Lazebnik S, et al. Where to buy it: Matching street clothing photos in online shops[C] //Proc of the 15th IEEE Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2015: 3343-3351
[11] Shen Xiaohui, Lin Zhe, Brandt J, et al. Mobile product image search by automatic query object extraction[C] //Proc of the 12th European Conf on Computer Vision (ECCV). Berlin: Springer, 2012: 114-127
[12] Belhumeur P N, Hespanha J P, Kriegman D J. Eigenfaces vs. fisherfaces: Recognition using class specific linear projection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1997, 19(7): 711-720
[13] Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 815-823
[14] Wang Jiang, Song Yang, Leung T, et al. Learning fine-grained image similarity with deep ranking[C] //Proc of the 27th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2014: 1386-1393
[15] Wang Xi, Sun Zhenfeng, Zhang Wenqiang, et al. Matching user photos to online products with robust deep features[C] //Proc of the 18th ACM on Int Conf on Multimedia Retrieval (ICMR). New York: ACM, 2016: 7-14
[16] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems (NIPS). Montreal: NIPS Foundation, 2012: 1097-1105
[18] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014
[19] Szegedy C, Liu Wei, Jia Yangqing, et al. Going Deeper With Convolutions[C] //Proc of the 28th IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2015: 1-9
[20] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv: 1502.03167, 2015
[21] Deng Jia, Dong Wei, Socher R, et al. Imagenet: A large-scale hierarchical image database[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2009: 248-255
[22] Chen Tianqi, Li Mu, Li Yutian, et al. MXNet: A flexible and efficient machine learning library for heterogeneous distributed systems[J]. arXiv preprint arXiv: 1502.01274, 2015
Multi-ScaleDeepLearningforProductImageSearch
Zhou Ye and Zhang Junping
(SchoolofComputerScience,FudanUniversity,Shanghai200433) (ShanghaiKeyLaboratoryofIntelligentInformationProcessing,Shanghai200433)
Product image search is an important application of mobile visual search in e-commerce. The target of product image search is to retrieve the exact product in a query image. The development of product image search not only facilitates people’s shopping, but also results in that e-commerce moves forward to mobile users. As one of the most important performance factors in product image search, image representation suffers from complicated image background, small variance within each product category, and variant scale of the target object. To deal with complicated background and variant object scale, we present a multi-scale deep model for extracting image representation. Meanwhile, we learn image similarity from product category annotations. We also optimize the computation cost by reducing the width and depth of our model to meet the speed requirements of online search services. Experimental results on a million-scale product image dataset shows that our method improves retrieval accuracy while keeps good computation efficiency, comparing with existing methods.
product image search; deep learning; multi scale; metric learning; model compression

Zhou Ye, born in 1992. Master candidate at the School of Computer Science, Fudan University. Student member of CCF. His main research interests include deep learning and computer vision.

Zhang Junping, PhD, born in 1970. Professor at the School of Computer Science, Fudan University. Member of CCF. His main research interests include machine learning, image processing, biometric authentication, and intelligent transportation systems.
2017-03-20;
:2017-05-17
國家自然科學基金項目(61673118);上海市浦江人才計劃項目(16PJD009) This work was supported by the National Natural Science Foundation of China (61673118) and Shanghai Pujiang Program (16PJD009).
張軍平(jpzhang@fudan.edu.cn)
TP391.4