羅建豪 吳建鑫
基于深度卷積特征的細(xì)粒度圖像分類研究綜述
羅建豪1吳建鑫1
細(xì)粒度圖像分類問題是計算機(jī)視覺領(lǐng)域一項極具挑戰(zhàn)的研究課題,其目標(biāo)是對子類進(jìn)行識別,如區(qū)分不同種類的鳥.由于子類別間細(xì)微的類間差異和較大的類內(nèi)差異,傳統(tǒng)的分類算法不得不依賴于大量的人工標(biāo)注信息.近年來,隨著深度學(xué)習(xí)的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)為細(xì)粒度圖像分類帶來了新的機(jī)遇.大量基于深度卷積特征算法的提出,促進(jìn)了該領(lǐng)域的快速發(fā)展.本文首先從該問題的定義以及研究意義出發(fā),介紹了細(xì)粒度圖像分類算法的發(fā)展現(xiàn)狀.之后,從強監(jiān)督與弱監(jiān)督兩個角度對比分析了不同算法之間的差異,并比較了這些算法在常用數(shù)據(jù)集上的性能表現(xiàn).最后,我們對這些算法進(jìn)行了總結(jié),并討論了該領(lǐng)域未來可能的研究方向及其面臨的挑戰(zhàn).
細(xì)粒度圖像分類,深度學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò),計算機(jī)視覺
細(xì)粒度圖像分類(Fine-grained image categorization),又被稱作子類別圖像分類(Sub-category recognition),是近年來計算機(jī)視覺、模式識別等領(lǐng)域一個非常熱門的研究課題.其目的是對粗粒度的大類別進(jìn)行更加細(xì)致的子類劃分,但由于子類別間細(xì)微的類間差異和較大的類內(nèi)差異,較之普通的圖像分類任務(wù),細(xì)粒度圖像分類難度更大.
細(xì)粒度圖像分類研究,從提出到現(xiàn)在,已經(jīng)經(jīng)歷了一段較長時間的發(fā)展.早期的基于人工特征的算法,由于特征的表述能力有限,分類效果也往往面臨很大的局限性.近年來,隨著深度學(xué)習(xí)的興起,深度卷積特征促進(jìn)了該領(lǐng)域的快速進(jìn)步.另一方面,由于該課題本身的困難性,傳統(tǒng)的方法不得不依賴于大量的人工標(biāo)注信息,嚴(yán)重制約了算法的實用性.因此,越來越多的算法傾向于不再依賴人工標(biāo)注信息,僅僅使用類別標(biāo)簽來完成分類任務(wù),這也是該領(lǐng)域逐漸發(fā)展成熟的標(biāo)志.
本文以卷積特征為線索,從細(xì)粒度圖像分類的概念出發(fā),以鳥類數(shù)據(jù)庫[1]上的發(fā)展歷程為軸線,介紹了該領(lǐng)域一些優(yōu)秀的算法,并探討了未來可能的研究方向.
文章剩余部分的內(nèi)容組織如下:在第1節(jié),我們將對細(xì)粒度圖像分類進(jìn)行簡要、系統(tǒng)的介紹.一些比較常用的數(shù)據(jù)庫將在第2節(jié)給出,以便對細(xì)粒度分類問題有個更直觀的理解.在第3節(jié),我們將從其發(fā)展歷程出發(fā),簡要回顧一些基于人工特征的早期算法.由于本文介紹的大多數(shù)算法均基于卷積神經(jīng)網(wǎng)絡(luò),因此在第4節(jié),我們會對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行必要的介紹說明.之后,在第5節(jié)和第6節(jié),我們將從強監(jiān)督、弱監(jiān)督兩個角度,對現(xiàn)有的一些基于深度卷積特征的優(yōu)秀算法展開介紹.所謂強監(jiān)督就是指模型中使用了除標(biāo)簽以外的人工標(biāo)注信息,而弱監(jiān)督則僅僅只使用了類別標(biāo)簽.關(guān)于該領(lǐng)域未來可能的發(fā)展方向及其挑戰(zhàn),我們將在第7節(jié)進(jìn)行介紹.最后,相關(guān)的總結(jié)會在第8節(jié)給出.
圖像分類是計算機(jī)視覺領(lǐng)域的一個經(jīng)典研究課題.傳統(tǒng)的圖像分類主要處理語義級圖像和實例級圖像兩大類:前者包括諸如場景識別[2?3]、對象識別[4?5]等語義級圖像分類任務(wù),其目標(biāo)是識別不同類別的對象,如貓和狗等;后者則是對不同的個體進(jìn)行分類,如人臉識別[6?7].
細(xì)粒度圖像分類則位于這兩者之間.不同于對象識別等粗粒度的圖像分類任務(wù),細(xì)粒度圖像的類別精度更加細(xì)致,類間差異更加細(xì)微,往往只能借助于微小的局部差異才能區(qū)分出不同的類別.由于其分類邊界位于同一類別的不同子類之上,如不同種類的鳥[1]等,故而又被稱作子類別分類.而與人臉識別等對象級分類任務(wù)相比,細(xì)粒度圖像的類內(nèi)差異更加巨大,存在著姿態(tài)、光照、遮擋、背景干擾等諸多不確定因素.因此,細(xì)粒度圖像分類是一項極具挑戰(zhàn)的研究任務(wù).
細(xì)粒度圖像分類無論在工業(yè)界還是學(xué)術(shù)界都有著廣泛的研究需求與應(yīng)用場景.與之相關(guān)的研究課題主要包括識別不同種類的鳥[1]、狗[8]、花[9]、車[10]、飛機(jī)[11]等.以鳥類數(shù)據(jù)庫為例,單就燕鷗而言,就存在著北極燕鷗、里海燕鷗等數(shù)種不同類別之分.而這些不同種類的燕鷗之間的差異十分細(xì)微,挖掘出有用信息也更加困難.如圖1(a)所示,這兩種燕鷗的差別僅僅只存在于一些局部區(qū)域中,如翅膀和腳的顏色等.即便是對于鳥類專家而言,想要完全識別出這些不同種類的鳥也不是一件容易的事情.但在實際生活中,識別不同的子類別又存在著巨大的應(yīng)用需求.例如,在生態(tài)保護(hù)中,有效識別不同種類的生物,是進(jìn)行生態(tài)研究的重要前提.以往,這一工作只能依賴于領(lǐng)域?qū)<抑R,造成了研究成本的大幅增加.如果能夠借助于計算機(jī)視覺的技術(shù),實現(xiàn)低成本的細(xì)粒度圖像識別,那么無論對于學(xué)術(shù)界,還是工業(yè)界而言,都有著非常重要的意義.
不同于普通的圖像分類任務(wù),細(xì)粒度圖像的信噪比很小,包含足夠區(qū)分度的信息往往只存在于很細(xì)小的局部區(qū)域中.因此,如何找到并有效利用這些有用的局部區(qū)域信息,成為了決定細(xì)粒度圖像分類算法成功與否的關(guān)鍵所在.目前,絕大多數(shù)的分類算法都遵循這樣的流程框架:首先找到前景對象(鳥)及其局部區(qū)域(頭、腳、翅膀等),之后分別對這些區(qū)域提取特征.對所得到的特征進(jìn)行適當(dāng)?shù)奶幚碇?用來完成分類器的訓(xùn)練和預(yù)測.
如前所述,細(xì)粒度圖像分類是一項極具挑戰(zhàn)的研究課題,為了達(dá)到滿意的分類結(jié)果,許多現(xiàn)有的分類算法都嚴(yán)重依賴于人工標(biāo)注信息(Annotations).一些常用的標(biāo)注信息如圖1(b)所示,其中主要包括標(biāo)注框(Bounding box)和局部區(qū)域位置(Part locations)等.借助于標(biāo)注框能夠完成對前景對象的檢測,從而排除掉背景噪聲的干擾;而局部區(qū)域位置則可以用來對一些有用的局部區(qū)域進(jìn)行定位,或者進(jìn)行姿態(tài)對齊等,以實現(xiàn)局部特征的提取.然而,人工標(biāo)注信息的獲取代價十分昂貴,這在很大程度上制約了這些分類算法的實用性.近年來,越來越多的研究傾向于不使用這些標(biāo)注信息,僅僅依靠類別標(biāo)簽(Label)來完成圖像分類任務(wù)[12?13],并取得了相當(dāng)不錯的效果.

圖1 細(xì)粒度圖像分類示意圖(取自CUB200-2011數(shù)據(jù)集[1])Fig.1 Illustration of fi ne-grained categorization(sampled from the CUB200-2011 dataset[1])
另一方面,特征的提取也是決定圖像分類準(zhǔn)確性的關(guān)鍵因素,尋找一個更具區(qū)分度的特征一直是研究人員所追求的目標(biāo)[14?16].傳統(tǒng)的基于人工特征的分類算法往往面臨很大的局限性.這類算法一般是先從圖像中提取SIFT(Scale invariant feature transform)[17]或者HOG(Histogram of oriented gradient)[18]這些局部特征,之后利用VLAD(Vector of locally aggrgeated descriptors)[19]或者Fisher vector[20?21]等編碼模型進(jìn)行特征編碼,得到最終所需要的特征表示.然而,由于人工特征的描述能力有限,導(dǎo)致分類效果不佳.在細(xì)粒度圖像分類研究的早期,特征的表示能力成為了制約其性能提升的主要瓶頸.
近年來,深度學(xué)習(xí),尤其是深度卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域的巨大成功,引發(fā)了人們濃厚的研究興趣[22?23].相對于人工特征而言,深度學(xué)習(xí)可以看作是一個表示學(xué)習(xí)的過程[24],即針對具體的分類任務(wù)學(xué)習(xí)一個具體的特征表示.有研究表明,從深度卷積神經(jīng)網(wǎng)絡(luò)中所提取的特征,比人工特征擁有更強大的描述能力,將深度卷積特征運用到細(xì)粒度圖像分類任務(wù)中,能夠取得更好的結(jié)果[25].深度卷積特征的加入,為細(xì)粒度圖像分類的發(fā)展帶來了新的機(jī)遇,使得其研究進(jìn)入了一個新的階段.
相對于普通分類任務(wù)的數(shù)據(jù)庫而言,細(xì)粒度圖像數(shù)據(jù)庫的獲取難度更大,需要更強的專業(yè)領(lǐng)域知識才能完成數(shù)據(jù)的采集與標(biāo)注.但近年來,涌現(xiàn)出了越來越多的細(xì)粒度圖像數(shù)據(jù)庫,這也從另一個角度反映了該領(lǐng)域蓬勃的發(fā)展趨勢與強烈的現(xiàn)實需求.
目前比較常用的細(xì)粒度圖像數(shù)據(jù)庫主要包括:1)CUB200-2011[1]:CUB200-2011是細(xì)粒度圖像分類領(lǐng)域最經(jīng)典,也是最常用的一個數(shù)據(jù)庫,共包含200種不同類別,共11788張鳥類圖像數(shù)據(jù).同時,該數(shù)據(jù)庫提供了豐富的人工標(biāo)注數(shù)據(jù)1本文將監(jiān)督信息分成類別標(biāo)簽與人工標(biāo)注信息兩大類.對于分類任務(wù)而言,類別標(biāo)簽是必不可少的監(jiān)督信息;而人工標(biāo)注信息則主要是指標(biāo)注框、語義分割圖像等額外監(jiān)督信息.,每張圖像包含15個局部區(qū)域位置,312個二值屬性,1個標(biāo)注框,以及語義分割圖像.2)Stanford Dogs[8]:該數(shù)據(jù)庫提供了120種不同種類的狗的圖像數(shù)據(jù),共有20580張圖,只提供標(biāo)注框這一個人工標(biāo)注數(shù)據(jù).3)Oxford Flowers[9]:分為兩種不同規(guī)模的數(shù)據(jù)庫,分別包含17種類別和102種類別的花.其中,102種類別的數(shù)據(jù)庫比較常用,每個類別包含了40到258張圖像數(shù)據(jù),總共有8189張圖像.該數(shù)據(jù)庫只提供語義分割圖像,不包含其他額外標(biāo)注信息.4)Cars[10]:提供196類不同品牌不同年份不同車型的車輛圖像數(shù)據(jù),一共包含有16185張圖像,只提供標(biāo)注框信息.5)FGVC-Aircraft[11]:提供102類不同的飛機(jī)照片,每一類別含有100張不同的照片,整個數(shù)據(jù)庫共有10200張圖片,只提供標(biāo)注框信息.
圖2展示了以上所介紹的幾個數(shù)據(jù)庫的部分示意圖.對于每個數(shù)據(jù)庫,我們隨機(jī)采集了4張來自不同類別的圖像.從這些圖像中可以看出,不同類別之間的差異十分細(xì)微,即便是對于人類自身而言,也很難完全區(qū)分開這些類別.細(xì)粒度圖像分類任務(wù)的困難性,由此可見一斑.

圖2 細(xì)粒度圖像數(shù)據(jù)庫示意圖(所有圖像均取自不同類別)Fig.2 Illustration of fi ne-grained datasets(the images are sampled from di ff erent categories)
除了以上介紹的5個數(shù)據(jù)庫之外,相關(guān)的數(shù)據(jù)庫還有很多,這里限于篇幅,不再一一細(xì)述.需要說明的是,盡管不同數(shù)據(jù)庫的規(guī)模和難易程度不盡相同,但其背后所蘊含的算法思想?yún)s是相類似的.在一個數(shù)據(jù)庫上能夠取得良好性能的分類算法,在其余數(shù)據(jù)庫上往往也能生效.而在這眾多的細(xì)粒度圖像數(shù)據(jù)庫中,CUB200-2011鳥類數(shù)據(jù)庫是最常用,也是最經(jīng)典的一個.因此,本文將以該數(shù)據(jù)庫為主線,介紹細(xì)粒度圖像分類的發(fā)展歷程.
如前所述,相對于普通的圖像分類任務(wù),細(xì)粒度圖像分類更具挑戰(zhàn)性.其發(fā)展的過程也見證了計算機(jī)視覺研究領(lǐng)域的一些重要進(jìn)展.在本節(jié),我們將簡要地回顧該領(lǐng)域中的一些早期研究成果,以加深對該領(lǐng)域的認(rèn)識.
在發(fā)布CUB200-2011數(shù)據(jù)庫[1]的技術(shù)報告中,Wah等給出的基準(zhǔn)測試的結(jié)果僅為10.3%.他們的方法是:給定一張原始的、未經(jīng)過裁剪的測試圖像,利用訓(xùn)練得到的模型完成局部區(qū)域的定位;之后,提取RGB顏色直方圖和向量化的SIFT特征,經(jīng)過詞包(Bag of words,BoW)模型進(jìn)行特征編碼后,輸入到線性SVM(Support vector machine)分類器完成分類.如果在測試時給定了標(biāo)注框和局部區(qū)域位置這些標(biāo)注信息的話,利用同樣的方法,得到的基準(zhǔn)測試結(jié)果為17.3%.
從分類準(zhǔn)確度上來看,這個結(jié)果并不讓人滿意.一方面,是由于定位不夠準(zhǔn)確,局部區(qū)域無法歸一化對齊;另一方面,則是因為特征的描述能力太弱,不具備足夠的區(qū)分度.之后,研究人員發(fā)現(xiàn),使用一些更強大的特征,如POOF[26]、Fisher-encoded[27]SIFT、KDES(Kernel descriptors)[28]等,再利用一定的算法提高定位的精確度,能夠?qū)⒎诸悳?zhǔn)確度提升至50%~62%左右[26,29?31].
其中,Berg等[26]提出了一種基于局部區(qū)域的特征編碼方式,他們稱之為POOF特征.該算法能夠自動發(fā)現(xiàn)最具區(qū)分度的信息,取得了不錯的分類效果.但該算法對關(guān)鍵點的定位精度要求比較高,如果用精確的標(biāo)注信息實現(xiàn)定位的話,能夠達(dá)到73.3%的準(zhǔn)確率,但如果利用定位算法去確定關(guān)鍵點的話,則只有56.8%的準(zhǔn)確度.除了特征之外,也有針對局部區(qū)域的算法研究.如Yao[32]等,Yang[33]等均嘗試使用模板匹配的方法來減少滑動窗口的計算代價.
除此之外,也有研究工作[34?35]嘗試將人加入到分類任務(wù)中來.用戶通過交互式的詢問對答,完成指定的操作,如給出關(guān)鍵點,回答一些簡單問題等.其目的在于使用最少的詢問次數(shù),達(dá)到最好的分類精度.這類算法在小樣本規(guī)模問題上不失為一種折中方案,對于精度要求比較高的任務(wù)而言,可作為一種合理的補充.
從這一階段的研究成果上可以看出,更強大的特征描述和特征編碼方式對分類準(zhǔn)確度有著顯著的影響,隨后關(guān)于卷積特征的研究也再次證實了這一點.其次,細(xì)粒度圖像分類有別于其他分類任務(wù)的一點就是局部區(qū)域的信息是至關(guān)重要的.因此,設(shè)計一個更加精確的定位/對齊模型,也能帶來顯著的性能提升.但同時,我們也該意識到,為了實現(xiàn)更精細(xì)的局部定位,很多算法都嚴(yán)重依賴于人工標(biāo)注信息,這樣的方式在實際應(yīng)用中存在很大的局限性,這也是前期研究的一個共性.
由于下文所介紹的算法均基于深度卷積特征,因此有必要對其進(jìn)行一定的說明.在本節(jié),我們將會從網(wǎng)絡(luò)結(jié)構(gòu)、卷積特征以及模型的訓(xùn)練方法幾個方面對卷積神經(jīng)網(wǎng)絡(luò)展開必要的介紹.
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNNs)是神經(jīng)網(wǎng)絡(luò)中一個非常經(jīng)典的模型[36?37],于上世紀(jì)80年代受視覺神經(jīng)運作機(jī)制的啟發(fā)而設(shè)計.其典型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:

圖3 卷積神經(jīng)網(wǎng)絡(luò)框架圖Fig.3 The framework of convolutional neural networks
在卷積神經(jīng)網(wǎng)絡(luò)中,前若干層由卷積層和池化層組成,前層的輸出作為后層的輸入.其中,卷積層由一個大小固定的卷積核與輸入進(jìn)行卷積操作,用來模擬生物視覺系統(tǒng)中的簡單細(xì)胞,而池化層則是一種下采樣操作.用來擴(kuò)大感受野(Receptive fields),獲得一定的不變性.隨后的若干層由全連接層構(gòu)成,其作用相當(dāng)于一個分類器.由于其網(wǎng)絡(luò)層數(shù)量較多,故而稱作深度卷積神經(jīng)網(wǎng)絡(luò),或者深度學(xué)習(xí).
不同于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度卷積神經(jīng)網(wǎng)絡(luò)將特征提取、模型訓(xùn)練等原本分散的操作結(jié)合在一起,構(gòu)成了一個端到端(End-to-end)的系統(tǒng)進(jìn)行整體訓(xùn)練,其巨大的參數(shù)數(shù)量保證了模型的有效性與強大的表示能力.卷積層和池化層相當(dāng)于一個特征提取的操作.整個系統(tǒng)是一個端到端的訓(xùn)練過程,即針對特定的分類任務(wù),利用大量的參數(shù)學(xué)習(xí)得到一個具體的特征表示.因此,與人工特征相比,卷積神經(jīng)網(wǎng)絡(luò)獲得的特征更加強大,擁有更強的區(qū)分性.
研究表明,前幾層網(wǎng)絡(luò)學(xué)習(xí)到的特征主要是一些邊緣/紋理特征,而隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,逐漸從這些低層語義特征過渡到了高層語義特征[38].在后幾層,空間信息保留的程度逐漸降低,而到了全連接層,則完全丟棄了空間語義信息.因此,不同網(wǎng)絡(luò)層的特征具有不同的描述能力,卷積特征的抽取需要綜合考慮各方面因素[25].
從神經(jīng)網(wǎng)絡(luò)特定層提取的輸出,可以作為圖像的特征來訓(xùn)練分類模型.Gong等[39]抽取全連接層的特征,與VLAD[19]編碼相結(jié)合,取得了不錯的效果.考慮到全連接層丟失了空間信息,Cimpoi等[40]則嘗試使用卷積層的輸出作為特征,并在紋理識別上取得了進(jìn)步.在實際應(yīng)用中,應(yīng)該根據(jù)特定的需求來選取適當(dāng)?shù)木W(wǎng)絡(luò)層輸出作為卷積特征.
在實際應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法主要包含以下三種情況:1)預(yù)訓(xùn)練模型(Pre-rrained model):這種方法是直接使用一些在ImageNet數(shù)據(jù)集上已經(jīng)訓(xùn)練好的模型,比較常用的模型包括Alex-Net[22]、VGG-Net[41]等.在這種情況下,這些預(yù)訓(xùn)練的模型相當(dāng)于一個特征提取器;2)模型微調(diào)(Fine-tuned model):由于深度卷積神經(jīng)網(wǎng)絡(luò)的特征數(shù)量非常龐大,而特定任務(wù)(如細(xì)粒度圖像分類)的數(shù)據(jù)集規(guī)模往往比較小,若直接進(jìn)行訓(xùn)練很容易造成過擬合.一種折中的方法是使用在ImageNet上預(yù)訓(xùn)練的模型參數(shù),替換掉最后的Softmax層,在新數(shù)據(jù)集上進(jìn)行重新訓(xùn)練,稱之為微調(diào).在細(xì)粒度圖像分類研究中,模型微調(diào)是最常用的訓(xùn)練方法;3)從頭訓(xùn)練(Training from scratch):以上兩種方法可以被視作為一種遷移學(xué)習(xí),即將模型在ImageNet數(shù)據(jù)集上學(xué)習(xí)到的知識遷移到特定的數(shù)據(jù)集(如CUB200-2011)上,而從頭訓(xùn)練則是自行設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)并進(jìn)行模型訓(xùn)練.如前所述,這種情況下很容易造成數(shù)據(jù)的過擬合,需要采取一定的方法來避免.
所謂強監(jiān)督的細(xì)粒度圖像分類算法,是指在模型訓(xùn)練的時候,除了圖像的類別標(biāo)簽外,還使用了標(biāo)注框、局部區(qū)域位置等額外的人工標(biāo)注信息.如前所述,由于標(biāo)注信息的獲取代價十分昂貴,在很大程度上限制了這類算法的實用性.因此,也有些算法考慮僅在模型訓(xùn)練的時候使用標(biāo)注信息,而在進(jìn)行圖像分類時不使用這些信息.這在一定程度上提高了算法的實用性,但與只依賴類別標(biāo)簽的弱監(jiān)督分類算法相比仍有一定的差距.
隨著深度卷積神經(jīng)網(wǎng)絡(luò)在ImageNet上的成功,越來越多的人將目光轉(zhuǎn)向了深度學(xué)習(xí).一個很自然的想法就是,在ImageNet上學(xué)習(xí)得到的知識能否遷移到其他的具體領(lǐng)域中來?也就是說,利用ImageNet上預(yù)訓(xùn)練的模型,在其他數(shù)據(jù)集上提取圖像特征,是否仍然具有強大的區(qū)分性?答案是肯定的.
Donahue等[25]通過對在ImageNet數(shù)據(jù)集上所訓(xùn)練得到的卷積網(wǎng)絡(luò)模型進(jìn)行分析,發(fā)現(xiàn)從卷積網(wǎng)絡(luò)中提取的特征具有更強的語義特性,比人工特征具有更好的區(qū)分度.他們將卷積特征遷移到其他具體領(lǐng)域的任務(wù)中,如場景識別、細(xì)粒度分類等,均獲得了更好的分類性能,從實驗上證明了卷積特征強大的泛化性.他們稱之為DeCAF特征(Deep convolutional activation feature).
具體而言,首先使用標(biāo)注框?qū)D像進(jìn)行裁剪,得到前景對象,再利用預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)對圖像提取DeCAF特征.在文獻(xiàn)[25]中,他們提取的是第6層網(wǎng)絡(luò)特征,即第一個全連接層的輸出,之后訓(xùn)練一個多類別的邏輯回歸(Logistic regression)模型來進(jìn)行圖像分類.這樣一個簡單的框架在Caltech-UCSD數(shù)據(jù)集[42](CUB200-2011[1]數(shù)據(jù)集的早期版本2如不加說明,后文均是在CUB200-2011數(shù)據(jù)集上的實驗結(jié)果.)上取得了58.75%的分類精度,超過了很多當(dāng)時非常優(yōu)秀的算法.這也證明了從卷積網(wǎng)絡(luò)中所提取的特征,盡管不是為細(xì)粒度圖像分類專門進(jìn)行優(yōu)化設(shè)計的,卻捕捉到了更豐富的圖像信息.
總的來說,DeCAF是比較前期的工作,并不是專門針對細(xì)粒度圖像分類所優(yōu)化設(shè)計的算法,其目的在于解釋卷積特征的強大泛化性與領(lǐng)域自適應(yīng)性.DeCAF的出現(xiàn),在卷積特征與細(xì)粒度圖像分類之間搭起了一座橋梁,具有十分重要的意義.如今,越來越多的算法傾向于使用卷積特征來進(jìn)行具體領(lǐng)域的圖像處理工作,并取得了很大的進(jìn)步.
正如我們在前文所描述的那樣,對于細(xì)粒度圖像分類而言,圖像的局部信息是決定算法性能的關(guān)鍵所在.對圖像進(jìn)行檢測,并提取出重要的局部信息是大多數(shù)細(xì)粒度圖像分類算法所采用的基本流程.基于這種觀點,Zhang等提出了Part R-CNN[43]算法,該算法采用了R-CNN[44]對圖像進(jìn)行檢測.因此,在介紹該算法之前,有必要對R-CNN做一個簡要的說明.
對象檢測(Objection detection)[45?46]問題是計算機(jī)視覺領(lǐng)域一個非常重要的研究課題,其目標(biāo)是判定圖像中是否存在特定的對象,如車、人等,并給出對象在圖像中的位置信息.基于卷積特征,Girshick等提出了R-CNN(Regions with CNN features)算法[44].
該算法流程十分簡單,首先,對于輸入的圖像,采用自底向上的區(qū)域算法(如Selective search[47])產(chǎn)生2000個區(qū)域候選(Part proposals).這些候選區(qū)域可能包含了想要檢測的目標(biāo)對象,但絕大多數(shù)區(qū)域僅僅包含背景信息.之后,對每一個候選區(qū)域提取卷積特征,用事先訓(xùn)練好的SVM 模型來對每一個特征進(jìn)行分類,判斷該候選區(qū)域中是否包含想要檢測的對象.這樣,每一個候選區(qū)域都能夠計算得到一個相應(yīng)的評分分值:score=ωTφ(x).其中ω是SVM 的權(quán)重,φ(x)是利用卷積網(wǎng)絡(luò)從候選區(qū)域圖像x中提取的特征.利用此分值作為評估該候選區(qū)域?qū)儆谀骋活悇e的可能性.如果某一候選區(qū)域與另一分值較高區(qū)域之間的IoU(Intersection-overunion)重疊值大于某一閾值的話,則丟棄該低分值的區(qū)域,即采用所謂的非極大抑制(Non-maximum suppression)策略.同時,分值低于某一閾值的區(qū)域也應(yīng)當(dāng)被丟棄.最終所保留下來的區(qū)域即為該類的定位檢測結(jié)果.
在實際應(yīng)用中,仍有一些具體的操作細(xì)節(jié)需要注意,如卷積網(wǎng)絡(luò)的微調(diào)、訓(xùn)練數(shù)據(jù)的劃分等.本文由于篇幅限制,不再一一敘述,詳細(xì)可參照文獻(xiàn)[44].
顧名思義,Part R-CNN就是利用R-CNN算法進(jìn)行對象(鳥)與局部區(qū)域(頭、身體等)的檢測,圖4給出了其總體的流程圖.

圖4 Part R-CNN流程圖[43]Fig.4 Part R-CNN system overview[43]
同R-CNN一樣,Part R-CNN也使用自底向上的區(qū)域算法(如Selective search[47])來產(chǎn)生區(qū)域候選,如圖4左上角所示.之后,利用R-CNN算法來對這些區(qū)域候選進(jìn)行檢測,給出評分分值.在這里,Part R-CNN只檢測前景對象(鳥)和兩個局部區(qū)域(頭、身體).之后,根據(jù)評分分值(圖4中間)挑選出區(qū)域檢測結(jié)果(見圖4上方中間).但Zhang等認(rèn)為,R-CNN給出的評分分值并不能準(zhǔn)確地反映出每個區(qū)域的好壞.例如,對于頭部檢測給出的標(biāo)注框可能會在對象檢測的標(biāo)注框外面,身體檢測的結(jié)果與頭部檢測的結(jié)果可能會有重疊等.這些現(xiàn)象都會影響最終的分類性能.因此,需要對檢測區(qū)域進(jìn)行修正.
具體而言,用X={x0,x1,···,xn}表示標(biāo)注框的位置信息,其中x0表示對象(鳥)的位置,x1到xn分別表示n個局部區(qū)域位置(頭和身體).通過求解式(1)所示的最優(yōu)化問題來獲得最佳的標(biāo)注框位置:

關(guān)于評分函數(shù)Δ(X)有兩種選擇,分別表示邊框約束與幾何約束,其定義如下所示:
1)邊框約束:該約束的出發(fā)點在于,所有的局部區(qū)域的范圍不能超出對象區(qū)域的某個閾值:

當(dāng)局部區(qū)域xi超出對象區(qū)域x0的像素點個數(shù)不超過∈時,cx0(xi)=1;否則,取0.
2)幾何約束:由于單個檢測器的結(jié)果不一定可靠,幾何約束在邊框約束的基礎(chǔ)上增加了額外的約束信息:

其中,α是超參,δi是對區(qū)域i位置的評分,考慮兩種不同的形式:
利用如上所述的約束條件對R-CNN檢測的位置信息進(jìn)行修正之后,再分別對每一塊區(qū)域提取卷積特征,將不同區(qū)域的特征相互連接起來,構(gòu)成最后的特征表示,用來訓(xùn)練SVM 分類器.這里,在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,利用檢測到的局部圖像對網(wǎng)絡(luò)進(jìn)行了微調(diào).實驗結(jié)果顯示,如果只在訓(xùn)練時提供標(biāo)注框與局部區(qū)域信息,測試時不提供任何信息的情況下,Part R-CNN在CUB200-2011數(shù)據(jù)集上能夠達(dá)到73.89%的分類精度.進(jìn)行幾何約束后可以帶來1%左右的效果提升,而且的效果最好.
相對于只是簡單地引入卷積特征的DeCAF算法[25]而言,Part R-CNN的進(jìn)步是明顯的.從局部區(qū)域的檢測定位,到特征的提取,該算法均基于卷積神經(jīng)網(wǎng)絡(luò),并針對細(xì)粒度圖像的特點進(jìn)行改進(jìn)優(yōu)化,以改進(jìn)通用物體定位檢測算法在該任務(wù)上的不足,達(dá)到了一個相對比較高的準(zhǔn)確度.同時,該算法進(jìn)一步放松了對標(biāo)記信息的依賴程度,在測試時無需提供任何標(biāo)記信息,大大增強了算法的實用性.其不足之處在于,利用自底向上的區(qū)域產(chǎn)生方法,會產(chǎn)生大量無關(guān)區(qū)域,這會在很大程度上影響算法的速度.另一方面,該算法本身的創(chuàng)新性十分有限,既然局部區(qū)域?qū)τ诩?xì)粒度圖像而言是關(guān)鍵所在,那么對其進(jìn)行定位檢測則是必要的途徑.只是引入現(xiàn)有的通用定位算法,似乎并不能很好地解決該問題.
在細(xì)粒度圖像分類任務(wù)中,除了至關(guān)重要的局部區(qū)域信息之外,還有一個十分顯著的特點:其巨大的類內(nèi)方差會對最終的分類性能造成很大的影響.而在這些不同的干擾信息中,姿態(tài)問題則是一個普遍存在的影響因素.有鑒于此,Branson等提出了姿態(tài)歸一化CNN(Pose normalized CNN)算法[48].他們所采取的方案是:對于每一張輸入圖像,利用算法完成對局部區(qū)域的定位檢測,根據(jù)檢測的標(biāo)注框?qū)D像進(jìn)行裁剪,提取出不同層次的局部信息(鳥、頭部),并進(jìn)行姿態(tài)對齊操作.之后,針對不同部位的局部信息,提取出不同層的卷積特征.最后,將這些卷積特征連接成一個特征向量,進(jìn)行SVM 的模型訓(xùn)練,達(dá)到了75.7%的分類精度.其具體流程如圖5所示.
整個算法流程中,首先要解決的就是如何檢測局部區(qū)域的問題.對于輸入圖像,Branson等利用預(yù)先訓(xùn)練好的DPM(Deformable part model)算法[49]完成關(guān)鍵點的檢測.DPM算法能夠給出預(yù)先定義好的關(guān)鍵位置點的坐標(biāo),以及該點是否可見等信息.之后,利用這些關(guān)鍵點進(jìn)行姿態(tài)對齊操作.

圖5 姿態(tài)歸一化CNN流程圖[48]Fig.5 Pose normalized CNN system overview[48]
具體而言,給定n張訓(xùn)練圖像,每張圖像包含K個關(guān)鍵點.首先使用這些訓(xùn)練數(shù)據(jù)訓(xùn)練P個原型(Prototype)Rp={ip,bp,Sp},原型的個數(shù)代表不同局部區(qū)域的數(shù)量.其中ip表示一張參考圖像,bp是相應(yīng)的標(biāo)注框,Sp則是一系列關(guān)鍵點的位置信息.給定一張測試圖像Xt,利用DPM算法檢測出關(guān)鍵點位置Yt之后,將其與原型中的位置點對齊.這可以通過一個變換函數(shù)W(ytj,ω)完成:

下面的問題變成了如何對P個原型Rp進(jìn)行訓(xùn)練.文獻(xiàn)[48]給出的思路是使用受約束的最小化對齊誤差,其約束條件是訓(xùn)練集中的每一個關(guān)鍵點ytj至少與一個原型對齊.這一約束可以形式化地描述為

其中,第一項表示對原型個數(shù)的懲罰項,后一項是使得每一張圖里的每一個關(guān)鍵點與原型的像素對齊誤差最小化.通過對該函數(shù)進(jìn)行優(yōu)化求解即可完成原型的訓(xùn)練過程.
由于不同網(wǎng)絡(luò)層提取的特征包含不同的語義信息,Branson等認(rèn)為應(yīng)該針對不同的局部區(qū)域提取不同網(wǎng)絡(luò)層的卷積特征.為了證明這一點,他們比較了不同的局部區(qū)域在各個網(wǎng)絡(luò)層提取的特征所能達(dá)到的分類準(zhǔn)確度.實驗結(jié)果表明,對于低層對齊圖像(原始圖像與前景對象)而言,后層的卷積特征更具區(qū)分度,能夠?qū)崿F(xiàn)更高的準(zhǔn)確度,相對淺層特征具有絕對的優(yōu)勢.但對于高層對齊圖像(頭部圖像)來說,情況卻恰恰相反.因此,對于不同的局部區(qū)域應(yīng)當(dāng)提取不同網(wǎng)絡(luò)層的特征.
姿態(tài)歸一化CNN的創(chuàng)新之處在于使用原型對圖像進(jìn)行了姿態(tài)對齊操作,并針對不同的局部區(qū)域提取不同網(wǎng)絡(luò)層的特征,以試圖構(gòu)造一個更具區(qū)分度的特征表示,這一方案在先前的研究工作中并不常見.它在原有的局部區(qū)域模型的基礎(chǔ)上,進(jìn)一步考慮了鳥類的不同姿態(tài)的干擾,減輕了類內(nèi)方差造成的影響,從而取得了較好的性能表現(xiàn).但是,該算法對于關(guān)鍵點的檢測精度較為敏感,利用DPM 算法對關(guān)鍵點進(jìn)行檢測,其精度為75.7%.而如果在測試時使用真實的關(guān)鍵點標(biāo)注信息,則可以達(dá)到85.4%,達(dá)到了一個相當(dāng)高的分類水平.
除了以上所介紹的算法之外,還有很多優(yōu)秀的算法,如Krause等[50]將協(xié)同分割[51?52]引入到細(xì)粒度圖像分類中來,提出了一種新穎的局部區(qū)域檢測算法.該算法無需借助局部區(qū)域標(biāo)注信息,只依靠標(biāo)注框,便可完成分割與對齊操作,實現(xiàn)了82%的分類精度.相類似的,Lin等[53]設(shè)計了一個新穎的系統(tǒng),在單個網(wǎng)絡(luò)結(jié)構(gòu)中同時實現(xiàn)了局部區(qū)域的定位、對齊與分類任務(wù),通過梯度回傳的機(jī)制達(dá)到共同優(yōu)化訓(xùn)練的目的,實現(xiàn)了80.26%的精度.
另一方面,由于細(xì)粒度圖像數(shù)據(jù)庫的規(guī)模較小,即便是對預(yù)訓(xùn)練的網(wǎng)絡(luò)進(jìn)行微調(diào),也難以避免過擬合帶來的問題.因此,也有研究人員考慮使用數(shù)據(jù)增強的方式來擴(kuò)大細(xì)粒度圖像數(shù)據(jù)庫的規(guī)模.如Xu等[54]提出利用網(wǎng)絡(luò)圖片來進(jìn)行數(shù)據(jù)增強.由于數(shù)據(jù)庫的規(guī)模得到了擴(kuò)充,得到的網(wǎng)絡(luò)也更加強大,從而能夠帶來性能上的提升.但網(wǎng)絡(luò)圖片包含了大量的干擾信息,因此,Xu等利用細(xì)粒度圖像數(shù)據(jù)庫上的標(biāo)注信息來學(xué)習(xí)相應(yīng)的檢測器,并利用檢測器來對噪聲圖片進(jìn)行過濾,實現(xiàn)了84.6%的分類精度.
借助于豐富的人工標(biāo)注信息,輔以精確的檢測技術(shù),實現(xiàn)更高的分類精度已不再是難事.但考慮到現(xiàn)實應(yīng)用的實際需求,隨著研究的深入,越來越多的算法不再依賴于這些強監(jiān)督信息,僅僅使用類別標(biāo)簽來完成分類任務(wù),這就是我們以下要介紹的弱監(jiān)督的細(xì)粒度圖像分類.
僅僅依賴于類別標(biāo)簽完成分類是近年來細(xì)粒度圖像研究的一大趨勢.得益于深度學(xué)習(xí)的發(fā)展,以及相關(guān)研究工作的深入,不借助人工標(biāo)注信息,也能實現(xiàn)良好的分類性能.如Jaderberg等[55]和Lin等[13]均實現(xiàn)了84.1%的分類精度,超過了絕大多數(shù)依賴于人工標(biāo)注的分類算法.
從前文的討論中可以看出,對于細(xì)粒度圖像分類算法而言,局部區(qū)域信息是至關(guān)重要的,這也正是大多數(shù)算法依賴于標(biāo)注信息的一大原因.因此,要實現(xiàn)更好的弱監(jiān)督的細(xì)粒度圖像分類,首先要解決的就是如何檢測并定位這些局部區(qū)域.
兩級注意力(Two level attention)算法[56]是第一個嘗試不依賴額外的標(biāo)注信息,而僅僅使用類別標(biāo)簽來完成細(xì)粒度圖像分類的工作,由Xiao等提出,取得了不錯的分類效果.顧名思義,該模型主要關(guān)注兩個不同層次的特征,分別是對象級(Objectlevel)和局部級(Part-level),即在以往強監(jiān)督工作中所使用的標(biāo)注框和局部區(qū)域位置這兩層信息.
該模型主要包含三個處理階段,對應(yīng)于如下三個不同的子模型:
1)預(yù)處理模型:在預(yù)處理階段,主要是從原始圖像中檢測并提取前景對象,以減少背景信息帶來的干擾.與R-CNN[44]相類似,Xiao等使用一個卷積網(wǎng)絡(luò)來對Selective search[47]產(chǎn)生的所有區(qū)域候選進(jìn)行篩選,檢測該區(qū)域的圖像中是否包含鳥類.不同之處在于,R-CNN只是用卷積網(wǎng)絡(luò)來提取特征,并針對具體檢測目標(biāo)專門訓(xùn)練一個SVM,根據(jù)評分結(jié)果來給出標(biāo)注框的位置.而Xiao等采取的方案是:僅僅使用卷積網(wǎng)絡(luò)來對背景區(qū)域進(jìn)行過濾.這樣導(dǎo)致的結(jié)果是,對于一張輸入圖像,可能對應(yīng)許多包含前景對象的候選區(qū)域.
2)對象級模型:此模型的主要作用是對對象級圖像進(jìn)行分類.經(jīng)過預(yù)處理后,得到了許多包含前景對象的圖片,可以用來從頭開始訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)(Training from scratch).由于一張圖像包含多個候選區(qū)域,因此,最終對一張圖片的輸出結(jié)果是一個集成(Ensemble).具體而言,就是一張圖的一個區(qū)域候選,經(jīng)過卷積網(wǎng)絡(luò)之后,得到一個Softmax層的輸出.對所有區(qū)域的輸出求平均,作為該圖像最終的Softmax層輸出.值得注意的是,對象級模型本身就是一個完整的分類方案,但對于細(xì)粒度分類任務(wù)而言,局部信息更加重要.因此,在對象級模型的基礎(chǔ)上,需要與局部級模型相結(jié)合,才能實現(xiàn)最終的分類目標(biāo).
3)局部級模型:由于預(yù)處理模型選擇出來的這些候選區(qū)域大小不一,有些可能包含了頭部,有些可能只有腳.因此,局部級模型的作用就是為了選出這些局部區(qū)域.首先利用對象級模型得到的網(wǎng)絡(luò)來對每一個候選區(qū)域提取特征.對這些特征進(jìn)行譜聚類,得到k個不同的聚類簇,每個簇代表一個局部信息,如頭部、腳等.于是,每個簇都可以被看作一個區(qū)域檢測器,可以對測試樣本的局部區(qū)域進(jìn)行檢測.
將不同局部區(qū)域的特征級聯(lián)成一個特征向量,用來訓(xùn)練SVM,作為局部級模型給出的分類器.最后,將對象級模型的預(yù)測結(jié)果與局部級模型的結(jié)果相結(jié)合,作為模型的最終輸出,達(dá)到了69.7%的精度.需要說明的是,這是在Alex-Net[22]上的實驗結(jié)果,如果采用更強大的網(wǎng)絡(luò)結(jié)構(gòu)如VGG-Net[39],則能將分類準(zhǔn)確率提升到77.9%.這也從另一個角度說明了特征對于圖像分類算法的重要性.
總體上來看,兩級注意力模型較好地解決了在只有類別標(biāo)簽的情況下,如何對局部區(qū)域進(jìn)行檢測的問題.但是,利用聚類算法所得到的局部區(qū)域,準(zhǔn)確度十分有限.在同樣使用Alex Net的情況下,其分類精度要低于強監(jiān)督的Part R-CNN算法[43].
以上所介紹的算法都只是簡單地將卷積網(wǎng)絡(luò)的輸出作為特征表示來使用.事實上,卷積特征的每一個位置點,都對應(yīng)于原圖中的一個局部的感受野(Receptive fi elds),即卷積特征的一些局部區(qū)域?qū)?yīng)于原圖中的局部區(qū)域.
基于這種思想,Zhang等[12]提出了一種能夠從卷積特征中挑選出具有分辨力的局部區(qū)域特征的算法,與傳統(tǒng)算法相比,減少了產(chǎn)生局部區(qū)域所需的計算量.首先對于輸入圖像,利用Selective search[47]產(chǎn)生對象區(qū)域候選.對于每一個候選,利用MMP(Multi-max pooling)方法,直接從候選的卷積特征中產(chǎn)生局部區(qū)域的特征.之后,對這些特征做聚類,并計算每一個聚類簇的重要性,選擇重要的聚類簇來構(gòu)造最終的圖像特征表示.其算法流程圖如圖6所示.
對于每一個候選區(qū)域,提取其卷積特征為一個N×N×d的張量,Zhang等采用MMP方法從卷積特征中,直接提取出局部區(qū)域的特征,得到若干d維的特征.該方法利用一個M×M 大小的滑動窗口,從卷積特征的左上角向右下角掃描,每次掃描都對窗口內(nèi)的特征做一次Max pooling編碼,得到一條d維特征.同時,通過變化M 的取值,可以得到不同大小的區(qū)域的特征表示,這里M∈[1,N].
這樣,利用MMP方法就能夠直接得到局部候選的特征表示,避免了基于Selective search方法的巨大計算開銷.但是這些特征中,包含著大量無關(guān)信息,需要對其進(jìn)行選擇,去除噪音.
首先,利用FV(Fisher vector)編碼[20]將每一張圖像的所有局部區(qū)域候選表示成一個向量.由于FV編碼使用了高斯混合模型(Gaussian mixture model,GMM)進(jìn)行聚類,因此,每一個聚類簇可以認(rèn)為是一種局部區(qū)域(如頭部、翅膀、爪子等).于是,接下來的任務(wù)就是從眾多的聚類簇中,選擇那些重要的聚類簇.這可以通過計算每一個類的相互信息值(Mutual information,MI)作為該簇的重要程度分值[57].通過這樣的方式能夠選擇出那些重要的聚類簇.

圖6 算法流程圖[12]Fig.6 System overview[12]
最后,Zhang等提出使用一種改進(jìn)的FV編碼方式(ScPM 編碼),將不同的規(guī)模的局部特征編碼為最終的特征表示,用來訓(xùn)練SVM分類器,達(dá)到了79.34%的分類精度.
正如我們在上一節(jié)曾經(jīng)提到的,基于Selective search[47]產(chǎn)生區(qū)域候選的方法,盡管有效,卻面臨巨大的計算代價和資源浪費.因此,有研究人員嘗試采用其他方式來產(chǎn)生足夠的局部區(qū)域.
Simon等[58]設(shè)計了一種新穎的局部區(qū)域檢測與提取的方案,在CUB200-2011數(shù)據(jù)集上達(dá)到81.01%的分類精度.他們利用卷積網(wǎng)絡(luò)特征產(chǎn)生一些關(guān)鍵點,并基于這些關(guān)鍵點來提取局部區(qū)域信息.通過對卷積特征進(jìn)行可視化分析,Simon等發(fā)現(xiàn)響應(yīng)比較強烈的區(qū)域往往對應(yīng)于原圖中一些潛在的局部區(qū)域點.從這一角度來看,卷積特征還可以被視為一種檢測分?jǐn)?shù),響應(yīng)值高的區(qū)域代表著原圖中檢測到的局部區(qū)域.
但是,特征輸出的分辨率與原圖相差懸殊,很難對原圖中的區(qū)域進(jìn)行精確定位.受前期研究工作[59?60]的啟發(fā),Simon等采用的方法是通過計算梯度圖來產(chǎn)生區(qū)域位置.
具體而言,卷積特征的輸出是一個W×H×P維的張量,P表示通道的數(shù)量,每一維通道可以表示成一個W×H 維的矩陣.通過計算每一維通道p對每一個輸入像素的平均梯度值,可以得到與原輸入圖像大小相同的特征梯度圖:

式(6)可以通過反向傳播高效地完成計算[59].這樣,每一個通道的輸入,都可以轉(zhuǎn)換成與原圖同樣大小的特征梯度圖.于是,在特征梯度圖里響應(yīng)比較強烈的區(qū)域,即代表原圖中的一個局部區(qū)域.通過計算每一個梯度圖里響應(yīng)最強烈的位置,作為原圖中的關(guān)鍵點:

卷積層的輸出共有P維通道,通過計算特征梯度圖的方式能夠產(chǎn)生P個關(guān)鍵點位置.但這些關(guān)鍵點中仍然存在一些無關(guān)的背景信息,因此,需要對關(guān)鍵點進(jìn)行選擇.這可以通過隨機(jī)選擇或者星座(Constellations)算法來完成.
進(jìn)行特征選擇之后,關(guān)鍵位置點的個數(shù)就從P個減少到了M 個.得到這些關(guān)鍵點之后,將其作為標(biāo)注框的中心,取大小為, 其中λ∈1/5,1/16}是一個超參數(shù),W′和H′是原圖的大小.這樣就能夠利用標(biāo)注框來從原圖中提取出局部區(qū)域,再利用卷積網(wǎng)絡(luò)來提取特征.
至于前景對象,Simon等并未提出更好的解決方案,他們采用的仍是傳統(tǒng)的局部區(qū)域候選的方法,即利用Selective search[47]產(chǎn)生候選區(qū)域,再利用卷積神經(jīng)網(wǎng)絡(luò)對其進(jìn)行分類,取置信度最高的區(qū)域作為前景對象.最后的特征向量由三部分信息構(gòu)成:原圖的特征、前景對象的特征以及局部區(qū)域的特征.在訓(xùn)練時,對VGG-Net[39]進(jìn)行了微調(diào),并將所有訓(xùn)練數(shù)據(jù)進(jìn)行水平翻轉(zhuǎn),用來進(jìn)行數(shù)據(jù)增強,最終結(jié)果為81%.
同樣是回答如何在不依賴于標(biāo)記信息的情況下,完成對局部區(qū)域的檢測問題,以上介紹的兩種算法均給出了讓人滿意的解決方案.Zhang等通過對卷積特征進(jìn)行多尺度的劃分來產(chǎn)生局部區(qū)域,而星座算法則是直接從卷積特征中反推原圖中的關(guān)鍵點,進(jìn)而確定局部區(qū)域.但這兩種算法都只是把卷積網(wǎng)絡(luò)當(dāng)做一個特征提取器,各個步驟之間的處理仍然是一個分散的過程,并未從整體上進(jìn)行端到端(End-to-end)的訓(xùn)練優(yōu)化.與此不同的是,Lin[13]等設(shè)計了一種新穎的網(wǎng)絡(luò)模型雙線性CNN(Bilinear CNN),在CUB200-2011數(shù)據(jù)集上實現(xiàn)了84.1%的分類精度.其網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:

圖7 雙線性CNN網(wǎng)絡(luò)結(jié)構(gòu)圖[13]Fig.7 Illustration of Bilinear CNN[13]
顧名思義,雙線性CNN中最重要的就是雙線性(Bilinear)模型.一個雙線性模型B由一個四元組組成:B=(fA,fB,P,C).其中,fA,fB代表特征提取函數(shù),即圖7中的網(wǎng)絡(luò)A、網(wǎng)絡(luò)B,P是一個池化函數(shù)(Pooling function),C則是分類函數(shù).
特征提取函數(shù)f(·)的作用可以看作一個函數(shù)映射,f:L×I→ Rc×D,將輸入圖像I與位置區(qū)域L映射為一個c×D維的特征.而兩個特征提取函數(shù)的輸出,可以通過一個雙線性操作進(jìn)行匯聚,得到一個雙線性特征:bilinear(l,I,fA,fB)=fA(l,I)TfB(l,I).而池化函數(shù)P的作用則是將所有位置的雙線性特征匯聚成一個特征.文章所采用的池化函數(shù)是將所有位置的雙線性特征累加起來:. 如果兩個特征函數(shù)fA,fB提取的特征維度分別是C×M 與C×N的話,則池化函數(shù)P的輸出將是一個M×N的矩陣,將其轉(zhuǎn)化為一個MN×1的列向量,作為所提取的特征.最后,分類函數(shù)的作用是對提取的特征進(jìn)行分類,可以采用邏輯回歸或者SVM分類器.
當(dāng)雙線性模型應(yīng)用到實際的網(wǎng)絡(luò)中時,特征提取函數(shù)fA,fB的輸出是一個M×N×P維的張量,這時位置L定義為M×N維矩陣上的每一個位置點,共有MN 個位置.每個位置經(jīng)過雙線性操作后轉(zhuǎn)化為一個P×P維的矩陣,經(jīng)過池化函數(shù)之后,最終得到一個PP×1的特征向量.
最后,是關(guān)于模型端到端的訓(xùn)練過程.從圖7中可以看出,模型的前半部分是普通的卷積層與池化層,因此,只要求得后半部分的梯度值,即可完成對整個模型的訓(xùn)練.假設(shè)對于每個位置l,特征提取函數(shù)fA,fB的輸出分別是A∈RL×M與B∈RL×N,則池化的雙線性特征是x=ATB.令dl/dx表示損失函數(shù)對特征x的梯度值,則根據(jù)鏈?zhǔn)椒▌t,可以得到損失函數(shù)對兩個網(wǎng)絡(luò)輸出的梯度值,從而完成模型的端到端的訓(xùn)練:

一種對雙線性CNN模型的解釋是,網(wǎng)絡(luò)A的作用是對物體進(jìn)行定位,即完成傳統(tǒng)算法的對象與局部區(qū)域檢測工作,而網(wǎng)絡(luò)B則是用來對網(wǎng)絡(luò)A檢測到的物體位置進(jìn)行特征提取.兩個網(wǎng)絡(luò)相互協(xié)調(diào)作用,完成細(xì)粒度圖像分類過程中兩個最重要的任務(wù):區(qū)域檢測與特征提取.
弱監(jiān)督的分類算法,是當(dāng)前細(xì)粒度圖像研究的發(fā)展趨勢.除了以上所介紹的若干算法之外,相關(guān)的研究領(lǐng)域中還存在著如下重要工作:
在文獻(xiàn)[55]中,Jaderberg等提出了一種端到端的模型,他們稱之為空間轉(zhuǎn)換網(wǎng)絡(luò)(Spatial transformer networks).該模型只使用類別標(biāo)簽就能完成對象的定位與對齊,同樣實現(xiàn)了84.1%的分類精度.整個系統(tǒng)由兩部分組成:對象檢測器與空間轉(zhuǎn)換器.前者用來完成前景對象的檢測工作,后者則是對檢測結(jié)果進(jìn)行對齊操作.
Wang等[61]則提出應(yīng)當(dāng)進(jìn)行多層次的圖像分類.他們根據(jù)生物學(xué)上的分類方法,將數(shù)據(jù)庫重新劃分為科、屬、種等多個不同的層次.對于每個不同層次的網(wǎng)絡(luò),使用不同尺度的圖像和不同的監(jiān)督信息進(jìn)行訓(xùn)練,以達(dá)到粗細(xì)互補的目的.最后的特征由多個不同層次網(wǎng)絡(luò)的輸出拼接而成,實現(xiàn)了81.7%的分類精度.
相類似的研究成果還有很多,也都取得了不錯的效果,本文限于篇幅,不再一一介紹.
本文介紹了近年來基于卷積特征的細(xì)粒度圖像分類算法的發(fā)展?fàn)顩r.我們在表1總結(jié)了其中若干優(yōu)秀算法在CUB200-2011[1]數(shù)據(jù)集上的性能表現(xiàn),給出了訓(xùn)練和測試階段所使用的標(biāo)注信息,并簡要地描述了算法的大致流程:如SIFT+BoW+SVM指的是,先對圖像提取SIFT特征,并用BoW對局部特征進(jìn)行編碼,最后使用SVM進(jìn)行分類.
該表主要分為4個部分,第一部分是數(shù)據(jù)庫發(fā)布之時的分類精度,受限于當(dāng)時的技術(shù)水準(zhǔn),傳統(tǒng)分類算法的表現(xiàn)不盡人意.第二部分是基于人造特征的早期算法,借助于特殊的特征描述與編碼方式,以及人工標(biāo)注信息,這類算法能夠?qū)崿F(xiàn)一定的突破.第三部分是基于卷積特征的強監(jiān)督的分類算法,相比于人造特征,卷積特征提供了更好的圖像描述.其中,Alex-Net+Fine-Tune表示使用Alex-Net[22]預(yù)訓(xùn)練網(wǎng)絡(luò)模型,并在數(shù)據(jù)集上進(jìn)行了微調(diào).最后一部分是基于卷積特征的弱監(jiān)督的分類算法,這類算法不借助任何標(biāo)注信息,僅僅依靠類別標(biāo)簽,實現(xiàn)了更高的分類精度.其中,Flip表示在訓(xùn)練時對圖像進(jìn)行了水平翻轉(zhuǎn)操作,這是一種常用的用于數(shù)據(jù)增強的方式,能夠改善因訓(xùn)練數(shù)據(jù)不足而帶來的過擬合問題.
細(xì)粒度圖像分類的研究方興未艾,亟待后續(xù)研究的深入進(jìn)行.關(guān)于未來可能的研究方向,我們認(rèn)為可從以下幾個方面進(jìn)行考慮:
1)構(gòu)建更高質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)庫:當(dāng)前主流研究所采用的細(xì)粒度圖像數(shù)據(jù)庫,盡管可供選擇的余地很大,但都存在一個共同的不足之處:數(shù)據(jù)規(guī)模與精細(xì)程度都不太高,標(biāo)注質(zhì)量與類別數(shù)量也十分有限.眾所周知,深度學(xué)習(xí)的性能與數(shù)據(jù)庫的規(guī)模呈正相關(guān)性,訓(xùn)練圖像越豐富,所能帶來的性能提升越明顯,實用性也越強.因此,如何構(gòu)建更高質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)庫成為了未來研究急需解決的一個問題.
2)有效地利用局部區(qū)域信息:細(xì)粒度圖像識別有別于普通圖像分類任務(wù)的一大特點,便是具有區(qū)分度的信息隱藏在局部區(qū)域中.如何更有效地利用這些局部信息,將成為未來研究一大突破點.其中主要包含兩個方面的問題,一是何謂“有用的”局部信息,二是如何獲取這些信息.前者主要依賴于人工經(jīng)驗,由人來指定所需要提取的局部區(qū)域.其不足之處在于,我們很難概括所有的有用區(qū)域,而這些區(qū)域在不同的子類上往往是不同的.后者則寄希望于更高效的區(qū)域檢測算法,這可以從通用的物體定位檢測任務(wù)中獲取靈感.但需要注意的是,弱監(jiān)督的細(xì)粒度圖像分類是未來研究的主要方向,如何在只有類別標(biāo)記的前提下,有效地完成對局部區(qū)域的定位檢測工作,這無疑是個不小的挑戰(zhàn).
3)構(gòu)造更強大的特征表示:誠然,一個更強大的特征表示離不開深度學(xué)習(xí)相關(guān)研究工作的突破.但對于細(xì)粒度圖像分類而言,最終的特征表示往往是由多個不同的局部區(qū)域特征組合而成.簡單的特征拼接,盡管有效,但似乎并不是最佳選擇.另一方面,雙線性CNN[13]的成功也為我們提供了新思路:進(jìn)行端到端的訓(xùn)練,構(gòu)造一個整體的系統(tǒng),將特征提取與定位檢測任務(wù)相結(jié)合,以達(dá)到相互促進(jìn)的目的.

表1 CUB200-2011[1]數(shù)據(jù)庫上的算法性能比較(其中BBox指標(biāo)注框信息(Bounding Box),Parts指局部區(qū)域信息)Table 1 Performance of di ff erent algorithms in CUB200-2011[1](where BBox refers to bounding box,Parts means part annotations)
4)自然場景下的圖像識別:細(xì)粒度圖像分類是一門與實際應(yīng)用密切相關(guān)的研究課題,其最終目的應(yīng)當(dāng)是服務(wù)于實際生活.但目前學(xué)術(shù)研究中所用的數(shù)據(jù)庫,普遍具有前景對象突出,背景單一的特點,這樣的圖片在實際生活中其實并不常見.若想使細(xì)粒度圖像識別系統(tǒng)在自然場景下得到廣泛應(yīng)用,就不得不考慮諸如光照、模糊、遮擋、低分辨率,物體干擾等復(fù)雜場景下的圖像識別問題,而這些因素在當(dāng)前的系統(tǒng)中往往是欠缺的.另外,除了靜態(tài)圖片之外,視頻中的細(xì)粒度識別[63]也是一項極具挑戰(zhàn)的研究任務(wù).目前,這方面的研究工作并不豐富,但其在智能監(jiān)控,生態(tài)研究等領(lǐng)域具有更強烈的實際需求,值得未來工作的展開.
5)向其他領(lǐng)域的拓展:事實上,細(xì)粒度圖像是一個綜合性的研究課題,不應(yīng)局限于圖像分類一個領(lǐng)域,需要向計算機(jī)視覺的其他研究方向進(jìn)行拓展,如圖像檢索[64?65]、對象檢測[66]等.在這方面,我們看到了一些初步嘗試,如有研究人員提出細(xì)粒度圖像檢索的任務(wù)[67?68],并取得了一定的效果,但更多的研究內(nèi)容仍然有待進(jìn)一步挖掘.
細(xì)粒度圖像分類算法是計算機(jī)視覺領(lǐng)域的一個熱門研究課題,深度卷積特征的出現(xiàn)為其帶來了新的發(fā)展機(jī)遇.本文從強監(jiān)督、弱監(jiān)督兩個角度,對近年來基于卷積特征的細(xì)粒度圖像分類算法的發(fā)展?fàn)顩r給予了介紹.針對細(xì)粒度分類中的兩個核心任務(wù):局部信息的檢測與特征提取,進(jìn)行了詳細(xì)討論,并總結(jié)了該領(lǐng)域未來可能的發(fā)展機(jī)遇.
1 Wah C,Branson S,Welinder P,Perona P,Belongie S.The Caltech-UCSD Birds-200-2011 Dataset,Technical Report CNS-TR-2011-001,California Institute of Technology,Pasadena,CA,USA,2011
2 Bosch A,Zisserman A,Muoz X.Scene classi fi cation using a hybrid generative/discriminative approach.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(4):712?727
3 Wu J X,Rehg J M.CENTRIST:a visual descriptor for scene categorization.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1489?1501
4 Gehler P,Nowozin S.On feature combination for multiclass object classi fi cation.In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.221?228
5 Jarrett K,Kavukcuoglu K,Ranzato M,LeCun Y.What is the best multi-stage architecture for object recognition?In:Proceedings of the 12th IEEE International Conference on Computer Vision.Kyoto,Japan:IEEE,2009.2146?2153
6 Wright J,Yang A Y,Ganesh A,Sastry S S,Ma Y.Robust face recognition via sparse representation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):210?227
7 Li Xiao-Li,Da Fei-Peng.A rapid method for 3D face recognition based on rejection algorithm.Acta Automatica Sinica,2010,36(1):153?158
(李曉莉,達(dá)飛鵬.基于排除算法的快速三維人臉識別方法.自動化學(xué)報,2010,36(1):153?158)
8 Khosla A,Jayadevaprakash N,Yao B P,Li F F.Novel dataset for fi ne-grained image categorization.In:Proceedings of the 1st Workshop on Fine-Grained Visual Categorization(FGVC),IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Springs,USA:IEEE,2011.
9 Nilsback M E,Zisserman A.Automated fl ower classi fi cation over a large number of classes.In:Proceedings of the 6th Indian Conference on Computer Vision,Graphics&Image Processing.Bhubaneswar,India:IEEE,2008.722?729
10 Krause J,Stark M,Deng J,Li F F.3D object representations for fi ne-grained categorization.In:Proceedings ofthe 2013 IEEE International Conference on Computer Vision Workshops(ICCVW).Sydney,Australia:IEEE,2013.554?561
11 Maji S,Rahtu E,Kannala J,Blaschko M,Vedaldi A.Finegrained visual classi fi cation of aircraft[Online],available:https://arxiv.org/abs/1306.5151,June 21,2013
12 Zhang Y,Wei X S,Wu J X,Cai J F,Lu J B,Nguyen V A,Do M N.Weakly supervised fi ne-grained categorization with part-based image representation.IEEE Transactions on Image Processing,2016,25(4):1713?1725
13 Lin T Y,RoyChowdhury A,Maji S.Bilinear CNN models for fi ne-grained visual recognition.In:Proceedings of the 15th IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.1449?1457
14 Zhang Lin-Bo,Wang Chun-Heng,Xiao Bai-Hua,Shao Yun-Xue.Image representation using bag-of-phrases.Acta Automatica Sinica,2012,38(1):46?54
(張琳波,王春恒,肖柏華,邵允學(xué).基于Bag-of-phrases的圖像表示方法.自動化學(xué)報,2012,38(1):46?54)
15 Yu Wang-Sheng,Tian Xiao-Hua,Hou Zhi-Qiang.A new image feature descriptor based on region edge statistical.Chinese Journal of Computers,2014,37(6):1398?1410
(余旺盛,田孝華,侯志強.基于區(qū)域邊緣統(tǒng)計的圖像特征描述新方法.計算機(jī)學(xué)報,2014,37(6):1398?1410)
16 Yan Xue-Jun,Zhao Chun-Xia,Yuan Xia.2DPCA-SIFT:an efficient local feature descriptor.Acta Automatica Sinica,2014,40(4):675?682
(顏雪軍,趙春霞,袁夏.2DPCA-SIFT:一種有效的局部特征描述方法.自動化學(xué)報,2014,40(4):675?682)
17 Lowe D G.Object recognition from local scale-invariant features.In:Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1999.1150?1157
18 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,USA:IEEE,2005.886?893
19 J′egou H,Douze M,Schmid C,P′erez P.Aggregating local descriptors into a compact image representation.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,USA:IEEE,2010.3304?3311
20 Perronnin F,Dance C.Fisher kernels on visual vocabularies for image categorization.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis,USA:IEEE,2007.1?8
21 S′anchez J,Perronnin F,Mensink T,Verbeek J.Image classification with the Fisher vector:theory and practice.International Journal of Computer Vision,2013,105(3):222?245
22 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada,USA:MIT Press,2012.1097?1105
23 Gao Ying-Ying,Zhu Wei-Bin.Deep neural networks with visible intermediate layers.Acta Automatica Sinica,2015,41(9):1627?1637
(高瑩瑩,朱維彬.深層神經(jīng)網(wǎng)絡(luò)中間層可見化建模.自動化學(xué)報,2015,41(9):1627?1637)
24 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436?444
25 Donahue J,Jia Y Q,Vinyals O,Ho ff man J,Zhang N,Tzeng E,Darrell T.DeCAF:a deep convolutional activation feature for generic visual recognition.In:Proceedings of the 31st International Conference on Machine Learning.Beijing,China:ACM,2014.647?655
26 Berg T,Belhumeur P N.POOF:part-based one-vs.-one features for fi ne-grained categorization,face veri fi cation,and attribute estimation.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,USA:IEEE,2013.955?962
27 Perronnin F,S′anchez J,Mensink T.Improving the fi sher kernel for large-scale image classi fi cation.In:Proceedings of the 11th European Conference on Computer Vision.Berlin Heidelberg,Germany:Springer,2010.143?156
28 Bo L,Ren X,Fox D.Kernel descriptors for visual recognition.In:Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2010.244?252
29 Branson S,Van Horn G,Wah C,Perona P,Belongie S.The ignorant led by the blind:a hybrid human-machine vision system for fi ne-grained categorization.International Journal of Computer Vision,2014,108(1?2):3?29
30 Chai Y N,Lempitsky V,Zisserman A.Symbiotic segmentation and part localization for fi ne-grained categorization.In:Proceedings of the 14th IEEE International Conference on Computer Vision(ICCV).Sydney,Australia:IEEE,2013.321?328
31 Gavves E,Fernando B,Snoek C G M,Smeulders A W M,Tuytelaars T.Fine-grained categorization by alignments.In:Proceedings of the 14th IEEE International Conference on Computer Vision(ICCV).Sydney,Australia:IEEE,2013.1713?1720
32 Yao B P,Bradski G,Li F F.A codebook-free and annotation-free approach for fi ne-grained image categorization.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,USA:IEEE,2012.3466?3473
33 Yang S L,Bo L F,Wang J,Shapiro L.Unsupervised template learning for fi ne-grained object recognition.In:Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,USA:MIT Press,2012.3122?3130
34 Branson S,Wah C,Schro ffF,Babenko B,Welinder P,Perona P,Belongie S.Visual recognition with humans in the loop.In:Proceedings of the 11th European Conference on Computer Vision.Berlin Heidelberg,Germany:Springer,2010.438?451
35 Wah C,Branson S,Perona P,Belongie S.Multiclass recognition and part localization with humans in the loop.In:Proceedings of the 13th IEEE International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.2524?2531
36 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541?551
37 LeCun Y,Bottou L,Bengio Y,Ha ff ner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324
38 Zeiler M D,Fergus R.Visualizing and understanding convolutional networks.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.818?833
39 Gong Y C,Wang L W,Guo R Q,Lazebnik S.Multi-scale orderless pooling of deep convolutional activation features.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.392?407
40 Cimpoi M,Maji S,Vedaldi A.Deep fi lter banks for texture recognition and segmentation.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.3828?3836
41 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[Online],available:https://arxiv.org/abs/1409.1556,April 10,2015
42 Welinder P,Branson S,Mita T,Wah C,Schro ffF,Belongie S,Perona P.Caltech-UCSD Birds 200,Technical Report CNS-TR-2010-001,California Institute of Technology,Pasadena,CA,USA,2010
43 Zhang N,Donahue J,Girshick R,Darrell T.Part-based RCNNs for fi ne-grained category detection.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.834?849
44 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,USA:IEEE,2014.580?587
45 Viola P,Jones M J.Robust real-time face detection.International Journal of Computer Vision,2004,57(2):137?154
46 Wu J X,Liu N N,Geyer C,Rehg M J.C4:a real-time object detection framework.IEEE Transactions on Image Processing,2013,22(10):4096?4107
47 Uijlings J R R,van de Sande K E A,Gevers T,Smeulders A W M.Selective search for object recognition.International Journal of Computer Vision,2013,104(2):154?171
48 Branson S,Van Horn G,Belongie S,Perona P.Bird species categorization using pose normalized deep convolutional nets[Online],available:https://arxiv.org/abs/1406.2952,June 11,2014
49 Branson S,Beijbom O,Belongie S.Efficient large-scale structured learning.In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Portland,USA:IEEE,2013.1806?1813
50 Krause J,Jin H L,Yang J C,Li F F.Fine-grained recognition without part annotations.In:Proceedings of the 15th IEEE International Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,USA:IEEE,2015.5546?5555
51 GuillauminM,K¨uttelD,FerrariV.Imagenetautoannotation with segmentation propagation.International Journal of Computer Vision,2014,110(3):328?348
52 Kuettel D,Guillaumin M,Ferrari V.Segmentation propagation in imagenet.In:Proceedings of the 12th European Conference on Computer Vision.Berlin Heidelberg,Germany:Springer,2012.459?473
53 Lin D,Shen X Y,Lu C W,Jia J Y.Deep LAC:deep localization,alignment and classi fi cation for fi ne-grained recognition.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.1666?1674
54 Xu Z,Huang S L,Zhang Y,Tao D C.Augmenting strong supervision using web data for fi ne-grained categorization.In:Proceedings of the 15th IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.2524?2532
55 Jaderberg M,Simonyan K,Zisserman A,Kavukcuoglu K.Spatial transformer networks.In:Proceedings of the 29th Annual Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2015.2017?2025
56 Xiao T J,Xu Y C,Yang K Y,Zhang J X,Peng Y X,Zhang Z.The application of two-level attention models in deep convolutional neural network for fine-grained image classification.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.842?850
57 Zhang Y,Wu J X,Cai J F.Compact representation for image classi fi cation:to choose or to compress.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus,USA:IEEE,2014.907?914
58 Simon M,Rodner E.Neural activation constellations:unsupervised part model discovery with convolutional networks.In:Proceedings of the 15th IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.1143?1151
59 Simon M,Rodner E,Denzler J.Part detector discovery in deep convolutional neural networks.In:Proceedings of the 12th Asian Conference on Computer Vision.Singapore:Springer,2014.162?177
60 Simonyan K,VedaldiA,Zisserman A.Deep inside convolutional networks: visualising image classi fi cation models and saliency maps [Online], available:https://arxiv.org/abs/1312.6034,April 19,2014
61 Wang D Q,Shen Z Q,Shao J,Zhang W,Xue X Y,Zhang Z.Multiple granularity descriptors for fi ne-grained categorization.In:Proceedings of the 15th IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.2399?2406
62 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.1?9
63 Hall D,Perona P.Fine-grained classi fi cation of pedestrians in video:benchmark and state of the art.In:Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,USA:IEEE,2015.5482?5491
64 Liu Y,Zhang D S,Lu G J,Ma W Y.A survey of contentbased image retrieval with high-level semantics.Pattern Recognition,2007,40(1):262?282
65 Datta R,Joshi D,Li J,Wang J Z.Image retrieval:ideas,in fl uences,and trends of the new age.ACM Computing Surveys,2008,40(2):Article No.5
66 Felzenszwalb P F,Girshick R B,McAllester D,Ramanan D.Object detection with discriminatively trained part-based models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627?1645
67 Wei X S,Luo J H,Wu J X.Selective convolutional descriptor aggregation for fi ne-grained image retrieval.IEEE Transactions on Image Processing,2017,26(6):2868?2881
68 Xie L X,Wang J D,Zhang B,Tian Q.Fine-grained image search.IEEE Transactions on Multimedia,2015,17(5):636?647

羅建豪 南京大學(xué)計算機(jī)科學(xué)與技術(shù)系博士研究生.2015年獲得吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院學(xué)士學(xué)位.主要研究方向為計算機(jī)視覺與機(jī)器學(xué)習(xí).E-mail:luojh@lamda.nju.edu.cn
(LUO Jian-Hao Ph.D.candidate in the Department of Computer Science and Technology,Nanjing University.He received his bachelor degree from the College of Computer Science and Technology,Jilin University in 2015.His research interest covers computer vision and machine learning.)

吳建鑫 南京大學(xué)計算機(jī)科學(xué)與技術(shù)系教授.分別于1999年,2002年獲得南京大學(xué)計算機(jī)科學(xué)與技術(shù)系學(xué)士,碩士學(xué)位.于2009年獲得美國佐治亞理工學(xué)院博士學(xué)位.曾擔(dān)任新加坡南洋理工大學(xué)計算機(jī)工程學(xué)院助理教授.主要研究方向為計算機(jī)視覺與機(jī)器學(xué)習(xí).本文通信作者.E-mail:wujx2001@nju.edu.cn
(WU Jian-Xin Professor in the Department of Computer Science and Technology,Nanjing University.He received his bachelor and master degrees from Nanjing University in 1999 and 2002,respectively.In 2009,he received his Ph.D.degree in computer science from the Georgia Institute of Technology,USA.He was an assistant professor at the Nanyang Technological University,Singapore.His research interest covers computer vision and machine learning.Corresponding author of this paper.)
A Survey on Fine-grained Image Categorization Using Deep Convolutional Features
LUO Jian-Hao1WU Jian-Xin1
Fine-grained image categorization is a challenging task in the fi eld of computer vision,which aims to classify sub-categories,such as di ff erent species of birds.Due to the low inter-class but high intra-class variations,traditional categorization algorithms have to depend on a large amount of annotation information.Recently,with the advances of deep learning,deep convolutional neural networks have provided a new opportunity for fi ne-grained image recognition.Numerous deep convolutional feature-based algorithms have been proposed,which have advanced the development of fi negrained image research.In this paper,starting from its de fi nition,we give a brief introduction to some recent developments in fi ne-grained image categorization.After that,we analyze di ff erent algorithms from the strongly supervised to and weakly supervised ones,and compare their performances on some popular datasets.Finally,we provide a brief summary of these methods as well as the potential future research direction and major challenges.
Fine-grained image categorization,deep learning,convolutional neural networks,computer vision
May 25,2016;accepted February 3,2017
羅建豪,吳建鑫.基于深度卷積特征的細(xì)粒度圖像分類研究綜述.自動化學(xué)報,2017,43(8):1306?1318
Luo Jian-Hao,Wu Jian-Xin.A survey on fi ne-grained image categorization using deep convolutional features.Acta Automatica Sinica,2017,43(8):1306?1318
2016-05-25 錄用日期2017-02-03
國家自然科學(xué)基金(61422203)資助
Supported by National Natural Science Foundation of China(61422203)
本文責(zé)任編委王亮
Recommended by Associate Editor WANG Liang
1.南京大學(xué)計算機(jī)科學(xué)與技術(shù)系南京大學(xué)軟件新技術(shù)國家重點實驗室南京210023
1.National Key Laboratory for Novel Software Technology,Department of Computer Science and Technology,Nanjing University,Nanjing 210023
DOI10.16383/j.aas.2017.c160425