蔣樹強 閔巍慶 王樹徽
(中國科學院智能信息處理重點實驗室(中國科學院計算技術研究所) 北京 100190)
(sqjiang@ict.ac.cn)
?
面向智能交互的圖像識別技術綜述與展望
蔣樹強閔巍慶王樹徽
(中國科學院智能信息處理重點實驗室(中國科學院計算技術研究所)北京100190)
(sqjiang@ict.ac.cn)
Survey and Prospect of Intelligent Interaction-Oriented Image Recognition Techniques
Jiang Shuqiang, Min Weiqing, and Wang Shuhui
(KeyLaboratoryofIntelligentInformationProcessing(InstituteofComputingTechnology,ChineseAcademyofSciences),ChineseAcademyofSciences,Beijing100190)
AbstractVision plays an important role in both the human interaction and human-nature interaction. Furthermore, equipping the terminals with the intelligent visual recognition and interaction is one of the core challenges in artificial intelligence and computer technology, and also one of lofty goals. With the rapid development of visual recognition techniques, in recent years the emerging new techniques and problems have been produced. Correspondingly, the applications with the intelligent interaction also present a few new characteristics, which are changing our original understanding of the visual recognition and interaction. We give a survey on image recognition techniques, covering recent advances in regarding to visual recognition, visual description, visual question and answering (VQA). Specifically, we first focus on the deep learning approaches for image recognition and scene classification. Next, the latest techniques in visual description and VQA are analyzed and discussed. Then we introduce visual recognition and interaction applications in mobile devices and robots. Finally, we discuss future research directions in this field.
Key wordsimage recognition; intelligent visual recognition; intelligent interaction; visual description; visual question and answering (VQA); deep learning
摘要視覺在人與人交互以及人與自然界的交互過程中起到非常重要的作用,讓終端設備具有智能的視覺識別和交互能力是人工智能和計算機技術的核心挑戰和遠大目標之一.可以看到,近年來視覺識別技術發展飛速,新的創新技術不斷涌現,新的研究問題不斷被提出,面向智能交互的應用呈現出一些新的動態,正在不斷刷新人們對此領域的原有認識.從視覺識別、視覺描述和視覺問答3個角度對圖像識別技術進行綜述,對基于深度學習的圖像識別以及場景分類技術進行了具體介紹,對視覺描述和問答技術的最新技術進行了分析和討論,同時對面向移動終端和機器人的視覺識別和交互應用進行了介紹,最后對該領域的未來研究趨勢進行了分析.
關鍵詞圖像識別;智能的視覺識別;智能交互;視覺描述;視覺問答;深度學習
人類得以在自然界中長期生存,一個重要的原因就是擁有迅速認識并理解其所處環境的能力,而這其中的關鍵環節是利用人類視覺系統完成對目標的定位與識別,同時實現視覺場景的理解與描述.如果計算機能夠實現自動的圖像識別,必將進一步豐富與方便人類生活,這促使圖像識別技術成為當前人工智能領域內重要的研究方向之一.圖像識別是指利用計算機視覺、模式識別、機器學習等技術方法,自動識別圖像中存在的一個或多個語義概念,廣義的圖像識別還包括對識別的概念進行圖像區域定位等.圖像識別技術可以滿足用戶在不同場景下的視覺應用需求,主要包括面向互聯網的圖像檢索與挖掘、面向移動設備和機器人等智能終端的人機對話與信息服務等.
最早的圖像識別技術可以追溯到20世紀60年代[1],自20世紀90年代以來,隨著計算機的處理能力越來越強,圖像識別技術得到了很大的進步與發展.從最早的數字識別、手寫文字識別逐漸發展到人臉識別、物體識別、場景識別、屬性識別、精細目標識別等,所采用的技術也從最早的模板匹配、線性分類到現在所廣泛使用的深層神經網絡與支持向量機分類的方法.特別是進入21世紀10年代以來,隨著計算能力的大幅度提升、新的計算方法的不斷提出、可利用的數據資源的大規模增長、新型應用模式不斷涌現,圖像識別及其應用技術無論在研究的廣度和深度上、在識別效果的性能上、在技術及應用的擴展上,都呈現出新的趨勢.其中有4個特點比較突出:1)圖像的特征表示已經從傳統的手工設定演變為如今的自動學習方法,這主要得益于深度神經網絡技術的廣泛應用;2)圖像識別的概念已由早期個別概念(如特定概念、十幾個概念的識別)轉變為成百上千的概念,這主要是由于大規模圖像數據集的發展所推動的,如ImageNet[2],Places[3],SUN397[4]等;3)圖像識別技術正在和自然語言理解技術進行融合,形成了圖像描述技術,有別于圖像識別只是對圖像進行個別概念的標注,圖像描述可以自動對一副圖像進行一句話或一小段話的描述,從而可以更全面地描述圖像內容;4)在應用模式上,傳統的圖像識別技術或者是為了服務于監控、檢索等特定的應用場景,或只是為了突破計算機視覺的挑戰性問題,在技術研究時并未過多考慮全面圖像識別技術的應用場景.隨著技術發展,一些面向智能交互與服務的應用模式也逐漸引起了研究者的關注,這也進一步促進了圖像識別技術的發展.
本文將對圖像識別與應用技術的最新進展進行介紹.在方法上,將首先對基于深度學習的圖像識別技術進展進行討論,主要從物體識別和場景識別2個角度探討相關技術的特點.ImageNet是最新的常用數據集,主要是物體概念的圖像,也包括少量場景概念的圖像,該數據集是當前不同深度學習模型的訓練數據來源,也是算法性能的主要測試場地;而隨著SUN397,Places等大規模場景數據集的出現和普及,場景分類技術成為當前圖像識別的重要研究問題,在分類方法和模型訓練上都有新的推進,本文也將進行介紹.此外,我們對近一兩年來研究頗多的圖像描述與問答技術也進行介紹,這是最新研究方向.在面向視覺交互的圖像識別應用上,將主要對面向移動終端與面向機器人的視覺識別技術進行討論,同時對基于圖像理解的智能交互的不同應用模式進行分析.在本文的最后,將對未來的研究趨勢進行展望和討論.
1基于深度學習的圖像識別技術
自從Krizhevsky等人[5]在ImageNet上訓練一個8層的深度模型并在ImageNet競賽上取得非常好的效果后,卷積神經網絡(convolutional neural network, CNN)在圖像分類與識別領域受到了廣泛關注,取得了巨大成功.之后,在很多圖像識別的應用場景中,卷積神經網絡也都取得了很大的性能改進.卷積神經網絡能夠逐層學習圖像的特征,其中低層是具有普遍性的(general)特征,如圖像的邊緣、角點、紋理等;高層特征是低層特征的組合,是針對特定任務的有針對性的(specific)特征[6-7].逐層特征學習模擬了人腦分層處理信息機制,能夠直接從原始像素得到圖像特征.將卷積神經網絡用于圖像識別與分類,可以歸納為3種途徑:
1) 直接在待分類的數據集上訓練一個深層的網絡.隨著CNN深度和寬度的增加,CNN的分類性能有著明顯的提升.Simonyan等人[8]提出了一個19層的CNN模型(VGG-19),該模型在原來Krizhevsky[5]提出的模型的基礎上通過增加卷積層來增加該模型的深度,由于在所有的層上采用比較小的卷積濾波核(3×3),因而可在實踐中實現.相比之下,Szegedy等人[9]基于Hebbian原理和多尺度處理的啟發提出了一個22層的深度學習模型GoogLeNet[9],它是由多個Inception Model堆疊而成.該模塊中,利用不同帶寬的卷積核對前一層的輸出做卷積,最后合并形成后一層的輸入.不同尺寸大小的卷積核能夠捕獲多尺度的視覺特征,這些特征的融合能夠使整個網絡更好地適應圖像物體的表觀多尺度特性.另外針對不同的分類任務,如場景分類和物體分類等,不同數據集上訓練的模型也有不同的特性,例如Zhou等人在Places[3]上訓練的深度模型,對于場景的分類有非常好的效果.
2) 在訓練好的網絡上直接提取特征.訓練好的CNN模型可以直接用來當特征提取器,提取的特征可以用做其它的后續操作.Donahue等人[10]利用Krizhevsky提出的模型將CNN的全連接層的特征與SVM分類器結合,在多個數據集上取得了很好的分類效果,這表明CNN的高層全連接層的特征可以作為通用的視覺特征.相比之下,Liu等人[11]采用跨卷積層池化技術將卷積層的特征作為通用特征在MIT-67等數據庫上取得了更好的分類效果.Gong等人[12]在多個尺度下基于圖像塊提取CNN特征,然后通過主成分分析(principal component analysis, PCA)降維以及局部聚合的描述子向量(vector of locally aggregated descriptors, VLAD)[13]編碼等形成圖像的特征.相比于直接從整幅圖片上提取CNN特征,該方法提取的特征具有幾何不變性.Li等人[14]更進一步在提取圖像的多個塊級特征的基礎上,通過關聯規則來發現隱藏在這些特征之間的模式,從而實現圖像的分類和識別.
3) 在目標數據集上對現有深度模型進行“精細化”調整(fine-tuning).在特定數據集上訓練好的模型有很強的泛化性能,但是fine-tuning能夠進一步提升分類性能[15].fine-tuning是在目標數據集上重新調整網絡參數,從而使深度模型能夠捕獲針對目標任務更具有區分性的特征[16-17].
表1給出了基于CNN的分類方法在不同的數據集上最好的分類準確率.從Krizhevsky等人的8層的CNN-S[5]網絡到Simonyan等人的22層網絡GoogLeNet[9],隨著網絡層次的增加,CNN的性能有很大提升.表2給出了2014年ImageNet大規模視覺識別挑戰(ILSVRC 2014)[2,18]的排名前7的結果,這些團隊均是采用深度學習模型得到測試結果.如表2所示,GoogLeNet由于采用最多的22層網絡而達到最好的測試性能;VGG采用19層網絡緊隨其后;相比于增加深度學習模型的層數,SPPNet[18]網絡通過將空間金字塔模型引入到深度學習模型中,消除了輸入圖像尺寸的限制,在網絡層數最多只有7層的條件下組合多個深度學習模型,達到了第3名的測試結果.從表2我們可以看出,這些深度學習模型的架構基本沒有什么變化,可以通過1)增加網絡層數學習更為抽象的表示;2)消除深度學習中的某些限制或者瓶頸,比如輸入圖像尺寸的限制等途徑繼續通過深度學習模型提高識別性能.

Table 1 Object Classification Accuracy on Different Datasets

Table 2 Results of ILSVRC 2014 Classification[18]
2場景分類技術
場景分類技術一般分為2步:1)提取圖像的中層特征描述;2)基于中層特征描述訓練分類器,并進行場景分類.近10年來,場景分類技術的發展主要體現在中層特征描述能力的不斷增強.典型的中層描述特征為詞袋(bag-of-word)[20],該方法利用聚類得到視覺特征碼書,根據碼書進行編碼,得到詞袋特征,進而用SVM進行分類.Li等人[21]提出了一種基于物體描述的中層特征,預先學習物體檢測器,檢測器的響應即為其物體描述特征.Rasiwasia等人[22]利用場景類別概率分布作為中層描述,對每一場景類別學習狄利克雷混合模型,以預測未知圖像屬于該場景類別的概率,所有場景類別概率的分布即為該圖像的中層特征描述.具體來說,對于每一個在語義空間中的每個場景類別通過如下狄利克雷混合分布表示:
(1)

Table 3 Scene Classification Accuracy on Different Datasets
3圖像描述技術
通過目標檢測和分類技術,可以將圖片中用戶感興趣的部分從復雜的背景中分離出來并對其進行分類.在此基礎上,通過目標描述技術,我們可以使用更加豐富的信息來產生更進一步的結果:自動產生自然語言來對視覺目標進行描述.
隨著計算機視覺和自然語言理解領域相關技術的突破,圖片描述[26-33]技術是在2014—2015年獲得了突飛猛進的發展.在2015年微軟COCO圖片標注競賽中,來自微軟[26-27]、谷歌[28]、蒙特利爾大學、多倫多大學[29]和加州大學伯克利分校[30-31]等研究機構的最新工作在人工測評和圖靈測試方面都取得了令人驚嘆的成績.谷歌(基于CNN視覺特征和RNN(recurrent neural network)語言模型)和微軟(基于區域的單詞檢測和最大熵語言模型)目前在技術和性能方面處于領先地位.
目前,在目標描述這一方面的解決方案主要都是根據通過編碼-解碼(encoder-decoder)的想法而來,最有代表性的方法有2種:
1) 類似于Fang等人[26]使用的流程化方法:根據圖片得到單詞,再將單詞組合為句子,最后對句子進行打分.Fang等人[26]首先利用多示例學習(MIL)方法,根據圖片的各個部分產生相對應的名詞、動詞和形容詞;接下來,使用最大熵語言模型(MELM)產生包含提取詞的句子;最后,使用最小錯誤率訓練(MERT)對所產生的所有句子進行打分并排序.
2) 類似于Vinyals等人[28]和Karpathy等人[30]使用的端到端(end-to-end)方法:受機器翻譯技術的啟發,將圖片整體轉化為特征,再將特征轉化為一個完整的句子.Karpathy等人[30]利用CNN模型將圖片整體轉化為一個特征,再利用RNN模型根據已產生的單詞預測句子中的下一個單詞,最終生成一個完整的描述.
對于整體流程中各個步驟的研究也有許多進展,比如對于流程化方法:Kiros等人[34]提出的 SC-NLM(structure-content neural language model),它與其他模型的不同之處在于它根據已生成的單詞預測的并不是下一個單詞而是接下來的句子結構.對于端到端方法,Mao等人[35]提出的m-RNN(multimodal recurrent neural network)模型,它通過一個multimodal的部分將CNN和LM聯系起來.Donahue等人[31]提出的LRCNs(long-term recurrent convolutional networks)模型可以在可變長度的輸入和可變長度的輸出之間直接建立映射關系.這與Chen等人[36]在圖片和描述映射關系方面提出的方法有類似之處,該方法并未將圖片和描述映射到同一空間,而是在圖片和描述之間直接建立雙向映射關系.最近,Jia等人[37]則是采用gLSTM(guiding long-short term memory)模型,如圖1所示,在LSTM模型[28]的基礎上引入外部的語義信息生成圖像標題.具體來說,gLSTM塊的內存細胞和門定義為
(2)
(3)
(4)
(5)
(6)


Fig. 1 Image caption generation using LSTM and the proposed gLSTM[37].圖1 用LSTM和gLSTM生成圖像標題[37]
表4給出了不同方法在生成圖像標題性能的結果,評價指標采用了BLEU量度[38].從表4中我們看到最新的方法Hard-Attention和gLSTM達到最好的性能.

Table 4 Comparison of Different Methods on MS COCO
4視覺問答技術
基于圖像內容識別與分類的另一個新的應用場景是視覺問答,這也是近期受研究者關注的一個新方向.該技術將自然語言理解與視覺內容描述相結合,可以根據當前圖像內容與用戶問題產生出相應的回答.針對當前的視覺問答主要有推理和端到端的深度學習2種方法.
推理方法比較有代表性的是Malinowski等人[39]提出的使用基于不確定輸入的多世界(multi-world)方法實現對于真實世界的場景問答:該方法使用帶有深度信息的數據集NVU-Depth V2dataset,對于場景使用語義分割算法[40]構建世界并且收集關于物體的識別信息,例如物體類別、3D位置和顏色;然后利用對于一個場景的多種world解釋,這里的world解釋是由語義分割產生;最后通過概率模型來得到最大后驗概率的答案.
端到端的深度學習方法主要輸入為自由形式的問題文本.答案的輸出主要分為:1)Malinowski等人[41]和Gao等人[42]基于RNN框架,可以產生自由形式答案;2)Geman等人[43]和Ma等人[44]提出的基于分類方式產生答案框架.Gao等人[42]采用long-short term memory (LSTM)抽取輸入問題的表示,同時利用CNN抽取視覺圖像表示,再利用一個LSTM存儲答案中的語言環境信息,最后利用一個融合組件將3種成分進行融合產生答案.Ma等人[44]對輸入問題使用CNN生成輸入問題表示,同時利用CNN生成圖像的視覺表示并使用映射矩陣將其映射到與問題表示相同的向量長度,最后將2個表示向量進行混合后再次使用卷積與softmax進行分類輸出對應的答案,如圖2所示:

Fig. 2 The proposed CNN model for image QA[44] . 圖2 提出的圖像問答的CNN模型[44]
目前針對視覺問答的工作還不多,但是已經可以看到深度學習在這個領域中已經有了比較好的表現.這主要得益于目前深度學習在視覺表示和自然語言理解等領域都有了長足的發展.
5面向移動終端的視覺識別技術
近些年來移動設備(如手機、平板)越來越普及,這些設備大多裝配有攝像頭和圖形芯片,此外還有GPS和無線聯網等功能.這些都促使移動端的視覺識別應用越來越多,常見的包括地標建筑物識別[45-46]、商品識別[47-48]、食品識別[49-50]、藝術品識別[51]等,上線的APP如Goggles[52]等.
由于面向移動端,一些方法關注移動設備資源的合理利用,如提高傳輸速度、減小內存開銷等.Tsai等人[47]提取低碼率的CHoG特征[53],并利用了位置直方圖編碼對特征描述子的位置進行壓縮,最后用幾何驗證的方法對檢索結果進行重排序.He等人[48]將圖像的局部特征編碼到位數較少的哈希碼,而非對視覺單詞(VW)進行量化,從而將圖像表示成詞袋型哈希碼,然后采用邊界特征對檢索結果進行重排序.
移動設備帶有豐富的傳感器,可以為圖像提供拍照時的上下文信息,如GPS獲取的地理位置信息、拍攝時間、相機參數等,所以有些工作利用這些信息對圖像中的目標進行識別.Runge等人[54]將圖像的地理標簽、時間、圖像主顏色、天氣等各種信息與圖像的視覺特征組合成一個特征向量,然后利用分類器預測圖像的概念標簽.Chen等人[45]基于SIFT描述子訓練得到的詞匯樹,計算數據庫中的圖像與查詢圖像的相似度,排除地理相距非常遠的地標建筑,然后在特征空間使用近似近鄰(ANN)的方法對查詢圖像進行識別.Dhiraj和Luo[55]對視覺和地理檢測器分別訓練并使用相同的權重在預測階段進行融合.進一步地,Li等人[56]對不同概念分別學習了不同檢測器的權重.Xu等人[49]研究了利用地理信息輔助視覺識別菜品類別的問題.為了對分類模型進行地理約束,該文提出地理局部化模型,將地理上下文信息用于分類模型的訓練過程,使得模型從根本上對地理信息更有針對性,最后再根據查詢圖像的地理坐標對這些分類模型進行自適應組合,從而實現菜品類別的預測.該方法用到的圖像特征就是訓練好的深度特征.
近年來,由于深度學習很強的特征學習能力已應用到各種移動視覺識別任務中.例如,Teradeep[57]公司已經針對移動和嵌入式設備開發了一套基于深度學習的算法實現移動端的場景理解、物體檢測和識別等.百度等搜索公司[58]也將深度學習技術比如DNN[5]等應用到基于移動端的人臉識別、鞋識別和檢索等視覺任務中.
6面向機器人的視覺識別技術
視覺識別技術在機器人的領域也扮演著舉足輕重的角色.作為機器人感知外界環境信息的一個重要輸入渠道,其對于機器人理解周圍場景和輔助完成特定任務具有至關重要的作用.目前視覺識別技術在機器人領域的應用主要有環境理解[59-62]、自學習物體識別[63-64]和智能交互[63]、導航與避障[65]等.
面向機器人的視覺識別技術不同于其他單純的視覺識別方法,其具有一定的交互能力(語言、動作等)和多感知能力(深度信息感器、定位裝置等),對于機器人的視覺能力可以具有一定的輔助作用.從機器人視覺感知方式上可以分為2種:基于2D圖像的識別和基于3D視覺信息的識別.
1) 2D圖像識別中主要是對獲取到的圖像進行物體檢測和整體場景識別.基于2D圖像的識別可以直接對圖像進行特征提取或者對圖像進行區域特征提取然后使用模型進行標簽預測.Rouanet等人[63]的方法在交互過程中利用用戶指定區域,從而縮小圖像區域,然后對該區域提取特征并進行物體識別,這里為了進行增量式學習,采用了產生式模型進行物體識別.Wang等人[61]給出了一種實例級物體識別方法,利用圖像檢索方式匹配輸入圖像與數據庫中的圖像,再經過空間一致性驗證和投票機制實現物體的識別,這種方法識別精度比較高,但是缺點是對于識別的物體不具有很好的泛化能力.
2) 3D圖像識別主要是借助可以獲取深度信息的傳感器例如Kinect或者激光測距實現對于環境內的物體深度感知.額外的深度信息可以幫助機器人感知物體位置及大小.Lv等人[62]利用Kinect采集的深度信息和人體骨骼信息進行手持物體分割,同時提取多種模態特征訓練分類模型,從而實現對人手上物體的理解.Filliat等人[59]主要針對室內的物體進行識別.采用PCL庫[66]將獲取到的3D數據映射到點云空間中,通過檢測去除地板和墻壁等噪音同時進行物體分割,然后使用多種特征結合作為前饋神經網絡輸入學習到綜合特征表示.
視覺識別技術是機器人感知外界信息的重要渠道,因此未來在交互過程中利用視覺識別技術以增強機器人理解能力和提升與用戶交互體驗也具有很重要的研究價值,是一個具有挑戰性的方向.例如利用圖像識別技術同時識別人臉和物體,可以幫助關聯理解用戶意圖和興趣愛好.目前受到大家廣泛研究關注的圖像描述和問答技術也會很快和機器人的視覺交互應用相結合,產生新的研究內容和應用場景,從而進一步促進視覺識別技術的發展和進步.
7總結和展望
由于相關理論和技術的長足發展,在過去20年中,視覺識別和智能交互技術發生了日新月異的變化.從小數據到大數據,從手工設計特征到以深度學習為代表的視覺特征學習,從簡單內容到自然場景,從簡單模型到復雜模型,從單一輸出到復雜輸出,從視覺識別到視覺理解、進一步到視覺描述和問答,視覺識別和智能交互技術已經逐漸從實驗室走向現實的應用場景,相關方法尤其在深度學習方法、視覺和自然語言處理等技術深度結合的方面發展速度快,技術更新多.視覺交互的主要形式從普通設備逐漸遷移到智能終端和機器人,視覺信息處理能力越來越強,人機交互的體驗也越來越真實.
通過以上分析和討論,視覺識別和智能交互技術呈現4個發展趨勢:1)深度學習方法由于其突出的泛化能力和視覺特征捕捉能力,將被應用在更深層次、多角度的視覺識別和理解的各項技術當中;2)視覺識別和理解將與語言和認知技術進行更深入全面的結合,使得更加高級的視覺理解和描述性語義輸出取代簡單的物體、場景識別而成為下一個10年的研究熱點;3)視覺識別和理解將會在具體的應用中進行更深層次的融合和適配,如特定內容的圖像和視頻識別等;4)隨著視覺描述和視覺問答的興起,智能終端和機器人的視覺能力將在人機智能交互中起到越來越重要的作用,并將逐漸從較為局限的人機對話模式,進化為基于多通道智能信息處理的自然交互.
與此同時,在視覺識別和智能交互技術發展的過程中也面臨著許多挑戰.主要包括3個方面:1)通過深度學習技術提高性能的一種主流方法是通過增加網絡層數來增加識別的準確度.但是更深的網絡需要更多訓練的參數,這就意味著需要更多的訓練樣本和訓練時間.因此,怎樣設計網絡模型如網絡深度、卷積核的個數、卷積核的大小等以及如何快速地訓練得到高性能模型將是深度學習技術面臨的一個重要挑戰.2)盡管現有的視覺識別和理解技術取得了巨大的進展,但是現有的視覺識別技術仍然只能理解簡單的場景,設計理解復雜場景的視覺技術也是未來視覺技術發展的一個難點問題.3)現有的視覺識別技術依然以視覺信息為主,但是隨著各種傳感器的迅速發展,我們可以得到各種各樣的上下文信息,如果將視覺信息和這些上下文信息高效有機結合將對提高視覺識別的性能有很大的改進,尤其是在面向基于機器人的視覺識別應用中.如果未來能夠比較好地解決這些技術問題,視覺識別和智能交互技術有望在未來越來越多的領域中造福人類社會,更加深入地為人類的生產、生活、消費和娛樂等方面提供智能化、個性化和全面化的服務.
參考文獻
[1]Andreopoulos A, Tsotsos J K. 50 years of object recognition: Directions forward[J]. Computer Vision and Image Understanding, 2013, 117(8): 827-891
[2]Russakovsky O, Deng Jia, Su Hao, et al. ImageNet: Large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252
[3]Zhou Bolei, Lapedriza A, Xiao Jianxiong, et al. Learning deep features for scene recognition using Places database[C]Proc of the 28th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 487-495
[4]Xiao Jianxiong, Hays J, Ehinger K, et al. Sun database: Large-scale scene recognition from abbey to zoo[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3485-3492
[5]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]Proc of the 26th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105
[6]Yosinski J, Clune J, Bengio Y, et al. How transferable features in deep neural networks[C]Proc of the 28th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3320-3328
[7]Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 297-312
[8]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. CoRR abs1409.1556, 2014
[9]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9
[10]Donahue J, Jia Yangqing, Vinyals O, et al. DeCAF: A deep convolutional activation feature for generic visual recognition[C]Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 647-655
[11]Liu Lingqiao, Shen Chunhua, Hengel A. The treasure beneath convolutional layers: Cross-convolutional-layer pooling for image classification[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4749-4757
[12]Gong Yunchao, Wang Liwei, Guo Ruiqi, et al. Multi-scale orderless pooling of deep convolutional activation feature[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 392-407
[13]Jegou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 3304-3311
[14]Li Yao, Liu Lingqiao, Shen Chunhua. Mid-level deep pattern mining[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 971-980
[15]Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[C]Proc of the British Machine Vision Conf. Nottingham,UK: British Machine Vision Association, 2014
[16]Agrawal P, Girshick R, Malik J. Analyzing the performance of multilayer neural networks for object recognition[C]Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2014: 329-344
[17]Azizpour H, Razavian A S, Sullivan J, et al. From Generic to specific deep representation for visual recognition[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 36-45
[18]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916
[19]Wei Yunchao, Xia Wei, Huang Junshi, et al. CNN: Single-label to multi-label[J]. CoRR abs1406.5726, 2014
[20]Dixit M, Chen Si, Gao Dashan et al. Scene classification with semantic Fisher Vectors[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3485-3492
[21]Lazebnik S, Schmid C, Ponce J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2006: 2169-2178
[22]Li Lijia, Su Hao, Xing E, et al. Object bank: A high-level image representation for scene classification and semantic feature sparsification[C]Proc of the 24th Annual Conf on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2010: 1378-1386
[23]Rasiwasia N, Vasconcelos N. Holistic context models for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2012, 34(5): 902-917
[24]Song Xinhang, Jiang Shuqiang, Herranz L. Joint multi-feature spatial context for scene recognition in the semantic manifold[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1312-1320
[25]MIT. Places[EBOL].[2015-07-10]. http:places.csail.mit.edudemo.html
[26]Fang Hao, Gupta S, Iandola F, et al. From captions to visual concepts and back[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1473-1482
[27]Devlin J, Cheng Hao, Fang Hao, et al. Language models for image captioning: The quirks and what works[C]Proc of the 2015 Conf of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2015: 100-105
[28]Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3156-3164
[29]Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. CoRR abs1502.03044, 2015
[30]Karpathy A, Li F. Deep visual-semantic alignments for generating image descriptions[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3128-3137
[31]Donahue J, Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2625-2634
[32]Vedantam R, Zitnick C L, Parikh D. CIDEr: Consensus-based image description evaluation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4566-4575
[33]Chen Xinlei, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2422-2431
[34]Kiros R, Salakhutdinov R, Zemel R. Unifying visual-semantic embeddings with multimodal neural language models[J]. CoRR abs1411.2539, 2014
[35]Mao Junhua, Xu Wei, Yang Yi, et al. Explain images with multimodal recurrent neural networks[J]. CoRR abs1410.1090, 2014
[36]Chen Xinlei, Zitnick C L. Mind's eye: A recurrent visual representation for image caption generation[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 2422-2431
[37]Jia Xu, Gavves E, Fernando B, et al. Guiding long-short term memory for image caption generation[J]. CoRR, abs1509.04942, 2015
[38]Mao Junhua, Xu Wei, Yang Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J].CoRR, abs1412.6632, 2014
[39]Malinowski M, Fritz M. A multi-world approach to question answering about real-world scenes based on uncertain input[J]. CoRR, abs1410.0210, 2014
[40]Gupta S, Arbelaez P, Malik J. Perceptual organization and recognition of indoor scenes from RGB-D images[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 564-571
[41]Malinowski M, Rohrbach M, Fritz M. Ask your neurons: A neural-based approach to answering questions about images[J]. CoRR, abs1505.01121, 2015
[42]Gao Haoyuan, Mao Junhua, Zhou Jie, et al. Are you talking to a machine? Dataset and methods for multilingual image question answering[J]. CoRR, abs1505.05612, 2015
[43]Geman D, Geman S, Hallonquist N, et al. Visual turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences of the United States of America, 2015, 112(12): 3618-3623
[44]Ma Lin, Lu Zhengdong, Li Hang. Learning to answer questions from image using convolutional neural network[J]. CoRR, abs1506.00333, 2015
[45]Chen D, Baatz G, Koser K, et al. City-scale landmark identification on mobile devices[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 737-744
[46]Lim J H, Li Yiqun, You Yilun, et al. Scene recognition with camera phones for tourist information access[C]Proc of the IEEE Int Conf on Multimedia & Expo. Piscataway, NJ: IEEE, 2007: 100-103
[47]Tsai S S, Chen D, Chandrasekhar V, et al. Mobile product recognition[C]Proc of the Int Conf on Multimedia. New York: ACM, 2010: 1587-1590
[48]He Junfeng, Feng Jinyuan, Liu Xianglong, et al. Mobile product search with Bag of Hash Bits and boundary reranking[C]Proc the IEEE Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 16-21
[49]Xu Ruihan, Herranz L, Jiang Shuqiang, et al. Geolocalized modeling for dish recognition[J]. IEEE Trans on Multimedia, 2015,17(8): 1187-1199
[50]Kawano Y, Yanai K. Foodcam: A real-time food recognition system on a smartphone[J]. Multimedia Tools and Applications, 2015, 74(14): 5263-5287
[51]Kurz D, Himane S B. Inertial sensor-aligned visual feature descriptors[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2011: 161-166
[52]Google. Google Goggles[EBOL]. [2015-07-05]. http:www.google.commobilegoggles
[53]Chandrasekhar V, Takacs G, Chen D, et al. CHoG: Compressed histogram of gradients[C]Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 2504-2511
[54]Runge N, Wenig D, Malaka R. Keep an eye on your photos: Automatic image tagging on mobile devices[C]Proc of the Int Conf on Human-Computer Interaction with Mobile Devices & Services. New York: ACM, 2014: 513-518
[55]Dhiraj J, Luo Jiebo. Inferring generic activities and events from image content and bags of geo-tags[C]Proc of the Int Conf on Content-Based Image and Video Retrieval. New York: ACM, 2008: 37-46
[56]Li Xirong, Snoek C G M, Worring M, et al. Fusing concept detection and geo context for visual search[C]Proc of the Int Conf on Multimedia Retrieval. New York: ACM, 2012: 1-8
[57]TeraDeep Inc.Teradeep[EBOL].[2015-07-05]. http:www.teradeep.com
[58]LLRXcom.Chips[EBOL].[2015-06-06]. http:www.llrx.comfeaturesnew-chips-are-using-deep-learning-to-enhance-mobile-camera-and-auto-image-processing-capabilities.htm
[59]Filliat D, Battesti E, Bazeille S, et al. Rgbd object recognition and visual texture classification for indoor semantic mapping[C]Proc of the IEEE Int Conf on Technologies for Practical Robot Applications (TePRA). Piscataway, NJ: IEEE, 2012: 127-132
[60]Lai K, Bo Liefeng, Ren Xiaofeng, et al. RGB-D Object Recognition: Features, Algorithms, and a Large Scale Benchmark in Consumer Depth Cameras for Computer Vision[M]. Berlin: Springer, 2013: 167-192
[61]Wang Shuang, Jiang Shuqiang. INSTRE: A new benchmark for instance-level object retrieval and recognition[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2015,11(3): 37:1-37:20
[62]Lv Xiong, Jiang Shuqiang, Herranz L, et al. RGB-D hand-held object recognition based on heterogeneous feature fusion[J]. Journal of Computer Science and Technology, 2015, 30(2): 340-352
[63]Rouanet P, Oudeyer P, Danieau Y, et al. The impact of human-robot interfaces on the learning of visual objects[J]. IEEE Trans on Robotics, 2013, 29(2): 525-541
[64]Matuszek C, Bo Liefeng, Zettlemoyer L, et al. Learning from unscripted deictic gesture and language for human-robot interactions[C]Proc of the 28th Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2014: 2556-2563
[65]Moubarak P M, Ben-Tzvi P. Adaptive manipulation of a hybrid mechanism mobile robot[C]Proc of the IEEE Int Symp on Robotic and Sensors Environments. Piscataway, NJ: IEEE, 2011: 113-118
[66]Rusu R B, Cousins S. 3D is here: Point cloud library (PCL)[C]Proc of the IEEE Int Conf on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2011: 9-13

Jiang Shuqiang, born in 1977. PhD. Professor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include multimedia analysis and multi-modal intelligent technology.

Min Weiqing, born in 1985. PhD. Postdoctor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include multimedia analysis and context based visual recognition (minweiqing@ict.ac.cn).

Wang Shuhui, born in 1983. PhD. Associate professor in the Institute of Computing Technology, Chinese Academy of Sciences. Member of China Computer Federation. His current research interests include social media mining, multimedia analysis and machine learning (wangshuhui@ ict.ac.cn).
中圖法分類號TP391
基金項目:國家自然科學基金重點項目(61532018);國家自然科學基金優秀青年科學基金項目(61322212);國家自然科學基金青年科學基金項目(61303160);國家“九七三”重點基礎研究發展計劃基金項目(2012CB316400)
收稿日期:2015-07-26;修回日期:2015-10-20
This work was supported by the National Key Natural Science Foundation of China (61532018), the National Natural Science Foundation for Excellent Young Scholars of China (61322212), the National Natural Science Foundation of China Young Scientists Fund (61303160), and the National Basic Research Program of China (973 Program) (2012CB316400).