

摘 要:最近鄰搜索是一種有效策略的大規模圖像檢索,由卷積神經網絡(CNN)的最新研究啟發,我們提出了一個有效的深度學習框架生成哈希碼的方法。當數據標簽是可用的,hash碼可以利用標簽通過采用一個隱藏層代表的潛在概念學到的。實驗結果表明,對數據集Cifar10,我們的方法優于其它幾種哈希算法。
關鍵詞:卷積神經網絡;哈希碼;圖像檢索
基金號:中央高校基本科研業務費專項資金資助(supported by “the Fundamental Research Funds for the central universities)(2016-zy-065)
1 前言
近年來,每一天數十萬張圖片被上傳到互聯網上,根據不同用戶的要求尋找相關圖片非常困難。例如,基于內容的圖像檢索類似于一個給定的查詢圖像找出相似的圖像。“相似”可以指視覺上相似或語義上相似的。假設在數據庫中的圖像和查詢圖像表示成特征, 尋找相關圖片最簡單的方法就是數據庫中的圖像按照距離在特征空間的排序,并返回最接近的圖片。然而,對于一個數據庫,數以百萬計的圖像,這是現在相當普遍,即使是通過一個線性搜索將花費大量的時間和內存。
2 基于卷積神經網絡的圖像檢索的原理
本文的目標是學習圖像的緊湊的二進制代碼,特點如下:(a)在漢明空間,相似的圖像應該被編碼到相似的二進制碼,反之亦然;(b)二進制代碼可以計算高效。雖然許多散列方法已被提出,以獲得相似性保存的二進制代碼,他們遭受的限制,無論是手工制作的功能或線性映射。最近的CNN由于其強大的非線性模型功能成功完成了各種各樣計算機視覺領域的任務。為此,本文使用了卷積神經網絡學習圖像的特征表示和緊湊的二進制代碼的同時,可以打破雙方的手工特征和線性模型的局限性。如圖1所示。
本文使用如圖一的網絡結構。該網絡由3個卷積層和2個完全連接的層。在濾波器卷積層分別為32,32和64個大小5×5濾波器,和最大池化采用是3×3與步長為2。完全連接的第一層包含512個節點,第二輸出層有K(長度)節點。
?是RGB空間,本文的目標是學習一個映射從?到k位的二進制碼:F:?→{ 1,1 }K,這樣
相似的(無論是在視覺上類似的或語義上類似的)圖像被編碼到相似的二進制代碼。為了這個目的,相似的圖像的二進制碼應該是盡可能的相似,而不同的圖像的二進制碼在較遠的距離。則損失函數是設計學習的相似性保持二進制碼和利用分類的目標函數。然后通過對圖像的網絡輸出得到的二進制碼。
3 實驗和結果分析
為了驗證本文方法的有效性,故本文采用數據集Cifar-10,該數據集包含6萬張大小是32×32彩色圖像,共有10類,每類6000張圖像。根據文獻[9],我故隨機選取10000張查詢圖像,其中每類選擇1000張圖片和使用剩余的圖片作為訓練集。我們的方法比LSH,SH,ITQ,BRE, MLH, KSH的精度高,但是沒有文獻中方法的精度高,但相比較這些傳統方法,精度有明顯的提升。
圖顯示在不同的位數的漢明距離為2的圖像檢索結果;由上圖可以看出在漢明距離為2的情況下在不同的位數都是有提高的,在8位,16位,24位,32位提高的大概7%左右,但是位數越來越多時候,檢索精度越來越高了。
使用64位二進制碼獲得的精度。在64位時候,本文方法比KSH-CNN的方法無論在返回多少張圖片的情況下精度都高。雖然CNN的特征促進傳統方法的性能方法有明顯的差距,但我們的方法仍然優于這些傳統的方法。
4 結論
在本文中,該方法有不錯的檢索性能,三個方面:第一、非線性特征的耦合學習和哈希提取指定任務圖像信息的編碼;第二,該化為減少了實數網絡之間的差異輸出;第三、使用單標簽來監督,以及描述所需的漢明空間。在高效率實驗表明,該方法編碼的新的圖像比傳統的哈希的更快方法.由于我們目前的框架是比較普遍的,更復雜的網絡結構也可以很容易地利用。此外,在這項工作中的“網絡集成”的初步研究已證明是一種很有前途的方式,是值得我們未來的調查,以進一步提高檢索性能。
參考文獻
[1]李向陽, 莊越挺, 潘云鶴. 基于內容的圖像檢索技術與系統[J]. 計算機研究與發展, 2001, 38(03):344-354.
[2]王濤, 胡事民, 孫家廣. 基于顏色-空間特征的圖像檢索[J]. 軟件學報, 2002, 13(10):2031-2036.
[3]于淼, 朱瓊, 王國宇. 基于特征點匹配和哈希法的圖像檢索方法[J]. 網絡新媒體技術, 2006, 27(04):397-400.
作者簡介
張杰(1992-),男,漢族,湖北省,武漢理工大學,碩士研究生,研究方向:統計學。