999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RAN 與深度哈希的圖像檢索方法研究

2021-04-20 09:30:46石靈奇王玉玫
電子設(shè)計工程 2021年6期
關(guān)鍵詞:特征

石靈奇,王玉玫

(華北計算技術(shù)研究所,北京 100083)

基于內(nèi)容的圖像檢索(CBIR)是計算機(jī)視覺領(lǐng)域重要的研究分支,近年來隨著圖像數(shù)據(jù)的大規(guī)模增長,傳統(tǒng)的圖像檢索方式不能滿足準(zhǔn)確率和效率上的要求,因此卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)成為圖像檢索領(lǐng)域更重要的工具[1]。

由于CNN 在提取圖像特征時對于圖像的全部特征等價處理,因此其提取到的圖像特征不僅包含目標(biāo)信息,還包含雜亂的背景信息。文中提出一種改進(jìn)的殘差注意力網(wǎng)絡(luò)(Residual Attention Network,RAN)[2]用于提取圖像特征,該網(wǎng)絡(luò)結(jié)合了殘差網(wǎng)絡(luò)(Residual Network,ResNet)[3]和注意力機(jī)制[4]的特點,將提取出的特征向量輸入到哈希層得到圖像的二進(jìn)制編碼,最后通過對比待查詢圖像的哈希碼與訓(xùn)練集中每一張圖像的哈希碼之間的漢明距離來檢索圖像,實現(xiàn)端到端的訓(xùn)練和檢索。

1 相關(guān)工作

1.1 卷積神經(jīng)網(wǎng)絡(luò)

近年來,CNN 在圖像分類和目標(biāo)檢測等視覺任務(wù)上取得了重大突破[5],與人工提取特征相比,CNN可以通過自我學(xué)習(xí)的方式得到圖像的高級語義特征表達(dá),提取的特征也更準(zhǔn)確[6-7]。但由于CNN 在提取圖像特征時對于圖像的全部特征等價處理,沒有對圖像重點區(qū)域進(jìn)行關(guān)注,因此當(dāng)圖片背景信息復(fù)雜時,CNN 無法只關(guān)注目標(biāo)信息。

1.2 注意力機(jī)制

在注意力研究的早期階段,通過分析大腦成像機(jī)制并采用門控機(jī)制對注意力建模。近年來,越來越多的注意力研究工作與深度學(xué)習(xí)相結(jié)合。其中從注意力域的角度分析軟注意力的實現(xiàn)方法主要包括3 種注意力域,即空間域、通道域和混合域。

1)空間域:圖片中的空間域信息通過空間轉(zhuǎn)換器[8]模塊可以提取出關(guān)鍵信息。但空間域注意力對所有通道中的特征向量進(jìn)行相同操作,容易忽略通道域中的特征信息,其對應(yīng)的激活函數(shù)公式為:

其中,i表示位置,c代表通道。meanc代表c通道的平均值,stdc代表c通道的標(biāo)準(zhǔn)差。

2)通道域:對于輸入圖像,使用多個卷積核可以從圖像中提取多種特征[9]。輸出圖像的每個通道上的特征就代表該圖像在不同卷積核上的分量,產(chǎn)生的多個通道對于圖像關(guān)鍵信息的貢獻(xiàn)不同。為了表示每個通道與關(guān)鍵信息之間的關(guān)聯(lián),可以給每個通道上的特征都增加相應(yīng)權(quán)重。但該方法對每個通道的特征向量都進(jìn)行了全局平均池化(global averagepooling),忽略了每個通道的局部特征,其對應(yīng)的激活函數(shù)公式為:

3)混合域:混合域注意力機(jī)制結(jié)合以上兩種注意力域的優(yōu)點,其原理是將注意力機(jī)制與ResNet 結(jié)合使用。殘差注意力學(xué)習(xí)機(jī)制把掩碼操作之前的特征向量和掩碼操作之后的特征向量結(jié)合起來作為下一層的輸入,以便于定位圖像的關(guān)鍵特征,其對應(yīng)的sigmoid 激活函數(shù)公式為:

提出的基于RAN 和深度哈希的模型結(jié)合了ResNet 和混合域注意力機(jī)制的優(yōu)點,將圖像輸入到RAN 模型中進(jìn)行特征提取,然后將提取到的特征向量輸入到哈希層得到圖像的二進(jìn)制編碼[10],可用于圖像間的相似度測量,實現(xiàn)端到端的圖像檢索。

2 文中方法

該文在模型設(shè)計上主要基于RAN 的結(jié)構(gòu)層次,根據(jù)圖像檢索的特點,對RAN 中的模型進(jìn)行改進(jìn),以便于提高圖像特征提取和相似度度量的效率。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)由兩部分組成,分別是RAN 和哈希層。其中RAN 主要由4 個殘差單元和3 個注意力模塊交叉堆疊而成,再經(jīng)過哈希層得到圖像的二進(jìn)制編碼。文中提出的模型結(jié)構(gòu)如圖1 所示。

圖1 基于RAN與深度哈希算法的模型結(jié)構(gòu)

2.1 殘差網(wǎng)絡(luò)

文中選取ResNet-50 中的子結(jié)構(gòu)作為殘差單元。由于AlexNet、VGGNet 等網(wǎng)絡(luò)加深到一定層次后繼續(xù)加深也不能提升效果,反而會導(dǎo)致訓(xùn)練集準(zhǔn)確率下降。ResNet 的出現(xiàn)很大程度上解決了深層網(wǎng)絡(luò)退化和梯度消失問題,其可使網(wǎng)絡(luò)加深到更深的層次。使用殘差學(xué)習(xí)結(jié)構(gòu)H(x)=F(x)+x代替原來的結(jié)構(gòu)H(x)=x,這樣更容易更新冗余層的參數(shù)。而殘差學(xué)習(xí)結(jié)構(gòu)也使得在反向傳播更新參數(shù)時不會導(dǎo)致梯度消失,殘差學(xué)習(xí)結(jié)構(gòu)如圖2 所示。

圖2 殘差學(xué)習(xí)結(jié)構(gòu)

2.2 注意力模塊

注意力模塊由主干分支和掩碼分支組成,主干分支用于提取特征,掩碼分支進(jìn)行特征選擇。其中掩碼分支使用自底向上、自頂向下的結(jié)構(gòu)學(xué)習(xí)與該分支輸入圖像相同大小的掩碼,得到注意力特征圖,該特征圖上的每個像素值相當(dāng)于輸入圖像上對應(yīng)位置像素的權(quán)重,它會增強(qiáng)有意義的特征且抑制無意義的特征。將主干分支與掩碼分支輸出的特征圖的對應(yīng)位置元素相乘得到加權(quán)注意力特征圖。此時注意力模塊H的輸出為:

其中,i代表圖像中的位置,c代表通道索引下標(biāo)[11],M(x)代表掩碼分支的輸出,T(x)代表主干分支的輸出。

由于注意力模塊中掩碼分支的激活函數(shù)是sigmoid 函數(shù),其輸出值在(0,1)之間,因此通過一系列乘法將會導(dǎo)致特征圖的值變小,原始網(wǎng)絡(luò)的特性也可能被破壞,導(dǎo)致層次極深時訓(xùn)練困難。因此可使用類似殘差學(xué)習(xí)的方式解決該問題,即將上述得到的加權(quán)注意力特征圖與主干特征圖中對應(yīng)位置元素相加,此時注意力模塊的輸出為:

當(dāng)M(x)=0 時,該層的輸出等于T(x)且該層的效果不會變差,這使得主干分支輸出的特征圖中顯著的特征得以進(jìn)一步增強(qiáng)。通過將RAN 進(jìn)行堆疊就可以使模型的深度達(dá)到很深的層次,可以逐漸提升網(wǎng)絡(luò)的表達(dá)能力。注意力模塊結(jié)構(gòu)如圖3 所示。

圖3 注意力模塊結(jié)構(gòu)

在注意力模塊中,掩碼分支輸入特征的掩碼梯度為:

其中,θ代表掩膜分支的參數(shù),φ代表主干分支的參數(shù)。這使得注意力模塊對噪聲的魯棒性增強(qiáng),能有效減少噪聲對梯度更新的影響[12]。

在ResNet 特征提取模塊的各殘差單元之間加入注意力模塊,可使得該網(wǎng)絡(luò)提取的特征更好地聚焦于圖像的目標(biāo)對象。通過RAN 提取出圖像的高維特征表達(dá),然后將該特征向量輸入到哈希層得到圖像的二進(jìn)制編碼。文中使用的基于RAN 與深度哈希算法的模型參數(shù)如表1 所示。

2.3 哈希層

通過RAN 與深度哈希算法,借助注意力機(jī)制識別出圖像中目標(biāo)對象的近似位置,將圖像映射成專注的特征向量,然后將該特征向量通過哈希層映射成二值編碼。其中哈希碼編碼的主要對象為圖像的目標(biāo)信息。

為了解決圖像檢索中的檢索效率問題,提出一種改進(jìn)的RAN 模型,將原來RAN 模型中的最后一層——分類層替換為哈希層,該哈希層把網(wǎng)絡(luò)提取出的高維圖像特征表達(dá)映射成二進(jìn)制編碼。哈希層中使用tanh 函數(shù)作為激活函數(shù),可將哈希層的連續(xù)輸出用作哈希碼的松弛[13]。深度哈希函數(shù)定義為:

表1 基于RAN與深度哈希算法的模型參數(shù)

其中,w表示哈希層的權(quán)重,f(x)為上一層輸出的特征向量。

2.4 網(wǎng)絡(luò)訓(xùn)練

文中將相似性損失函數(shù)設(shè)置為如下公式:

其中,Y=[y1,y2,…,yn]表示標(biāo)簽向量,W表示權(quán)重值,B表示二進(jìn)制哈希碼的集合,其中第i個樣本的哈希碼bi∈{-1,1}。

哈希碼從連續(xù)值經(jīng)過閾值化得到離散值的過程中會產(chǎn)生一定的量化誤差[13-14],為促使深度哈希網(wǎng)絡(luò)的輸出接近二值編碼,文中引入量化損失函數(shù),其公式如下:

其中,di表示閾值化后的離散值哈希碼,c表示未經(jīng)閾值化的連續(xù)值編碼,||·||2是l2范數(shù)。

通過整合相似性損失和量化損失,得到最終的目標(biāo)損失函數(shù),公式如下:

其中,a為用于控制量化損失的比重系數(shù)。

3 實驗結(jié)果

3.1 數(shù)據(jù)集

文中實驗使用Flickr 和NUS-WIDE 數(shù)據(jù)集對模型進(jìn)行訓(xùn)練和驗證[13,15]。其中Flickr 數(shù)據(jù)集包含25 000 張圖片,每張圖像至少和38 個語義標(biāo)簽中的一個相關(guān)聯(lián)。從中選取5 000 張圖片,測試集與訓(xùn)練集比例為4∶1,故訓(xùn)練集包含4 000 張圖片,測試集包含1 000 張圖片。NUS-WIDE 數(shù)據(jù)集包含81 個對象類別,每張圖像都與一個或多個標(biāo)簽相關(guān)聯(lián)。從中選取21 個標(biāo)簽,從每個標(biāo)簽中挑選600 張圖片,訓(xùn)練集與測試集比例為5∶1。因此訓(xùn)練集圖片共10 500張,測試集圖片共2 100 張。實驗中,將模型的輸入圖像大小調(diào)整為224*224。

3.2 開發(fā)環(huán)境與實驗設(shè)置

該實驗基于Keras 深度學(xué)習(xí)框架實現(xiàn),編程語言為Python3.7。GPU 并行開發(fā)環(huán)境為CUDA 10.0、CuDNN 7.0 版本。在GPU 加速下完成算法訓(xùn)練與測試。實驗中使用隨機(jī)梯度下降算法訓(xùn)練網(wǎng)絡(luò),使用批歸一化加快訓(xùn)練速度。

3.3 實驗結(jié)果及評估

為評估提出的基于RAN 與深度哈希算法的模型在圖像檢索應(yīng)用上的具體效果,在相同訓(xùn)練集的條件下,將改進(jìn)的模型與ResNet 以及4 種哈希方法分別比較,其中無監(jiān)督哈希方法選取局部敏感哈希和譜哈希。監(jiān)督哈希方法選取KSH 和DLBHC[16]。為評估圖像檢索的質(zhì)量,該實驗采用不同位數(shù)的mAP(mean Average Precision)和不同返回最近鄰樣本數(shù)的準(zhǔn)確率作為評估指標(biāo)。

表2、表3 分別為Flickr 數(shù)據(jù)集與NUS-WIDE 數(shù)據(jù)集中不同bit 位的mAP 結(jié)果,可以看出,相較于ResNet,文中使用的網(wǎng)絡(luò)結(jié)構(gòu)在Flickr 數(shù)據(jù)集上對應(yīng)不同哈希編碼長度的mAP 提升了1.2%~2.3%。在NUS-WIDE 數(shù)據(jù)集上對應(yīng)不同哈希編碼長度的mAP提升了1.1%~2.7%。

與其他哈希方法中表現(xiàn)最佳的DLBHC 對比,文中改進(jìn)的方法在Flickr 數(shù)據(jù)集和NUS-WIDE 數(shù)據(jù)集上對應(yīng)不同哈希編碼長度的mAP 也分別提升了大約19%和22%。

圖4、圖5 分別表示Flickr 和NUS-WIDE 數(shù)據(jù)集中不同返回最近鄰樣本數(shù)的準(zhǔn)確率,可以看出該實驗方法有較高的準(zhǔn)確率且性能較穩(wěn)定。

表2 Flickr數(shù)據(jù)集中不同bit位的mAP對比

表3 NUS-WIDE數(shù)據(jù)集中不同bit位的mAP對比

圖4 Flickr數(shù)據(jù)集上不同返回最近鄰個數(shù)的準(zhǔn)確率

圖5 NUS-WIDE數(shù)據(jù)集上不同返回最近鄰個數(shù)的準(zhǔn)確率

4 結(jié)束語

該文從解決CNN 提取的圖像特征可能包括圖像的雜亂背景信息角度出發(fā),設(shè)計了基于RAN 與深度哈希算法的圖像檢索模型,將ResNet、注意力模塊和哈希算法集成到同一網(wǎng)絡(luò),實現(xiàn)端到端的圖像檢索,提高了圖像檢索的準(zhǔn)確率。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 中文字幕亚洲电影| 亚洲国产成人综合精品2020| 一区二区三区国产精品视频| 日本不卡在线播放| 99热这里只有精品在线播放| 亚洲精品va| AV在线麻免费观看网站| 国产日韩丝袜一二三区| 国产精品片在线观看手机版| 国产麻豆aⅴ精品无码| 欧美日韩综合网| 成人午夜网址| 99精品欧美一区| 亚洲一区二区三区在线视频| 精品一区二区无码av| 亚洲综合精品香蕉久久网| 午夜激情婷婷| 麻豆精品在线| 中文一区二区视频| 国产精品视频公开费视频| 亚洲AV无码精品无码久久蜜桃| 国产精品手机视频| 亚洲va视频| 一区二区三区四区在线| 久久精品中文字幕免费| 99热这里只有精品免费国产| 久久福利网| 黄色一级视频欧美| 欧美a√在线| 天天综合网色中文字幕| 国产精品久线在线观看| 午夜限制老子影院888| 黄色福利在线| 久久永久精品免费视频| 国产自在自线午夜精品视频| 日韩精品亚洲人旧成在线| 99精品高清在线播放| 国产男人天堂| 亚洲天堂2014| 91视频精品| 亚洲精品午夜天堂网页| 国产欧美性爱网| 国产在线91在线电影| 国产精品3p视频| 无码一区二区三区视频在线播放| 亚洲天堂成人| 国产97视频在线观看| 久草视频精品| 国产麻豆精品手机在线观看| 波多野结衣在线se| 黄色a一级视频| 国产视频一二三区| 久久精品视频亚洲| 亚洲色图在线观看| 99热这里只有精品久久免费| 2021天堂在线亚洲精品专区 | 欧美日韩另类国产| 99草精品视频| 欧美另类第一页| 亚洲天堂久久| 国产高清不卡视频| 中文字幕资源站| 欧美自慰一级看片免费| 精品成人一区二区| 日韩乱码免费一区二区三区| 日韩精品久久无码中文字幕色欲| 中文精品久久久久国产网址| 亚洲中文字幕23页在线| 国产免费a级片| 六月婷婷激情综合| 在线另类稀缺国产呦| 亚洲va欧美va国产综合下载| 久久久久久尹人网香蕉 | 亚洲欧美另类日本| 久久综合色视频| 国产精品视频猛进猛出| 四虎影视国产精品| 99在线视频网站| 免费在线视频a| 国产精选自拍| av手机版在线播放| 久久这里只精品国产99热8|