999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度哈希的數字檔案圖像檢索方法*

2023-10-15 07:35:56湖州師范學院信息工程學院陳靜雯成新民王少陽周陽費志高
數字技術與應用 2023年9期
關鍵詞:深度特征方法

湖州師范學院信息工程學院 陳靜雯 成新民 王少陽 周陽 費志高

針對數字化檔案圖像檢索存在的檢索效率差、耗費大量存儲空間等問題,本文以ResNet50 作為主干網絡,將最后一層全連接層替換為哈希層,以端到端的方式輸出檔案圖像的二進制哈希碼,利用漢明距離來衡量圖像間的相似度,有效提高了數字化檔案圖像的檢索效率并降低了所需的存儲空間,為深度哈希方法應用至數字化檔案圖像檢索中提供了一定的理論支持。

隨著數碼照片檔案的不斷普及,數字化檔案已經逐漸取代紙質檔案,成為檔案存儲的主要形式。數字化檔案是指借助文字識別技術、計算機技術以及網絡存儲技術,將傳統的紙質、聲像等類型的檔案轉化為數字形式存儲在數據庫中。檔案的數字化,滿足了當代社會網絡信息的傳輸需求。不僅如此,在檔案信息數字化情況下,人們檢索檔案信息更加方便,能夠實現檔案資源的共享[1]。圖像是記錄檔案的一種重要形式,它鮮活而準確地記錄了事件的發生。理論上,使用圖片來檢索檔案照片不會存在由于標注不準確而造成檢索結果丟失或錯誤,可以大大地緩解館員負擔,便于發現照片檔案間的關聯與網絡組織,有助于利用好重復的信息資源[2]。

數字圖像檔案面臨的一大難題就是如何在圖像數據庫中搜索到目標圖像。傳統的數字圖像檔案一般是通過人工標注的方法,對圖像上的事件、地點、人物等信息標注后進行檢索,這種檢索方法不僅耗時費力,由于人工標注存在的語義偏差,檢索出的圖像也會存在很大的誤差。面對檔案圖像的急速增長,現有的圖像檢索方式已經不足以滿足用戶需求,將基于深度哈希的圖像檢索技術應用于檔案管理,以解決檔案圖像檢索存在的語義偏差問題、提高檔案檢索效率,就顯得日趨重要。深度哈希由于其強大的學習能力和良好的可移植性而被應用于數據檢索[3]。其目的是通過將高維圖像數據轉換為較為緊湊的低維二進制碼,從而在很少的存儲容量內保留更豐富的原始圖像的信息,故目前常將深度哈希方法引入圖像檢索中,達到節省存儲空間并且有效地提升檢索效率的目的。本文基于深度哈希方法的特點,利用端到端的網絡框架生成圖像哈希碼用于圖像檢索,實現一個檔案圖像檢索系統,解決數字圖像檔案的檢索問題。

1 數字檔案圖像檢索研究背景

隨著現代信息化技術的發展,檔案數字化成為當下檔案事業規劃的重中之重。然而,當下大多檔案管理系統仍是以關鍵字作為檔案圖像檢索的主要渠道,這種方法并不能精確地找到目標圖像,給檔案管理帶來了一系列困難,并且容易導致檔案圖像的重復上傳,從而浪費了大量的存儲空間。因此,基于內容的圖像檢索在檔案圖像管理中的應用就顯得尤為重要。

早期所采用的檔案圖像檢索方法大多都是基于文本的圖像檢索,隨著深度學習的發展,利用圖像深層特征來進行圖像檢索并應用于檔案圖像管理中成為了當下檔案數字化發展的流行趨勢。馬雙雙等人[4]提到,檔案工作數字化轉型是適應數字中國發展戰略、提高檔案治理效能、實現檔案事業高質量發展的必然選擇和必經之路。江媛媛[2]等人從多個方面介紹了圖像檢索技術應用在檔案管理中的優越性。任夏荔[5]等人提出了一種基于深度學習特征的主成分分析的圖像檢索方法。趙學敏等人[6]結合照片檔案管理,構建了一個基于Keras 深度學習框架實現,使用深度學習模型為VGG16 網絡模型,使用局部敏感哈希算法進行相似度匹配的照片檔案管理系統。田思等人[7]探討了人工智能技術在檔案圖像檢索領域應用的必要性。李娟等人[8]提出了一種自動標注的檔案檢索方法,提升了數字圖像資源的利用率。

綜上所述,檔案數字化是檔案事業發展的必然趨勢,檔案圖像檢索是檔案管理中的重要環節。而早期檔案圖像檢索方法大多是基于文本的圖像檢索,隨著基于內容的圖像檢索方法的提出,開始采用淺層圖像特征進行匹配,但這種方法未能準確識別出圖像中的高級語義特征,并且生成的高維特征占用較大的存儲空間,從而導致檢索效率低和準確率差等問題。故本文將深度哈希方法應用至檔案圖像檢索中,一方面,深度神經網絡用于提取圖像特征以進行有效的內容表示;另一方面,使用哈希碼代替圖像高維特征能夠有效降低所需存儲空間并進行快速相似度計算。

2 方法介紹

深度哈希方法將深度學習與哈希技術相結合,通過深度神經網絡獲取圖像的特征表示,進而得到圖像哈希碼。現有深度哈希方法可分為數據相關的和數據無關的哈希方法。數據無關的深度哈希方法中,圖像哈希碼是通過隨機矩陣映射而來。如局部敏感哈希算法(Locality Sensitive Hashing,LSH)[9]通過隨機映射得到哈希碼。但這種方法通常需要較長的哈希碼來提升檢索性能,不能生成緊湊的哈希碼,導致存儲空間的浪費。而數據相關的哈希方法能夠通過訓練數據得到緊湊哈希碼,有效提升檢索效率。

數據相關的哈希方法還可進一步分為監督的哈希方法以及無監督的哈希方法。無監督的哈希方法不依賴數據標簽,僅使用圖像信息來學習哈希函數,如ITQ[10]、SH[11]以及無監督深度哈希DeepBit[12]、HashGAN[13]等,但這種方法通常由于缺少數據標簽而導致圖像語義信息的缺失,不能獲得一個良好的檢索效果。而監督的哈希方法能夠充分利用圖像數據的標簽信息,獲得比無監督哈希方法更好的效果,如HashNet[14]、DPSH[15]、DBDH[16]等都是較為典型的監督深度哈希方法。故為了有效地從檔案圖像集中檢索出目標圖像,本文將監督深度哈希方法應用至檔案圖像檢索中。

現有深度哈希網絡大多以端到端的方式生成圖像哈希碼。如圖1 所示,為使檢索的效率及準確率有所提升,本文采用ResNet50[17]網絡作為主干網絡進行特征提取工作。ResNet 網絡是一種殘差網絡,由多個殘差塊堆疊而成,以一個超深的網絡學習圖像的局部及全局特征。其中,ResNet50 網絡模型由五個部分組成,共包含了49個卷積層和1 個全連接層,第一部分為一個卷積層,第二到第五部分為殘差塊,最后一部分為全連接層。本文將最后一層全連接層替換為哈希層,以端到端的方式直接輸出圖像近似哈希碼。最后通過符號函數將其轉化為圖像哈希碼,提升圖像檢索效率。模型訓練時,損失函數同時考慮成對損失和哈希碼平衡[16],保留檔案圖像間的相似性并將+1 和-1 的出現概率分別保持在50%。具體過程描述如下:

圖1 基于ResNet50 的深度哈希網絡結構圖Fig.1 Deep hash network structure based on ResNet50

對于圖像特征匹配,采用漢明距離衡量圖像間的相似度,具體計算過程如公式(2)、公式(3)所示:

令Oij表示bi和bj之間的內積:

則bi和bj的漢明距離為:

檔案圖像實現圖像檢索功能,給定一張圖像,希望能夠從已有檔案圖像數據庫中檢索出與之相似的圖像。為獲得較好的檢索效果,本文首先訓練深度哈希網絡模型,利用訓練好的網絡模型為檔案圖像進行特征提取以獲得圖像的近似哈希碼,然后使用符號函數將近似哈希碼映射為用于圖像檢索的哈希碼,最后進行圖像特征匹配,并利用漢明距離衡量圖像間的相似度。

3 實驗

本文實驗使用Python 作為編譯語言,采用pyTorch框架實現。

3.1 檔案圖像數據集收集與預處理

本文從中國檔案資訊網、浙江檔案網、湖州檔案信息網以及以歷史人物景點為關鍵詞檢索等渠道獲取公開的圖像1230 張,考慮到檔案圖像的特殊性,對獲取到的圖像進行灰度處理。之后,對圖像進行裁剪、旋轉等操作進行數據擴增得到共13530 張圖像作為檔案檢索數據集以滿足圖像檢索需求,其中檔案圖像數據集中的部分圖像如圖2 所示。

圖2 檔案數據集中部分圖像Fig.2 Part of the image in the file data set

在將檔案圖像數據集輸入到網絡模型前需要進行數據集的劃分。本文將數據集按6:3:1 的比例將數據集劃分為數據庫、訓練集和測試集。

為能夠準確提取檔案圖像的特征信息,需要對輸入網絡的圖像數據集進行預處理工作。由于本文所獲取到的圖像數據集存在著大小不一致的情況,故首先將對圖像的尺寸進行預處理工作,將它們統一處理成尺寸為224×224 大小的圖像。其次,為提高數據的表現力,對圖像進行數據標準化處理,即去均值、歸一化處理,本文采用ImageNet 數據集的均值和標準差進行標準化。

3.2 深度哈希網絡模型的訓練

在訓練時,需要對參數進行微調。本文采用RMSProp(Root Mean Square Prop)算法對網絡進行優化,初始學習率設為5×10-5。圖像的Batch Size 設為128,權重衰減系數設為1×10-5。采用預訓練的ResNet50 作為網絡模型的主干網絡,成對損失和量化損失相結合作為模型訓練的損失函數。訓練結束后,可以得到多個訓練后的網絡模型,根據平均檢索精度(mAP)[18]等指標選擇最優模型,利用該網絡模型對檔案圖像進行特征提取。

3.3 提取圖像特征信息

要準確地匹配待檢索圖像與數據庫圖像的特征信息,最重要的是對檔案圖像特征的提取。利用訓練后得到的網絡模型,計算檔案圖像數據庫圖像的哈希碼,為每張圖像生成一個圖像特征向量,所有圖像特征向量構成圖像特征庫。

3.4 圖像特征匹配

提取到待檢索圖像的哈希碼,與數據庫圖像的特征向量集進行對比,一一計算待檢索圖像哈希碼與數據庫圖像特征向量之間的漢明距離,得到最后的相似圖像序列。漢明距離即比較向量的每一位是否相同,即進行異或操作,求出不同位的個數,用來表示向量間的相似度。漢明距離越小,表示兩張圖像間的相似度越高。

在存儲相同數量的圖像特征時,深度學習方法生成的圖像高維特征占用30.74MB 的存儲空間。而深度哈希方法則僅占用1.97MB,有效節約圖像檢索的存儲成本。具體實現效果如圖3 所示,可以看出,深度哈希方法在檔案圖像檢索中取得了良好效果。

圖3 檔案檢索實現效果Fig.3 Implementation effect of file retrieval

4 結語

傳統檔案檢索大多都是基于人工手動標注并使用關鍵字來檢索目標圖像,容易存在語義偏差而導致檢索的結果也存在著很大的誤差。故本文將深度哈希方法引入到檔案圖像檢索中,有效提取圖像特征值用于圖像檢索?;谏疃裙7椒軌蛞暂^少的存儲容量保留更豐富的原始圖像信息的特點,本文以一種端到端的方式生成檔案圖像二進制哈希碼,并利用漢明距離來衡量圖像間的相似度,得到圖像的相似序列,達到在管理檔案圖像時避免重復上傳而導致的存儲空間的浪費以及提升圖像檢索效率的目的。雖然本文所采用的數據集存在著數據樣本量小、不能完全模擬檔案圖像數據等問題,但一定程度上降低了圖像特征的存儲空間,提高了檢索速度,為深度哈希方法應用至檔案圖像檢索中提供了一定的理論支持。

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 欧美亚洲国产日韩电影在线| 精品视频第一页| 熟女日韩精品2区| 亚洲欧洲日本在线| 2048国产精品原创综合在线| 亚洲欧美日韩视频一区| 四虎亚洲国产成人久久精品| 伊在人亚洲香蕉精品播放| 国产黄色免费看| 日韩一区二区在线电影| 中文字幕伦视频| 亚洲精品777| 国产成人亚洲精品色欲AV | 国产精品99久久久久久董美香| 91视频青青草| 亚洲综合亚洲国产尤物| 国产精品久久久久久久久久久久| 丁香亚洲综合五月天婷婷| 国产成人在线小视频| 欧美日韩另类国产| 99爱在线| 欧美综合一区二区三区| 国产亚洲视频播放9000| 不卡国产视频第一页| 日韩毛片在线视频| 毛片视频网| 国产中文一区二区苍井空| 国产精品天干天干在线观看| 亚洲大学生视频在线播放| 高潮毛片无遮挡高清视频播放| 国产亚洲欧美在线人成aaaa| 四虎永久免费地址在线网站| 婷婷成人综合| 国产激情在线视频| 日韩在线视频网| 一级不卡毛片| 直接黄91麻豆网站| 三级毛片在线播放| 亚洲精品男人天堂| 精品人妻AV区| 日韩成人高清无码| a亚洲视频| 午夜视频免费一区二区在线看| 国产91无码福利在线| 久久久久亚洲AV成人人电影软件| 欧美综合区自拍亚洲综合绿色| 国产a v无码专区亚洲av| 国产成年女人特黄特色大片免费| 国产成人精品一区二区三区| 青青青视频91在线 | 日韩午夜伦| 国产情精品嫩草影院88av| 五月天在线网站| swag国产精品| 3344在线观看无码| 日韩无码视频专区| 欧美a在线视频| 自偷自拍三级全三级视频| 国产激情国语对白普通话| 精品少妇人妻一区二区| 台湾AV国片精品女同性| 久久久久夜色精品波多野结衣| 爱做久久久久久| 一区二区三区在线不卡免费| 亚洲人成网站色7777| 欧美特级AAAAAA视频免费观看| 亚洲欧美日韩中文字幕一区二区三区 | 国产精品lululu在线观看| 99国产精品免费观看视频| 麻豆精品在线视频| 欧美特黄一免在线观看| 伊人查蕉在线观看国产精品| 伊人久久精品无码麻豆精品| av一区二区三区在线观看| 97人人做人人爽香蕉精品| 日韩a级片视频| 亚洲最新在线| 亚洲精品波多野结衣| 久久久久亚洲AV成人人电影软件| 又爽又大又黄a级毛片在线视频| 毛片免费高清免费| 国产激情无码一区二区APP |