999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向數(shù)據(jù)集制作的圖像重復(fù)性檢測方法

2023-10-20 15:51:36崔溜洋張文哲
現(xiàn)代計(jì)算機(jī) 2023年15期
關(guān)鍵詞:實(shí)驗(yàn)方法

李 玲,崔溜洋,張文哲

(大連理工大學(xué)城市學(xué)院,大連 116600)

0 引言

圖像處理算法的研究離不開數(shù)據(jù)集的支撐,而算法的效果和性能與訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量密切相關(guān),因此數(shù)據(jù)集的制作工作也尤為重要。圖像數(shù)據(jù)來源的多樣性在提升數(shù)據(jù)的規(guī)模和豐富性的同時(shí)也增加了數(shù)據(jù)篩選的難度。以往的人工處理流程繁瑣復(fù)雜、效率低下,尤其是在大規(guī)模數(shù)據(jù)集的制作中,為保證準(zhǔn)確度只能投入大量的作業(yè)時(shí)間。雖然也有部分工作會(huì)借助算法進(jìn)行,但功能分散,自動(dòng)化程度低,還有很大的提升空間。

基于以上背景,本文提出一種面向數(shù)據(jù)集制作的圖像相似性檢測方法,先對原始數(shù)據(jù)進(jìn)行個(gè)性化的預(yù)處理,初步篩除不合格數(shù)據(jù),然后使用感知哈希算法[1-2]結(jié)合k-means[3-4]聚類,對圖像特征進(jìn)行散列化,計(jì)算數(shù)據(jù)簽名間的距離,過濾掉相似度高的重復(fù)圖像,圖像篩選的嚴(yán)格程度具有可調(diào)節(jié)性。經(jīng)過本方法處理后的數(shù)據(jù)經(jīng)由簡單復(fù)檢后,即可用于后續(xù)使用,大大提高數(shù)據(jù)的篩選效率和準(zhǔn)確率。

1 相關(guān)工作

相似度檢測是圖像處理中的基礎(chǔ)應(yīng)用[5-7],目前主流的方法是哈希算法。圖像哈希算法的中心思想都是將圖像進(jìn)行散列化,作用在于生成圖像的指紋信息,可通過比較兩圖像指紋信息的間距來判斷圖像的相似性,在圖像處理領(lǐng)域有著廣泛應(yīng)用。例如,Randhir等[8]使用pHash算法計(jì)算平臺(tái)上傳內(nèi)容的相似度,解決多媒體的版權(quán)侵權(quán)問題。Biswas等[9]對感知哈希算法進(jìn)行改進(jìn),更好地提取人臉圖像的特征,應(yīng)用于人臉分類任務(wù)。Verlekar等[10]通過計(jì)算用戶腿部區(qū)域上的感知散列并將其與針對訓(xùn)練序列獲得的pHash 值進(jìn)行比較來識(shí)別行走方向。Liu 等[11]提出深度哈希方法用于遙感圖像的分類和檢索。雖然感知哈希的處理時(shí)間最長,但由于其對于圖像細(xì)微變化的低敏感性,尤其是在角度旋轉(zhuǎn)情況下表現(xiàn)出的強(qiáng)魯棒性而備受青睞。

在數(shù)據(jù)集的制作中,也有團(tuán)隊(duì)會(huì)使用相關(guān)算法對數(shù)據(jù)進(jìn)行篩選。例如,鄧慶昌等[12]在做目標(biāo)檢測數(shù)據(jù)集的過程中,采用直方圖法進(jìn)行圖片去重。花明珠等[13]使用感知哈希算法對通過爬蟲技術(shù)在網(wǎng)絡(luò)中搜集大量珊瑚圖片形成的初始數(shù)據(jù)集中的圖像進(jìn)行去重處理。但是這些方法功能單一,只完成了數(shù)據(jù)篩選的小部分工作,而且對于大規(guī)模數(shù)據(jù)的篩選速度和精度無法保證。

因此本文基于敏感哈希算法,提出針對數(shù)據(jù)集制作的綜合篩選方法,同時(shí)為了彌補(bǔ)時(shí)間缺陷,借鑒k-means 思想,先經(jīng)過聚類后再計(jì)算指紋序列間的距離,以降低執(zhí)行大規(guī)模數(shù)據(jù)過濾工作的時(shí)間復(fù)雜度。

2 算法實(shí)現(xiàn)

本文提出的圖像重復(fù)性檢測方法旨在實(shí)現(xiàn)圖像數(shù)據(jù)集制作過程中圖像篩選部分的自動(dòng)化處理,代替人工篩選,降低圖像過濾的時(shí)間成本,提高過濾質(zhì)量。算法流程如圖1所示。

圖1 算法流程

算法整體分為三大部分:數(shù)據(jù)清洗、哈希計(jì)算和距離計(jì)算。首先將通過爬蟲等方式采集到的原始數(shù)據(jù)集作為算法的輸入,根據(jù)個(gè)性化要求進(jìn)行數(shù)據(jù)清洗,初步篩除不符合要求的數(shù)據(jù);其次使用pHash算法[14-15]對每張圖像進(jìn)行簽名計(jì)算,得到代表圖像的散列化數(shù)據(jù);最后對所有圖像的哈希值進(jìn)行k-means聚類,在同一簇中兩兩計(jì)算漢明距離,過濾超過閾值的相似圖像。

2.1 數(shù)據(jù)清洗

數(shù)據(jù)清洗主要包括三部分內(nèi)容:尺寸檢查、通道數(shù)檢查和圖像格式檢查。圖像數(shù)據(jù)的尺寸限制參數(shù)和格式限制參數(shù)可在配置文件中進(jìn)行個(gè)性化設(shè)定,根據(jù)配置內(nèi)容將范圍外的圖像數(shù)據(jù)“淘汰”。通道數(shù)檢查主要為了刪除灰度圖像,因?yàn)樵诤芏鄨D像處理算法中,是無法對灰度圖像進(jìn)行處理的。本算法刪除的數(shù)據(jù)不會(huì)直接刪除,而是會(huì)被收集至單獨(dú)的文件夾中,目的是保留原始數(shù)據(jù),以供人工復(fù)檢比對或其他處理使用。

2.2 感知哈希算法

感知哈希的核心思想是無損DCT(離散余弦變換)。DCT 變換最早由Ahmed 等[16]于1974 年提出,其基本原理是對圖像進(jìn)行壓縮,將空域信號轉(zhuǎn)到頻域,獲取更有效的表達(dá)。因計(jì)算開銷低,處理效率高,適應(yīng)性強(qiáng)等優(yōu)點(diǎn)在圖像處理中具有重要應(yīng)用。二維DCT變換的公式為

其中:x、y為空間采樣值;u、v為頻率采樣值;f(x,y)為原始二維信號。

感知哈希的處理流程如圖2所示。先將圖像統(tǒng)一縮放至32 × 32 px,再轉(zhuǎn)換為單通道灰度圖,目的是為了進(jìn)一步減小計(jì)算量,簡化DCT變換。經(jīng)DCT 變換后的圖像信息主要集中在左上角,取8 × 8 的矩陣即可呈現(xiàn)圖片的低頻信息。計(jì)算矩陣中所有元素的均值,再依次將矩陣中的元素與均值進(jìn)行比對,根據(jù)比對結(jié)果賦1或0,從而生成64 bit的指紋信息,即哈希值。

圖2 感知哈希算法示意圖

2.3 距離計(jì)算

當(dāng)數(shù)據(jù)規(guī)模很龐大時(shí),對指紋信息兩兩比較并計(jì)算距離是十分耗時(shí)的過程。為解決該問題,本文引入了聚類思想。聚類是一種無監(jiān)督學(xué)習(xí)方法,無需準(zhǔn)備數(shù)據(jù)集,將一個(gè)龐雜數(shù)據(jù)集中具有相似特征的數(shù)據(jù)自動(dòng)歸類到一起,稱為一個(gè)簇,簇內(nèi)的對象越相似,聚類的效果越好[17]。

使用k-means 算法將所有圖像數(shù)據(jù)的哈希值先聚成k簇,此時(shí)相似的圖像在很大概率下會(huì)被聚在同一簇中,然后在同一簇中兩兩計(jì)算距離,大大減少計(jì)算量。k-means聚類具有隨機(jī)性,可能收斂到局部最小值,手動(dòng)設(shè)定的k值也會(huì)影響最終的聚類效果。在配置文件中提供了設(shè)定k值的接口,可根據(jù)數(shù)據(jù)的實(shí)際情況進(jìn)行設(shè)定,從而提高方法的泛化性能。另外,對于最佳k值,在3.2節(jié)中進(jìn)行了對比實(shí)驗(yàn)。

距離計(jì)算選用漢明距離[18],對圖像的哈希值進(jìn)行異或運(yùn)算,統(tǒng)計(jì)結(jié)果為1 的個(gè)數(shù)。其公式為

其中:xn、yn表示兩個(gè)N位的字符串,⊕符號表示進(jìn)行XOR運(yùn)算。

3 實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)集

為了有效地對算法進(jìn)行定量評價(jià)和對比實(shí)驗(yàn),本文構(gòu)建了一個(gè)具有已知不合格圖像和相似圖像數(shù)量的實(shí)驗(yàn)數(shù)據(jù)集。通過網(wǎng)絡(luò)爬蟲的方式,采集了約20000張圖像作為原始數(shù)據(jù)。人工挑選了5000 張合格圖像作為基礎(chǔ)樣本(命名為DATA-BASE)。通過對DATA-BASE 中的圖像進(jìn)行加噪、尺寸變更、圖像旋轉(zhuǎn)、灰度轉(zhuǎn)化、格式變換等處理進(jìn)行數(shù)據(jù)集的擴(kuò)展,具體的處理數(shù)量和參數(shù)見表1。

表1 實(shí)驗(yàn)數(shù)據(jù)處理

從DATA-BASE 中隨機(jī)選取數(shù)量列對應(yīng)數(shù)量的圖像,按照對應(yīng)的處理方法和參數(shù)進(jìn)行處理,最終得到共13000 萬張圖像的擴(kuò)展數(shù)據(jù)集(命名為DATA-L)。再從DATA-L 中隨機(jī)選取2000 張圖像構(gòu)成DATA-S,均作為對比實(shí)驗(yàn)的數(shù)據(jù)支撐。以一張圖像為例,進(jìn)行處理后的效果說明,如圖3所示。

圖3 擴(kuò)展數(shù)據(jù)集處理示例

3.2 k-means聚類

在本節(jié)中將進(jìn)行兩組對比實(shí)驗(yàn),第一組是驗(yàn)證選取的最佳k值,第二組是驗(yàn)證對于不同數(shù)據(jù)規(guī)模,進(jìn)行聚類后再計(jì)算圖像間的距離和直接計(jì)算距離的時(shí)間優(yōu)化結(jié)果。

選取合適的聚類中心,不僅能減少聚類的時(shí)間,還能提高聚類的準(zhǔn)確度。一般的聚類中心數(shù)在3~10之間,對于數(shù)據(jù)篩選來說,聚類的目的是使類似的圖像被聚到同一簇中,過多的聚類中心更易使數(shù)據(jù)分散,達(dá)不到良好的聚類效果。因此,在本組實(shí)驗(yàn)中選取的聚類中心數(shù)的范圍為2~8。使用DATA-L 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),聚類結(jié)果的分析方法使用經(jīng)典的“手肘法”,即通過計(jì)算不同簇?cái)?shù)下的聚類誤差平方和(SSE)來確定最佳k值。實(shí)驗(yàn)結(jié)果如圖4 所示,可以看出k=4時(shí)是拐點(diǎn)位置,因此最佳k值取4。

圖4 最佳k值實(shí)驗(yàn)結(jié)果

選用k-means 的目的是為了減少圖像簽名比對的計(jì)算時(shí)間,尤其是在數(shù)據(jù)規(guī)模龐大的情況下。為了驗(yàn)證該方法的有效性,進(jìn)行了時(shí)間對比實(shí)驗(yàn)。分別計(jì)算在兩種數(shù)據(jù)規(guī)模下,不使用k-means 直接進(jìn)行漢明距離計(jì)算、進(jìn)行聚類后再進(jìn)行距離計(jì)算所需要的時(shí)間,聚類中心數(shù)均設(shè)置為4,本實(shí)驗(yàn)的結(jié)果見表2。

表2 時(shí)間對比實(shí)驗(yàn)結(jié)果

從表2可以看出,在所有數(shù)據(jù)規(guī)模下,進(jìn)行聚類的時(shí)間均比不進(jìn)行聚類的時(shí)間短,且數(shù)據(jù)規(guī)模越大,效果越明顯,這充分表明了融合聚類能夠減少哈希簽名比對的時(shí)間。

3.3 算法評價(jià)

本節(jié)實(shí)驗(yàn),我們將通過人工方式篩選的結(jié)果和通過本文方法的篩選結(jié)果進(jìn)行比較。為了使實(shí)驗(yàn)數(shù)據(jù)更具說服力,人工過濾流程與算法過濾流程保持一致,圖像清洗部分需要人工調(diào)用多個(gè)程序進(jìn)行,過濾標(biāo)準(zhǔn)與配置文件中設(shè)置的條件一致。圖像相似度檢測的方法,通過人工進(jìn)行肉眼比對,根據(jù)人的主觀判斷進(jìn)行相似數(shù)據(jù)的篩除。

評價(jià)從時(shí)間和準(zhǔn)確率兩方面進(jìn)行,準(zhǔn)確率采用以下兩個(gè)評價(jià)指標(biāo)進(jìn)行計(jì)算:

其中:ri代表被正確保留的數(shù)據(jù)數(shù)量,rall表示應(yīng)該被保留的數(shù)據(jù)總數(shù),ei表示被正確篩除的數(shù)據(jù)數(shù)量,eall表示應(yīng)該被篩除的數(shù)據(jù)總量。該部分的實(shí)驗(yàn)結(jié)果見表3。

表3 算法評價(jià)實(shí)驗(yàn)結(jié)果

根據(jù)以上實(shí)驗(yàn)結(jié)果,人工篩選2000 張圖像的時(shí)間就已經(jīng)達(dá)到了約6小時(shí),隨著數(shù)據(jù)規(guī)模的增大,對于人工篩選的挑戰(zhàn)性更高,人工篩選的效率更低,準(zhǔn)確率也會(huì)隨之降低。而使用本文提出的方法,僅需不到3 分鐘即可完成13000張圖像的過濾工作,且過濾效果較好,能夠滿足數(shù)據(jù)集制作的篩選需求。

4 結(jié)語

本文針對數(shù)據(jù)集制作的特定場景,提出了圖像重復(fù)性檢測方法,實(shí)現(xiàn)數(shù)據(jù)篩選的“一站式”服務(wù),解決了數(shù)據(jù)篩選效率低下、準(zhǔn)確率不佳等問題,具有實(shí)際應(yīng)用價(jià)值。通過實(shí)驗(yàn)驗(yàn)證了算法在處理時(shí)間和篩選精度上的表現(xiàn),與傳統(tǒng)人工處理流程的時(shí)間和性能進(jìn)行比較,證明了算法的有效性和優(yōu)越性。

圖像處理技術(shù)將繼續(xù)發(fā)展,數(shù)據(jù)集的制作也會(huì)趨向自動(dòng)化。數(shù)據(jù)集的制作還包括標(biāo)注、分類等部分,在后續(xù)的工作中,我們也將探討和研究其余部分的自動(dòng)化處理方法,考慮采用深度學(xué)習(xí)方法,盡可能降低數(shù)據(jù)集制作的人工成本,這也對圖像處理技術(shù)的發(fā)展有著至關(guān)重要的影響。

猜你喜歡
實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
做個(gè)怪怪長實(shí)驗(yàn)
學(xué)習(xí)方法
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久国产精品波多野结衣| 一本大道视频精品人妻 | 亚洲Av综合日韩精品久久久| 久久99蜜桃精品久久久久小说| 日韩在线播放欧美字幕| 六月婷婷综合| 亚洲欧美成aⅴ人在线观看 | 欧洲欧美人成免费全部视频| 国产日产欧美精品| 丁香六月综合网| 亚洲精品天堂在线观看| 精品一区二区三区水蜜桃| 色哟哟国产精品| 欧美日韩免费在线视频| 特级毛片8级毛片免费观看| 亚洲浓毛av| 99青青青精品视频在线| 国产精品999在线| 欧美不卡在线视频| 性喷潮久久久久久久久| 超清人妻系列无码专区| 国内自拍久第一页| 成人综合在线观看| 亚国产欧美在线人成| 伊人天堂网| 东京热av无码电影一区二区| 91精品网站| 成年人国产视频| 国产99在线| 国产亚洲精品无码专| 欧美亚洲第一页| 4虎影视国产在线观看精品| 国产1区2区在线观看| 国产噜噜噜| 日韩黄色精品| 91在线国内在线播放老师| 国产欧美日韩va另类在线播放 | 国内精品久久人妻无码大片高| 99热这里只有成人精品国产| 免费一级毛片在线观看| 99色亚洲国产精品11p| 精品一区二区三区水蜜桃| 亚洲性视频网站| 久草视频精品| 依依成人精品无v国产| 亚洲成a人片77777在线播放| 国产视频久久久久| 亚洲成a人片77777在线播放| 国产SUV精品一区二区6| 91在线播放国产| 中文字幕波多野不卡一区| 国产99精品视频| 亚洲国产成人超福利久久精品| 精品无码日韩国产不卡av | 国产男人的天堂| 午夜毛片免费看| 国产色偷丝袜婷婷无码麻豆制服| 国产婬乱a一级毛片多女| 91在线日韩在线播放| 综合人妻久久一区二区精品| 亚洲欧美h| 国产打屁股免费区网站| 国产精品污视频| 亚洲成综合人影院在院播放| 伊人五月丁香综合AⅤ| 在线高清亚洲精品二区| 97视频免费在线观看| 欧美一区二区人人喊爽| 97无码免费人妻超级碰碰碰| 中文字幕免费在线视频| 久热99这里只有精品视频6| 久久综合激情网| 日韩精品免费一线在线观看| 亚洲第一黄色网址| 亚洲av无码人妻| 不卡色老大久久综合网| 人妻少妇久久久久久97人妻| 亚洲狼网站狼狼鲁亚洲下载| 成人小视频网| 国内自拍久第一页| 日韩欧美91| 日韩a级毛片|