999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析大數據搜索引擎之圖片搜索技術

2019-03-04 11:05:01孟慶芳
電腦知識與技術 2019年34期
關鍵詞:搜索引擎大數據

孟慶芳

摘要:隨著大數據技術的發展,搜索引擎的關注度越來越高,搜索引擎技術也逐漸發展成為大數據應用最前線的領域,也是最容易產生價值的大數據應用。圖片搜索是目前搜索引擎中搜索流量僅次于網頁搜索的多媒體搜索項目,為了快速精準的實現圖片搜索功能,論文從基于內容的圖片搜索及基于文本的圖片搜索兩個方面進行分析、研究,解決了較高效精準地以圖搜圖的圖片搜索問題。

關鍵詞:大數據;搜索引擎;圖片搜索;算法;相似度

中圖分類號:TP391

文獻標識碼:A

文章編號:1009- 3044(2019)34-0181-02

1 基于內容的圖片搜索

一張圖片包含了亮度變化小的區域是低頻成分和亮度變化劇烈的高頻成分。低頻成分僅提供一個框.架,圖片的詳細細節信息部分主要是由通過高頻成分來體現的。換句話說高頻成分能夠描述圖片的詳細信息。而一張尺寸比較大的內容顯示豐富的圖片有較高的頻率,小圖片都是低頻的,原因在于缺少圖像細節部分。基于內容的圖片搜索主要思想是基于圖片本身擁有的信息進行搜索,在給定查詢圖片的情況下,進行圖片搜索,是“以圖搜圖”的應用搜索。通過圖片搜索獲得相似圖片,主要采用感知哈希算法實現,該算法的核心思想是通過對每張圖片構建唯一指紋,圖片中指紋越相近則說明圖片間的相似度越高。

感知哈希算法是哈希算法的一類,簡稱.PHA,主要可以完成相似圖片的搜索任務。該算法可以分為低.頻的均值哈希感知算法和余弦哈希感知算法兩種。在進行圖片檢索的時候一般采用漢明距離來進行判斷兩幅圖像的相似程度,如果計算得到的漢明距離的數值小于5就表明兩幅圖像是相似的。

1.1 低頻的均值哈希感知算法

基于低頻的均值哈希算法:均值哈希算法面對的主要操作對象是圖片中的低頻信息,其工作過程如下:

①尺寸縮放。將所有圖片數據進行尺寸縮放,能夠最快速的去除高頻和細節,使圖片縮放到64個像素大小,即8x8的尺寸。尺寸縮放的目的在于避免圖片中一些細節及圖片大小對圖片搜索的干擾,只保留結構的明暗。

②色彩簡化。將被縮放后的圖片數據簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色。

③計算灰度平均值。對每幅圖片中的64個像素進行灰度平均值計算。

④灰度比較。把64個像素中每個像素的灰度與平均灰度.值依次比較,大于等于平均灰度值的像素設定為1,小于平均灰度值的像素設定為0。

⑤計算哈希指紋。在灰度進行比較結束以后,得到一個由0或1組成的64位的整數。這就是這張圖片的指紋。其中的整數被視為當前圖片的指紋。

通過上述過程獲得指紋之后,只需將用戶提交的圖片按照同樣的方式獲得哈希指紋之后,就可以對比不同的圖片,進行漢明距離計算,看看64位中有多少位是不一樣的。從而獲得圖片與圖片之間的相似度。通常情況下,如果漢明距離小于等于5則說明兩張圖片很相似,圖譜具有一定的相似度,若漢明距離大于10,則表明兩張圖片之間存在較大的差異。

采用感知哈希算法的過程比較簡單,而且最大的優點是計算速比較度快。而且圖片顏色的改變,對比度及亮度的增加或者減少,對哈希值的影響并不太大。比較兩張圖片的相似性過程實質上就是首先計算兩張圖片的哈希指紋,哈希指紋是由1或0構成的64位的數.值,然后再計算漢明距離。根據計算出來的漢明距離的結果來判斷兩幅圖像的相似情況。但是對于一些模糊的圖譜,或者圖片中存在一些更改情況,則不能很好地識別出相似圖譜。在工程應用中,借鑒感知哈希算法,利用圖片的顏色分布情況及內容特征進行圖片搜索。

1.2 余弦哈希感知算法

與低頻的均值哈希感知算法相比較更健壯的算法叫余弦哈希感知算法,離散余弦變換簡稱DCT,是一種圖像壓縮算法,使用離散余弦變換來獲取圖片中的低頻成分。它將圖像從像素域變換到頻率域。由于圖像中基本都存在很多冗余和相關性,所以圖像從像素域變換到頻率域之后,大部分系數都接近于0,只有很少的一部分頻率分量的系數不為0。

余弦哈希感知算法的工作過程如下:

(1)尺寸縮放:余弦哈希感知算法以小圖片開始,如果圖片大于8*8,32*32是比較理想的。這樣做的目的是能夠簡化DCT的計算。

(2)色彩簡化:將被縮放后的圖片數據簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色,進一步簡化計算量。

(3)計算DCT:計算圖片的DCT變換,得到32*32的離散余弦變換系數矩陣。

(4)縮小DCT的范圍:從上述步驟中得到的32*32的離散余弦變換系數矩陣中,只需要將左上角的包含了圖像中的較低頻.率的8*8的矩陣部分保留下來。

(5)計算平均值:如同均值哈希一樣,計算DCT的均值。

(6)計算hash值:根據8*8的離散余弦變換矩陣,設置0或1的64位的hash值,遍歷像素矩陣,當矩陣的灰度值大于離散余弦變換均值的時候哈希值為1,小于DCT均值的設為0。

為了驗證該算法的性能,進行了一些簡單的測試,測試結果發現非等比例的圖像縮放會使得基于均值哈希算法的圖像檢索出現錯誤,而余弦哈希感知算法對尺度的變化的魯棒性強于均值哈希算法。

均值哈希算法:

string.HashV. (Mat SRC)

{Mat pic,dst;

string rst.. (64,,\0);

double dldex[64];

double mean= 0.0;

int p=0;

if( SRC.channels()= =3)

{cvtColor(SRC,SRC, CV_B GR2GRAY);

pic= Mat_< double>.(SRC);)

else

{ pic= Mat-< double>.(SRC);]

r esize. (pic, pic, Size(8,8));

dct. (pic,dst);

for (int m=0:m<8;++m)(

for (int n=0:n<8;++n)

{dldex [p]= dst at< double>(m, n);

mean+=dst at< double>(m,n)/64;

++p; })

for (int m =O;nK64;++m)

{ if (dldex[m]>=mean)

trstLrrD=,i,;)

Else

{rst[m]=0;))

return rst;}

余弦哈希感知算法:

stringDCTVal (Mat SRC)

{ string rst( 64,'\O');

Mat pic;

if(SRC channels()==3)

cvtColor (SRC,pic,CV_BGR2GRAY);

else

pic=SRC.clone();

resize.( pic,pic,Size(8,8));

uchar *pData;

for(int m=O;m

{ pData= pic.ptr..(m);

for(int n=O;n

( pData[n]=pData[ny4;,}}

int average= ruean (pic).val[0l;

Mat mask= (pic>=(uchar.) average);

int tag=0;

for( int m=0; m<Ⅱiask rows; m++)

{pData= mask.ptr< uchar> (m);

for (int n=O;n

{

if(.pData[nl==0)

rst[tag++]='0' ;

else

rst[tag++]=1';})

return.rst;}

2 基于文本的圖片搜索

基于文本的圖片搜索,是通過獲得圖片附近的文本.信息,這些文本信息和.網頁搜索的文本信息一樣,被建立倒排索引,然后通過對倒排索引的使用獲得對應圖片信息。基于文本的圖片搜索的實質與網頁搜索類似,它們都是對文件建立相關索引,網頁搜索對應的是文檔集合,圖片搜索對應的是圖片的集合。

而對于基于文本的圖片搜索,文本信息主要來自三個方面。

①網頁HTML中的標簽,在HTML標簽“img”中的詞性“alt”包含的信息,是對該圖譜的一種簡短描述。

②圖片周圍的信息。圖片一般嵌套在網頁中某個區域性位置,但是這個區域性位置一般用于講述該圖譜的相關信息,圖中下面一行文字是對該圖片信息的一個描述,一般它們位于同一個HTML的“DIV”標簽或者相鄰“DIV”標簽中。

③圖片本身的文字信息。為了更加準確地分析圖片所描述的信息,學術界一直試圖對圖片進行光學字符識別。

3 結論

綜上所述,大數據搜索引擎中的圖片搜索技術有了一定的發展,但有時搜索到的圖片與原圖片的相似度還有一定的差距,隨著互聯網技術的飛速發展,圖片搜索引擎的功能一定會越來越完善強大,為用戶所提供的服務質量也會越來越高,讓用戶越來越滿意。

參考文獻:

[1]唐俊易.百度官方發布圖片搜索收錄的基礎要求[J].計算機與網絡,2014(7).

[2]王錚,針對百度算法不斷升級網站優化應采取的四點對策[J].計算機與網絡,2014(8)。

[3]徐靜.圖像搜索引擎的進步與應用現狀分析[J].電子商務,2011(5).

[4]謝同.基于文本的Web圖片搜索引擎的研究與實現[D].電子科技大學,2016.

[5]郭升挺,黃唏,柯俊敏,等.基于深度學習與拓展查詢的商標圖像檢索方法[J].網絡新媒體技術,2018(5).

[6]任夏荔,陳光喜,曹建收,等.基于深度學習特征的圖像檢索方法[J].計算機工程與設計,2018(6).

[7]孫奇平.基于深度學習的圖像檢索研究[J].景德鎮學院學報,2018(4).

[8]周力恒,金陽,康軼澤,等.圖像搜索在移動電商領域中的應用與實現[J].科技創新導報,2016(6).

[9]張軍陽,王慧麗,郭陽,等.深度學習相關研究綜述[J].計算機應用研究,2018(4).

【通聯編輯:唐一東】

猜你喜歡
搜索引擎大數據
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 欧美国产日本高清不卡| 特级毛片8级毛片免费观看| 91小视频在线播放| 伊在人亚洲香蕉精品播放 | 日韩一区精品视频一区二区| 亚洲综合中文字幕国产精品欧美| 欧美在线视频a| 欧美人与牲动交a欧美精品| 亚洲永久视频| 青青草国产一区二区三区| 久久人妻系列无码一区| 嫩草影院在线观看精品视频| 亚洲天堂网在线视频| 国产高清精品在线91| 亚洲成在人线av品善网好看| 国产真实自在自线免费精品| 福利国产微拍广场一区视频在线| 日本亚洲国产一区二区三区| 免费精品一区二区h| 谁有在线观看日韩亚洲最新视频 | 呦女精品网站| 亚洲性视频网站| 天天色天天综合| 国产三级国产精品国产普男人| 亚洲第一香蕉视频| 日韩高清一区 | 国产一级毛片网站| 精品少妇人妻av无码久久| 亚洲人成亚洲精品| 伊人久久综在合线亚洲91| 欧美伦理一区| 亚洲αv毛片| www中文字幕在线观看| 中文字幕资源站| 国产精品亚洲αv天堂无码| 免费黄色国产视频| 欧美日韩高清在线| 久久超级碰| 伊人久久青草青青综合| 亚洲天堂网在线视频| 夜夜拍夜夜爽| 国产精品毛片一区视频播| 97视频精品全国免费观看| 久久精品亚洲热综合一区二区| 日韩成人高清无码| 国产欧美日韩精品综合在线| 91香蕉视频下载网站| 在线人成精品免费视频| 亚洲码一区二区三区| 中文字幕伦视频| 萌白酱国产一区二区| 亚洲色偷偷偷鲁综合| 91免费在线看| 日韩免费成人| 国产一区二区三区夜色| 成人在线不卡| 99草精品视频| 色亚洲激情综合精品无码视频| 就去色综合| 99久久精品免费看国产电影| 久久国产精品无码hdav| 一级高清毛片免费a级高清毛片| 国产女人在线| 日韩二区三区| 亚洲一区二区三区中文字幕5566| 亚洲国产午夜精华无码福利| 日韩毛片免费| 一级毛片高清| 亚洲国产精品一区二区第一页免| 日韩成人在线网站| 丰满的少妇人妻无码区| 亚洲欧美另类日本| AV在线天堂进入| 欧美全免费aaaaaa特黄在线| 日本高清视频在线www色| 久草视频一区| 色综合热无码热国产| 91福利免费| 97久久人人超碰国产精品| 亚洲第一成人在线| 一本大道东京热无码av| 亚洲资源在线视频|