999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云計算分析大數據信息檢索技術

2016-01-27 11:12:19黃曉清
科學中國人 2016年33期
關鍵詞:信息檢索搜索引擎用戶

黃曉清

廈門華天涉外職業技術學院

基于云計算分析大數據信息檢索技術

黃曉清

廈門華天涉外職業技術學院

信息技術的發展使得信息化時代逐漸到來,信息數量呈現出了一種爆炸性增長的趨勢,而云計算以及云存儲的出現,也在一定程度上加快了大數據的產生,對于信息檢索的效率也提出了較高的要求。本文結合云計算以及大數據的有關概念,對大數據信息檢索技術進行了分析和討論。

云計算;大數據;信息檢索技術

前言

計算機技術和網絡技術的普及,帶動了云服務的增長,也使得越來越多的單位和個人開始將業務轉移到了在線應用方面,大量的在線業務產生了海量的數據信息,也就是所謂的大數據。在云計算背景下,如何對大數據進行有效處理,從中快速檢索出需要的信息,是需要相關技術人員深入研究的課題。

1 云計算與大數據

云計算是一種基于互聯網的全新計算方式,可以通過將共享的信息資源和軟硬件資源提供給相應的計算機和設備,使得有限的網絡資源發揮出最大效益。

大數據也稱巨量數據,指數據量極其巨大,無法通過現有的主流數據處理軟件,在合理時間內進行采集、管理、處理的資訊,是繼移動計算、物聯網、云計算等信息技術之后的又一個新興事物。當數據容量在10TB-1PB之間時,就可以稱之為“大數據”。

無論是云計算還是大數據,都是現代信息技術發展到一定階段的產物,尤其是大數據的出現,使得數據需要通過TB、PB、ZB等進行描述,在豐富了數據信息的同時,對信息的檢索技術也提出了更高的要求,在云計算環境下,想要對大數據進行有效處理,從海量信息中提取出日常所需,就必須加強對信息檢索技術的深入研究[1]。

2 基于云計算的大數據信息檢索技術

2.1 WEB信息收集與檢索

基本上,信息的總量與其價值密度成反比關系,在數以億記的信息頁面中,能夠滿足日常所需的信息也許只有數頁甚至。云計算本身通過對軟硬件資源的共享,具有極強的計算能力,能夠對信息進行快速處理,不過,面對大數據,又如何利用云計算對其中有價值的信息進行挖掘,是需要解決的關鍵性問題。就目前而言,云計算中的大數據信息檢索過程可以分為兩個階段,一是檢索,二是網頁收錄。

在信息檢索云中,所有的服務器都能夠對數據信息進行相應的排序和分析,從中計算出相關度較高的服務器,并將其排在最前面。與此同時,可以針對存儲服務器上存在的信息進行檢索,檢索方式包括了深度優先和廣度優先兩種,檢索到的最終結果可以存儲在Index Repository中,網頁則會直接收錄在索引中。結合索引詞庫以及網頁本身的內容,在索引中進行倒排序,對于存儲在同一個索引中國的網頁標題以及連接數據,可以采用廣度優先的方式進行檢索,而對于存儲在另一個優先級較高的索引中的網頁內容,則可以用深度優先的方式檢索。存在于檢索云服務器中的數據都是經過了分析和整理后的元數據,會按照相關度的高低進行排列,然后結合存儲服務器,展開分布式檢索,檢索的方式不變,檢索結果同樣存儲在Index Repository中。網頁收錄過程存儲于搜索引擎的索引中。當用戶發出搜索請求時,實際上是在Index Repository中進行信息的檢索,頁面內容依照Page Rank的方式編制出倒序檢索列表,放置于存儲器中。頁面標題與連接數據處于同一索引,以廣度優先進行搜索,頁面內容處于另一個索引中,以深度優先進行搜索[2]。

無論是在網頁的收錄過程中,還是用戶發起信息檢索請求的過程中,都會涉及相關度的計算。就目前而言,許多用戶在進行信息檢索時,都會遇到結果顯示緩慢的情況,之所以如此,主要是由搜索引擎中的緩存區域都是事先安排好的,盡管其并不知道用戶可能會搜索哪一個關鍵詞,但是其建立了一個常用關鍵詞的詞庫,在為用戶提供便利的同時,也能夠在一定程度上提高信息檢索的效率。

2.2 檢索過程

(1)搜索請求分析:當用戶打開搜索引擎,輸入關鍵詞,同時點擊搜索提交請求后,網頁上就會顯示出相應的結果。之后,搜索引擎會結合這次搜索請求,進行細致全面的分析以及分詞處理。如果是依照搜索請求進行空格分詞,則一般需要排除掉重復的信息,才能保證搜索結果的準確性;而如果采用的是中文分詞,處理環節會比較麻煩,其主要包括兩種不同的分詞方式,一是匹配字符串,采用的方法有逆向最大匹配法、正向最大匹配法以及最少切分法,搜索引擎會通過模擬人類思維的方式,針對句子進行檢測以及分詞,整合詞語和表達形式,以方便進行理解。在分詞時,通常會首先分析并處理語句的大致意思和語法,避免歧義,由語法子系統、語義子系統以及分詞子系統共同構成控制系統,控制搜索引擎工作;二是如果存在相鄰的詞,中文分詞會將其看作是一個詞,在這種情況下,用戶在輸入關鍵詞時加入的停止詞如“的”、“吧”等,往往會被搜索引擎自動去除。

(2)搜索請求匹配:在對用戶的搜索請求進行分析后,搜索引擎會自動匹配相應的URL,其本身的數量極其巨大,必須結合搜索引擎,依照YRL的匹配程度,進行排序,才能確保結果的有效顯示。系統會自動將分詞后的信息以及網頁本身的Page Rank值同鏈接中的網頁描述信息結合在一起,最終確定檢索排序結果,并顯示在網頁中,從而盡可能確保網頁顯示的內容能夠滿足用戶的實際需求[3]。

3 結語

在云計算背景下,大數據得到了快速發展,海量數據的涌現對于信息檢索技術也提出了更加嚴峻的挑戰。面對著各種智能設備的普及以及不斷增長的用戶需求,相關技術人員應該加強對于大數據信息檢索技術的研究和實踐,不斷對技術進行更新,以滿足用戶對于數據檢索的個性化需求。

[1]吳雪琴,舒曉苓.基于云計算的大數據信息檢索技術研究[J].電腦知識與技術,2014,10(10):2388-2390.

[2]劉月.探究云計算下大數據的信息檢索技術應用[J].數字技術與應用,2015,(7):95.

[3]王曉艷,李慧穎.大數據環境下信息檢索的變革[J].科技情報開發與經濟,2015,(4):117-119.

猜你喜歡
信息檢索搜索引擎用戶
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 一级毛片在线播放免费| 亚洲色图综合在线| 欧美国产综合色视频| 波多野结衣一区二区三视频 | 国产精品自在拍首页视频8| 亚洲欧美日韩中文字幕在线一区| 欧美97色| 高清无码一本到东京热| 欧美精品在线看| 久久久久亚洲av成人网人人软件| 亚洲天堂777| 99在线观看精品视频| 国产大全韩国亚洲一区二区三区| 亚洲综合精品香蕉久久网| 国产精品亚洲一区二区三区z| 免费jjzz在在线播放国产| 伊人久久综在合线亚洲2019| 国产色图在线观看| 国产亚洲欧美日韩在线一区| 波多野结衣一区二区三区四区视频| 亚洲VA中文字幕| 国内熟女少妇一线天| 久久无码av一区二区三区| 无码免费的亚洲视频| 久久精品嫩草研究院| 少妇精品在线| 在线观看国产精美视频| 国产精品白浆无码流出在线看| 四虎影视8848永久精品| 亚洲成A人V欧美综合| 日韩欧美成人高清在线观看| 国产在线小视频| 无遮挡国产高潮视频免费观看| 久久人妻xunleige无码| 久久青青草原亚洲av无码| 国产产在线精品亚洲aavv| 亚洲色精品国产一区二区三区| 女人18毛片一级毛片在线 | 99在线观看视频免费| 欧美成人第一页| 91精品专区国产盗摄| 尤物亚洲最大AV无码网站| 亚洲侵犯无码网址在线观看| 亚洲a免费| 国产区精品高清在线观看| 中国一级毛片免费观看| 九九热视频精品在线| 黄色网址免费在线| 狼友视频一区二区三区| 一区二区在线视频免费观看| 性欧美精品xxxx| 国产一级妓女av网站| 91视频首页| 亚洲中文无码h在线观看| 国产中文一区二区苍井空| 国产91丝袜在线观看| 亚洲人成在线精品| 国产精品网曝门免费视频| 亚洲欧美日韩中文字幕在线一区| 国产精品jizz在线观看软件| 手机精品福利在线观看| 亚洲欧美另类视频| 91久久偷偷做嫩草影院电| 国产内射一区亚洲| 69综合网| 欧美一级大片在线观看| 91久久精品国产| 国产在线视频导航| 8090成人午夜精品| 九色综合伊人久久富二代| 最新无码专区超级碰碰碰| 色婷婷视频在线| 亚洲日韩精品综合在线一区二区| 国产精品视频观看裸模| 国产精品夜夜嗨视频免费视频| 永久成人无码激情视频免费| 成人午夜免费视频| 国产av一码二码三码无码| 亚洲欧美一级一级a| 国产永久免费视频m3u8| 97超碰精品成人国产| 久久精品国产999大香线焦|