999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘技術(shù)在搜索引擎上的應(yīng)用研究

2023-05-24 04:51:46李國海程瀟
科技資訊 2023年8期
關(guān)鍵詞:搜索引擎數(shù)據(jù)挖掘互聯(lián)網(wǎng)

李國海 程瀟

摘要:隨著計(jì)算機(jī)快速發(fā)展,數(shù)字化的生活和溝通方式會(huì)信息的產(chǎn)生與堆積產(chǎn)生大量的數(shù)據(jù),為了將這些大量的數(shù)據(jù)轉(zhuǎn)化成需要的、可以利用的信息和知識,便形成了數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是人工智能和大數(shù)據(jù)的結(jié)合,其可以從大量冗雜混亂的信息挖掘出需要的信息。通過分析、整合、挖掘大量的數(shù)據(jù),可以使人們更加有效地獲得有用的信息,方便了企業(yè)信息流通速度,精簡了商務(wù)管理的過程,使信息的獲取變得高效起來。在搜索引擎上應(yīng)用數(shù)據(jù)挖掘技術(shù)更可以使搜索變?yōu)闃O為方便簡潔。文章先介紹數(shù)據(jù)挖掘和搜索引擎的概念和原理,論述了數(shù)據(jù)挖掘給搜索引擎帶來的方便,為網(wǎng)上的用戶提供了有效的查詢服務(wù),提高了搜索引擎的效率。

關(guān)鍵詞:數(shù)據(jù)挖掘??搜索引擎??互聯(lián)網(wǎng)??web數(shù)據(jù)挖掘

中圖分類號:TP391.3;TP311.13????文獻(xiàn)標(biāo)識碼:A

Research?on?the?Application?of?Data?Mining?Technology?in?Search?Engines

LI?Guohai1???CHENG?Xiao2

(1.Guangxi?Minzu?University,?Nanning?,?Guangxi?Zhuang?Autonomous?Region,?530000?China;2.Hubei?Minzu?University,Enshi,Hubei?Province,445000?China)

Abstract:?With?the?rapid?development?of?computers,?digital?ways?of?life?and?communication?lead?to?the?creation?and?accumulation?of?information,?generating?a?large?amount?of?data.?In?order?to?transform?these?large?amounts?of?data?into?the?information?and?knowledge?we?need?and?can?use,?data?mining?is?formed.?Data?mining?is?a?combination?of?artificial?intelligence?and?big?data,?which?can?mine?the?information?we?need?from?a?large?amount?of?messy?information.?By?analyzing,?integrating,?and?digging?up?large?amounts?of?data,?people?can?get?useful?information?more?effectively,?which?facilitates?the?speed?of?enterprise?information?circulation,?streamlines?the?process?of?business?management,?and?makes?information?acquisition?more?efficient.?Applying?data?mining?technology?to?the?search?engine?can?make?the?search?extremely?convenient?and?concise.?This?article?first?introduces?the?concepts?and?principles?of?data?mining?and?the?search?engine,?and?discusses?the?convenience?brought?by?data?mining?to?search?engines,?provides?effective?query?services?for?online?users,?and?improves?the?efficiency?of?search?engines.

Key?Words:?Data?mining;?Search?engine;?Internet;?Web?data?mining

在20世紀(jì)90年代,數(shù)據(jù)庫系統(tǒng)的大量應(yīng)用、互聯(lián)網(wǎng)技術(shù)的快速發(fā)展、硬件技術(shù)不斷的更新,由此產(chǎn)生了大量的信息,這些信息包括圖像、音頻、文字、視頻等,過多的信息使信息的查詢、整合利用變得極為麻煩,數(shù)據(jù)庫可以存儲(chǔ)數(shù)據(jù),對數(shù)據(jù)進(jìn)行索引和查詢處理等服務(wù),但是無法高效地處理海量的數(shù)據(jù),在這樣的環(huán)境下,數(shù)據(jù)挖掘便由此誕生。數(shù)據(jù)挖掘的出現(xiàn)滿足了用戶對信息高精度、準(zhǔn)確度、高效性的需求,同時(shí)也極大地促進(jìn)了搜索引擎的發(fā)展。目前數(shù)據(jù)挖掘已是搜索引擎的關(guān)鍵技術(shù)之一,文章將在探討搜索引擎的基礎(chǔ)上,對數(shù)據(jù)挖掘進(jìn)行研究,為數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用提出參考。

1?搜索引擎概念及闡述

1.1?搜索引擎的定義

搜索引擎(Search?Engine)是指用戶根據(jù)自己的需求,通過程序固定的算法從互聯(lián)網(wǎng)中提供搜索用戶所需要的信息。搜索引擎是一個(gè)交互式的尋求信息過程,在搜索過程中用戶需要提供自己所要信息的關(guān)鍵部分,然后計(jì)算機(jī)根據(jù)所要信息的關(guān)鍵字等,從互聯(lián)網(wǎng)上通過搜索程序抓取符合相關(guān)條件的信息,然后將符合的信息呈現(xiàn)到搜索用戶面前。在搜索引擎運(yùn)行的過程中需要處于聯(lián)網(wǎng)狀態(tài),它是一種處于互聯(lián)網(wǎng)的應(yīng)用搜索工具,搜索引擎設(shè)計(jì)的目的是為用戶更加方便、快捷地查找利用信息,所得到的信息不僅包括文字、圖片、音頻等[1]。

1.2?搜索引擎的分類

1.2.1?全文搜索引擎

通常人們生活中最常用到的搜索引擎就是全文搜索引擎,全文搜索引擎就是用戶提供搜索的關(guān)鍵信息,然后搜索引擎根據(jù)用戶所提供的信息進(jìn)行搜索檢查。

全文搜索引擎就是我們提供所需要的信息,搜索程序通過數(shù)據(jù)庫進(jìn)行相關(guān)搜索,在數(shù)據(jù)庫找到相關(guān)信息,根據(jù)信息相關(guān)度與權(quán)重,將信息進(jìn)行排列,然后呈現(xiàn)出來。通常這個(gè)權(quán)重與用戶瀏覽量、點(diǎn)擊量成正比,即網(wǎng)上用戶點(diǎn)擊越多、瀏覽越多的信息,在搜索與之相關(guān)的信息的時(shí)候,越容易出現(xiàn)在你的面前。反正點(diǎn)擊越少、瀏覽越少的信息就排名越低[2]。

1.2.2?目錄搜索引擎

目錄,搜索引擎將網(wǎng)上屬性相同的資源信息分類,搜索用戶可以在界面通過搜索引擎已經(jīng)分類好的資源逐步獲得需要的信息。這種搜索引擎不需要用戶的輸入查詢,類似于人們的視頻App,將電影分類,如喜劇片、科幻片等,然后根據(jù)自己的喜好選擇想要看的已經(jīng)分類好的電影[3]。

1.2.3?元搜索引擎

指搜索引擎在接受用戶搜索要求后,在多個(gè)不同的其他搜索引擎上進(jìn)行多元搜索,并將多個(gè)搜索引擎的搜索結(jié)果按照一定規(guī)則排序然后呈現(xiàn)到用戶眼前。

1.3?工作原理

1.3.1?信息的收集

搜索結(jié)果引擎通常會(huì)自動(dòng)派出一個(gè)在網(wǎng)際互聯(lián)網(wǎng)上進(jìn)行收集、抓取搜索信息的應(yīng)用程序,這個(gè)抓取程序一般被人們稱為蜘蛛(spider)。蜘蛛搜索程序引擎會(huì)按照搜索程序中的要求周期性地獲取信息,然后將蜘蛛收集的這些信息全部儲(chǔ)存在一個(gè)搜索程序引擎的蜘蛛數(shù)據(jù)庫里,在蜘蛛抓取這些信息的整個(gè)過程中,搜索程序引擎通過一個(gè)蜘蛛爬行程序搜索爬行尋找到一個(gè)網(wǎng)頁,然后從該頁的網(wǎng)頁開始繼續(xù)搜索爬行尋找到下一頁的網(wǎng)頁,一般會(huì)對某些權(quán)重高的網(wǎng)頁優(yōu)先爬行。在蜘蛛程序爬行的過程中,也會(huì)對爬行獲取的內(nèi)容進(jìn)行重復(fù)的檢查,當(dāng)檢查到大量重復(fù)的內(nèi)容時(shí),有可能就會(huì)停止爬行。此外,爬行程序在運(yùn)到已經(jīng)爬行過的網(wǎng)站也會(huì)停止爬行[4]。

1.3.2?索引的建立

在搜索引擎爬行結(jié)束,完成對互聯(lián)網(wǎng)上信息的收集后,便開始對收集的信息進(jìn)行處理,這個(gè)過程包括對網(wǎng)站信息文字與圖片等信息的提取、網(wǎng)站類型的分類、相同內(nèi)容的刪除等。其中,最為復(fù)雜的是建立索引數(shù)據(jù)庫,搜索引擎程序須要對所獲得的信息進(jìn)行提純處理,即從大量的信息中提取網(wǎng)站信息的關(guān)鍵詞,關(guān)鍵詞是搜索引擎更具網(wǎng)站相關(guān)度算法,對網(wǎng)站信息進(jìn)行大量復(fù)雜計(jì)算的結(jié)果。最后搜索程序?qū)㈥P(guān)鍵詞與網(wǎng)頁進(jìn)行關(guān)聯(lián),完成最后索引數(shù)據(jù)庫的建立。

1.3.3?排序

建立索引數(shù)據(jù)庫后,就搜索引擎就需要給關(guān)鍵詞與所對應(yīng)的網(wǎng)站進(jìn)行排名。排名的先后順序與搜索引擎技術(shù)關(guān)鍵詞與網(wǎng)站的相關(guān)度有關(guān),通常情況下關(guān)聯(lián)度度越高的排名位置越靠前。此外,隨著網(wǎng)上用戶的增多,網(wǎng)站的先后排名還與搜索用戶的點(diǎn)擊量和瀏覽時(shí)間有關(guān),當(dāng)一個(gè)網(wǎng)站的瀏覽量和點(diǎn)擊量高時(shí),其對應(yīng)的排名會(huì)有所提升[5]。

2?搜索引擎上數(shù)據(jù)挖掘過程及步驟

2.1?數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量復(fù)雜、不清楚、繁雜的信息中,尋到挖掘用戶所需要的可以利用的信息。數(shù)據(jù)挖掘的本質(zhì)是對信息的分析提取,從廣泛的信息中提取出有用的信息。

2.2?數(shù)據(jù)挖掘基本步驟

2.2.1?挖掘目標(biāo)與信息收集

在進(jìn)行數(shù)據(jù)挖掘時(shí)需要足夠信息,數(shù)據(jù)挖掘是為了處理大量數(shù)據(jù)而形成的技術(shù),少量的數(shù)據(jù)沒有挖掘的必要,有一個(gè)清楚明確的挖掘?qū)ο笫菙?shù)據(jù)挖掘的前提,只有清楚地知道挖掘?qū)ο螅拍苡行е贫ㄍ诰蚍绞郊八惴ǎ@是能夠很好發(fā)揮數(shù)據(jù)挖掘作用的關(guān)鍵。在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,必須明確挖掘的具體目標(biāo),然后才能進(jìn)一步了解挖掘相關(guān)知識的重點(diǎn),了解挖掘信息的關(guān)鍵內(nèi)容,制定合理的挖掘策略。再者,信息品質(zhì)也會(huì)影響數(shù)據(jù)挖掘的結(jié)果好與壞,高品質(zhì)的信息,會(huì)帶來高品質(zhì)的挖掘結(jié)果。很多錯(cuò)誤的挖掘結(jié)果,大多是信息有誤導(dǎo)致的。

2.2.2?數(shù)據(jù)預(yù)處理

在確定挖掘的對象后,就要開始對挖掘數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理是指對收集到的信息進(jìn)行一個(gè)優(yōu)化加工的過程。

(1)數(shù)據(jù)清理。數(shù)據(jù)挖掘就是類似從垃圾場找到有價(jià)值的東西,因?yàn)閿?shù)據(jù)挖掘收集到的數(shù)據(jù)多而繁雜,甚至部分?jǐn)?shù)據(jù)可能出現(xiàn)重復(fù)、錯(cuò)誤等,如空缺數(shù)據(jù)、噪聲數(shù)據(jù)、不一致數(shù)據(jù)。這些數(shù)據(jù)便須要將其將其清理成系統(tǒng)可以利用的數(shù)據(jù)。例如:將全局常量代替空缺數(shù)據(jù),或者用評價(jià)值代替空缺數(shù)據(jù),對含有噪聲的數(shù)據(jù)用回歸算法等[6]。

(2)數(shù)據(jù)集成。當(dāng)一個(gè)類型的數(shù)據(jù)有多個(gè)數(shù)據(jù)源的時(shí)候,需要對信息進(jìn)行一個(gè)集合處理。以筆者為例,“我的姓名:李國海→英文名字:Liguohai→廣西民族大學(xué)學(xué)號:2020211255001369”,這3個(gè)信息都是指向我的一個(gè)信息,在數(shù)據(jù)的實(shí)體識別上要屬于同一實(shí)體。此外數(shù)據(jù)格式不同的信息和數(shù)據(jù)冗余也要進(jìn)行集合處理,例如:某些信息用“kg”來表示物體的重量,而某些信息來源用“g”或者“斤”等表示物體重量,雖然寫法不同但都是重量的計(jì)量單位。

(3)數(shù)據(jù)規(guī)約。數(shù)據(jù)挖掘的執(zhí)行是一件需要大量時(shí)間的計(jì)算過程,而某些大類型的數(shù)據(jù)更是需要時(shí)間。數(shù)據(jù)規(guī)約是在保證數(shù)據(jù)完整性的條件下,有條件地減少數(shù)據(jù)分析量,加快數(shù)據(jù)挖掘計(jì)算過程,而且對最終產(chǎn)生的結(jié)果幾乎沒有影響。

(4)數(shù)據(jù)變換。數(shù)據(jù)變換也稱數(shù)據(jù)轉(zhuǎn)換,就是將復(fù)雜或者某些不好計(jì)量的數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以識別的高效利用的數(shù)據(jù)。例如:用0來表示性別為男,用1表示性別為女等。

2.2.3?數(shù)據(jù)挖掘算法設(shè)計(jì)

數(shù)據(jù)挖掘的算法設(shè)計(jì)是數(shù)據(jù)挖掘的核心,挖掘目的、挖掘領(lǐng)域的不同,所要用的算法也不同,對不同類型的數(shù)據(jù)要采取的挖掘算法也不盡相同,越是復(fù)雜的知識對于算法的要求也越高。

2.2.4?挖掘評估

對數(shù)據(jù)挖掘的結(jié)果進(jìn)行評估,看挖掘結(jié)果是非達(dá)到預(yù)期目的,如果沒有挖掘出想要的結(jié)果,需要對挖掘算法及數(shù)據(jù)進(jìn)行重新設(shè)計(jì)處理,直到挖掘達(dá)到滿意的結(jié)果[7]。

3?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用

3.1?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用方法

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘也不僅局限于固定的數(shù)據(jù)庫系統(tǒng)里進(jìn)行挖掘,Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用。

數(shù)據(jù)挖掘起初只是用于在固定資料上的數(shù)據(jù)挖掘,類似于人們生活中的在沒有聯(lián)網(wǎng)上的計(jì)算機(jī)系統(tǒng),尋找已經(jīng)儲(chǔ)存事實(shí)上存在的資料。而隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)變得越來越多,人們對于數(shù)據(jù)的儲(chǔ)存方式、利用方式也慢慢發(fā)生改變。在以前人們習(xí)慣將資料存儲(chǔ)在固定的硬盤里面,科技的改革和網(wǎng)絡(luò)的便攜化在網(wǎng)上儲(chǔ)存資料和尋找資料已經(jīng)成為了比較普遍的現(xiàn)象,例如,人們?nèi)粘S^看的視頻都是直接儲(chǔ)存在互聯(lián)網(wǎng)上的,不需要下載在指定的硬盤里,可以通過移動(dòng)網(wǎng)絡(luò)直接利用,對于其他資料也是如此。Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用[8]。Web挖掘是面向萬維網(wǎng)信息挖掘知識提取的過程,互聯(lián)網(wǎng)里面包含著大量的信息,很多信息無法被用戶直接識別利用,這時(shí)便需要對信息進(jìn)行精練和提純,Web挖掘便是對信息進(jìn)行篩選的過程。

3.2?Web挖掘在搜索引擎的子任務(wù)

(1)資源發(fā)現(xiàn):資源發(fā)現(xiàn)是從互聯(lián)網(wǎng)中尋找資源,主要是搜索那些用戶名難以找到與利用的有用信息,這是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)模式下的信息收集過程。

(2)信息提取:從已經(jīng)尋找的資源中,進(jìn)而提取到可以被人們能夠理解利用的信息,這也是數(shù)據(jù)挖掘的核心部分。

(3)概括:對挖掘的信息進(jìn)行系統(tǒng)化的轉(zhuǎn)述,變成人們可以理解利用的信息資源。

總體來說,Web挖掘和數(shù)據(jù)挖掘并沒有區(qū)別,Web挖掘是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上衍生品,是將數(shù)據(jù)挖掘作用于互聯(lián)網(wǎng)上的新技術(shù),數(shù)據(jù)挖掘包含著Web挖掘[9]。

3.3?Web數(shù)據(jù)挖掘搜索引擎中的種類

3.3.1?Web內(nèi)容挖掘

Web內(nèi)容挖掘是指直接挖掘網(wǎng)頁頁面內(nèi)容,以及網(wǎng)頁后臺(tái)、數(shù)據(jù)庫等各個(gè)來源的信息。Web內(nèi)容挖掘是從網(wǎng)站現(xiàn)有的數(shù)據(jù)內(nèi)容中發(fā)現(xiàn)有用的信息。Web內(nèi)容挖掘還可以挖掘各網(wǎng)站之間的結(jié)構(gòu)和鏈接關(guān)系。Web內(nèi)容挖掘有兩大分類,即Web文本挖掘和Web多媒體挖掘。Web文本挖掘是對網(wǎng)頁上的大量文本集合的內(nèi)容進(jìn)行總結(jié)、分析、篩選等。Web多媒體挖掘是指從多媒體數(shù)據(jù)挖掘相關(guān)的內(nèi)容,著寫信息包括音頻、視頻、數(shù)據(jù)和圖像等。目前,Web內(nèi)容挖掘多于Web文本挖掘,相比較Web多媒體挖掘,Web內(nèi)容挖掘更加容易,使用的也更多。在內(nèi)容挖掘上,可以利用文檔上標(biāo)題和開頭提高挖掘的效率和準(zhǔn)確性。

3.3.2?Web日志挖掘

Web日志挖掘也被稱為Web使用記錄挖掘,Web日志挖掘是指通過挖掘服務(wù)器上用戶的使用記錄作為數(shù)據(jù)源,對其進(jìn)行分析作為,從中尋找到有用的信息。這些用戶的使用記錄不僅包含瀏覽地址、頁面、頁面訪問時(shí)間和日期、用戶點(diǎn)擊、存留時(shí)間等。在進(jìn)行日志挖掘時(shí),可以通過兩種方法尋找出使用者的點(diǎn)擊、瀏覽記錄。一類是對日志文件進(jìn)行預(yù)處理,對其進(jìn)行數(shù)據(jù)挖掘;另一種是對用戶點(diǎn)擊過程進(jìn)行收集分析發(fā)現(xiàn)其行為過程。Web日志挖掘可以在大量的樣本基礎(chǔ)上,為用戶提供準(zhǔn)確的參考信息,可以使檢索的結(jié)果向大眾普遍喜好的方向靠攏,對個(gè)性化搜索引擎的方向起到里促進(jìn)的作用。根據(jù)日志挖掘的信息,調(diào)用個(gè)性化的搜索方式,可以有效地提高用戶的搜索滿意度,甚至可以根據(jù)用戶提供的搜索條件和點(diǎn)擊等為用戶提供感興趣的知識與信息等。

3.3.3?Web結(jié)構(gòu)挖掘

信息使用者不僅能從網(wǎng)頁上獲取的信息,也能從超鏈接獲得信息。超鏈接是有一定聯(lián)系的,通過超鏈接用戶可以更大、更廣范圍地尋找有用的信息。但是對于個(gè)人用戶而言更想找到質(zhì)量更高,更加準(zhǔn)確和權(quán)威的信息可利用Web結(jié)構(gòu)挖掘便是對網(wǎng)頁的超鏈接結(jié)構(gòu)進(jìn)行挖掘,有用的信息不僅包含在網(wǎng)站頁面的內(nèi)容中,而且也包含在頁面的鏈接結(jié)構(gòu)之中。對于給定的網(wǎng)站,可以通過結(jié)構(gòu)挖掘發(fā)現(xiàn)其中包含、引用或者從屬關(guān)系。Web結(jié)構(gòu)挖掘主要有以下兩種方法。

4?數(shù)據(jù)挖掘在搜索引擎上的發(fā)展前景與挑戰(zhàn)

4.1?發(fā)展前景

如今信息溝通交流方式以及極為便捷,信息儲(chǔ)存和下載變得廉價(jià)和高效。手機(jī)電腦也由以前的奢侈品,變成人們能夠普遍購買一般消費(fèi)品。在此基礎(chǔ)上,對于搜索引擎也有了更高的要求,即個(gè)性化搜索引擎。在信息化的現(xiàn)代,不同人的之間存在的較大的興趣偏差、文化差異等。不同的瀏覽者對信息和數(shù)據(jù)的要求存在變化,從整體到個(gè)人的角度上看,用戶對信息的需求是隨機(jī)變化的,對于同一搜索結(jié)果,人們的滿意度也是不同的。

個(gè)性化搜索引擎是搜索引擎未來發(fā)展的重要趨勢,個(gè)性化搜索引擎成立的先決條件之一就是個(gè)人用戶數(shù)據(jù)的保留。也就是說保留個(gè)人用戶的活動(dòng)信息,這點(diǎn)現(xiàn)今已經(jīng)能夠做到,例如:通過賬號注冊成為百度用戶,就可以保留自己在搜索器上的活動(dòng)信息,通過保留用戶的活動(dòng)數(shù)據(jù),發(fā)現(xiàn)用戶對于搜索結(jié)果的偏好,提供用戶滿意的結(jié)果,這便是個(gè)性化搜索引擎。

個(gè)性化搜索引擎的形成要求在數(shù)據(jù)挖掘過程中,必選全面地挖掘出各種偏差信息,以滿足不同用戶的差異化需求。在進(jìn)行數(shù)據(jù)挖掘的過程中,加入更多的參數(shù)變化,如瀏覽歷史、偏好、性別等,然后通過關(guān)聯(lián)、分析建立相應(yīng)的模型,實(shí)現(xiàn)針對用戶的全方位挖掘。另外,還可以根據(jù)同類用戶的相同需求進(jìn)行關(guān)聯(lián),建立相應(yīng)的關(guān)聯(lián)數(shù)據(jù)庫,從而優(yōu)化數(shù)據(jù)挖掘的過程[11]。

4.2?未來挑戰(zhàn)

搜索引擎誕生至今已經(jīng)有著很大的進(jìn)步,從前只能用文字搜索,到現(xiàn)在已出現(xiàn)圖片搜索功能,但仍面臨著很多調(diào)整。數(shù)據(jù)挖掘更是搜索引擎的關(guān)鍵技術(shù),一個(gè)好的數(shù)據(jù)挖掘算法可以為用戶更加精準(zhǔn)地提供搜索信息。目前數(shù)據(jù)挖掘在搜索引擎上面臨的挑戰(zhàn)有以下幾點(diǎn)。

4.2.1?數(shù)據(jù)抓取

以前的互聯(lián)網(wǎng)只有小部分人是數(shù)據(jù)的提供者,只有一小部分人產(chǎn)生制作信息,5G技術(shù)的到來意味著信息更加泛濫,人人都能制作信息,小到寫一篇小說,大到拍一個(gè)小視頻等。這便要求數(shù)據(jù)挖掘過程中對信息收集的高效率要求,此外互聯(lián)的信息是流動(dòng)的,一個(gè)信息在一天前是熱點(diǎn),但過一段時(shí)間便會(huì)消散,要信息的權(quán)重比便因此發(fā)生了改變。因此需要時(shí)刻挖掘信息,重新排列權(quán)重比。

4.2.2?海量數(shù)據(jù)的誕生

硬件的更新?lián)Q代,存儲(chǔ)空間的不斷擴(kuò)大,互聯(lián)網(wǎng)上的信息只可能不斷增多。這對于信息的檢索和挖掘帶來巨大的麻煩,一些大型網(wǎng)站上面甚至有千萬級別的頁面,檢索這些頁面變得耗時(shí)、耗力。

5?結(jié)語

搜索引擎是數(shù)據(jù)挖掘集大成者,它們都有著相同的目標(biāo)—為使用者尋找有用的信息,數(shù)據(jù)挖掘?yàn)樗阉饕娴陌l(fā)展提供了借鑒的方向,是搜索引擎的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘應(yīng)用于搜索引擎上可以為搜索引擎提供更加精準(zhǔn)無誤地反饋結(jié)果,也提高了搜索引擎搜索的廣度和深度。

參考文獻(xiàn)

[1] 霍雨佳.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)在智能制造中的應(yīng)用探究[J].數(shù)碼世界,2019,12(2):16-17.

[2] 鄭亦梁.Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究[J].通訊世界,2016,8(5):11-13.

[3] 苗雷.Web數(shù)據(jù)挖掘技術(shù)在信息管理中的應(yīng)用[J].黑龍江科學(xué),2021,15(9):32-33.

[4] 程斐斐,王子牛,侯立鐸.決策樹算法在Weka平臺(tái)上的數(shù)據(jù)挖掘應(yīng)用[J].微型電腦應(yīng)用,2015,6(6):22-24.

[5] 郭偉偉,吳文臣,隋亮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2020,10(8):38-40.

[6] 王彬彬.“互聯(lián)網(wǎng)+”時(shí)代下數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].北京印刷學(xué)院學(xué)報(bào),2021,12(4):41-42.

[7] 劉武萍.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].無線互聯(lián)科技,2022,10(1):3-4.

[8] 王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].計(jì)算機(jī)與網(wǎng)絡(luò),2021,14(20):15-16.

[9] 王春明.在軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用探索[J].科技資訊,2021,12(19):42-44.

[10] 董倩玉.基于傳播學(xué)視角研究搜索引擎的發(fā)展[D].北京:北京外國語大學(xué),2021(6):32-33.

[11] 孫雨生,李沁蕓,劉陽,等.國內(nèi)可視化搜索引擎研究進(jìn)展:領(lǐng)域應(yīng)用與系統(tǒng)實(shí)現(xiàn)[J].圖書館理論與實(shí)踐,2018(3):14-15.

猜你喜歡
搜索引擎數(shù)據(jù)挖掘互聯(lián)網(wǎng)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
今傳媒(2016年9期)2016-10-15 22:06:04
互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
考試周刊(2016年79期)2016-10-13 23:23:28
以高品質(zhì)對農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
中國記者(2016年6期)2016-08-26 12:52:41
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 免费女人18毛片a级毛片视频| 国产在线第二页| 天堂在线www网亚洲| 亚洲aⅴ天堂| 国产在线观看99| 色噜噜狠狠色综合网图区| 国产欧美日韩综合一区在线播放| 久久久噜噜噜久久中文字幕色伊伊 | 黄色网站在线观看无码| 国产成人精品视频一区二区电影| 少妇精品在线| 国产精品污污在线观看网站| 波多野结衣爽到高潮漏水大喷| 真人高潮娇喘嗯啊在线观看| 青青久久91| 国产一二视频| 亚洲人成网站色7799在线播放 | 国产欧美网站| 亚洲AV无码久久天堂| 国产91高跟丝袜| 久久永久精品免费视频| 91丨九色丨首页在线播放 | 成人蜜桃网| 欧美五月婷婷| 欧美亚洲国产精品第一页| 福利视频99| 91精品国产综合久久不国产大片| 午夜一级做a爰片久久毛片| 久久久久久久久亚洲精品| 欧美一区二区人人喊爽| 九一九色国产| 久久久黄色片| 亚洲免费黄色网| 99伊人精品| 国产亚洲精品97AA片在线播放| 香蕉eeww99国产在线观看| 91蝌蚪视频在线观看| 黑人巨大精品欧美一区二区区| 国产香蕉一区二区在线网站| 国产草草影院18成年视频| 欧美在线精品一区二区三区| 日韩精品久久无码中文字幕色欲| 激情国产精品一区| 97国产在线播放| 精品视频一区在线观看| 999国产精品| 国产综合无码一区二区色蜜蜜| 狠狠色丁香婷婷| 国产在线自揄拍揄视频网站| 日本国产在线| 九九久久精品免费观看| 午夜视频日本| 亚洲中文在线视频| 一本色道久久88亚洲综合| 欧美伊人色综合久久天天| 首页亚洲国产丝袜长腿综合| 国产成人成人一区二区| 亚洲资源在线视频| 综合网久久| 国产丰满成熟女性性满足视频| 青青极品在线| 色综合久久88色综合天天提莫| 视频一区视频二区日韩专区| 国产精品护士| 国产一级α片| 国产av一码二码三码无码| 真实国产精品vr专区| 99爱在线| 狠狠干综合| 精品精品国产高清A毛片| 一级毛片免费高清视频| 欧美精品高清| 在线精品亚洲国产| 国产精品无码久久久久久| JIZZ亚洲国产| 久久青草精品一区二区三区| 曰韩免费无码AV一区二区| 亚洲视频在线网| 91蜜芽尤物福利在线观看| 成人国产精品视频频| 亚洲无卡视频| 国产粉嫩粉嫩的18在线播放91|