數(shù)據(jù)挖掘技術(shù)在搜索引擎上的應(yīng)用研究

2023-05-24 04:51:46李國海程瀟

科技資訊 2023年8期

關(guān)鍵詞：搜索引擎數(shù)據(jù)挖掘互聯(lián)網(wǎng)

李國海程瀟

摘要：隨著計(jì)算機(jī)快速發(fā)展，數(shù)字化的生活和溝通方式會(huì)信息的產(chǎn)生與堆積產(chǎn)生大量的數(shù)據(jù)，為了將這些大量的數(shù)據(jù)轉(zhuǎn)化成需要的、可以利用的信息和知識，便形成了數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是人工智能和大數(shù)據(jù)的結(jié)合，其可以從大量冗雜混亂的信息挖掘出需要的信息。通過分析、整合、挖掘大量的數(shù)據(jù)，可以使人們更加有效地獲得有用的信息，方便了企業(yè)信息流通速度，精簡了商務(wù)管理的過程，使信息的獲取變得高效起來。在搜索引擎上應(yīng)用數(shù)據(jù)挖掘技術(shù)更可以使搜索變?yōu)闃O為方便簡潔。文章先介紹數(shù)據(jù)挖掘和搜索引擎的概念和原理，論述了數(shù)據(jù)挖掘給搜索引擎帶來的方便，為網(wǎng)上的用戶提供了有效的查詢服務(wù)，提高了搜索引擎的效率。

關(guān)鍵詞：數(shù)據(jù)挖掘??搜索引擎??互聯(lián)網(wǎng)??web數(shù)據(jù)挖掘

中圖分類號：TP391.3;TP311.13????文獻(xiàn)標(biāo)識碼：A

Research?on?the?Application?of?Data?Mining?Technology?in?Search?Engines

LI?Guohai1???CHENG?Xiao2

（1.Guangxi?Minzu?University，?Nanning?，?Guangxi?Zhuang?Autonomous?Region，?530000?China；2.Hubei?Minzu?University，Enshi，Hubei?Province，445000?China）

Abstract：?With?the?rapid?development?of?computers，?digital?ways?of?life?and?communication?lead?to?the?creation?and?accumulation?of?information，?generating?a?large?amount?of?data.?In?order?to?transform?these?large?amounts?of?data?into?the?information?and?knowledge?we?need?and?can?use，?data?mining?is?formed.?Data?mining?is?a?combination?of?artificial?intelligence?and?big?data，?which?can?mine?the?information?we?need?from?a?large?amount?of?messy?information.?By?analyzing，?integrating，?and?digging?up?large?amounts?of?data，?people?can?get?useful?information?more?effectively，?which?facilitates?the?speed?of?enterprise?information?circulation，?streamlines?the?process?of?business?management，?and?makes?information?acquisition?more?efficient.?Applying?data?mining?technology?to?the?search?engine?can?make?the?search?extremely?convenient?and?concise.?This?article?first?introduces?the?concepts?and?principles?of?data?mining?and?the?search?engine，?and?discusses?the?convenience?brought?by?data?mining?to?search?engines，?provides?effective?query?services?for?online?users，?and?improves?the?efficiency?of?search?engines.

Key?Words：?Data?mining;?Search?engine;?Internet;?Web?data?mining

在20世紀(jì)90年代，數(shù)據(jù)庫系統(tǒng)的大量應(yīng)用、互聯(lián)網(wǎng)技術(shù)的快速發(fā)展、硬件技術(shù)不斷的更新，由此產(chǎn)生了大量的信息，這些信息包括圖像、音頻、文字、視頻等，過多的信息使信息的查詢、整合利用變得極為麻煩，數(shù)據(jù)庫可以存儲(chǔ)數(shù)據(jù)，對數(shù)據(jù)進(jìn)行索引和查詢處理等服務(wù)，但是無法高效地處理海量的數(shù)據(jù)，在這樣的環(huán)境下，數(shù)據(jù)挖掘便由此誕生。數(shù)據(jù)挖掘的出現(xiàn)滿足了用戶對信息高精度、準(zhǔn)確度、高效性的需求，同時(shí)也極大地促進(jìn)了搜索引擎的發(fā)展。目前數(shù)據(jù)挖掘已是搜索引擎的關(guān)鍵技術(shù)之一，文章將在探討搜索引擎的基礎(chǔ)上，對數(shù)據(jù)挖掘進(jìn)行研究，為數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用提出參考。

1?搜索引擎概念及闡述

1.1?搜索引擎的定義

搜索引擎（Search?Engine）是指用戶根據(jù)自己的需求，通過程序固定的算法從互聯(lián)網(wǎng)中提供搜索用戶所需要的信息。搜索引擎是一個(gè)交互式的尋求信息過程，在搜索過程中用戶需要提供自己所要信息的關(guān)鍵部分，然后計(jì)算機(jī)根據(jù)所要信息的關(guān)鍵字等，從互聯(lián)網(wǎng)上通過搜索程序抓取符合相關(guān)條件的信息，然后將符合的信息呈現(xiàn)到搜索用戶面前。在搜索引擎運(yùn)行的過程中需要處于聯(lián)網(wǎng)狀態(tài)，它是一種處于互聯(lián)網(wǎng)的應(yīng)用搜索工具，搜索引擎設(shè)計(jì)的目的是為用戶更加方便、快捷地查找利用信息，所得到的信息不僅包括文字、圖片、音頻等[1]。

1.2?搜索引擎的分類

1.2.1?全文搜索引擎

通常人們生活中最常用到的搜索引擎就是全文搜索引擎，全文搜索引擎就是用戶提供搜索的關(guān)鍵信息，然后搜索引擎根據(jù)用戶所提供的信息進(jìn)行搜索檢查。

全文搜索引擎就是我們提供所需要的信息，搜索程序通過數(shù)據(jù)庫進(jìn)行相關(guān)搜索，在數(shù)據(jù)庫找到相關(guān)信息，根據(jù)信息相關(guān)度與權(quán)重，將信息進(jìn)行排列，然后呈現(xiàn)出來。通常這個(gè)權(quán)重與用戶瀏覽量、點(diǎn)擊量成正比，即網(wǎng)上用戶點(diǎn)擊越多、瀏覽越多的信息，在搜索與之相關(guān)的信息的時(shí)候，越容易出現(xiàn)在你的面前。反正點(diǎn)擊越少、瀏覽越少的信息就排名越低[2]。

1.2.2?目錄搜索引擎

目錄，搜索引擎將網(wǎng)上屬性相同的資源信息分類，搜索用戶可以在界面通過搜索引擎已經(jīng)分類好的資源逐步獲得需要的信息。這種搜索引擎不需要用戶的輸入查詢，類似于人們的視頻App，將電影分類，如喜劇片、科幻片等，然后根據(jù)自己的喜好選擇想要看的已經(jīng)分類好的電影[3]。

1.2.3?元搜索引擎

指搜索引擎在接受用戶搜索要求后，在多個(gè)不同的其他搜索引擎上進(jìn)行多元搜索，并將多個(gè)搜索引擎的搜索結(jié)果按照一定規(guī)則排序然后呈現(xiàn)到用戶眼前。

1.3?工作原理

1.3.1?信息的收集

搜索結(jié)果引擎通常會(huì)自動(dòng)派出一個(gè)在網(wǎng)際互聯(lián)網(wǎng)上進(jìn)行收集、抓取搜索信息的應(yīng)用程序，這個(gè)抓取程序一般被人們稱為蜘蛛（spider）。蜘蛛搜索程序引擎會(huì)按照搜索程序中的要求周期性地獲取信息，然后將蜘蛛收集的這些信息全部儲(chǔ)存在一個(gè)搜索程序引擎的蜘蛛數(shù)據(jù)庫里，在蜘蛛抓取這些信息的整個(gè)過程中，搜索程序引擎通過一個(gè)蜘蛛爬行程序搜索爬行尋找到一個(gè)網(wǎng)頁，然后從該頁的網(wǎng)頁開始繼續(xù)搜索爬行尋找到下一頁的網(wǎng)頁，一般會(huì)對某些權(quán)重高的網(wǎng)頁優(yōu)先爬行。在蜘蛛程序爬行的過程中，也會(huì)對爬行獲取的內(nèi)容進(jìn)行重復(fù)的檢查，當(dāng)檢查到大量重復(fù)的內(nèi)容時(shí)，有可能就會(huì)停止爬行。此外，爬行程序在運(yùn)到已經(jīng)爬行過的網(wǎng)站也會(huì)停止爬行[4]。

1.3.2?索引的建立

在搜索引擎爬行結(jié)束，完成對互聯(lián)網(wǎng)上信息的收集后，便開始對收集的信息進(jìn)行處理，這個(gè)過程包括對網(wǎng)站信息文字與圖片等信息的提取、網(wǎng)站類型的分類、相同內(nèi)容的刪除等。其中，最為復(fù)雜的是建立索引數(shù)據(jù)庫，搜索引擎程序須要對所獲得的信息進(jìn)行提純處理，即從大量的信息中提取網(wǎng)站信息的關(guān)鍵詞，關(guān)鍵詞是搜索引擎更具網(wǎng)站相關(guān)度算法，對網(wǎng)站信息進(jìn)行大量復(fù)雜計(jì)算的結(jié)果。最后搜索程序?qū)㈥P(guān)鍵詞與網(wǎng)頁進(jìn)行關(guān)聯(lián)，完成最后索引數(shù)據(jù)庫的建立。

1.3.3?排序

建立索引數(shù)據(jù)庫后，就搜索引擎就需要給關(guān)鍵詞與所對應(yīng)的網(wǎng)站進(jìn)行排名。排名的先后順序與搜索引擎技術(shù)關(guān)鍵詞與網(wǎng)站的相關(guān)度有關(guān)，通常情況下關(guān)聯(lián)度度越高的排名位置越靠前。此外，隨著網(wǎng)上用戶的增多，網(wǎng)站的先后排名還與搜索用戶的點(diǎn)擊量和瀏覽時(shí)間有關(guān)，當(dāng)一個(gè)網(wǎng)站的瀏覽量和點(diǎn)擊量高時(shí)，其對應(yīng)的排名會(huì)有所提升[5]。

2?搜索引擎上數(shù)據(jù)挖掘過程及步驟

2.1?數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是指從大量復(fù)雜、不清楚、繁雜的信息中，尋到挖掘用戶所需要的可以利用的信息。數(shù)據(jù)挖掘的本質(zhì)是對信息的分析提取，從廣泛的信息中提取出有用的信息。

2.2?數(shù)據(jù)挖掘基本步驟

2.2.1?挖掘目標(biāo)與信息收集

在進(jìn)行數(shù)據(jù)挖掘時(shí)需要足夠信息，數(shù)據(jù)挖掘是為了處理大量數(shù)據(jù)而形成的技術(shù)，少量的數(shù)據(jù)沒有挖掘的必要，有一個(gè)清楚明確的挖掘?qū)ο笫菙?shù)據(jù)挖掘的前提，只有清楚地知道挖掘?qū)ο螅拍苡行е贫ㄍ诰蚍绞郊八惴ǎ@是能夠很好發(fā)揮數(shù)據(jù)挖掘作用的關(guān)鍵。在進(jìn)行數(shù)據(jù)挖掘的時(shí)候，必須明確挖掘的具體目標(biāo)，然后才能進(jìn)一步了解挖掘相關(guān)知識的重點(diǎn)，了解挖掘信息的關(guān)鍵內(nèi)容，制定合理的挖掘策略。再者，信息品質(zhì)也會(huì)影響數(shù)據(jù)挖掘的結(jié)果好與壞，高品質(zhì)的信息，會(huì)帶來高品質(zhì)的挖掘結(jié)果。很多錯(cuò)誤的挖掘結(jié)果，大多是信息有誤導(dǎo)致的。

2.2.2?數(shù)據(jù)預(yù)處理

在確定挖掘的對象后，就要開始對挖掘數(shù)據(jù)進(jìn)行預(yù)處理，數(shù)據(jù)預(yù)處理是指對收集到的信息進(jìn)行一個(gè)優(yōu)化加工的過程。

（1）數(shù)據(jù)清理。數(shù)據(jù)挖掘就是類似從垃圾場找到有價(jià)值的東西，因?yàn)閿?shù)據(jù)挖掘收集到的數(shù)據(jù)多而繁雜，甚至部分?jǐn)?shù)據(jù)可能出現(xiàn)重復(fù)、錯(cuò)誤等，如空缺數(shù)據(jù)、噪聲數(shù)據(jù)、不一致數(shù)據(jù)。這些數(shù)據(jù)便須要將其將其清理成系統(tǒng)可以利用的數(shù)據(jù)。例如：將全局常量代替空缺數(shù)據(jù)，或者用評價(jià)值代替空缺數(shù)據(jù)，對含有噪聲的數(shù)據(jù)用回歸算法等[6]。

（2）數(shù)據(jù)集成。當(dāng)一個(gè)類型的數(shù)據(jù)有多個(gè)數(shù)據(jù)源的時(shí)候，需要對信息進(jìn)行一個(gè)集合處理。以筆者為例，“我的姓名：李國海→英文名字：Liguohai→廣西民族大學(xué)學(xué)號：2020211255001369”，這3個(gè)信息都是指向我的一個(gè)信息，在數(shù)據(jù)的實(shí)體識別上要屬于同一實(shí)體。此外數(shù)據(jù)格式不同的信息和數(shù)據(jù)冗余也要進(jìn)行集合處理，例如：某些信息用“kg”來表示物體的重量，而某些信息來源用“g”或者“斤”等表示物體重量，雖然寫法不同但都是重量的計(jì)量單位。

（3）數(shù)據(jù)規(guī)約。數(shù)據(jù)挖掘的執(zhí)行是一件需要大量時(shí)間的計(jì)算過程，而某些大類型的數(shù)據(jù)更是需要時(shí)間。數(shù)據(jù)規(guī)約是在保證數(shù)據(jù)完整性的條件下，有條件地減少數(shù)據(jù)分析量，加快數(shù)據(jù)挖掘計(jì)算過程，而且對最終產(chǎn)生的結(jié)果幾乎沒有影響。

（4）數(shù)據(jù)變換。數(shù)據(jù)變換也稱數(shù)據(jù)轉(zhuǎn)換，就是將復(fù)雜或者某些不好計(jì)量的數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以識別的高效利用的數(shù)據(jù)。例如：用0來表示性別為男，用1表示性別為女等。

2.2.3?數(shù)據(jù)挖掘算法設(shè)計(jì)

數(shù)據(jù)挖掘的算法設(shè)計(jì)是數(shù)據(jù)挖掘的核心，挖掘目的、挖掘領(lǐng)域的不同，所要用的算法也不同，對不同類型的數(shù)據(jù)要采取的挖掘算法也不盡相同，越是復(fù)雜的知識對于算法的要求也越高。

2.2.4?挖掘評估

對數(shù)據(jù)挖掘的結(jié)果進(jìn)行評估，看挖掘結(jié)果是非達(dá)到預(yù)期目的，如果沒有挖掘出想要的結(jié)果，需要對挖掘算法及數(shù)據(jù)進(jìn)行重新設(shè)計(jì)處理，直到挖掘達(dá)到滿意的結(jié)果[7]。

3?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用

3.1?數(shù)據(jù)挖掘在搜索引擎上的應(yīng)用方法

隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步，數(shù)據(jù)挖掘也不僅局限于固定的數(shù)據(jù)庫系統(tǒng)里進(jìn)行挖掘，Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用。

數(shù)據(jù)挖掘起初只是用于在固定資料上的數(shù)據(jù)挖掘，類似于人們生活中的在沒有聯(lián)網(wǎng)上的計(jì)算機(jī)系統(tǒng)，尋找已經(jīng)儲(chǔ)存事實(shí)上存在的資料。而隨著互聯(lián)網(wǎng)的發(fā)展，數(shù)據(jù)變得越來越多，人們對于數(shù)據(jù)的儲(chǔ)存方式、利用方式也慢慢發(fā)生改變。在以前人們習(xí)慣將資料存儲(chǔ)在固定的硬盤里面，科技的改革和網(wǎng)絡(luò)的便攜化在網(wǎng)上儲(chǔ)存資料和尋找資料已經(jīng)成為了比較普遍的現(xiàn)象，例如，人們?nèi)粘Ｓ^看的視頻都是直接儲(chǔ)存在互聯(lián)網(wǎng)上的，不需要下載在指定的硬盤里，可以通過移動(dòng)網(wǎng)絡(luò)直接利用，對于其他資料也是如此。Web挖掘便是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上的應(yīng)用[8]。Web挖掘是面向萬維網(wǎng)信息挖掘知識提取的過程，互聯(lián)網(wǎng)里面包含著大量的信息，很多信息無法被用戶直接識別利用，這時(shí)便需要對信息進(jìn)行精練和提純，Web挖掘便是對信息進(jìn)行篩選的過程。

3.2?Web挖掘在搜索引擎的子任務(wù)

（1）資源發(fā)現(xiàn)：資源發(fā)現(xiàn)是從互聯(lián)網(wǎng)中尋找資源，主要是搜索那些用戶名難以找到與利用的有用信息，這是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)模式下的信息收集過程。

（2）信息提取：從已經(jīng)尋找的資源中，進(jìn)而提取到可以被人們能夠理解利用的信息，這也是數(shù)據(jù)挖掘的核心部分。

（3）概括：對挖掘的信息進(jìn)行系統(tǒng)化的轉(zhuǎn)述，變成人們可以理解利用的信息資源。

總體來說，Web挖掘和數(shù)據(jù)挖掘并沒有區(qū)別，Web挖掘是數(shù)據(jù)挖掘在互聯(lián)網(wǎng)上衍生品，是將數(shù)據(jù)挖掘作用于互聯(lián)網(wǎng)上的新技術(shù)，數(shù)據(jù)挖掘包含著Web挖掘[9]。

3.3?Web數(shù)據(jù)挖掘搜索引擎中的種類

3.3.1?Web內(nèi)容挖掘

Web內(nèi)容挖掘是指直接挖掘網(wǎng)頁頁面內(nèi)容，以及網(wǎng)頁后臺(tái)、數(shù)據(jù)庫等各個(gè)來源的信息。Web內(nèi)容挖掘是從網(wǎng)站現(xiàn)有的數(shù)據(jù)內(nèi)容中發(fā)現(xiàn)有用的信息。Web內(nèi)容挖掘還可以挖掘各網(wǎng)站之間的結(jié)構(gòu)和鏈接關(guān)系。Web內(nèi)容挖掘有兩大分類，即Web文本挖掘和Web多媒體挖掘。Web文本挖掘是對網(wǎng)頁上的大量文本集合的內(nèi)容進(jìn)行總結(jié)、分析、篩選等。Web多媒體挖掘是指從多媒體數(shù)據(jù)挖掘相關(guān)的內(nèi)容，著寫信息包括音頻、視頻、數(shù)據(jù)和圖像等。目前，Web內(nèi)容挖掘多于Web文本挖掘，相比較Web多媒體挖掘，Web內(nèi)容挖掘更加容易，使用的也更多。在內(nèi)容挖掘上，可以利用文檔上標(biāo)題和開頭提高挖掘的效率和準(zhǔn)確性。

3.3.2?Web日志挖掘

Web日志挖掘也被稱為Web使用記錄挖掘，Web日志挖掘是指通過挖掘服務(wù)器上用戶的使用記錄作為數(shù)據(jù)源，對其進(jìn)行分析作為，從中尋找到有用的信息。這些用戶的使用記錄不僅包含瀏覽地址、頁面、頁面訪問時(shí)間和日期、用戶點(diǎn)擊、存留時(shí)間等。在進(jìn)行日志挖掘時(shí)，可以通過兩種方法尋找出使用者的點(diǎn)擊、瀏覽記錄。一類是對日志文件進(jìn)行預(yù)處理，對其進(jìn)行數(shù)據(jù)挖掘；另一種是對用戶點(diǎn)擊過程進(jìn)行收集分析發(fā)現(xiàn)其行為過程。Web日志挖掘可以在大量的樣本基礎(chǔ)上，為用戶提供準(zhǔn)確的參考信息，可以使檢索的結(jié)果向大眾普遍喜好的方向靠攏，對個(gè)性化搜索引擎的方向起到里促進(jìn)的作用。根據(jù)日志挖掘的信息，調(diào)用個(gè)性化的搜索方式，可以有效地提高用戶的搜索滿意度，甚至可以根據(jù)用戶提供的搜索條件和點(diǎn)擊等為用戶提供感興趣的知識與信息等。

3.3.3?Web結(jié)構(gòu)挖掘

信息使用者不僅能從網(wǎng)頁上獲取的信息，也能從超鏈接獲得信息。超鏈接是有一定聯(lián)系的，通過超鏈接用戶可以更大、更廣范圍地尋找有用的信息。但是對于個(gè)人用戶而言更想找到質(zhì)量更高，更加準(zhǔn)確和權(quán)威的信息可利用Web結(jié)構(gòu)挖掘便是對網(wǎng)頁的超鏈接結(jié)構(gòu)進(jìn)行挖掘，有用的信息不僅包含在網(wǎng)站頁面的內(nèi)容中，而且也包含在頁面的鏈接結(jié)構(gòu)之中。對于給定的網(wǎng)站，可以通過結(jié)構(gòu)挖掘發(fā)現(xiàn)其中包含、引用或者從屬關(guān)系。Web結(jié)構(gòu)挖掘主要有以下兩種方法。

4?數(shù)據(jù)挖掘在搜索引擎上的發(fā)展前景與挑戰(zhàn)

4.1?發(fā)展前景

如今信息溝通交流方式以及極為便捷，信息儲(chǔ)存和下載變得廉價(jià)和高效。手機(jī)電腦也由以前的奢侈品，變成人們能夠普遍購買一般消費(fèi)品。在此基礎(chǔ)上，對于搜索引擎也有了更高的要求，即個(gè)性化搜索引擎。在信息化的現(xiàn)代，不同人的之間存在的較大的興趣偏差、文化差異等。不同的瀏覽者對信息和數(shù)據(jù)的要求存在變化，從整體到個(gè)人的角度上看，用戶對信息的需求是隨機(jī)變化的，對于同一搜索結(jié)果，人們的滿意度也是不同的。

個(gè)性化搜索引擎是搜索引擎未來發(fā)展的重要趨勢，個(gè)性化搜索引擎成立的先決條件之一就是個(gè)人用戶數(shù)據(jù)的保留。也就是說保留個(gè)人用戶的活動(dòng)信息，這點(diǎn)現(xiàn)今已經(jīng)能夠做到，例如：通過賬號注冊成為百度用戶，就可以保留自己在搜索器上的活動(dòng)信息，通過保留用戶的活動(dòng)數(shù)據(jù)，發(fā)現(xiàn)用戶對于搜索結(jié)果的偏好，提供用戶滿意的結(jié)果，這便是個(gè)性化搜索引擎。

個(gè)性化搜索引擎的形成要求在數(shù)據(jù)挖掘過程中，必選全面地挖掘出各種偏差信息，以滿足不同用戶的差異化需求。在進(jìn)行數(shù)據(jù)挖掘的過程中，加入更多的參數(shù)變化，如瀏覽歷史、偏好、性別等，然后通過關(guān)聯(lián)、分析建立相應(yīng)的模型，實(shí)現(xiàn)針對用戶的全方位挖掘。另外，還可以根據(jù)同類用戶的相同需求進(jìn)行關(guān)聯(lián)，建立相應(yīng)的關(guān)聯(lián)數(shù)據(jù)庫，從而優(yōu)化數(shù)據(jù)挖掘的過程[11]。

4.2?未來挑戰(zhàn)

搜索引擎誕生至今已經(jīng)有著很大的進(jìn)步，從前只能用文字搜索，到現(xiàn)在已出現(xiàn)圖片搜索功能，但仍面臨著很多調(diào)整。數(shù)據(jù)挖掘更是搜索引擎的關(guān)鍵技術(shù)，一個(gè)好的數(shù)據(jù)挖掘算法可以為用戶更加精準(zhǔn)地提供搜索信息。目前數(shù)據(jù)挖掘在搜索引擎上面臨的挑戰(zhàn)有以下幾點(diǎn)。

4.2.1?數(shù)據(jù)抓取

以前的互聯(lián)網(wǎng)只有小部分人是數(shù)據(jù)的提供者，只有一小部分人產(chǎn)生制作信息，5G技術(shù)的到來意味著信息更加泛濫，人人都能制作信息，小到寫一篇小說，大到拍一個(gè)小視頻等。這便要求數(shù)據(jù)挖掘過程中對信息收集的高效率要求，此外互聯(lián)的信息是流動(dòng)的，一個(gè)信息在一天前是熱點(diǎn)，但過一段時(shí)間便會(huì)消散，要信息的權(quán)重比便因此發(fā)生了改變。因此需要時(shí)刻挖掘信息，重新排列權(quán)重比。

4.2.2?海量數(shù)據(jù)的誕生

硬件的更新?lián)Q代，存儲(chǔ)空間的不斷擴(kuò)大，互聯(lián)網(wǎng)上的信息只可能不斷增多。這對于信息的檢索和挖掘帶來巨大的麻煩，一些大型網(wǎng)站上面甚至有千萬級別的頁面，檢索這些頁面變得耗時(shí)、耗力。

5?結(jié)語

搜索引擎是數(shù)據(jù)挖掘集大成者，它們都有著相同的目標(biāo)—為使用者尋找有用的信息，數(shù)據(jù)挖掘?yàn)樗阉饕娴陌l(fā)展提供了借鑒的方向，是搜索引擎的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘應(yīng)用于搜索引擎上可以為搜索引擎提供更加精準(zhǔn)無誤地反饋結(jié)果，也提高了搜索引擎搜索的廣度和深度。

參考文獻(xiàn)

[1] 霍雨佳.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)在智能制造中的應(yīng)用探究[J].數(shù)碼世界，2019，12（2）：16-17.

[2] 鄭亦梁.Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究[J].通訊世界，2016，8（5）：11-13.

[3] 苗雷.Web數(shù)據(jù)挖掘技術(shù)在信息管理中的應(yīng)用[J].黑龍江科學(xué)，2021，15（9）：32-33.

[4] 程斐斐，王子牛，侯立鐸.決策樹算法在Weka平臺(tái)上的數(shù)據(jù)挖掘應(yīng)用[J].微型電腦應(yīng)用，2015，6（6）：22-24.

[5] 郭偉偉，吳文臣，隋亮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用，2020，10（8）：38-40.

[6] 王彬彬.“互聯(lián)網(wǎng)+”時(shí)代下數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].北京印刷學(xué)院學(xué)報(bào)，2021，12（4）：41-42.

[7] 劉武萍.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].無線互聯(lián)科技，2022，10（1）：3-4.

[8] 王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].計(jì)算機(jī)與網(wǎng)絡(luò)，2021，14（20）：15-16.

[9] 王春明.在軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用探索[J].科技資訊，2021，12（19）：42-44.

[10] 董倩玉.基于傳播學(xué)視角研究搜索引擎的發(fā)展[D].北京：北京外國語大學(xué)，2021（6）：32-33.

[11] 孫雨生，李沁蕓，劉陽，等.國內(nèi)可視化搜索引擎研究進(jìn)展：領(lǐng)域應(yīng)用與系統(tǒng)實(shí)現(xiàn)[J].圖書館理論與實(shí)踐，2018（3）：14-15.