Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)

2014-04-29 00:00:00馮永珂

消費(fèi)電子·下半月 2014年3期

摘要：文章分析了Web數(shù)據(jù)庫(kù)的概述，以及Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)，探析了以Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)的應(yīng)用。

關(guān)鍵詞：Web數(shù)據(jù)庫(kù)；基礎(chǔ)；數(shù)據(jù)庫(kù)挖掘技術(shù)

中圖分類號(hào)：TP311.13 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-7712 （2014） 06-0000-01

一、前言

隨著經(jīng)濟(jì)的快速發(fā)展，科學(xué)技術(shù)也得到快速的發(fā)展，網(wǎng)絡(luò)技術(shù)也取得了很大進(jìn)步。隨著人們對(duì)信息的需求量的增大，獲取信息的渠道也逐漸向著多樣化的方向發(fā)展，數(shù)據(jù)庫(kù)技術(shù)在此背景下迅速發(fā)展。和傳統(tǒng)的數(shù)據(jù)庫(kù)不同，Web數(shù)據(jù)庫(kù)結(jié)構(gòu)較為復(fù)雜，包含大量的信息資源，要想對(duì)其展開更深層次的研究，需要用到數(shù)據(jù)庫(kù)挖掘技術(shù)。

二、Web數(shù)據(jù)庫(kù)的概述

（一）Web數(shù)據(jù)庫(kù)的概念。Web數(shù)據(jù)庫(kù)挖掘是互聯(lián)網(wǎng)和數(shù)據(jù)挖掘技術(shù)應(yīng)用相結(jié)合的領(lǐng)域，挖掘指的是Web在文檔結(jié)構(gòu)與使用的集合中形成的一種隱含的形式，也就是說(shuō)采集文檔中重要的信息資源，然后將其傳輸?shù)接脩舳耍渲饕墓δ馨ㄝ敵龉δ芘c輸入功能，通過利用計(jì)算機(jī)編程，能夠把輸入的資源進(jìn)行解碼和分析，并通過Web服務(wù)器的端口輸出處理過的數(shù)據(jù)資源，最終通過互聯(lián)網(wǎng)的接口把數(shù)據(jù)資源發(fā)送到相應(yīng)的命令始發(fā)端口。

（二）Web數(shù)據(jù)庫(kù)的類型。通常狀況下，Web數(shù)據(jù)庫(kù)挖掘技術(shù)的類型分為三種：Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘、Web使用記錄挖掘，其中Web結(jié)構(gòu)挖掘指的是從Web的文檔結(jié)構(gòu)、組織結(jié)構(gòu)以及連接關(guān)系中挖掘潛在的模式與知識(shí)，并且系統(tǒng)能夠?qū)?shù)據(jù)模式進(jìn)行智能化分析；Web內(nèi)容挖掘指的是從眾多的Web數(shù)據(jù)中發(fā)現(xiàn)重要信息，并且采集重要信息，然后把采集的重要信息資源以鏈接或者網(wǎng)頁(yè)的形式傳輸出去，通常狀況下，挖掘的內(nèi)容分為多媒體挖掘和文本挖掘，兩者的差別在于提取的方式存在差異，但是最終的展現(xiàn)形式基本相同。

（三）Web數(shù)據(jù)庫(kù)的特點(diǎn)。Web數(shù)據(jù)庫(kù)挖掘技術(shù)的特點(diǎn)主要包括以下幾個(gè)方面：其一，動(dòng)態(tài)性強(qiáng)、具有多樣復(fù)雜性，這中特點(diǎn)主要是由于Web本身是一個(gè)非常龐大而復(fù)雜的模型，數(shù)據(jù)庫(kù)中包含了視頻、音頻、圖像、圖表、超文本數(shù)據(jù)、文本數(shù)據(jù)等眾多數(shù)據(jù)資源；其二，半結(jié)構(gòu)化，其是Web數(shù)據(jù)庫(kù)挖掘的最大特點(diǎn)，由于Web數(shù)據(jù)庫(kù)非常復(fù)雜，沒有特定的模型模數(shù)，但是每一組數(shù)據(jù)資源之間都有屬于自身的程序編碼，其是一種不完全結(jié)構(gòu)化的數(shù)據(jù)資源，因此其是一種半結(jié)構(gòu)化數(shù)據(jù)；其三，分布式數(shù)據(jù)，由于互聯(lián)網(wǎng)上分布著世界各地的Web客戶終端，其覆蓋面積非常廣，形成了分布式數(shù)據(jù)源；其四，導(dǎo)構(gòu)數(shù)據(jù)庫(kù)環(huán)境，Web上的每一個(gè)站點(diǎn)都是一個(gè)數(shù)據(jù)庫(kù)資源，每一個(gè)數(shù)據(jù)庫(kù)資源都是一個(gè)導(dǎo)構(gòu)節(jié)點(diǎn)，由于每個(gè)信息資源的節(jié)點(diǎn)不盡相同，致使每一導(dǎo)構(gòu)節(jié)點(diǎn)上的組織和信息也存在一定的差異，進(jìn)而形成了一個(gè)巨大的導(dǎo)構(gòu)數(shù)據(jù)庫(kù)。

三、Web數(shù)據(jù)庫(kù)中的數(shù)據(jù)庫(kù)挖掘技術(shù)分析

（一）數(shù)據(jù)預(yù)處理。如果沒有高質(zhì)量的數(shù)據(jù)資源，就不會(huì)產(chǎn)生高質(zhì)量的數(shù)據(jù)挖掘效果，也就是說(shuō)數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)挖掘的質(zhì)量。在實(shí)際的Web中，數(shù)據(jù)資源是十分復(fù)雜的，其中既有高質(zhì)量的部分，又有“骯臟”的部分。因此，基于Web數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)在采集信息的過程中，通常會(huì)遇到眾多的問題，例如不一致性，主要是由于命名上出現(xiàn)了許多差異；帶有噪音，主要是由于異常數(shù)據(jù)較多；數(shù)據(jù)不完整，主要是由于一些數(shù)據(jù)缺乏相應(yīng)的屬性值。因此，數(shù)據(jù)預(yù)處理是數(shù)據(jù)庫(kù)挖掘技術(shù)必不可少的內(nèi)容，能夠針對(duì)不一致性、不完整、有噪音的數(shù)據(jù)資源進(jìn)行預(yù)處理，然后在進(jìn)行數(shù)據(jù)的采集，這樣能夠顯著的提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量。

（二）數(shù)據(jù)識(shí)別。數(shù)據(jù)庫(kù)挖掘技術(shù)的數(shù)據(jù)識(shí)別主要是依靠機(jī)器學(xué)習(xí)技術(shù)和統(tǒng)計(jì)法，通過采用挖掘算法識(shí)別數(shù)據(jù)，其中挖掘算法是一種常用的普通統(tǒng)計(jì)方法，例如網(wǎng)頁(yè)瀏覽的時(shí)間、訪問的次數(shù)等，通過序列模式分析。統(tǒng)計(jì)分析等，對(duì)挖掘的數(shù)據(jù)進(jìn)行識(shí)別。此外，關(guān)聯(lián)規(guī)則能夠發(fā)掘客戶對(duì)站點(diǎn)各個(gè)頁(yè)面的訪問關(guān)系，對(duì)用戶的信息進(jìn)行識(shí)別，能夠根據(jù)用戶的需求有目的的進(jìn)行數(shù)據(jù)識(shí)別。通常狀況下，Web數(shù)據(jù)可挖掘技術(shù)的數(shù)據(jù)識(shí)別都是采用統(tǒng)計(jì)方法，如果用戶通過瀏覽器方位Web數(shù)據(jù)庫(kù)站點(diǎn)時(shí)，數(shù)據(jù)庫(kù)挖掘技術(shù)能夠利用既定的模型對(duì)用戶訪問的站點(diǎn)以及訪問關(guān)系進(jìn)行統(tǒng)計(jì)。

（三）模式分析。模式分析的主要任務(wù)是借助操作工具以及技術(shù)手段，對(duì)所挖掘用戶的行為模式進(jìn)行解釋和分析，然后從中選擇出最有價(jià)值、最合理的模式，這樣能夠幫助分析人員理解相應(yīng)的數(shù)據(jù)信息，使挖掘出的所有模式能夠被充分的利用。

四、Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)的應(yīng)用

（一）搜索引擎領(lǐng)域的應(yīng)用。以Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)是搜索引擎領(lǐng)域的關(guān)鍵因素，通常情況下，大多數(shù)的人會(huì)通過使用搜索相關(guān)房爺?shù)姆椒ǐ@取相應(yīng)的信息，因此，數(shù)據(jù)庫(kù)挖掘技術(shù)在搜索引擎領(lǐng)域的應(yīng)用，能夠?qū)崿F(xiàn)對(duì)網(wǎng)頁(yè)進(jìn)行歸類和劃分，進(jìn)而實(shí)現(xiàn)分類網(wǎng)絡(luò)信息的搜索和瀏覽。

（二）電子商務(wù)領(lǐng)域的應(yīng)用。在電子商務(wù)領(lǐng)域中，數(shù)據(jù)庫(kù)挖掘技術(shù)能夠挖掘用戶關(guān)注和訪問的所有信息，然后根據(jù)收集到的信息對(duì)用戶進(jìn)行分類，然后對(duì)用戶的興趣以及特征進(jìn)行分析，更加深入的了解用戶的相關(guān)資料，這樣便于為用戶提供更加全面、便利的服務(wù)。

（三）網(wǎng)站設(shè)計(jì)領(lǐng)域的應(yīng)用。在進(jìn)行網(wǎng)站設(shè)計(jì)時(shí)，采用數(shù)據(jù)庫(kù)挖掘技術(shù)能夠挖掘網(wǎng)站中的重要內(nèi)容，尤其是文本內(nèi)容，能夠更好的進(jìn)行網(wǎng)絡(luò)信息的規(guī)劃和組織，并且能夠銅鼓挖掘網(wǎng)絡(luò)用戶的訪問記錄，及時(shí)、準(zhǔn)確的了解用戶的需求，進(jìn)而制定針對(duì)個(gè)人的網(wǎng)站和信息。

五、結(jié)束語(yǔ)

Web數(shù)據(jù)庫(kù)是目前規(guī)模最大的數(shù)據(jù)信息庫(kù)，為以Web為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)提供了良好的發(fā)展環(huán)境。由于數(shù)據(jù)庫(kù)挖掘技術(shù)顯著的提高信息檢索的效率和準(zhǔn)確性，并且能夠?yàn)榫W(wǎng)站設(shè)計(jì)領(lǐng)域、電子商務(wù)領(lǐng)域、搜索引擎領(lǐng)域等提供個(gè)性化的服務(wù)，致使其具有廣闊的應(yīng)用和發(fā)展前景。

參考文獻(xiàn)：

[1]曾霖.基于 Web 數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)探究[J].軟件，2013（02）：58-59.

[2]艾孜海爾·江艾合買提.基于Web數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)分析[J].科技向?qū)В?012（27）：67.

[3]李春青，李海生.Web數(shù)據(jù)庫(kù)技術(shù)及其發(fā)展趨勢(shì)[J].軟件導(dǎo)刊，2012（02）：155-157.

消費(fèi)電子·下半月2014年3期

消費(fèi)電子·下半月的其它文章: 商務(wù)英語(yǔ)函電文體特征及教學(xué)技巧應(yīng)用; PLC一體化教學(xué)相關(guān)問題探究; 關(guān)于動(dòng)畫設(shè)計(jì)原理課程改革研究探索; 新形勢(shì)下高校就業(yè)工作模式解析; 機(jī)械式汽車安全氣囊可靠性探析; 立體多維教學(xué)模式中教學(xué)設(shè)計(jì)的原則