摘 要:文章分析了Web數(shù)據(jù)庫(kù)的概述,以及Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù),探析了以Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)的應(yīng)用。
關(guān)鍵詞:Web數(shù)據(jù)庫(kù);基礎(chǔ);數(shù)據(jù)庫(kù)挖掘技術(shù)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2014) 06-0000-01
一、前言
隨著經(jīng)濟(jì)的快速發(fā)展,科學(xué)技術(shù)也得到快速的發(fā)展,網(wǎng)絡(luò)技術(shù)也取得了很大進(jìn)步。隨著人們對(duì)信息的需求量的增大,獲取信息的渠道也逐漸向著多樣化的方向發(fā)展,數(shù)據(jù)庫(kù)技術(shù)在此背景下迅速發(fā)展。和傳統(tǒng)的數(shù)據(jù)庫(kù)不同,Web數(shù)據(jù)庫(kù)結(jié)構(gòu)較為復(fù)雜,包含大量的信息資源,要想對(duì)其展開更深層次的研究,需要用到數(shù)據(jù)庫(kù)挖掘技術(shù)。
二、Web數(shù)據(jù)庫(kù)的概述
(一)Web數(shù)據(jù)庫(kù)的概念。Web數(shù)據(jù)庫(kù)挖掘是互聯(lián)網(wǎng)和數(shù)據(jù)挖掘技術(shù)應(yīng)用相結(jié)合的領(lǐng)域,挖掘指的是Web在文檔結(jié)構(gòu)與使用的集合中形成的一種隱含的形式,也就是說(shuō)采集文檔中重要的信息資源,然后將其傳輸?shù)接脩舳耍渲饕墓δ馨ㄝ敵龉δ芘c輸入功能,通過利用計(jì)算機(jī)編程,能夠把輸入的資源進(jìn)行解碼和分析,并通過Web服務(wù)器的端口輸出處理過的數(shù)據(jù)資源,最終通過互聯(lián)網(wǎng)的接口把數(shù)據(jù)資源發(fā)送到相應(yīng)的命令始發(fā)端口。
(二)Web數(shù)據(jù)庫(kù)的類型。通常狀況下,Web數(shù)據(jù)庫(kù)挖掘技術(shù)的類型分為三種:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘、Web使用記錄挖掘,其中Web結(jié)構(gòu)挖掘指的是從Web的文檔結(jié)構(gòu)、組織結(jié)構(gòu)以及連接關(guān)系中挖掘潛在的模式與知識(shí),并且系統(tǒng)能夠?qū)?shù)據(jù)模式進(jìn)行智能化分析;Web內(nèi)容挖掘指的是從眾多的Web數(shù)據(jù)中發(fā)現(xiàn)重要信息,并且采集重要信息,然后把采集的重要信息資源以鏈接或者網(wǎng)頁(yè)的形式傳輸出去,通常狀況下,挖掘的內(nèi)容分為多媒體挖掘和文本挖掘,兩者的差別在于提取的方式存在差異,但是最終的展現(xiàn)形式基本相同。
(三)Web數(shù)據(jù)庫(kù)的特點(diǎn)。Web數(shù)據(jù)庫(kù)挖掘技術(shù)的特點(diǎn)主要包括以下幾個(gè)方面:其一,動(dòng)態(tài)性強(qiáng)、具有多樣復(fù)雜性,這中特點(diǎn)主要是由于Web本身是一個(gè)非常龐大而復(fù)雜的模型,數(shù)據(jù)庫(kù)中包含了視頻、音頻、圖像、圖表、超文本數(shù)據(jù)、文本數(shù)據(jù)等眾多數(shù)據(jù)資源;其二,半結(jié)構(gòu)化,其是Web數(shù)據(jù)庫(kù)挖掘的最大特點(diǎn),由于Web數(shù)據(jù)庫(kù)非常復(fù)雜,沒有特定的模型模數(shù),但是每一組數(shù)據(jù)資源之間都有屬于自身的程序編碼,其是一種不完全結(jié)構(gòu)化的數(shù)據(jù)資源,因此其是一種半結(jié)構(gòu)化數(shù)據(jù);其三,分布式數(shù)據(jù),由于互聯(lián)網(wǎng)上分布著世界各地的Web客戶終端,其覆蓋面積非常廣,形成了分布式數(shù)據(jù)源;其四,導(dǎo)構(gòu)數(shù)據(jù)庫(kù)環(huán)境,Web上的每一個(gè)站點(diǎn)都是一個(gè)數(shù)據(jù)庫(kù)資源,每一個(gè)數(shù)據(jù)庫(kù)資源都是一個(gè)導(dǎo)構(gòu)節(jié)點(diǎn),由于每個(gè)信息資源的節(jié)點(diǎn)不盡相同,致使每一導(dǎo)構(gòu)節(jié)點(diǎn)上的組織和信息也存在一定的差異,進(jìn)而形成了一個(gè)巨大的導(dǎo)構(gòu)數(shù)據(jù)庫(kù)。
三、Web數(shù)據(jù)庫(kù)中的數(shù)據(jù)庫(kù)挖掘技術(shù)分析
(一)數(shù)據(jù)預(yù)處理。如果沒有高質(zhì)量的數(shù)據(jù)資源,就不會(huì)產(chǎn)生高質(zhì)量的數(shù)據(jù)挖掘效果,也就是說(shuō)數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)挖掘的質(zhì)量。在實(shí)際的Web中,數(shù)據(jù)資源是十分復(fù)雜的,其中既有高質(zhì)量的部分,又有“骯臟”的部分。因此,基于Web數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)在采集信息的過程中,通常會(huì)遇到眾多的問題,例如不一致性,主要是由于命名上出現(xiàn)了許多差異;帶有噪音,主要是由于異常數(shù)據(jù)較多;數(shù)據(jù)不完整,主要是由于一些數(shù)據(jù)缺乏相應(yīng)的屬性值。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)庫(kù)挖掘技術(shù)必不可少的內(nèi)容,能夠針對(duì)不一致性、不完整、有噪音的數(shù)據(jù)資源進(jìn)行預(yù)處理,然后在進(jìn)行數(shù)據(jù)的采集,這樣能夠顯著的提高數(shù)據(jù)挖掘?qū)ο蟮馁|(zhì)量。
(二)數(shù)據(jù)識(shí)別。數(shù)據(jù)庫(kù)挖掘技術(shù)的數(shù)據(jù)識(shí)別主要是依靠機(jī)器學(xué)習(xí)技術(shù)和統(tǒng)計(jì)法,通過采用挖掘算法識(shí)別數(shù)據(jù),其中挖掘算法是一種常用的普通統(tǒng)計(jì)方法,例如網(wǎng)頁(yè)瀏覽的時(shí)間、訪問的次數(shù)等,通過序列模式分析。統(tǒng)計(jì)分析等,對(duì)挖掘的數(shù)據(jù)進(jìn)行識(shí)別。此外,關(guān)聯(lián)規(guī)則能夠發(fā)掘客戶對(duì)站點(diǎn)各個(gè)頁(yè)面的訪問關(guān)系,對(duì)用戶的信息進(jìn)行識(shí)別,能夠根據(jù)用戶的需求有目的的進(jìn)行數(shù)據(jù)識(shí)別。通常狀況下,Web數(shù)據(jù)可挖掘技術(shù)的數(shù)據(jù)識(shí)別都是采用統(tǒng)計(jì)方法,如果用戶通過瀏覽器方位Web數(shù)據(jù)庫(kù)站點(diǎn)時(shí),數(shù)據(jù)庫(kù)挖掘技術(shù)能夠利用既定的模型對(duì)用戶訪問的站點(diǎn)以及訪問關(guān)系進(jìn)行統(tǒng)計(jì)。
(三)模式分析。模式分析的主要任務(wù)是借助操作工具以及技術(shù)手段,對(duì)所挖掘用戶的行為模式進(jìn)行解釋和分析,然后從中選擇出最有價(jià)值、最合理的模式,這樣能夠幫助分析人員理解相應(yīng)的數(shù)據(jù)信息,使挖掘出的所有模式能夠被充分的利用。
四、Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)的應(yīng)用
(一)搜索引擎領(lǐng)域的應(yīng)用。以Web數(shù)據(jù)庫(kù)為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)是搜索引擎領(lǐng)域的關(guān)鍵因素,通常情況下,大多數(shù)的人會(huì)通過使用搜索相關(guān)房爺?shù)姆椒ǐ@取相應(yīng)的信息,因此,數(shù)據(jù)庫(kù)挖掘技術(shù)在搜索引擎領(lǐng)域的應(yīng)用,能夠?qū)崿F(xiàn)對(duì)網(wǎng)頁(yè)進(jìn)行歸類和劃分,進(jìn)而實(shí)現(xiàn)分類網(wǎng)絡(luò)信息的搜索和瀏覽。
(二)電子商務(wù)領(lǐng)域的應(yīng)用。在電子商務(wù)領(lǐng)域中,數(shù)據(jù)庫(kù)挖掘技術(shù)能夠挖掘用戶關(guān)注和訪問的所有信息,然后根據(jù)收集到的信息對(duì)用戶進(jìn)行分類,然后對(duì)用戶的興趣以及特征進(jìn)行分析,更加深入的了解用戶的相關(guān)資料,這樣便于為用戶提供更加全面、便利的服務(wù)。
(三)網(wǎng)站設(shè)計(jì)領(lǐng)域的應(yīng)用。在進(jìn)行網(wǎng)站設(shè)計(jì)時(shí),采用數(shù)據(jù)庫(kù)挖掘技術(shù)能夠挖掘網(wǎng)站中的重要內(nèi)容,尤其是文本內(nèi)容,能夠更好的進(jìn)行網(wǎng)絡(luò)信息的規(guī)劃和組織,并且能夠銅鼓挖掘網(wǎng)絡(luò)用戶的訪問記錄,及時(shí)、準(zhǔn)確的了解用戶的需求,進(jìn)而制定針對(duì)個(gè)人的網(wǎng)站和信息。
五、結(jié)束語(yǔ)
Web數(shù)據(jù)庫(kù)是目前規(guī)模最大的數(shù)據(jù)信息庫(kù),為以Web為基礎(chǔ)的數(shù)據(jù)庫(kù)挖掘技術(shù)提供了良好的發(fā)展環(huán)境。由于數(shù)據(jù)庫(kù)挖掘技術(shù)顯著的提高信息檢索的效率和準(zhǔn)確性,并且能夠?yàn)榫W(wǎng)站設(shè)計(jì)領(lǐng)域、電子商務(wù)領(lǐng)域、搜索引擎領(lǐng)域等提供個(gè)性化的服務(wù),致使其具有廣闊的應(yīng)用和發(fā)展前景。
參考文獻(xiàn):
[1]曾霖.基于 Web 數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)探究[J].軟件,2013(02):58-59.
[2]艾孜海爾·江艾合買提.基于Web數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)分析[J].科技向?qū)В?012(27):67.
[3]李春青,李海生.Web數(shù)據(jù)庫(kù)技術(shù)及其發(fā)展趨勢(shì)[J].軟件導(dǎo)刊,2012(02):155-157.