基于XML的Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究

2009-04-29 00:00:00吳遠(yuǎn)良

電腦知識(shí)與技術(shù) 2009年33期

摘要:該文重點(diǎn)探討了基于Web的數(shù)據(jù)挖掘問(wèn)題，成分利用XML將非結(jié)構(gòu)化的HTML文檔轉(zhuǎn)換、組織成結(jié)構(gòu)化的XML文檔，并開展有效的數(shù)據(jù)挖掘處理，然后在一個(gè)電子商務(wù)網(wǎng)站上進(jìn)行了初步嘗試。

關(guān)鍵詞:數(shù)據(jù)挖掘;XML;Web;HTML;電子商務(wù)

中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)33-9562-02

電子商務(wù)作為一種新興的事物，隨著Internet的迅速發(fā)展和應(yīng)用的深入，從最初的B2C(企業(yè)-個(gè)人)模式發(fā)展到目前的B2B(企業(yè)-企業(yè))、C2C(個(gè)人-個(gè)人)、G2B(企業(yè)-政府)等不同的模式。電子商務(wù)的迅速崛起，使得商家對(duì)基于Internet的Web數(shù)據(jù)檢索、挖掘等的需求不斷提高。

目前，多數(shù)的Web站點(diǎn)，普遍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成，使得這種Web文檔只具有有限的結(jié)構(gòu)性，因而要想利用分析工具準(zhǔn)確、高效地進(jìn)行數(shù)據(jù)挖掘和分析還比較困難。而XML的出現(xiàn)，則對(duì)基于Web的數(shù)據(jù)挖掘帶來(lái)了新的挈機(jī)?？衫肵ML作為元標(biāo)記語(yǔ)言的特性，用戶只要在XML的文檔類型定義中定義一系列有意義的標(biāo)記，就可以實(shí)現(xiàn)對(duì)Web上大部分非結(jié)構(gòu)化文檔的內(nèi)容進(jìn)行有效的總結(jié)、分類、組織，從而實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫(kù)中的屬性建立對(duì)應(yīng)關(guān)系，這樣，Web上的數(shù)據(jù)挖掘也就變得可行了。

1 XML與Web數(shù)據(jù)挖掘技術(shù)

1.1 Web數(shù)據(jù)挖掘技術(shù)

基于Web的數(shù)據(jù)挖掘就是從Internet上龐大、復(fù)雜、異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的東西或者是特定的精確的數(shù)據(jù)。Web挖掘也不同于一般的信息檢索，它是從大量的文檔集合中找出所具有的結(jié)構(gòu)、趨勢(shì)和含義，而Web信息檢索則是從大量的Web文檔中找到與給定主題相關(guān)的文檔，而且建立索引模型、文檔內(nèi)容表示、匹配策略等技術(shù)基礎(chǔ)上的搜索引擎，搜索的精確度仍然不夠高，遠(yuǎn)遠(yuǎn)不能滿足那些只希望檢索到精確數(shù)據(jù)的用戶的要求。而Web挖掘則可以對(duì)大量的文檔、數(shù)據(jù)重新進(jìn)行整理、分析和組織，可以按照用戶特定的要求給出結(jié)果，因而比單純的信息檢索更進(jìn)一步，是未來(lái)技術(shù)發(fā)展的趨勢(shì)。

按照處理對(duì)象的不同，Web挖掘可分為:內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用記錄挖掘。其中，內(nèi)容挖掘是從Web文檔的內(nèi)容中抽取信息特征，這些文檔可以是文本和多媒體文檔，包括文本、HTML、圖象、音頻、視頻等形式;結(jié)構(gòu)挖掘是從Web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)，這些結(jié)構(gòu)不僅僅局限于文檔之間的超連接，還包括文檔內(nèi)部的結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等;使用記錄挖掘則是從Web的訪問(wèn)記錄中抽取感興趣的模式。

1.2 XML應(yīng)用于Web挖掘的優(yōu)勢(shì)

與HTML相比，XML有了很大的飛躍。XML出色之處在于它不再是一個(gè)單純的標(biāo)記語(yǔ)言，而是一個(gè)定義語(yǔ)言。HTML每個(gè)只能定義某一種文件，而XML突破了HTML固定標(biāo)記集合的約束，可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述Web中的任何數(shù)據(jù)元素及其結(jié)構(gòu)，從而組成一個(gè)完整的信息體系，使文件的內(nèi)容更豐富更復(fù)雜更結(jié)構(gòu)化。而且，在兼容性方面， HTML規(guī)范的文件可以轉(zhuǎn)換成XML格式文件，普通的SGML文件也可以轉(zhuǎn)換成XML文件。由于XML能針對(duì)特定的應(yīng)用定義自己的標(biāo)記語(yǔ)言，這使得XML可以在電子商務(wù)、政府政務(wù)、企業(yè)及中介組織的信息交換中得到廣泛的應(yīng)用。

目前，許多主流的數(shù)據(jù)庫(kù)廠商都在把XML支持結(jié)合到其產(chǎn)品中，或者提供可在其數(shù)據(jù)庫(kù)中使用XML的工具。如IBM提供了XML Extender for DB2，允許用戶在DB2中存儲(chǔ)XML文檔，并提供一些新功能協(xié)助用戶處理XML文檔;Microsoft 的SQL Server 6.5和7.0也進(jìn)行了XML擴(kuò)充用以向其他系統(tǒng)傳送信息。

1.3 基于XML的Web挖掘過(guò)程

如果Internet上的Web站點(diǎn)都由XML實(shí)現(xiàn)，以XML作為信息發(fā)布與交換的主要媒介，那么，Web這個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)中的XML文檔就可以很容易地與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái)，從而方便地實(shí)現(xiàn)精確檢索和進(jìn)一步的Web挖掘。

在目前多數(shù)的Web站點(diǎn)仍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成的情況下，雖然每個(gè)站點(diǎn)的開發(fā)自行其是，而且數(shù)據(jù)本身還存在著自我描述性和動(dòng)態(tài)可變性，但由于XML作為可以定義語(yǔ)言的語(yǔ)言，能夠把不同來(lái)源的數(shù)據(jù)結(jié)合在一起，從而使得Web上大量非結(jié)構(gòu)化的數(shù)據(jù)變成了進(jìn)行挖掘的寶藏。

Web挖掘的過(guò)程由以下三步完成:

1)Web信息數(shù)據(jù)的獲取。對(duì)Web數(shù)據(jù)源進(jìn)行搜索，獲取必要的信息。

2)Web信息的轉(zhuǎn)換。將搜集到的HTML文檔進(jìn)行抽取，轉(zhuǎn)換為結(jié)構(gòu)化的XML文檔，生成相應(yīng)的DTD文檔或者XML Schema，同時(shí)進(jìn)行分類，并選擇合適的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)組織。其核心是如何將非結(jié)構(gòu)化文檔進(jìn)行結(jié)構(gòu)化處理。

3)Web信息的挖掘。將大量結(jié)構(gòu)化處理的信息文檔進(jìn)行有效的組織與管理，根據(jù)用戶的特定需求進(jìn)行挖掘。

如果HTML文檔比較規(guī)范，所有元素的首位標(biāo)記都配對(duì)，所有元素的嵌套層次結(jié)構(gòu)都正確，所有的屬性值都以“”的形式出現(xiàn)，所有的自說(shuō)明的元素以“/>”結(jié)束，那么通過(guò)對(duì)HTML文檔的處理，可以從頁(yè)面中抽取出所需要的屬性，從而進(jìn)一步轉(zhuǎn)換為XML文檔;但一些頁(yè)面很少遵循連續(xù)的格式，在抽取屬性時(shí)則比較困難。在轉(zhuǎn)換過(guò)程中，主要解決HTML文檔及其集合的表達(dá)模式信息(Web-SCHEMA)的抽取，即可以通過(guò)程序自動(dòng)完成，也可由系統(tǒng)人員手工的對(duì)HTML文本作進(jìn)一步的分析，將遺漏的模式信息補(bǔ)充進(jìn)來(lái)，確定對(duì)象的屬性名和對(duì)象之間的語(yǔ)義關(guān)系，形成完整的數(shù)據(jù)模式。

HTML的模式信息抽取出來(lái)后，為了有效的將其用XML文檔表示出來(lái)，必須定義XML的合適的文檔類型定義(DTD)。由于XML允許用戶定義自己的標(biāo)記，可能會(huì)出現(xiàn)混亂，影響信息的共享，因此，Dubilin Core workshop提出了一套描述符用以描述文檔的內(nèi)容、表現(xiàn)形式和相關(guān)屬性，目前由15個(gè)組成，即TITILE、CREATOR、SUBJECT、DESCRIPTION、PUTLISHER、CONTRIBUTION、DATE、TYPE、FORMAT、IDENTIFIER、SOURCE、LANGUAGE、RELATION、COVERAGE、RIGHTS等，通過(guò)這些描述符，就比較容易地將HTML文檔統(tǒng)一為XML文檔。

2 實(shí)例研究

某有限責(zé)任公司作為一個(gè)基于Internet的設(shè)備信息服務(wù)公司，主要業(yè)務(wù)是通過(guò)Web提供各類閑置設(shè)備及備件的代購(gòu)、代銷服務(wù)，提供設(shè)備修理的技術(shù)性咨詢業(yè)務(wù)、并提供設(shè)備專業(yè)人才信息等。目前，該公司的信息渠道來(lái)源主要有:一是設(shè)備調(diào)劑快訊(周刊);二是各單位通過(guò)Web提交，電話、傳真等途徑告知公司;三是公司從Web上搜索到的有關(guān)的設(shè)備信息。

隨著Internet和電子商務(wù)的發(fā)展，從相關(guān)的Web站點(diǎn)搜索到的信息已經(jīng)成為該公司的一個(gè)主要信息來(lái)源，但目前的搜索引擎搜索到的只是包含少量或部分有用信息的Web文檔，公司仍需手工將設(shè)備的型號(hào)、設(shè)備的規(guī)格、設(shè)備的生產(chǎn)廠商、設(shè)備的生產(chǎn)日期、設(shè)備的價(jià)格、設(shè)備的數(shù)量、設(shè)備的簡(jiǎn)介等信息分撿出來(lái)，對(duì)其進(jìn)行編號(hào)、分類，因此如何從Web上精確地獲得所需要的信息，并將結(jié)果按設(shè)備或者是按提供商進(jìn)行分類，再通過(guò)Web發(fā)布出去，也就成了公司急需解決的問(wèn)題。

在本實(shí)例中采用了中間件的形式(由JAVA和XML共同實(shí)現(xiàn))，實(shí)際上包括抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)合法性檢查等三個(gè)部分，如圖1所示。其中抽取器包含一系列的抽取規(guī)則，主要負(fù)責(zé)從非結(jié)構(gòu)化的數(shù)據(jù)中抽取設(shè)備的型號(hào)、規(guī)格、生產(chǎn)廠商、生產(chǎn)日期、價(jià)格、數(shù)量、簡(jiǎn)介等屬性，用XML表示并存儲(chǔ)起來(lái);數(shù)據(jù)轉(zhuǎn)換器將來(lái)自不同站點(diǎn)或數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為一種公共的表示方式;而數(shù)據(jù)合法性檢查器則對(duì)一些條件進(jìn)行監(jiān)視，強(qiáng)制在不同級(jí)別(行、列、標(biāo))進(jìn)行約束，它和數(shù)據(jù)轉(zhuǎn)換器共同保證數(shù)據(jù)的完整性。

3 結(jié)束語(yǔ)

Web數(shù)據(jù)挖掘是一個(gè)較新的研究領(lǐng)域，雖然挖掘處理方法仍有待于進(jìn)一步改進(jìn)，但它給電子商務(wù)的發(fā)展帶來(lái)的效益確實(shí)是有目共睹的。XML的興起，更是給Web挖掘帶來(lái)了新的契機(jī)，隨著XML技術(shù)的更加成熟，面向Web的挖掘必然會(huì)變得更輕松，在電子商務(wù)上的應(yīng)用也會(huì)更加深入。

參考文獻(xiàn):

[1] Goldfarb C F，Prescod P. XML實(shí)用技術(shù)[M].張力，王顯著，譯.北京:清華大學(xué)出版社，2003.

[2] St.Laurent S.XML基礎(chǔ)教程[M].康曉林，伊希榮，譯.北京:電子工業(yè)出版社.2004.

[3] 胡彥.XML技術(shù)與B2B電子商務(wù)發(fā)展[J].電腦開發(fā)與應(yīng)用，2000，13(9).

[4] 楊建武.基于SGML/XML的Internet信息發(fā)布[J].計(jì)算機(jī)工程與應(yīng)用，2000(11).

[5] 李寅，林宣雄.基于Web的XML數(shù)據(jù)交換技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2000(11).

[6] 孟小峰.Web數(shù)據(jù)管理研究綜述[J].計(jì)算機(jī)研究與發(fā)展，2001(4).

[7] 徐振航，劉莉芹.基于XML的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2001(1).

電腦知識(shí)與技術(shù)2009年33期

電腦知識(shí)與技術(shù)的其它文章: 多媒體CAI課件中插入多媒體素材的方法和技巧; 一種基于雙棧的雙效防火墻設(shè)計(jì); 改進(jìn)的AGNES算法在羽毛球技戰(zhàn)術(shù)分析中的應(yīng)用; 射頻識(shí)別標(biāo)簽芯片中基準(zhǔn)電壓源的設(shè)計(jì); 基于零日漏洞攻擊的原理與防范; 基于熵權(quán)和TOPSIS法的醫(yī)院工作質(zhì)量綜合評(píng)價(jià)體系