摘要:該文重點(diǎn)探討了基于Web的數(shù)據(jù)挖掘問(wèn)題,成分利用XML將非結(jié)構(gòu)化的HTML文檔轉(zhuǎn)換、組織成結(jié)構(gòu)化的XML文檔,并開展有效的數(shù)據(jù)挖掘處理,然后在一個(gè)電子商務(wù)網(wǎng)站上進(jìn)行了初步嘗試。
關(guān)鍵詞:數(shù)據(jù)挖掘;XML;Web;HTML;電子商務(wù)
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)33-9562-02
電子商務(wù)作為一種新興的事物,隨著Internet的迅速發(fā)展和應(yīng)用的深入,從最初的B2C(企業(yè)-個(gè)人)模式發(fā)展到目前的B2B(企業(yè)-企業(yè))、C2C(個(gè)人-個(gè)人)、G2B(企業(yè)-政府)等不同的模式。電子商務(wù)的迅速崛起,使得商家對(duì)基于Internet的Web數(shù)據(jù)檢索、挖掘等的需求不斷提高。
目前,多數(shù)的Web站點(diǎn),普遍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成,使得這種Web文檔只具有有限的結(jié)構(gòu)性,因而要想利用分析工具準(zhǔn)確、高效地進(jìn)行數(shù)據(jù)挖掘和分析還比較困難。而XML的出現(xiàn),則對(duì)基于Web的數(shù)據(jù)挖掘帶來(lái)了新的挈機(jī)??衫肵ML作為元標(biāo)記語(yǔ)言的特性,用戶只要在XML的文檔類型定義中定義一系列有意義的標(biāo)記,就可以實(shí)現(xiàn)對(duì)Web上大部分非結(jié)構(gòu)化文檔的內(nèi)容進(jìn)行有效的總結(jié)、分類、組織,從而實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫(kù)中的屬性建立對(duì)應(yīng)關(guān)系,這樣,Web上的數(shù)據(jù)挖掘也就變得可行了。
1 XML與Web數(shù)據(jù)挖掘技術(shù)
1.1 Web數(shù)據(jù)挖掘技術(shù)
基于Web的數(shù)據(jù)挖掘就是從Internet上龐大、復(fù)雜、異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的東西或者是特定的精確的數(shù)據(jù)。Web挖掘也不同于一般的信息檢索,它是從大量的文檔集合中找出所具有的結(jié)構(gòu)、趨勢(shì)和含義,而Web信息檢索則是從大量的Web文檔中找到與給定主題相關(guān)的文檔,而且建立索引模型、文檔內(nèi)容表示、匹配策略等技術(shù)基礎(chǔ)上的搜索引擎,搜索的精確度仍然不夠高,遠(yuǎn)遠(yuǎn)不能滿足那些只希望檢索到精確數(shù)據(jù)的用戶的要求。而Web挖掘則可以對(duì)大量的文檔、數(shù)據(jù)重新進(jìn)行整理、分析和組織,可以按照用戶特定的要求給出結(jié)果,因而比單純的信息檢索更進(jìn)一步,是未來(lái)技術(shù)發(fā)展的趨勢(shì)。
按照處理對(duì)象的不同,Web挖掘可分為:內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用記錄挖掘。其中,內(nèi)容挖掘是從Web文檔的內(nèi)容中抽取信息特征,這些文檔可以是文本和多媒體文檔,包括文本、HTML、圖象、音頻、視頻等形式;結(jié)構(gòu)挖掘是從Web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí),這些結(jié)構(gòu)不僅僅局限于文檔之間的超連接,還包括文檔內(nèi)部的結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等;使用記錄挖掘則是從Web的訪問(wèn)記錄中抽取感興趣的模式。
1.2 XML應(yīng)用于Web挖掘的優(yōu)勢(shì)
與HTML相比,XML有了很大的飛躍。XML出色之處在于它不再是一個(gè)單純的標(biāo)記語(yǔ)言,而是一個(gè)定義語(yǔ)言。HTML每個(gè)只能定義某一種文件,而XML突破了HTML固定標(biāo)記集合的約束,可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述Web中的任何數(shù)據(jù)元素及其結(jié)構(gòu),從而組成一個(gè)完整的信息體系,使文件的內(nèi)容更豐富更復(fù)雜更結(jié)構(gòu)化。而且,在兼容性方面, HTML規(guī)范的文件可以轉(zhuǎn)換成XML格式文件,普通的SGML文件也可以轉(zhuǎn)換成XML文件。由于XML能針對(duì)特定的應(yīng)用定義自己的標(biāo)記語(yǔ)言,這使得XML可以在電子商務(wù)、政府政務(wù)、企業(yè)及中介組織的信息交換中得到廣泛的應(yīng)用。
目前,許多主流的數(shù)據(jù)庫(kù)廠商都在把XML支持結(jié)合到其產(chǎn)品中,或者提供可在其數(shù)據(jù)庫(kù)中使用XML的工具。如IBM提供了XML Extender for DB2,允許用戶在DB2中存儲(chǔ)XML文檔,并提供一些新功能協(xié)助用戶處理XML文檔;Microsoft 的SQL Server 6.5和7.0也進(jìn)行了XML擴(kuò)充用以向其他系統(tǒng)傳送信息。
1.3 基于XML的Web挖掘過(guò)程
如果Internet上的Web站點(diǎn)都由XML實(shí)現(xiàn),以XML作為信息發(fā)布與交換的主要媒介,那么,Web這個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)中的XML文檔就可以很容易地與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái),從而方便地實(shí)現(xiàn)精確檢索和進(jìn)一步的Web挖掘。
在目前多數(shù)的Web站點(diǎn)仍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成的情況下,雖然每個(gè)站點(diǎn)的開發(fā)自行其是,而且數(shù)據(jù)本身還存在著自我描述性和動(dòng)態(tài)可變性,但由于XML作為可以定義語(yǔ)言的語(yǔ)言,能夠把不同來(lái)源的數(shù)據(jù)結(jié)合在一起, 從而使得Web上大量非結(jié)構(gòu)化的數(shù)據(jù)變成了進(jìn)行挖掘的寶藏。
Web挖掘的過(guò)程由以下三步完成:
1)Web信息數(shù)據(jù)的獲取。對(duì)Web數(shù)據(jù)源進(jìn)行搜索,獲取必要的信息。
2)Web信息的轉(zhuǎn)換。將搜集到的HTML文檔進(jìn)行抽取,轉(zhuǎn)換為結(jié)構(gòu)化的XML文檔,生成相應(yīng)的DTD文檔或者XML Schema,同時(shí)進(jìn)行分類,并選擇合適的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)組織。其核心是如何將非結(jié)構(gòu)化文檔進(jìn)行結(jié)構(gòu)化處理。
3)Web信息的挖掘。將大量結(jié)構(gòu)化處理的信息文檔進(jìn)行有效的組織與管理,根據(jù)用戶的特定需求進(jìn)行挖掘。
如果HTML文檔比較規(guī)范,所有元素的首位標(biāo)記都配對(duì),所有元素的嵌套層次結(jié)構(gòu)都正確,所有的屬性值都以“”的形式出現(xiàn),所有的自說(shuō)明的元素以“/>”結(jié)束,那么通過(guò)對(duì)HTML文檔的處理,可以從頁(yè)面中抽取出所需要的屬性,從而進(jìn)一步轉(zhuǎn)換為XML文檔;但一些頁(yè)面很少遵循連續(xù)的格式,在抽取屬性時(shí)則比較困難。在轉(zhuǎn)換過(guò)程中,主要解決HTML文檔及其集合的表達(dá)模式信息(Web-SCHEMA)的抽取,即可以通過(guò)程序自動(dòng)完成,也可由系統(tǒng)人員手工的對(duì)HTML文本作進(jìn)一步的分析,將遺漏的模式信息補(bǔ)充進(jìn)來(lái),確定對(duì)象的屬性名和對(duì)象之間的語(yǔ)義關(guān)系,形成完整的數(shù)據(jù)模式。
HTML的模式信息抽取出來(lái)后,為了有效的將其用XML文檔表示出來(lái),必須定義XML的合適的文檔類型定義(DTD)。由于XML允許用戶定義自己的標(biāo)記,可能會(huì)出現(xiàn)混亂,影響信息的共享,因此,Dubilin Core workshop提出了一套描述符用以描述文檔的內(nèi)容、表現(xiàn)形式和相關(guān)屬性,目前由15個(gè)組成,即TITILE、CREATOR、SUBJECT、DESCRIPTION、PUTLISHER、CONTRIBUTION、DATE、TYPE、FORMAT、IDENTIFIER、SOURCE、LANGUAGE、RELATION、COVERAGE、RIGHTS等,通過(guò)這些描述符,就比較容易地將HTML文檔統(tǒng)一為XML文檔。
2 實(shí)例研究
某有限責(zé)任公司作為一個(gè)基于Internet的設(shè)備信息服務(wù)公司,主要業(yè)務(wù)是通過(guò)Web提供各類閑置設(shè)備及備件的代購(gòu)、代銷服務(wù),提供設(shè)備修理的技術(shù)性咨詢業(yè)務(wù)、并提供設(shè)備專業(yè)人才信息等。目前,該公司的信息渠道來(lái)源主要有:一是設(shè)備調(diào)劑快訊(周刊);二是各單位通過(guò)Web提交,電話、傳真等途徑告知公司;三是公司從Web上搜索到的有關(guān)的設(shè)備信息。
隨著Internet和電子商務(wù)的發(fā)展,從相關(guān)的Web站點(diǎn)搜索到的信息已經(jīng)成為該公司的一個(gè)主要信息來(lái)源,但目前的搜索引擎搜索到的只是包含少量或部分有用信息的Web文檔,公司仍需手工將設(shè)備的型號(hào)、設(shè)備的規(guī)格、設(shè)備的生產(chǎn)廠商、設(shè)備的生產(chǎn)日期、設(shè)備的價(jià)格、設(shè)備的數(shù)量、設(shè)備的簡(jiǎn)介等信息分撿出來(lái),對(duì)其進(jìn)行編號(hào)、分類,因此如何從Web上精確地獲得所需要的信息,并將結(jié)果按設(shè)備或者是按提供商進(jìn)行分類,再通過(guò)Web發(fā)布出去,也就成了公司急需解決的問(wèn)題。
在本實(shí)例中采用了中間件的形式(由JAVA和XML共同實(shí)現(xiàn)),實(shí)際上包括抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)合法性檢查等三個(gè)部分,如圖1所示。其中抽取器包含一系列的抽取規(guī)則,主要負(fù)責(zé)從非結(jié)構(gòu)化的數(shù)據(jù)中抽取設(shè)備的型號(hào)、規(guī)格、生產(chǎn)廠商、生產(chǎn)日期、價(jià)格、數(shù)量、簡(jiǎn)介等屬性,用XML表示并存儲(chǔ)起來(lái);數(shù)據(jù)轉(zhuǎn)換器將來(lái)自不同站點(diǎn)或數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為一種公共的表示方式;而數(shù)據(jù)合法性檢查器則對(duì)一些條件進(jìn)行監(jiān)視,強(qiáng)制在不同級(jí)別(行、列、標(biāo))進(jìn)行約束,它和數(shù)據(jù)轉(zhuǎn)換器共同保證數(shù)據(jù)的完整性。
3 結(jié)束語(yǔ)
Web數(shù)據(jù)挖掘是一個(gè)較新的研究領(lǐng)域,雖然挖掘處理方法仍有待于進(jìn)一步改進(jìn),但它給電子商務(wù)的發(fā)展帶來(lái)的效益確實(shí)是有目共睹的。XML的興起,更是給Web挖掘帶來(lái)了新的契機(jī),隨著XML技術(shù)的更加成熟,面向Web的挖掘必然會(huì)變得更輕松,在電子商務(wù)上的應(yīng)用也會(huì)更加深入。
參考文獻(xiàn):
[1] Goldfarb C F,Prescod P. XML實(shí)用技術(shù)[M].張力,王顯著,譯.北京:清華大學(xué)出版社,2003.
[2] St.Laurent S.XML基礎(chǔ)教程[M].康曉林,伊希榮,譯.北京:電子工業(yè)出版社.2004.
[3] 胡彥.XML技術(shù)與B2B電子商務(wù)發(fā)展[J].電腦開發(fā)與應(yīng)用,2000,13(9).
[4] 楊建武.基于SGML/XML的Internet信息發(fā)布[J].計(jì)算機(jī)工程與應(yīng)用,2000(11).
[5] 李寅,林宣雄.基于Web的XML數(shù)據(jù)交換技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2000(11).
[6] 孟小峰.Web數(shù)據(jù)管理研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2001(4).
[7] 徐振航,劉莉芹.基于XML的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2001(1).