999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML的Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究

2009-04-29 00:00:00吳遠(yuǎn)良
電腦知識(shí)與技術(shù) 2009年33期

摘要:該文重點(diǎn)探討了基于Web的數(shù)據(jù)挖掘問(wèn)題,成分利用XML將非結(jié)構(gòu)化的HTML文檔轉(zhuǎn)換、組織成結(jié)構(gòu)化的XML文檔,并開展有效的數(shù)據(jù)挖掘處理,然后在一個(gè)電子商務(wù)網(wǎng)站上進(jìn)行了初步嘗試。

關(guān)鍵詞:數(shù)據(jù)挖掘;XML;Web;HTML;電子商務(wù)

中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)33-9562-02

電子商務(wù)作為一種新興的事物,隨著Internet的迅速發(fā)展和應(yīng)用的深入,從最初的B2C(企業(yè)-個(gè)人)模式發(fā)展到目前的B2B(企業(yè)-企業(yè))、C2C(個(gè)人-個(gè)人)、G2B(企業(yè)-政府)等不同的模式。電子商務(wù)的迅速崛起,使得商家對(duì)基于Internet的Web數(shù)據(jù)檢索、挖掘等的需求不斷提高。

目前,多數(shù)的Web站點(diǎn),普遍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成,使得這種Web文檔只具有有限的結(jié)構(gòu)性,因而要想利用分析工具準(zhǔn)確、高效地進(jìn)行數(shù)據(jù)挖掘和分析還比較困難。而XML的出現(xiàn),則對(duì)基于Web的數(shù)據(jù)挖掘帶來(lái)了新的挈機(jī)??衫肵ML作為元標(biāo)記語(yǔ)言的特性,用戶只要在XML的文檔類型定義中定義一系列有意義的標(biāo)記,就可以實(shí)現(xiàn)對(duì)Web上大部分非結(jié)構(gòu)化文檔的內(nèi)容進(jìn)行有效的總結(jié)、分類、組織,從而實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫(kù)中的屬性建立對(duì)應(yīng)關(guān)系,這樣,Web上的數(shù)據(jù)挖掘也就變得可行了。

1 XML與Web數(shù)據(jù)挖掘技術(shù)

1.1 Web數(shù)據(jù)挖掘技術(shù)

基于Web的數(shù)據(jù)挖掘就是從Internet上龐大、復(fù)雜、異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的東西或者是特定的精確的數(shù)據(jù)。Web挖掘也不同于一般的信息檢索,它是從大量的文檔集合中找出所具有的結(jié)構(gòu)、趨勢(shì)和含義,而Web信息檢索則是從大量的Web文檔中找到與給定主題相關(guān)的文檔,而且建立索引模型、文檔內(nèi)容表示、匹配策略等技術(shù)基礎(chǔ)上的搜索引擎,搜索的精確度仍然不夠高,遠(yuǎn)遠(yuǎn)不能滿足那些只希望檢索到精確數(shù)據(jù)的用戶的要求。而Web挖掘則可以對(duì)大量的文檔、數(shù)據(jù)重新進(jìn)行整理、分析和組織,可以按照用戶特定的要求給出結(jié)果,因而比單純的信息檢索更進(jìn)一步,是未來(lái)技術(shù)發(fā)展的趨勢(shì)。

按照處理對(duì)象的不同,Web挖掘可分為:內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用記錄挖掘。其中,內(nèi)容挖掘是從Web文檔的內(nèi)容中抽取信息特征,這些文檔可以是文本和多媒體文檔,包括文本、HTML、圖象、音頻、視頻等形式;結(jié)構(gòu)挖掘是從Web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí),這些結(jié)構(gòu)不僅僅局限于文檔之間的超連接,還包括文檔內(nèi)部的結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等;使用記錄挖掘則是從Web的訪問(wèn)記錄中抽取感興趣的模式。

1.2 XML應(yīng)用于Web挖掘的優(yōu)勢(shì)

與HTML相比,XML有了很大的飛躍。XML出色之處在于它不再是一個(gè)單純的標(biāo)記語(yǔ)言,而是一個(gè)定義語(yǔ)言。HTML每個(gè)只能定義某一種文件,而XML突破了HTML固定標(biāo)記集合的約束,可以定義無(wú)窮無(wú)盡的標(biāo)記來(lái)描述Web中的任何數(shù)據(jù)元素及其結(jié)構(gòu),從而組成一個(gè)完整的信息體系,使文件的內(nèi)容更豐富更復(fù)雜更結(jié)構(gòu)化。而且,在兼容性方面, HTML規(guī)范的文件可以轉(zhuǎn)換成XML格式文件,普通的SGML文件也可以轉(zhuǎn)換成XML文件。由于XML能針對(duì)特定的應(yīng)用定義自己的標(biāo)記語(yǔ)言,這使得XML可以在電子商務(wù)、政府政務(wù)、企業(yè)及中介組織的信息交換中得到廣泛的應(yīng)用。

目前,許多主流的數(shù)據(jù)庫(kù)廠商都在把XML支持結(jié)合到其產(chǎn)品中,或者提供可在其數(shù)據(jù)庫(kù)中使用XML的工具。如IBM提供了XML Extender for DB2,允許用戶在DB2中存儲(chǔ)XML文檔,并提供一些新功能協(xié)助用戶處理XML文檔;Microsoft 的SQL Server 6.5和7.0也進(jìn)行了XML擴(kuò)充用以向其他系統(tǒng)傳送信息。

1.3 基于XML的Web挖掘過(guò)程

如果Internet上的Web站點(diǎn)都由XML實(shí)現(xiàn),以XML作為信息發(fā)布與交換的主要媒介,那么,Web這個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)中的XML文檔就可以很容易地與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái),從而方便地實(shí)現(xiàn)精確檢索和進(jìn)一步的Web挖掘。

在目前多數(shù)的Web站點(diǎn)仍由靜態(tài)的或動(dòng)態(tài)的HTML頁(yè)面組成的情況下,雖然每個(gè)站點(diǎn)的開發(fā)自行其是,而且數(shù)據(jù)本身還存在著自我描述性和動(dòng)態(tài)可變性,但由于XML作為可以定義語(yǔ)言的語(yǔ)言,能夠把不同來(lái)源的數(shù)據(jù)結(jié)合在一起, 從而使得Web上大量非結(jié)構(gòu)化的數(shù)據(jù)變成了進(jìn)行挖掘的寶藏。

Web挖掘的過(guò)程由以下三步完成:

1)Web信息數(shù)據(jù)的獲取。對(duì)Web數(shù)據(jù)源進(jìn)行搜索,獲取必要的信息。

2)Web信息的轉(zhuǎn)換。將搜集到的HTML文檔進(jìn)行抽取,轉(zhuǎn)換為結(jié)構(gòu)化的XML文檔,生成相應(yīng)的DTD文檔或者XML Schema,同時(shí)進(jìn)行分類,并選擇合適的數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)組織。其核心是如何將非結(jié)構(gòu)化文檔進(jìn)行結(jié)構(gòu)化處理。

3)Web信息的挖掘。將大量結(jié)構(gòu)化處理的信息文檔進(jìn)行有效的組織與管理,根據(jù)用戶的特定需求進(jìn)行挖掘。

如果HTML文檔比較規(guī)范,所有元素的首位標(biāo)記都配對(duì),所有元素的嵌套層次結(jié)構(gòu)都正確,所有的屬性值都以“”的形式出現(xiàn),所有的自說(shuō)明的元素以“/>”結(jié)束,那么通過(guò)對(duì)HTML文檔的處理,可以從頁(yè)面中抽取出所需要的屬性,從而進(jìn)一步轉(zhuǎn)換為XML文檔;但一些頁(yè)面很少遵循連續(xù)的格式,在抽取屬性時(shí)則比較困難。在轉(zhuǎn)換過(guò)程中,主要解決HTML文檔及其集合的表達(dá)模式信息(Web-SCHEMA)的抽取,即可以通過(guò)程序自動(dòng)完成,也可由系統(tǒng)人員手工的對(duì)HTML文本作進(jìn)一步的分析,將遺漏的模式信息補(bǔ)充進(jìn)來(lái),確定對(duì)象的屬性名和對(duì)象之間的語(yǔ)義關(guān)系,形成完整的數(shù)據(jù)模式。

HTML的模式信息抽取出來(lái)后,為了有效的將其用XML文檔表示出來(lái),必須定義XML的合適的文檔類型定義(DTD)。由于XML允許用戶定義自己的標(biāo)記,可能會(huì)出現(xiàn)混亂,影響信息的共享,因此,Dubilin Core workshop提出了一套描述符用以描述文檔的內(nèi)容、表現(xiàn)形式和相關(guān)屬性,目前由15個(gè)組成,即TITILE、CREATOR、SUBJECT、DESCRIPTION、PUTLISHER、CONTRIBUTION、DATE、TYPE、FORMAT、IDENTIFIER、SOURCE、LANGUAGE、RELATION、COVERAGE、RIGHTS等,通過(guò)這些描述符,就比較容易地將HTML文檔統(tǒng)一為XML文檔。

2 實(shí)例研究

某有限責(zé)任公司作為一個(gè)基于Internet的設(shè)備信息服務(wù)公司,主要業(yè)務(wù)是通過(guò)Web提供各類閑置設(shè)備及備件的代購(gòu)、代銷服務(wù),提供設(shè)備修理的技術(shù)性咨詢業(yè)務(wù)、并提供設(shè)備專業(yè)人才信息等。目前,該公司的信息渠道來(lái)源主要有:一是設(shè)備調(diào)劑快訊(周刊);二是各單位通過(guò)Web提交,電話、傳真等途徑告知公司;三是公司從Web上搜索到的有關(guān)的設(shè)備信息。

隨著Internet和電子商務(wù)的發(fā)展,從相關(guān)的Web站點(diǎn)搜索到的信息已經(jīng)成為該公司的一個(gè)主要信息來(lái)源,但目前的搜索引擎搜索到的只是包含少量或部分有用信息的Web文檔,公司仍需手工將設(shè)備的型號(hào)、設(shè)備的規(guī)格、設(shè)備的生產(chǎn)廠商、設(shè)備的生產(chǎn)日期、設(shè)備的價(jià)格、設(shè)備的數(shù)量、設(shè)備的簡(jiǎn)介等信息分撿出來(lái),對(duì)其進(jìn)行編號(hào)、分類,因此如何從Web上精確地獲得所需要的信息,并將結(jié)果按設(shè)備或者是按提供商進(jìn)行分類,再通過(guò)Web發(fā)布出去,也就成了公司急需解決的問(wèn)題。

在本實(shí)例中采用了中間件的形式(由JAVA和XML共同實(shí)現(xiàn)),實(shí)際上包括抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)合法性檢查等三個(gè)部分,如圖1所示。其中抽取器包含一系列的抽取規(guī)則,主要負(fù)責(zé)從非結(jié)構(gòu)化的數(shù)據(jù)中抽取設(shè)備的型號(hào)、規(guī)格、生產(chǎn)廠商、生產(chǎn)日期、價(jià)格、數(shù)量、簡(jiǎn)介等屬性,用XML表示并存儲(chǔ)起來(lái);數(shù)據(jù)轉(zhuǎn)換器將來(lái)自不同站點(diǎn)或數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為一種公共的表示方式;而數(shù)據(jù)合法性檢查器則對(duì)一些條件進(jìn)行監(jiān)視,強(qiáng)制在不同級(jí)別(行、列、標(biāo))進(jìn)行約束,它和數(shù)據(jù)轉(zhuǎn)換器共同保證數(shù)據(jù)的完整性。

3 結(jié)束語(yǔ)

Web數(shù)據(jù)挖掘是一個(gè)較新的研究領(lǐng)域,雖然挖掘處理方法仍有待于進(jìn)一步改進(jìn),但它給電子商務(wù)的發(fā)展帶來(lái)的效益確實(shí)是有目共睹的。XML的興起,更是給Web挖掘帶來(lái)了新的契機(jī),隨著XML技術(shù)的更加成熟,面向Web的挖掘必然會(huì)變得更輕松,在電子商務(wù)上的應(yīng)用也會(huì)更加深入。

參考文獻(xiàn):

[1] Goldfarb C F,Prescod P. XML實(shí)用技術(shù)[M].張力,王顯著,譯.北京:清華大學(xué)出版社,2003.

[2] St.Laurent S.XML基礎(chǔ)教程[M].康曉林,伊希榮,譯.北京:電子工業(yè)出版社.2004.

[3] 胡彥.XML技術(shù)與B2B電子商務(wù)發(fā)展[J].電腦開發(fā)與應(yīng)用,2000,13(9).

[4] 楊建武.基于SGML/XML的Internet信息發(fā)布[J].計(jì)算機(jī)工程與應(yīng)用,2000(11).

[5] 李寅,林宣雄.基于Web的XML數(shù)據(jù)交換技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2000(11).

[6] 孟小峰.Web數(shù)據(jù)管理研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2001(4).

[7] 徐振航,劉莉芹.基于XML的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2001(1).

主站蜘蛛池模板: 久久国产精品影院| 欧洲欧美人成免费全部视频| 自拍偷拍欧美日韩| 国产乱子伦手机在线| 国产成人免费手机在线观看视频| 伊在人亚洲香蕉精品播放| 国产高潮视频在线观看| 国产精品成人久久| 中文字幕伦视频| 又粗又大又爽又紧免费视频| 香蕉在线视频网站| 亚洲第一成人在线| 亚洲性影院| 国产精品视频999| 亚洲国产精品美女| 大香网伊人久久综合网2020| 国产欧美日韩资源在线观看| 在线观看91精品国产剧情免费| 日韩亚洲高清一区二区| 麻豆精品视频在线原创| 日韩人妻无码制服丝袜视频 | 国产精品永久久久久| 久久人人爽人人爽人人片aV东京热| 一区二区在线视频免费观看| 天堂av综合网| 野花国产精品入口| 又爽又大又光又色的午夜视频| 亚洲男人的天堂久久香蕉网| 日韩欧美视频第一区在线观看| 免费无码AV片在线观看国产| 99久久国产综合精品2023| 亚洲天堂网在线观看视频| 亚洲综合18p| 超碰aⅴ人人做人人爽欧美| 91色在线观看| 国产精品永久免费嫩草研究院| 欧美特黄一免在线观看| 伊人蕉久影院| 这里只有精品免费视频| 免费在线看黄网址| 午夜精品一区二区蜜桃| 国产精品yjizz视频网一二区| 国产特一级毛片| 强乱中文字幕在线播放不卡| 亚洲床戏一区| 精品国产香蕉在线播出| 亚洲一区二区三区国产精华液| 国产精品男人的天堂| 伦伦影院精品一区| 精品小视频在线观看| 免费无码AV片在线观看中文| 国产迷奸在线看| 精品国产免费观看一区| 国产性生大片免费观看性欧美| 婷婷综合色| 一级福利视频| 香蕉视频国产精品人| 91毛片网| 亚洲精品视频免费观看| 性欧美在线| 亚洲国产日韩一区| 国内自拍久第一页| 国产人妖视频一区在线观看| 亚洲欧美成人网| 毛片网站在线播放| 91青青在线视频| 国产视频 第一页| 精品夜恋影院亚洲欧洲| 亚洲爱婷婷色69堂| 亚洲欧美日韩中文字幕一区二区三区 | 一级成人a毛片免费播放| 一级毛片高清| 亚洲色图另类| 国产成人久久综合777777麻豆 | 在线观看亚洲人成网站| 日本在线免费网站| 囯产av无码片毛片一级| 亚洲国产中文精品va在线播放| 中文字幕亚洲第一| 99久久国产精品无码| 亚洲二区视频| 国产午夜无码专区喷水|