999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據挖掘技術研究綜述

2009-04-29 00:00:00李甲林
電腦知識與技術 2009年36期

摘要:隨著WWW網上可利用信息呈現爆炸性的增長,人們發現快速有效地訪問相關信息正變得越來越困難。正是在這種情況下,Web數據挖掘技術應運而生。文中首先給出了Web挖掘的定義,深入分析了Web挖掘的特點及分類方法,然后對Web挖掘中最新研究進展狀況作了詳細的闡述,并探討了Web挖掘的未來發展方向。

關鍵詞:數據挖掘;Web挖掘;分類;研究

中圖分類號:TP391文獻標識碼:A 文章編號:1009-3044(2009)36-10163-03

Review of Research on the Web- based Data Mining Technology

LI Jia-lin

(Nanjing Institute of Industry Technology, Nanjing 210046, China)

Abstract: With the explosive growth of knowledge available on the World Wide Web,it becomes much more difficult for users to access relevant information efficiently.Just in this case,Web data minging technology arises at the historic mement. This articlegive a definition of Web mining firstly. After a thorough analysis of the characteristics of Web mining and classification methods, It also expounds the details of the newest progress of the Web mining research and the direction of future development.

Key words: data mining; Web mining; classification; research

目前,Internet已經發展成為一個巨大的、分布廣泛和全球性的信息服務中心,然而隨著Internet上的信息量的成倍增長,人們在如此繁雜巨量的信息源面前往往感到無所適從:信息過量難以消化;信息形式不一致、難以統一處理;難以快速、準確地獲得有價值的網絡信息;如何理解已有的歷史數據并將其用于預測未來的行為;如何從這些海量數據中發現知識等等。數據挖掘技術自20世紀90年代產生以來,已成功地應用于傳統的數據庫領域。人們對于數據挖掘在Internet信息處理上的技術也作了許多相應的研究,并形成了數據挖掘的一個重要分支——Web數據挖掘。

Web是一個巨大的、廣泛分布、高度異構、半結構化的信息倉庫,同時也是一個巨大的文檔累積的集合,包括超鏈接信息、訪問及使用信息。Web數據挖掘起源于數據挖掘,目的在于可以處理非結構化的數據,Web數據的非結構化這一顯著特征使Web數據挖掘更加復雜。通過Web數據挖掘,我們可以從數以億計存儲著大量多種多樣信息的Web頁面及鏈接和用戶對頁面的訪問信息中挖掘出我們需要的有用知識。

1 Web挖掘定義

Web挖掘是一項涉及Web技術、數據挖掘、計算機語言學、信息學等多個領域的綜合技術。不同研究者從自身的領域出發,對Web挖掘的含義有著不同的理解,其定義也各有其側重點。例如,有學者認為,Web數據挖掘是從大量的Web文檔集合和在站點內進行瀏覽的相關數據中發現蘊涵的、未知、有潛在應用價值的、非平凡的模式(Pattern)的過程[1]。也有學者從更為一般的角度出發,對Web挖掘作如下定義:

Web挖掘是指從大量Web文檔的集合C中發現隱含的模式p。如果將C看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p[2]。

盡管Web挖掘的定義有很多,但Web挖掘技術從一開始就是面向應用的,因此從應用角度上來說,我們可以認為,Web挖掘就是采用數據挖掘等信息處理技術,從Web信息資源以及Web使用記錄中發掘對特定用戶感興趣的,有用的信息或知識的過程,其結果可以為用戶決策所使用。

由于Web挖掘從數據挖掘技術發展而來,其定義與我們熟知的數據挖掘定義相類似。但與傳統的數據挖掘相比,Web挖掘在挖掘的對象、挖掘所得到的模式等方面有許多獨特之處。通過 Web挖掘,人們可將Web上的文檔進行分類、尋找文檔主題、匯總搜索結果,使用戶在Internet上查找信息更加全面準確。對Web站點的分析結果可用于重新組織Web站點結構,以便更好地為用戶服務。

2 Web挖掘分類

依據不同的分類標準Web挖掘有不同的分類方法。例如,按照挖掘內容的語種可以分為中文Web挖掘、西文Web挖掘;按挖掘的站點的屬性不同可以分為企業門戶挖掘、政務門戶挖掘、個人站點挖掘等。但更多的文獻則是采用根據挖掘的站點信息來源不同將Web挖掘分為三大類的劃分方法,即:Web內容挖掘(Web Content Mining)、Web結構挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining) [3]。在實際應用中,Web挖掘的這三個研究方向在實際過程中并不是孤立的,而是相互交叉、相互滲透和相互聯系的。

2.1 Web內容挖掘

Web內容挖掘是從大量的Web文檔或其描述中發現知識的過程。這些Web文檔包含了文本、圖片、聲音、視頻、元數據和超鏈接等名種不同的數據類型。Web內容挖掘根據其所處理的數據對象的不同可分為文本挖掘和多媒體挖掘。由于文本仍是信息傳遞的主要方式,而且文本處理技術相對比較成熟,因此文本數據的挖掘在研究和應用上都比較普遍。文本挖掘主要分為文本的總結、分類、聚類、關聯分析及利用Web文檔進行趨勢預測等,最常見的是文本的分類和聚類[4]。

多媒體信息挖掘,主要是對Web上的音頻、視頻和圖像進行預處理,應用存儲和搜索技術與標準的數據方法的集成,對其中潛在的有意義的信息和模式進行挖掘的過程[5]。多媒體信息挖掘可以應用于語音識別、圖形和圖像處理等研究領域。從而得到更為精確和有用的信息,以增強搜索引擎的內容查詢功能。

2.2 Web結構挖掘

Web結構挖掘是從WWW的組織結構和鏈接關系中推導知識的過程。在整個Web空間里,有用的知識不僅包含在Web頁面的內容之中,而且也包含在頁面的鏈接結構之中。例如,如果我們發現一篇論文頁面經常被引用,那么這個頁面一定是非常重要的。Web結構挖掘試圖發現Web鏈接結構中潛在的模型,而這種模型是建立在超鏈拓撲基礎上的。它主要通過對Web站點的結構進行分析、變形和歸納,將Web頁面進行分類,以利于信息的搜索。這一類的技術常常被用來改進搜索引擎,例如PageRank和Clever方法等。PageRank技術可以用來衡量某個頁面的重要性,并且根據傳統搜索引擎搜索返回的頁面重要性來進行排序。Google就成功地利用了PageRank技術來提高其搜索引擎的有效性,并改善了它們的效率。

2.3 Web使用挖掘

Web中的每個服務器都保留了記錄關于用戶訪問和交互的信息訪問日志文件(Web Access Log)。分析這些數據可以幫助理解用戶的行為,從而改進站點的結構,或為用戶提供個性化的服務。Web使用挖掘的主要對象就是這些Web信息訪問日志,因此通常又稱之為Web日志挖掘。由于Web使用挖掘的主要目標則是從Web的訪問記錄中抽取感興趣的模式[6],所以也有文獻將這類挖掘稱為Web用戶訪問模式挖掘。Web使用挖掘的主要數據源除了用戶訪問Web時在服務器保留的訪問日志文件外,還包括Web站點的拓撲結構和站點文件、用戶的注冊信息、用戶調查信息、cookies以及與網站服務相關的數據庫數據等。通過挖掘得到的用戶訪問模式在銀行業、證券業、電子商務等方面得到了廣泛應用,例如可以進行網絡廣告分析、客戶分類、個性化服務、網絡欺騙預防等。

根據對數據源的不同處理方法,Web使用挖掘可以分為兩類,一類是將Web使用記錄的數據經預處理轉換,再傳遞進傳統的關系表里,使用數據挖掘算法對關系表中的數據進行常規挖掘;另一類是將Web使用記錄的數據直接預處理再進行挖掘[7]。J.Srivastava和R.Cooley等人在根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的服務器數量等將Web使用挖掘應用領域分為五類:個性挖掘、系統改進、站點修改、智能商務和Web特征描述 [8-9]。

3 Web挖掘特點

和傳統的數據挖掘方法相比,Web挖掘的挖掘對象有其明顯的特殊性。數據挖掘的本質是針對數據的特性,采取相應的方法進行挖掘。傳統的基于關系數據的挖掘方法(如分類、聚類、關聯規則發現、統計方法等)需要結合Web數據的特性進行擴展、改進,以適應新的要求。這也使得Web挖掘具有以下明顯的特點:

1) Web數據日新月異,具有有很強的動態性

數據倉庫中的數據一般是相對固定的,而Internet上的信息日益增多,Web頁面目前已達數千億,每天還在不斷更新之中,其容量之大,變化之快,任何一個搜索引擎都難以適應這樣的快速發展。據中國互聯網絡信息中心于2008年7月發布的《中國互聯網絡發展狀況統計報告》稱,2008年6月中國的域名總數為1485萬個,年增長率為61.8%,繼續保持2006年12月以來50%以上的增長水平。中國國內網站數量已經從2004年的62.7萬個發展到如今的191.9萬個,年增長率達到46.3%。

Internet中這些數量眾多的網站數據更新非常迅速,有些信息可能很快過時。因此,在進行Web挖掘前的一個重要工作就是針對當前狀態的信息能夠快速更新挖掘數據源,確定需要挖掘的站點和范圍,以保證提供準確的決策支持。

2) 異構數據庫環境

要處理的Web站點數據在物理上是分散的,它們各自包含大量的數據信息,怎樣對其進行有效的處理和應用成了Web挖掘研究的熱點。一般的數據庫中的數據組織形式是基于二維關系的表格,結構性很強,而Web數據挖掘的對象是大量、異質的。Web上的每個站點就是一個數據源,每個數據源都是異構的,而且每個站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。

顯然,面向Web的數據挖掘比單個數據倉庫的數據挖掘要復雜得多。要利用這些數據進行數據挖掘,首先,要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Web上的數據查詢問題,因為如果不能有效地得到所需的數據,對這些數據進行分析、集成、處理就無從談起[10]。

3) 半結構化的數據結構

Web使用挖掘的數據非常復雜,往往具有半結構化或非結構化特性,難以映射到一個固定的模式,這與有一定的數據模型并可以根據模型來具體描述特定數據的傳統的數據庫有明顯不同。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。

4) 數據源的獲取越來越困難

早期的Internet上的信息都是簡單的HTML文件,一般的Web挖掘工具都可以直接獲取這些信息,網站也沒有對這些Web抓取工具進行防護。隨著ASP、JSP以及Web數據庫技術的發展,許多頁面都是從數據庫中動態調用生成,同時許多Web站點禁止Robot類工具的訪問。也有一部分站點的關鍵頁面通常只對所謂的會員開放。這一切都為Web數據挖掘數據源的獲取設置了障礙。

5) 用戶目標的模糊性

基于Internet的數據挖掘用戶往往對挖掘的主體有一個粗淺的認識,提不出很明確的目標來。這就需要Web挖掘系統具有一定的智能性和學習機制,不斷地跟蹤用戶的興趣,清晰地闡述挖掘結果。

4 Web挖掘發展方向

Web挖掘是一個較新的研究領域,具有廣闊的發展和應用前景。應該指出的是,面對日益增加的商業需求,Web挖掘技術還有許多問題需要解決,有待這一領域的研究者深入研究。在未來一段時間內,Web 挖掘中的以下方面將可能成為主要的研究方向與應用熱點。

1) Web挖掘技術在智能化搜索引擎上的應用研究

隨著網上信息量的激劇增長與信息內容持續更新,人們迫切需要能夠從Web上快速、有效地發現資源和知識的工具,提高在Web上檢索信息、利用信息的效率。盡管目前搜索引擎性能已有了較大提高,但搜索引擎的最終目標是“理解用戶需求精確返回所需”,如何翻譯用戶的非專業搜索請求,實現自然語言處理,這需要研究者們從不同的角度進行研究,將Web挖掘技術充分運用到搜索引擎中,提高搜索的準確性,優化檢索結果與實現個性化服務。

2) Web挖掘技術在智能化Web瀏覽器上的應用研究

傳統的Web瀏覽器已經不能很好地滿足用戶在浩瀚的Web資源中找到符合自己要求的信息的需求。傳統的Web瀏覽器只是簡單地接受用戶的請求,與服務器交互后將傳來的頁面顯示給用戶,它根本沒有考慮用戶的所特有的個性化信息。深度優先的搜索方式也很容易使得用戶進行漫無目的地瀏覽,從而很可能“迷失在超空間中”[11]。這些問題的解決將在很大程度上依賴于文檔特征選取、用戶興趣模型的學習與更新、信息過濾與文檔分類等關鍵技術的研究與應用情況,而這些正是Web挖掘技術研究的重要方面之一。

3) XML技術引入Web數據挖掘領域

XML(可擴充標記語言)的全稱是eXtensible Markup Language,同HTML一樣,是國際互聯網協會(W3C,World Wide Web Consortium)為Web應用開發的SGML(Standard General Markup Language)的一個重要分支。相對目前大量使用的HTML而言,XML具有簡單、開放性、通用性及跨平臺可擴充等特性,能很容易使不同來源的非結構化的數據結合在一起,因而使搜索多樣的不兼容的數據庫成為可能, 從而為解決由于Web數據源的異構性和半結構化特性給數據挖掘所帶來的困難提供了條件。XML對在Web中進行數據挖掘的促進作用是HTML無法比擬的。

此外,分布式Web 挖掘、語義Web 挖掘、無線網絡下的Web 挖掘、Web2.0 時代的Web 挖掘、多語言環境下的Web 挖掘等也是值得研究的方向。同時,Web 挖掘技術應用于具體領域的研究將持續受到關注,例如銀行證券、企業ERP、醫療衛生、農業、電子商務、網絡教學、BLOG等領域。

Web數據挖掘是一個新興的研究領域,已廣泛地應用于金融業、遠程通訊業、政府管理、制造業、醫療服務以及體育事業中,對它的應用和研究正在成為一個熱點,并取得了一定成就。但從整體上看,目前的研究仍處于起步階段,許多問題有待深入研究,在實際應用中還有很多理論與技術有待進一步的研究和探討,我們有理由相信,隨著技術的加強和廣大科研工作者及工程技術人員的積極參與,Web挖掘技術必將在更廣闊的領域得到充分運用。

參考文獻:

[1] R Kosala,H Blockeel. Web Mining Research:A Survey[J].SIGKDD Exploration,2000,2(1):1-15 .

[2] 陳新中,李巖,謝永紅,等.Web挖掘研究.計算機工程與應用[J],2002,(13):42-44

[3] 張娥,鄭斐峰,馮耕中.Web日志數據挖掘的數據預處理方法研究.計算機應用研究[J].2004,21(2):58-60.

[4] 王繼成,潘金貴,張福炎.Web文本挖掘技術研究.計算機研究與發展[J],2000,37(5):513-524

[5] 陳新中,李巖.Web日志挖掘技術進展[J].系統工程與電子技術,2005,4.

[6] Srivastava J et al. Web usage mining: Discovery and application of usage patterns from Web data[J].SIGKDD Explorations.2000,1(2):12-23.

[7] 陳健,印鑒.Web使用挖掘技術研究綜述[J].計算機工程,2005,31(9).

[8] R.Cooley,B.Mobasher,J.srivastava.Grouping web page reference into transactions for mining world wide web browsing patterns[J].University of Minnesota Technical report. Tech Rep:TR 97 021.1997.

[9] R.Cooley,J.Srivastava.Data preparation for mining world wide web browsing patterns[J].Journal of knowledge and Information Systems.1999,1(1).

[10] 范亞芹,劉穎.Web數據挖掘原理及實現[J].吉林大學學報,2003,(4):370-3731.

[11] 譚諒,李曉黎,史忠植.一種實現搜索引擎個性化服務的方法[J].計算機科學,2002.

主站蜘蛛池模板: 欧美一级高清片久久99| 国产一区自拍视频| 婷婷开心中文字幕| 天天综合网色| 日韩在线播放欧美字幕| 999国内精品久久免费视频| 99国产精品免费观看视频| 亚洲视频在线观看免费视频| 99视频精品在线观看| 国产精品毛片一区视频播| 日本三级黄在线观看| 亚洲综合天堂网| 播五月综合| 精品无码专区亚洲| 波多野结衣无码视频在线观看| 99热国产在线精品99| 欧美性精品| 国产精品久久自在自2021| 影音先锋亚洲无码| 中文字幕亚洲另类天堂| 国产成人福利在线视老湿机| 成人午夜在线播放| 欧美日韩国产精品综合| 亚洲资源在线视频| 国产永久在线视频| 成人免费视频一区| 在线观看免费国产| 97超碰精品成人国产| 欧美一级黄片一区2区| 91无码国产视频| 亚洲91在线精品| 人妻无码AⅤ中文字| 99草精品视频| 91无码人妻精品一区二区蜜桃| 亚洲永久免费网站| 精品无码国产自产野外拍在线| 天天色综网| 2020亚洲精品无码| 国产极品美女在线| 久草热视频在线| 国产丝袜一区二区三区视频免下载| 手机精品福利在线观看| 全裸无码专区| 欧美第九页| 91麻豆精品国产高清在线| 亚州AV秘 一区二区三区| 国产成人精品高清不卡在线| 亚洲成网站| 自拍偷拍欧美日韩| 欧美日韩精品一区二区视频| 中文字幕av无码不卡免费| 无码中文字幕精品推荐| 波多野结衣中文字幕久久| 极品av一区二区| 欧美日韩在线第一页| 91久久精品国产| 污视频日本| 国产永久在线视频| 伊人成人在线视频| 国产成人亚洲综合A∨在线播放| 九九热免费在线视频| 欧美.成人.综合在线| 制服丝袜无码每日更新| 国产欧美日韩va| 日韩精品一区二区深田咏美| 国产亚洲视频在线观看| 国产99久久亚洲综合精品西瓜tv| 亚洲精品视频免费观看| 成人在线视频一区| 凹凸国产熟女精品视频| 午夜视频www| 亚洲精品视频免费| 国产精品尤物在线| 精品夜恋影院亚洲欧洲| 亚洲第一网站男人都懂| 久草视频中文| 强奷白丝美女在线观看| 成人亚洲国产| 久久伊人操| 夜夜爽免费视频| 国产国语一级毛片在线视频| 国产自无码视频在线观看|