999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據挖掘技術

2011-08-15 00:54:11李培培北京吉利大學信息學院中國北京102202
科技視界 2011年23期
關鍵詞:頁面數據挖掘用戶

李培培 曹 芳(北京吉利大學信息學院 中國 北京 102202)

0 引言

隨著Internet/Intranet技術的發展,尤其是Web的全球普及使得Web上信息量無比豐富,Web已經成為人們獲取信息的重要途徑,但最先進的搜索引擎也只能找到Web網頁上面很少的網頁,而且無論怎么選擇關鍵詞都會返回大量并不需要的結果。如何從非格式化數據信息中有效地挖掘出有用的信息是對數據挖掘領域的一個新挑戰。

Web上的數據信息不同于數據庫。它主要是些大量的、異質的Web信息資源,文檔結構性差,其數據多為半結構化或非結構化,信息不能清楚地用數據模型來表示。因此在Web的數據挖掘需要用到很多不同于單個數據倉庫挖掘的技術。

1 Web數據挖掘概述

1.1 Web數據挖掘概念

Web數據挖掘是一項綜合技術,是利用數據挖掘技術從WWW數據資源中抽取信息的過程,結合了數據挖掘、信息處理、可視化、數理統計等領域的成熟技術,是對Web數據資源中蘊含的未知的有潛在應用價值的模式的提取。

1.2 Web數據挖掘原理

通常Web挖掘過程可以分為以下幾個處理階段:資源發現、數據抽取及數據預處理、數據匯總及模式識別、分折驗證。目標數據集根據用戶需求,從Web數據源中提取的相關數據,Web數據挖掘主要從這些數據通信中進行數據提取;預處理過程從數據中去除明顯錯誤或冗余的數據,并將數據轉換成為有效和易于理解的形式;模式分析對發現的模式進行解釋和評估;最后將發現的知識以用戶能理解的方式提供給用戶。

1.3 Web數據挖掘分類

根據挖掘對象的不同,Web挖掘可以分為三類,Web內容挖掘 (WCM)、Web結構挖掘 (WSM) 和 Web使用挖掘(WUM)。

1.3.1 Web內容挖掘

Web內容挖掘實際上是從Web文檔及描述中獲取知識,具體來說就是對Web上大量的文檔集合的內容進行摘要、分類、聚類、關聯分析、以及利用Web文檔進行趨勢預測等。Web內容挖掘的對象包括文本、圖像、音頻、視頻、多媒體等各種類型的數據。其中聚類是事先沒有確定類別,但要求把相似度高的文檔歸于相同的類。

1.3.2 Web結構挖掘

Web結構挖掘是從WWW的組織結構和鏈接關系中推導知識的過程。主要是通過對Web站點的結構進行歸納、分析和變形,將Web頁面進行分類,以利于信息搜索。HTML頁面所包含的知識不僅存在于各個頁面的內容中,也存在于這些頁面之間的相互鏈接中。利用這方面的知識可以對頁面進行排序以發現重要的頁面。

1.3.3 Web使用挖掘

Web使用挖掘就是對用戶訪問Web時在服務器留下的訪問記錄進行挖掘,也叫網絡使用挖掘。挖掘對象是在服務器上的日志信息,也稱Web日志挖掘。它通過分析日志記錄中的規律,可以識別用戶的忠實度、喜好、滿意度,發現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了服務器的日志記錄外還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、鼠標點擊流等一切用戶與站點之間可能的交互記錄。

2 Web數據挖掘的關鍵技術

Web數據挖掘中常用的技術有Web使用的特有路徑分析技術和數據挖掘領域常用的關聯規則、序列模式、分類聚類技術以及中文分詞處理和詞頻統計技術等。

2.1 路徑分析技術

使用路徑分析技術進行Web數據挖掘時,最常用的是圖。圖最直接的來源是網站結構圖,網站上的頁面定義為節點,頁面之間的超鏈接定義為圖中的邊。基于Web的數據挖掘,就是從圖中確定最頻繁的路徑訪問模式。

2.2 關聯規則挖掘技術

關聯規則挖掘技術主要用于從用戶訪問序列數據庫的序列項中挖掘出相關的規則。在Web數據挖掘中,它負責挖掘出用戶在一個訪問期間從服務器上訪問的頁面/文件之間的聯系,這些頁面之間可能并不存在直接的參引關系。

2.3 序列模式挖掘技術

序列模式數據挖掘負責挖掘交易集之間的有時間序列的模式。例如,最出名的尿布與啤酒,這種信息對于電子商務網站非常有用。

2.4 聚類分類技術

分類規則可以挖掘某些共同的特性。這個特性可用來對新添到數據庫里的數據項進行分類。

2.5 中文分詞處理技術

中文信息處理的一大障礙是詞與詞之間沒有物理的分隔符。因此在進行詞頻統計等處理前先要進行詞條切分處理。中文文本的分詞方法有很多種,一般采用較為簡單的基于詞典的正向匹配遍歷分詞方法。詞典的選取通常根據挖掘目標建立專業的分詞詞典,以提高系統的運行效率。

3 Web數據挖掘的方法

3.1 Web數據的半結構化

3.1.1 異構數據庫環境

從數據庫研究的角度出發,Web網站上的信息也可以看作一個更大、更復雜的數據庫,每個站點之間的信息和組織都不一樣。如果想要利用這些數據進行數據挖掘,首先必須要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取信息。其次還要解決Web上的數據查詢問題,因為如果不能有效地得到所需的信息,則對這些數據進行分析、集成、處理就無從談起。

3.1.2 半結構化的數據結構

Web上的數據與傳統的數據庫中的數據不同,Web上的每一站點的數據都各自獨立設計,數據沒有特定的模型描述,并且數據本身具有自述性和動態可變性。因而,Web上的數據這也被稱之為半結構化數據。

3.2 用XML技術進行Web數據挖掘

針對Web上的數據半結構化的特點,XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性一一對應起來,實施精確的查詢與模型抽取。

XML是一種中介標示語言,可提供描述結構化資料的格式。XML解決了兩個Web問題,即Internet發展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的信息的問題。運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。

3.3 具體實現

其實現過程可以由以下四個步驟來實現:第一步得到XHTML格式的源信息,即確定了信息源,將數據從HTML轉換成XML,目前在高級語言中例如JAVA、VC等都有專門的函數或類來實現;第二步查找數據的引用點,完成這一任務的最簡單的辦法通常是,檢查Web頁面,然后使用XML。只需要看一下頁面,記下觀察到的內容,考慮頁面所生成的XHTML,并將把記錄的信息作為引用點;第三步將數據映射成XML,找到了這個引用點,就可以創建實際抽取數據的代碼;第四步合并與處理結果,需要反復執行抽取過程,把結果合并到單個XML數據文件中。可以再次使用XSL執行,也可以創建類的方法把在當前抽取中獲得的數據合并到包含以前抽取數據的文檔中。

4 總結

基于WWW技術的應用正以驚人的速度向社會生活的方方面面滲透,人類交互信息不可避免地電子化和海量化,從這些大量數據中發現有用的重要的知識是數據挖掘與知識發現的是一個重要研究和應用領域。本文討論了Web數據挖掘的一些基本知識、方法、技術。Web挖掘是一項綜合技術涉及多個領域,目前隨著XML技術的成熟,研究利用XML技術進行Web的數據挖掘必將越來越深入。

[1]王志明,沙莎.Web 數據挖掘技術及其應用.軟件導刊,2006,10.

[2]李健.Web 的數據挖掘.電腦知識與技術,2006.

[3]原嬌杰,趙杰文.基于 Web 的數據挖掘.軟件導刊,2006,10.

[4]于升峰.Web 使用挖掘的模式發現.情報學報,2006-10-25.

[5]崔建群,何炎祥.基于XML的Web數據挖掘關鍵技術的研究.計算機工程,2006-10-32.

猜你喜歡
頁面數據挖掘用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 97综合久久| 国产成人精品亚洲77美色| 伊人丁香五月天久久综合| 亚洲一区第一页| 亚洲国产天堂久久综合226114| 新SSS无码手机在线观看| 国产高清又黄又嫩的免费视频网站| 国产交换配偶在线视频| 女人18毛片久久| 国产精品亚洲一区二区三区z| 色综合国产| 日本国产精品一区久久久| 日韩美女福利视频| 无码一区18禁| 国产亚洲欧美在线专区| 人妻中文字幕无码久久一区| 欧美第一页在线| 日本一区二区三区精品AⅤ| 一级毛片免费观看久| 成人在线不卡| 99久久精品无码专区免费| 国产另类乱子伦精品免费女| 最新无码专区超级碰碰碰| 国产精品美女自慰喷水| 国产人成乱码视频免费观看| 国产欧美日韩综合在线第一| 在线欧美a| 欧美国产视频| 99er精品视频| 一区二区三区在线不卡免费| 91在线播放免费不卡无毒| 色综合久久综合网| 美女高潮全身流白浆福利区| 国产高清毛片| 国产欧美日韩在线在线不卡视频| 狠狠躁天天躁夜夜躁婷婷| 欧美a级在线| 日韩欧美中文在线| 青青青国产视频手机| 99精品国产电影| 国产精品女熟高潮视频| 无码在线激情片| 欧美19综合中文字幕| 91精品国产一区自在线拍| julia中文字幕久久亚洲| 美女无遮挡免费视频网站| 女人18毛片水真多国产| 久热99这里只有精品视频6| 中文字幕精品一区二区三区视频 | 国产精品视频免费网站| 在线播放国产一区| 久久综合丝袜长腿丝袜| 午夜欧美理论2019理论| 91欧美亚洲国产五月天| 日韩欧美成人高清在线观看| 天天激情综合| 久久久久久午夜精品| 欧美成人影院亚洲综合图| 欧美午夜性视频| 香蕉视频在线观看www| 国产精品欧美在线观看| 国产区福利小视频在线观看尤物| 亚洲欧美日韩另类在线一| 一本无码在线观看| 99热国产这里只有精品无卡顿"| 美女视频黄频a免费高清不卡| 亚洲天堂视频在线播放| 在线观看国产黄色| 精品成人一区二区三区电影| 国产男女XX00免费观看| 午夜精品久久久久久久99热下载 | 亚卅精品无码久久毛片乌克兰| 亚洲三级片在线看| 亚洲无码久久久久| 99这里只有精品在线| 伊人福利视频| a级毛片免费网站| 精品一区二区三区水蜜桃| 无码国产伊人| 国产精品手机在线观看你懂的| 欧美区一区| 国产精品久久久久无码网站|