999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據挖掘技術

2009-04-29 00:00:00
電腦知識與技術 2009年26期

摘要:該文對Web數據挖掘技術的基本思想進行了介紹,描述了對內容、結構、使用等進行挖掘的三種主要Web數據挖掘類型,并對典型Web數據挖掘的處理流程進行了說明。

關鍵詞:Web數據挖掘;分類;流程

中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)26-7335-01

WebData Mining Technology

SONG Yu

(Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China)

Abstract: In this paper, Webdata mining technology, the basic idea was introduced to describe the content, structure, excavation of the use of three main types of Webdata mining, and a typical Webdata mining process are described.

Key words: Webdata mining; classification; process

所謂數據挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機的原始數據中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識的過程 。

1 什么是Web的數據挖掘

Web挖掘是從Web資源上抽取信息或知識的過程,它是將傳統的數據挖掘的思想和方法應用于Web,從Web文檔和Web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。Web挖掘可在多方面發揮作用,如搜索引擎結構的挖掘,搜索引擎的開發,改進和提高搜索引擎的質量和效率,確定權威頁面。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。特別是電子商務領域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。

2 Web數據挖掘的分類

根據挖掘的對象不同我們可以把基于Web的數據挖掘分為三大類:

1) Web內容的挖掘(WebContent Mining)

所謂Web內容的挖掘實際上就是從Web文檔及其描述中獲取知識, Web文檔文件挖掘以及基于概念索引或Agent 技術的資源搜索也應該歸于此類。Web信息資源類型眾多,目前WWW 信息資源已經成為網絡信息資源的主體,然而除了大量的人們可以直接從網上抓取、建立索引、實現查詢服務的資源之外,相當一部分信息是隱藏著的數據(如由用戶的提問而動態生成的結果,存在于數據庫系統中的數據,或是某些私人數據)無法被索引,從而無法提供對它們有效的檢索方式,這就迫使我們把這些內容挖掘出來。若從信息資源的表現形式來看,Web信息內容是由文本、圖像、音頻、視頻、元數據等種種形式的數據組成的,因而我們所說的Web內容的挖掘也是一種針對多媒體數據的挖掘。

2) Web結構的挖掘(WebStructure Mining)

這一類型的挖掘是從萬維網的整體結構和網頁上的相互鏈接中發現知識的過程,它主要挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類并且可以由此獲得有關不同網頁間相似度及關聯度的信息。Web結構挖掘有助于用戶找到相關主題的權威站點,而且對網絡資源檢索結果的排序有很大意義。

3) Web使用的挖掘(WebUsage Mining)

Web使用的挖掘,也稱為Web日志挖掘(WebLog Mining)。與前兩種挖掘方式以網上的原始數據為挖掘對象不同,基于Web使用的挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括:網絡服務器訪問記錄、代理服務器日志記錄、用戶注冊信息以及用戶訪問網站時的行為動作等等。Web使用挖掘將這些數據一一紀錄到日志文件中,然后對積累起來的日志文件進行挖掘,從而了解用戶的網絡行為數據所具有的意義。我們前面所舉的例子正屬于這一種類型。

3 Web挖掘技術的流程

Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習 和神經網絡等。Web挖掘可以在很多方面發揮作用,如對搜索引擎的結構進行挖掘,確定權威頁面,Web文檔分類,Weblog挖掘,智能查詢,建立MetaWeb數據倉庫等。

典型Web數據挖掘的處理流程如下:

3.1 查找資源

任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據。

3.2 信息選擇和預處理

任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數據組織成規整的邏輯形式甚至是關系表。

1) 模式發現

自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。

2) 模式分析

驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。

4 結束語

Web數據挖掘還有待進一步的研究,尤其是近來對Web內容挖掘方面集中在信息集成,如建立基于Web的知識庫或基于Web的數據倉庫的研究上。

參考文獻:

[1] 范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2007.

[2] 將座東,黃發良.基于Web的數據挖掘研究綜述[J].湖南工程學院學報,2007(3):61-64.

[3] 朱德利.Web結構挖掘的XML實現策略[J].計算機工程與設計,2006(12):4447-4449.

主站蜘蛛池模板: 免费一级毛片完整版在线看| 免费福利视频网站| 国产区网址| 亚洲另类第一页| 亚洲综合片| 色婷婷亚洲十月十月色天| 欧美精品啪啪| 青青青伊人色综合久久| 久久亚洲欧美综合| 美女被狂躁www在线观看| 欧美高清三区| 久热中文字幕在线| 亚洲国产一区在线观看| 在线观看亚洲成人| 亚洲天堂视频网站| 国产免费黄| 色综合天天操| 丁香六月激情综合| 日本免费a视频| 3344在线观看无码| 久久国产亚洲欧美日韩精品| 久久久受www免费人成| 亚洲国产综合自在线另类| 国产精品白浆无码流出在线看| 国产网友愉拍精品| 久久一本精品久久久ー99| 欧美亚洲日韩中文| 在线观看免费黄色网址| 黄片一区二区三区| 国产美女无遮挡免费视频网站| 99热这里只有精品5| 日本久久网站| 国产精品99在线观看| 风韵丰满熟妇啪啪区老熟熟女| 亚洲动漫h| 潮喷在线无码白浆| 免费又爽又刺激高潮网址| 亚洲欧美自拍一区| 国产SUV精品一区二区| 伊人网址在线| 亚洲精品午夜无码电影网| 国产成人高清在线精品| aa级毛片毛片免费观看久| 伊人蕉久影院| 国产专区综合另类日韩一区| 91亚瑟视频| 中文字幕首页系列人妻| 福利国产微拍广场一区视频在线 | 最新国产成人剧情在线播放| 亚洲床戏一区| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲天堂视频网站| 亚洲资源在线视频| 亚洲第一视频网| 国产精品55夜色66夜色| 欧美视频免费一区二区三区| 久久精品日日躁夜夜躁欧美| 中文字幕在线欧美| 欧美亚洲日韩中文| 无码人妻热线精品视频| 色欲综合久久中文字幕网| 九九这里只有精品视频| 亚洲人人视频| 久久精品国产亚洲麻豆| 国产一二视频| 久热这里只有精品6| 国产免费一级精品视频| 国产美女精品在线| 无码AV日韩一二三区| 国产无码网站在线观看| 91美女视频在线| 国产精品亚洲一区二区三区在线观看| 亚洲AV无码久久天堂| 欧美丝袜高跟鞋一区二区| 美女无遮挡免费网站| 女人天堂av免费| 亚洲乱强伦| 国产鲁鲁视频在线观看| 日韩在线视频网站| 国产精品女熟高潮视频| 少妇极品熟妇人妻专区视频| 成色7777精品在线|