999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據挖掘及常用技術淺析

2012-10-21 14:55:59鄧紅梅
卷宗 2012年5期
關鍵詞:頁面數據挖掘數據庫

摘要:Web挖掘是通過挖掘Web日志記錄來發現客戶訪問Web頁面的模式。用戶在面對大量的網上信息束手無策時,Web挖掘技術為用戶提供了方便快捷的解決方案。

關鍵詞:Web 挖掘;數據挖掘

引 言

近年來,Internet在不斷地普及,WWW在迅速地發展,人們可以通過網絡方便地得到自己需要的信息,但是網上信息的大量涌現使得用戶經常感到束手無策,甚至常常不知道如何查找自己所需要的信息,用戶為此苦惱萬分。Web數據挖掘技術提供一個很好的解決方法,它不但可以為訪問用戶提供方便,而且對提高站點效率、吸引客戶等都有很大的幫助。

在現實當中人們常常將Web挖掘與Web信息檢索或信息抽取等同起來。實際上它們不是等同的,并且是有區別的:一、信息檢索只能以關鍵詞去查找與關鍵字匹配的簡單目標,如果用戶給出的不是關鍵字,而是信息樣本,這時信息檢索就無法滿足用戶的要求,但是挖掘系統是可以滿足用戶要求的,它能夠從文本中提取出目標信息的特征,然后根據目標特征在網絡中有目的地進行搜索,最后將搜索結果返給用戶。二、信息檢索實際上是在一定的領域內對特定的信息進行查找和檢索,在某種程度上可以看作是Web挖掘中文檔分類的一種特殊情況。三、信息檢索只是一部分使用到了數據挖掘技術,正是因為這樣,在信息檢索中在一般情況下是很難發現隱式的數據聯系,而Web挖掘卻不同,它能從大量看似無關的數據中發現數據聯系和知識,并對于決策給予支持。

1 Web挖掘

Web挖掘是利用數據挖掘技術從Web頁面內容、頁面之間的關系與結構、用戶的訪問記錄等Web數據中提取滿足用戶目標的有用知識、有用信息,以便為Web用戶的訪問提供方便或為網站經營者改善站點結構提供決策支持等[1]。Web挖掘不是一個單一的技術,涉及互聯網技術、統計學、信息學等多個領域[2]。Web挖掘過程可分為多個處理階段:確定挖掘目標、準備源數據、數據選擇及數據預處理、數據挖掘及模式識別、分析評價等階段。

傳統數據庫中的數據都是結構化的數據,而Web上的數據是半結構化的,半結構化是相對于數據庫中的結構化數據而言的。由于Web的異構性、動態性與開放性等特點,要從這些分散的、沒有統一管理的、異構的大量數據中準確、迅速地獲取信息是Web挖掘要解決的問題,這也決定了在進行Web挖掘時不能完全依賴于數據庫的挖掘技術。面向Web的數據挖掘比面向數據庫的數據挖掘要復雜很多,進行Web挖掘要考慮很多問題[3]。

1.數據來源分析。進行Web挖掘時所需要的數據主要來自于三個方面:Web服務器上記錄的訪問日志、Web服務器上的頁面所包含的信息以及客戶的相關資料信息。用戶訪問Web 站點時,站點會記錄其訪問記錄。借助一些工具可以處理和分析Web服務器上的日志文件從而得到有意義、有價值的信息。Web服務器還可以記錄用戶其他的訪問信息,例如:Cookie和用戶提交的查詢信息等。與此同時,服務器也記錄文件的相關屬性,例如文件的創建者、修改時間等。而注冊用戶的資料信息存儲在資料數據庫中,內容如:客戶的姓名、年齡,對于產品的看法,顧客的個人偏好等。Web挖掘的一個難點就是如何從非結構化數據信息中進行有效地信息和數據挖掘。

2.異構數據庫環境。從數據庫角度來看,Web網站上的信息也可以被當作一種特殊的、復雜的數據庫。互聯網上的任何站點都是數據源,而且都是異構的數據源,因而站點之間的信息和組織都是有差別的,這就構成了一個巨大的異構數據庫環境。如果想在這個巨大的異構數據庫上進行數據挖掘必須解決幾個問題。第一,必須要想辦法把這些分布的數據集成起來,只有將這些不同站點的數據都集成在一起,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的信息或知識。第二,還要解決Web上的數據查詢問題,如果不能快速、準確地查找這些數據,就不能對這些數據進行分析、集成和處理。

3.半結構化的數據結構。數據庫中的數據和Web上的數據有著很大的不同,數據庫中的數據都是根據一定的數據模型來進行具體描述的。而Web上的數據則不同,它沒有特定的數據模型來描述,各Web站點的數據是獨立設計出來的,之間的差異很大,并且在自述性和動態性上也表現得相當的大的差異。因而,Web上的數據的結構性不是很強,只能說有一定的結構性,同時因自述層次的存在,Web上的數據是一種非完全結構化的或者是半結構化數據。半結構化是Web上數據的最大特點。

4.半結構化的數據源問題的解決。由于數據源的特殊性,要進行Web數據挖掘第一步就建立半結構化數據源模型和半結構化數據模型,解決其中的集成和查詢難題。這就必須要建立一個模型來來對Web上的數據進行描述。Web上的半結構化的數據需要定義一個半結構化的數據模型和模型的抽取技術來對現有數據自動地的抽取半結構化模型。面向Web數據挖掘的前提條件就是半結構化模型和半結構化數據模型抽取技術這種技術。

Web挖掘的基本構架如下圖所示:

2 Web數據挖掘中的常用技術

常用的Web數據挖掘中技術包括:路徑分析技術,關聯規則挖掘技術、序列模式挖掘技術和聚類分類技術等[3]。下面對它們進行簡單的分析:

1.路徑分析技術

對Web數據挖掘時,路徑分析技術比較常用的是運用圖的方法。因為我們可以用一個有向圖來表示Web站點,即:G=(P,I),P代表了頁面的集合,每一個頂點就是一個頁面,I表示的事頁面之間的超連接的集合,有向圖中的邊被定義為頁面之間的超鏈接。以頂點v為頭的邊來表示對v的引用,以頂點v為尾的邊定義為v引用了其他的頁面值,這樣形成網站結構圖[4]。

2.關聯規則挖掘技術

數據挖掘中最常用、最易被人們所接受的研究方法就是關聯規則挖掘。使用關聯規則技術可以從Web訪問事務中找到有價值的知識,這些有價值的知識是隱藏在數據集中的,是事先未知的,不是簡單通過數據庫的邏輯操作可以推出的,需要經過仔細分析才能得到。例如:75%的用戶在訪問頁面A的同時也訪問了頁面B,A與B之間的關聯性就屬于隱式的知識。最常用的是用APRIOR算法,從事務數據庫中挖掘出最大頻繁訪問項集,它就是挖掘出來的用戶訪問模式。

3.序列模式挖掘技術

序列模式是指在時間有序的事務集上找出那些時間上有先后次序的數據項,也就是尋找那些形如“一些項跟在另一些項后面”的內部事務模式。例如:訪問過頁面A的客戶中有60%的人在上一禮拜內也訪問過與頁面A相似的頁面B。發現序列模式可以預測用戶的訪問興趣。

4.聚類分類技術[4]

分類規則可以挖掘出識別特殊群體的公共特性的描述,這個特性可以用來對數據庫里的新數據項進行分類。分類算法的研究比較多,常用的算法有:CART 、C4.5、 ID3等。聚類是將物理的或抽象的對象分為幾個組或群體,每個組內的對象很相似,不同組內的對象不相似,與分類最大的不同是事先并不知道類結構及每個對象所屬的類。聚類技術則是對符合某一規律特征訪問的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。

3 結語

隨著互聯網應用業務的不斷展開,互聯網已經發展成為商業、政府等機構從事業務和信息傳播的重要渠道。建立互聯網動態應用模型,已經成為互聯網應用中最活躍的研究領域之一。Web挖掘是利用數據挖掘技術從Web頁面內容、頁面之間的關系與結構、用戶的訪問記錄等Web數據中提取來滿足用戶目標的有用知識、有用信息的。通過分析和探究Web日志記錄中的規律,可識別網站的潛在客戶,增強對最終客戶的國際網絡信息服務品質,并改進Web站點的結構、運營形式、Web服務器系統的性能和結構。

參考文獻

[1] Perkowitz M, Etzioni 0.Adaptive sites: automatically learning from user access patterns.6th Int. World Wide Web Conf.SantaClara, Califormia, 1997

[2] Hahn U,Schnattinger K.Deep Knowledge discovery from natural language texts.In Proc Of the 3rd Intl Conf on Knowledge Discovery and Data Mining.New port Beach,1997,pp.175-178

[3] Tan P N,Steinbach M,Kumar V.《數據挖掘導論》.范明等譯.北京:人民郵電出版社,2006年第95頁

[4] 王欣如:《基于關聯規則的Web日志挖掘技術研究》[D],《重慶大學碩士學位論文》,2007年。

作者簡介:

鄧紅梅(1977-),女(漢),廣東省輕工業高級技工學校教師,研究方向:計算機科學與技術。

猜你喜歡
頁面數據挖掘數據庫
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 欧美日韩国产综合视频在线观看| 亚洲精品高清视频| 久久一本精品久久久ー99| 精品一区二区久久久久网站| 国产真实乱人视频| 97se亚洲综合在线天天| 亚洲自拍另类| 二级特黄绝大片免费视频大片| 色妞www精品视频一级下载| 伊伊人成亚洲综合人网7777| 青青草国产在线视频| 九九精品在线观看| 亚洲日本精品一区二区| 国产偷倩视频| 欧美精品啪啪| 在线看AV天堂| 任我操在线视频| 日韩高清无码免费| 青青青国产在线播放| 婷婷伊人久久| 欧美精品一二三区| 91在线国内在线播放老师| 99r在线精品视频在线播放 | 全部无卡免费的毛片在线看| 色哟哟国产成人精品| 日韩不卡免费视频| 无码 在线 在线| 亚洲性影院| 老司国产精品视频91| 亚洲第一成网站| 五月天在线网站| 日韩在线第三页| 22sihu国产精品视频影视资讯| 天天色综网| 手机在线免费不卡一区二| 热伊人99re久久精品最新地| 免费人成视频在线观看网站| 亚洲精品无码不卡在线播放| 美女高潮全身流白浆福利区| 国产成人精品18| 日韩不卡高清视频| 国产欧美在线| 色吊丝av中文字幕| 中文字幕在线日本| 亚洲九九视频| V一区无码内射国产| 国产对白刺激真实精品91| 69av免费视频| 青草娱乐极品免费视频| aa级毛片毛片免费观看久| 国产理论一区| 亚洲成人精品在线| 中国特黄美女一级视频| 在线va视频| 精品国产aⅴ一区二区三区| 在线观看免费AV网| 狠狠综合久久| 波多野结衣久久高清免费| 亚洲欧美综合另类图片小说区| 中文字幕亚洲另类天堂| 国产成人三级| 国产网友愉拍精品| 成年人福利视频| 国产精品自在在线午夜| 国产xx在线观看| 97精品久久久大香线焦| 黄网站欧美内射| 视频二区亚洲精品| 国产在线一二三区| 日韩精品一区二区深田咏美| 国产精品手机在线播放| 欧美啪啪精品| 东京热av无码电影一区二区| 日本精品αv中文字幕| 99免费在线观看视频| 久草国产在线观看| 无遮挡国产高潮视频免费观看 | 一本综合久久| 国产无遮挡裸体免费视频| 激情综合网激情综合| 国产91av在线| 免费看美女毛片|