999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

WEB日志下數(shù)據(jù)挖掘的行為分析

2017-03-09 18:02:53施金妹
關(guān)鍵詞:頁面數(shù)據(jù)挖掘內(nèi)容

◆施金妹 章 欣

(海南科技職業(yè)學(xué)院 海南 571126)

WEB日志下數(shù)據(jù)挖掘的行為分析

◆施金妹 章 欣

(海南科技職業(yè)學(xué)院 海南 571126)

本文通過Web日志的數(shù)據(jù)挖掘搜索行為分析研究,得出如何進(jìn)行Web日志挖掘和在Web日志挖掘中應(yīng)采取的數(shù)據(jù)挖掘技術(shù)以及利用WEB挖掘技術(shù)應(yīng)用的用戶搜索行為技術(shù)。

Web; 數(shù)據(jù)挖掘; 搜索行為

0 前言

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中自動地提取出有價值的知識和信息。數(shù)據(jù)挖掘技術(shù)主要研究結(jié)構(gòu)化的數(shù)據(jù)挖掘,而Web數(shù)據(jù)的挖掘是應(yīng)用于Internet的技術(shù)研究,是從半結(jié)構(gòu)或無結(jié)構(gòu)的Web頁面中,抽取感興趣的、潛在的模式。

隨著Internet的迅猛發(fā)展,Web挖掘逐漸成為數(shù)據(jù)挖掘的熱點(diǎn),但是因?yàn)閃eb自身的特點(diǎn)——多數(shù)據(jù)源、數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化或無結(jié)構(gòu)以及動態(tài)性等,Web挖掘又是一個難點(diǎn)。Web數(shù)據(jù)挖掘是指針對包括Web頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)信息等在內(nèi)的各種Web數(shù)據(jù),應(yīng)用傳統(tǒng)數(shù)據(jù)挖掘方法以發(fā)現(xiàn)有用的知識,幫助人們從WWW中提取知識。盡管Internet是一個半結(jié)構(gòu)化的系統(tǒng),很難對它進(jìn)行處理,但是Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘的進(jìn)行。因此,Web日志挖掘是Web數(shù)據(jù)挖掘的一個分支,網(wǎng)絡(luò)管理人員可以根據(jù)Web日志的分析結(jié)果改進(jìn)網(wǎng)站的設(shè)計(jì),實(shí)現(xiàn)網(wǎng)站的有效管理,保證網(wǎng)絡(luò)的安全,它作為Web挖掘的一個重要組成部分,具有獨(dú)特的理論和實(shí)踐意義[1]。

1 Web數(shù)據(jù)挖掘技術(shù)

1.1 Web數(shù)據(jù)挖掘種類

(1)內(nèi)容挖掘。指對Web頁面內(nèi)容及后臺交易數(shù)據(jù)庫進(jìn)行挖掘,從Web文檔內(nèi)容及其描述中的內(nèi)容信息中獲取有用知識的過程[2]。

(2)結(jié)構(gòu)挖掘。從人為的鏈接結(jié)構(gòu)中獲取有用的知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。

(3)日志挖掘。使用記錄挖掘是通過挖掘相應(yīng)站點(diǎn)的日志文件和相關(guān)數(shù)據(jù)來發(fā)現(xiàn)該站點(diǎn)上的瀏覽者的行為模式,獲取有價值信息的過程。

1.2 技術(shù)處理

(1)通過數(shù)據(jù)預(yù)處理技術(shù),將Internet上非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息組織成邏輯單元,以表示事務(wù)或用戶會話,并將所有事務(wù)組成一個自定義的事務(wù)數(shù)據(jù)庫,這樣就可以利用對傳統(tǒng)數(shù)據(jù)挖掘的方法(如關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)等)對Web數(shù)據(jù)進(jìn)行挖掘; 另外,采用數(shù)據(jù)清洗技術(shù)從用戶訪問信息中去除大量無用或與當(dāng)前挖掘無關(guān)的數(shù)據(jù),有效地提高了挖掘效率[3]。

(2)從傳統(tǒng)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù)引入Web數(shù)據(jù)挖掘,求高頻站點(diǎn)集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的核心,也是計(jì)算量最大部分,可以采用了一種快速算法Apriori,并針對在Web應(yīng)用的特點(diǎn)進(jìn)行改進(jìn),能有效地提高了求高頻站點(diǎn)集的效率。通過分析Web訪問信息,可以發(fā)現(xiàn)用戶訪問站點(diǎn)之間的一些關(guān)聯(lián)規(guī)則,以及站點(diǎn)中頁面之間的一些訪問規(guī)則。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)可以在網(wǎng)站構(gòu)造、Web廣播等活動中得到廣泛應(yīng)用。

(3)寬帶網(wǎng)進(jìn)行Web廣播時,其播出的內(nèi)容是一個大的Web頁面集合。針對如何得到這個Web頁面集合,以及如何組織這Web頁面集合以利于用戶瀏覽這兩個問題,有一種新的聚類方法WebClustering,通過聚類得出聚類中心和聚類集,通過關(guān)聯(lián)規(guī)則算法得出可信度,據(jù)此構(gòu)造出一個有價值的Web頁面播出集合并且根據(jù)挖掘到的用戶訪問興趣,通過形成索引頁面集來幫助用戶訪問這個Web頁面集合。這種方法較好地解決了Web廣播中的內(nèi)容選擇及頁面組織問題,取得了較為理想的效果。

(4)Web訪問信息挖掘的一般過程是將傳統(tǒng)數(shù)據(jù)挖掘過程中的各種關(guān)鍵技術(shù),如數(shù)據(jù)預(yù)處理,聚類算法,關(guān)聯(lián)規(guī)則、序列模式發(fā)現(xiàn)等引入到對于Web信息的挖掘活動中,并通過一系列的實(shí)驗(yàn)進(jìn)行驗(yàn)證及評價; 在以上工作的基礎(chǔ)上,可以設(shè)計(jì)并實(shí)現(xiàn)了一個Web訪問信息挖掘原型系統(tǒng)(WWWMiner)。

2 WEB數(shù)據(jù)挖掘行為分析

WEB日志挖掘的主要目標(biāo)是從WEB的訪問記錄中抽取感興趣的模式,互連網(wǎng)中的每個服務(wù)器都保留了訪問日志(WEB Access Log),記錄了關(guān)于用戶訪問和交互的信息。利用web挖掘技術(shù),可以提高搜索引擎獲取信息的準(zhǔn)確性,并可以對用戶搜索結(jié)果進(jìn)行相關(guān)處理,盡量實(shí)現(xiàn)查準(zhǔn)率和查全率的有機(jī)結(jié)合。利用WEB日志挖掘技術(shù)進(jìn)行用戶搜索行為技術(shù)如下:

(1)文檔自動分類,與一般的純文本文件不同,Web頁面是HTML格式的超文本,頁面中有很多標(biāo)記,用以描述頁面的標(biāo)題、關(guān)鍵詞、以及URL等,這些都包含了重要的分類信息。通過Web挖掘和機(jī)器學(xué)習(xí)技術(shù)可以對索引數(shù)據(jù)庫中的信息進(jìn)行整理,對文檔進(jìn)行自動分類,從而提高了用戶的檢索速度和檢索的精確度。由于采用了機(jī)器自動分類的方法,克服了人工分類中信息檢索不全面、更新速度慢的缺點(diǎn)[4]。

(2)搜索結(jié)果聚類。用戶檢索時會得到大量的返回記錄集,其中很大一部分是與用戶的查詢請求不相關(guān)的。通過對檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔聚類得比較靠近,從而遠(yuǎn)離那些不相關(guān)的文檔。在對用戶搜索日志進(jìn)行分析時,可以把相關(guān)信息整合到結(jié)果聚類的過程,對擁有相似興趣的人返回的搜索結(jié)果集相關(guān)度也應(yīng)該是比較高的。

(3)實(shí)現(xiàn)個性化的搜索引擎。當(dāng)用戶接收到搜索引擎的返回結(jié)果時,用戶會根據(jù)簡短的文檔摘要進(jìn)行判斷,發(fā)現(xiàn)感興趣的內(nèi)容后會點(diǎn)擊該文檔,查看詳細(xì)內(nèi)容。通過對用戶在文檔上停留的時間,以及是否在該文檔進(jìn)一步訪問其他鏈接到該頁的文檔,是否重復(fù)訪問該文檔等歷史信息的不斷收集,可以發(fā)現(xiàn)一些與用戶所檢索的關(guān)鍵詞密切相關(guān)的網(wǎng)頁等說明了搜索引擎存在個性化性質(zhì)。

(4)自動文摘的形成。利用web文本挖掘中的文本總結(jié)技術(shù),可以從web頁中提煉出重要信息形成文檔摘要,使用戶能快速、方便地了解檢索信息。自動文摘技術(shù)可以使用戶直觀地快速地了解檢索出文檔的主要內(nèi)容。

(5)查詢結(jié)果的相關(guān)度排序

相關(guān)性是WEB檢索的核心。它使搜索引擎的主要目標(biāo)是檢索出所有與用戶查詢相關(guān)的文檔,盡可能減少不相關(guān)的文檔。基于Web文檔內(nèi)容的挖掘是建立在這樣一種假設(shè)之上,即從文檔中提取的文檔表示或者相關(guān)概率都可以是相對固定的。也就是認(rèn)為所有文檔都有一些客觀存的特征信息在那里等待提取[5]。用戶主觀上認(rèn)為相關(guān)的文檔才是真正的相關(guān)文檔。基于文檔內(nèi)容中包括的超文本鏈接信息的挖掘雖然考慮了網(wǎng)頁設(shè)計(jì)者對相關(guān)文檔的主觀判定,但忽略了真正的網(wǎng)頁使用者——用戶的心理。通過分析搜索用戶日志就能知道用戶在文檔相關(guān)判定上的意見,就能更好地挖掘相關(guān)文檔[6]。

數(shù)據(jù)挖掘及其用戶搜索行為的分析已成為數(shù)據(jù)庫技術(shù)和機(jī)器學(xué)習(xí)方面的重要的研究課題。可見,正確的使用數(shù)據(jù)挖掘的搜索行為可以實(shí)現(xiàn)網(wǎng)站的有效管理,保證網(wǎng)絡(luò)安全的同時大大提高我們的工作效率,在最好的時間內(nèi)搜索挖掘到我們想要獲取的知識與信息。

[1]朱彥霞,張雪萍,王家耀.改進(jìn)的頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2009.

[2]陳文.基于Fp樹的加權(quán)頻繁模式挖掘算法[J].計(jì)算機(jī)工程,2012.

[3]李曉昕,謝維奇.基于Web日志挖掘的網(wǎng)上學(xué)習(xí)行為研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011.

[4]吳夢杰,陳紅琳.基于Web日志挖掘的用戶興趣度分析[J].智能計(jì)算機(jī)與應(yīng)用,2011.

[5]朱彤,劉奕群,茹立云,馬少平.基于用戶行為的長查詢用戶滿意度分析[J].模式識別與人工智能,2012.

[6]孫玲芳,夏聰.Web使用挖掘在用戶行為分析中的應(yīng)用[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011.

猜你喜歡
頁面數(shù)據(jù)挖掘內(nèi)容
大狗熊在睡覺
刷新生活的頁面
內(nèi)容回顧溫故知新
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
主要內(nèi)容
臺聲(2016年2期)2016-09-16 01:06:53
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
主站蜘蛛池模板: 日韩欧美91| 99久久精品视香蕉蕉| 激情乱人伦| 成人在线观看一区| 2020国产精品视频| 亚洲欧美日韩中文字幕在线一区| 国产小视频在线高清播放| 中文字幕欧美日韩| 欧美一级99在线观看国产| 97国产在线观看| 久久国产精品夜色| 国产微拍精品| 亚洲视频a| 亚洲激情区| 日本亚洲国产一区二区三区| 欧美一区二区丝袜高跟鞋| 欧洲熟妇精品视频| 少妇精品网站| 国产精品女同一区三区五区| 久久综合九九亚洲一区 | 亚洲人成电影在线播放| 亚洲国产理论片在线播放| 日韩 欧美 小说 综合网 另类| 5555国产在线观看| 国产麻豆福利av在线播放| 国产一级小视频| 成人无码一区二区三区视频在线观看| 亚洲婷婷丁香| a毛片免费在线观看| 国产99视频在线| 九九免费观看全部免费视频| 亚洲成在人线av品善网好看| 啊嗯不日本网站| 国产乱人乱偷精品视频a人人澡| 99热这里只有精品国产99| 一级毛片视频免费| 日韩天堂在线观看| 国产精品yjizz视频网一二区| 久久久久无码精品国产免费| 国产www网站| 在线无码九区| 精品视频第一页| 在线播放精品一区二区啪视频| 成人一级黄色毛片| 中文字幕色在线| 免费国产黄线在线观看| 区国产精品搜索视频| a在线亚洲男人的天堂试看| 污网站免费在线观看| 伊人久久久久久久| 亚洲香蕉久久| 无套av在线| 91久久夜色精品国产网站| 国产一区二区三区在线观看视频| 国产精品人成在线播放| 亚洲精品无码成人片在线观看 | 久久亚洲黄色视频| 一区二区三区在线不卡免费| 超清无码一区二区三区| 天堂av综合网| 99热这里只有免费国产精品 | 日本精品αv中文字幕| 欧美综合区自拍亚洲综合天堂| 欧美日韩在线亚洲国产人| 婷婷开心中文字幕| 美女视频黄频a免费高清不卡| 日本欧美午夜| 日本在线欧美在线| 青青草国产在线视频| 日本成人在线不卡视频| 999国产精品| 成人毛片免费在线观看| 久久久久九九精品影院| 亚洲人成网18禁| 最近最新中文字幕免费的一页| 国产亚洲欧美在线人成aaaa | 91精品小视频| 久久a级片| 亚洲欧美另类视频| 欧美日本一区二区三区免费| 亚洲一级色| 国产一区二区在线视频观看|