999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網(wǎng)頁瀏覽的群體用戶興趣模式挖掘

2013-01-01 00:00:00許國迎
電腦迷 2013年1期

摘 要 當今社會,網(wǎng)絡的發(fā)展日益成為人們生活的重要組成部分。隨之而來的,網(wǎng)絡中的巨大數(shù)據(jù)資源亦得到了廣大學者越來越多的重視。因此,許多學者致力于數(shù)據(jù)挖掘技術與人類動力學研究的結合,并應用于實踐當中。

關鍵詞 網(wǎng)頁 群體用戶 模式

中圖分類號: TP311 文獻標識碼:A

著名學者Barabasi 在2005年的一篇文章中,提出了一個基于決策的優(yōu)先權模型,自此開啟了人類動力學方向的熱烈討論。隨后,Vazquez又得到了對該模型的精確解。我們發(fā)現(xiàn)這些模型都是從排隊論的任務模型中角度來研究人類動力學。其實,生活中的人類行為紛繁復雜,何止是完成任務這類行為。比如說興趣愛好往往也是人類的一種重要行為去向,諸如電影點播、發(fā)短息和網(wǎng)頁瀏覽等行為就是典型的興趣愛好。

在當前階段,挖掘用戶興趣行為的方式有兩種:一是單純從用戶行為的歷史信息中發(fā)現(xiàn)隱藏的規(guī)律;一種是基于瀏覽內容和行為相結合的方式。我們認為,單純從一個方面來分析用戶的興趣是不夠的,應該從各個角度,各個層面來建立用戶的興趣模簇,在此基礎上,從網(wǎng)頁瀏覽日志中提取出若干關鍵字,進行分類統(tǒng)計分析。

1 用戶興趣的挖掘——興趣的分類標準

利用文本分類技術,首先對用戶瀏覽過的頁面進行內容分析, 并根據(jù)主題信息對頁面進行聚類;在聚類的過程中除了考慮頁面內容的相近程度外還輔以頁面路徑進行歸類判斷。在最后得到頁面的興趣簇。最后,我們?yōu)榱溯^為準確的反映用戶的真實興趣,將用戶的網(wǎng)絡

行為分為了18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂、網(wǎng)上購物、生活相關、游戲、體育、電影音樂、網(wǎng)頁瀏覽郵件、文學、財經(jīng)、求職招聘、房產(chǎn)裝修、股票交易、軍事。鑒于所選對象為高校師生,因此這18類興趣可基本代表這一特定群體的主流興趣取向。

2 運用關聯(lián)規(guī)則和頻繁模式發(fā)現(xiàn)群體用戶興趣的頻繁模式

2.1什么是關聯(lián)規(guī)則

關聯(lián)規(guī)則反映了一個事務與其他事務之間的相互依存性和關聯(lián)性。如果兩個或多個事務之間存在著一定的關聯(lián)關系,那么,其中一個事務就一定能通過其他與之相關的事務進行預測。最經(jīng)典的例子是超市中尿片和啤酒的關系。

2.2關聯(lián)規(guī)則的基本模型

設 = {,,…}為所有項目的集合,為事務數(shù)據(jù)庫,事務是一個項目子集(€H眨C懇桓鍪攣窬哂形ㄒ壞氖攣瘛I枋且桓鲇上钅抗鉤傻募希晌羆J攣癜羆鼻醫(yī)齙眬H鍘H綣謔攣袷菘庵諧魷值拇問賈兇蓯攣竦陌俜直冉兇魷羆鬧С侄取H綣羆鬧С侄瘸沒Цǖ淖钚≈С侄茹兄擔統(tǒng)聘孟羆鈉搗畢羆ɑ虼笙羆?

2.3 規(guī)則度量:支持度和置信度

查找所有的規(guī)則€H!具有最小支持度和可信度。

支持度:一次交易中包含{}的可能性。

置信度:包含{}的交易中也包含的條件概率。

3 結合數(shù)據(jù),具體分析

3.1 群體用戶的網(wǎng)絡訪問興趣統(tǒng)計

這里的群體用戶是指把所以用戶看成一個整體,即按照訪問網(wǎng)絡的時間來進行群體用戶訪問量的排序,以考察所有用戶瀏覽網(wǎng)頁的行為特征。我們發(fā)現(xiàn),在這兩周時間內,群體用戶的興趣保持了一定的穩(wěn)定性,搜索引擎的訪問量居高不下,其次,教育類、新聞類、交友聊天類成為搜索引擎之后的主流;對于體育、電影音樂和軍事屬于特定人群的興趣。另外,途中第四天是5月12號紀念汶川地震日,娛樂活動暫停,故而訪問量大幅下降。

3.2 運用軟件進行分析

軟件中設定最小支持度和置信度均為90%,在此規(guī)則下,共得出27組頻繁模式,例如98.2%的用戶會通過搜索引擎,新聞門戶來瀏覽娛樂網(wǎng)頁,其置信度為92.8%;而且99.6%的用戶會直接選擇搜索引擎來去瀏覽娛樂信息,置信度為92.8%等。詳細結果如表1。

4 結束語

網(wǎng)頁瀏覽記錄對于研究人類動力學具有重要的實際意義。文章的核心思想是從實證角度利用關聯(lián)規(guī)則對日志中群體用戶的興趣簇進行頻繁訪問模式挖掘,使用的是經(jīng)典的Apriori算法。該算法一直是關聯(lián)規(guī)則中被使用次數(shù)最多的算法。但是,在處理web日志時卻存在著兩個不容忽視的問題:(1)web日志的數(shù)據(jù)量是制約算法實現(xiàn)效率的一大瓶頸,從而對數(shù)據(jù)的先期預處理提出了更高的要求;(2)在進行興趣模式挖掘的時候,我們事先給定的18個興趣類,也是人為的劃分,因此也容易產(chǎn)生人為因素的干擾。

文章用關聯(lián)規(guī)則來研究人們的興趣模式,并從實證角度為人類動力學研究提出了一個切實可行的思路。

參考文獻

[1] 陳文偉 越新且. 數(shù)據(jù)挖掘技術[M]. 北京:北京工業(yè)大學出版社,2002.

[2] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘[M]. 北京:機械工業(yè)出版社,2008.

[3] 王繼成. Web文本挖掘技術研究[J].計算機研究與發(fā)展 2000(37).

主站蜘蛛池模板: 欧美日韩激情在线| 国产在线无码一区二区三区| 午夜免费视频网站| 性喷潮久久久久久久久| 制服丝袜在线视频香蕉| 女人一级毛片| 国产杨幂丝袜av在线播放| 久久人妻xunleige无码| 精品少妇人妻无码久久| 国产又爽又黄无遮挡免费观看| 91在线一9|永久视频在线| 日韩AV手机在线观看蜜芽| 九色视频线上播放| 好吊妞欧美视频免费| 亚洲欧美综合精品久久成人网| 中日韩一区二区三区中文免费视频| 亚洲中文字幕av无码区| 国产黑丝一区| 午夜精品久久久久久久99热下载 | 多人乱p欧美在线观看| 91成人试看福利体验区| 夜色爽爽影院18禁妓女影院| 亚洲国产成人精品无码区性色| 欧美精品在线免费| 久久精品这里只有国产中文精品 | 福利小视频在线播放| 欧美日韩久久综合| 99偷拍视频精品一区二区| 国产美女免费| 黄片在线永久| 国产美女精品人人做人人爽| 亚洲精品在线91| 国产精品久久久久久久伊一| 久久久久亚洲精品成人网| 国产视频只有无码精品| 亚洲成人福利网站| 国产精品污污在线观看网站| 精品一区二区久久久久网站| 香蕉eeww99国产精选播放| 色悠久久久久久久综合网伊人| 老司国产精品视频| 九九热精品免费视频| 国产精品人莉莉成在线播放| 亚洲欧美日韩高清综合678| 人妻无码一区二区视频| 日韩第九页| 成人亚洲国产| 日韩无码白| 成人国产精品2021| 色综合中文综合网| 精品亚洲欧美中文字幕在线看| 日本国产精品一区久久久| 伊人查蕉在线观看国产精品| 久久精品人人做人人爽| 中文字幕无线码一区| 日韩精品毛片人妻AV不卡| 国产一在线观看| 色综合网址| 亚洲AV电影不卡在线观看| 日韩一区二区在线电影| 国产一国产一有一级毛片视频| 亚洲国产成人无码AV在线影院L| a毛片基地免费大全| 2019年国产精品自拍不卡| 成人毛片免费观看| 九九九精品成人免费视频7| 无码aaa视频| 国产精品专区第一页在线观看| 中文字幕在线看视频一区二区三区| 亚洲av无码成人专区| 91精品国产福利| 久久黄色小视频| 99ri精品视频在线观看播放| 欧美国产菊爆免费观看| 精品91在线| 国产在线观看一区二区三区| 色婷婷在线播放| 又黄又湿又爽的视频| 国产成人h在线观看网站站| 国产成人免费| 亚洲91精品视频| 国产9191精品免费观看|