999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于頻繁序列挖掘的男女生上網模式差異研究

2017-08-10 09:52:45孫啟亮牟超孟瑤
現代計算機 2017年17期

孫啟亮,牟超,孟瑤

(重慶大學計算機學院,重慶400044)

基于頻繁序列挖掘的男女生上網模式差異研究

孫啟亮,牟超,孟瑤

(重慶大學計算機學院,重慶400044)

以網絡日志作為研究數據,采用頻繁序列挖掘和K-means聚類算法挖掘不同性別學生上網模式的區別。通過對比男女生在高、中、低三個不同頻段的網絡訪問模式發現:在最常訪問的網站類型上男女生并沒有明顯區別。男生更多地將網絡用于娛樂和社交目的,而女生更多地把網絡當做獲取信息的工具。此外男生訪問的網站類型比女生更豐富。同時,提出一種將序列轉換成向量的方法BitOccurrence。

性別差異;頻繁序列挖掘;聚類;網絡日志

0 引言

確性較好。

隨著互聯網的發展和普及,學生花費在網絡上的時間越來越多[1]。網絡訪問模式的差異在一定程度上代表了不同用戶之間愛好,行為模式或思考方式的差異。研究不同性別群體之間的上網模式差異一方面有助于理解男女生網絡訪問偏好,另一方面也可以幫助網站設計者針對不同性別的用戶開發出更有針對性的內容[2]。網絡使用的性別差異(gender gap in Internet use)的主要研究內容是不同性別的群體在互聯網的使用方式上的區別。前人已經在這個方向做了大量研究。Eric B.Weiser通過研究發現男生更多地將網絡用于娛樂目的,而女生更多地用網絡輔助科研學習[3]。Chien-Huang Lin等人的研究表明:女生更多地將網絡視為一種工具,會花更多時間在E-mail和獲取信息上;男生更多地將網絡看做一種娛樂方式,會花更多地時間在游戲和下載軟件上[4]。這些研究的數據均來自于調查問卷。通過向被研究群體發放調查問卷的形式收集群體上網的信息,這種方式的問題在于,被調查者有時會出于隱私保護等目的而胡亂填寫問卷,對資料的真實性造成影響[5]。本文的研究使用網關服務器的日志作為研究資料,通過頻繁序列模式挖掘算法挖掘不同性別學生使用網絡的模式,數據的客觀性和準

1 數據介紹

1.1 網絡日志

本文使用的數據是中國某重點大學的網關服務器的日志數據。日志記錄了訪問者ID(已做脫敏處理),訪問時間、URL地址、設備MAC地址等信息。

本研究選取2014和2015級學生在2015年9月~2016年1月(截止到1月17日寒假前)間的網絡日志作為研究數據。各年級和性別人數如表1所示。日志文件的體積達到6.7TB。

1.2 網址分類庫

為了研究學生訪問網站類別的差異,我們建立了網址分類庫。分類庫中共收集了12,000個域名地址(包括子域名)。這些域名被分為335個類別[6],并用數字來唯一標識不同的網站類型,如269代表“搜索引擎”類型網站。

表1 各年級、性別人數

2 數據預處理

2.1 數據清洗

獲取的網絡日志并不能直接用于日志分析。日志服務器會記錄每一個接收到的請求,當用戶打開一個網頁時可能產生十幾條記錄,其中大部分是由于加載靜態資源而產生的記錄,還有一部分是由于網站流量統計和廣告展示產生的訪問記錄。經過分析,靜態資源相關的記錄占到總記錄數的70%,廣告和流量統計的相關記錄站到5%。這些信息會影響我們分析用戶的訪問模式,所以需要將這些記錄剔除。

另外一類需要剔除的信息是由安裝在計算機上的軟件自動且頻繁觸發的訪問記錄。常見的是殺毒軟件、下載器等常駐內存的應用程序。

2.2 數據轉換

原始日志文件的記錄粒度較小,每個用戶的每一個URL請求都會產生一條記錄。這種細粒度的記錄在本研究中并非必須,且記錄條數過多會極大增加計算量。故每個人在某一天產生的訪問記錄被匯總成一條記錄。同時,請求的域名被映射到對應的網站類型。轉換之后的日志文件示例如下。其中的“#”用于間隔網站類型編號。

2.3 數據概貌

經過2.1、2.2的處理后,日志文件包含記錄817,829條,男生的記錄558,451條,女生數據259,378條。男女生上網數據的基本統計信息如表2所示,其中平均每個男生有記錄68.6條,女生有56.1條。

表2 男女生日志統計數據

圖1是335個網站類型支持度的密度圖。網站支持度的計算公式如(1)。

從圖中可以看出各網站類型的支持度極度不均衡,只有極少數網站類型具有較高的支持度,絕大部分網站的支持度都很小。如果直接對數據進行頻繁序列挖掘,則結果將僅由支持度較高的少數幾個網站類型組成,從而造成其他的訪問序列模式被淹沒。本研究將網站類型按照支持度的大小分成高、中、低三個頻段,可以更全面的反應學生上網情況。高頻部分包含支持度在(0.6,1]內的網站類型,中頻部分包括支持度在(0.1,0.6]內的網站類型,低頻部分包含支持度在[0,0.1]之間的網站類型。

圖1 網站類型支持度密度曲線

3 實驗描述

3.1 相關技術介紹

(1)元素

一個元素對應事務數據庫中的一個事務,表示為(x1,x2,xm),xk為不同的單項。在本研究中xk為某一個網站類型。

(2)序列

序列是不同元素的有序排列。序列S可以表示為S=,亦可表示為 s1à s2à à sj。 sa一定發生在sb之前,如果1≤a

序列中的節:序列中的第k個元素,稱作序列的第k節。

(3)頻繁序列挖掘

頻繁序列挖掘是一種從序列數據庫中找出滿足最小支持度minSup的子序列的算法[7]。其與頻繁項挖掘的區別在于,頻繁項挖掘作用于事務數據庫,而頻繁序列挖掘作用于序列數據庫。常見的序列挖掘算法有基于Apriori思想的Apriori類算法和基于投影技術的序列挖掘算法[8]。

(4)K-means聚類

聚類算法經常被用于數據壓縮和概括,通過聚類將相似的數據聚集在一起,用中心點代替整個簇[9]。K-means是一種基于距離的聚類算法。可以將數據分成指定個數的聚簇,并計算出每個聚簇的質心。

(5)BitOccurrence編碼

頻繁序列挖掘的結果是序列,為了壓縮序列,減少序列個數需要使用K-means算法聚類,K-means算法的輸入是向量。BitOccurrence可用于將一組序列轉換為一組向量。向量的屬性由序列中出現的元素組成。向量中每個屬性的值由該元素在序列中出現的位置和次數決定。對于向量Vi中的任意屬性ak(其中1≤k≤n)都由m個二進制位組成,屬性ak的值是二進制位對應的十進制數值。二進制位從低位到高位依次為b1~bm,其中m為序列Si中元素的個數,n為向量中不同網站類型的個數。對于其中的任意一位 bj(1≤j≤m),若屬性ak在Si的第 j小節(從左到右依次為第1~m節)出現,則bj=1,否則bj=0。

如果一個示例如下:序列:

向量:

表3

3.2 實驗流程

本研究通過對比男女生上網的頻繁序列模式來研究男女生上網模式的差異。

如圖2所示,實驗主要分為6個步驟,其中核心步驟是第4步,對日志文件進行最大頻繁序列挖掘。步驟1用于計算各網站類型的支持度。步驟2根據1中計算的支持度將日志文件分為高、中、低頻三個部分,又因為男生和女生的日志記錄要分開挖掘,故產生了6個數據集,分別為 DHigh_male、DMid_male、DLow_male、DHigh_female、DMid_fe?male、DLow_male。劃分結果如表4所示。

圖2 實驗流程圖

表4 男女生各頻段網站類型個數

由于網站類型較多,日志條數較多,為了能在可接受的時間內計算出挖掘結果,步驟3需要將日志的粒度調整為“月”,以縮減記錄條數。同時,對于每個用戶,只保留其當月訪問次數排在前K位的網絡類型,如此可以縮減每個序列的中單項的個數。當K取10時,各頻段網站類型的覆蓋率較好,各性別、頻段的日志覆蓋率如表5所示(覆蓋率是指被選出的網站類型組成的記錄占原記錄的比例)。

表5 各頻段男女生日志網站類型覆蓋率

步驟4用最大頻繁序列挖掘算法對日志進行挖掘[10]。挖掘出的結果包含的序列較多,不方便直接用于對比。需要先利用BitOccurrence算法將頻繁序列轉換為向量(步驟5),再利用K-means算法進行聚類(步驟6),以縮減序列數量。

4 實驗結果分析

經過頻繁序列挖掘和聚類處理后,得到6組序列數據,分別為男生和女生的高、中、低頻段的網絡訪問序列模式。將序列格式化成表格的形式。表格的每一列對應序列中的一個元素(節)。

4.1 高頻

高頻部分結果如表6所示。該部分的網站類型是用戶訪問最頻繁的網站。在這部分網站的訪問上,男生和女生并沒有非常明顯地區別。從表5可以看出在“門戶網站”、“搜索引擎”兩個類別上男生和女生的訪問模式相同。對于“在線影視”和“綜合購物”類型的網站男生和女生都較頻繁的訪問,但男生的訪問序列的每個小節都包含這兩種類型,而女生的訪問序列模式只在第二、三小節包含這兩個類型,說明男生對這兩個類型網站的訪問更為頻繁。除此之外男生還額外還訪問了“在線影視”、“在線音樂”、“軟件下載”和“微博”這些類型的網站。

表7 中頻部分的序列

表6 高頻部分的序列

4.2 中頻

中頻部分結果如表7所示。中頻部分,男女生訪問的網站類型差異明顯。男生更多地關注了游戲相關、“手機軟件”、“電子地圖”、“網站導航”等類型的網站,而女生則更多地關注了“數碼家電”、“博客”、“百科問答”、“電子支付”相關的網站。從這部分數據可以看出女生更傾向于從網絡獲取信息,利用網絡解決問題。而男生更多地參與到網絡娛樂當中。

表8 低頻部分書序列

4.3 低頻

低頻部分結果如表8所示。該部分的網站類別并非學生訪問網站的主流。從挖掘的結果可以看出:男女生在該部分的訪問模式也有顯著差異。男生更多地關注了“交友綜合“、”硬件評測“、“女性綜合”、“歷史人物”、“母嬰親子”、“財經資訊”和“醫療健康”等類型的網站。而女生則更多地關注了“報刊雜志”、“IT資訊”、“汽車資訊”和“游戲綜合”等類型的網站。

“游戲綜合”網站類型,出現在男生的中頻部分,而出現在女生的低頻部分,這說明女生同樣關注游戲相關的內容,但是關注度小于男生。從關注的內容上來說,女生更多地關注和游戲資訊、攻略相關的內容;而男生對于游戲的關注更為全面,包含了游戲資訊、游戲攻略、游戲官網、網絡游戲等。

此部分數據顯示,女生更多地利用網絡獲取信息和資訊。男生同時還將網絡用于社交目的。

5 結語

本文以網絡日志作為研究數據,以2014、2015級本科生作為研究對象,通過序列挖掘算法挖掘不同性別的學生的上網模式。同時,還提出了一種將序列轉化成向量的編碼方法BitOccurrence。通過對男女生上網序列模式的對比發現:男女生在最常訪問的網站類型上沒有明顯地區別。男生訪問的網站類型比女生更豐富。男生上網更多地進行娛樂和社交活動,而女生則更多地將網絡作為獲取資訊和信息的工具。

本文以網關服務器的日志作為數據來源比將調查問卷作為數據來源的方法具有更好的準確性。

[1]Large,Andrew.Gender Differences in Collaborative Web Searching Behavior:an Elementary School Study[J].Information Processing&Management,2002:427-443.

[2]Lian,J.W.Online Shopping Drivers and Barriers for Older Adults:Age and Gender Differences[J].Computers in Human Behavior,2014:133-143.

[3]Weiser,Eric B.Gender Differences in Internet Use Patterns and Internet Application Preferences:A Two-Sample Comparison[J].Mary Ann Liebert,Inc.,2000:167-168.

[4]Lin,C.H.Adolescent Internet Usage in Taiwan:Exploring Gender Differences[J].Adolescence,2008:317-331.

[5]李廣義.人力資源管理[M].天津大學出版社,2009.

[6]Qing Zhou.Predicting Student Performances From Access Records on General Websites[J].Electronics,Communications and Networks IV,2015:661-664.

[7]王虎,丁世飛.序列模式挖掘研究與發展[J].計算機科學,2009:14-17.

[8]Sun,H,Sun,J.H,Chen,H.Mining Frequent Attack Sequence in Web Logs[J].Springer Int Publishing Ag,2016:243-260.

[9]Jiawei Han.Data Mining:Concepts and Techniques,Third Edition[M].Morgan Kaufmann,2011.

[10]Fournier-Viger,P.,Lin,C.W.,Gomariz,A.,Gueniche,T.,Soltani,A.,Deng,Z.,Lam,H.T.(2016).The SPMF Open-Source Data Mining Library Version 2.Proc.19th European Conference on Principles of Data Mining and Knowledge Discovery(PKDD 2016)Part III,Springer LNCS 9853:36-40.

Research on Gender Gap in Internet Based on Frequent Sequential Pattern Mining

SUN Qi-liang,MOU Chao,MENG Yao
(College of Computer Science,Chongqing University,Chongqing 400044)

Uses the net access log as research data,and uses the frequent sequential pattern mining and K-means clustering algorithm to excavate dif?ferent access patterns between males and females.By comparing males'and females'visit patterns in high,medium and low frequencies,it is found that there is no significant difference between male and female in the most frequently visited site types.Men are more likely to use the Internet for recreational and social purposes,and women are more likely to use the Internet as a tool for getting information.In addition,the types of site visited by men are more than by women.Besides,presents a method for converting sequences into vectors.

孫啟亮(1990-),男,黑龍江哈爾濱人,在讀碩士,研究方向為數據挖掘

2017-04-14

2017-06-11

1007-1423(2017)17-0044-06

10.3969/j.issn.1007-1423.2017.17.009

牟超(1989-),男,山東濰坊人,在讀博士,研究方向為數據挖掘

孟瑤(1992-),女,云南德宏人,在讀碩士,研究方向為數據挖掘

Gender Gap;Frequent Sequential Pattern Mining;Clustering;Net Access Log

主站蜘蛛池模板: 少妇被粗大的猛烈进出免费视频| 人妖无码第一页| 亚洲天堂视频在线观看免费| 91精品久久久无码中文字幕vr| 在线观看国产黄色| 亚洲国产成人精品一二区| 伊人AV天堂| 免费在线色| 欧美成人手机在线观看网址| 超清无码熟妇人妻AV在线绿巨人| 亚洲无码A视频在线| 波多野结衣无码AV在线| 亚洲妓女综合网995久久| 在线无码av一区二区三区| 色综合日本| 4虎影视国产在线观看精品| 亚洲精品国产首次亮相| 国产av无码日韩av无码网站| 亚洲伊人久久精品影院| 亚洲日韩精品无码专区97| 在线精品亚洲一区二区古装| 国产丰满大乳无码免费播放 | 欧美在线视频不卡| 国产精品欧美亚洲韩国日本不卡| 99re视频在线| 蜜桃视频一区二区三区| 国产主播福利在线观看| 日韩欧美中文| 国产在线无码一区二区三区| 1769国产精品视频免费观看| 一本大道视频精品人妻| 亚洲男人在线天堂| 99热国产这里只有精品9九| 欧美国产视频| 国产屁屁影院| 国产成人免费| 日韩欧美国产精品| 中文字幕啪啪| 99久久免费精品特色大片| 国产精品无码翘臀在线看纯欲| aⅴ免费在线观看| 欧美精品1区| 亚洲国产日韩在线成人蜜芽| 中国毛片网| 日韩第九页| 国产福利拍拍拍| 97综合久久| 亚洲黄色高清| 亚洲国产日韩欧美在线| 久久这里只有精品国产99| 精品国产黑色丝袜高跟鞋| 国产精品免费p区| 国产黄网永久免费| 色香蕉网站| 香蕉99国内自产自拍视频| 国产欧美精品午夜在线播放| 色综合天天娱乐综合网| 女人爽到高潮免费视频大全| 免费观看成人久久网免费观看| 国产粉嫩粉嫩的18在线播放91 | 欧美中日韩在线| 亚洲娇小与黑人巨大交| 成人午夜在线播放| 亚洲一级毛片在线观| 亚洲AV电影不卡在线观看| 成人免费黄色小视频| 亚洲无线一二三四区男男| 中文字幕亚洲精品2页| 91久久国产综合精品女同我| 亚洲无限乱码一二三四区| 91欧洲国产日韩在线人成| 欧美亚洲国产一区| 中文字幕亚洲电影| 免费国产在线精品一区| 超碰91免费人妻| 亚洲欧美成人网| 日韩免费视频播播| 人妖无码第一页| 亚洲第一色视频| 国产全黄a一级毛片| 久操中文在线| 在线观看国产黄色|