999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的校園網用戶行為聚類分析

2007-01-01 00:00:00梁京章黎慧娟
計算技術與自動化 2007年1期

摘要:在給出K-means算法流程的基礎上,以校園網認證計費系統日志為研究對象,實現一個基于K-means算法的校園網用戶行為聚類分析,得到不同特征的用戶組,為今后進一步了解用戶行為特征#65380;更好制定校園網絡策略奠定基礎#65377;

關鍵詞:K-means; 聚類分析;用戶行為

中圖分類號:TP311文獻標識碼:A

1引言

“用戶行為分析”作為一種有效的管理和決策支持方法,可以定性地分析用戶的群體構成和各自的愛好,對于提高網絡服務的效率和個性化程度極為重要#65377;如何分析用戶行為,改善校園網絡的性能,提高用戶使用網絡的效率已成為校園網絡管理的一個重要課題#65377;

本文以廣西大學校園網認證計費系統日志為研究對象,利用數據挖掘方法中的K-means算法對校園網用戶校園網用戶行為進行聚類分析#65377;

2聚類分析和K-means算法

K-means算法屬于聚類方法中的一種劃分方法,該算法具有較好的可伸縮性和很高的效率,適合處理大文檔集#65377;

該算法形式描述為[1]:已知d維空間Rd,在Rd中定義一個評價函數E∶{p∶pC}→R+,給每個聚類一個量化的評價,輸入Rd中的對象集合C和一個整數,k要求輸出C的一個劃分:C1,C2,…,Ck,這個劃分使得評價函數E最小化#65377;不同的評價函數將產生不同的聚類結果,本文采用均方差作為評價函數,定義如下:式中,E為數據庫中所有對象的平方誤差的總和,p為Rd空間的點,表示給定的數據對象,mi為簇Ci的平均值(p和mi都是多維的),|p-mi|2表示數據對象與聚類中心之間的距離#65377;

此評價函數使所獲得的k個聚類具有以下特點:各聚類本身盡可能緊湊,而各聚類之間盡可能分開#65377;

以下是K-means算法的流程:

第一步:首先輸入K-means算法的聚類個數k,以及包含n個數據對象的數據庫;第二步:從n個數據對象任意選擇k個對象作為初始聚類中心;第三步:而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;第四步:重新計算每個(有變化)聚類的均值(中心對象),根據新的每個聚類對象的均值(中心對象),計算每個對象與這些新聚類中心對象的距離,并根據最小距離重新對相應對象進行劃分;第五步:循環第四步直到每個聚類不再發生變化為止,即方差評價函數開始收斂為止#65377;輸出滿足方差最小標準的k個聚類#65377;

例如[2],當k=3時,即需要將數據對象C聚類為3個簇,根據算法描述,任意選擇3個對象作為3個初始簇中心,簇中心在圖中用“+”來標注,根據與簇中心的距離,每個對象被分配給最近的一個簇,這樣的分布形成了圖1(a)中虛線所描繪的的圖形#65377;這樣的分組會改變聚類中心,也就是說,每個聚類的平均值會根據類中的對象重新計算#65377;依據這些新的聚類中心,對象被重新分配到各個類中,這樣的重新分配形成了圖1(b)中虛線所描繪的輪廓#65377;重復以上的過程,產生圖1(c)的情況,最后,當沒有對象的重新分配發生時處理過程結束,聚類的結果被返回#65377;

圖1基于k-means算法的一組對象的聚類

3K-means算法的實現

根據K-means算法的流程,本文采用C++語言實現的K-means算法的主函數如下:其中System::LoadPatterns(char *fname)為數據輸入函數,用于從文本文件中讀入聚類樣本數據#65380;樣本維數以及聚類個數k,并保存在動態生成的數組#65377;

System::KMeans()是實現K-means算法的主要函數,實現了K-means算法流程的第二步到第五步#65377;程序描述如下:

日志文件記錄了用戶登錄網絡的用戶名#65380;上網時間等信息#65377;

根據實際需要從日志文件提取上網時間#65380;下網時間#65380;上行流量#65380;使用網絡時間#65380;源IP地址#65380;下行流量#65380;國際流量#65380;國內流量#65380;國際下載流量#65380;國內下載流量這10個信息作為聚類分析的特征值#65377;在日志文件中有很多記錄的國際流量或國內流量小于1M,它們屬于不活躍的記錄,數據預處理時應去掉這部分記錄#65377;為更好的找出用戶在一天里上網的規律,只取時分不取日期#65377;另外,由于校內用戶的IP地址前兩個字節相同,故只取IP地址的后兩個字節作為有效輸入#65377;將2005年12月至2006年7月的日志進行預處理完成后得到66079條有效記錄,聚類輸入文件格式如下:

輸入文件的第一行表示此數據文件的記錄數,即k-means算法中的樣本數據個數n;第二行表示每條記錄的特征項,即k-means算法中的樣本維數d;第三行表示k-means算法中的聚類個數k #65377;從第四行開始就是d維的n個樣本數據#65377;

4.2聚類結果

經過15次聚類后收斂,結果如表1所示#65377;

從表1中可以看出,當把校園網用戶分為4類時可以得出較為明顯的4組:

第一類所占比例最大,他們使用網絡的時間大約為80分鐘左右,通常上網時間是每天傍晚18:37左右,國際國內的流量不大,可以推測出上網的活動多為瀏覽網頁#65380;查找資料等動作,屬于普通活動#65377;

第二類上網時間跨度最大,國際國內流量很大,屬于上網時經常下載東西的一類#65377;

第三類的上網時間在夜間,國內下載流量最大,但這類活動所占比例最小#65377;

第四類所占比例僅次于第一類,上網時間集中在下午15:00左右#65377;

表1聚類結果

5小結

將k-means聚類算法應用于校園網用戶行為分析是一種嘗試,它的聚類結果可以給網絡管理人員對用戶的行為有所了解從而考慮制定相應的網絡策略#65377;但k-means算法只適用于均值有意義的情況,因此在進行數據預處理時,應盡可能多的選擇樣本特征項,即增加樣本的維數,并過濾異常#65380;無效的數據,因為k-means算法對這類數據很敏感,它們可能會影響到各聚類的均值#65377;k-means算法還有一個缺點就是用戶還必須事先指定聚類個數,如果聚類個數定義不準確將會使聚類結果不合理#65377;

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 无码电影在线观看| 午夜久久影院| 亚洲视屏在线观看| 亚洲乱亚洲乱妇24p| 永久免费AⅤ无码网站在线观看| 亚洲国内精品自在自线官| 国产亚洲高清视频| 黄色片中文字幕| 国产成人调教在线视频| 国内精品久久久久久久久久影视| 日本不卡在线| 国产成人精品亚洲日本对白优播| 亚洲欧洲国产成人综合不卡| 男女性色大片免费网站| 在线免费观看AV| 国产丝袜丝视频在线观看| 久久影院一区二区h| 亚洲视频免| 九九九国产| 成人福利视频网| 亚洲成人网在线观看| 亚洲AⅤ无码国产精品| 欧美一区二区自偷自拍视频| 妇女自拍偷自拍亚洲精品| 精品视频在线观看你懂的一区| 久久青草视频| 久久久久久久97| 婷婷激情五月网| 香蕉久久国产超碰青草| 香蕉视频在线精品| 东京热一区二区三区无码视频| 亚洲欧美日韩成人在线| 免费无码又爽又黄又刺激网站 | 国产又粗又猛又爽视频| 黄色网站在线观看无码| 国产精品美人久久久久久AV| 大陆国产精品视频| 日日摸夜夜爽无码| 国产亚洲高清视频| 少妇被粗大的猛烈进出免费视频| 18禁色诱爆乳网站| 欧美日韩亚洲国产主播第一区| 中文字幕人成人乱码亚洲电影| 国产美女主播一级成人毛片| 亚洲香蕉伊综合在人在线| 激情国产精品一区| 国产日韩欧美一区二区三区在线| 99视频国产精品| 日韩乱码免费一区二区三区| 都市激情亚洲综合久久| 欧美日韩中文国产| 美女国内精品自产拍在线播放| 成人在线观看不卡| 色哟哟国产精品一区二区| 真人免费一级毛片一区二区| 91亚洲视频下载| 亚洲午夜片| 国产精品第| 日韩毛片在线播放| 在线播放真实国产乱子伦| 中国特黄美女一级视频| 在线免费无码视频| 国产成人永久免费视频| 午夜人性色福利无码视频在线观看| 国产精品欧美激情| 成AV人片一区二区三区久久| 国产一二三区视频| 亚洲男人天堂2020| 国产综合色在线视频播放线视| 色偷偷一区二区三区| 夜夜操天天摸| 国产精品一线天| 99re精彩视频| 在线观看视频99| 国产迷奸在线看| 一级毛片免费观看不卡视频| 亚洲一区色| 黄色网站在线观看无码| 精品人妻一区二区三区蜜桃AⅤ| 九九久久精品国产av片囯产区 | 啪啪免费视频一区二区| 97国产精品视频自在拍|