999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類的Web日志挖掘方法探析

2008-04-29 00:00:00顧黎萍姜靈敏
商場現代化 2008年35期

[摘 要] 本文針對國內中小型電子商務網站服務器數據較少的特點以及數據的物理意義,采用了一種將數據導入Excel數據庫并利用連環聚類的方法來處理Web數據的方法,為中小型電子商務網站的決策分析提供了一種較為簡單的方法。

[關鍵詞] 聚類 Web日志挖掘 電子商務

一、引言

國內的中小型電子商務網站發展還很不健全,其瀏覽的用戶不多、日志數據相對較少、從事后臺數據分析的人員很少或沒有。如何避免像大型電子商務網站一樣采用大量算法來對數據進行預處理,而又能對日志數據進行挖掘,從而分析用戶需求、向用戶進行個性化推薦、改進網頁設計是目前中小型電子商務開發商急需考慮的一個問題。

二、Web日志挖掘過程分析

Web日志挖掘通過分析和研究Web日志記錄中的規律識別電子商務的潛在用戶,提高對最終用戶信息服務的質量并改進Web服務系統的性能和結構。

1.利用Excel數據庫進行Web日志預處理。Web日志文件記錄中存儲的是用戶訪問站點信息的原始記錄,在使用算法或工具對其分析之前,必須進行預處理。預處理過程是Web日志挖掘質量保證的關鍵,因為處理后的數據好壞、全面與否直接影響到數據挖掘的結果,進而對電子商務開發商的決策造成直接影響。特別是中小型電子商務網站,其數據相對較少,因此數據處理的準確性極為重要。

中小型電子商務網站由于瀏覽和交易人數少,可將數據直接導入Excel數據庫,在Excel中進行數據凈化、用戶識別。同時,由于網站設計人員的知識架構、技術層次以及對所要設計的網站內容的了解程度的限制,很難建立一個完全反映網站邏輯信息、無重復內容網頁的網站,必須進行一定程度的合并,從而將其分成能反映網站邏輯信息的同質類別。

2.連環聚類法在Web日志挖掘中的應用。聚類分析成功地應用于眾多領域,在此主要是利用K-Means快速聚類算法對數據進行聚類分析,以識別用戶樣本不同的行為段。由于此算法的聚類結果有一定的缺陷,本文采取了連環聚類的方法來對樣本數據進行聚類以彌補快速聚類算法的不足。

對于電子商務網站來說,一般都存在外部客戶瀏覽網頁的數據和內部管理人員瀏覽網頁的數據兩類。因此,首先對Web日志數據進行劃分,分為內部系統和外部登錄兩部分樣本數據可以減少日志挖掘的工作量,同時,分別對外部登錄數據和內部系統數據進行聚類分析也有助于增加聚類結果的可靠性。其次,對數據進行連環聚類,也即對某些聚類效果不明顯的聚類結果進行再次聚類,可以增加聚類結果的清晰度。

(1)外部登錄數據連環聚類。快速聚類分析是對用戶指定類別的大樣本資料的逐步聚類分析。其缺陷在于不能像層次聚類那樣對不同聚類類數產生一系列的聚類解,且聚類結果錯誤率較高。根據快速聚類分析存在的缺陷,可對外部登錄樣本數據進行兩個階段的聚類分析。

第一階段聚類是首先根據數據矩陣的特點,將聚類數暫定為幾類,經反復幾次聚類,最終確定下聚類數。接著將聚類結果導入Excel數據庫進行分析,可以發現,有些類別的數據極少,在聚類中,此類數據的誤導性極大,因此必須將其隔離;而對于一些表現出了相當不同的行為特點的類別,可以將其保留,待第二階段聚類結束后,與其結果一并歸入Excel數據庫進行分析;對于第三種由于類內差異較大,但是數據又比較多且較重要的類別,接著對其數據進行第二階段聚類,進而獲得更為明確的聚類結果。將兩階段的聚類結果導入Excel數據庫分析整合,可以得到一個較為明確的聚類結果。如:

某一類用戶僅僅在網站上瀏覽了幾個網頁,一般稱為偶然用戶。對于這類用戶,顯然不可能從中得到一個有用的、潛在的訪問模式來,因為他們對網站的訪問具有很大的偶然性,對具體網頁的訪問也有著很大的隨機性,所以如果從這些用戶的訪問條目中來提取用戶的訪問模式顯然是不具有典型性和代表性的,而這種訪問模式對電子商務的具體應用也就不具有任何指導性。另一類用戶主要瀏覽某一網頁組,對這一網頁組瀏覽次數較多,而對其他網頁很少涉及,幾乎不瀏覽,可以判定此類用戶是該網站某一類網頁的長期用戶。第三類用戶為多主題行為的用戶,即經常瀏覽網站上的各個網頁組。與好奇用戶(出于對網頁內容的好奇而對每個網頁組的網頁都有瀏覽,但瀏覽次數不多且不重復)不同,多主題行為用戶的瀏覽次數較多,因此可能就帶有一定的商業傾向,電子商務開發商可以對該類用戶特征加以分析,進行運用。

當然用戶類別可能不止此幾種,但都可以根據他們的瀏覽內容得出結果并用于電子商務決策。將直接聚類結果與連環聚類結果比較,可以證明連環聚類較好的彌補了快速聚類算法的缺陷,是比較有效的。

(2)內部系統數據聚類。內部系統的登錄人員主要是網站內部工作人員,目的是對網站進行管理。如:如果聚類后分析發現某報障系統網頁組的登陸率極高,那么,就能夠盡快找出故障所在,及時排除故障,提高網站運營效率。

對于一個電子商務網站,通過外部登錄數據連環聚類得到相似性用戶訪問的聚類簇,能夠為電子商務開發商提供詳細的用戶反饋,幫助他們根據實際用戶的瀏覽情況,調整網站的網頁鏈接結構和網頁內容,對網站進行優化,從而延長用戶的駐留時間、挽留老用戶、吸引新用戶,并增加用戶的購買率,以此獲得電子商務網站的成功運行;而通過內部系統數據聚類,也可以明確網站運營的缺陷在哪里,從而加以改進。

三、結論

對于國內中小型電子商務網站來說,Web日志挖掘結果對電子商務網站的發展起著至關重要的作用。基于Excel數據庫和連環聚類的Web日志挖掘法具有成本小、簡單、易操作等特點,對規模不大、資金實力不強的網站發展具有重大的意義。

參考文獻:

[1]譚春輝:電子商務管理與Web數據挖掘技術的契合探析[J].情報雜志,2006,(12):9~12

[2]凌傳繁:Web挖掘技術在電子商務中的應用[J].情報雜志,2006,(1):93~95

主站蜘蛛池模板: 8090成人午夜精品| 国产成人精品一区二区三区| 国产亚洲高清视频| 久久国产乱子| аⅴ资源中文在线天堂| 国产乱人伦AV在线A| 国产一级α片| 精品人妻无码区在线视频| 日韩毛片在线视频| 在线免费观看a视频| 亚洲天堂网在线观看视频| 九九热视频在线免费观看| 一本大道香蕉久中文在线播放| 国产婬乱a一级毛片多女| 国产性猛交XXXX免费看| 99精品国产电影| 国产欧美在线视频免费| 热久久综合这里只有精品电影| 亚洲人在线| 97久久人人超碰国产精品| 性欧美久久| 国产尤物在线播放| 欧美一级黄片一区2区| 激情五月婷婷综合网| 国产二级毛片| 精品午夜国产福利观看| 日本午夜精品一本在线观看| 55夜色66夜色国产精品视频| 亚洲福利视频一区二区| 玖玖免费视频在线观看| 色天天综合| 国产精品密蕾丝视频| www精品久久| 国产美女精品在线| 91小视频在线观看免费版高清| 天天综合网色中文字幕| 伊伊人成亚洲综合人网7777| 亚洲91精品视频| 在线看免费无码av天堂的| 亚洲一区二区黄色| 国内精品小视频在线| 伊人精品成人久久综合| 毛片在线区| 国产91精品最新在线播放| 日韩成人在线网站| 国产网站一区二区三区| 国产日韩丝袜一二三区| 小13箩利洗澡无码视频免费网站| 国产精品永久免费嫩草研究院| 亚洲成人黄色在线观看| 在线日本国产成人免费的| 亚洲不卡影院| 一本大道香蕉高清久久| 亚洲成人免费在线| 亚洲精品无码AV电影在线播放| 亚洲欧美日韩色图| 国产精品原创不卡在线| 99偷拍视频精品一区二区| 亚洲中文字幕在线精品一区| 在线a视频免费观看| 成人av专区精品无码国产| 亚洲综合经典在线一区二区| 日本a级免费| 国产91在线免费视频| 欧美成人a∨视频免费观看| 911亚洲精品| 色成人综合| 日韩一级二级三级| 免费A∨中文乱码专区| 青青草a国产免费观看| 欧美成人手机在线视频| 亚洲成人高清无码| 最新国产午夜精品视频成人| 国产精品永久久久久| 国产区福利小视频在线观看尤物| 91色在线视频| 亚洲精品视频免费| 国产精品亚洲αv天堂无码| 亚洲av无码牛牛影视在线二区| 自拍偷拍欧美日韩| 国产精品亚洲专区一区| 曰AV在线无码|