999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于點(diǎn)擊技術(shù)的用戶興趣數(shù)據(jù)挖掘研究

2009-04-29 00:00:00閆炳寬
電腦知識(shí)與技術(shù) 2009年33期

摘要:深入研究了基于點(diǎn)擊技術(shù)的方案的服務(wù)流程和體系結(jié)構(gòu),根據(jù)方案的特點(diǎn)和實(shí)施要點(diǎn)總結(jié)出實(shí)現(xiàn)點(diǎn)擊流信息服務(wù)方案的實(shí)施流程。對(duì)點(diǎn)擊流數(shù)據(jù)的主要來源Web日志文件結(jié)構(gòu)和內(nèi)容進(jìn)行深入的分析,總結(jié)出點(diǎn)擊流數(shù)據(jù)的預(yù)處理內(nèi)容和方法,使之變成能夠進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的數(shù)據(jù)倉庫表文件。

關(guān)鍵詞:用戶點(diǎn)擊;數(shù)據(jù)挖掘;Web日志

中圖分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)33-9412-03

Click on the User Interest in Data Mining Technology Research

YAN Bing-kuan

(Xinxing Pipes Group Technology Center,Handan 056017,China)

Abstract: The in-depth study of the program click technology-based service processes and architecture, based on program characteristics and implementation of the key points summarize information services to enable click-stream implementation of the program flow. Right click-stream data, the main source of Web log file structure and content of in-depth analysis, summarized clickstream data pre-processing the content and methods to be turned into to carry out data mining and data analysis of the data warehouse table file.

Key words: user hits; data mining; web log

在電子商務(wù)網(wǎng)站環(huán)境中,點(diǎn)擊流的分析越來越有價(jià)值,已經(jīng)遠(yuǎn)遠(yuǎn)超出點(diǎn)擊流的范圍,對(duì)這些數(shù)據(jù)深層次分析已經(jīng)成為電子商務(wù)網(wǎng)站了解經(jīng)營狀況、了解用戶行為的有效工具。點(diǎn)擊流分析以WEB上的點(diǎn)擊流數(shù)據(jù)為基礎(chǔ),利用OLAP、數(shù)據(jù)挖掘等技術(shù)滿足電子商務(wù)企業(yè)的所有人員的需求。不同的部門有不同的需求,通過對(duì)點(diǎn)擊流數(shù)據(jù)不同角度的分析來達(dá)到不同的目的。

1 基于點(diǎn)擊流技術(shù)的服務(wù)方案

基于點(diǎn)擊流的個(gè)性化信息服務(wù)方案主要是對(duì)電子商務(wù)網(wǎng)站信息用戶瀏覽信息的行為采用點(diǎn)擊流技術(shù)進(jìn)行記錄、采用數(shù)據(jù)挖掘的方法,分析得出用戶在不同時(shí)期內(nèi)的準(zhǔn)確而全面的信息興趣。同時(shí)為了彌補(bǔ)方案初期用戶瀏覽信息記錄數(shù)據(jù)的不足,分析不準(zhǔn)確的缺點(diǎn),在用戶成為網(wǎng)站用戶的初期采用用戶定制信息的方式。具體實(shí)現(xiàn)機(jī)制是:

1)在用戶最初注冊(cè)時(shí)根據(jù)用戶填寫的基本信息,為用戶提供個(gè)性化信息推薦服務(wù);

2)利用點(diǎn)擊流技術(shù)對(duì)用戶對(duì)信息行為記錄跟蹤,通過建立點(diǎn)擊流數(shù)據(jù)倉庫、點(diǎn)擊流數(shù)據(jù)集市抽取用戶信息行為的相關(guān)數(shù)據(jù),再利用商務(wù)智能工具進(jìn)行用戶當(dāng)前信息需求偏好的分析,對(duì)用戶需求信息的類型加以修正、補(bǔ)充;

3)再通過點(diǎn)擊流技術(shù)對(duì)用戶推薦的信息行為跟蹤,對(duì)分析模型進(jìn)行評(píng)測(cè)、改造,直至提出一個(gè)完善的用戶信息行為分析模型。

這個(gè)個(gè)性化信息服務(wù)的流程如圖1所示。

2 基于點(diǎn)擊流技術(shù)的服務(wù)結(jié)構(gòu)

本文所描述的用戶信息興趣分析主要使用Web內(nèi)容挖掘和Web使用記錄挖掘?qū)eb日志文件和網(wǎng)站信息頁內(nèi)容進(jìn)行挖掘,得出加權(quán)的用戶曾訪問過信息類和信息關(guān)鍵字,然后通過聚類的方法得出用戶的信息興趣集合,來判定用戶感興趣的信息。然后通過信息推薦平臺(tái)把網(wǎng)站的信息頁和分析得出的信息興趣集合進(jìn)行比對(duì),符合一定條件的信息將由系統(tǒng)自動(dòng)推薦給用戶。用戶信息興趣分析階段主要是離線完成,信息發(fā)布階段主要是在線進(jìn)行,以滿足用戶的信息需求。

系統(tǒng)的體系結(jié)構(gòu)見圖2,圖中分為兩個(gè)部分,用戶信息訪問興趣分析部分和信息發(fā)布部分。由于每個(gè)用戶都有不同的登錄時(shí)間和興趣類型,信息發(fā)布是根據(jù)用戶訪問行為的不同實(shí)時(shí)地進(jìn)行信息發(fā)布的,因此信息發(fā)布部分為在線處理部分。而用戶訪問信息興趣分析部分則為離線處理部分。

3 基于點(diǎn)擊流技術(shù)的用戶興趣服務(wù)設(shè)計(jì)

基于點(diǎn)擊流技術(shù)的用戶興趣服務(wù)方案的實(shí)現(xiàn)分為用戶訪問信息興趣分析和在線發(fā)布信息兩個(gè)部分,在離線部分中要對(duì)點(diǎn)擊流數(shù)據(jù)進(jìn)行收集,預(yù)處理和建立點(diǎn)擊流數(shù)據(jù)倉庫才能建立起對(duì)用戶訪問興趣分析的數(shù)據(jù)基礎(chǔ),用戶的信息興趣描述特征集合是通過Web挖掘方法的應(yīng)用并結(jié)合挖掘算法才能得出。在線部分需要結(jié)合用戶的信息興趣描述特征集合使用過濾算法向用戶推薦信息。本章對(duì)這些關(guān)鍵技術(shù)及如何在實(shí)施個(gè)性化信息服務(wù)中應(yīng)用進(jìn)行了詳細(xì)介紹和描述,并總結(jié)出了一個(gè)實(shí)施基于點(diǎn)擊流技術(shù)的個(gè)性化信息服務(wù)流程。

3.1 方案的總體實(shí)施流程

在本文系統(tǒng)實(shí)施中重點(diǎn)為用戶訪問信息興趣分析。用戶訪問興趣分析中本文根據(jù)實(shí)際的系統(tǒng)實(shí)施結(jié)果分為三個(gè)處理步驟,一是收集支持興趣分析的數(shù)據(jù)基礎(chǔ);一是處理收集來的數(shù)據(jù),即對(duì)收集來的點(diǎn)擊流數(shù)據(jù)和信息內(nèi)容數(shù)據(jù)預(yù)處理,使這些基礎(chǔ)數(shù)據(jù)轉(zhuǎn)換成能夠進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的點(diǎn)擊流數(shù)據(jù)倉庫數(shù)據(jù);三是利用數(shù)據(jù)挖掘方案,建立分析方案分析這些數(shù)據(jù)獲取用戶的信息興趣類型。本文將信息服務(wù)方案的實(shí)施分為點(diǎn)擊流數(shù)據(jù)收集,點(diǎn)擊流數(shù)據(jù)預(yù)處理,用戶信息興趣分析,信息匹配、信息推薦四個(gè)階段。這四個(gè)階段也別有各自的結(jié)果集,點(diǎn)擊流數(shù)據(jù)記錄,點(diǎn)擊流數(shù)據(jù)倉庫,客戶信息興趣類型,網(wǎng)站推薦的信息。如圖3所示。為了便于實(shí)施,本文將點(diǎn)擊數(shù)據(jù)的收集,點(diǎn)擊流數(shù)據(jù)的預(yù)處理都包含進(jìn)建立點(diǎn)擊流數(shù)據(jù)倉庫階段中。

3.2 建立點(diǎn)擊流數(shù)據(jù)倉庫

點(diǎn)擊流數(shù)據(jù)倉庫通常包含來源于Web服務(wù)器的日志文件和其他數(shù)據(jù)源的各種數(shù)據(jù)。從前面的有關(guān)日志文件所包含內(nèi)容可以得知,從日志數(shù)據(jù)方面看要進(jìn)行點(diǎn)擊流的分析遠(yuǎn)遠(yuǎn)不夠。在很多電子商務(wù)網(wǎng)站建立點(diǎn)擊流數(shù)據(jù)倉庫,而不是僅僅使用Web站點(diǎn)分析工具的主要原因之一是服務(wù)器日志數(shù)據(jù)的不完整性。如要達(dá)到商務(wù)分析要求,需要更多的有關(guān)站點(diǎn)內(nèi)容,用戶活動(dòng)以及用戶全貌的詳細(xì)信息,這些信息來自企業(yè)內(nèi)外的各種各樣的數(shù)據(jù)源。所以點(diǎn)擊流數(shù)據(jù)倉庫的數(shù)據(jù)源除了Web服務(wù)器和Web應(yīng)用服務(wù)器的日志數(shù)據(jù),還需要在線商務(wù)處理的數(shù)據(jù),和Web網(wǎng)站的內(nèi)容等信息系統(tǒng)的數(shù)據(jù)。在本文的個(gè)性化信息服務(wù)方案中要關(guān)注的還有網(wǎng)站信息的詳細(xì)資料和客戶資料,所以點(diǎn)擊流數(shù)據(jù)倉庫中至少還應(yīng)包括信息數(shù)據(jù)和客戶資料數(shù)據(jù)。

3.3 數(shù)據(jù)預(yù)處理

由于本地緩存、代理服務(wù)器以及防火墻的存在,使得Web日志中收集的數(shù)據(jù)缺乏完整性,從而也影響了Web日志數(shù)據(jù)的可靠性。由于這些問題存在,直接在Web日志上進(jìn)行挖掘就非常困難,首先需要修補(bǔ)收集到的Web日志數(shù)據(jù)的不完整性和不一致性,繼而從Web日志數(shù)據(jù)中抽取有用的數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化成適合Web日志挖掘算法可用的數(shù)據(jù)格式,這些都屬于數(shù)據(jù)預(yù)處理過程研究的范疇。數(shù)據(jù)預(yù)處理的工作量占整個(gè)挖掘過程的50%。數(shù)據(jù)預(yù)處理的結(jié)果是挖掘算法的輸入,它直接影響挖掘質(zhì)量,因而數(shù)據(jù)預(yù)處理是整個(gè)數(shù)據(jù)挖掘過程中關(guān)鍵而又非常必要的一步。瀏覽記錄處理處理過程數(shù)據(jù)預(yù)處理可以大大改進(jìn)數(shù)據(jù)的質(zhì)量,從而提高其后的數(shù)據(jù)挖掘的精度和性能。如圖4所示。

1)數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換是將非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),然后利用現(xiàn)在成熟的、廣為使用的數(shù)據(jù)庫、數(shù)據(jù)倉庫技術(shù)來處理。Web日志W(wǎng)eb日志文件是文本文件,是一種半結(jié)構(gòu)化數(shù)據(jù),可以采用將文本文件轉(zhuǎn)換為數(shù)據(jù)表文件的方式解決。根據(jù)日志格式的不同,首先判斷該日志是標(biāo)準(zhǔn)格式的日志文件還是擴(kuò)展格式的日志文件,然后根據(jù)日志中記錄的各個(gè)不同的部分按實(shí)際意義分開,在數(shù)據(jù)表中構(gòu)造對(duì)應(yīng)的字段。經(jīng)過數(shù)據(jù)轉(zhuǎn)換,半結(jié)構(gòu)化的Web日志文本文件變成了結(jié)構(gòu)化的數(shù)據(jù)表記錄。

2)數(shù)據(jù)凈化

數(shù)據(jù)凈化,就是指刪除Web日志中與數(shù)據(jù)挖掘目標(biāo)無關(guān)的垃圾數(shù)據(jù)。具體的數(shù)據(jù)凈化方法很多,在具體實(shí)現(xiàn)上采取的是在向數(shù)據(jù)庫中導(dǎo)入數(shù)據(jù)時(shí)進(jìn)行程序操作凈化。經(jīng)過數(shù)據(jù)凈化處理后的Web日志文件不但大幅度縮小,而且具備了相對(duì)精確的原始數(shù)據(jù)。

3)數(shù)據(jù)抽取

數(shù)據(jù)抽取,就是指在充分理解挖掘目標(biāo)后,規(guī)劃所需要的數(shù)據(jù)源和數(shù)據(jù)定義,制定抽取規(guī)則,以去掉與挖掘目標(biāo)無關(guān)的數(shù)據(jù),形成一個(gè)個(gè)主題源數(shù)據(jù)。數(shù)據(jù)抽取操作是與挖掘目標(biāo)緊密聯(lián)系,不同的挖掘目標(biāo),由于所需要的數(shù)據(jù)源是不同的,因而有不同的抽取規(guī)則。完成上述工作之后,就形成了比較精確的Web日志原始數(shù)據(jù)。

4)數(shù)據(jù)集成

完成以上幾個(gè)步驟后,要進(jìn)行數(shù)據(jù)集成處理。數(shù)據(jù)集成是將多個(gè)相關(guān)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)中(如中央數(shù)據(jù)庫或者數(shù)據(jù)倉庫)。相關(guān)數(shù)據(jù)源如注冊(cè)用戶數(shù)據(jù)表,網(wǎng)站結(jié)構(gòu)數(shù)據(jù)表等。數(shù)據(jù)集成處理是將注冊(cè)用戶數(shù)據(jù)表,網(wǎng)站結(jié)構(gòu)數(shù)據(jù)表以及經(jīng)過類似處理的其他相關(guān)日志文件根據(jù)一定數(shù)據(jù)匹配模式進(jìn)行集成,形成網(wǎng)站的中央數(shù)據(jù)庫。中央數(shù)據(jù)庫是數(shù)據(jù)挖掘的數(shù)據(jù)基礎(chǔ),中央數(shù)據(jù)庫的形成標(biāo)志著數(shù)據(jù)預(yù)處理的基本結(jié)束。

網(wǎng)站可以根據(jù)實(shí)際情況,選擇一定的時(shí)間周期,將不斷產(chǎn)生的Web日志文件經(jīng)過數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)凈化、數(shù)據(jù)抽取、數(shù)據(jù)集成后形成的新的數(shù)據(jù)表記錄追加到一個(gè)固定數(shù)據(jù)表文件中。

3.4 點(diǎn)擊流數(shù)據(jù)倉庫

點(diǎn)擊流數(shù)據(jù)倉庫是數(shù)據(jù)倉庫在電子商務(wù)系統(tǒng)中的應(yīng)用,是存儲(chǔ)供查詢和決策分析用的集成化信息倉庫,與傳統(tǒng)的數(shù)據(jù)倉庫相比點(diǎn)擊流數(shù)據(jù)倉庫的主要數(shù)據(jù)來源是人們網(wǎng)絡(luò)活動(dòng)中進(jìn)行各種活動(dòng)從而在各個(gè)網(wǎng)絡(luò)服務(wù)器中所留下的Web日志文件及其它的相關(guān)數(shù)據(jù)庫。

在本文中點(diǎn)擊流數(shù)據(jù)倉庫的建立主要是建立面向用戶信息興趣分析的點(diǎn)擊流數(shù)據(jù)倉庫,在這個(gè)數(shù)據(jù)倉庫中需要匯集的是在Web日志文件中的信息用戶點(diǎn)擊信息頁面的點(diǎn)擊事實(shí)表和信息數(shù)據(jù)庫中各個(gè)包含信息頁面的信息數(shù)據(jù)表,以及確認(rèn)用戶身份的客戶資料數(shù)據(jù)庫中的客戶信息表。

在表達(dá)分析主題的邏輯模型設(shè)計(jì)中,數(shù)據(jù)倉庫多采用星形模型和雪花模型。星形圖清晰地反映概念模型中各種實(shí)體間的邏輯關(guān)系,可以更好地在此基礎(chǔ)上組織檢索和查詢,使設(shè)計(jì)者完整地掌握系統(tǒng)的數(shù)據(jù)流程.星形圖包含三種邏輯實(shí)體:維度、指標(biāo)和詳細(xì)類別實(shí)體。在很多情況下,維度實(shí)體還要向外延伸至詳細(xì)類別實(shí)體,或者說,詳細(xì)類別實(shí)體是維度實(shí)體的附加信息,是維度實(shí)體的擴(kuò)展,說明了維度實(shí)體間的關(guān)系。這種在維度實(shí)體上擴(kuò)展詳細(xì)類別實(shí)體的星形圖稱為雪花圖。具體采用哪種模型來表示,還要結(jié)合具體分析主題設(shè)計(jì)來定。

4 用戶信息興趣的挖掘

在本文中采用采用Web數(shù)據(jù)挖掘來分析統(tǒng)計(jì)用戶在瀏覽網(wǎng)站信息所體現(xiàn)出的信息興趣。Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。

通常來講,經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web用法挖掘上來,但為了提高挖掘質(zhì)量,研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法、改進(jìn)的序列發(fā)現(xiàn)算法,分類聚類算法等。

在本文中是針對(duì)WEB挖掘進(jìn)行個(gè)性化挖掘,針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化信息服務(wù),應(yīng)用到的算法是分類、聚類算法。

參考文獻(xiàn):

[1] 趙水森.基于因特網(wǎng)的個(gè)性化信息服務(wù)研究[J].中國圖書館學(xué)報(bào),2003(4).

[2] 何軍,周明大.信息網(wǎng)絡(luò)中的信息過濾技術(shù)[J].系統(tǒng)工程與電子技術(shù),2001(11).

[3] 高鳳榮,馬文峰,工珊.數(shù)字圖書館個(gè)性化信急推薦系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2003(4).

[4] 陳金海.實(shí)現(xiàn)Internet個(gè)性化信急服務(wù)[J].情報(bào)雜志,2003(5).

[5] 王繼成,潘金貴,張福炎.Web文木挖掘技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2000(5).

[6] 胡昌斗.個(gè)性化一網(wǎng)絡(luò)環(huán)境下信急服務(wù)的趨勢(shì)[J].圖書館理論與實(shí)踐,2004(6).

主站蜘蛛池模板: 国产小视频在线高清播放| 中文字幕有乳无码| 欧美劲爆第一页| 国产成人精品日本亚洲77美色| 亚洲综合专区| 欧美www在线观看| 真实国产乱子伦高清| 欧美视频在线第一页| 无码中字出轨中文人妻中文中| 国产精品视频观看裸模| 国产精品55夜色66夜色| 精品人妻无码中字系列| 天天综合色网| 成人小视频网| 精品久久久久无码| 91在线无码精品秘九色APP| 中文字幕人成人乱码亚洲电影| 欧美日韩亚洲国产主播第一区| 日韩性网站| 成人毛片在线播放| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲人成日本在线观看| 精品免费在线视频| 欧美激情首页| 久久a毛片| 国产无人区一区二区三区| 91视频精品| 精品人妻AV区| 无码国产伊人| 一级片免费网站| 国产va在线观看| 色色中文字幕| 亚洲天堂日本| 欧美色亚洲| 午夜福利无码一区二区| 久久综合伊人 六十路| 欧美国产日韩在线观看| 99er精品视频| 欧洲日本亚洲中文字幕| 97成人在线视频| 无码免费视频| 精品视频免费在线| 99re热精品视频国产免费| 免费观看无遮挡www的小视频| 国产综合日韩另类一区二区| 中文纯内无码H| 亚洲成a人片| 日韩人妻少妇一区二区| 国产在线精品香蕉麻豆| 亚卅精品无码久久毛片乌克兰| 国产成人精品午夜视频'| 福利片91| 日韩大片免费观看视频播放| 国产精品永久不卡免费视频| www欧美在线观看| 91色国产在线| 欧美乱妇高清无乱码免费| 久久中文字幕2021精品| 免费人成视网站在线不卡| 一区二区三区四区精品视频| 国国产a国产片免费麻豆| 99青青青精品视频在线| 内射人妻无套中出无码| 久久黄色视频影| 亚洲天堂精品视频| 欧美人与牲动交a欧美精品| 精品久久久久久成人AV| 精品视频免费在线| h网址在线观看| 91九色视频网| 精品久久综合1区2区3区激情| 日韩中文无码av超清| 精品夜恋影院亚洲欧洲| 国产对白刺激真实精品91| 奇米影视狠狠精品7777| 国产三级a| 在线亚洲精品自拍| 国产人免费人成免费视频| 久久男人视频| 国产欧美日韩精品综合在线| 国内精自线i品一区202| 青青青亚洲精品国产|