趙丙秀
DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.014
摘 ?要: 針對(duì)網(wǎng)絡(luò)運(yùn)營商所關(guān)心的用戶行為分析問題,探討如何對(duì)網(wǎng)絡(luò)用戶的行為進(jìn)行分析, 提出了一種用戶行為分析分類的模型。首先根據(jù)關(guān)鍵字的關(guān)聯(lián)性進(jìn)行聚類分析,通過關(guān)鍵字被用戶檢索或?yàn)g覽的次數(shù)對(duì)用戶進(jìn)行分類,然后在此基礎(chǔ)上提出了加速算法和半衰期的概念,全面地闡述和分析了用戶行為分析的總體框架。
關(guān)鍵詞: 用戶行為分析; 聚類算法; 關(guān)聯(lián)性; 加速算法
中圖分類號(hào):TP393.4 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2016)02-46-03
Research on user behavior analysis and classification model
Zhao Bingxiu1,2
(1. Wuhan Vocational College of Software and Engineering, Wuhan, Hubei 430205, China; 2. The Open University of Wuhan)
Abstract: In this paper, the problems of user behavior analysis of network operators and how to analyze the behavior of network users are discussed, and a model of user behavior analysis and classification is put forward. The cluster analysis is performed according to the correlation of the key words, users are classified by the number of the keyword searched or browsed by the user, and then the concepts of acceleration algorithm and half-life are put forward to comprehensively expound and analyze the general framework of user behavior analysis.
Key words: user behavior analysis; clustering algorithm; correlation; acceleration algorithm
0 引言
隨著互聯(lián)網(wǎng)絡(luò)的迅猛發(fā)展,以信息獲取、交流溝通類為主的基礎(chǔ)網(wǎng)絡(luò)服務(wù)正逐漸發(fā)展為以休閑娛樂、電子服務(wù)、電子商務(wù)三大類服務(wù)為主的網(wǎng)絡(luò)服務(wù)。與此同時(shí),商業(yè)網(wǎng)站等贏利性站點(diǎn)需要分析用戶的行為及愛好來提供更滿意的服務(wù)使得其利潤最大化,這與提高網(wǎng)站服務(wù)的效率和個(gè)性化程度密切相關(guān);政府、科研機(jī)構(gòu)等非贏利性的網(wǎng)站也需要通過分析用戶構(gòu)成與其網(wǎng)絡(luò)行為上的特點(diǎn)來構(gòu)建科學(xué)的決策支持系統(tǒng)。在國內(nèi),由于網(wǎng)絡(luò)的連通性和拓?fù)浣Y(jié)構(gòu),用戶的數(shù)據(jù)包信息是可以通過分光器獲得,服務(wù)的提供商可以通過對(duì)此分析而得到用戶行為分析的基本數(shù)據(jù)。
1 模型的假設(shè)
用戶行為分析依據(jù)的選取:用戶在搜索引擎上查找的關(guān)鍵字和其瀏覽的網(wǎng)頁均可作為用戶行為分析的依據(jù)。我們可以把用戶查找的關(guān)鍵字和其瀏覽網(wǎng)頁標(biāo)題的分詞作為用戶感興趣的信息,關(guān)鍵詞的數(shù)目是龐大的,同時(shí)很多關(guān)鍵字之間存在相關(guān)性,可以定性的將所有的關(guān)鍵字按照其相關(guān)程度劃分為幾十個(gè)類別,從而方便對(duì)用戶的行為進(jìn)行分析。
建立這個(gè)模型時(shí),我們作了如下假設(shè):
⑴ 用戶的興趣是經(jīng)過一段比較長的時(shí)間形成的,長期形成的興趣是穩(wěn)定的,對(duì)于用戶行為的分析是以時(shí)間為維度的。
⑵ 用戶經(jīng)常關(guān)注的內(nèi)容必然是其感興趣的內(nèi)容。
⑶ 用戶長期關(guān)注的某方面內(nèi)容在該方面內(nèi)容上相對(duì)于一般人必然更專業(yè)。
⑷ 專業(yè)人士看的內(nèi)容也是專業(yè)的(不區(qū)分熱點(diǎn)問題和專業(yè)問題)。
⑸ 經(jīng)常看某方面專業(yè)文章的人,必然比看普及文章的人更專業(yè)。
⑹ 用戶某時(shí)間段內(nèi)不關(guān)注某方面內(nèi)容,其在該方面的了解程度會(huì)有一個(gè)衰減。
2 模型的建立與求解
2.1 模型算法設(shè)計(jì)
⑴ 關(guān)鍵詞的聚類算法設(shè)計(jì)
所有用戶在搜索引擎上檢索的關(guān)鍵詞和其瀏覽的網(wǎng)頁標(biāo)題對(duì)其提取分詞然后對(duì)搜集到的分詞進(jìn)行處理。假設(shè)存在n個(gè)關(guān)鍵詞,分別將其標(biāo)識(shí)為P1,P2,P3,…,Pn,Pi與Pj之間的關(guān)聯(lián)度的值設(shè)為xij ,xij初始值設(shè)為0,若關(guān)鍵詞Pi與Pj同時(shí)出現(xiàn)一次,即將其xij值加1,顯然有xij=xji。
對(duì)一段相對(duì)比較長的時(shí)間內(nèi)出現(xiàn)所有關(guān)鍵詞進(jìn)行處理之后得到一個(gè)無方向的強(qiáng)關(guān)聯(lián)圖。圖內(nèi)的每點(diǎn)都與多個(gè)其他點(diǎn)相聯(lián)系且其聯(lián)系程度可通過關(guān)聯(lián)度值的大小來確定。
根據(jù)關(guān)聯(lián)度我們對(duì)關(guān)鍵詞劃分類別。劃分方法:先遍歷一下關(guān)鍵詞關(guān)聯(lián)圖,看哪個(gè)關(guān)鍵詞周圍的加權(quán)邊最大,以這個(gè)關(guān)鍵詞為核心,作為一個(gè)類別;一共劃分出m個(gè)類別,其中包括關(guān)聯(lián)度小于某一臨界值q的其他類;然后根據(jù)這個(gè)關(guān)鍵詞最大加權(quán)邊的關(guān)鍵詞,劃入這個(gè)分類之中,對(duì)全部的m個(gè)分類都做一次,如果遇到?jīng)_突關(guān)鍵字(即此關(guān)鍵字已經(jīng)劃為另一類),則立即斷開圖里面的2個(gè)分類關(guān)鍵字的邊,繼續(xù)計(jì)算,直到m個(gè)分類劃分完畢;針對(duì)孤立點(diǎn)的操作在這次分類中遺棄,等待下次分類時(shí)候看是否其是否能發(fā)展成為一個(gè)分類。
⑵ 用戶分類的算法設(shè)計(jì)
一共s個(gè)用戶,每個(gè)用戶瀏覽一次某個(gè)關(guān)鍵詞,該用戶在該關(guān)鍵詞所屬的類別的權(quán)值加1,一定時(shí)間的統(tǒng)計(jì)后,該用戶對(duì)m個(gè)類別分別有一個(gè)權(quán)值,將其定為用戶在該類別上的等級(jí)分,分別標(biāo)記為s1,s2,s3,…,sm,顯然si的大小反映出該用戶對(duì)該類別的興趣的大小,取前t個(gè)興趣作為用戶主要興趣。
⑶ 用戶等級(jí)分衰減的算法設(shè)計(jì)
當(dāng)用戶某天沒有瀏覽某類別的文章或檢索相關(guān)字段時(shí),其等級(jí)分相應(yīng)會(huì)產(chǎn)生一個(gè)衰減。這里采取最常見的半衰期算法,等級(jí)分衰減的速度與等級(jí)分的高低成反比。設(shè)等級(jí)分為y,時(shí)間為t(單位為天,以天為單位進(jìn)行衰減),r為常量,根據(jù)長期數(shù)據(jù)分析可以獲得:
⑷ 用戶專家等級(jí)分的計(jì)算
用戶等級(jí)分到達(dá)一定程度,根據(jù)長期關(guān)注一個(gè)領(lǐng)域,就是傻瓜也會(huì)逐步精通,直至成為專家。同時(shí)專家關(guān)注的大部分文章必然也是專業(yè)性文章的原則,對(duì)專家的分類顯得非常重要,一個(gè)是對(duì)等級(jí)分計(jì)算的加速能起到非常關(guān)鍵的作用,另外一個(gè)他也能決定文章的等級(jí),同時(shí)也是區(qū)分用戶群的重要標(biāo)志。
專家等級(jí)一般采取3級(jí)制或5級(jí)制,常用的是設(shè)置臨界值a1,a2,這些臨界值的選取采取正態(tài)分布抽取,按照等級(jí)分為橫軸,根據(jù)預(yù)先設(shè)定的用戶數(shù)比例來得到專家分界值,當(dāng)然也可以采取平均分段來選取臨界值。
為了簡化計(jì)算,提高后臺(tái)的負(fù)載能力或者鼓勵(lì)用戶,一般用戶達(dá)到某個(gè)等級(jí)后,會(huì)保留等級(jí)一個(gè)時(shí)間t0,這個(gè)時(shí)間將不會(huì)再計(jì)算用戶的等級(jí),從而大大減小分析系統(tǒng)是開銷,保持用戶的熱度。
2.2 方程式求解、算法的最優(yōu)解
⑴ 關(guān)鍵詞的聚類算法分析
依照關(guān)鍵詞的聚類算法我們將關(guān)聯(lián)度較高的關(guān)鍵詞歸為同一個(gè)類別,而類別劃分出的數(shù)目顯然和我們選取的關(guān)聯(lián)度的臨界值是有關(guān)的。選取的關(guān)聯(lián)度的臨界值越高,劃分出的類別數(shù)目越多;選取關(guān)聯(lián)度的臨界值越低,劃分出的類別數(shù)目越少。
選取的一個(gè)重要原則是能顯著的劃分類,這里將劃分類時(shí)的臨界值設(shè)為q,在劃分第i個(gè)類時(shí),該類中最小的關(guān)聯(lián)度為Qi,該類與無向圖中其他的結(jié)點(diǎn)最大的關(guān)聯(lián)度為qi(顯然有qi<q<=Qi),這里要求顯著性程度很高即要求Qi與qi的差值盡可能大。若n個(gè)變量劃分出(m-1)個(gè)類別與一個(gè)其他類別,其他類別不予考慮,我們可以設(shè)一個(gè)顯著性水平變量p=(∑(Qi-qi))/(m-1),當(dāng)p值越大時(shí),類別的劃分越顯著。
同時(shí)我們需考慮劃分出的類別數(shù)目,過多的類別不便管理,而過少的類別不能全面反應(yīng)用戶的行為。
綜合考慮p和m,選取合適的臨界值q,使得劃分出的類數(shù)目和顯著性都較為合適。
⑵ 用戶分類的算法分析與方程式求解
在對(duì)用戶根據(jù)其在m個(gè)類別上的積分取前t個(gè)最大積分從而獲得用戶最感興趣的類別時(shí),其中t的選取,如果參照前面的顯著性的劃分實(shí)在很龐大,數(shù)量計(jì)算量比較大,可能用戶差不多感興趣的話題有數(shù)個(gè),其積分相差不大,積分相同的概率很小,忽略之。為了方便投放廣告,t選取4-8即可。
根據(jù)半衰期模型等級(jí)分y相對(duì)于時(shí)間t的為:
y(t)=sme-rt
其中,sm是代表用戶第m個(gè)興趣點(diǎn)的初始等級(jí)分,t為多少天沒有看過相關(guān)興趣點(diǎn)的關(guān)鍵類別,r為衰減常數(shù),一般通過長期數(shù)據(jù)分析獲取。
衰減過程先快再變慢,符合人的記憶規(guī)律和興趣的規(guī)律,并且接近人的記憶曲線。
3 模型的優(yōu)化
以上算法雖然可以實(shí)現(xiàn)對(duì)用戶的分類,但是有很多常數(shù)和用戶等級(jí)都需要長時(shí)間的數(shù)據(jù)積累。根據(jù)實(shí)踐經(jīng)驗(yàn),一般能夠?qū)τ脩糸_始精準(zhǔn)分類需要半年甚至一年的時(shí)間,這對(duì)于互聯(lián)網(wǎng)需要即時(shí)發(fā)現(xiàn)新用戶興趣,而非粘連用戶,從而保護(hù)用戶不流失來說,并不是很理想,因此我們必須引入加速算法。
加速算法描述:
一段時(shí)間后,用戶的積分達(dá)到某一固定值,對(duì)m個(gè)類別而言,某類別上s個(gè)用戶的積分分別為m1,m2,m3,…,ms,必然有用戶的積分的差異,將積分占該類別積分前固定百分比的用戶定位為專業(yè)級(jí)用戶,在另一個(gè)百分比段的用戶定位為一般級(jí)用戶,剩下的是菜鳥級(jí)別用戶(建議專業(yè)級(jí),一般級(jí),菜鳥級(jí)),在假設(shè)中已假定各種級(jí)別瀏覽的文章的專業(yè)程度不同,然后高級(jí)、中級(jí)、低級(jí)用戶給文章的加分不同,反過來文章作用于用戶給用戶加分的等級(jí)不同。
4 結(jié)束語
在實(shí)際中,網(wǎng)絡(luò)運(yùn)營商和服務(wù)提供商通過對(duì)用戶行為分析的分類,掌握用戶訪問網(wǎng)站的規(guī)律性特點(diǎn),挖掘出的用戶訪問模式,發(fā)現(xiàn)用戶的群體構(gòu)成以及其興趣和偏好,從而為用戶提供更具個(gè)性化服務(wù)以及商品推薦,更好地制定網(wǎng)絡(luò)規(guī)劃和業(yè)務(wù)運(yùn)營支撐決策, 將用戶的數(shù)據(jù)轉(zhuǎn)化為用戶的價(jià)值。
參考文獻(xiàn)(References):
[1] 董富強(qiáng),馬力,武波.一種基于Ineternet的用戶行為分類方法
與模型的研究[J].現(xiàn)代電子技術(shù),2004.22.
[2] 王攀,張順頤,陳雪嬌.基于動(dòng)態(tài)行為輪廓庫的Web用戶行為
分析關(guān)鍵技術(shù)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009.2.
[3] 張軻智.基于Web的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn) [D].電子科技
大學(xué)碩士學(xué)位論文,2013.
[4] 任文君.基于網(wǎng)絡(luò)用戶行為分析的問題研究[D]. 北京郵電大
學(xué)碩士學(xué)位論文,2013.
[5] 高志琨,康鑫,郭玉翠.互聯(lián)網(wǎng)中基于用戶行為的信任分類模
型[J].北京郵電大學(xué)理學(xué)報(bào),2011.3.