張夢(mèng)菲 邱 強(qiáng) 肖茁建 姚 曉 方金云
(*中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190) (**中國(guó)科學(xué)院大學(xué) 北京 100190)
Web數(shù)據(jù)挖掘一直是學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)之一。隨著大數(shù)據(jù)技術(shù)的發(fā)展,面向電子商務(wù)的Web數(shù)據(jù)挖掘在智能推薦、廣告投放等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。截至2018年12月,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)到6.10億,電子商務(wù)已成為大數(shù)據(jù)的重要來(lái)源[1]。用戶識(shí)別技術(shù)作為Web日志挖掘的基礎(chǔ), 是從大量無(wú)序的數(shù)據(jù)中分析出匿名用戶的獨(dú)立行為軌跡和特征,并最終識(shí)別出唯一的用戶個(gè)體。其結(jié)果的準(zhǔn)確性直接影響了后續(xù)數(shù)據(jù)挖掘和個(gè)性化服務(wù)的效果。因此,研究電商平臺(tái)的用戶識(shí)別具有重要的應(yīng)用價(jià)值。
用戶識(shí)別技術(shù)的研究主要集中在Web數(shù)據(jù)挖掘[2]、電子設(shè)備[3-5]、文本信息中匿名作者[6,7]以及共享賬戶[8]等領(lǐng)域。在Web挖掘領(lǐng)域中的用戶識(shí)別方法主要有2種:(1)基于啟發(fā)式規(guī)則的方法[9,10];(2)根據(jù)用戶行為模式的方法。基于啟發(fā)式規(guī)則的識(shí)別算法利用IP、用戶代理(userAgent)、cookie技術(shù)識(shí)別用戶,userAgent是用戶的操作系統(tǒng)及其版本信息和瀏覽器及其版本信息。Yen等人[10]在啟發(fā)式規(guī)則中證明了cookie技術(shù)比IP+userAgent方法具有更高的識(shí)別用戶準(zhǔn)確率,然而由于用戶隱私問題,很難獲得cookie數(shù)據(jù)的完整數(shù)據(jù)項(xiàng)。肖慧等人[11]提出了重寫URL的IASR(IP,agent, session and referrer)算法用戶跟蹤方法,在啟發(fā)式規(guī)則中引入用戶會(huì)話(session)來(lái)識(shí)別用戶,該方法在服務(wù)器端支持session的情況下提高了準(zhǔn)確率,但是實(shí)際情況中難以保證session的完整性和實(shí)效性?;谛袨槟J降挠脩糇R(shí)別算法根據(jù)用戶興趣和習(xí)慣的獨(dú)特性[12]和穩(wěn)定性[13],并利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法對(duì)點(diǎn)擊流數(shù)據(jù)分類和預(yù)測(cè)來(lái)識(shí)別用戶?!?br>