999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA的微博用戶粉絲親密度評(píng)價(jià)模型

2016-11-08 08:33:58王秋森俞浩亮徐浩誠(chéng)馮旭鵬劉利軍黃青松
關(guān)鍵詞:用戶實(shí)驗(yàn)評(píng)價(jià)

王秋森 俞浩亮 徐浩誠(chéng) 馮旭鵬 劉利軍 黃青松,3*

1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)2(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心 云南 昆明 650500)3(云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)

?

基于LDA的微博用戶粉絲親密度評(píng)價(jià)模型

王秋森1俞浩亮1徐浩誠(chéng)1馮旭鵬2劉利軍1黃青松1,3*

1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院云南 昆明 650500)2(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心云南 昆明 650500)3(云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室云南 昆明 650500)

用戶關(guān)系是目前微博研究的熱門(mén)方向,微博用戶親密度評(píng)價(jià)在對(duì)用戶隱含親密粉絲的發(fā)現(xiàn)、微博網(wǎng)絡(luò)環(huán)境優(yōu)化等方面具有重要意義。目前微博用戶群體龐大且關(guān)系復(fù)雜,僅從用戶自身出發(fā),以用戶特征和關(guān)系網(wǎng)絡(luò)等為依據(jù)對(duì)用戶關(guān)系親密度評(píng)價(jià)的準(zhǔn)確率太低。針對(duì)這一問(wèn)題,提出基于LDA的微博用戶粉絲親密度評(píng)價(jià)模型。首先,對(duì)用戶粉絲集中非活躍粉絲過(guò)濾剔除,獲取其活躍粉絲。然后,利用LDA主題模型對(duì)用戶某時(shí)間段所發(fā)微博集進(jìn)行訓(xùn)練,獲取用戶階段性微博的主題分布;同時(shí)通過(guò)主題分布推斷其興趣取向分布,并利用余弦相似方法計(jì)算用戶與其粉絲之間的興趣相似度。最后,結(jié)合用戶的背景相似度和關(guān)系緊密度,為用戶建立綜合的親密度評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)新浪API接口抓取微博近期相關(guān)數(shù)據(jù),組成實(shí)驗(yàn)數(shù)據(jù)集。在數(shù)據(jù)集上基于評(píng)價(jià)的推薦實(shí)驗(yàn)結(jié)果表明,所提出的模型方法具有較高的準(zhǔn)確率和有效性。

親密度LDA粉絲主題模型相似度

0 引 言

微博,繼Twitter問(wèn)世之后迅速發(fā)展成為一種主流的信息發(fā)布社交網(wǎng)絡(luò)平臺(tái)。以新浪微博為代表,其簡(jiǎn)潔性、實(shí)時(shí)性等特點(diǎn)[1]以及新穎的表現(xiàn)形式、獨(dú)特的傳播方式[2],迅速吸引了大量的使用人群,成為了國(guó)內(nèi)最重要的社交媒體之一。微博從最基本的用戶信息交流,逐漸發(fā)展成為信息發(fā)布和商業(yè)營(yíng)銷的平臺(tái),這種發(fā)展為社交網(wǎng)絡(luò)的用戶關(guān)系分析與用戶個(gè)性化推薦提供了良好的研究環(huán)境。

社交網(wǎng)絡(luò)用戶關(guān)系分析的相關(guān)研究主要集中在用戶影響力分析[3]、信息的傳播[4]等方向,體現(xiàn)了用戶關(guān)系在社交網(wǎng)絡(luò)中重要研究?jī)r(jià)值。用戶關(guān)系分析,以微博用戶親密度分析為代表,為用戶尋找隱性親密粉絲提供良好依據(jù),在構(gòu)建由用戶彼此親密粉絲組成的微博網(wǎng)絡(luò)環(huán)境上提供有效資源。其在優(yōu)化社交網(wǎng)絡(luò)環(huán)境、推進(jìn)社交網(wǎng)絡(luò)的透明化發(fā)展、用戶個(gè)性化推薦以及企業(yè)商業(yè)化推薦等方面都具有重要的現(xiàn)實(shí)意義。

對(duì)微博用戶關(guān)系的分析,Yanagimoto等人[5]將微博社交網(wǎng)絡(luò)視為一個(gè)加權(quán)無(wú)向圖,每個(gè)邊表示用戶之間的關(guān)系,邊的權(quán)值表示他們之間的關(guān)系強(qiáng)度[6],通過(guò)比較相關(guān)特征,計(jì)算用戶之間關(guān)系強(qiáng)度。這種方法在用戶關(guān)系的分析上有一定效果,但忽略了用戶自身屬性特征,所以對(duì)用戶關(guān)系強(qiáng)度的評(píng)價(jià)不夠客觀。Kahanda等人[7]利用用戶之間的交互性和自身屬性特征來(lái)評(píng)價(jià)用戶關(guān)系強(qiáng)度。Xiang等人[8]結(jié)合了用戶之間的交互性和用戶相似度來(lái)計(jì)算用戶的關(guān)系強(qiáng)度。以上研究側(cè)重于從用戶自身出發(fā)進(jìn)行分析研究,其優(yōu)點(diǎn)是對(duì)用戶關(guān)系強(qiáng)度評(píng)價(jià)效果較為明顯,但是忽略了微博內(nèi)容對(duì)用戶關(guān)系的影響,因此對(duì)用戶之間個(gè)性化特點(diǎn)的評(píng)價(jià)不準(zhǔn)確。

用戶關(guān)系分析經(jīng)常被應(yīng)用于用戶個(gè)性化推薦。Chen等人[9]通過(guò)獲取社交網(wǎng)絡(luò)的歷史數(shù)據(jù),憑借基于內(nèi)容的方法進(jìn)行用戶推薦獲得了一定效果,但單純使用基于內(nèi)容的方法比較片面,不能很好體現(xiàn)用戶的推薦行為。Hannon等人[10]采用了基于內(nèi)容相似和協(xié)同過(guò)濾方法來(lái)推薦Twitter用戶,取得了一定的推薦效果,但該方法還是未能考慮用戶的個(gè)人屬性特征,在用戶個(gè)性化推薦方面的效果不夠理想。徐雅斌等人[11]提出了選取反映微博用戶之間相關(guān)性的多個(gè)特征,并通過(guò)邏輯回歸模型對(duì)潛在的用戶進(jìn)行評(píng)分排序,為目標(biāo)用戶推薦前N個(gè)潛在用戶,在用戶普通推薦上效果較為明顯。但該方法對(duì)用戶個(gè)人信息特征選取不準(zhǔn)確,而且忽略了用戶的興趣取向等重要特征因素,使得該方法在用戶個(gè)性化推薦上效果不明顯。

針對(duì)傳統(tǒng)方法在微博用戶關(guān)系評(píng)價(jià)分析中準(zhǔn)確率低的現(xiàn)象,本文提出基于LDA的微博用戶粉絲親密度評(píng)價(jià)模型。從微博及微博用戶本身出發(fā),綜合考慮了微博用戶的被動(dòng)活躍度(其他用戶對(duì)該用戶的主動(dòng)性)、用戶之間的背景相似度(選取用戶有針對(duì)性的自身屬性建立向量,用以計(jì)算用戶之間的相似度)、用戶之間的關(guān)系強(qiáng)度[6,12](用戶之間的轉(zhuǎn)發(fā)、評(píng)論、提及互動(dòng)強(qiáng)度)等屬性特征,并結(jié)合LDA主題模型對(duì)微博內(nèi)容進(jìn)行分析。在微博內(nèi)容分析方面,首先,對(duì)于微博內(nèi)容的主題進(jìn)行分析,獲取用戶相關(guān)的主題分布;然后通過(guò)主題分布推斷其興趣分布,以此計(jì)算博主與每一個(gè)粉絲的興趣相似度;最后,融合以上特征為用戶建立綜合親密度評(píng)價(jià)得分標(biāo)準(zhǔn),按評(píng)價(jià)得分結(jié)果進(jìn)行Top-N排名,得到該評(píng)價(jià)模型下的用戶推薦列表。利用新浪API接口抓取微博近期相關(guān)數(shù)據(jù),組成實(shí)驗(yàn)數(shù)據(jù)集。在數(shù)據(jù)集上基于評(píng)價(jià)的推薦實(shí)驗(yàn)結(jié)果表明,本文提出的模型方法在用戶的個(gè)性化推薦應(yīng)用方面更有針對(duì)性,效果更好。

1 用戶粉絲親密度的評(píng)價(jià)模型

該部分主要介紹用戶親密粉絲的評(píng)價(jià)推薦流程中的用戶粉絲親密度評(píng)價(jià)模型,如圖1第三部分所示。用戶親密粉絲評(píng)價(jià)推薦流程主要由微博數(shù)據(jù)獲取、構(gòu)建數(shù)據(jù)、用戶粉絲親密度評(píng)價(jià)模型(BLDA)和推薦粉絲排名四個(gè)部分組成。第一部分,通過(guò)微博API按要求采集微博相關(guān)數(shù)據(jù),并將其存入數(shù)據(jù)庫(kù);第二部分,通過(guò)分析數(shù)據(jù)庫(kù)數(shù)據(jù),建立博主與之對(duì)應(yīng)粉絲集合的數(shù)據(jù)集;第三部分,通過(guò)用戶粉絲親密度評(píng)價(jià)模型對(duì)每個(gè)粉絲給出對(duì)應(yīng)的綜合評(píng)價(jià)得分;第四部分,根據(jù)第三部分得到的綜合評(píng)價(jià)分?jǐn)?shù),按得分高低順序推薦出前N個(gè)粉絲為親密粉絲。下文詳細(xì)介紹用戶粉絲親密度評(píng)價(jià)模型,具體包括微博用戶粉絲活躍度篩選、微博用戶背景相似度分析、微博用戶關(guān)系強(qiáng)度對(duì)比、微博用戶興趣相似度分析;最后給出粉絲親密度綜合評(píng)價(jià)得分計(jì)算方法。

圖1 用戶親密粉絲評(píng)價(jià)推薦流程

1.1微博用戶粉絲活躍粉絲篩選

用戶粉絲親密度評(píng)價(jià)推薦對(duì)效率和準(zhǔn)確率的精度要求很高,如果籠統(tǒng)對(duì)博主所有的粉絲進(jìn)行評(píng)價(jià)推薦,會(huì)導(dǎo)致效率和準(zhǔn)確率降低。特別當(dāng)粉絲中包含大量對(duì)粉絲親密度評(píng)價(jià)有干擾的“僵尸粉”時(shí),評(píng)價(jià)推薦的準(zhǔn)確率會(huì)大大降低。因此,在用戶粉絲親密度評(píng)價(jià)之前,需要從粉絲集合中剔除這些粉絲。針對(duì)“僵尸粉”主動(dòng)性好、被動(dòng)性差的特點(diǎn),本文提出用戶被動(dòng)活躍度指標(biāo)對(duì)博主的粉絲進(jìn)行篩選,定義如下:

定義1令b表示某一個(gè)博主,被動(dòng)活躍閾值為θ,則其活躍粉絲集合表示為F(b)。假定在微博數(shù)據(jù)時(shí)間段K內(nèi),微博用戶u發(fā)表原創(chuàng)的、被轉(zhuǎn)發(fā)的以及被評(píng)論的數(shù)目的總和為S(u),那么用戶的被動(dòng)活躍度a可表示為:

(1)

當(dāng)博主的某粉絲用戶的被動(dòng)活躍度a低于事先設(shè)定的閾值θ時(shí),剔除該粉絲。博主b剩下的粉絲為有效活躍粉絲,表示為F(b)。

1.2微博用戶背景相似度分析

活躍在背景環(huán)境相似下的微博用戶,會(huì)有相似的人生觀、價(jià)值觀等一些內(nèi)在共性,這樣的群體更容易發(fā)展成為親密粉絲關(guān)系。本文選取微博用戶的相關(guān)背景屬性,主要包括用戶年齡、注冊(cè)時(shí)間(微齡)、是否加V、關(guān)注數(shù)/粉絲數(shù)、男粉絲/女粉絲、粉絲對(duì)博主博文行為/博主所發(fā)博文,進(jìn)行相似度分析。則對(duì)微博用戶背景相似度的定義如下:

定義2令背景屬性向量為Ubg,微博用戶背景屬性向量表示為Ubg=(year,rage,isV,af,nvf,mbf),博主背景屬性向量為Bbg,第i個(gè)粉絲的背景屬性向量為Fbgi,Simbgi為博主與其第i個(gè)粉絲背景的相似度。設(shè)向量A(a1,a2,…,an)與向量B(b1,b2,…,bn),則向量A、B的相似度關(guān)系為:

(2)

則結(jié)合式(2),博主與其第i個(gè)粉絲背景相似度表示為:

Simbgi=Cos(Bbg,Fbgi)

(3)

其中背景屬性向量Ubg屬性變量的定義如下:

定義3令year表示微博用戶出生年代的類別集合,記作year{00后,90后,80后,70后,60后},并依次賦予權(quán)值{2,4,5,3,1};

定義4令rage表示微博用戶的微齡段集合,記作rage{不到1歲,2歲,3歲,4歲,5歲以上},并依次賦予權(quán)值{5,4,3,2,1};

定義5令isV表示微博用戶是否加V集合,記作isV{是,否},并依次賦值{1,0};

1.3微博用戶關(guān)系強(qiáng)弱度分析

博主與粉絲之間的互動(dòng)反映著他們之間的關(guān)系強(qiáng)弱,親密粉絲一般與博主有較強(qiáng)的關(guān)系緊密度。因此,用戶之間的關(guān)系強(qiáng)弱度對(duì)粉絲親密度評(píng)價(jià)有較大影響。令Rui表示博主與第i個(gè)粉絲的關(guān)系強(qiáng)度,則博主與第i個(gè)粉絲之間的互動(dòng)率表示為:

(4)

式中,h為博主與第i個(gè)粉絲在相同時(shí)間段內(nèi)發(fā)的相同條數(shù)微博數(shù),Ebi、Pbi、Jbi分別表示博主轉(zhuǎn)發(fā)、評(píng)論、提及第i個(gè)粉絲fi的數(shù)量,Efi、Pfi、Jfi分別表示第i個(gè)粉絲fi轉(zhuǎn)發(fā)、評(píng)論、提及博主的數(shù)量。

1.4微博用戶興趣相似度分析

高明等人[13]提出基于面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦中推斷微博主題分布和用戶興趣取向的研究方法的基礎(chǔ)上,本文提出一種分析博主與粉絲的興趣相似度的研究方法。由于每條微博通常會(huì)關(guān)聯(lián)到一個(gè)或多個(gè)主題,這種特征符合LDA主題模型方法,故本文第一步采用LDA主題模型來(lái)分析微博的主題分布。同時(shí),由于用戶所發(fā)微博能很好地反映用戶所關(guān)心的主題,本文第二步通過(guò)研究用戶所發(fā)微博的主題分布與其興趣取向分布的關(guān)系,給出博主與粉絲間的興趣相似度的計(jì)算方法。下文為方法的詳細(xì)介紹。

1.4.1主題分布和興趣取向定義

定義9令Z={z1,z2,…,zT}為預(yù)先給定的T個(gè)主題的集合,p(z1|blog),p(z2|blog),…,p(zT|blog)為用戶所發(fā)某一微博blog的主題分布,p(zi|blog)表示微博blog屬于主題zi的后驗(yàn)概率,其數(shù)值越大則微博blog屬于主題zi的可能性就越大。

定義10令{blog1,blog2,…,blogh}為用戶在某一特定時(shí)間內(nèi)發(fā)布的h條微博集合,Ou=(ou1,ou2,…,ouT)表示該用戶的興趣取向向量,ouk(k=1,2,…,T)為用戶u的第k個(gè)興趣取向,結(jié)合定義1可以表示為:

(5)

式中,ouk表示該用戶對(duì)第k個(gè)主題感興趣的平均概率,blogj表示第j條微博,zk表示第k個(gè)主題。

1.4.2微博主題推斷

通過(guò)新浪微博API采集相關(guān)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,進(jìn)行LDA主題模型的學(xué)習(xí),得出訓(xùn)練數(shù)據(jù)集中每條微博的主題分布以及每個(gè)單詞在T個(gè)主題上的分布情況。對(duì)于每條微博的主題分布,都可以通過(guò)推斷該微博中各單詞所屬主題,來(lái)推斷該微博的主題分布。具體推斷方法如下:

假定由n個(gè)單詞組成的微博為blog,其單詞集合記為{ω1,ω2,…,ωn}。令隨機(jī)變量cωi表示單詞ωi的主題,則對(duì)微博blog中單詞ωi,cωi=j的概率計(jì)算表示為:

(6)

(7)

單詞ωi的主題是從分布Xωi=(x1,x2,…,xT)中抽樣得到,則微博blog屬于第j個(gè)主題的概率?blog,j描述為:

(8)

最后,微博blog的主題分布表示為:

?blog=(?blog,1,?blog,2,…,?blog,T)

(9)

1.4.3興趣取向分布

用戶的興趣取向是用一個(gè)T維向量Ou=(ou1,ou2,…,ouT)描述的,每一個(gè)用戶的興趣取向向量根據(jù)數(shù)據(jù)集中用戶微博集而確定。對(duì)于每一個(gè)用戶,選取的h條微博的主題分布可以用一個(gè)矩陣表示。令矩陣Gu表示用戶的微博集合所產(chǎn)生的主題分布矩陣,選取通過(guò)LDA對(duì)博主的微博集進(jìn)行訓(xùn)練得到的主題Z={z1,z2,…,zT}為矩陣的行,選取微博用戶發(fā)的微博集合Blog={blog1,blog2,…,blogh}為矩陣的列。其中,對(duì)于博主,選取某段時(shí)間的若干條微博;對(duì)于粉絲,選取與博主相同時(shí)間段的相同條數(shù)的微博。假設(shè)某個(gè)用戶在時(shí)間段t內(nèi)發(fā)了x條微博,取其中h(h

(10)

Ou=(ou1,ou2,…,ouT)

(11)

1.4.4興趣相似度計(jì)算

興趣相似度反映著用戶之間的內(nèi)在共性,粉絲與博主相似度越大,該粉絲就越容易成為親密粉絲。根據(jù)用戶的興趣分布分析,令博主的興趣分布向量為Ob,粉絲i的興趣分布向量為Ofi,由式(1)過(guò)濾得到博主的活躍粉絲集合為F(b)。令Simbfi表示博主與粉絲i的興趣相似度,則通過(guò)式(2)、式(11)可將博主與粉絲i的興趣相似度表示為:

Simbfi=Cos(Ob,Ofi)i∈F(b)

(12)

1.4.5粉絲親密度綜合評(píng)價(jià)計(jì)算方法

王煥玲[14]在《“粉”字心義》中對(duì)“微博粉絲”的解釋是:在微博里對(duì)某一博主保持持續(xù)關(guān)注的人類群體。當(dāng)微博的博主在其微博上發(fā)表新的留言,第一時(shí)間關(guān)注他的大多數(shù)情況下就會(huì)是該微博的粉絲。親密粉絲是與博主有較高的親密度的粉絲,主要表現(xiàn)在活躍度高、與博主之間關(guān)系緊密、與博主在興趣上相似度大。則對(duì)用戶粉絲親密度的定義如下:

定義11令F表示某一博主的粉絲集合,標(biāo)記為F={f1,f2,…,fn},由式(1)過(guò)濾得到博主的活躍粉絲集合為F(b)。設(shè)Qfi表示對(duì)博主第i粉絲親密度評(píng)價(jià)得分,由式(3)中Simbgi表示博主背景與第i個(gè)粉絲背景相似度,式(4)中Rui表示博主與第i個(gè)粉絲的關(guān)系強(qiáng)度,式(10)中Simbfi表示博主與第i個(gè)粉絲興趣相似度。則結(jié)合式(2)、式(3)、式(4)、式(10),博主第i個(gè)粉絲的親密度表示為:

Qfi=αSimbgi+βRui+λSimbfii∈F(b)

(13)

α+β+λ=1

(14)

式中,α、β、λ是對(duì)應(yīng)的權(quán)重變量,權(quán)重變量由實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)獲得,實(shí)驗(yàn)部分將詳細(xì)介紹。通過(guò)式(13)計(jì)算的Qfi值可以得出對(duì)博主第i個(gè)粉絲的親密度評(píng)價(jià)得分。對(duì)博主活躍粉絲集合F(b),用以上計(jì)算方法,能得出每一個(gè)活躍粉絲綜合推薦評(píng)分,選取Top-N個(gè)活躍粉絲為博主的親密粉絲。

2 實(shí)驗(yàn)及分析

2.1實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)采用用戶粉絲親密度評(píng)價(jià)模型(BLDA),對(duì)微博用戶進(jìn)行親密粉絲推薦,并將結(jié)果與基于協(xié)同過(guò)濾的用戶推薦模型(BPR)[15]和邏輯回歸的用戶推薦模型(LR)[11]進(jìn)行效果對(duì)比,側(cè)面反映用戶粉絲親密度評(píng)價(jià)效果。利用新浪微博開(kāi)放API的方式獲取用戶基本信息和最新發(fā)布一系列微博信息,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集中每個(gè)用戶基本信息包括用戶年齡、微博注冊(cè)時(shí)間(微齡)、是否加V、關(guān)注人數(shù)、粉絲人數(shù)、男粉絲數(shù)、女粉絲數(shù)、用戶發(fā)博文次數(shù)、粉絲關(guān)注所發(fā)博文數(shù)(對(duì)于每篇博文,只要有粉絲有相關(guān)的關(guān)注行為則記為一次,一條微博只記一次,不重復(fù)記)。為了對(duì)比BPR和LR推薦模型在對(duì)親密粉絲推薦上的效果,數(shù)據(jù)集中每個(gè)用戶的微博信息應(yīng)包括用戶及其關(guān)注用戶的微博、用戶標(biāo)簽、用戶社交圈、用戶個(gè)人信息(地區(qū)、性別)。同時(shí)為了實(shí)驗(yàn)方便進(jìn)行,本實(shí)驗(yàn)要求數(shù)據(jù)集選取的每個(gè)用戶關(guān)注人數(shù)不少于30人,粉絲數(shù)在100到2000個(gè)之間,且所發(fā)微博數(shù)不得少于60條。

本實(shí)驗(yàn)按照數(shù)據(jù)集的要求,使用Java語(yǔ)言編寫(xiě)的程序,從新浪開(kāi)放API接口獲取了376個(gè)滿足條件的用戶及其粉絲的個(gè)人基本信息以及相關(guān)微博信息。將獲取的376個(gè)用戶作為目標(biāo)用戶,并將這376個(gè)目標(biāo)用戶對(duì)應(yīng)的親密粉絲作為待推薦的用戶,其親密度由訓(xùn)練獲得。

將獲取的微博用戶數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練集由376個(gè)目標(biāo)用戶及其對(duì)應(yīng)親密粉絲組成,測(cè)試集由376個(gè)目標(biāo)用戶及剔除親密粉絲后剩余的對(duì)應(yīng)粉絲組成。對(duì)于測(cè)試集中的每個(gè)目標(biāo)用戶,隨機(jī)選取對(duì)應(yīng)的40個(gè)待推薦的粉絲并隱藏其10個(gè)親密粉絲(共50個(gè)粉絲)作為測(cè)試集。模型訓(xùn)練結(jié)束后,對(duì)測(cè)試數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),得到按降序排列的Top-N推薦結(jié)果。

2.2實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

在實(shí)驗(yàn)中,采用準(zhǔn)確率(P),召回率(R),綜合指標(biāo)(F)作為評(píng)價(jià)標(biāo)準(zhǔn)。

準(zhǔn)確率:

(15)

召回率:

(16)

綜合指標(biāo):

(17)

其中a表示推薦出來(lái)的粉絲為親密粉絲數(shù),b表示推薦出來(lái)的粉絲為非親密粉絲數(shù),c表示沒(méi)有推薦出來(lái)的親密粉絲數(shù)。

2.3評(píng)價(jià)權(quán)重α、β、λ的調(diào)整

表1 評(píng)分權(quán)重α、β、λ分別取1的實(shí)驗(yàn)結(jié)果

表2 評(píng)分權(quán)重α、β、λ調(diào)整后的實(shí)驗(yàn)結(jié)果

2.4實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文方法的準(zhǔn)確性和有效性,實(shí)驗(yàn)隨機(jī)選取5組數(shù)據(jù)集中的用戶,每組10個(gè)用戶參與實(shí)驗(yàn)。對(duì)基于協(xié)同過(guò)濾的用戶推薦模型(BPR)和邏輯回歸的用戶推薦模型(LR)在本文數(shù)據(jù)集上推薦結(jié)果的準(zhǔn)確率、召回率和綜合指標(biāo)三個(gè)指標(biāo)進(jìn)行對(duì)比,從而進(jìn)行親密粉絲推薦效果的比較。分別取每個(gè)用戶的Top-1、Top-2、Top-3、Top-4、Top-5、Top-6、Top-7、Top-8、Top-9和Top-10十種情況下的實(shí)驗(yàn)結(jié)果,即推薦結(jié)果的前1個(gè)、前2個(gè)、前3個(gè)、前4個(gè)、前5個(gè)、前6個(gè)、前7個(gè)、前8個(gè)、前9個(gè)和前10個(gè)粉絲中,隱藏親密粉絲占推薦結(jié)果的平均比例,實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 BLDA、BPR和LP的推薦效果比較

由實(shí)驗(yàn)結(jié)果容易觀察出:BLDA方法模型對(duì)用戶親密粉絲推薦的整體準(zhǔn)確率要優(yōu)于LR和BPR方法模型。隨著K值的增大,BLDA方法模型的召回率和綜合指標(biāo)值趨于穩(wěn)定,效果明顯優(yōu)于LR和BPR方法模型。親密粉絲推薦,關(guān)注的是推薦出來(lái)的是不是親密粉絲以及粉絲的親密度排名,因此準(zhǔn)確率、召回率和綜合指標(biāo)的值越大,效果越好。這說(shuō)明了本文提出的BLDA方法模型對(duì)優(yōu)質(zhì)粉絲的推薦優(yōu)于BPR和LR方法模型。

BPR方法模型雖然考慮了用戶多維特征間的相似性,并取得了一定的推薦效果,但由于該方法數(shù)據(jù)稀疏性處理不夠,對(duì)親密粉絲推薦并不理想。LR方法模型從用戶興趣、社交圈和個(gè)人信息多個(gè)角度出發(fā),數(shù)據(jù)信息比較充分;并通過(guò)深層挖掘用戶信息中潛在支配推薦排序信息的邏輯回歸模型[8],綜合利用這些特征進(jìn)行用戶親密粉絲推薦。該方法在數(shù)據(jù)稀疏處理方面比較合理,但對(duì)用戶興趣的分析是從自身特征研究,缺乏客觀性,因此在用戶親密粉絲上的推薦效果不理想。BLDA方法模型更加全面地從博文與用戶本身出發(fā),以用戶所發(fā)博文為根據(jù),利用LDA主題模型分析博文的主題分布,用以反映用戶興趣取向。其對(duì)用戶興趣的推斷更加客觀準(zhǔn)確,從而對(duì)用戶粉絲的親密度評(píng)價(jià)更為客觀,對(duì)親密粉絲的推薦針對(duì)性更強(qiáng)。綜合利用這些特征對(duì)親密粉絲的推薦效果有了較大的提高,側(cè)面反映了該用戶親密度評(píng)價(jià)模型的有效性和準(zhǔn)確性。

3 結(jié) 語(yǔ)

本文主要從微博用戶自身相關(guān)特征與博文內(nèi)容出發(fā),對(duì)博文進(jìn)行深層次挖掘,利用LDA主題模型分析博文的主題分布,反映出興趣取向分布,融合微博用戶的背景特征以及相關(guān)行為特征構(gòu)建了一個(gè)綜合的用戶粉絲親密度評(píng)價(jià)模型。實(shí)驗(yàn)結(jié)果表明,本文所搭建的模型在一定程度上提高了親密粉絲個(gè)性化推薦的準(zhǔn)確率、召回率和綜合指標(biāo)。但實(shí)驗(yàn)過(guò)程中仍存在一些問(wèn)題:(1) 特征選取不夠全面,對(duì)用戶關(guān)系的親密度評(píng)價(jià)效果的影響較大;(2) 實(shí)驗(yàn)效果跟權(quán)值的選定有一定關(guān)聯(lián)。因此,對(duì)微博用戶背景、活躍度、興趣的相互關(guān)系的深入研究是未來(lái)研究的方向。隨著新浪微博的發(fā)展以及互聯(lián)網(wǎng)越來(lái)越開(kāi)放,可以獲取到更豐富的用戶屬性,為用戶關(guān)系更深入的評(píng)價(jià)分析提供更多的可靠依據(jù)。

[1] 傅穎斌,陳羽中.基于鏈路預(yù)測(cè)的微博用戶關(guān)系分析[J].計(jì)算機(jī)科學(xué),2014,41(2):201-205,244.

[2] 閆強(qiáng),吳聯(lián)仁,鄭蘭.微博社區(qū)中用戶行為特征及其機(jī)理研究[J].電子科技大學(xué)學(xué)報(bào),2013,42(3):328-333.

[3] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會(huì)影響力分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):791-800.

[4] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):779-790.

[5]YanagimotoH,YoshiokaM.RelationshipStrengthEstimationforSocialMediaUsingFolksonomyandNetworkAnalysis[C]//2012IEEEInternationalConferenceonFuzzySystems,2012:1-8.

[6] 徐志明,李棟,劉挺,等.微博用戶的相似性度量及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):207-218.

[7]KahandaI,NevilleJ.Usingtransactionalinformationtopredietlinkstrengthinonlinesocialnetworks[C]//ProceedingsoftheICWSM’09,SanJose,USA,2009:74-81.

[8]XiangRJ,NevilleJ,RogatiM.Modelingrelationshipstrengthinonlinesocialnetworks[C]//ProceedingsoftheWWW2010,Raleigh,NorthCarolina,USA,2010:981-990.

[9]ChenJ,GeyerW,DuganC,etal.Makenewfriends,butkeeptheold:Recommendingpeopleonsocialnetworkingsites[C]//ProceedingsoftheSIGCHIConferenceononHumanFactorsinComputingSystems.NewYork:ACM,2009:201-210.

[10]HannonJ,BennettM,SmythB.Recommendingtwitteruserstofollowusingcontentandcollaborativefilteringapproaches[C]//ProceedingsoftheACMConferenceonRecommenderSystems.NewYork:ACM,2010:199-206.

[11] 徐雅斌,石偉杰.微博用戶推薦模型的研究[J].電子科技大學(xué)學(xué)報(bào),2015,44(2):254-259.

[12]YangL,LiC,DingQ,etal.CombiningLexicalandSemanticFeaturesforShortTextClassification[J].ProcediaComputerScience,2013,22:78-86.

[13] 高明,金澈清,錢(qián)衛(wèi)寧,等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):963-975.

[14] 王煥玲.“粉”字新義[J].現(xiàn)代語(yǔ)文:下旬.語(yǔ)言研究,2012(4):94-95.

[15] 胡大偉.基于標(biāo)簽協(xié)同過(guò)濾算法在微博推薦中的研究[D].包頭:內(nèi)蒙古科技大學(xué),2012.

EVALUATIONMODELOFWEIBOUSERFOLLOWERSINTIMACYBASEDONLDA

WangQiusen1YuHaoliang1XuHaocheng1FengXupeng2LiuLijun1HuangQingsong1,3*

1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)3(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)

Userrelationshipisapopulardirectionofmicrobloggingresearchnowadays,theevaluationofweibo(microblogginginChina)userfollowers’intimacyisofgreatsignificancetothediscoveryofimplicitusers’intimatefollowersandtheoptimisationofmicrobloggingnetworkenvironment.Currentlytheweibousergroupsarelargeandhavecomplexrelationships,ifevaluatingtheintimacyofusers’relationshiponlystartingfromusersownandbasedonusers’characteristicsandrelationshipnetwork,theaccuracyistoolow.Inordertosolvethisproblem,inthispaperweputforwardtheLDA-basedevaluationmodelofmicroblogginguserfollowersintimacy.Firstitfiltersandweedsoutthoseinactivefollowersinuserfollowerssettoobtainactivefollowers.Then,itusesLDAthememodeltotrainthemicrobloggingarticlesetwrittenduringagivenperiodsoastoacquirethemesdistributionofphasedmicroblogsofusers.Meanwhile,accordingtothemesdistributionsthemodelinferstheinterestsorientationdistributionofmicroblogs,andusescosinesimilaritymethodtocalculatetheinterestsimilaritybetweenusersandtheirfollowers.Finally,combiningthebackgroundsimilarityandrelationshipintimacyofusers,wesetupacomprehensiveintimacyevaluationstandard.ThroughSinaAPIinterfaceswecrawledrecentcorrelatedmicrobloggingdataandformedtheexperimentaldataset,theresultsofevaluation-basedrecommendationexperimentondatasetshowedthattheLDA-basedmodelhashigheraccuracyandeffectiveness.

IntimacyLDAFollows(fans)ThememodelSimilarity

2015-06-11。國(guó)家自然科學(xué)基金項(xiàng)目(81360230);科技部科技型中小企業(yè)技術(shù)創(chuàng)新基金項(xiàng)目(13C26215305404)。王秋森,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí),自然語(yǔ)言處理。俞浩亮,碩士生。徐浩誠(chéng),碩士生。馮旭鵬,碩士。劉利軍,講師。黃青松,教授。

TP

ADOI:10.3969/j.issn.1000-386x.2016.10.015

猜你喜歡
用戶實(shí)驗(yàn)評(píng)價(jià)
記一次有趣的實(shí)驗(yàn)
SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
石油瀝青(2021年4期)2021-10-14 08:50:44
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于Moodle的學(xué)習(xí)評(píng)價(jià)
如何獲取一億海外用戶
主站蜘蛛池模板: 欧美国产日产一区二区| 性欧美精品xxxx| 又黄又湿又爽的视频| 国产亚洲男人的天堂在线观看| 成人va亚洲va欧美天堂| 91网站国产| 亚洲第一中文字幕| 无码aⅴ精品一区二区三区| 日韩小视频网站hq| 亚洲中文字幕在线一区播放| 久久久久国色AV免费观看性色| 蜜桃视频一区二区| 国产精品欧美日本韩免费一区二区三区不卡| 亚洲AV人人澡人人双人| a欧美在线| 久久天天躁夜夜躁狠狠| 国产激情无码一区二区免费| 免费女人18毛片a级毛片视频| 国产乱人乱偷精品视频a人人澡| 亚洲Va中文字幕久久一区| 狠狠ⅴ日韩v欧美v天堂| 夜色爽爽影院18禁妓女影院| 在线网站18禁| 欧美日本激情| 国产精品无码作爱| 在线看片免费人成视久网下载| 国产综合色在线视频播放线视| 亚洲日韩精品欧美中文字幕| 在线国产欧美| 国产女人18毛片水真多1| 国产午夜一级淫片| 依依成人精品无v国产| 国产美女精品一区二区| 日韩精品一区二区三区免费在线观看| 日本一区高清| 日日噜噜夜夜狠狠视频| 国产爽歪歪免费视频在线观看| 一级毛片免费的| 国产福利不卡视频| 六月婷婷精品视频在线观看 | 亚洲 欧美 日韩综合一区| 久久久久免费看成人影片| 激情无码字幕综合| 国产成人乱无码视频| 麻豆a级片| 香蕉蕉亚亚洲aav综合| 国产成人精品第一区二区| 欧美日韩中文国产| 狠狠综合久久久久综| 18禁影院亚洲专区| 久久综合丝袜日本网| 亚洲美女一区| 精品成人一区二区三区电影| 亚洲第一区欧美国产综合| 国产成人久久综合777777麻豆 | 中文无码毛片又爽又刺激| 精品视频在线观看你懂的一区| 亚洲综合欧美在线一区在线播放| 亚洲精品第一在线观看视频| 亚洲欧美国产五月天综合| 看看一级毛片| 嫩草在线视频| www.国产福利| 日韩最新中文字幕| 国产成人av一区二区三区| 国产精品视屏| 99青青青精品视频在线| 国产成人精品一区二区| 久久久久亚洲精品成人网| 亚洲精品欧美重口| 国产成人禁片在线观看| 国产午夜人做人免费视频| 亚洲国产理论片在线播放| 国产视频一二三区| 91年精品国产福利线观看久久 | 国产精品99在线观看| 香蕉eeww99国产精选播放| 国产精品刺激对白在线| 婷婷六月在线| 88av在线| 国产h视频在线观看视频| 免费在线成人网|