999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于內(nèi)容和背景的微博問答問題推薦

2018-06-11 11:06:04歐陽龍彭艷兵
電子設(shè)計(jì)工程 2018年11期
關(guān)鍵詞:背景內(nèi)容用戶

歐陽龍,盧 琪,彭艷兵

(1.武漢郵電科學(xué)研究院湖北武漢430000;2.南京烽火星空通信發(fā)展有限公司江蘇南京210000)

免費(fèi)一直被國內(nèi)的互聯(lián)網(wǎng)界奉為圭臬,但是,內(nèi)容付費(fèi)卻偏偏在其中獨(dú)樹一幟的發(fā)展了起來。2016年底,新浪微博推出微博問答這一新功能,很快就占領(lǐng)了內(nèi)容付費(fèi)市場的半壁江山。

微博問答的應(yīng)用場景是:用戶群A付費(fèi)對用戶B提出問題,用戶B從問題中選擇問題進(jìn)行作答,作答后,用戶A提問所付的費(fèi)用進(jìn)入用戶B的錢包,問題和答案會(huì)以微博問答的形式被用戶B自動(dòng)轉(zhuǎn)發(fā),其他用戶可以付費(fèi)1元進(jìn)行圍觀,圍觀的費(fèi)用一半進(jìn)入用戶A的錢包,另一半進(jìn)入用戶B的錢包。有一些好問題甚至能以幾十元的問題價(jià)格吸引數(shù)萬的圍觀量,其中的商機(jī)不言而喻。本文研究的目的在于針對特定的微博問答用戶,提出更容易被回答且收益率更高的問題。

需要解決的關(guān)鍵問題是對用戶的關(guān)鍵詞挖掘,也可以說是對用戶興趣的挖掘。對微博用戶興趣的挖掘一般分為兩類:1)基于背景挖掘用戶興趣;2)基于內(nèi)容挖掘用戶興趣。

基于背景的用戶興趣挖掘通過微博平臺(tái)的個(gè)人簡介、職業(yè)、標(biāo)簽、畢業(yè)院校、生日、性別等信息對不同的用戶進(jìn)行分類[1],針對某些平臺(tái)用戶背景信息較少的問題,可以使用多平臺(tái)分析的方法[2],也可以利用朋友的信息[3],但是只有背景相似的朋友的信息才有效[4],甚至可以以朋友的背景為基礎(chǔ)推斷出用戶的背景信息[5],使用其他用戶對該用戶的分組描述作為用戶的背景[6]也是一種不錯(cuò)的方法。

基于背景的用戶興趣挖掘存在的主要問題:用戶背景數(shù)據(jù)不完善,在對新浪微博1.4億用戶的統(tǒng)計(jì)中,添加了標(biāo)簽的用戶只占21.8%,標(biāo)簽個(gè)數(shù)大于5的用戶只占6.2%[7]。

基于內(nèi)容的用戶興趣挖掘可以看作文本主題或關(guān)鍵詞提取問題。由于微博一般比較短小,可以從每一條微博中提取一個(gè)主題[8],或者將一個(gè)用戶的所有微博合并成一個(gè)大文本之后再進(jìn)行主題提取[9],當(dāng)用戶的微博內(nèi)容比較少時(shí),可以用該用戶多個(gè)朋友的共同興趣推出該用戶的興趣[10],AT模型可以用于發(fā)現(xiàn)用戶和主題的關(guān)系[11],針對微博的特性,MBLDA模型也能進(jìn)行微博主題挖掘[12]。

基于內(nèi)容的用戶興趣挖掘存在的主要問題:1)沒有考慮到博主與粉絲的交互,2)缺少一種對關(guān)鍵詞進(jìn)行推薦的方法。

本文在針對博主與粉絲的交互提出了基于微博轉(zhuǎn)發(fā)、評論、點(diǎn)贊和詞頻的詞語權(quán)重計(jì)算方法,針對背景數(shù)據(jù)不全,提出了基于背景和內(nèi)容的AW-LDA用戶關(guān)鍵詞挖掘方法,并結(jié)合背景和內(nèi)容分析用戶之間相似度,進(jìn)而達(dá)到推薦問題關(guān)鍵詞的目的。

1 理論基礎(chǔ)

1.1 LDA主題模型

LDA的模型結(jié)構(gòu)如圖1所示。

圖1 LDA模型圖

在LDA模型中,一篇文檔的生成方式如下:

1)對于一篇文檔di,從狄利克雷分布(即Dirichlet分布)α中取樣生成文檔di的主題分布θi,即主題分布θi由參數(shù)為α的Dirichlet分布生成;

2)從主題的多項(xiàng)式分布θi中取樣生成文檔di的第j個(gè)詞的主題zij;

3)從狄利克雷分布ε中取樣生成主題zij對應(yīng)的詞語分布βij,即詞語分布βij由參數(shù)為ε的Dirichlet分布生成;

4)從詞語的多項(xiàng)式分布β中采樣最終生成詞語wij。

即每個(gè)詞語出現(xiàn)的概率為:

1.2 EM算法

LDA原始論文中采用變分-EM算法估計(jì)未知參數(shù)[13]。EM算法,即期望最大算法,其基本思想是:首先隨機(jī)選取一個(gè)值去初始化估計(jì)值θ(0),然后不斷迭代尋找更優(yōu)的θ(n+1)使得其似然函數(shù)比原來的要大。可以用來給LDA模型求解。

EM算法的關(guān)鍵便是要找到L(θ)的一個(gè)下界,然后不斷最大化這個(gè)下界。從而逼近要求解的似然函數(shù)算法的一般步驟為:

3)重新估計(jì)參數(shù)θ,即求,使得

4)如果L(θ)收斂,即Q(Q;Qn)收斂,則算法完成,否則回到步驟2[15]。

這樣就能求得LDA模型中的主題分布和詞分布。

1.3 Gibbs采樣算法

LDA原始論文中采用變分-EM算法估計(jì)未知參數(shù),后來發(fā)現(xiàn)另一種估計(jì)LDA未知參數(shù)的方法更好,這種方法就是:Gibbs Sampling,有時(shí)叫Gibbs采樣或Gibbs抽樣[16]。Gibbs抽樣是馬爾可夫鏈蒙特卡爾理論(MCMC)中用來獲取一系列近似等于指定多維概率分布(比如2個(gè)或者多個(gè)隨機(jī)變量的聯(lián)合概率分布)觀察樣本的算法[17]。通過求解出主題分布和詞分布的后驗(yàn)分布,從而成功解決主題分布和詞分布這兩參數(shù)未知的問題。

Gibbs采樣算法的步驟為:

表示對z(t+1)中的第i個(gè)參數(shù)進(jìn)行抽樣,對于包含隱變量的LDA模型來說,抽樣公式為:

2 基于內(nèi)容和背景的微博問答問題推薦

2.1 數(shù)據(jù)采集

本文的數(shù)據(jù)來自于新浪微博的微博問答模塊中系統(tǒng)推薦的前5000個(gè)用戶,都是業(yè)內(nèi)專家或者名人,他們在各自的微博問答主頁上都有各自擅長回答的問題等標(biāo)簽,將這些標(biāo)簽作為用戶的背景信息;另外采集這5000個(gè)用戶發(fā)布的微博文本信息,包括原創(chuàng)微博內(nèi)容和轉(zhuǎn)發(fā)微博內(nèi)容以及本條微博轉(zhuǎn)發(fā)、評論、點(diǎn)贊的數(shù)量,將這些文本信息作為內(nèi)容分析用戶的興趣;采集這5000個(gè)用戶的所有微博問答內(nèi)容,包括問題內(nèi)容、問題價(jià)值、圍觀數(shù)量,將這些文本作為內(nèi)容分析用戶的答題興趣。

2.2 數(shù)據(jù)處理

由于采用的數(shù)據(jù)集是微博原始文本,所以需要對數(shù)據(jù)進(jìn)行一定的處理[19]。第一步是對文本進(jìn)行切詞處理。文中采用的是python第三方庫jieba分詞,其精確模式可以將句子以精確的方式切開,消除歧義。

第二步去除文本中的停用詞(代詞和語氣詞)[20],這類詞一般在文本中很常見,但是對用戶興趣挖掘沒有用處。本文使用的是Github上的中文停用詞詞表,共1598個(gè)詞,并且在處理文本的過程中根據(jù)文本的內(nèi)容和語義不斷添加停用詞,最后將停用詞個(gè)數(shù)擴(kuò)充到1912個(gè)。

第三步是對詞頻進(jìn)行統(tǒng)計(jì)。針對用戶的微博內(nèi)容,由于微博是用戶與用戶之間的交流,所以關(guān)注者對被關(guān)注者的反饋信息比如轉(zhuǎn)發(fā)、評論、點(diǎn)贊都會(huì)影響到被關(guān)注者,比如某個(gè)話題的微博受到了大量的轉(zhuǎn)發(fā)、評論、點(diǎn)贊,那么被關(guān)注者可能會(huì)更傾向于喜歡個(gè)話題,在微博問答中回答這類問題的可能性也會(huì)比較高,關(guān)注者的圍觀人數(shù)也可能會(huì)很多。所以本文在進(jìn)行詞頻統(tǒng)計(jì)的時(shí)候并不是簡單的只統(tǒng)計(jì)詞出現(xiàn)的次數(shù),而是結(jié)合各條微博被轉(zhuǎn)發(fā)、評論、點(diǎn)贊的次數(shù)對該條微博中出現(xiàn)的詞的詞頻進(jìn)行加成,微博被轉(zhuǎn)發(fā)、評論、點(diǎn)贊的次數(shù)越多,詞的詞頻加成也越多,即

其中WTwi表示詞wi的詞頻,Tij表示詞wi在微博j中出現(xiàn)的次數(shù),repj表示微博j被轉(zhuǎn)發(fā)的次數(shù),comj表示微博j被評論的次數(shù),likj表示微博j被評論的次數(shù)。針對用戶的微博問答內(nèi)容,關(guān)鍵詞的推薦需要與問題的收益率掛鉤才能正確反映基于微博內(nèi)容的關(guān)鍵詞推薦的正確性,所以在對微博問答問題內(nèi)容進(jìn)行詞頻統(tǒng)計(jì)時(shí),不僅要統(tǒng)計(jì)詞出現(xiàn)的次數(shù),還要統(tǒng)計(jì)問題的收益率

其中WTwi表示詞wi的詞頻,Tij表示詞wi在微博j中出現(xiàn)的次數(shù),REij表示問題的收益率。

2.3 AW-LDA模型

由于本文的目的是對微博問答的問題作出推薦,所以對于微博內(nèi)容來說,關(guān)注的重點(diǎn)不是主題,而是主題中的詞,即對問題的關(guān)鍵詞作出推薦。傳統(tǒng)的LDA模型采用的是“用戶-主題-詞袋”的模式[21],即用戶以一定的概率分布選擇主題,主題以一定的概率分布選擇詞袋中的詞,最終構(gòu)成文檔。但是傳統(tǒng)的LDA模型對于關(guān)鍵詞的推薦并不合適,我們需要的是“用戶-詞袋”的概率分布,主題層對于問題的關(guān)鍵詞推薦來說沒有意義。所以本文基于傳統(tǒng)的LDA模型提出了AW-LDA模型,重點(diǎn)分析用戶(author)與詞袋(words)的概率分布關(guān)系。AW-LDA模型如圖2所示。

對于一個(gè)用戶的微博內(nèi)容或者背景文檔di,從

圖2 AW-LDA模型

其中REij表示問題的收益率,Gij表示問題的圍觀人數(shù),PAij表示問題價(jià)值,i表示用戶編號(hào),j表示問題編號(hào)。根據(jù)問題的收益率對問題中出現(xiàn)的關(guān)鍵詞的詞頻進(jìn)行加成,收益率越高,詞的詞頻加成也越多。即狄利克雷分布(即Dirichlet分布)ε中取樣生成文檔di的詞分布βi,即詞分布βi由參數(shù)為ε的Dirichlet分布生成,對于文檔di中的第j個(gè)詞語wij,從詞語的多項(xiàng)式分布β中采樣最終生成詞語wij。

采用Gibbs采樣算法對AW-LDA模型進(jìn)行求解,首先用歐拉公式將P(w|ε)展開:

然后用Gibbs算法對如下后驗(yàn)分布進(jìn)行抽樣:

對上式進(jìn)行反復(fù)迭代,并對所有詞進(jìn)行抽樣,抽樣結(jié)果穩(wěn)定時(shí),結(jié)果為

這樣,AW-LDA模型就使用Gibbs抽樣解出了微博內(nèi)容在詞語上的概率分布βw。

使用AW-LDA模型分別對用戶的微博內(nèi)容和背景進(jìn)行分析,得到針對用戶微博內(nèi)容的推薦詞集WCi及其概率分布PCi和針對用戶微博背景的推薦詞集WBi及其概率分布PBi,其中i表示用戶編號(hào)。

2.4 基于用戶微博內(nèi)容和背景的相似度分析

得到用戶的推薦詞集及其概率分布后,采用余弦相似度算法計(jì)算用戶之間的相似度,具體實(shí)現(xiàn)為:先將兩個(gè)用戶的推薦詞集合并,組成一個(gè)新的含有N個(gè)詞的詞集WN,可以通過補(bǔ)零的方式根據(jù)用戶對推薦詞集WCi的概率分布PCi求得用戶對詞集WN的概率分布PWi,其中i表示用戶編號(hào),這樣就能得到兩個(gè)用戶對詞集WN的概率分布PWi和PWj,可以看作是兩個(gè)N維向量,然后采用余弦相似度算法

計(jì)算兩個(gè)向量的余弦值,結(jié)果可以表示兩個(gè)用戶的內(nèi)容相似度sim(Cij),其中xi、yi分別表示概率分布PWi和PWj中的元素。用相同的方法可以求出兩個(gè)用戶的背景相似度sim(Bij)。將兩個(gè)相似度結(jié)合起來,令兩個(gè)用戶的相似度

其中a表示微博內(nèi)容相似度所占的權(quán)重。

2.5 基于樣本進(jìn)行關(guān)鍵詞推薦

在對訓(xùn)練集中的用戶A進(jìn)行關(guān)鍵詞推薦時(shí),根據(jù)simij在樣本集中找到與用戶A相似度最高的用戶B,并將用戶B的問答關(guān)鍵詞中權(quán)重最高的10個(gè)詞推薦為用戶A的問答關(guān)鍵詞。實(shí)驗(yàn)結(jié)果表明當(dāng)a取值為0.79時(shí),推薦的關(guān)鍵詞所包含的問題的價(jià)值總和占所有問題價(jià)值總和的比例最大,為92.56%;當(dāng)a取值為0.84時(shí),推薦的關(guān)鍵詞所包含的問題個(gè)數(shù)占所有問題總量的比例最大,為83.73%。

3 微博問答問題推薦效果及分析

文中采用perlexity指標(biāo)對模型的優(yōu)劣進(jìn)行衡量。Perlexity指標(biāo)通常用來衡量一個(gè)概率模型的好壞,在主題模型領(lǐng)域也是比較常見的衡量指標(biāo),perlexity指數(shù)越低表示模型的性能越好。Perlexity定義為:

其中W為測試集,wm為測試集中的單詞,Nm為測試集中的單詞數(shù)。LDA模型與AW-LDA模型的perlexity指數(shù)對比如表1所示。

表1 LDA模型與AW-LDA模型對比

由表1可以看出隨著迭代次數(shù)的增加,LDA模型的Perlexity指數(shù)越來越低,模型性能越來越好,且變化率越來越低,表示模型趨于穩(wěn)定;AW-LDA模型的Perlexity指數(shù)不隨迭代次數(shù)變化是因?yàn)橹付嗣總€(gè)用戶的文本主題數(shù)為1,即用戶選擇詞的概率已經(jīng)確定,迭代不會(huì)影響用戶選擇詞的概率;在LDA模型收斂的過程中,AW-LDA模型的Perlexity指數(shù)一直比LDA模型低,表明使用AW-LDA模型對微博用戶的微博文本和背景進(jìn)行分析,的確能提升模型的性能。

本文采用文本內(nèi)容關(guān)鍵詞與背景關(guān)鍵詞結(jié)合的方式計(jì)算測試集與樣本集中的用戶相似度,并推薦問答關(guān)鍵詞。推薦效果如圖3所示。

圖3 問題數(shù)量推薦效果

由圖3可以看出,當(dāng)基于微博內(nèi)容和背景進(jìn)行關(guān)鍵詞推薦時(shí),隨著微博內(nèi)容所占的權(quán)重不斷增加,推薦的關(guān)鍵詞命中的問題個(gè)數(shù)比例先增加后減少,且當(dāng)微博內(nèi)容所占的權(quán)重為0.84時(shí),推薦的關(guān)鍵詞命中的問題個(gè)數(shù)比例達(dá)到最高,為83.73%;只基于微博內(nèi)容進(jìn)行關(guān)鍵詞推薦時(shí),關(guān)鍵詞命中的問題個(gè)數(shù)比例為74.58%;只基于背景進(jìn)行關(guān)鍵詞推薦時(shí)關(guān)鍵詞命中的問題個(gè)數(shù)比例為16.33%。都低于將微博內(nèi)容和背景以最優(yōu)的方式結(jié)合后的問題關(guān)鍵詞推薦命中率,表明改進(jìn)后的關(guān)鍵詞推薦方法能使問題更容易被回答。

圖4 問題價(jià)值推薦效果

由圖4可以看出,當(dāng)基于微博內(nèi)容和背景進(jìn)行關(guān)鍵詞推薦時(shí),隨著微博內(nèi)容所占的權(quán)重不斷增加,推薦的關(guān)鍵詞命中的問題價(jià)值比例先增加后減少,且當(dāng)微博內(nèi)容所占的權(quán)重為0.79時(shí),推薦的關(guān)鍵詞命中的問題價(jià)值比例達(dá)到最高,為92.56%;只基于微博內(nèi)容進(jìn)行關(guān)鍵詞推薦時(shí),關(guān)鍵詞命中的問題價(jià)值比例為77.03%;只基于背景進(jìn)行關(guān)鍵詞推薦時(shí)關(guān)鍵詞命中的問題價(jià)值比例為23.95%。都低于將微博內(nèi)容和背景以最優(yōu)的方式結(jié)合后的問題關(guān)鍵詞推薦命中率,表明改進(jìn)后的關(guān)鍵詞推薦方法能在問題的價(jià)值方面做出有效的推薦。

4 結(jié)束語

文中針對微博的用戶關(guān)系,改進(jìn)了詞頻統(tǒng)計(jì)方法;針對微博文本的特殊結(jié)構(gòu),提出了一個(gè)適合提取微博用戶關(guān)鍵詞的模型AW-LDA,并針對微博文本內(nèi)容和用戶背景共存的特點(diǎn),提出了將內(nèi)容和背景結(jié)合起來進(jìn)行關(guān)鍵詞推薦的方法,實(shí)驗(yàn)表明該方法能從問題個(gè)數(shù)和問題價(jià)值方面做出有效的關(guān)鍵詞推薦。

今后的研究工作中將繼續(xù)優(yōu)化AW-LDA模型的效率,探索微博文本內(nèi)容和用戶背景結(jié)合的更好方法,并在詞頻統(tǒng)計(jì)環(huán)節(jié)加入對原創(chuàng)微博和轉(zhuǎn)發(fā)微博的考慮。

猜你喜歡
背景內(nèi)容用戶
內(nèi)容回顧溫故知新
“新四化”背景下汽車NVH的發(fā)展趨勢
《論持久戰(zhàn)》的寫作背景
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
晚清外語翻譯人才培養(yǎng)的背景
主要內(nèi)容
臺(tái)聲(2016年2期)2016-09-16 01:06:53
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
主站蜘蛛池模板: 精品久久香蕉国产线看观看gif| AⅤ色综合久久天堂AV色综合| 凹凸国产分类在线观看| 国产成在线观看免费视频| 人妻熟妇日韩AV在线播放| 国产成人麻豆精品| 男女猛烈无遮挡午夜视频| 国产中文一区a级毛片视频| 亚洲第一香蕉视频| 99热精品久久| 久久这里只有精品2| www.99精品视频在线播放| 91福利一区二区三区| 色天天综合| 草草影院国产第一页| 免费黄色国产视频| 黄色不卡视频| 国产精品美女网站| 欧美综合激情| 一级毛片免费高清视频| 欧美午夜在线播放| 亚洲精品视频在线观看视频| 亚洲欧美在线精品一区二区| 精品日韩亚洲欧美高清a| 一级爱做片免费观看久久| 国产福利一区在线| 精品国产成人国产在线| 精品伊人久久久香线蕉| 黄色三级网站免费| 成人在线不卡视频| 久久综合激情网| 2020久久国产综合精品swag| 久久久久久久久18禁秘| 亚洲日本中文字幕天堂网| 91麻豆国产精品91久久久| 大乳丰满人妻中文字幕日本| 免费在线观看av| 红杏AV在线无码| 亚洲人成网站色7799在线播放 | 又爽又大又光又色的午夜视频| 99re经典视频在线| 高清色本在线www| 中文字幕无码电影| 国产男女XX00免费观看| 日本高清有码人妻| 日韩天堂在线观看| 亚洲va在线观看| 波多野结衣无码中文字幕在线观看一区二区| 精品一区二区无码av| 播五月综合| 亚洲毛片一级带毛片基地| 亚洲无线国产观看| 亚洲欧美精品一中文字幕| 中文字幕伦视频| 凹凸国产分类在线观看| 亚洲娇小与黑人巨大交| 亚洲性视频网站| 国产精品香蕉| 国产精品一线天| 蜜桃视频一区二区三区| 免费毛片全部不收费的| 97精品国产高清久久久久蜜芽 | 思思热精品在线8| 欧美性猛交xxxx乱大交极品| 久久国产精品无码hdav| 欧美日韩亚洲国产主播第一区| 国产地址二永久伊甸园| 四虎在线观看视频高清无码| 亚洲男人的天堂久久香蕉网| 浮力影院国产第一页| 国产国拍精品视频免费看 | 四虎成人免费毛片| 香蕉99国内自产自拍视频| 亚洲成年人片| 亚洲一区精品视频在线| 欧美性猛交一区二区三区| 成人精品区| 一级毛片中文字幕| 黄色免费在线网址| 国产啪在线| 国产人成午夜免费看| 国产精品短篇二区|