999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶興趣及遷移的話題模型分析

2018-09-04 09:37:16藍(lán)友樞張章學(xué)
軟件導(dǎo)刊 2018年6期

藍(lán)友樞 張章學(xué)

摘 要:社交網(wǎng)絡(luò)中各種推廣應(yīng)用都依賴于用戶興趣的獲取。用戶興趣獲取方法多種多樣,但大多集中于用戶關(guān)注信息、用戶瀏覽網(wǎng)頁(yè)的分析,用戶發(fā)表的語(yǔ)義信息與興趣的潛在聯(lián)系很少被深度發(fā)掘。提出基于標(biāo)簽的話題分割模型,將所有文本轉(zhuǎn)化為帶標(biāo)簽的文本以便聚類。通過(guò)分析話題變化狀態(tài)推測(cè)用戶興趣遷移狀況,注重社交網(wǎng)絡(luò)用戶興趣及遷移狀況與話題動(dòng)態(tài)變化過(guò)程的潛在關(guān)聯(lián),利用Word2vec對(duì)話題進(jìn)行相似度分析,充分利用詞的上下文信息表征豐富的語(yǔ)義信息,通過(guò)分析社交網(wǎng)絡(luò)平臺(tái)數(shù)據(jù),得到用戶興趣分布、興趣動(dòng)態(tài)變化過(guò)程以及話題遷移狀況。將結(jié)果進(jìn)行擬合后發(fā)現(xiàn),用戶的興趣及變化狀況很大程度上取決于用戶發(fā)表的話題。

關(guān)鍵詞:社交網(wǎng)絡(luò);用戶興趣;話題模型

DOI:10.11907/rjdk.172859

中圖分類號(hào):TP302

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0049-04

Abstract:A variety of applications in social network are dependent on user interest. To obtain user interest diversity, a large number of methods are focused on those information that users pay attention or the semantic information is ignored. In this paper, we focus on the social network interest of user and migration status about topics.We obtain the migration status of interest by analyzing the changes of the topics. By Word2vec model similarity of the topic is analysed. This model makes full use of the word context information to characterize semantic information. Then we put forward the model of partition based on topics that convert all texts into tagged texts. Finally, We observe the changes of the topics when interests change. By analyzing the data obtained from the social networking ,we get the distribution of user interest, the dynamic process of interest change and the migration of topics. It is found that topics largely depend on the user's interests.

Key Words:social network; interest; topic model

0 引言

社交網(wǎng)絡(luò)與現(xiàn)實(shí)生活越來(lái)越重合,而社交網(wǎng)絡(luò)平臺(tái)的大量推廣使人們?cè)谔摂M網(wǎng)絡(luò)中得到的信息越來(lái)越貼合現(xiàn)實(shí)需求,主題探測(cè)及追蹤技術(shù)旨在找到并追蹤人們感興趣的話題[1],讓人們了解這些信息或事件的后續(xù)發(fā)展,以便用戶能更全面地分析事件[2]。社交網(wǎng)絡(luò)中用戶興趣極為重要,大部分研究都涉及到用戶興趣,例如社交網(wǎng)絡(luò)推薦服務(wù)就是與用戶興趣息息相關(guān)的[3]。對(duì)信息傳播而言,若用戶對(duì)該信息有興趣,那么傳播率就會(huì)很高[4]。因此,用戶興趣獲取是社交網(wǎng)絡(luò)中一切應(yīng)用的基石。

本文采用經(jīng)典的Word2vec話題模型對(duì)話題進(jìn)行相似度分析。話題模型最早產(chǎn)生于1996年,由當(dāng)時(shí)美國(guó)國(guó)防高級(jí)研究計(jì)劃署(簡(jiǎn)稱DARPA)提出,用于判斷在沒(méi)有人工干預(yù)的情況下新聞的主題趨勢(shì)[5]。隨著技術(shù)的不斷進(jìn)步,許多研究將概率主題模型用來(lái)識(shí)別大規(guī)模文檔集或主題信息[6-7]。由于社交網(wǎng)絡(luò)用戶發(fā)表文檔的局限性(簡(jiǎn)短且包含許多表情符號(hào)),導(dǎo)致傳統(tǒng)的VSM(Vector Space Model,簡(jiǎn)稱向量空間模型)無(wú)法處理含有該類特性的微博文本[8]。相對(duì)于經(jīng)典的潛在語(yǔ)義分析(Latent Semantic Index,簡(jiǎn)稱 LSI)[9]、潛在狄立克雷分配(Latent Dirichlet Allocation,簡(jiǎn)稱LDA)[10]過(guò)程而言,本文采用的模型充分利用詞的上下文信息,能更加豐富地表征語(yǔ)義信息。本文提出了基于標(biāo)簽的話題分割模型,利用標(biāo)簽文本對(duì)所有文本進(jìn)行聚類劃分。在以下兩方面進(jìn)行研究:①利用話題模型將用戶信息標(biāo)簽化,從而達(dá)到簡(jiǎn)化信息聚類文本的效果;②采用Word2vec話題模型對(duì)話題進(jìn)行相似度分析,以了解用戶的話題遷移狀況。

1 模型建立

1.1 模型架構(gòu)

為得到用戶話題與興趣的聯(lián)系,需要對(duì)用戶發(fā)表的文本信息進(jìn)行處理,本文采用Word2vec話題模型對(duì)用戶發(fā)表的信息進(jìn)行語(yǔ)義處理。社交網(wǎng)絡(luò)用戶發(fā)表微博的文本存在分類標(biāo)簽,為便于話題聚類,本文建立一個(gè)半監(jiān)督話題模型,將所有文本都生成帶標(biāo)簽文本。模型基本原理如圖1所示。從這些話題得到用戶的興趣并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。

根據(jù)圖1的基本原理作出以下假設(shè):①任意用戶發(fā)表的文本可存在多個(gè)標(biāo)簽,但標(biāo)簽間概率相等;②興趣分為6大類:美食、休閑、時(shí)尚、購(gòu)物、文化、旅游;③聚類允許存在重疊部分。

1.2 Word2vec話題模型建立

Distributed representation 是Word2vec 使用的詞向量表示方式,最早由 Hinton在 1986 年提出[11],目的是通過(guò)訓(xùn)練將每個(gè)詞映射成K維實(shí)數(shù)向量,通過(guò)詞與詞之間的關(guān)系判斷它們之間的語(yǔ)義相似度。本文采用連續(xù)詞袋模型(Continuous Bag-of-Word Model, 簡(jiǎn)稱CBOW),將每個(gè)詞映射成K維實(shí)數(shù)向量。

Hierarchical Softmax本質(zhì)是優(yōu)化CBOW的輸出層。傳統(tǒng)的CBOW輸出層利用softmax計(jì)算概率值,而Hierarchical Softmax利用Huffman樹(shù)計(jì)算概率值。Hierarchical Softmax將詞表中的全部詞看成葉子節(jié)點(diǎn),詞頻作為節(jié)點(diǎn)的權(quán)重,構(gòu)建一棵Huffman樹(shù)。Huffman樹(shù)是二叉樹(shù),如圖2所示。直觀上可以看出,葉子節(jié)點(diǎn)的權(quán)重越大,該葉子節(jié)點(diǎn)離根節(jié)點(diǎn)越近。因此,對(duì)于模型來(lái)說(shuō),若一個(gè)詞的詞頻越高,它距離根節(jié)點(diǎn)就越近。從圖中能發(fā)現(xiàn)它的最優(yōu)路徑是唯一的,Hierarchical Softmax利用最優(yōu)路徑計(jì)算指定詞概率。

1.3 聚類分析

社交網(wǎng)絡(luò)中存在帶標(biāo)簽文本,建立一個(gè)半監(jiān)督的話題模型是為了將所有文本都生成帶標(biāo)簽文本,以便進(jìn)行話題聚類,從這些話題中得到用戶興趣,并根據(jù)話題變化分析用戶的興趣遷移現(xiàn)象。

根據(jù)話題間相似度實(shí)驗(yàn),本文設(shè)置一個(gè)初始閾值δ,當(dāng)未標(biāo)簽文本D-i與標(biāo)簽文本D-j之間的相似度大于等于初始閾值δ,就可將未標(biāo)簽文本同化為D-j的同一類標(biāo)簽文本。一直重復(fù)該步驟直到所有文本皆被標(biāo)記,再進(jìn)行文本間的聚類分析。最后將標(biāo)簽進(jìn)行大類劃分為美食、休閑、時(shí)尚、購(gòu)物、文化、旅游。

1.4 興趣及話題動(dòng)態(tài)狀況

社交網(wǎng)絡(luò)用戶的興趣會(huì)隨著時(shí)間的改變而發(fā)生變化,本文利用用戶關(guān)注信息監(jiān)測(cè)用戶興趣狀況,根據(jù)用戶不同時(shí)間關(guān)注的用戶列表變化狀況分析用戶興趣變化狀況。用戶興趣變化是一個(gè)緩慢的過(guò)程,用戶興趣很少會(huì)突然發(fā)生改變,因此,本文設(shè)置一個(gè)興趣狀態(tài)量表示這個(gè)動(dòng)態(tài)變化過(guò)程。設(shè)F-t、L-t、S-t、P-t、C-t、T-t分別是t時(shí)刻用戶關(guān)注美食相關(guān)、休閑相關(guān)、時(shí)尚相關(guān)、購(gòu)物相關(guān)、文化相關(guān)、旅游相關(guān)的博主數(shù)量,定義對(duì)任意用戶i在t時(shí)刻都存在一個(gè)興趣狀態(tài)量S-it,如下式:

設(shè)置一個(gè)興趣狀態(tài)量表示興趣變化的動(dòng)態(tài)過(guò)程,對(duì)于話題同樣設(shè)置一個(gè)話題狀態(tài)量表示話題的動(dòng)態(tài)遷移過(guò)程。在上述的聚類過(guò)程中將用戶話題進(jìn)行聚類,設(shè)DF-t、DL-t、DS-t、DP-t、DC-t、DT-t分別是t時(shí)刻用戶發(fā)表的美食相關(guān)、休閑相關(guān)、時(shí)尚相關(guān)、購(gòu)物相關(guān)、文化相關(guān)、旅游相關(guān)的文本數(shù)量。

2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

以用戶發(fā)表的微博信息以及用戶關(guān)注的內(nèi)容進(jìn)行實(shí)驗(yàn)。生活中存在一些用戶基本不發(fā)微博也不關(guān)注其他用戶情況,在數(shù)據(jù)處理時(shí)過(guò)濾掉這部分?jǐn)?shù)據(jù)。首先隨機(jī)抽取1 000個(gè)微博,去除兩周內(nèi)發(fā)表微博數(shù)少于3條的用戶,分別采集他們兩周內(nèi)的微博數(shù)據(jù)。對(duì)話題進(jìn)行聚類之后發(fā)現(xiàn)微博中興趣的分布情況如圖3所示。由圖(3)可知用戶興趣主要集中在名人明星、生活?yuàn)蕵?lè)以及時(shí)事新聞3方面。

本文目的是得到用戶間的興趣變化狀況與話題變化狀況之間的關(guān)聯(lián),任意選擇微博中的一個(gè)用戶,根據(jù)模型定義得到興趣變化狀況及話題變化狀況。

用戶的實(shí)際興趣獲取來(lái)自于微博用戶關(guān)注情況分析,根據(jù)分析提取出用戶的真實(shí)興趣狀況。將用戶間的興趣變化狀況和話題變化狀況(見(jiàn)圖4、圖5)進(jìn)行擬合,如圖6所示。由于初始閾值的不確定性,因此對(duì)不同閾值狀態(tài)下的結(jié)果都進(jìn)行分析。實(shí)際操作中初始閾值高于0.8的基本沒(méi)有,因此將其分成6段:[0,0.2),[0.2,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8)。從圖6可發(fā)現(xiàn)初始閾值越大,興趣與話題的擬合度就越高。但當(dāng)?shù)竭_(dá)一定值之后,變化卻不明顯。

3 結(jié)語(yǔ)

本文對(duì)社交網(wǎng)絡(luò)中用戶興趣及遷移狀況對(duì)話題的影響進(jìn)行了研究。針對(duì)話題間的相似度進(jìn)行分析,采用傳統(tǒng)的Word2vec模型,充分利用詞的上下文信息及該模型豐富的表征語(yǔ)義信息,提出基于標(biāo)簽的話題分割模型。通過(guò)話題改變過(guò)程中興趣的動(dòng)態(tài)變化過(guò)程,分析興趣及遷移狀況對(duì)話題的影響。實(shí)驗(yàn)數(shù)據(jù)表明,用戶發(fā)表的話題很大程度上取決于用戶的興趣變化狀況。

參考文獻(xiàn):

[1] ZHANG X, GUO Z, LI B. An effective algorithm of news topic tracking[C].Intelligent Systems, 2009. GCIS '09. WRI Global Congress on. IEEE, 2009:510-513.

[2] PON R K, CARDENAS A F, CRITCHLOW T, et al. Tracking multiple topics for finding interesting articles[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2007:560-569.

[3] 張曉婕.基于微博用戶興趣模型的個(gè)性化廣告推薦研究[D].上海:華東師范大學(xué),2014.

[4] ZHAO N, CUI X, DAWSON K A, et al. Impact of individual interest shift on information dissemination in modular networks[J]. Physica A Statistical Mechanics & Its Applications, 2017(466):232-242.

[5] 李樹(shù)平,張偉,楊柳,等.話題跟蹤技術(shù)的研究綜述[J].赤子,2014(21):130-131.

[6] 陳文濤,張小明,李舟軍.構(gòu)建微博用戶興趣模型的主題模型的分析[J].計(jì)算機(jī)科學(xué),2013,40(4):127-130.

[7] BERRY, MICHAEL W, KOGAN, et al. Text Mining: applications and theory[J]. John Wiley & Sons, 2010(1):29-33.

[8] MELUCCI M. Vector-Space Model[M]. Springer US, 2009.

[9] HEISTERKAMP D R. Building a latent semantic index of an image database from patterns of relevance feedback[C].16 Th International Conference on Pattern Recognition. IEEE Computer Society, 2002:40134.

[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

[11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(6):1257-1262.

(責(zé)任編輯:杜能鋼)

主站蜘蛛池模板: 日韩免费毛片视频| 亚洲中文字幕在线观看| 欧美精品伊人久久| 亚洲无码日韩一区| 在线无码av一区二区三区| 亚洲人成影院午夜网站| 亚洲成年人片| 国产人成在线观看| 九色视频一区| 婷婷伊人五月| 国产偷国产偷在线高清| 亚洲有无码中文网| 久久综合色视频| 狠狠色婷婷丁香综合久久韩国| 99re免费视频| 成年女人a毛片免费视频| 一级全免费视频播放| 亚洲综合久久成人AV| 色综合中文| 极品尤物av美乳在线观看| 久久视精品| 在线观看国产精美视频| 无码精品福利一区二区三区| 制服丝袜一区| 欧洲亚洲欧美国产日本高清| 香蕉综合在线视频91| 伊人无码视屏| 狠狠躁天天躁夜夜躁婷婷| 久久永久免费人妻精品| 人妻丰满熟妇啪啪| 奇米精品一区二区三区在线观看| 精品亚洲欧美中文字幕在线看| 自慰网址在线观看| 蜜臀AV在线播放| 久久久久青草大香线综合精品| 综合社区亚洲熟妇p| 欧美在线综合视频| 欧美日韩在线第一页| 99精品热视频这里只有精品7| 国产成人成人一区二区| 91亚洲免费| 国产成年女人特黄特色大片免费| 一级毛片在线免费看| 日本少妇又色又爽又高潮| 国产不卡一级毛片视频| 欧美曰批视频免费播放免费| 精品91在线| 精品乱码久久久久久久| 伊人中文网| 亚洲中文字幕在线一区播放| 国产精品美女网站| 欧美综合激情| 国产成人精品亚洲77美色| 国产精品第一区在线观看| 青青久在线视频免费观看| 国产哺乳奶水91在线播放| 欧美精品三级在线| 自拍偷拍欧美| AV不卡在线永久免费观看| 久久综合色天堂av| 久久国产免费观看| 91久久大香线蕉| 精品国产成人国产在线| 国产男女免费完整版视频| 欧美a在线| 99这里只有精品6| 国产AV毛片| 色精品视频| 8090成人午夜精品| 亚洲欧美一区二区三区麻豆| 国产乱视频网站| 色妞www精品视频一级下载| 99国产精品国产| 成人va亚洲va欧美天堂| 亚洲综合婷婷激情| 欧美a级完整在线观看| 欧美区在线播放| 国产综合日韩另类一区二区| 久久久久88色偷偷| 福利在线不卡| 欧美一区精品| 国产丝袜无码一区二区视频|