999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于微博興趣相似度的研究

2019-03-15 13:31:28劉運沖
電腦知識與技術 2019年2期

劉運沖

摘要:微博用戶構成了一個社交網絡,在這個結構中,各用戶之間又相互聯系,存在著關系上的相似性。本文針對微博中信息量大,用戶之間興趣上的某種相似性,提出了一種多態相似度模型。從不同方面綜合考慮,通過用戶背景,交互性,以及微博內容之間的相似性,將用戶興趣形似性加權結合得到最終的結果模型。實驗結果表明,多態相似度模型較傳統的方法,在用戶個性化推薦中更準確地反映用戶的興趣。

關鍵詞:社交網絡;多態相似度模型;個性化推薦

中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)02-0175-03

Research on Interest Similarity Based on Weibo

LIU Yun-chong

(Anhui University of Science and Technology,Computer Science and Engineering,Huainan 232001, China)

Abstract:Weibo users constitute a social network. In this structure, users are connected to each other and there is a similar relationship. This paper proposes a polymorphic similarity model for the similarity of interest in microblogs and the interest among users. From a variety of aspects, through the user background, interactivity, and the similarity between the content of the Weibo, the user interest form weights are combined to obtain the final result model. The experimental results show that the polymorphic similarity model reflects the user's interest more accurately in the user's personalized recommendation than the traditional method.

Key words: social network; polymorphic similarity model; personalized recommendation

1引言

隨著信息技術的發展,各種社交手段也越來越豐富,不斷豐富著人們的生活,社交媒體的出現,把世界交織成一個復雜的網絡圈,人們可以即時獲取信息,發表自己的觀點,聊天互動也不像在信息匱乏時那樣變得奢望。多種多樣的社交工具可供人們選擇,比如國外的Twitter、Facebook,國內的人人網,新浪微博,騰訊微博等,都是人們獲取信息及發表觀點的社交工具。根據財報顯示,截至2017年12月,新浪微博的月活躍用戶已增至3.92億,創下新浪微博上市以來的一個新紀錄。日活躍用戶達1.65億。其中從國內社交媒體來說,新浪微博的使用量及活躍度遙遙領先其他社交方式。由于微博有數以億計的用戶節點,在如此多網民在線的情況下,也面臨著數據過載的問題。當用戶閱讀到某個用戶或轉發的微博之前,他并不知道這條微博是否是他所喜歡的,是否能夠給他帶來有用的信息,當用戶面前面對那么多微博內容的時候,更多的是不感興趣的或者認為這些微博并不能給他帶來有用信息,用戶閱讀之后才能根據微博的價值及是否感興趣來對微博進行轉發或評論。因此,個性化推薦就顯得尤為重要。根據用戶的興趣來為其推薦感興趣的潛在的用戶。

微博用戶興趣分為長期興趣和短期興趣。長期興趣即靜態興趣。短期興趣即動態興趣,隨時間發生變化,每個時間段用戶的興趣可能都不一樣。更多學者研究相似用戶只是從背景方面考慮,只考慮到了長期興趣,有的只是單獨從短期興趣方面研究。本文結合長期興趣和短期興趣,從背景和微博內容方面綜合考慮研究用戶之間興趣的相似度。

2相關工作

針對微博短文本相似性度量不精確的問題 ,黃賢英 ,陳紅陽等人提出了多視角微博短文本相似度算法。實驗表明,該算法在微博話題檢測應用方面,能有效降低話題檢測的漏檢率和誤檢率。徐志明 ,李棟等人提出了各種用戶屬性信息的用戶相似度計算方法,并根據實驗對每個方法進行對比,結果表明在用戶關系方面,基于社交信息的用戶相似度具有更好的效果。黃宏程,陸衛金等人提出了基于用戶興趣相似性的關系預測算法。通過余弦相似性指標計算用戶間的興趣相似度來預測用戶關系。實驗結果表明,該算法能夠準確描述用戶興趣,提高用戶關系預測的準確性。

以上提到的工作都是從某一方面提出的解決問題方法,雖然都能實現,但從問題的全面性考慮,本文針對此問題從多方面綜合考慮提出了多態相似度模型。

3相似性計算

研究兩個用戶之間的興趣相似性,從背景和微博內容兩個方面來考慮,對于背景信息,根據用戶u,v的一些屬性,分別出它們的相似度,最后通過加權得到背景信息相似度。對于微博內容興趣相似度,研究兩微博文本之間高頻關鍵詞術語的相似性。

3.1基于微博背景的相似度

(1)關注列表

通常微博用戶都會對他人進行關注,一旦用戶對其他用戶進行關注,就可以從中獲取到用戶所關注他人用戶的微博內容信息,這相當于用戶對其關注用戶的微博內容有所感興趣,因此被關注的用戶博文也能反映用戶的興趣。

用戶的關注列表體現用戶之間的興趣相似度,比如用戶U1關注了NBA球星勒布朗詹姆斯,用戶U2也關注了勒布朗詹姆斯,則在一定程度上說明用戶U1,U2有著共同的興趣,他們都喜歡NBA,喜歡籃球。

設用戶U1關注的用戶集合為S(N1),U2關注的用戶集合為S(N2),由關注列表得到的相似度為

simL=[S(N1)?S(N2)S(N1)?S(N2)-S(N1,N2)]? ? ? ? ? ? ? ? ? (1)

(2)用戶標簽

新浪微博為用戶提供了添加標簽的功能,該功能部分可以最多添加10個標簽,大多以關鍵詞的形式進行描述。用戶可以描述自己的職業,公司,興趣愛好,其他用戶可以根據興趣愛好找到志同道合的人,用戶添加的標簽是對自己興趣愛好的直接描述,用戶的標簽可能會影響用戶的微博內容,因此獲取用戶的這些興趣愛好比較方便。根據標簽所提供的信息用KL距離來表示兩者之間的相似性。距離越大,說明兩標簽之間的相似度越小。反之,二者相似度越大。

SimT=[i=1TPiulogPiuPiv]? ? ? ? ? ? ? ? ? (2)

(3)用戶轉發

用戶轉發某好友的微博的頻率越高,用戶與該好友的興趣相似度越大。通常情況下,如果用戶對另一個用戶的微博感興趣,他就會對這個用戶的微博進行轉發,通過這種方式傳遞著一種信息,此用戶和另一用戶有著相同的意見或觀點。如果一個用戶多次轉發另一個用戶的微博,說明這兩個用戶之間可能存在著興趣上的相似性。如果兩個用戶之間多次相互轉發對方的微博,說明這兩個用戶之間一定存在著興趣上的相似性。因此,利用轉發提出了用戶之間的相似性計算公式。

如果用戶U1轉發用戶U2的微博數量為N1,用戶U2轉發用戶U1的數量為N2,用戶U1微博中為轉發的數量為D1,用戶U2微博中轉發的數量為D2,則用戶轉發相似度為

[SimF=N1*N2D1*D2]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)

綜合以上信息,最終得到的基于背景的興趣相似度為

SimB=w1SimL+w2SimT+w3SimF? ? ? ? ? ? ? ? ? ? ?(4)

其中,

W1+w2+w3=1? ? ? ? ? ? ? ? ? ? ? ? (5)

3.2基于內容的興趣相似度

文本內容的相似性在一定程度上反映了兩者之間有一定的共同愛好。文本內容通過一定的邏輯關系把一系列術語串聯起來,從而形成一篇完整的文本。為了計算微博文本內容的相似度,將基于向量的概念語義相似度方法擴展至文本語義相似度,一般認為,如果兩篇文本內容里面的術語概念向量語義相似度越大,那么這兩篇文章的內容相關性越強,語義關聯也越強。通過計算文本的高頻術語相似度來替代兩文本內容之間的相似度,計算公式為

SimText=[i=li=ni=lj=mconceptsimilary(Ci,Cj)m*n]? ? ? ? ? ? ? (6)

最終根據背景和內容得出用戶之間的興趣相似度為

SimI=αSimB+βSimText? ? ? ? ? ? ? ? (7)

其中,α,β的值各取0.5

3.3個性化微博推薦

一段時間一個用戶U的關注用戶所發布的最新微博集合為Cnew,對于其中的每個新的微博cnew,計算該用戶U對此微博的興趣度,公式為

InterestLevel(U,Cnew)=[t∈T(Snew*Ut)]·? ? ? ? ? (8)

其中,T是用戶所感興趣的主題集合,Snew為主題分布向量。

當用戶的關注用戶發布或轉發新的微博內容時,對新微博集合按興趣度的降序排列,將TOP-N個新微薄推薦給用戶

4實驗

實驗數據:

本實驗的數據來自新浪微博。數據的獲取過程包括采集和篩選兩個部分。數據采集階段,利用數據采集工具獲取新浪微博用戶的基本信息和內容信息;篩選數據階段,去除信息缺失嚴重的無效數據。最后得到169788個用戶數據。其中包括微博的個人信息和關注列表數據。在用戶個人信息這方面,有職業、年齡、注冊時間、興趣愛好等。本文將利用信息檢索領域的評價指標排序準確率作為評價用戶相似度的性能。通過用戶之間的關注序列,對比用戶之間的相似度所產生的相似序列,評價用戶之間相似度。

本部分實驗采取排序準確率和MAP作為評價指標。排序準確率公式如下

Accuracy=[1|U|u∈U1|F(u)|i=1|F(u)|11+|S(u)_ri-F(u)_ri|]? ?(9)

其中,將U的相似序列S(u)作為待測結果,將U的關注序列F(u)作為標準答案.對于關注序列F(u)中的每個用戶i,它在F(u)、S(u)中出現的次序位置分別記為F(u)_ri,、S(u)_ri

MAP=[1|U|u∈U1|D(u)|i=1|D(u)|iS(u)_ri]? ? ? ? ? ? ? (10)

(1)基于背景和內容的相似度實驗結果

該實驗部分是考察微博用戶的背景信息和文本內容對用戶興趣相似度的影響。實驗內容:首先計算用戶的關注列表相似度、用戶標簽相似度、用戶轉發相似度,然后將它們加權融合,得到用戶的背景信息相似度。通過文本內容關鍵詞的相似性糅合得到內容相似性。最后和背景信息加權得到最終相似性。圖1給出了上述各種相似度在排序準確率上的實驗結果。實驗結果顯示:用戶轉發相似性具有較好的實驗效果,綜合地看,3種屬性信息和文本內容相似度加權融合而成的最終結果效果最好。

從實驗結果可以看出:用戶標簽準確率最低。可能的原因有(1)標簽信息的不完整性,用戶的標簽中涉及用戶的個人隱私信息,用戶可能不會真正描述自己,或者隨意填寫,有的甚至不寫。用戶的轉發最能體現用戶的興趣,如果用戶對此微博轉發說明對微博感興趣,否則也不會去轉發。

通過結果觀察,用戶之間的微博轉發準確率最高,最能說明轉發對興趣相似性的判斷所起的作用最大,而關注列表僅次于微博轉發,可能只是短暫的興趣,時間久之,興趣會發生變化,但變化不會太大。但用戶之間共同關注用戶的比例較大,也能說明二者具有相同的愛好。

(2)推薦用戶的準確率比較

分別應用上述各種相似度,進行用戶推薦.圖2給出了上述各種相似度在用戶推薦上的實驗結果。實驗結果顯示:對于用戶推薦來說,用戶信息的3種屬性信息相比,用戶轉發相似度取得了最好的推薦效果。

5結束語

本文結合前人研究的基礎上,進一步完善了相似度計算的方法。針對多態相似度模型,給出了微博用戶的屬性信息以及計算方法。在此基礎上,完成了微博用戶相似度的整體計算方法。最后通過實驗來驗證他們的性能。

利用微博數據,根據微博用戶信息,分別給出了用戶屬性信息、用戶轉發、內容的相似度計算方法。

參考文獻:

[1] HUANG Xianying ,CHEN Hongyang ,LIU Ying‐tao.Research on Microblog short text similarity and its application in Microblog topic detection[J].

[2] Xu zhi-Ming,LiDong,Liu Ting,et al.Measuring similarity between microblog users and its application[J].Chinese Journal of Computers.2014,37(1):207-218(in Chinese)

[3] HUANG Hongcheng, LU Weijin,et al.User Relationships Prediction Algorithm with Interest Similarity Measurement[J].Computer Science and Exploration.2017,11(7)-1068-12

[4] Wang Xiao-Yu,Xiong Fang,Ling Bo,Zhou Aoying.A similarity-based algorithm for topic exploration and distillation.Journal of Software,2003,14(9):1578-1585(in Chinese)

[5] 邢千里,劉列,劉奕群,張敏,馬少平.微博中用戶標簽的研究[J].軟件學報,2015,26(7):1626?1637.

[6] 彭澤環,孫樂,韓先培,石貝.基于排序學習的微博用戶推薦[J].中文信息學報,2013,27(4):96?102.

[7] 楊圩生,羅愛民,張萌萌.基于信任環的用戶冷啟動推薦[J].計算機科學,2013,40(11a):363?366.

[8] 張園美.微博用戶興趣分析方法應用研究[D].大連:大連理工大學,2015.

[9] 李峰,侯加英,曾榮仁,等.融合詞向量的多特征句子相似度計算方法研究[J].計算機科學與技術,2017(11).

主站蜘蛛池模板: 日韩精品视频久久| 国产va在线观看免费| 成年人视频一区二区| 97国产精品视频自在拍| 91精品网站| 国产成人AV男人的天堂| 91免费国产在线观看尤物| 亚洲欧美人成电影在线观看| 亚洲AⅤ波多系列中文字幕| 一级香蕉视频在线观看| 搞黄网站免费观看| 国产毛片基地| 亚洲精品第1页| 在线播放91| yjizz视频最新网站在线| 国内精品久久九九国产精品| 国产精品精品视频| 亚洲aaa视频| 欧美日韩动态图| 欧美午夜视频| 国产丰满大乳无码免费播放 | 福利在线不卡一区| 粉嫩国产白浆在线观看| 97成人在线观看| 东京热一区二区三区无码视频| 久久国产精品77777| 亚洲色图欧美在线| 国产极品美女在线播放| 亚洲va欧美ⅴa国产va影院| 亚洲日韩久久综合中文字幕| 欧美黄网在线| 亚洲福利视频一区二区| 亚洲欧美日韩中文字幕一区二区三区| 香蕉蕉亚亚洲aav综合| vvvv98国产成人综合青青| 超碰91免费人妻| 黄色国产在线| 青青草原国产av福利网站| 伦精品一区二区三区视频| 亚洲看片网| 免费女人18毛片a级毛片视频| 日韩天堂在线观看| 最新国产你懂的在线网址| 国内精品九九久久久精品| 91av国产在线| 欧美日韩综合网| 国产美女无遮挡免费视频| 自慰网址在线观看| 久久久噜噜噜久久中文字幕色伊伊| 日韩欧美国产成人| 亚洲天堂区| 成人看片欧美一区二区| 国产福利观看| 亚洲av无码久久无遮挡| 无码专区国产精品第一页| 国产人前露出系列视频| 日本在线亚洲| 97免费在线观看视频| 蜜桃视频一区二区三区| 国产本道久久一区二区三区| 狠狠色综合网| 最新无码专区超级碰碰碰| 美女潮喷出白浆在线观看视频| 国产精品尤物在线| 国产永久免费视频m3u8| 亚洲日本www| 精品撒尿视频一区二区三区| 国产免费高清无需播放器 | 日韩区欧美国产区在线观看| 国产成人免费| 在线精品欧美日韩| 国产乱肥老妇精品视频| 亚洲综合精品第一页| 日本精品一在线观看视频| 老色鬼欧美精品| 久久久久亚洲Av片无码观看| 91精选国产大片| 一级一毛片a级毛片| 免费99精品国产自在现线| 欧美区国产区| 在线观看国产小视频| 69视频国产|