999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本屬性的微博用戶相似度研究

2018-05-25 08:50:46李夢潔
計算機技術與發展 2018年5期
關鍵詞:文本用戶信息

李夢潔,邵 曦

(南京郵電大學 通信與信息工程學院,江蘇 南京 210003)

0 引 言

微博模仿了人類社會的結構,將用戶組織成完整的社會網絡,實現了用戶的個性化信息發布、社會性傳播和一些私人或公開的社交的需求。在自媒體時代,用戶不再僅僅是信息的接受者,也是信息的發布者,信息在用戶的社交行為中發生了由點到面的爆炸式傳播[1]。

微博用戶的興趣可以體現在用戶關系中[2],但是由于微博的用戶量巨大,往往擁有數以億計的用戶節點。2017年5月份的微博官網數據顯示,微博活躍用戶達到3.4億,已超過Twitter的3.28億。在如此大的數據量下,用戶在建立自己的社會關系時,將面臨數據超載的問題。因此,幫助用戶在茫茫人海中找到他們可能感興趣的人是非常重要的。所以,相似用戶的研究在好友推薦、用戶聚類、社區發現、熱點預測和輿論引導等方面都有重要的意義[3-4]。

與在現實中的交友類似:新的陌生環境中,人往往會對與自己相似的人產生興趣。譬如,在新班級中會先認識老鄉;在新單位中會與有相同興趣愛好的人產生共同話題等。

文中就利用了微博用戶的部分背景信息,以及發送微博和轉發微博等社交行為,針對不同的屬性數據采用不同的計算方式,構建綜合相似度計算模型,計算、篩選出與該用戶最相似的用戶列表。

1 相似度計算相關研究

以往的一些相似度計算方法需要轉換數據,并對數據歸一后進行計算[5],但微博用戶的描述不僅需要用戶本身的背景信息,更需要注意用戶的社交行為,簡單地轉換數據類型和計算不能準確合理地評價用戶,在轉換過程中也會導致大量的數據丟失。

基于微博的相似度計算研究可以分為三類:

(1)Krishnamurthy[6]通過Twitter中關注(following)與被關注的關系將用戶分成三類,基于用戶關系構建網絡拓撲,算法的核心思想是用戶之間的關注關系,而不考慮用戶自己的背景信息;

(2)用戶之間的共同鄰居數量作為相似度計算標準,即用戶之間的共同好友越多,用戶之間的相似度越高。CN(common neighbors)模型[7]、Cosine相似度模型以及Jaccard相似度模型、Hub Promoted(HP)相似度模型、HD相似度模型等[8]屬于這類方法。上述方法將用戶間的共同好友數量占自身好友數量的比例作為相似度的度量。但這些方法沒有考慮用戶自己的信息對相似度計算的影響;

(3)徐志明等[9]對微博的相似性進行研究,將微博社會網絡視為一個加權無向圖,該文將用戶關系強度定義為用戶之間的相似度,分別給出了基于各種用戶屬性信息的用戶相似度計算方法。該算法沒有考慮用戶的性別、年齡和興趣點,也沒有綜合考慮用戶的基本信息和交互信息。

2 用戶屬性相似度模型

根據獲取到的新浪微博的用戶數據,分析用戶的各種屬性信息,根據屬性的數據結構,用不同方法來具體計算各個相似度,根據獲取的數據屬性所占比例、屬性分布情況等確定各個屬性的權值,最后對各個相似度求出加權均值得出用戶總的相似度。

文中相似度主要劃分為兩個角度:背景相似和興趣相似(如圖1所示)。這兩種角度的相似相輔相成,并存在相互影響,甚至相互轉化的關系[10]。

2.1 背景相似度

背景相似度主要是指與社交活動無關的用戶自身條件,如用戶所在地理位置,使用設備,習慣的活動時間,以及性別、工作信息、教育信息等。

圖1 用戶相似度模型

2.1.1 地點相似度

用戶所在地是微博客戶端中每個用戶主頁的第一條信息,是每個用戶給人的第一印象。用戶所在地是用戶在申請賬號時所填寫的用戶所在的地理位置,海外用戶精確到國家,國內用戶精確到省市,直轄市用戶精確到區。

人們本能地親近于與自己處在同一地域的人,在心理學上,這稱為地域文化心理。表現為對自己的地域及地域基礎上生活的人有一種本能的親近心理。同一所在地的用戶,往往對政治、經濟、歷史等有著相似的關注點和見解,所以由用戶所在地計算出的用戶地點相似度,是用戶相似度的重要組成部分。

用D(Ux,Uy)表示兩用戶之間的距離,其中Dactual表示兩用戶的實際空間距離,由用戶填寫的所在地對應到點的經緯度,根據兩個經緯度點計算出兩點之間的距離,其中用到Haversine公式。

cos(φ1)cos(φ2)haversin(Δλ)

(1)

(2)

其中,R表示地球半徑,可取平均值6 371 km;φ1,φ2表示兩點的緯度;Δλ表示兩點經度的差值。

用Dextra表示不同行政區用戶之間存在的附加距離,這一附加距離既不能完全否定距離相近的用戶的相似性,又要體現不同行政區域內的用戶之間的差異。取Dcountry為國內兩用戶距離的均值,以區分國內用戶和海外用戶。取Dprovince為同省兩用戶的平均距離,以保證實際距離相同時,同省的用戶更加具有相似性這一事實。得出的距離D(Ux,Uy)需要用一個定義在0到正無窮的減函數進行歸一化,從而計算出地點相似度Simd(Ux,Uy)。

D(Ux,Uy)=Dactual+Dextra

(3)

(4)

2.1.2 設備相似度

由微博官方提供的數據顯示,截至2017年3月底,移動端月活躍用戶占比已提升至91%?,F如今,智能手機和平板電腦已經成為人們日常生活的重要組成部分。微博客戶端中會顯示每條微博的來源,包括發送微博的使用設備,或由站外的哪個應用所發送。使用的設備能體現出該用戶的上網習慣,并能從一方面體現出該用戶對電子設備的選擇傾向以及購買力;站外來源也能反映出該用戶最近使用的應用。擁有相同來源的用戶,必然比使用不同來源的用戶更加具有相似度。定義設備相似度為Sime(Ux,Uy),擁有相同來源的用戶,在設備這一維度的相似度為1,否則為0。

(5)

2.1.3 時間相似度

用戶發微博的時間習慣常常被忽略,其實這也是能反映用戶信息的。用戶會選擇工作學習的休息時間使用微博,并且大多數微博用戶都有睡前看微博的習慣。所以微博的發送時間,能部分體現出用戶的作息時間。使用兩用戶發微博的時間差T(Ux,Uy)來衡量時間相似度Simt(Ux,Uy)。時間差越大,相似度越小,需要使用合適的減函數來歸一化時間差。經過測試,考慮到時間差最大為24小時,而當時間差過大,則不具備區分度。當時間差大于3小時,相似度小于0.5,使用指數函數來歸一化該相似度,取底數為0.75。

Simt(Ux,Uy)=0.75T(Ux,Uy)

(6)

考慮到性別、教育水平填寫不完善,不能區分出用戶的興趣點。在實驗調查中,大于50%的用戶都沒有填寫教育工作信息,所以暫不考慮這幾個屬性。

2.2 興趣相似度

在微博這個社交平臺中,用戶的興趣點體現在其社交行為上。越相似的兩個用戶,就會擁有越多相似的社交行為。

2.2.1 文本相似度

微博文本信息數據量龐大,用戶在瀏覽這些信息的同時,需要花大量的時間和精力來對其進行篩選和辨別。而用戶發出的文本信息,是所有社交行為中最主觀最直接的信息輸出,是體現用戶個性以及興趣點的最重要部分。所以在對相似用戶的研究中,需要著重研究該部分的相似度,文本相似度模型如圖2所示。

圖2 文本相似度模型

(1)預處理。

預處理中需要對微博文本進行噪聲處理。過濾微博文本中無意義的“@用戶名”或網址,或者發自某應用等。這些信息是在發微博的過程中自動生成的,而非用戶主觀輸出。

(2)分詞及去停用詞。

分詞后利用完善的停用詞表對文檔去除停用詞,去除一些不包含有用信息的符號、數字、語氣詞、轉折詞以及使用頻率特高的單漢字等。將這些詞過濾掉,減少了索引量,增加了檢索效率,并且通常都會提高檢索的效果。

(3)TF-IDF變換。

TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數據挖掘的常用加權技術。IDF指“逆向文件頻率”,將用詞頻向量中的詞頻,變換為詞的重要性。該方法評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。其實在文本信息的提取中,高頻詞區分能力較小,而低頻詞也常??梢宰鳛殛P鍵特征詞,所以并不是高詞頻就是主題詞。在TF-IDF變換中,字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降,這樣能全面體現一句話中每個詞的地位[11-12]。

(4)余弦相似度。

余弦相似度是一種非常有用的算法,只要是計算兩個向量的相似程度,都可以采用。假定A和B是兩個n維向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],則A與B的夾角θ的余弦等于:

(7)

余弦值越接近1,就表明夾角越接近0°,也就是兩個向量越相似,這就叫“余弦相似性”。當兩個文本的TF-IDF向量夾角越小,則表示這兩個文本越相似。用余弦相似度來表示文本相似度Simw(Ux,Uy)[13-14]。

2.2.2 關系相似度

關注同一用戶、擁有相同的粉絲都能表現出兩用戶興趣點的相似。微博中兩個用戶之間的關系分為單向關注或者雙向關注,雙向關注即為好友關系。文中關系相似度分為兩個方面:

(1)用戶x與用戶y的共同關注比例,兩用戶共同關注的人越多,占據關注總數的比例越高,則兩用戶的關注相似度就越高。設用戶x的關注列表為Fx,其數量為num(Fx),則相似度為:

(8)

(2)用戶x與用戶y是否為相互關注,即x∈Fy且y∈Fx,則用戶x與y為好友。

(9)

兩種關系相似度能共同體現出用戶之間的社交關系[15]。

2.2.3 轉發相似度

對同樣的微博內容進行轉發操作,代表著對同一條信息的密切關注,并且對這一條信息進行了再次傳播,這樣關注了該用戶的人也能看到這一信息,轉發是微博中的重要社交行為。若兩用戶之間發生多次轉發,則這兩個用戶一定有著非常密切的聯系。文中用正切三角函數tanh對轉發次數rcount進行歸一化,得到轉發相似度Simf(Ux,Uy) 。

Simf(Ux,Uy)=tanh(rcount)

(10)

其中,用tanh(count)把次數轉換為0到1的相似度。

3 結合層次分析法的相似度模型

對于已經得到的背景相似度Simb(Ux,Uy)和興趣相似度Simi(Ux,Uy),需要進一步求和處理才能得到最終的用戶相似度。其中背景相似度由地點相似度、設備相似度以及時間相似度決定,而興趣相似度由文本相似度、關系相似度、轉發相似度決定。各個相似度屬性均已歸一化處理,使之取值在區間[0,1]上。

其中各個相似度屬性明顯具有不同的地位,簡單的加和求均值不能全面準確地描述兩用戶之間的相似度。所以需要選擇合適的方法,給各個相似度分配合理的權重w1,w2,w3…,計算后得到最終的用戶相似度Sim(Ux,Uy)。

Sim(Ux,Uy)=wbSimb(Ux,Uy)+wiSimi(Ux,Uy)=

w1Siml(Ux,Uy)+w2Sime(Ux,Uy)+

w3Simt(Ux,Uy)+w4Simw(Ux,Uy)+

w5Simr(Ux,Uy)+w6Simf(Ux,Uy)

(11)

由于有六個相似度參數,簡單粗糙地給權重賦值[16]往往不甚合理,此時需要使用層次分析法。層次分析法能夠將一個復雜的問題分解為各個組成因素,并將這些因素按支配關系分組,從而形成一個有序的遞階層次結構,通過兩兩比較的方式來確定層次中的各個因素的重要性,生成判別矩陣,從而計算出各屬性對影響決策所占的比重,即權值。定義判斷矩陣An×n:

(12)

4 實驗及結果分析

采用新浪微博及其API接口、Pycharm、Mysql作為數據的獲取、統計以及屬性權值、相似度計算工具。數據集包括63 641個新浪微博用戶的基本信息和這些用戶之間的1 391 718條好友關系,以及這些用戶發出的84 168條微博和微博之間的27 759條轉發關系。用戶信息中包括了3 192個海外用戶,60 449個國內用戶。

4.1 文本相似度

在相似度計算中,對微博文本進行預處理、分詞、過濾停用詞等操作,經過TF-IDF變換后進行文本相似度計算。以ID為2609400635的用戶微博為例,對文本進行處理。

預處理可以去除微博文本中“@某用戶”、網址、表情符號等內容。在表1中的兩個表情“[饞嘴]”、“[抓狂]”被過濾掉。分詞后的結果內容較多,如“了”、“呀”、“馬上”這些詞,出現頻率很高但沒有實際意義,作為停用詞被剔除后可以提高后續TF-IDF處理的效率。

在做TF-IDF變換之前需要生成構造詞典,構造詞典中為每個詞組編號,便于后續數字化的向量處理。該實驗中的構造詞典中包含了132 827個詞組,在上述微博文本的例子中用到的詞組及其對應編號有:149:我要,411:一個月,7073:復習,13955:看書,18714:中考,40216:勞逸結合,41616:真累。生成語料庫,轉換為詞頻向量方便處理。在TF-IDF變換中,將詞頻向量中的詞頻轉換為詞的重要性,詞組的重要性隨著詞頻成正比增加,同時也隨著它在語料庫中出現的頻率成反比下降。

表1 文本處理

經過以上處理后比較余弦相似度,文本A:“還有一個月就要中考了,最近復習真累呀,所以我要勞逸結合下,馬上又要看書了!”;文本B:“寧愿看韓劇也不想看書”;文本C:“故事由此開始...Lin,林書豪,林瘋狂,我要瘋狂~閃電突破!”。經比較后,文本AB的相似度為0.263 104,文本AC的相似度為0.079 880 9。顯然,文本A與文本B都是在討論看書與否,而與C無關。

4.2 處理權重

文中使用層次分析法計算各個相似度的屬性的權重,由式12得:

微博用戶背景相似度與興趣相似度的判斷矩陣分別為:

地點 設備 時間

文本 關系 轉發

背景相似度與興趣相似度之間的判斷矩陣為:

文本 關系

Saaty等建議用對應于最大特征根的特征向量作為權向量,得到各個相似度的權重,見表2。

表2 權值分配

4.3 評價指標及結果分析

文中采用準確率(Precision) 、召回率(Recall)、F1度量值(F1-measure)作為實驗結果的評估指標。以用戶關注的公眾號話題信息以及微博的主題標簽為相似用戶的標準答案,比較基于文本相似度的算法與不使用文本相似度的算法之間的指標差別。

按表2中的權值計算基于文本相似度和未考慮文本相似度的用戶相似度。分別計算后,取相似度最大的N%用戶作為相似用戶的計算結果,比較不同N值下的準確率、召回率和F1度量值。

準確率是提取出的正確相似用戶個數Nc與提取出的用戶數Nt的比值,該值越大,準確率越高。計算方法如下:

(13)

召回率是提取出的正確相似用戶個數Nc與所有正確相似用戶個數Nts的比值,比值大的結果更優越。計算方法如下:

(14)

兩者取值在0和1之間,數值越接近1,查準率或查全率就越高。

F1度量值是綜合準確率和召回率的評估指標,即為準確率和召回率的調和平均值。該度量值越大,該方法的結果越準確。計算方法如下:

(15)

各指標計算結果如圖3所示。

圖3的結果體現了基于文本相似性的相似用戶計算方法的優越性。當然,希望檢索結果Precision越高越好,同時Recall也越高越好,但事實上這兩者在某些情況下是有矛盾的,而F1值則是綜合這二者指標的評估指標,用于綜合反映整體的指標。如圖3(c)所示,當N%取50%時,未結合文本的相似度算法的F1值為0.306,而基于文本屬性的相似用戶計算方法取得的F1值達到了0.411,提高了34.3%。

圖3 兩種算法對比

5 結束語

提出了一種基于文本屬性的相似用戶計算方法。簡單概括了相似度計算的相關研究;接著分析介紹了文中用到的用戶屬性相似度模型,對各個屬性做了一一分析,重點分析了文本相似度計算方法,其中的分詞過程和TF-IDF變換都是計算文本相似度的重要部分,用余弦相似度衡量了微博中的文本相似度。為了更好地衡量微博用戶的興趣相似度,又對微博的轉發與用戶好友關系加以充分利用。最后用層次分析法確定各個參數的權重,因此從多個角度,更為全面、準確地衡量了微博用戶之間的相似性。用F1度量值對結果進行了評價,結果表明,基于文本屬性的微博相似用戶的計算方法提高了算法的準確度。同時,該方法也存在一定的局限,即未能用動態數據進行測試,若以用戶最新的微博文本來計算用戶的相似度,會在好友推薦、用戶聚類、熱點預測中有更好的效果。

參考文獻:

[1] 王連喜,蔣盛益,龐觀松,等.微博用戶關系挖掘研究綜述

[J].情報雜志,2012,31(12):91-97.

[2] 張俊豪,顧益軍,張士豪.基于距離模型的用戶關系強度評估[J].信息網絡安全,2015(10):86-91.

[3] 謝耘耕,徐 穎.微博的歷史、現狀與發展趨勢[J].現代傳播:中國傳媒大學學報,2011(4):75-80.

[4] LIAO Yang,MOSHTAGHI M,HAN Bo,et al.Mining micro-blogs:opportunities and challenges[M]//Performance evaluation of social network using data mining techniques.London:Springer,2012:129-159.

[5] 郭金玉,張忠彬,孫慶云.層次分析法的研究與應用[J].中國安全科學學報,2008,18(5):148-153.

[6] KRISHNAMURTHY B,GILL P,ARLITT M.A few chirps about Twitter[C]//Proceedings of the first workshop on online social networks.Seattle,WA,USA:ACM,2008:19-24.

[7] 逯 鵬,張姍姍,高慶一.基于共同鄰居的點權有限BBV模型研究[J].計算機科學,2014,41(4):49-52.

[8] 秦宏宇.網絡輿情熱點發現相關技術研究[D].哈爾濱:哈爾濱工程大學,2010.

[9] 徐志明,李 棟,劉 挺,等.微博用戶的相似性度量及其應用[J].計算機學報,2014,37(1):207-218.

[10] 喬秀全,楊 春,李曉峰,等.社交網絡服務中一種基于用戶上下文的信任度計算方法[J].計算機學報,2011,34(12):2403-2413.

[11] 王振振,何 明,杜永萍.基于LDA主題模型的文本相似度計算[J].計算機科學,2013,40(12):229-232.

[12] 陳 攀,楊 浩,呂 品,等.基于LDA模型的文本相似度研究[J].計算機技術與發展,2016,26(4):82-85.

[13] 黃賢英,陳紅陽,劉英濤.短文本相似度研究及其在微博話題檢測中的應用[J].計算機工程與設計,2015,36(11):3128-3133.

[14] SHARIFIB M,HUTTON A,KALITAJ K.Automatic microblog classification and summarization[C]//Proceedings of human language technologies:conference of the North American chapter of the association of computational linguistics.Stroudsburg:Association for Computational Linguistics,2010:685-688.

[15] YIN Dawei,HONG Liangjie,DAVISON B D.Structural link analysis and prediction in microblogs[C]//ACM conference on information and knowledge management.Glasgow,United Kingdom:ACM,2011:1163-1168.

[16] SONG Dezhao,HEFLIN J.Domain-independent entity conference in RDF graphs[C]//Proceedings of the 19th ACM international conference on Information and knowledge management.Toronto,Ontario,Canada:ACM,2010:1821-1824.

[17] 鄭志蘊,賈春園,王振飛,等.基于微博的用戶相似度計算研究[J].計算機科學,2017,44(2):262-266.

猜你喜歡
文本用戶信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 热九九精品| 亚洲午夜国产精品无卡| 色男人的天堂久久综合| 国产原创自拍不卡第一页| 亚洲午夜福利精品无码不卡| 丁香六月综合网| 青青青国产免费线在| 四虎成人精品在永久免费| 在线观看网站国产| 欧美日韩国产精品综合| 成人精品亚洲| 成年人免费国产视频| 欧美国产日韩在线观看| 亚洲一级色| 国产chinese男男gay视频网| 最新亚洲av女人的天堂| 91无码视频在线观看| 国产福利大秀91| 黄色一级视频欧美| 亚洲乱亚洲乱妇24p| 91国内在线观看| 国产99热| 日本免费新一区视频| 欧美激情第一欧美在线| 国产一区二区精品福利| 欧美激情视频二区三区| 久草国产在线观看| 日韩精品毛片| 精品欧美视频| 波多野结衣二区| 亚洲天堂网在线观看视频| 激情综合网激情综合| 99re在线观看视频| 国产午夜看片| 久久五月天国产自| 国产午夜小视频| 秋霞一区二区三区| 色噜噜综合网| 一级毛片中文字幕| 天堂亚洲网| 91在线中文| www亚洲天堂| 成人午夜免费观看| 538精品在线观看| 国产污视频在线观看| 制服丝袜在线视频香蕉| 女人一级毛片| 精品亚洲国产成人AV| 亚洲av色吊丝无码| 日韩精品一区二区深田咏美| 91口爆吞精国产对白第三集| 香蕉综合在线视频91| 人妻一区二区三区无码精品一区 | 亚洲欧美日韩中文字幕一区二区三区 | 全午夜免费一级毛片| 国产不卡在线看| 91成人免费观看| 草逼视频国产| 精品三级网站| 免费高清a毛片| 狼友视频国产精品首页| 中文国产成人久久精品小说| 精品国产一区91在线| 中文字幕在线播放不卡| 国产网站黄| 国产高清在线精品一区二区三区| 国产成人午夜福利免费无码r| 区国产精品搜索视频| 欧美在线伊人| 欧美亚洲日韩不卡在线在线观看| 久久香蕉国产线看观看式| 亚洲国产欧洲精品路线久久| 久久网综合| 久久免费观看视频| 亚洲无码高清一区| 丁香婷婷久久| 72种姿势欧美久久久久大黄蕉| 秋霞午夜国产精品成人片| 国产成人1024精品| 在线观看国产精美视频| 日韩欧美视频第一区在线观看| 欧美激情第一欧美在线|