999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社區時空主題模型的微博社區發現方法

2014-02-10 05:46:20朱欣焰
電子科技大學學報 2014年3期
關鍵詞:詞匯區域用戶

段 煉,朱欣焰

(1. 廣西師范學院北部灣環境演變與資源利用教育部重點實驗室 南寧 530001; 2. 廣西師范學院資源環境科學學院 南寧 530001;3. 武漢大學測繪遙感信息工程國家重點實驗室 武漢 430079; 4. 武漢大學空天信息安全與可信計算教育部重點實驗室 武漢 430079)

微博作為目前最具代表性的社交網絡服務,逐漸成為一種重要的溝通工具和平臺。由于其實時性高、流量大、內容覆蓋面廣,近年來,微博已經成為社會輿論、商業營銷和城市功能的“傳感器”。所謂社區,是指用戶根據小世界特性聚集形成若干群體。發現微博中的社區,能更好地理解信息傳播模式和用戶交互模式群體演化規律,具有重大的學術和應用價值。微博社區主題表現為:屬于該社區的用戶所發表和轉發微博的內容趨向于某(幾)個特定的主題,如“體育”“科技”等。多個用戶對某一主題的頻繁討論形成了針對該主題的用戶社區。然而,大部分算法基于用戶社會關系(如關注對象、好友)和微博消息轉接應答(轉帖,跟帖、評論)的疏密程度來發現社區,或基于聚類等模型進行網絡分割以獲取社區,忽略了社區的潛在主題特征。社區潛在主題表現為:屬于該社區的用戶所發表和轉發微博的內容趨向于若干個特定的信息類別,如“體育”“科技”等,反映了用戶在若干方面的興趣傾向。而多個用戶對某一主題的頻繁討論形成了針對該主題的用戶社區??梢?,社區主題與社區結構相互影響,特定主題的形成反映了某個社區的出現,而社區的出現促使了某些主題更加突出。在引入微博主題進行社區發現的研究中,文獻[1]利用LDA[2]分析Tw itter中的用戶同質性,挖掘活躍的微博用戶群組,文獻[3]基于用戶間的互訪類型和微博主題相似性進行社區發現,文獻[4]利用主題模型獲取社區主題,計算出用戶隸屬于某個社區的概率,文獻[5]通過伯努利分布表達用戶主題在時間上的分布。

此外,用戶發送的微博主題與周邊地理環境特征緊密相連[6]。如在東湖周邊人們發的微博以“游覽”主題為主,在武漢廣場發的微博則以“購物”主題為主。可見,局部地理區域具有特定的經濟文化,環境對微博主題具有較大影響。近年來,微博對地理位置標識的功能為研究時空環境與微博內容之間的關系提供了支撐。一般來說,兩個用戶訪問相同地理區域的次數越多,這些局部地理區域社會環境對他們的吸引程度就越相似,表明他們社會生活模式或興趣偏好越相似,則這兩個用戶越有可能屬于同一社區;另一方面,屬于同一社區的用戶,由于他們具有相似的生活模式或興趣偏好,則他們越傾向于訪問相同的地理區域。此外,由于社會生活的作息規律、社會習俗等原因,不同時間段內用戶關注的對象是不同的,造成微博在不同時間下表達不同的主題,因此發現微博主題隨時間變化的特點,同樣能提高對社區的識別能力。

由于主題模型對文本的強大建模能力和靈活的擴展機制,本文將擴展主題模型引入時空要素提高微博主題識別能力。在時空相關的主題模型中,已有研究將全局空間區域劃分為若干地理區域,再依據落在地理區域內的微博獲取該區域的主題。地理區域的劃分方式主要有如下4種:規則格網[7]、轄區(如省界、區界等)[8-9]、不規則格網(如泰森多邊形網)和自適應區域劃分[6]。前3種方法固化了區域邊界,不利于描述相似微博主題在空間上的轉移;最后一種方式依據微博主題相似性和空間鄰近性,利用二維高斯分布較好的表達了相似主題微博的空間覆蓋范圍。然而,已有自適應區域劃分方法沒有給出潛在地理區域空間范圍的限制條件,易造成某些潛在地理區域覆蓋的空間范圍過大。如文獻[7]采用二維高斯模型表達相似博客主題的潛在地理區域中,一些潛在地理區域跨越大半個美國,部分潛在地理區域間還相互重疊。這種情況造成區域內主題分布趨于背景主題分布,無法突出區域“特色”主題分布,失去在主題模型中引入空間要素的意義。同時,已有方法還需預先設定潛在地理區域數量,無法利用數據自身的特征自適應調整潛在地理區域范圍和數量。此外,已有方法沒有顧及用戶對地理區域的選擇偏好。

為克服以上問題,本文構建社區時空主題模型(community spatio-temporal topic model, CS-TM),在主題模型中引入狄利克雷過程混合模型(dirichlet process m ixture model)[11],以自動生成不同覆蓋范圍地理區域和微博地理位置,并通過地理區域和社區兩者微博主題的相互影響,提高微博社區的發現能力。

1 微博社區挖掘

1.1 微博要素構成

每條微博d表示為6個要素:d=(W,t,l,r,u,c)。其中,W表示該微博“詞袋”模型;t表示微博發布時間;l表示微博發布的地理位置;r表示微博潛在地理區域;u表示微博用戶;c代表用戶所在社區。

1.2 空間和用戶對微博主題的制約

微博中常常體現如“娛樂”“交通”“飲食”等話題,這些話題表達了大眾用戶的一種基本社會見識,稱為背景主題,其多項式分布參數用0q表示。將全局空間劃分為多個潛在地理區域。由聚集在潛在地理區域的微博主題共同產生區域-主題分布參數為rq。

1.3 社區和時間對微博主題的制約

1.4 空間、社區對微博詞匯的制約

相同主題下用戶在不同位置會使用不同的詞匯。如同樣是“交通”主題,在飛機場發出的詞匯和在火車站發出的詞匯就不同。因此,微博詞匯受背景環境、潛在地理區域和社區影響,共同控制主題z下的詞匯生成概率,基于稀疏增量式生成模型可得詞匯w的多項式分布:

1.5 時空主題模型

圖1 社區時空主題模型

1.6 時空主題模型參數計算

基于EM方法和Gibbs采樣[10]估計時空主題模型的參數。

1) E步驟,對潛在變量采樣。這里的潛在變量分別是微博d所在的潛在地理區域r、社區c和主題z:

通過狄利克雷過程表示微博d位于某個已存在潛在地理區域rj或新潛在地理區域r¢的概率。因此,修改式(9),采用“Chinese restaurant”[11]的方式進行rd采樣:

2) M步驟,固定各潛在因素,對模型的后驗似然值最大化,獲取模型參數。

更新代表潛在地理區域r的二維高斯分布參數:

式中,#(r,d)表示r中微博總數;ld為微博地理坐標。

以下采用梯度下降法進行其他參數的迭代推理。

下式用于計算潛在地理區域分布參數的梯度值。其中,du,r表示用戶u在區域r中所發微博數量;du表示用戶u所發微博總數:

綜上所述,在E步驟中,結合狄利克雷過程和模型中各參數,計算出微博主題、潛在地理區域和社區潛在因子;在M步驟中,通過梯度下降方法,得到模型中各個參數更新值。如此反復,直到模型各參數收斂。

最終按照用戶u屬于各社區的概率ug值的高低,即可將用戶劃分到不同社區中。社區間可相互重疊,即一個用戶可屬于多個社區,因此,取ug的top-k(一般k=3)個概率最大gu,c所對應的社區c作為候選集合,假設共有個社區,設定閾值將的社區c作為用戶u隸屬的社區。

2 實 驗

2.1 數據預處理和模型參數設置

實驗使用的服務器配置為Intel(四核,3.1G)酷睿i53450,8 GB內存,裝載Windows Server 2008操作系統。利用新浪微博API,基于用戶好友和關注對象爬取微博后,經過去噪處理得到80 492條微博和9 264個用戶。主題模型的超參數a0、ac、ar統一設為50/Z,0b、cb、rb統一設為0.005,Ou、ur均設定為0.5。

2.2 社區主題

設微博數據集的主題數量|Z|為60,社區數量|C|為20,基于同一社區內各用戶主題和詞匯獲得社區的主題-詞匯分布。選擇其中5個社區及與其相關度最高的前10個詞匯,每個社區下詞匯出現的概率列在該詞匯右邊,如表1所示,表中可明顯發現,同一社區的詞匯具有顯著的語義相似性,不同社區的詞匯含義相差顯著,如社區1的詞匯主要表達科技和體育主題,社區2主要表達社會和工作主題,社區3主要表達購物、飲食主題,社區4主要表達生活、娛樂等主題,社區5主要表達工作、學習等。

表1 5個社區及與其相關度最高的10個詞匯

2.3 實驗結果和分析

本文提出的時空主題模型(CS-TM)與DCTM[1]和LDA[2]進行比較,其中,DCTM與CS-TM的社區確定方式相同;基于LDA的社區發現是通過主題分布進行k-means聚類。每個聚類簇即為社區。

本文利用社區內外鏈接比[5]反映社區-內用戶交互程度,采用社區內用戶間主題分布的KL距離(kullback-leibler)來衡量社區用戶主題的相似性。社區內外鏈接比為:

式中,Ic為社區c內用戶間的鏈接數量,鏈接數量通過用戶的好友、關注和跟帖數量獲?。籓c為社區c內用戶與社區c外用戶的鏈接數量。f(c)越大,表明社區內用戶較社區外用戶的聯系越密切;反之,表明社區內用戶的聯系并不緊密。圖2顯示了3種方法在不同社區數量情況下的平均社區內外鏈接比。隨著社區數量的增加,各模型獲取的平均社區內外鏈接比上升,社區涉及的微博內容范圍逐漸縮小,用戶間的聯系頻率提高。

圖2 3種方法的社區內外鏈接比

然而,在社區數量為5~35時,3種方法的平均社區內外鏈接比類似,但DCTM稍低;在社區數量超過35后,CS-TM的平均社區鏈接度較LDA和DCTM都要低。這表明本文方法獲取的社區內用戶的聯系程度不如LDA方法和DCTM方法所獲取的緊密。分析發現,CS-TM所獲取的社區中包含的主題分布聚焦性強,即社區中的用戶所發微博大都集中在若干特定主題,相對而言,LDA和DCTM劃分出的社區,微博涉及的主題類型比較分散。這反映了主題聚焦的用戶間,總體上相互交流較少;反之,一個人所發微博的主題類型越多,其對外交流越頻繁。在社區數量超過40后,各方法得到的平均社區內外鏈接比趨于穩定。以上實驗體現了微博中專業人員(或興趣極少的用戶)之間的交流不夠緊密,而具有大眾性和社會性主題的微博在用戶間傳播廣泛。本文方法能發現那些興趣類型少但興趣類似的用戶,如果應用于“用戶推薦”,則能精準提高這一類用戶之間的交流程度。

KL距離用以衡量相同事件空間里的兩個概率分布的差異情況。KL距離越小,表明社區內用戶主題相似度越高,反之,社區內用戶的興趣差異越大,則社區形成的可能性越低。由于,KL距離不具有對稱性,因此基于KL距離的對稱平滑版本——Jensen-Shannon(JS)距離表達社區c內用戶間的平均KL距離:

式中,u為用戶,每個用戶的主題由其所發微博主題表示;|c|表示社區c內的用戶數量。3種方法得到的平均社區KL距離如圖3所示。隨著社區數量的增加,社區內用戶興趣相似性逐漸增強,3種方法的社區平均KL距離逐漸降低,但同樣由于CS-TM引入的時空信息增強了微博主題獲取的正確性,提高了社區內主題相似程度。LDA中,每個用戶僅屬于同一個社區,但由于LDA對微博主題獲取準確率較低,類似語義的詞匯被劃分到不同主題中,造成處于同一社區的主題較為分散,同一社區內的用戶主題差異性較大。DCTM對微博主題的識別能力較LDA要高。因此,其構建的社區中,用戶間的主題較LDA更為相似。隨著社區數量的增加,3種方法得到的社區平均KL距離的區域平穩。

圖3 3種方法的社區內平均KL距離

可見,由CS-TM模型生成的社區,其內部用戶主題相似性高,社區間區分度良好。

3 結 語

本文將地理區域、社區和連續時態要素引入主題模型,綜合考慮了用戶對社區及潛在地理區域的偏好,利用Dirichlet process mixture model自適應劃分潛在地理區域,彌補了以往方法中單個潛在地理區域范圍過大和主題分散的不足;同時,揭示了社區與具有特定社會功能地理區域間的互動關系。最終通過實驗驗證了該方法對社區發現的有效性。今后將引入用戶間的鏈接信息,進一步提高微博主題提取和微博社區發現的性能。

[1] WENG Jian-shu, LIM E P, JIANG Jing, et al. Tw itter rank:finding topic-sensitive in fluential tw itterers[C]//Proc of the 3rd ACM International Conference on Web Search and Data M ining. New York: ACM, 2010.

[2] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(1): 993-1022.

[3] 閆光輝, 舒昕, 馬志程, 等. 基于主題和鏈接分析的微博社區發現算法[J]. 計算機應用研究, 2013, 30(7): 1953-1957.

YAN Guang-hui, SHU Xin, MA Zhi-cheng, et al.Community discovery for microblog based on topic and link analysis[J]. Application Research of Computers, 2013, 30(7):1953-1957.

[4] YIN Zhi-jun, CAO Liang-liang, GU Quan-quan, et al.Latent community topic analysis: integration of community discovery w ith topic modeling[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 63-84.

[5] LI Dai-feng, DING Ying, SHUAI Xin, et al. Adding community and dynamic to topic models[J]. Journal of Informetrics, 2012, 6(2): 237-253.

[6] YIN Zhi-jun, CAO Liang-liang, HAN Jia-wei, et al.Geographical topic discovery and comparison[C]//The 20th international conference on World Wide Web(WWW). New York, USA: [s.n.], 2011.

[7] EISENSTEIN J, O’Connor B, SM ITH N A, et al. A latent variable model for geographic lexical variation[C]//The 20th Conference on Empirical Methods in Natural Language Processing. M IT, Massachusetts, USA: Association for Computational Linguistics, 2010.

[8] SIZOV S. GeoFolk. Latent spatial semantics in web 2.0 social media[C]//The 3rd International Conference on Web Search and Data M ining(WSDM). New York, USA: ACM,2010.

[9] MEI Qiao-zhu, Liu Chao, SU Hang. A probabilistic approach to spatiotemporal theme pattern m ining on weblogs[C]//The 15th international conference on World Wide Web(WWW). Edinburgh, Scotland: ACM, 2006.

[10] GRIFFITHS T L, STEYVERS M. Finding scientific topics[C]//Proceedings of the National Academy of Sciences (NAS), USA: [s.n.], 2004.

[11] BLEI D M, GRIFFITHS T L, JORDAN M I. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies[J]. Journal of the ACM, 2010,57(2): 111-142.

[12] EISENSTEIN J, AHMED A, XING E P. Sparse additive generative models of text[C]//The 28th International Conference on Machine Learning(ICML). New York, USA:ACM, 2011.

編 輯 葉 芳

猜你喜歡
詞匯區域用戶
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 久久久受www免费人成| 国产精品尹人在线观看| 欧美亚洲国产一区| 亚洲第一成年网| 91精品啪在线观看国产| 午夜福利亚洲精品| 亚洲男人的天堂久久香蕉网| 日韩免费毛片视频| 久久免费视频6| 婷五月综合| 亚洲天堂2014| 久久永久视频| 日本影院一区| 永久免费无码成人网站| 老熟妇喷水一区二区三区| 亚洲天堂777| 亚洲无码日韩一区| 日本色综合网| 亚洲天堂区| 国产精品一区不卡| 在线看片免费人成视久网下载| 97在线免费| 日本少妇又色又爽又高潮| 国产欧美日韩视频怡春院| 欧美特黄一级大黄录像| 欧美成人精品高清在线下载| 亚洲成人在线网| 亚洲 欧美 日韩综合一区| 国产亚洲高清视频| 亚洲国产精品无码久久一线| 欧美成人精品高清在线下载| 久久久91人妻无码精品蜜桃HD | 日韩在线影院| 激情国产精品一区| 野花国产精品入口| 精品夜恋影院亚洲欧洲| 免费国产好深啊好涨好硬视频| 亚洲成年人网| 一区二区三区国产精品视频| 美女无遮挡免费网站| 天堂在线视频精品| 亚洲国产在一区二区三区| 青青青国产视频| 久久久久久国产精品mv| 无码一区中文字幕| 久久99蜜桃精品久久久久小说| 91视频精品| 中文字幕免费播放| 自慰网址在线观看| 国产精品区视频中文字幕| 亚洲精品午夜天堂网页| 久久夜色精品国产嚕嚕亚洲av| 国产无套粉嫩白浆| 国产在线无码av完整版在线观看| 91麻豆国产在线| 波多野结衣无码视频在线观看| 亚洲国产精品不卡在线| 91年精品国产福利线观看久久| 日本一区高清| 最新国产麻豆aⅴ精品无| 国产精品入口麻豆| 国产精品久久久久久久伊一| 香蕉网久久| 亚洲国产无码有码| 视频一本大道香蕉久在线播放 | 在线观看的黄网| 日本成人精品视频| 伊人久热这里只有精品视频99| 国产成人亚洲欧美激情| 亚洲日本中文字幕乱码中文 | 91福利免费视频| 国产网站在线看| 91福利一区二区三区| 人妻免费无码不卡视频| 国产剧情无码视频在线观看| 国产欧美日韩在线在线不卡视频| 乱人伦中文视频在线观看免费| 国产亚洲精品无码专| 人妻精品久久久无码区色视| 一级一级一片免费| 国产va欧美va在线观看| 九九九国产|