趙臣升 吳國文 胡福玲
摘要:微博文本簡短、信息量少且語法隨意,傳統主題分類并不理想。Labeled LDA在LDA主題模型上附加類別標簽協同計算隱含主題分配量使文本分類效果有所改進,但標簽在處理隱式微博或主題頻率相近的分類上,存在一定的模糊分配。本文提出的Union Labeled LDA模型通過引入評論轉發信息豐富Label標簽,進一步提升標簽監督下的主題詞頻強度,一定程度上顯化隱式微博、優化同頻分配,采用吉布斯采樣的方法求解模型。在真實數據集上的實驗表明,Union Labeled LDA模型能更有效地對微博進行主題挖掘。
關鍵字:微博;主題挖掘;LDA;Union Labeled LDA;詞頻
中圖分類號: TP391.1 文獻標識碼: A文章編號:2095-2163(2016)01-
Abstract:Microblog is brief and short, with a little information and irregular grammar, cause traditional method of topic classification effect is not satisfying. The Labeled LDA topic model attach classification label to original LDA model to help cooperative computing the implicit topics, but still exist some vague allocate when handling microblog whose topic frequency are neck and neck. This paper proposes to use the Union Labeled LDA model with comments and retransmissions which enrich the information of labels to enhance the supervision of topic frequency strength by themselves. The experimental results on actual dataset show that the Union Labeled LDA model can effectively mining the topics of Microblog.
Keywords:Microblog; Topic Mining; LDA; Union Labeled LDA; Word Frequence
0 引言
隨著Web技術的日益完善和大數據時代的悄然來臨,微博已經成為人們思想匯聚和信息交流的重要媒介,從海量數據中挖掘出有效的主題信息,分析其內在語義關聯則正日顯其現實突出的技術主導作用。微博本身文本簡短、數據稀疏、語法隨意和網絡詞匯大量出現,這些特點給傳統文本挖掘算法帶來了挑戰[1-2]。
LDA(latent dirichlet allocation)主題模型是近年來文本挖掘領域熱門研究方向,模型具有優秀的建模能力、文本分析降維能力和良好的概率模型擴展性,挖掘出的主題能幫助人們理解大數據文本背后的語義。LDA模型假設各主題權重在Dirichlet分布上相同,因此在處理隱性主題劃分時存在部分主題強制分配的現象。Labeled LDA主題模型通過引入Label標簽,單獨對各類主題計算分布,在一定程度上克服了LDA的不足[3]。
本文在研究LDA和Labeled LDA模型的基礎上,引入微博評論與轉發數據信息,進一步豐富Labeled LDA模型的Label標簽信息。通過改善訓練階段Labeled LDA標簽對各個主題分量的影響,更準確地確定隱含主題,提升主題挖掘效率。
1 相關工作
近年來文本聚類和主題挖掘廣受關注,各類算法和模型不斷涌現。其中主題模型(topic model)是一種概率產生式模型。模型假設主題可以根據一定規則生成單詞,那么在已知文本單詞情況下便可通過概率方法反推出文本集的主題分布情況[4]。最熱門的主題模型就是LDA,其派生模型有ATM,Twitter LDA,Labeled LDA,MB LDA等[5-7]。
1.1 傳統的主題挖掘算法
傳統主題挖掘最早采用文本聚類的算法,使用矢量空間模型VSM(vector space model)將文本里的非結構化的數據映射到向量空間中的點,用聚類算法實現文本聚類求近似相同的主題。通常使用基于劃分的算法(如K-means算法)、基于層次的算法、基于密度的算法[8-9]。但這種聚類算法普遍依賴于文本之間距離的計算,在海量文本中較難定義,聚類作用在于區分類別,語義上的信息也不利于理解。
1.2 基于線性代數的主題挖掘算法
LSA(latent semantic analysis)是Deerwester等人提出的一種基于線性代數挖掘文本主題的方法[10],利用SVD(singular value decomposition)的降維方法來挖掘文檔的潛在語義結構,在低維的語義空間里進行查詢和相關性分析,打破了傳統“詞典空間”表示文本的思維模式,能很好地挖掘出隱含的相關性。研究表明,當這個語義空間的維度與人類語義理解維度相近的時候,LSA抽象轉化率最高。
1.3 基于概率模型的主題挖掘算法
Hofmann等人在研究LSA的基礎上,提出了基于最大似然法(maximun likelihood)和產生式模型(generative model)的概率模型PLSA(probabilistic latent semantic analysis) [11]。PLSA沿用了LSA的降維思想,在主題數量有限的低維語義空間里,運用EM算法對模型進行求解,EM算法復雜度小于傳統SVD的矩陣運算,在運行性能和大數據處理方面優于LSA。PLSA引入概率使得每個語義維度對應一個詞典上的概率分布,明確區分單詞不同意思和類型,解決了一詞多義問題[12]。
2 LDA模型在文本分類中應用
2.1 LDA文本生成模型
LDA的創始人Blei[13]等人發現,模型中待估參數隨著語料庫的大小呈線性增長,容易出現過度擬合(overfitting)現象,于是進一步引入了Dirichlet先驗分布以擴展文檔層的概率。
2.2 Labeled LDA文本生成模型
微博是網絡文本,部分數據已經被用戶貼上標簽,利用這些存在的標簽信息資源,能有助于更好地進行主題挖掘。D.Ramage等人提出使用受監督的主題模型Labeled LDA,通過引入標簽信息來提高主題可解釋性,學習得來的主題直接與每個標簽對應關聯,準確找出標簽密切關聯的詞匯,改變LDA模型的對稱先驗分布,解決了LDA在各個隱含主題分量上平等分配的問題[14-15]。
Labeled LDA模型假定詞的范圍是 ,文檔 是由 個詞 組成的序列, 是文檔 的第 個詞,語料 是 篇文檔集合 ,標簽信息轉換成文檔 的主題向量 ,其中 。
模型通過伯努利分布產生文檔標簽集 ,定義文檔標簽向量 ,將Dirichlet主題先驗分布超參數 降維成向量 ,依據不同的標簽信息,向量 在不同主題上的權重也不同[16]。
假設一個語料庫中共有5個類別的標簽,其中一個文檔 含有兩個類別標簽,那么 表示文檔 對應2、3主題標簽。當 、 時,文檔 中的詞分配更傾向于2、3主題標簽。如圖2所示,Labeled LDA利用向量 將類別與主題一一映射產生文本的貝葉斯網絡圖。
2.3 Labeled LDA應用于文本分類
當使用Labeled LDA推斷一篇文檔在隱含主題上的概率分布時,可以認為該文檔在某個主題上的詞分配越多,即屬于該主題對應類別的概率就越大。但是有些微博通過Labeled LDA訓練得到的概率最高主題與類別標簽對應主題并不一致,如這樣一條微博:“體檢報告已入手,一會就可以賣啦,真開心”,會被Labeled LDA分配到以醫療健康為主題的類別中。然而微博下第1、2條直接評論是:“簽了哪家公司,月薪多少”,“這么快就要簽三方了嗎”,可以很直觀地發現這兩條評論的主題是公司與招聘,由此通過評論可以更確定地認為這個主題才是這條微博真正的分類,而依據Labeled LDA模型對原微博詞分配的數量反而會有錯分主題的現象。
3 基于Labeled LDA算法改進
微博區別于一般文本的特點是可以被評論或轉發,這些評論在很大程度上和微博本身有著相同的主題。雖然在使用Labeled LDA模型對微博數據進行訓練時會出現一定的詞頻相等或非主題詞頻略高的情況,但是合理利用微博評論與轉發之間的隱含關聯信息,可以引導改進模型在監督過程中產生較為準確的主題頻率。
定義1微博與其評論之間的主題關系 稱為評論聯合相關性,聯合系數為 ;微博與其轉發微博之間的主題關系 稱為轉發聯合相關性,聯合系數為 。
微博的另一個特點是其評論是分層級的:有直接對微博本身的評論(Direct Comment),也有對評論的再評論,稱之為間接評論(Indirect Comment)。顯然,直接評論針對微博本身,所談及的內容更接近于微博本身主題,而間接評論是對直接評論的內容進行再評價,主題聯合性沒有直接評論強。
定義2一條直接評論與所有屬于它的間接評論構成一個評論組,一條微博有若干個評論組。直接評論的主題聯合系數記為 ,間接評論的主題聯合系數記為 ,且 。
轉發和評論與微博本身的主題相關性隨著時間推移有一定的衰減偏離,經常可以看到一條微博被評論多次后,評論各方會引入其他的焦點和主題。此時應適當降低其他主題的引入權重,為原主題降噪。
定義 3評論與其微博的主題相關性隨時間推移會降低,直接評論隨時間衰減系數 ,間接評論時間衰減系數 ,且 。
在Labeled LDA主題模型生成文檔的過程中,標簽信息會監督產生主題分配向量 。通過引入微博評論,假設一條微博的一條直接評論 所附帶標簽信息經過訓練后得到其在 個主題上的分配量是 ,根據定義1和3可知該直接評論分配量關系為 。若屬于這條微博的直接評論有 條,則所有直接評論產生的混合主題聯合分布向量為:
4 實驗
4.1 實驗準備
4.1.1 數據集
本實驗使用的數據來源于數據堂,該數據集提取了53241個用戶2015-5-26至2015-07-01期間在新浪微博平臺發布的123147條微博信息,其中既有顯式主題、也有隱含主題的微博及其轉發與評論。
4.1.2 數據預處理
鑒于用戶平時所發布的微博文本中含有視頻、圖片及表情等非文本內容,本文只針對微博具體內容進行主題分類與挖掘,因此將依據停用詞字典的規則,去除指示代詞、語氣助詞和停用詞等出現頻率很高卻沒有實際意義的詞匯。
4.1.3 微博文本分詞處理
文本分詞在很大程度上決定著后期主題結果最終展示。本文采用的是中科院的ICTCLAS分詞系統的C#版本。通過該分詞系統分詞后,微博文本轉換為一系列的詞語,每個詞語都有詞性標注,如名詞、動詞、形容詞、副詞等。不同詞性的詞語對主題的貢獻程度不同,其中名詞和動詞具有最高的主題辨識度,因此本文中只考慮這兩種詞性的詞語,過濾掉其他詞性的詞語。
4.1.4 實驗環境
本文實驗環境為Intel Core i7-4790K 3.6GHZ CPU、8GB內存、2TB硬盤的臺式機。操作系統為Window 7 Ultimate,實驗工具為Microsoft Visual Studio 2012。
4.2實驗結果與數據對比分析
4.2.1 主題挖掘效果
本文模型的參數設置根據文獻[17]中的方法,設置 , , ,依據多次實驗數據的比較,取 較優值表示Union Labeled LDA模型中 影響原Labeled LDA模型 參數的比例。對數據集預處理時,抽樣統計了大部分微博與其評論組主題相關與否的比例,設置評論的主題聯合系數 , ;依據評論組內的主題相關性系數和其所屬層級,采用線性平均值統計的方法分析主題隨時間和層級衰減的規律,設置主題隨時間衰減系數 , ;為了統計10次以內轉發和評論對主題相關性的影響,設置轉發微博主題隨時間波動系數 。
Union Labeled LDA模型的整體效果如圖4所示,共挖掘了37個主題,圖中只展示了其中前6個主題。通過觀察主題所屬詞匯并比對數據,這6個主題分別為韓劇,霧霾,腐敗,娛樂,生活,明星,與其對應的詞匯信息相符。證明Union Labeled LDA挖掘到的主題不僅與其對應的關鍵詞匯匹配準確率較高,互相之間的獨立性較強。
4.2.2 對比實驗
本文通過兩種方式對比LDA模型、Labeled LDA模型和Union Labeled LDA模型,其中一種是人工評價方法對實驗結果逐一分析,評價的目的是確定主題的主題單詞分類是否合理,主題之間是否相互獨立。另一種是用Perplexity指標來量化評估模型。Perplexity指標是度量概率圖模型性能的常用指標,也是主題建模界常用的衡量方法,表示預測數據時的不確定度,取值越小表示性能越好、推廣度越高、泛化能力越強。人工評價的計算得分公式如下:
5 結束語
本文主要在微博評論上下文相關性方面豐富及改善Labeled LDA的Label標簽信息對隱含主題的分類。在Labeled LDA模型基礎上,通過引入評論主題及轉發微博的主題向量,使聯合主題模型提升并加強原標簽信息產生的主題分布影響。在語料庫上的實驗表明,信息豐富的Label標簽能更有效地提高微博在隱性主題語義分類上的準確性。
未來擬開展的研究包括:轉發微博中的主題提煉與微博語義的相關性,以及雙向關注頻繁互動用戶在同一興趣主題上的相關度研究,以待更進一步提高微博主題分類的性能。由于海量微博文本信息快速更新,實現主題模型在微博環境下大規模部署和在線學習訓練,探索在分布式環境下的大數據主題分類的并行處理等也是改進方向之一。
參考文獻:
[1] KWAK H, LEE C, PARK H, et al. What is Twitter, a social network or a news media?[C]//Proceedings of the 19th international conference on World wide web. Raleigh, NC, USA:ACM, 2010: 591-600.
[2] 謝昊, 江紅. 一種面向微博主題挖掘的改進 LDA 模型[J]. 華東師范大學學報(自然科學版), 2013, (6): 93-101.
[3] RAMAGE D, DUMAIS S T, LIEBLING D J. Characterizing Microblogs with topic models[C]// Proceedings of the Fourth International Conference on Weblogs and Social Media, ICWSM 2010. Washington, DC, USA:AAAI, 2010:130-137.
[4] 唐曉波, 王洪艷. 基于潛在語義分析的微博主題挖掘模型研究[J]. 圖書情報工作, 2013, 56(24): 114-119.
[5] ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]//Proceedings of the 20th conference on Uncertainty in artificial intelligence, AUAI Press. Arlington, Virginia, United States:ACM, 2004: 487-494.
[6] ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[M]//CLOUGH P, FOLEY C, GURRIN C,et al. Advances in Information Retrieval.
Berlin Heidelberg: Springer , 2011: 338-349.
[7] 張晨逸, 孫建伶, 丁軼群. 基于 MB-LDA 模型的微博主題挖掘[J]. 計算機研究與發展, 2015, 48(10): 1795-1802.
[8] YANG Y, CARBONELL J, BROWN R, et al. Multi-strategy learning for topic detection and tracking[M]// YANG Y M,CARBONELL J,BRWON R, et al. Topic detection and tracking.New York: Springer US, 2002: 85-114.
[9] ALLAN J, LAVRENKO V, SWAN R. Explorations within topic tracking and detection[M]// ALLAN J. Topic detection and tracking. New York: Springer US, 2002: 197-224.
[10] DEERWESTER S C, DUMAIS S T, LANDAUER T K, et al. Indexing by latent semantic analysis[J]. JAsIs, 1990, 41(6): 391-407.
[11] HOFMANN T. Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. Berkeley, CA, USA:ACM 1999: 50-57.
[12] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis[J]. Machine learning, 2001, 42(1-2): 177-196.
[13] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.
[14] QUERCIA D, ASKHAM H, CROWCROFT J. TweetLDA: supervised topic classification and link prediction in Twitter[C]// Proceedings of the 4th Annual ACM Web Science Conference. Evanston, IL, USA:ACM, 2012: 247-250.
[15] RAMAGE D, HALL D, NALLAPATI R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Stroudsburg, PA, USA:ACM, 2009: 248-256.
[16] LU Y, ZHAI C. Opinion integration through semi-supervised topic modeling[C]// Proceedings of the 17th international conference on World Wide Web. Beijing, China:ACM, 2008: 121-130.
[17] STEYVERS M, GRIFFITHS T. Probabilistic topic models[J]. Handbook of latent semantic analysis, 2007, 427(7): 424-440.