武慶圓,馮佳純,羅茂權,何凌南
1.北京師范大學珠海分校管理學院,廣東珠海519087
2.中山大學數據科學與計算機學院,廣州510006
3.中山大學傳播與設計學院,廣州510006
用戶級情感預測主題模型的構建與研究
武慶圓1,馮佳純2,羅茂權2,何凌南3
1.北京師范大學珠海分校管理學院,廣東珠海519087
2.中山大學數據科學與計算機學院,廣州510006
3.中山大學傳播與設計學院,廣州510006
隨著Web 2.0技術的發展和移動通信設備的普及,互聯網上產生了大量音頻、圖像[1]、用戶對產品發表的評論[2],以及關于某些新聞事件表達的個人觀點和情感偏向[3-4],例如閱讀者對熱點新聞文章發出的情感投票[5]。這些情感投票信息反映了大眾對于該新聞事件的集體情緒反應,具有很大的參考價值[6-7]。由于新聞文章所屬的類別廣,同義詞和多義詞較多,因而采用傳統基于情感詞典的方法[8]具有一定的局限性。主題模型將文檔的處理從詞的層面轉換為隱含語義——主題的層面,使其對文本的特征提取與人類對文字理解的方式更加近似。此外,主題模型能夠將文檔從“文檔-詞匯”的高維空間映射到“文檔-主題、主題-詞匯”的低維空間,這有效地提高了文本信息處理的能力[5]。例如,LDA[9]主題模型于2003年被提出,至今已經被廣泛應用于文本挖掘領域。LDA模型假設一篇文檔首先是由多個主題組成,然后根據每個主題下的多個重要詞匯被組織生成,在這里主題是隱含變量,是不能夠被直接觀察得到的,而每篇文檔以及文檔下的詞匯是顯示變量,能夠直接被觀察到。通常來說,主題代表了文章的隱含語義,多個詞語可以映射到同一個主題,一個詞語也可以屬于不同的主題,這就很好地解決了多詞一義和一詞多義的問題。主題模型在情感預測分類中的任務就是對訓練文檔集中的主題進行學習,然后根據用戶對該文檔的情感投票推測不同的情感類別在各個主題下的概率分布,根據學習推測的結果來預測測試文檔集中各個文檔的情感分布,并且進行預測。
然而,同一篇文檔的讀者情緒會與該用戶的特征息息相關。近年來,用戶特征在文本挖掘中的價值受到越來越多的關注。例如,在微博情感分類的相關研究中,加入用戶的信用值就被證明對情感分類效果有顯著的提升[10];考慮了用戶特征隨時間而變化的推薦模型在社交網絡推薦好友的任務中比傳統算法有更好的表現[11];而對于新聞類文本,有些文本主題的用戶依賴程度比較低,如地震、洪水等類別,有些主題的用戶依賴性很強,如足球比賽、電子競技等類別,特征不同的用戶情感反饋有很大差異,甚至完全相反。
基于以上分析,本文提出兩種基于用戶特征的情感預測模型,并通過真實新聞數據集進行實證分析。實驗結果發現,通過將用戶特征用于約束文本主題及情感標簽的生成,能夠更為全面精準地檢測在線新聞文本引發的用戶情感反饋。
目前,情感預測方法主要分為兩個層面:詞層面和主題層面。在早期研究中,對于文本的情感挖掘方式主要在詞的層面,文本的表示方式是使用空間向量模型,即文章的組織方式為“文檔-詞語”結構,其具有簡單、易操作的優點[12]。但是,在詞向量空間模型下,無法較好地解決一詞多義或者多詞一義的問題。為此,研究人員對于文檔的組織方式有了新的認識,從一開始簡單的“文檔-詞語”方式變為“文檔-語義-詞匯”的方式[5]。
近年來,基于主題模型的情感預測分類模型被相繼提出,其中主要包括Emotion-Topic Model(ETM)[13-14]、Emotional LDA(ELDA)[15]、Multi-label Supervised Topic Model(MSTM)和Sentiment Latent Topic Model(SLTM)[12]等。ETM是一種對文檔潛在語義主題和情感投票進行聯合建模的模型。通過Gibbs抽樣算法,ETM能夠估計給定情感e,出現主題z的條件概率p(z|e)。ELDA模型首先通過LDA生成文檔的潛在語義主題,然后采用極大似然估計等方法計算給定主題z,出現情感e的條件概率p(e|z),從另一個角度對主題與用戶情感進行了關聯。MSTM和SLTM模型同樣能夠估計給定主題z,出現情感e的條件概率p(e|z)。與ELDA的兩個獨立步驟不同,MSTM和SLTM是把每一個情感投票排成序列,通過一次傳統的對主題、詞的Gibbs采樣后,再對主題、情感序列進行第二次Gibbs采樣,生成與情感直接相關的潛在主題及事件,提高準確度。上述模型都能夠達到較好的情感預測效果。然而,以上模型都沒有考慮到用戶自身特征對文檔情感投票的影響。往往同一篇文檔的讀者情緒會跟用戶特征有關,比如,同一場球賽的結果會引發比賽球隊雙方支持者的不同情緒反饋,不同用戶對相同文本的情緒反饋會有所差異。因此,如何構建用戶特征、文本以及情感分布的聯合模型,受到越來越多的研究關注[16]。
在這一部分,詳細描述兩種基于用戶特征的三層主題模型的具體結構,以及相關參數的估計方法。在本文研究中,用戶特征是指能夠用來描述并區分不同用戶的各種屬性,包括用戶的昵稱、年齡、性別、所屬地區、IP地址、職業、社會收入等。對于不同類型的數據集,用戶特征的范疇也有所區別。例如,新浪微博主要收集昵稱、注冊地域和性別等用戶特征;新聞門戶網站則主要記錄用戶的IP地址。
用戶級多標簽有監督主題模型(User-level Multilabel Supervised Topic Model,UMSTM)是一個結合了用戶特征、文本詞匯、情感投票的聯合模型。其中,文本詞匯為組成每篇文檔的詞語,是一種表達文本主題的重要特征;情感投票為用戶在閱讀某篇文本之后根據自身情感反饋進行的投票,其反映了個人對文本蘊含信息的情緒或觀點。
對于UMSTM,訓練文檔的主題分布首先由詞匯決定,根據Gibbs采樣得到的文檔-主題概率分布。采樣得到的文檔-主題、主題-詞匯分布,作為約束條件參與文檔的主題-情感概率分布的生成,以及主題-用戶特征概率分布的生成。根據訓練文檔學習得到的這三個概率分布,在預測測試文檔的時候,首先對測試文檔的詞匯以及用戶特征進行采樣,得到屬于該測試文檔的文檔-主題、主題-詞匯、主題-用戶特征概率分布,最后基于訓練文檔的主題-情感概率分布預測該測試文檔的情感概率分布。
在UMSTM模型下,一篇文檔的生成過程如下:首先,根據超參數β、γ和η的蒂利克雷分布采樣得到每個主題的詞匯概率分布φz、情感概率分布δz和用戶特征概率分布ψz,即φz~Dir(β)、δz~Dir(γ),以及ψz~Dir(η);其次,根據主題的詞匯概率分布抽取當前文檔的單詞。具體步驟為:第一、根據超參數α的蒂利克雷分布采樣得到文檔d的主題分布θd。第二、根據θd抽取主題zdn,作為當前單詞的主題。第三、根據zdn的詞匯概率分布φz采樣單詞wdn;再次,根據主題的情感概率分布抽取情感投票實例。具體步驟為:第一、根據θd抽取主題zdm,作為當前情感投票的主題。第二、根據zdm的情感概率分布δz采樣情感投票實例edm;最后,根據主題的用戶特征概率分布抽取用戶特征類別。具體步驟為:第一、根據θd抽取主題zdi,作為當前用戶特征的主題。第二、根據zdi的用戶特征概率分布ψz采樣用戶特征udi。UMSTM的模型結構如圖1所示。

圖1 UMSTM模型結構
從以上模型結構可以看出,先驗分布θd首先被用來生成文檔的詞匯,其次是用戶情感類別,最后是用戶特征。這表明,不同的用戶因為自身不同的用戶信息會針對不同的主題反饋不一樣的情感。通過上述方式將主題-情感-用戶特征三種不同的信息結合在一起,借助用戶特征以進一步提高最后預測的效果。
基于用戶特征的情感隱主題模型(User-based Sentiment Latent Topic Model,USLTM)是本文提出的另一種方法。在USLTM模型中,訓練文檔的先驗“文檔-主題”分布是通過對文檔情感投票反饋使用Gibbs采樣方法得到的。采樣得到的“文檔-主題”、“主題-情感類別”概率分布,作為約束條件參與文檔的“主題-詞匯”概率分布,以及“主題-用戶特征”概率分布的生成。
USLTM模型的具體過程如下:首先,根據超參數γ、β和η的蒂利克雷分布采樣得到每個主題的情感概率分布δz、詞匯概率分布φz和用戶特征概率分布ψz,即δz~Dir(γ)、φz~Dir(β),以及ψz~Dir(η);其次,根據主題的情感概率分布抽取情感投票實例。具體步驟為:第一、根據超參數α的蒂利克雷分布采樣得到文檔d的主題分布θd。第二、根據θd抽取主題zdm,作為當前情感投票的主題。第三、根據zdm的情感概率分布δz采樣情感投票實例edm;再次,根據主題的詞匯概率分布抽取當前文檔的單詞。具體步驟為:第一、根據θd抽取主題zdn,作為當前單詞的主題。第二、根據zdn的詞匯概率分布φz采樣單詞wdn;最后,根據主題的用戶特征概率分布抽取用戶特征類別。具體步驟為:第一、根據θd抽取主題zdi,作為當前用戶特征的主題。第二、根據zdi的用戶特征概率分布ψz采樣用戶特征udi。USLTM的模型結構如圖2所示。

圖2 USLTM模型結構
從以上模型結構可以看出,根據先驗分布θd首先確定該文檔的情感類別概率分布,其次是這篇文檔的具體詞匯,最后是用戶特征。這表明,主題首先是根據情感類別的概率分布來確定的,進而根據確定的主題來確定相關詞匯以及聚集了相關的用戶特征。對于以上兩種模型,均采用Gibbs采樣進行參數估計并預測無標簽文本的情感。
為了預測一篇無標簽(測試)文檔的情感傾向,需要獲得主題相對于文檔的概率分布、詞匯相對于主題的概率分布、情感標簽相對于主題的概率分布,以及用戶特征相對于主題的概率分布。其中,詞匯、情感標簽、用戶特征均為顯示變量,能夠直接觀察得到其分布,但是主題是隱性變量,不能被直接觀察得到,因此通過Gibbs采樣方法,對顯示變量依次采樣,達到逐步收斂逼近原始的條件概率分布的效果。具體如下:
(1)對詞匯-主題條件概率分布的采樣。對于每個單詞,先隨機分配到某一主題下,然后根據Gibbs采樣公式不斷對每一個單詞重新計算其屬于每個主題的概率,并將單詞更新到采樣概率最大的主題下,這一步將一直迭代直到最后整個詞匯庫的主題分配趨于平穩。上述詞匯-主題的Gibbs采樣公式借助已有的變分推導而成。其形式可概括為:對于給定其余參數條件下,一個單詞屬于某一特定主題的概率正比于當前文檔屬于該主題的單詞頻數,乘以該主題下當前單詞頻數與所有單詞頻數的占比。以上為模型第一層參數的求解過程。
(2)對情感標簽-主題條件概率分布以及用戶特征-主題條件概率分布的采樣,其采樣迭代步驟與上述步驟相同,但是基于變分推導,以及本文提出模型的性質,Gibbs采樣公式的形式與意義有了變化。在給定其他參數下,一個情感標簽或用戶特征屬于某一特定主題的概率正比于情感標簽或用戶特征所屬文檔出現該主題的概率,乘以該主題下當前情感標簽或用戶特征頻數與所有頻數的占比。
(3)對測試文檔的情感預測。其預測方法的形式可以表達為,一篇測試文檔屬于某一情感標簽的條件概率等于該篇文檔的所有主題屬于這一情感標簽的條件概率總和。對所有情感標簽使用該預測公式,最后再歸一化,即可得到該篇測試文檔的情感標簽概率分布。
本章詳細展示實驗設置,進而分析主題個數對文檔情感預測的影響。
本文實驗選取大粵網(http://gd.qq.com/)新聞數據集,內含222篇長篇新聞報道,其發布時間的跨度為2013年9月9日至2014年1月24日。此外,該數據集詳細收集了用戶的情感投票信息以及投票用戶的地區特征。其中,情感種類由大粵網設置,分別為憤怒、鄙視、厭惡、恐懼、悲傷、驚訝、高興和平靜。本數據集搜集了網民閱讀的222篇長篇新聞報道之后,在大粵網設置的上述8種情感類別上的投票次數。考慮到新聞的篇數較少,將222篇數據集訓練得到模型參數用于預測相同文本的情感投票擬合度。由于新聞網站對用戶隱私的保護程度較高,大粵網主要記錄了進行情感投票的用戶的IP地址,因此本次實驗選取的用戶特征為用戶IP地址的地域特征,用該地區的電話區號表示。在數據集的預處理和清洗方面,采用哈爾濱工業大學社會計算與信息檢索研究中心研制的Language Technology Platform(LTP)開源語言技術平臺[17]進行分詞。
在本次實驗中,由于本文主要研究的是用戶特征對情感預測準確率的提高效果。因此,對比算法選擇的是SLTM模型和MSTM模型[11],旨在對比突出用戶特征對情感預測的影響與效果。
4.3.1 最高情感命中率
當完成測試文檔的情感類別概率的預測之后,將預測概率最高的情感類別作為本篇文檔的情感類別。給定命中范圍t(t∈{1,2,…,E}),對于測試文檔,將其真實情感概率分布按照從高到低的順序排序,取前t個情感類別,如果預測的最高概率情感類別在這t個情感類別內,則正確個數加1。最高情感命中率的數值越高,則預測效果越好。
4.3.2 相關系數
根據預測公式得到測試文檔的情感類別概率分布之后,求預測概率分布與其真實情感概率分布的相關系數。相關系數數值越高,則預測效果越好。具體包括兩種方式:第一種方法是在情感類別εe下,對所有文檔的預測概率和真實概率之間求相關系數,最后取平均值,得到平均情感類別預測相關系數。第二種方法是對測試文檔預測的情感類別概率分布和其真實情感概率分布之間求相關系數,最后取平均,這種方法測量的是對文檔的情感類別概率分布預測的準確度。
4.4.1 最高情感命中率隨主題數變化分析
圖3~圖6分別展示在命中范圍t為1~4的情況下,最高情感命中率隨主題數目的變化。對于MSTM模型,命中率隨主題數變化波動不大,因此MSTM模型的穩定性很高。基于MSTM模型,UMSTM的命中率變化范圍也很小,波動不大,但是有所提高。相較于MSTM,當命中范圍為1時,UMSTM的命中率比MSTM的平均高出1.10%。當命中范圍為2時,UMSTM的命中率比MSTM的平均高出1.60%。

圖3 命中范圍t=1

圖4 命中范圍t=2

圖5 命中范圍t=3

圖6 命中范圍t=4
對于SLTM模型,由于其命中率隨主題數的變化波動較大,因此USLTM的命中率同樣是不穩定的。當命中范圍t=1時,總體效果是SLTM模型更好,最高情感命中率平均比USLTM高0.86%。但是當命中范圍t=2的時候,USLTM模型平均最高情感命中率更高,比SLTM平均高出3.72%。可見,加入用戶特征之后,USLTM模型能夠將預測結果提升到前列范圍。
4.4.2 相關系數隨主題數變化分析
不同模型的相關系數結果如圖7、圖8所示。在Corrε的衡量指標下,SLTM和USLTM模型的表現要優于MSTM和UMSTM模型,而在Corrdoc的衡量指標下,MSTM和UMSTM模型的表現更佳。這是由模型的性質決定的。在MSTM和UMSTM模型下,因為“文檔-主題”概率分布θd是通過對文檔的具體詞匯進行采樣而確定,所以在一篇文檔范圍內的預測效果會更好。

圖7 情感層面的Corrε指標相關系數值

圖8 文檔層面的Corrdoc指標相關系數值
對于MSTM模型而言,加入了用戶特征信息以后,UMSTM相對于MSTM在Corrε指標下最高可提高6.51%。在Corrdoc的衡量指標下提高的效果較穩定,最高提高了3.61%。而由于SLTM模型本身波動較大,加入用戶信息以后,USLTM的相關系數波動范圍依然很大。在Corrdoc的衡量指標下,提升效果最高達13.81%。在Corrε的衡量指標下,當主題數K≥10時,USLTM模型的相關系數數值要高于SLTM模型,最高提高了8.42%。
4.4.3 用戶特征對最高情感命中率影響分析
圖9與圖10為最高情感命中率(即t=1)的指標下,原始的SLTM模型與本文提出的USLTM模型在“恐懼”和“驚訝”兩種情感類別上的預測效果對比。結果發現,隨著主題數的變化,基于用戶特征的USLTM模型的最高命中率相對于原始的SLTM模型而言都要更高。
圖11和圖12為原始的MSTM與本文提出的UMSTM在情感標簽為“高興”、“平靜”時最高情感命中率的對比。原始的MSTM模型在“高興”這個情感類別下的表現不佳,最高也僅為5%,但是加入用戶特征的UMSTM模型的最高情感命中率均比MSTM模型要高,最高可達20.46%。而在情感標簽為“平靜”時,UMSTM模型的最高情感命中率也高于MSTM模型,最大可從0.00%提高到8.70%。

圖9 用戶特征對“恐懼”類的影響

圖10 用戶特征對“驚訝”類的影響

圖11 用戶特征對“高興”類的影響

圖12 用戶特征對“平靜”類的影響
上述四種模型在其余情感類別上的對比情況類似,由此可見加入用戶特征能夠提高模型對各個情感類別的識別精準度。
為了研究如何基于用戶的特征信息來提高情感預測的準確率,本文提出USLTM和UMSTM模型,這兩個模型通過加入用戶特征的Gibbs采樣層來精準預測文本引發的用戶情感反饋。實驗顯示,加入用戶特征信息之后的模型相較于基準模型有更高的情感預測能力,并且穩定性很高。未來將會繼續探索,充分展現出用戶特征信息對情感的挖掘與預測的價值。具體而言,通過收集新浪微博用戶的昵稱、注冊地域和性別等多維用戶特征,并基于轉發微博中的表情符號獲取用戶的情感投票信息,能夠對不同類型的用戶特征在情感檢測中的影響進行更為細致的分析。
[1] 宋靈超,黃崑.基于社會標簽的圖像情感分類標注研究[J].圖書情報工作,2016,60(21):103-112.
[2] 徐凱.基于產品特征的用戶評論情感傾向分析研究[D].合肥:合肥工業大學,2015.
[3] 陳龍,管子玉,何金紅,等.情感分類研究進展[J].計算機研究與發展,2017,54(6):1150-1170.
[4] 劉玉文,郭強,吳宣夠,等.基于TSSCM模型的新聞輿情演化識別[J].情報雜志,2017,36(2):115-121.
[5] Hu Y,Boyd-Graber J,Satinoff B,et al.Interactive topic modeling[J].Machine Learning,2014,95:423-469.
[6] 饒洋輝,李青,劉文印,等.公眾文本之情感詞典研究進展[J].中國科學:信息科學,2014,44(7):825-835.
[7] 楊玉珍.基于Web評論信息的傾向性分析關鍵技術研究[D].濟南:山東師范大學,2014.
[8] 黃熠,王娟.PSO-GP中文文本情感分類方法研究[J].計算機科學,2017,44(6A):446-450.
[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.
[10] 葉爾蘭·何扎提,李鵬.結合微博網絡特征和用戶信用的微博情感分析[J].計算機應用與軟件,2016,33(10):98-102.
[11] 孫紅濤.融合用戶文本語義和情感分析的好友推薦研究[D].重慶:重慶郵電大學,2016.
[12] Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266:90-100.
[13] Bao S,Xu S,Zhang L,et al.Mining social emotions from affective text[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(9):1658-1670.
[14] Bao S,Xu S,Zhang L,et al.Joint emotion-topic modeling for social affective text mining[C]//The Ninth IEEE International Conference on Data Mining(ICDM 2009),Miami,Florida,USA,6-9 December,2009:699-704.
[15] Rao Y,Lei J,Liu W,et al.Building emotional dictionaryforsentimentanalysisofonlinenews[J].World Wide Web,2014,17:723-742.
[16] Guerra P C,Cardie C.Sentiment analysis on evolving social streams:How self-report imbalances can help[C]//Seventh ACM International Conference on Web Search and Data Mining(WSDM 2014),New York,NY,USA,24-28 February,2014:443-452.
[17] 李正華,車萬翔,劉挺.基于XML的語言技術平臺[C]//第五屆全國青年計算語言學研討會(YWCL),武漢,中國,2010.
WU Qingyuan,FENG Jiachun,LUO Maoquan,et al.Development of user-level topic models for emotion prediction.Computer Engineering andApplications,2018,54(6):123-127.
WU Qingyuan1,FENG Jiachun2,LUO Maoquan2,HE Lingnan3
1.School of Management,Zhuhai Campus of Beijing Normal University,Zhuhai,Guangdong 519087,China
2.School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006,China
3.School of Communication and Design,Sun Yat-sen University,Guangzhou 510006,China
The emotion triggered by document topics is associated with user features.To improve the accuracy of emotion prediction by exploiting user features,a layer is added to sample user information for existing two-level topic models MSTM and SLTM.For the respectively proposed three-level topic models UMSTM and USLTM,user features,document topics,and emotions are modeled jointly.To validate the effectiveness of UMSTM and USLTM,experiments over the proposed models and baselines are conducted using metrics of accuracy and correlation coefficient.The experimental results show that UMSTM outperforms MSTM in terms of accuracy and correlation coefficient.Furthermore,USLTM achieves better performance than SLTM in both evaluation metrics.
topic model;user feature;graphic model;emotion prediction;model development
文本主題引發的情感反饋與用戶特征之間具有一定的關聯。為了充分挖掘用戶特征的價值以提高情感預測的準確度,在雙層主題模型MSTM和SLTM的基礎上,增加了對用戶特征信息的采樣層,進而提出了基于用戶特征的“用戶-主題-情感”三層主題模型UMSTM和USLTM。通過三層模型與基礎模型在最高情感命中率以及情感概率預測相關系數的對比實驗,來檢驗用戶特征對情感預測產生的效果與影響。實驗驗證了UMSTM和USLTM在以上兩種指標中,相對于MSTM和SLTM均有提高。
主題模型;用戶特征;概率圖模型;情感預測;模型構建
2017-10-19
2017-11-22
1002-8331(2018)06-0123-05
A
G202
10.3778/j.issn.1002-8331.1710-0173
廣東省軟科學研究計劃項目(No.2014A030304013)。
武慶圓(1985—),女,博士,講師,研究領域為信息分析,科學評價,E-mail:wuqingyuan@bnuz.edu.cn;馮佳純(1995—),通訊作者,女,研究領域為主題建模;羅茂權(1989—),男,碩士,研究領域為情感分析;何凌南(1981—),男,博士,講師,研究領域為網絡謠言、網民畫像、網絡社會心態。