王淼 劉家委 朱鑫奕 劉樹林 余愛玲
摘要:互聯網用戶發表觀點具有傳播能力強、范圍廣的特點,對其他社交用戶的影響極大,研究用戶的社會影響力意義重大,已成為當前輿情研究的熱點。通過用戶畫像和文本情感分析的方法,從不同維度對社會影響力進行細致梳理,揭示了研究社會影響力的不同方法,并總結了各類方法的特點與發展趨勢,最后給出研究社會影響力的相關啟示。
關鍵詞:用戶畫像;文本情感分析;社會影響力;輿情
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2020)25-0071-02
網絡通信平臺是當前人們獲取信息的主要方式,通過微博、微信等社交平臺人們不僅獲取訊息而且可以發表自己的觀點,這些平臺使用門檻低,傳播能力強且范圍廣,每天會有百萬以上的評論產生,通過這些媒體平臺發表言論,可能對相關事件造成一定影響。當公共事件發生時,往往伴隨著聲音出現在評論中,有利有弊,當某一個評論流量達到足以改變公共事件發展方向時,輿情便從中產生。而當今社交平臺又是影響政務、商業、信息的平臺,每一次的輿情控制都是對相關政務機構、商業機構、信息機構的寶貴財富。
1文本情感分析與社會影響力
1.1文本情感分析概述
文本情感分析作為自然語言處理的重要分支,是統計學、人工智能、語言學等領域的深度交叉融合。文本情感分析是利用計算機技術對文本進行主客觀分類與意見挖掘的理論與方法,以分類、判斷文本的情感傾向性為主要目的。文本情感分析首先需要對源文本進行分類處理,分類處理的對象是主觀性文本與客觀性文本[1],目的是抽取出主觀性文本進行下一步情感分析工作。在得出主觀性文本后,需要對其進行情感極性分析和情感極性強度分析。
廣義文本情感分析,被稱為意見挖掘、情感分析等 [1],主要對文本中表現出的態度、情感、傾向等主觀性內容進行辨別、分類、標注、分析等處理,從而生成新的情感總結和傾向性分析。廣義文本情感分析將情感分為多種不同元素,包括個人的情緒狀態、心理思想和主觀傾向性等,通過提取自然語言文本中的情感元素來挖掘文本中的主觀傾向、立場、態度等。
狹義文本情感分析則與之相反,將情感傾向性分為正面、反面或中性,主要對文本情感進行分類、對情緒與傾向性進行分析。當前,對狹義文本情感分析的主要研究方法主要有基于深度學習的方法、基于語義情感規則的分類方法,以及融合的分類方法。
1.2文本情感分析方法
文本情感分析可以分為詞語、句子和篇章三個層面的分析[2]。其中,情感分析的基礎是詞語,詞語的情感分析可以依賴情感詞抽取、建立語料庫和情感詞典等方法來實現。句子的情感分析是在詞語的基礎上,直接得出文本中某一整句的情感分析結果,是詞語情感分析的綜合,也將直接決定篇章級別情感分析的好壞。篇章級別的情感分析是文本情感分析中的重難點,受多種分析因素的綜合影響,分析結果難以穩定在理想范圍。
文本情感分析應用的方法[3],主要有機器學習和詞典兩種方法。基于機器學習的方法以監督學習的方法為主,主要有決策樹分類器、線性分類器、規則分類器和概率分類器。其中,線性分類器包括支持向量機與神經網絡,概率分類器包括樸素貝葉斯、貝葉斯網絡和最大熵。基于詞典的方法分為基于字典方法和基于語料庫方法。其中,字典方法即構建情感詞典,基于語料庫方法包括統計方法和語義方法。
當前,文本情感分析工作更多使用機器學習算法去完成。同時,融合的方法成為未來發展的趨勢和突破方向,算法的融合、字典與機器學習算法的混合使用等往往比單一處理方法更加高效。
1.3文本情感分析與社會影響力的應用實例
社會影響力是用戶或商家在互聯網中發表觀點、評論和文章所帶來的輿情影響,社會影響力分析對輿情監控、虛假評論、情感傾向性判斷等工作具有重要參考價值。目前,國內外學者已經成功將文本情感分析廣泛應用于各類與社會影響力相關的場景中。
羅昌銀等基于用戶狀態和行為,利用機器學習算法應用于虛假評論識別[4]。具體提出一種虛假評論方法,結合PU學習算法完成識別工作,并運用SVM分類器和邏輯回歸模型完成主觀分類和情感分析。此方法能夠成功識別虛假評論,但沒有具體呈現出虛假評論與正常評論兩者之間的異同。張凌等基于特征分析與機器學習方法具體分析負面微博特征[5],同時提出負面微博識別的不同思路。首先分析了負面微博的具體特征,并通過正面微博運用機器學習方法對識別工作進行驗證。此研究在負面微博識別中,將不同主題的負面微博分類,以負面詞為研究核心,為微博情感分析提供了新思路。但實驗中微博樣本數量不足,同時對句子與篇章級別的負面微博識別研究較少。
崔彥琛等基于情感分析具體研究了消防突發事件網絡輿情情感詞典構建工作[6]。此研究基于情感分析中的詞典方法,分析情感詞典構建工作之后,綜合了消防情感詞典、網絡用語詞典和通用詞典三種詞典,構建了新的消防輿情情感詞典。構建的消防輿情情感詞典可以準確、高效地應用于突發消防事件的輿情監控,是情感分析應用于輿情和社會影響力的成功案例之一。伍靜等提出一種結合文本情感的微博僵尸粉識別模型[7],首先定義了微博用戶的11個特征,然后對微博文本進行情感分析,最后對實驗模型進行評價。此模型實現過程完成了對微博僵尸粉識別工作,但不能完成對僵尸粉和不活躍用戶的區分。
2用戶畫像與社會影響力
2.1用戶畫像分析概述
用戶畫像,作為一種刻畫目標用戶、聯系用戶,和發現用戶的意向趨勢的需求工具,用戶畫像在各領域行業與領域得到了廣泛的應用。宋美琦,陳燁,張瑞認為在單個用戶畫像和群體用戶畫像的分類的基礎上用戶畫像的內涵有三個要素:用戶屬性、用戶特征,用戶標簽具有標簽化、時效性、動態性三個屬性,針對用戶社會影響力用戶畫像的構建需要根據具體的場景來進一步細化才能產生精準的使用價值[8]。
2.2用戶畫像分類
不同的用戶需求則需要這需要不同的用戶畫像構建方法。劉海鷗,孫晶晶,蘇妍嫄,張亞明提出了4種模型與方法:基于用戶行為的畫像方法、基于用戶興趣偏好的畫像方法、基于主題的畫像方法、基于人格特性與用戶情緒的畫像方法[9]。
基于用戶行為的畫像方法,本類數據大多都是動態的,用戶在社交平臺上或是現實中會留下自己的一些行為痕跡,這些行為痕跡數據的實效性較短,所以針對動態收集的時間間隔要求較高,且通常常見的有效數據有用戶瀏覽記錄,用戶日志記錄,購買記錄。從此類數據中可以提取出一些有效標簽例如:周期行為規律,行為動態速度,變化過程等。此類數據產生價值對數據采集與數據分析的速度要較高。
基于用戶興趣偏好的畫像方法,此類數據部分是動態的,用戶的興趣愛好可能會持續很長一段時間,目前用戶畫像普遍是運用這類方法來提供推薦或是意向分析,同時根據直接的興趣愛好數據通過主觀分析計算,可以獲取一些潛在的用戶興趣偏好。但當用戶的興趣較少時,提供價值的精度則會變低,并且挖掘此類數據,會從情感分析入手,所以難度的偏向性也比較大。若需要提供有效的價值需要較復雜的數據采集和數據分析手段。
基于主題的畫像方法,此類用戶畫像主要針對的是群體用戶,用戶多,特征廣是他的主要特點,若主題單一數據來源比較單一,有降低收集、分析的要求的特點,但是主題與主題之間的無關聯,很容易導致此類數據無價值。
基于人格特性與用戶情緒的畫像方法,此類數據具有很大的主觀性,一般通過用戶的問卷調查,當面訪問獲得數據,可以通過人格、性格、情緒、行為分類來預測出用戶的情感偏向。并且目前的網絡環境,用戶的情緒比現實中的情緒更加豐富,所以獲得此類數據的來源很多,但是由于此類數據的主觀性很強,通過欺騙等手段,獲取數據的正確性會下降。所以導致數據的不真實性很大,從而導致用戶畫像刻畫不清晰。
2.3用戶畫像構建流程分析
高廣尚論述了三個主要步驟:收集用戶數據,研究用戶信息,細分標簽[10]。同時他也根據不同的用戶需求總結了6種不同的構建方法:基于設計與思維,基于本體或概念,基于主題和話題,基于興趣或偏好,基于行為與日志,基于多維或融合。社會輿情本是一個復雜的且雜質信息比較多的環境,所以在社會影響力分析時可以針對不同的平臺環境來改變用戶畫像的構建方法或是多個用戶畫像構建方法同時使用。
用戶畫像的構建分為靜態和動態,靜態用戶畫像刻畫后不會改變,對于目前大多數用戶畫像的使用環境來說,用戶的信息以及環境是會隨著時間改變的,靜態的構建方法有局限性,所以動態的用戶畫像構建更為適用,所以大多數特定的用戶畫像需要一定時間間隔定時的去更新標簽。
3結束語
針對用戶在社交平臺的影響力分析,國內外均缺乏針對性的研究,目前研究大多將研究重點放在信息本身的傳播過程,研究輿情的傳播過程而非研究社交平臺的用戶影響力對信息傳播的影響力。而目前的用戶畫像算法大多也著重于將用戶畫像用于推薦算法當中,缺少將其用于信息傳播判斷當中。在傳統的針對網絡社交平臺用戶畫像的研究當中,常用基于用戶行為的畫像用于研究用戶的在社交網絡的行為,從而分析用戶在社交平臺當中的行為,進而判斷用戶的社會影響力。而在有關文本分析的研究中,文本分析常用于文本情感研究,用于研究用戶的對事件的情感傾向,或者用于對文本內容進行分類研究,而對研究用戶發表的文本對社會的影響力方向,還缺乏實際應用研究與應用場景。
后續研究可以結合用戶畫像與文本分析,將用戶特征與文本信息進行關聯,研究某一類的用戶在當前環境下,其表達的內容具有怎樣的社會影響力。
參考文獻:
[1] 楊立公,朱儉,湯世平.文本情感分析綜述[J].計算機應用,2013,33(6):1574-1578,1607.
[2] 楊開漠,吳明芬,陳濤.廣義文本情感分析綜述[J].計算機應用,2019,39(S2):6-14.
[3] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12):3321-3323.
[4] 譚熒,張進,夏立新.社交媒體情境下的情感分析研究綜述[J].數據分析與知識發現,2020,4(1):1-11.
[5] 羅昌銀,但唐朋,李艷紅,等.基于虛假評論識別的微博評論情感分析的研究與應用[J].計算機應用與軟件,2019,36(4):55-62.
[6] 張凌,譚毅,朱禮軍,等.負面微博特征分析研究[J].情報理論與實踐,2019,42(7):132-137,170.
[7] 崔彥琛,張鵬,蘭月新,等.消防突發事件網絡輿情情感詞典構建研究[J].情報雜志,2018,37(10):154-160.
[8] 宋美琦,陳燁,張瑞.用戶畫像研究述評[J].情報科學,2019,37(4):171-177.
[9] 劉海鷗,孫晶晶,蘇妍嫄,等.國內外用戶畫像研究綜述[J].情報理論與實踐,2018,41(11):155-160.
[10]高廣尚. 用戶畫像構建方法研究綜述[J].現代圖書情報技術,2019(3):25-35.
【通聯編輯:梁書】