歐陽純萍,陳湘龍,劉永彬
(南華大學 計算機學院,湖南 衡陽 421001)
網絡新聞因其具有及時性、全面性等特點越來越受廣大網民的關注,國內外發生的重大事件,大部分都是第一時間通過網絡新聞平臺發布,并引發了社會劇烈的反響和激烈的辯論。因此,在引導社會輿論的方面,網絡新聞平臺的大量言論發揮著難以估量的作用,為能正確引導網絡輿情的導向,在輿情監控過程中需要對某些具有較高影響力的網絡新聞評論用戶采取特別措施。
近年來用戶影響力分析受到了大量的研究者的關注,許多影響力計算的方法相繼被提出,Cha等[1]通過從用戶的轉發數、評論數、粉絲數等靜態屬性排名來分析Twitter社交網絡中的用戶影響力,但是該方法在靜態屬性選擇上面存在局限性,并且沒有考慮用戶在社交網絡中的關系。Weng等[2]根據用戶之間的粉絲聯系形成的網絡關系,通過PageRank算法計算用戶的影響力排名,該方法實現簡單、效果較好,但是僅使用粉絲作為影響力的評價指標并不是很全面。吳慧等[3]使用用戶的活躍度和用戶所發微博質量作為綜合指標得到影響力權重,并結合網絡拓撲結構計算用戶在社交網絡中的影響力,該方法雖然關注用戶所發內容的質量,但是卻沒有關注內容的情感傾向性。
在用戶影響力分析的研究中,采用靜態屬性排名的方法具有更加全面的特點,但屬性的構建在很大程度上依賴構建者的主觀意識。傳統的基于網絡拓撲結構的用戶影響力分析方法大部分是利用遍歷網絡結構去分析用戶之間的影響力,而用戶節點本身的屬性信息較少考慮。由于表征用戶影響力的因素具有多樣性,但是針對不同的用戶評價對象,有效的特征又不盡相同。因此,本文針對新聞評論網絡的特點,提取考慮表征網絡新聞評論網絡用戶影響力的4種主要因素,提出了面向新聞評論網絡用戶的四度影響力分析模型FDRank(four-degree influence rank),與國內外前沿方法TwitterRank、PageRank、Brank、MDIR和RBrank比較,本文提出的方法能夠更準確找出具有較高影響力的用戶。
從20世紀初到現在,影響力分析的研究受到了各個領域學者的研究和關注,上世紀50年代,Roshwalb等[4]發現在平時具有影響力的人,在工作、生活或政治選舉是都存在很大的優勢。之后Triplett[5]通過研究動力因素發現,當一個人受到更多的關注時,他會表現的更為突出。近年來,隨著微博、騰訊新聞、Twitter等網絡社交媒體的興起,對用戶影響力的研究也隨之增多,主要集中在以下3個方面:
(1)基于社交網絡拓撲結構的度量。主要通過節點的出入度以及度的方向來度量用戶的影響力值。度的大小表明該節點受他人的影響程度或是受歡迎程度,而度的方向則表示信息傳遞的方向,這類方法的典型代表就是Page-Rank 算法[6],之后許多研究者在PageRank算法上進行了深入研究,改進。王鵬等[7]結合PageRank算法和社交網絡用戶的行為數據和質量數據,如利用網絡中用戶發布信息的轉發率、評論率以及用戶是否認證情況等行為因素,綜合用戶自身質量與追隨者質量等,最終計算得到社交網絡中的用戶影響力。劉威等[8]借鑒PageRank算法思想,綜合考慮用戶話題信息傳播能力以及用戶與背景話題間關聯性對微博用戶影響力進行排序。單純依靠網絡結構分析來進行影響力分析的方法雖然模型簡單,計算資源耗費較低,但是忽略了節點的屬性信息以及節點之間的互動關系,這些能對用戶影響力有一定表征能力的因素。
(2)基于用戶行為的度量。通過分析在線社交用戶的行為軌跡數據(包括瀏覽/發布/轉發信息、點贊、話題評論和建立好友關系等),能夠評估用戶在社交網絡平臺上的影響力。Xiang等[9]利用社交網絡用戶之間的交互信息和話題相似性和信息交互情況,提出了一種潛在變分模型用以來評估計算用戶之間的影響強度。SAITO等[10]將用戶影響力模型轉化成一種最大似然問題,并且利用期望最大化算法進行求解。YANG等[11]基于影響力函數和信息的談論次數建立了一種線性影響力模型對用戶的影響力進行度量。魏杰明等[12]從用戶行為方式和互動規律的角度出發,系統研究了社交網絡中用戶行為和貼文特征。再采用PCA主成分分析法,將各組成因素進行相關性研究,得到最終的用戶影響力。上述方法均是從用戶本身的屬性和行為特征出發來分析其影響力,并沒有考慮用戶所發布內容的情感極性,用戶發布的新聞評論內容是否具有情感傾向對于內容的傳播有一定的影響。
(3)結合網絡拓撲結構和用戶的度量。單純從網絡結構來分析用戶的影響力,容易丟失一些用戶本身的特征,而單純從用戶特征來分析用戶的影響力,又不能充分利用用戶所處社交網絡的結構信息。因此,還有一些學者把網絡拓撲結構和用戶自身特征進行結合來度量用戶的影響力。學者們最初嘗試綜合使用網絡拓撲結構、用戶特征和用戶行為數據預測當前時刻的用戶影響力[13,14]。后續,學者們又對融合方法進行了細粒度研究。王新勝等[15]首先對用戶的自身因素和用戶傳播能力進行計算,得到用戶直接影響力。然后再計算基于用戶網絡拓撲結構的用戶間接影響力,最后綜合用戶直接影響力和間接影響力,從而分析得到用戶的最終用戶影響力。羅芳等[16]把用戶基本屬性、交互行為和微博內容3個維度因素融入PageRank算法中,基于網絡結構設計了一種多維度微博用戶影響力度量算法。上述研究成果為用戶影響力分析提供了可行的新思路,融合用戶自身特征與網絡結構分析算法可以更好地綜合評價用戶的影響力。
鑒于當前研究的可改進之處以及新聞評論數據的特點,本文提出一種融合用戶行為特征、評論內容與問題的相關性、評論的情感傾向性、網絡結構的四度新聞評論用戶影響力分析算法??紤]用戶評論內容與新聞文章的相似程度,避免不相關內容的干擾;計算評論內容的情感傾向性,通過分析數據發現當所發內容具有較強的情感極性時,更容易獲得大家的關注;分析用戶的行為(包含評論和點贊兩種),當用戶獲得越多的評論和點贊數,表明該用戶所發表的評論具有較強的說服力;分析用戶的網絡拓撲結構,表征用戶在社交網絡中與其他用戶的聯系強度,更全面地反映用戶的影響力;最后利用加權線性融合方法得到最終的新聞評論網絡的用戶影響力。
網絡新聞用戶可以通過評論發表自身的觀點,通過點贊、關注和回復他人評論與其他用戶進行互動。本文通過分析用戶自身質量、用戶網絡結構、用戶發布評論內容及評論情感值4個方面對用戶影響力進行分析,提出了四度用戶影響力分析算法,如圖1所示。

圖1 四度用戶影響力分析算法流程
用戶可以通過PC端、手機移動端等發布關于一篇新聞文章的評論,每個評論基本是由幾句話組成。當評論內容與新聞文章的相關程度低,則很有可能是一些垃圾評論,影響力較低。而評論內容與新聞內容相關程度較高的,則可能存在更大的影響力,并且通過內容相關性計算,還能夠排除一些信息量低的評論的影響。

(1)
式中:tfki表示Vk在nai中出現的次數,dfk表示文本集NA中含有Vk的文本總數。對于文本的相似度,本文利用余弦相似度來計算評論與新聞文章之間的相似,并使用其結果作為評論內容影響力CI
CI=Sim(comment,article)=

(2)
根據新聞傳播規律,通常用戶如果發表的評論不帶任何情感色彩,這類新聞文本傳播范圍很有限。所以新聞評論文本的情感極性對于文本傳播有較強的影響,而文本傳播率又是評價用戶影響力的重要指標。因此,在分析用戶影響力時有必要先分析評論內容的情感極性。本文提出一個融合多個深度學習算法的模型來計算新聞評論的3類情感傾向性,即負面、中立、正面,模型如圖2所示。首先將文本通過word2vec轉換為向量表示,然后使用BIGRU和Attention機制增強上下文語義信息并獲取初步特征,再通過CNN獲取更深層次的特征,最后通過SoftMax進行回歸最終獲得對應情感的分類概率P=(P正,P中,P負)。

圖2 基于多模型融合的情感分類模型
對最終獲得的分類概率,選取最大概率值所對應的情感,作為情感分類的最終結果,并且通過之前的研究發現,對于某一情感分類的概率值越大則證明該文本的情感傾向性越強即情感特征比較明顯,本研究采用情感分類的概率值作為情感值的結果,提出情感值的度量SI公式如下
Pi=max(P正,P中,P負)
(3)
(4)
在新聞評論用戶中,表征用戶自身質量的兩類因素包括用戶評論的回復率以及用戶評論的點贊率。因此,我們結合這兩大因素來計算新聞評論用戶的自身質量。
(1)用戶評論的回復率
首先計算用戶評論的平均回復數,即用戶每條評論的回復總數除以用戶發布評論的總數;然后再用用戶評論的平均回復數除以總的用戶數計算得到用戶評論的回復率。用戶評論的回復率表示每一位新聞評論用戶在發布評論后平均被回復的數量,對體現用戶所發布信息的傳播能力具有較好的表征作用。本文使用Reply(z)表示用戶評論的回復率,具體定義如下
(5)
式中:z表示用戶,Sum(m)表示新聞評論用戶z發布評論被回復的總數,Sum(a)表示用戶z發布評論的總數,Sum(u)表示總用戶數。
(2)用戶評論的點贊率
在計算方法上,用戶評論的點贊率與用戶評論的回復率基本相同。首先計算用戶評論的平均點贊數,即用戶發布評論獲得的總點贊數除以用戶發布評論的總數,再使用用戶評論的平均點贊數除以總用戶數。本文使用Support(z)表示用戶z所發布評論的點贊率,具體定義如下
(6)
式中:Sum(s)表示用戶z發布的所有評論獲得的總點贊數,其余符號與式(5)中的意義相同。由于用戶評論的回復率和用戶評論的點贊率對于表征用戶自身質量的權重有所區別,因此,本文使用線性回歸模型將用戶評論的回復率以及點贊率結合起來計算用戶自身質量評價值。定義如下,其中α,β分別表示兩種用戶行為所占的權重
Uquality(z)=α·Reply(z)+β·Support(z)
(7)
用戶在社交網絡中與其他用戶的聯系,也是反映用戶影響力的一個重要因素。PageRank算法是用來比較不同網頁的重要性的算法,而在社交網絡中用戶的關系模型和網頁的鏈接模型十分相似,用戶的粉絲數相當于網絡中用戶節點的入度,用戶的關注數相當于網絡中用戶節點的出度,所以可以利用PageRank算法來計算新聞評論網絡中的不同用戶之間的網絡結構影響力,算法定義如下
PI(ui)=PageRank(ui)=

(8)
式中:ui和uj分別表示兩個不同的用戶,PageRank(ui)和PageRank(uj)則表示ui和uj所對應的Rank值,N(ui)是指鏈入ui的用戶集合,Link(uj)是用戶uj所有鏈接出去的邊數量,即網絡節點出度,d=0.85表示阻尼系數。
在前述已構建的用戶評論內容影響力計算、用戶評論內容的情感極性計算、用戶自身質量評價和用戶的網絡結構影響力計算4個維度的結果基礎上,最終的四度用戶影響力分析模型定義如下
UI(z)=ω·(CI(z)+SI(z)+Uquality(z))+θ·PI(z)
(9)
式中:UI(z)表示用戶z的影響力,CI(z),SI(z),Uquality(z),PI(z)分別表示用戶z評論內容的影響力、評論的情感值、用戶自身質量以及網絡結構的影響力大小,ω,θ表示評價影響力各指標的權重。
3.1.1 實驗數據集
本文以騰訊新聞作為數據源,抓取了2019年5月至2019年6月兩個月內發布的新聞及評論作為研究數據。由于爬取到的信息過于冗余,本文過濾粉絲數少于10的用戶、點贊數少于10的用戶,經過篩選之后的數據統計見表1。

表1 騰訊新聞相關數據
3.1.2 實驗評價方式
為了驗證本文提出方法的有效性,實驗選取目前較為流行或是經典的用戶影響力分析算法作為對比,具體方法如下。
(1)經典的PageRank算法;
(2)Weng等[2]提出的TwitterRank算法;
(3)Brank[10]算法:基于PageRank算法進行的改進,從跟隨者和追隨者的角度雙向交互,通過轉發強度、評論強度、體積密度等方面來衡量用戶影響力;
(4)RBrank[15]:該方法通過將用戶活動添加到Page-Rank 中獲得改進的算法;
(5)MDIR[17]算法:該方法通過融合用戶基本屬性、用戶交互行為、用戶博文內容多個維度來計算用戶影響力。
實驗利用N折交叉驗證方法,即最后的參考標準結果由多種算法投票結果確定。例如給定5個算法A,B,C,D,E計算得到Top-K個高影響力用戶集合分別為IA,IB,IC,ID,IE。此時取N=2,即2種算法都投票正確的結果為參考的正確結果,用I2表示,如下所示
I2=(IA∩IB)∪(IA∩IC)∪(IA∩ID)∪(IA∩IE)∪
(IB∩IC)∪(IB∩ID)∪(IB∩IE)∪(IC∩ID)∪
(IC∩IE)∪(ID∩IE)
(10)
對于算法A準確率PA的計算公式如式(11)所示
(11)
算法A的召回率RA計算公式如式(12)所示
(12)
算法A的F1值FA計算公式如式(13)所示
(13)
本文初始化參數α,β,ω,θ分別為0.6、0.4、0.8、0.2,具體的參數選擇實驗會在3.2.2節中進行分析。實驗分別在N=2,3,4,5時驗證各個算法的準確率和召回率,當N=6時,由于參考的正確結果集合為6種算法結果的交集,從而導致所有算法均具有相同的準確率和召回率,所以N=6的實驗不具備討論價值。因此,在本文中只針對N=2,3,4,5的4種情況,對6種算法分別計算Top-K(K取值為50,100,200,400,800,1600)影響力用戶的準確率、召回率進行比較。
3.2.1 算法準確率與召回率驗證
如圖3所示的實驗結果可知,本文提出的FDRank算法在4組用戶規模為Top-K的情況下準確率均取得了較優的結果,但由于N折交叉驗證所取參考標準的值不同,實驗效果也有所不同。由于參考標準值N設置過小(N=2),參考標準集合I2中元素數目過多,各算法與I2交集較為一致,導致準確率相差不大;當標準值N設置過大(N=5)時,參考標準集合中I5存在的元素較少,各算法結果與標準集的交集相差較大,故準確率整體偏低;參考標準值N設置為3,4時,各個算法的準確率區分度較大,能體現各個算法準確性的優劣。

圖3 在交叉驗證中各算法的準確率
實驗同樣對比了6種算法在不同用戶規模下,使用N折交叉驗證的召回率。由圖4所示,4組對比實驗中,隨著參考標準值N的增加,所有算法的召回率也呈現上升趨勢,這是因為參考標準值N的增加,導致多個參考標準的交集元素減少,從而使得整體召回率上升。同時在實驗結果中FDRank的召回率均優于其它算法,并且在參考標準值N設置為3,4時,召回率的區分度較大。可見,在N=3,4時,能夠更好表征不同算法之間的優劣,因此,在后續的實驗中,我們對N均取值為3和4。

圖4 在交叉驗證中各算法的召回率
3.2.2 參數對比分析
本文提出方法中,有4個待確定的參數分別是α,β,ω,θ,通過賦予這些參數不同的數值,組成權值組,采用7組不同的權值組進行對比,并分別采用3折和4折交叉驗證,得到各權值組的準確率和召回率。從圖5和圖6中可以看出,對于不同的權值組所得到的FDRank算法準確率和召回率是不同的,總體準確率在0.865~0.97之間,召回率在0.811~0.926之間,其中權值組參數α,β,ω,θ分別為0.6、0.5、0.8、0.2時,FDRank算法能取得最優結果。從權值組參數實驗結果可以發現,網絡拓撲結構對用戶影響力分析結果的影響小于用戶自身質量和評論內容,并且對于用戶自身質量來說,用戶評論回復率的影響程度高于用戶評論點贊率。

圖5 各權值組準確率比較

圖6 各權值組召回率比較
為了更進一步驗證本文提出方法的有效性,通過將FDRank算法的模塊進行拆分,分別設計幾種不同的組合進行實驗:
組合1:FDRank1為單獨使用網絡結構影響力進行分析;
組合2:FDRank2由網絡結構影響力和評論內容影響力組成;
組合3:FDRank3由網絡結構影響力、評論內容影響力以及評論的情感值組成。
將4種FDRank組合算法分別與3.1.2節中提及的5種對比算法進行4折交叉驗證,得到每種FDRank組合算法的F值,見表2。

表2 FDRank組合算法F值的比較結果
從表中可以發現,FDRank3在不同Top-K用戶集獲得的F值比FDRank2平均高了0.035,而FDRank3相較于FDRank2添加了評論的情感值作為一個影響因素,這也驗證在計算用戶影響力時,通過分析用戶所發布評論的情感傾向有助于計算用戶的影響力。同時從表中可以發現,在增加用戶自身質量后,F值提升最為明顯,說明用戶自身質量是用戶影響力計算中非常關鍵的因素。
本文從新聞評論內容的影響力、評論的情感值、用戶自身質量以及用戶的網絡結構4方面考慮,提出FDRank算法。將評論內容的情感值作為用戶影響力分析的特征,實驗結果表明,用戶評論內容的情感極性是分析用戶影響力的有效特征。在與多個算法的對比實驗中,FDRank算法均取得最優結果,準確率和召回率最高為97%和92.5%,相較于排名第二的MDIR算法,在不同的Top-K下準確率和召回率平均提升了4.3%和2.9%。本文在參數對比分析實驗中考慮的參數權值組合有限,未能更有效定位最優參數,下一步的工作考慮自動化參數學習方式,探索采用Attention機制實現對模型參數的自動學習。