張晏成,李 濤
(武漢科技大學 計算機科學與技術學院 湖北省智能信息處理與工業實時系統 重點實驗室,湖北 武漢 430065)
在水軍識別技術中,采用具有代表性的特征因子能有效提高模型的分類效率。以往電商網絡水軍識別研究中,更多的是基于物質商品進行分析,而直接使用物質商品水軍特征模型來解決文化產品水軍識別問題具有不足,其本質在于文化產品存在如下的特殊性及用戶活動特點。
(1)豐富的語義性。文化產品評論是對產品主題、情節表達形成了不同觀念的碰撞交流,具有豐富的語義特征,評論主題與目標產品主題相關,若相關性過低或者不相關,則其評論存在較大的虛假性,并導致評論的有用數較低。
(2)嚴格的時效性。隨著文化產品發布的時間越來越長,其熱度逐漸降低,此時再通過水軍進行炒作已沒有過多價值。因此在文化產品中,平均評價積極度是區分正常用戶與水軍用戶的重要指標。
(3)網絡交互性。文化產品用戶間具有較強的網絡交互性,具有相同興趣的正常用戶之間更容易存在社交行為,通過找出用戶與好友之間行為和興趣的關聯性,甄別出正常用戶與水軍用戶,將行為關聯性與興趣關聯性作為文化產品水軍識別的新特征。
此外,個人信息的完善程度是人們對一個用戶直觀判斷的入口。本文在傳統屬性特征基礎上,提出了綜合質量評價特征因子。
針對上述特點,本文從3個視角提出了6個新特征因子,結合傳統特征提出了特征向量集合,使用特征選擇方法,建立了針對文化產品水軍識別的特征模型。另外,在以往研究方法中,只是選用單一的分類器,沒有考慮使用弱分類器轉化為強分類器的集成方法對模型進行識別,因此,基于文化產品的特征模型,運用集成學習算法進行水軍識別具有較高的精準率。
目前,電商水軍識別已有較深入的研究,文化產品屬于電商產品的分支,具有其特殊性,也有著其它電商評論的一般性,本文在特征分析與相應研究方法上,借鑒了其它電商平臺的方法,將電商水軍識別方法主要分為以下3 類:
(1)基于行為視角的研究,其包括評論偏差、評論頻率等特征因子。文獻[1]從用戶行為目的角度,基于水軍行為構建檢測模型并對產品評分偏差以及產品目標差異性特征進一步細分從而挖掘水軍團體。文獻[2]綜合考慮了評論者評價行為、交流行為以及對商品的關注行為并構建了D-S證據理論模型。文獻[3]認為發文間隔、活動時間是水軍識別的重要因素。評論偏差[4]對于水軍識別也具有重要作用。
(2)基于內容視角的研究,其包括情感傾向[5]、文本相似度、文本長度等特征因子。文獻[6]在情感極性中使用情感極性均值以及標準差來刻畫虛假評論,采用SMOTE算法優化隨機森林分類模型,從而提高識別效果。文獻[7]針對電商領域,對評論文體提取引人關注的文本比率、專業詞比率、詞法有效性和文本相似度等新特征,采用支持向量機、邏輯回歸、隨機森林、樸素貝葉斯、J48等分類算法進行檢測,并驗證了SVM和邏輯回歸對水軍識別具有較好效果。
(3)基于行為、屬性、內容的多視角研究。其包括以上兩種視角的交叉融合。文獻[8]通過評論數量、評論質量、評論相似度以及時間集中程度4個方面進行展開對網絡水軍進行研究,并結合水軍評論3個感知方面建立了消費者購買行為影響模型。文獻[9]提取了虛假評論人的屬性以及行為特征,借助于“大眾點評”權重機制,構建了邏輯回歸預測模型。文獻[10]對詞頻統計等評論內容以及評分情況等用戶行為特征進行主成分分析,并驗證了分別對評論內容和評論行為使用SVM、決策樹進行分類識別整體性能優于樸素貝葉斯和邏輯回歸。文獻[11]通過評論數量、頻率等行為特征以及專業程度、情感密度等內容特征采用K均值聚類算法對科技產品的虛假評論進行識別。文獻[12]以大眾點評網為例進行水軍分析,通過內容以及行為等不同特征進行組合,采用樸素貝葉斯算法構建分類模型對水軍進行識別。
以上研究方法,對電商水軍檢測奠定了一定的基礎,但是應用在文化產品領域,仍存在著不足。單一視角的水軍檢測方法會有識別率低的問題,由于文化產品的特殊性,而現有的多視角檢測方法設計的特征向量并沒有針對文化產品,且使用的是單一分類器,導致在檢測文化產品水軍時,準確率也不高。為了解決以上問題,本文在已有多視角的研究方法上,提出了新的特征模型,并結合集成學習算法進行水軍識別。經過實驗驗證,本文提出的特征模型及方法有效提高了文化產品水軍識別效果。
借鑒電商水軍識別采用的特征,從用戶屬性、行為、內容3個視角進行計算以及記錄。電商水軍識別特征及描述見表1。

表1 電商水軍識別特征及其描述
文化產品與電商水軍識別在評論內容,用戶行為,用戶屬性等特征上存在很大重合,同時也具有一定差異。基于文化產品特殊性以及用戶活動特點,本文在電商水軍識別特征基礎上進行了新的特征設計。
(1)基于評論者的屬性視角
定義1 綜合質量評價(CE)
用戶信息的完整性,在一定程度上反映了用戶的真實性;綜合質量評價涉及用戶昵稱、個性簽名、地理位置多個屬性,定義如下
CE=0.3用戶昵稱+0.4個性簽名+0.3地理位置
(1)
(2)基于評論者的行為視角
定義2平均有用度(AU)
有用數是用戶對評論內容的認可,通過平均有用度從普通用戶群體的角度直觀反映評論內容的價值,平均有用度即所有評論內容的有用數之和(TotalUseful)與評論總數(TotalNumber)的比值,定義如下
(2)
定義3平均評價積極度(AP)
為了達到宣傳炒作的目的,發行方將雇傭水軍短時間內刷高評分,因此通過平均評價積極度能對水軍進行較好的區分,平均評價積極度即評論時間與上映時間差值的平均值,Xi指評論時間,Mi指產品上映時間,定義如下
(3)
定義4行為關聯性(MCT)
基于社交行為屬性,相互關注的用戶,若對多個相同的文化產品具有較高的共識,則用戶之間關系越密切,關系密切的粉絲數越多用戶越真實,行為關聯性(MCT)即用戶擁有密切關系的粉絲數量(TotalMCT)與相互關注數(MUTUAL)之比,定義如下
(4)
定義5興趣關聯性(MCM)
物以類聚,人以群分,正常用戶與好友之間存在著相同的興趣標簽,水軍用戶與所關注的對象并無太多聯系。興趣關聯性(MCM)即與用戶評論同一類型文化產品的粉絲數量(TotalMCM)與相互關注數之比,定義如下
(5)
(3)基于評論內容的視角
定義6評論主題相似度(TR)
采用語義分析技術,通過評論內容所反映的主題思想與文化產品主題進行比較,得出評論與主題的相似度,評論主題相似度即主題相似度高的評論數量(TotalTR)與評論總數之比,定義如下
(6)
在卡方檢驗中,假設分類變量為正常用戶與水軍用戶,正常用戶包含特征的頻數為MF,正常用戶不包含特征的頻數為MN,正常用戶頻數為M,水軍用戶包含特征的頻數為TF,水軍用戶不包含特征的頻數為TN,水軍用戶頻數為T,包含檢驗特征的頻數為F,不包含檢驗特征的頻數為N,總頻數為S。卡方檢驗計算參數見表2。

表2 卡方檢驗計算參數說明
卡方計算公式為
(7)
依次對每個特征計算獲得卡方值,卡方值越大,說明特征與類別相關性越大,將計算所得值與按照顯著性水平查找卡方臨界值表進行對比,從而剔除冗余特征。
卡方檢驗剔除冗余特征后,初步得到與類別相關性高的特征,但是仍然無法判斷出特征對分類問題的影響力。信息增益算法可以描述特征區分樣本的能力,選擇信息增益算法進行下一階段的特征處理。用X表示特征,Y表示用戶是否為水軍,于是信息增益的公式為

(8)
特征Xi的信息增益越大,表明該特征區分用戶類別的影響力越大。
本文針對文化產品的用戶特性分別從用戶屬性、行為以及評論內容3個視角進行特征設計,根據設計的特征收集數據并使用統計計算與自然語言處理技術提取出水軍識別特征,使用卡方檢驗與信息增益對特征進行評價與選擇,結合集成學習算法構建分類模型應用于水軍識別,將按照8∶2劃分的訓練集與測試集用于模型訓練,按照網格搜索算法進行參數調節選擇結果最優模型。模型框架如圖 1所示。

圖1 文化產品水軍識別模型
水軍識別問題,可以看作一個分類問題。在大量評論用戶中識別出水軍用戶,則需要選擇一個分類效率高且速度快的識別模型。xgboost是一種極端梯度提升集成算法,可以將弱分類器轉化為強分類器,其核心思想是不斷選擇增益最大的特征進行分裂生成一顆樹去擬合上一次預測的殘差,使得整個模型的誤差不斷降低,直到滿足停止條件,從而達到準確的分類效果。xgboost對代價函數進行二階泰勒公式展開,有利于梯度下降的更快更準,并在代價函數里加入了正則項,用于控制模型的復雜度,降低了過擬合的可能性,從而使xgboost具有良好的效果。
模型的目標函數為
(9)

(10)
識別模型流程如下:
(1)將數據集按照8∶2的比例劃分為訓練集與測試集;
(2)對訓練集,重復步驟1)-步驟3)。
1)從根節點開始,根據式(10)遞歸地找出分裂點,直到滿足停止條件,至此所有特征都轉化為了一棵回歸樹上的一個節點;
2)循環執行步驟1),使建立的多棵回歸樹能夠在損失函數梯度上保持下降趨勢;
3)多棵回歸樹組合后建立出基于xgboost算法的水軍識別分類模型。使用GridSearchCV實現模型的自動調參,得到模型的最優參數集合。將最優參數帶入xgboost模型,從而提高分類性能。將模型產生的預測值進行處理,大于0.5輸出1;否則輸出0。
(3)利用測試集對模型進行評估。
實驗運行環境:Windows 10操作系統,16 G內存,3.5 GHz四核心處理器,實驗軟件為Python 3.7。
本文選擇國內最早且用戶基數最大、評論數量最多的影評聚集地豆瓣平臺作為研究對象。根據劉正山等[14]對電影評論“惡評”的相關研究,“惡評”是指評論與正常評分相差過大的評論總稱,豆瓣電影排行榜按照評分高低依次排序,Top2F50評分普遍較高,依據大數定理研究“惡評”分布定律,短評中差評用戶具有更大的水軍嫌疑,本文爬取豆瓣Top250電影站點用戶信息,去除重復數據,最終得到4165個評論人信息,共約5萬條評論數據。最后,邀請專業人員標注出數據集中的網絡水軍。對數據集中特征處理如下:
(1)根據第2章中的特征設計計算出數值型數據。
(2)使用中文詞庫和中文分詞第三方庫jieba對文化產品簡介,短評文本進行分詞,確定漢字之間的關聯概率。漢字間概率大的組成詞組,形成分詞結果。
(3)使用word2vec將單詞轉換成向量形式。將進行分詞、去除停用詞等操作后的詞組,利用word2vec轉換成詞向量,然后計算評論內容詞向量間以及每條評論對應文化產品簡介間的余弦距離,進而求出短評內容的自相似度SR以及評論與文化產品主題相關性TR。主題相似度計算偽代碼如下:
算法1:主題相似度TR
輸入:用戶評論集合C={C1,>C2,>…,>Cn},集合長度N評論對應的電影簡介集合M={M1,>M2,>…,>Mn}
(1)初始化字典類型變量dict,N*N的二維數組list
(2)fori=1,>2,>…,>Ndo
(3)t← 使用jieba的cut對C[i]劃分得到詞組
(4)w← 使用word2vec的word2vec計算t得到詞向量
(5)dict[C[i]]=w
(6)endfor
(7)初始化計數器counter為0
(8)whileC不為空 do
(9)c=C.pop()
(10)list[counter].append()
(11)m=len(C)
(12)fori=1,>2,>…,>mdo
(13)q← 使用word2vec的similarity計算dict[c]與list[C[i]]之間的相似度
(14)ifq>0.7then
(15)list[counter].append()
(16)C.remove(C[i])
(17)endif
(18)endfor
(19)counter=counter+1
(20)endwhile
(21)TR=counter/N
輸出:用戶的主題相似度TR
為平衡正負樣本,提高實驗準確性,本文采用了精準率(PR)來評估分類器的準確性。將檢測值分類匯總,建立混淆矩陣。TP代表模型中分類檢測的水軍數,FP代表模型中誤測為水軍數,TN代表模型中分類檢測的正常用戶數,FN代表模型中誤測為正常用戶數。混淆矩陣見表3。

表3 混淆矩陣
(1)精準率(PR)定義如下
(11)
TP/(TP+FP)表示水軍樣本精準率,TN/(TN+FN)表示非水軍樣本精準率。水軍樣本與非水軍樣本精準率兩者值的高低將影響平均精準率PR,防止因水軍樣本與非水軍樣本數偏差影響精準率。
(2)召回率(RR)定義請參見文獻[15]。
(3)調和平均值(F1)定義如下
(12)
通過卡方檢驗與信息增益算法對特征進行選擇與評價,在特征選擇實驗中,對設計的特征進行去冗余操作,經過篩選后,按照信息增益值大小對特征進行排序。特征IG值排序見表4。

表4 特征處理后的IG值
經過信息增益進行特征排序后,為了使模型訓練效率更高,設定閾值為0.333即選擇IG值大于0.333的特征為影響文化產品水軍識別的顯著特征,并將傳統水軍識別特征、加入新提出的特征以及進行特征選擇后的特征,分別在同一數據集下,使用本文水軍識別模型進行測試,得到實驗結果。實驗結果見表5。

表5 不同特征下的效果對比
A代表已有電商水軍特征,B代表在A的基礎上加入本文提出的新特征,C代表B特征處理后的數據。實驗結果驗證了本文提出的新特征對文化水軍識別具有一定效果提升,精準率提高了2.61%,由于特征維數增加,后續水軍識別在時間性能上有所降低,時間增加了73 ms,使用特征選擇后相對未作處理的新特征集合精準率提高了2.8%,時間減少了152 ms,相對于電商水軍識別特征,經過卡方檢驗與信息增益篩選后的特征在精確度以及時間效率上都有所提升,精準率提高了5.41%同時時間減少了79 ms,驗證了本文提出的新特征能有效提高識別率,卡方檢驗與信息增益能夠剔除冗余特征提高了精準率的同時減少了時間消耗。
為驗證識別方法的有效性,選擇電商水軍識別的4種方法與本文提出的面向文化產品水軍的識別方法進行對比,將xgboost方法分別與文獻[10]中的支持向量機、文獻[9]中的邏輯回歸、文獻[12]使用的貝葉斯模型以及文獻[6]中基于SMOTE過采樣的隨機森林方法進行實驗對比;為了使結果更準確,采用十折交叉的方法,將數據集按照8∶2的比例進行10次隨機劃分,8份用作訓練集,2份用作測試集,對10次實驗結果求平均得到如圖2所示。

圖2 不同識別方法的分類結果
由圖可知,xgboost模型與隨機森林、邏輯回歸、樸素貝葉斯以及支持向量機識別方法相比,精準率、召回率和調和平均值有較大提高,整體性能優于對比方法。實驗結果表明,xgboost模型與隨機森林模型識別效果明顯高于其它方法,其原因是特征取值范圍廣,樹形結構更適用于處理此類數據分類,而本文使用的xgboost模型較隨機森林模型精準率提高了2.425%,調和平均值提高了4.018%,這是因為xgboost是所有預測結果的累積并在原有梯度提升樹基礎上對損失函數進行了改進,而隨機森林采用的則只是多投票原則決定最終結果,以上分析可知,xgboost模型結合本文提出的特征集合,可以有效識別文化產品水軍。
隨著在線文化產品的不斷發展,在線評論對后續消費者有著較大的影響。文化產品帶來的巨大利益使發行方希望通過雇傭水軍獲得競爭優勢,擾亂文化產品市場正常秩序。因此,識別文化產品評論中的網絡水軍,還原真實的評論環境,有利于文化產業健康發展。本文鑒于文化產品網絡水軍的特性,通過從多視角分析,在電商水軍特征基礎上,運用語義分析以及統計計算等技術,提出了新的特征集合,并通過卡方檢驗以及信息增益算法進行特征篩選,建立新的特征模型,結合集成學習模型對文化產品水軍進行識別。以豆瓣短評為數據來源,通過對比實驗驗證了本文提出的特征模型集合與集成學習分類模型對文化產品網絡水軍識別具有較好的提升效果,精準率達到了93.32%,能有效地進行文化產品水軍識別。
在未來的研究中,需要獲取文化產品領域中更多的數據集,并采用識別水軍團體的方法提高文化產品水軍識別效率。