考慮結(jié)構(gòu)與行為特征的水軍群組檢測算法

2022-01-01 00:00:00張琪紀淑娟張文鵬曹寧李寧

計算機應(yīng)用研究 2022年5期

摘要：在線評論對用戶的購買決策有重要的影響作用，部分賣方為提高自身信譽或貶低競爭對手的產(chǎn)品，通過雇傭大量水軍有組織、有策略地撰寫虛假評論來誤導(dǎo)潛在消費者。為了檢測這種有組織的水軍群組，提出了一個綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)與評論者的行為特征水軍群組檢測算法。首先，根據(jù)評分和評論時間相關(guān)性得到評論者之間的緊密度，構(gòu)建評論者關(guān)系圖；其次，基于構(gòu)建的評論者關(guān)系圖，利用標(biāo)簽傳播方法檢測社區(qū)，得到候選群組集合；最后，復(fù)原候選群組對應(yīng)的二部圖，以對比可疑度為評估指標(biāo)，在每個二部圖上找到最終的造假者。基于真實數(shù)據(jù)集的實驗結(jié)果證明了該算法的有效性。

關(guān)鍵詞：水軍群組；評論者關(guān)系圖；標(biāo)簽傳播；二部圖

中圖分類號： TP391.4"" 文獻標(biāo)志碼： A

文章編號： 1001-3695（2022）05-015-1374-06

doi：10.19734/j.issn.1001-3695.2021.10.0460

Group spam detection algorithm considering structure and behavior characteristics

Zhang Qi， Ji Shujuan， Zhang Wenpeng， Cao Ning， Li Ning

（Shandong Provincial Key Laboratory of Wisdom Mine Information Technology， Shandong University of Science amp; Technology， Qingdao Shandong 266590， China）

Abstract： Online reviews play a significant role in users’ purchasing decisions.In order to improve their reputation or degrade their competitors’ products，some sellers employ a large numbers of review spammers to write fake reviews systematically and strategically to mislead potential consumers.In order to detect such organized spammer groups，this paper proposed a group spam detection algorithm that comprehensively considered the network structure and the behavior characteristics of reviewers.In implementation，this algorithm first obtained the closeness between reviewers based on the relevance of ratings and review time，and constructed a reviewer relationship graph.Secondly，based on the constructed reviewer relationship graph，it used label propagation method to detect the community and got a set of candidate groups.Finally，it restored the corresponding bipartite graphs of the candidate groups，and then found the final spammers on each bipartite graph by taking contrast suspiciousness as a metric.Experimental results based on real datasets demonstrate the effectiveness of the proposed algorithm.

Key words： spammer group； reviewer relationship graph； label propagation； bipartite graph

0 引言

隨著電子商務(wù)網(wǎng)站的發(fā)展，越來越多的消費者喜歡在網(wǎng)上發(fā)表對購買商品的看法，并對其質(zhì)量進行評價。在線評論正越來越多地影響產(chǎn)品銷量和商家信譽，用戶在消費時也傾向于依賴其他用戶的評論作出消費決策。據(jù)哈佛大學(xué)研究報道，Yelp網(wǎng)站上產(chǎn)品的評分每增加1分，該產(chǎn)品收入就會增加5%～9％［1］。Akoglu等人［2］也指出用戶評論體現(xiàn)出的傾向性也會影響產(chǎn)品的口碑與銷量。因此，一些不法商家受利益驅(qū)使，往往與一些評論者勾結(jié)，通過發(fā)布大量的虛假評論來提升自身的聲譽或詆毀競爭對手的聲譽，以迷惑消費者。這些評論者被稱為虛假評論者或者水軍，被評論的產(chǎn)品稱為目標(biāo)產(chǎn)品［3］。隨著虛假評論過濾方法的改進，水軍們也改進了它們的欺詐策略，為了隱藏足跡并提高效率，經(jīng)常結(jié)成群組協(xié)同作案，通過偽裝來隱藏其可疑行為，不會使單個個體脫穎而出［2，4］。這些評論者群組被稱為水軍群組。相比于水軍個體，水軍群組的破壞力和影響力更強。這是因為水軍群組有統(tǒng)一的管理、目標(biāo)明確，通過模仿正常評論者的行為，在短時間內(nèi)即可對目標(biāo)產(chǎn)品進行虛假評論，對消費者的誤導(dǎo)性比較大。因此，如何有效地識別電子商務(wù)網(wǎng)站上的評論水軍群組，確保產(chǎn)品評論的可信度，已成為一個亟待解決的網(wǎng)絡(luò)信息安全問題。

近年來，已有一些研究者專注于研究評論者之間的共謀欺詐行為，試圖從群組層面檢測電子商務(wù)網(wǎng)站上的水軍。根據(jù)生成候選水軍群組的方式不同，可將現(xiàn)有的工作分為基于頻繁項挖掘（FIM）的方法［4～7］和基于圖的方法［2，8～16］。基于頻繁項挖掘的方法僅適用于檢測緊密耦合的水軍群組（即群組中的成員需要評論所有目標(biāo)產(chǎn)品），不適用于檢測聯(lián)系松散耦合的水軍群組（即群組中的成員無須評論每個目標(biāo)產(chǎn)品以增加群組的隱蔽性）［9，10］。此外，基于圖的方法大多只關(guān)注評論網(wǎng)絡(luò)特征或在評論者圖（同質(zhì)圖）上檢測水軍群組，而忽略了評論者的一些關(guān)鍵行為特征（如時間爆發(fā)和下降）且不能捕捉異質(zhì)圖中豐富的結(jié)構(gòu)信息。

為了解決上述限制，本文綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)與評論者行為特征，提出了一個無監(jiān)督的算法GSHIN，來檢測評論網(wǎng)絡(luò)中的水軍群組。與基于頻繁項挖掘方法只能得到緊密耦合的群組不同，本文方法可以檢測到群組成員分開對目標(biāo)產(chǎn)品進行攻擊的多個關(guān)系緊密且松散耦合的候選群組。與現(xiàn)有基于圖的方法大多基于評論者關(guān)系在同質(zhì)網(wǎng)絡(luò)直接生成造假群組不同，本文將基于同質(zhì)網(wǎng)絡(luò)生成的造假群組看做候選造假群組，給出了一個新穎的群組提純算法，通過復(fù)原候選造假群組對應(yīng)的評論者—產(chǎn)品二部圖（異質(zhì)網(wǎng)絡(luò)）和引用一個對比可疑度指標(biāo)，在每個二部圖上找到最終的造假者。在真實數(shù)據(jù)集上對本文算法進行了實驗，并將其與基準算法GSBC［10］進行比較。實驗結(jié)果表明，本文算法能夠更準確、高效地檢測活躍在電子商務(wù)網(wǎng)站上的評論水軍群組。

1 相關(guān)工作

自2008年Jindal等人［3］首次提出虛假評論檢測問題以來，關(guān)于這一領(lǐng)域的研究越來越受人們的重視。早期工作主要集中在虛假評論檢測［3，17，18］、水軍個體檢測［19，20］問題上。近年來，關(guān)于水軍群組檢測［2，4～16］的研究呈快速增長趨勢。根據(jù)生成候選水軍群組的方式不同，可將現(xiàn)有的方法分為基于頻繁項挖掘（FIM）和圖的方法兩類。

1.1 基于FIM的水軍群組生成方法

對于基于FIM的工作，研究者首先利用FIM方法基于共評論特征生成候選群組，再對候選群組進行分類。Mukherjee等人［4］首次提出利用基于FIM的方法生成候選水軍群組，將共評論相同產(chǎn)品集的評論者為一個候選群組，然后提出一種排序模型來定位最可疑的水軍群組。很多研究者擴展了Mukherjee等人的工作，例如，Xu等人［5］提出了一種基于KNN的方法和一種基于圖的分類算法來預(yù)測候選群組中的成員個體是否可疑。Xu等人［6］還提出了一個潛在共謀模型，并使用EM算法從給定的FIM候選群組中推斷共謀。此外，文獻［7］也使用FIM方法生成候選群組，然后提出一種融合行為與結(jié)構(gòu)特征推理的方法來檢測水軍群組。

這些工作都依賴FIM獲取候選群組，在挖掘群組的過程中，可能會將一些偶然的評論者錯誤地劃入水軍群組，此外，F(xiàn)IM并不能檢測到松散耦合的水軍群組［9］。

1.2 基于圖的水軍群組生成方法

根據(jù)構(gòu)圖方法的不同，可將基于圖的水軍群組生成方法分為基于同質(zhì)圖的水軍群組生成方法和基于異質(zhì)圖的水軍群組生成方法。

在基于同質(zhì)圖的水軍群組生成方法中，研究者們首先通過評論者的關(guān)系（如共評論）構(gòu)建評論者圖，然后使用圖劃分方法［9，10，12，13］、聚類方法［2，8，11，14～16］等生成候選水軍群組。Wang等人［9］使用二部圖投影解決松散的水軍群組檢測問題，并使用分治的方法來發(fā)現(xiàn)水軍群組。后來，Wang等人［10］又提出了一個自上而下的框架GSBC，基于構(gòu)建的雙連通評論者圖，使用min-cut方法發(fā)現(xiàn)水軍群組。Li等人［11］觀察到評論者的發(fā)帖率是雙峰的，提出了一種基于共爆發(fā)的方法，并在共爆發(fā)網(wǎng)絡(luò)上采用圖聚類方法發(fā)現(xiàn)水軍群組。Ji等人［12］利用核密度估計方法在評論爆發(fā)中發(fā)現(xiàn)候選水軍群組，對其進行凈化得到造假群組。Zhang等人［13］提出一種改進的標(biāo)簽傳播方法來找到候選群組，然后提出一種排序算法來定位水軍群組。然而，上述通過構(gòu)建同質(zhì)圖生成水軍群組的方法不能捕捉到異質(zhì)圖中豐富的結(jié)構(gòu)信息。

在電子商務(wù)真實交易情景下，有評論者、評論、產(chǎn)品等不同的主體，為了從多角度考慮來檢測水軍群組，并盡可能地利用已有的全部信息，一些研究者［2，8，14～16］也嘗試通過構(gòu)建異質(zhì)圖來生成水軍群組。Akoglu等人［2］提出FraudEagle框架，采用一種基于LBP的推理算法，對包含高度可疑評論者及相應(yīng)產(chǎn)品的誘導(dǎo)子圖進行圖聚類，以此得到水軍群組。Ye等人［8］基于評論網(wǎng)絡(luò)的結(jié)構(gòu)特征來識別目標(biāo)產(chǎn)品，然后在兩跳子圖上使用凝聚層次聚類算法檢測水軍群組。張文鵬等人［14］基于目標(biāo)產(chǎn)品可疑時期內(nèi)的數(shù)據(jù)構(gòu)造誘導(dǎo)子圖，使用凝聚層次聚類算法生成候選群組，對其進行凈化得到造假群組。Zheng等人［15］采用深度網(wǎng)絡(luò)嵌入方法聯(lián)合學(xué)習(xí)評論者和產(chǎn)品的表示，將它們同時嵌入到低維空間中并利用DBSCAN算法進行聚類得到多個密集塊。Zhu等人［16］通過在二部網(wǎng)絡(luò)中嵌入顯式和隱式關(guān)系得到評論者表示，然后采用基于k維樹的快速密度子圖挖掘算法得到多個協(xié)作水軍群組。然而，上述在異質(zhì)圖中生成水軍群組的方法大多數(shù)只關(guān)注評論網(wǎng)絡(luò)特征，而忽略了評論者的一些關(guān)鍵的行為特征（如時間爆發(fā)和下降），降低了檢測算法的精度。

綜上所述，現(xiàn)有基于頻繁項挖掘的方法只能得到緊密耦合的群組。這一點不符合造假群組成員經(jīng)常分開攻擊不同目標(biāo)產(chǎn)品的現(xiàn)實。此外，現(xiàn)有基于同質(zhì)或異質(zhì)圖的方法都把得到的群組直接看成造假群組。這種做法會造成一些無辜的人被錯誤地劃分到造假群組中［12］。因此，文獻［12，14］提出了“先得到候選群組，再提純”的思路。延續(xù)該思路，本文提出了一個新的水軍群組檢測算法GSHIN，綜合考慮網(wǎng)絡(luò)的異質(zhì)性結(jié)構(gòu)以及評論者的行為特征，檢測活躍在電子商務(wù)網(wǎng)站上的水軍群組。

3.5 top-200群組精度、召回率、F1值分析

基于人工對GSBC、GSDB、GSHIN、GSHIN_S以及GSHIN_B算法檢測到前200個群組標(biāo)注的標(biāo)簽，本文對五個算法的精度、召回率以及F1值進行分析，如圖5所示。

從圖5（a）中可以看到，在開始階段（群組數(shù)n約為25時），GSBC算法的精度曲線下降最為劇烈，GSDB、GSHIN和GSHIN_B算法的精度曲線存在輕微波動，GSHIN_S算法的精度曲線也緩慢下降，但均高于GSBC算法的精度值。之后，隨著群組數(shù)量的不斷增加，GSBC算法的精度曲線出現(xiàn)了回升，GSDB、GSHIN、GSHIN_B和GSHIN_S的精度曲線都在輕微下降后趨于穩(wěn)定狀態(tài)。此外，GSDB要優(yōu)于GSHIN算法，這是由于GSDB算法檢測到的是緊密耦合的水軍群組，群組成員只針對某一個特定的目標(biāo)產(chǎn)品實施造假活動，而本文的GSHIN算法可以檢測到松散耦合的水軍群組，考慮到群組成員會跨產(chǎn)品進行造假活動。同時，GSHIN_B算法的性能優(yōu)于GSHIN_S算法，這是由于在對比可疑度中考慮了時間爆發(fā)和下降以及評分偏差，有效捕獲了行為可疑的造假者。而GSHIN算法的性能要優(yōu)于GSHIN_B和GSHIN_S算法，進一步說明了將結(jié)構(gòu)與行為特征同時考慮使算法性能更好。

從圖5（b）中可以看到，在群組數(shù)量n約為50時，GSDB、GSHIN、GSHIN_B和GSHIN_S算法召回率曲線波動基本一致且均優(yōu)于GSBC算法。隨著群組數(shù)量的增加，召回率曲線幾乎隨水軍群組數(shù)目的增加呈線性增長。在召回率方面，GSHIN算法要優(yōu)于其他四個算法，這是由于GSHIN算法綜合考慮結(jié)構(gòu)與行為特征，捕獲了更多造假的水軍群組。

綜合精度與召回率得到的F1值如圖5（c）所示。從圖5（c）中可以看出，五個算法的F1值都是保持單調(diào)增長的狀態(tài)，當(dāng)群組數(shù)量n約為100時，GSHIN性能優(yōu)于GSDB算法，但在此之后，GSDB略優(yōu)于GSHIN算法，這說明本文算法在檢測少數(shù)量松散耦合群組方面效果最佳。

由此，可以得出結(jié)論：在對比可疑度中僅使用行為特征的GSHIN_B算法的要優(yōu)于僅使用結(jié)構(gòu)特征的GSHIN_S算法，而同時考慮結(jié)構(gòu)和行為特征的GSHIN算法實現(xiàn)了進一步的改進，且均優(yōu)于GSBC算法。此外，在檢測少數(shù)量松散耦合群組方面，本文算法要優(yōu)于GSDB算法。

4 結(jié)束語

在線虛假評論已日益成為電子商務(wù)評價系統(tǒng)和信譽系統(tǒng)的真正威脅，檢測水軍群組是確保電子商務(wù)網(wǎng)站評論信息可信度的關(guān)鍵。本文提出了一種新的水軍群組檢測算法GSHIN。該方法同時考慮了網(wǎng)絡(luò)結(jié)構(gòu)以及評論者行為特征，在二部圖中檢測造假水軍群組。在真實數(shù)據(jù)集上，通過設(shè)計實驗驗證了本文算法的有效性。未來的工作包括設(shè)計一種在異質(zhì)網(wǎng)絡(luò)中直接生成候選群組的方法，以及更加新穎的群組提純算法來進一步提高檢測算法的性能，以檢測活躍在電子商務(wù)網(wǎng)站中的造假水軍群組。

參考文獻：

［1］Luca M.Reviews，reputation，and revenue：the case of Yelp.Com，NOM Unit Working Paper 12-016［R］.［S.l.］：Harvard Business School，2016.

［2］Akoglu L，Chandy R，F(xiàn)aloutsos C.Opinion fraud detection in online reviews by network effects［C］//Proc of International AAAI Conference on Web and Social Media.Palo Alto，CA：AAAI Press，2013：2-11.

［3］Jindal N，Liu Bing.Opinion spam and analysis［C］//Proc of International Conference on Web Search and Data Mining.2008：219-230.

［4］Mukherjee A，Liu Bing，Glance N.Spotting fake reviewer groups in consumer reviews［C］//Proc of the 21st International Conference on World Wide Web.2012：191-200.

［5］Xu Chang，Zhang Jie，Chang Kuiyu，et al.Uncovering collusive spammers in Chinese review websites［C］//Proc of the 22nd ACM International Conference on Information amp; Knowledge Management.New York：ACM Press，2013：979-988.

［6］Xu Chang，Zhang Jie.Towards collusive fraud detection in online reviews［C］//Proc of IEEE International Conference on Data Mining.Piscataway，NJ：IEEE Press，2015：1051-1056.

［7］張怡睿宸，李云峰，顧旭陽，等.一種融合行為與結(jié)構(gòu)特征推理的造假群組檢測算法［J］.計算機工程與科學(xué)，2021，43（5）：926-935. （Zhang Yiruichen，Li Yunfeng，Gu Xuyang，et al.A group spam detection algorithm combining behavior and structural feature reasoning［J］.Computer Engineering and Science，2021，43（5）：926-935.）

［8］Ye Junting，Akoglu L.Discovering opinion spammer groups by network footprints［C］//Proc of Joint European Conference on Machine Lear-ning and Knowledge Discovery in Databases.Cham：Springer，2015：267-282.

［9］Wang Zhuo，Hou Tingting，Song Dawei，et al.Detecting review spammer groups via bipartite graph projection［J］.The Computer Journal，2016，59（6）：861-874.

［10］Wang Zhuo，Gu Songmin，Zhao Xiangnan，et al.Graph-based review spammer group detection［J］.Knowledge and Information Systems，2018，55（3）：571-597.

［11］Li Huayi，F(xiàn)ei Geli，Wang Shuai，et al.Bimodal distribution and co-bursting in review spam detection［C］//Proc of the 26th International Conference on World Wide Web.2017：1063-1072.

［12］Ji Shujuan，Zhang Qi，Li Jinpeng，et al.A burst-based unsupervised method for detecting review spammer groups［J］.Information Sciences，2020，536：454-469.

［13］Zhang Fuzhi，Hao Xiaoyan，Chao Jinbo，et al.Label propagation-based approach for detecting review spammer groups on e-commerce websites［J］.Knowledge-Based Systems，2020，193：105520.

［14］張文鵬，紀淑娟，李金鵬，等.考慮時間特征的電子商務(wù)水軍群組發(fā)現(xiàn)算法［J］.計算機應(yīng)用研究，2021，38（8）：2321-2327. （Zhang Wenpeng，Ji Shujuan，Li Jinpeng，et al.E-commerce spammer groups discovery algorithm considering time characteristics［J］.Application Research of Computers，2021，38（8）：2321-2327.）

［15］Zheng Mengyu，Zhou Chuan，Wu Jia，et al.FraudNE：a joint embedding approach for fraud detection［C］//Proc of International Joint Confe-rence on Neural Networks.Piscataway，NJ：IEEE Press，2018：1-8.

［16］Zhu Chengzhang，Zhao Wentao，Li Qian，et al.Network embedding-based anomalous density searching for multi-group collaborative fraudsters detection in socialmedia［J］.Computers，Materials and Continua，2019，58（2）：317-333.

［17］Li Fangtao，Huang Minlie，Yang Yi，et al.Learning to identify review spam［C］//Proc of the 22nd International Joint Conference on Artificial Intelligence.2011：2488-2493.

［18］Ott M，Choi Y，Cardie C，et al.Finding deceptive opinion spam by any stretch of the imagination［C］//Proc of the 49th Annual Meeting of the Association for Computational Linguistics：Human Language Technologies.2011：309-319.

［19］Lim E P，Nguyen V A，Jindal N，et al.Detecting product review spammers using rating behaviors［C］//Proc of the 19th ACM International Conference on Information and Knowledge Management.New York：ACM Press，2010：939-948.

［20］Fei Geli，Mukherjee A，Liu Bing，et al.Exploiting burstiness in reviews for review spammer detection［C］//Proc of the 7th International AAAI Conference on Weblogs and Social Media.PaLo Alto，CA：AAAI Press，2013：175-184.

［21］Gregory S.Finding overlapping communities in networks by label propagation［J］.New Journal of Physics，2010，12（10）：103018.

［22］Wu Zhihao，Lin Youfang，Gregory S，et al.Balanced multi-label propagation for overlapping community detection in social networks［J］.Journal of Computer Science and Technology，2012，27（3）：468-479.

［23］Liu Shenghua，Hooi B，F(xiàn)aloutsos C.A contrast metric for fraud detection in rich graphs［J］.IEEE Trans on Knowledge and Data Engineering，2018，31（12）：2235-2248.

計算機應(yīng)用研究2022年5期

計算機應(yīng)用研究的其它文章: 基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)視頻場景分割優(yōu)化算法; 基于多尺度殘差視覺信息融合的牧場牛只數(shù)量估計方法; 學(xué)習(xí)點云鄰域信息的三維物體形狀補全; PNet：融合注意力機制的多級低照度圖像增強網(wǎng)絡(luò); 結(jié)合結(jié)構(gòu)重參數(shù)化方法與空間注意力機制的圖像融合模型; 基于注意力機制的紅外與可見光圖像融合網(wǎng)絡(luò)