王逸勐
摘要:隨著各式電商平臺、社交平臺的興起,相關利益群體開始利用平臺機制,操控輿論,影響正常用戶認知并以此謀利。相關惡性事件頻頻發生,平臺生態的治理成為一個日漸嚴峻的問題。本文通過梳理相關研究的四條脈絡,總結出三條相關研究未來發展的有效途徑,并提出基于無監督學習的惡性用戶治理方法以解決當下研究遇到的困境。
關鍵詞:惡性用戶? 水軍 社交網絡 無監督學習 電商平臺
引言
用戶是電商平臺生態中的核心元素之一。
以用戶評論為例,相較于實體店,電商平臺無法提供直接的產品體驗,用戶在進行商品選擇時,在很大程度上要依靠于其他用戶對產品的評價[1]。一個好的用戶評論體系能夠顯著提高電商平臺對入駐商家的治理水平,降低監督成本,形成一系列良性連鎖反應。
然而,當下各電商平臺中刷單現象嚴重,各商家用戶評論中充斥著的各種水軍與刷單機器人的言論,并在極大程度上決定了電商平臺中目標產品的評價輿論場,從而影響用戶決策[2]。
楊珂等[3]指出,目前電子商務領域多盛行電商水軍與商家合作,對目標產品造勢營銷,以影響消費者。如今,社會上存在著一群職業套利群體. 他們通過機器人, 注冊機, 模擬器, 貓池等多種形式在平臺上注冊大量虛假用戶賬號, 從而擾亂平臺環境、利用平臺漏洞并以此謀利。
在2018 年中國信通院和騰訊聯合發布的《數字金融反欺詐》[ 4]中列舉了 2018 年發生的多起較嚴重的職業“羊毛黨”套利事件: 某“羊毛黨”發現國內某知名電商平臺存在漏洞, 利用這個漏洞可以無限制領取 100 元無門檻全場通用券, 于是他通過手中大量該電商賬號領券, 并以每張券不足 1 元購買 100 元話費或 QQ 幣的形式套現. 最后為了逃避被追責, 該“羊毛黨”將漏洞發到羊毛群中, 引發大量“羊毛黨”瘋狂“薅羊毛”, 最終造成電商平臺巨額損失. 據官方通告, 損失在千萬元級別。
另外需要指出的是,在電商平臺與社交平臺逐步融合的當下,網絡水軍對電商平臺的影響力正在逐步擴大。研究表明[5],現階段,“機器人水軍” 的發展已經影響到社會政治、經濟等多元深層結構與領域。“機器人水軍”推動的虛假信息和營造的網絡環境被傳播、放大后,直接影響經濟市場,被渲染、傳播的網絡熱點事件,會對民眾形成誤導,深刻影響民眾的社會生活。
近期,央視曝光明星流量造假問題,并表示要求相關部門嚴打流量造假行為。就此,新浪微博作出回應:
首先,外掛軟件刷數據,流量“競賽”已蛻變為互聯網黑產,在這種“競賽”中,微博作為平臺不僅收獲不到正常的用戶和流量,反而要承擔由此帶來的風險,微博是完全不愿意見到這種“競賽”繼續下去,并且也做出了相關的產品調整。
其次,刷數據主要表現為刷轉發、刷評論,目前這種已經脫離常識的數據也都并非由真人粉絲完成,而主要是借助各種可以登錄多個微博賬號的“外掛”軟件完成,而“外掛”的開發運營者,則依靠登錄賬號的數量賺取利潤。
針對以上現象中可能存在違法犯罪行為,從去年開始微博已經多次向公安機關提供所掌握的證據材料進行報案。[6]
水軍相關的產業在暗處悄悄生長,其破壞力已不容小覷。
2019年6月10日晚間,“蔡徐坤1億微博轉發量的幕后操盤手星援App已被查封”的消息引爆網絡。
去年8月,蔡徐坤通過微博發布原創歌曲MV《Pull Up》,僅用10天左右的時間便實現轉發量破億次,但與高轉發量相對應的卻是,評論量僅約240萬次,點贊量則約106萬次,差距最高可達95倍,使得造假的質疑愈演愈烈。
這條被懷疑數據造假的微博也受到監管部門的關注,在公安部開展“凈網2019”專項行動的過程中,北京市公安局網安總隊會同豐臺網安對此介入調查。隨后在今年3月,警方鎖定位于福建省泉州市豐澤區某辦公樓內的星援網絡科技有限公司,將4名涉案人員全部抓獲。其中,該公司法人蔡某因涉嫌破壞計算機信息系統已被豐臺檢察院批捕,同時警方正對另外三人開展進一步工作。且經調查發現,不到一年的時間,“星援”App便非法獲利近800萬元。
不僅如此,北京商報記者經調查發現,“星援”App只是眾多刷量軟件的冰山一角,市面上還存在多個提供刷微博轉發量、評論量、點贊量的軟件。[7]
可見,從電商平臺到社交平臺,相關惡性群體已在暗處悄然發展壯大,乃當今社會的一大隱患。
簡而言之,對于現有各類平臺,都有必要在構建平臺伊始便有意識地構造對于水軍的系統性防范工程。而相關研究正是旨在為平臺提供相關建議,幫助平臺建立高效的網絡水軍防范系統。
研究背景
Web 2.0 時代的到來,改變了網站設計和使用的 方式,其一大特征就是用戶生成內容( User-Generated Content,UGC) ,即網站等線上內容由用戶創作、貢獻
而成。對于多數用戶來說,其創造內容的動力主要是——自我表達、獲得他人的認可、解決遇到的問題等,他們往往是主動地、自發地創造內容,是內在需要主要驅動的。其中,社交網絡作為互聯網最重要的平臺,在內容分享、娛樂交友、電子商務等各方面發揮不可替代的作用。
網絡水軍則是被雇傭以發布特定的內容,來達到宣傳、營銷、炒作等目的,這種行為往往是被動的、利益驅動的內容創造。并且隨著社交網絡的逐步興起與壯大,其自身也成為了網絡水軍生長的溫床。
發展脈絡
綜合該領域研究,可以發現以下四條清晰的發展線索。
反水軍戰場——從郵件系統到社交媒體
早期的水軍主要活躍在國外的郵件系統中,因而關于水軍識別方面的研究最早也是起源于國外對于垃圾郵件的識別領域。其研究方法以內容分析為主,郵件特征提取是反垃圾郵件和識別水軍的核心。在這個時期,僅通過簡單的文本分類即可取得較好的識別效果。
該時期的研究主要集中于基于郵件文本內容、基于異常行為和基于圖片特征提取等方面。其中代表性工作包括三方面的內容:
首先,基于文本內容的特征提取主要利用了詞匯袋法(bag-ofwords,BoW ) 、稀疏二元多項式哈希(space binary polynomial hashing,SBPH) 、正交稀疏詞匯(orthogonal space bigrams,OSB) 、人工免疫系統(biological immune system,BIS)等方法;其次,基于行為的垃圾郵件檢測是通過提取垃圾郵件區別于正常郵件的行為特征來檢測過濾垃圾郵件。常用的有基于郵件頭部信息及系統日志的行為特征 、基于附件的行為特征和基于網絡的行為特征等;最后,基于圖片的特征提取關鍵在于提取有效的圖片特征。
隨著Web2.0時代的到來,博客、微博等社交平臺與電商平臺的興起給了網絡水軍一個嶄新的舞臺,在不同活動領域的水軍具有截然不同的活動特征,相應的分析方法也因而有所不同。由于在社交平臺和電商平臺上水軍產生影響力的方式不同,研究工作一般基于用戶的屬性特征和行為特征進行展開。
近年來,網絡水軍的行動越發呈現出專業化、組織化、隱蔽化等特征,水軍們開始有計劃有組織地展開行動,電商與水軍之間互相勾結的狀況也屢見不鮮。因而以往基于用戶行為特征、文本內容的和融合特征的分析方法也開始喪失功效,正是在這種背景下,各種基于社交網絡的分析方法開始被提出。
特征選取——從文本與行為特征到網絡特征
如吳恩達所說:“應用機器學習其實就是在做特征工程,特征工程是非常難、耗時、也是需要專業知識的一個工作。鑒于水軍識別本質上是一個分類問題,特征選取是解決該問題的核心。也正因為如此,多數水軍識別領域的研究都集中于特征的選取上。如楊臻等[8]提出“評論數偏多、原創話題較少、活動時間集中、評論情感偏向明顯”等特征;謝忠紅等[9]通過分析正常用戶和水軍的關系圖,提出了粉絲數、關注數、好友粉絲比、注冊時間、活躍度、關注速率、雙向關注比和互粉數八個特征,張艷梅[10]等提出了粉絲關注比、平均發布微博數、互相關注數、綜合質量評價、收藏數和陽光信用六個特征。
然而以上種種基于文本、用戶行為以及綜合特征的特征選取方法在新環境下的水軍識別中已經不再適用。隨著各方對水軍防范意識的增加,水軍的作戰策略也在改變,以往的特征已經不能有效辨別他們。在這種背景下,各種基于社交網絡分析的方法也應運而生。
如李濤[11]等通過水軍賬戶與普通賬戶之間深層次的區別,找到了事件參與度、二階關聯性、關系緊密度等特征;文獻[12]提出將網絡水軍看作為整個網絡用戶中的離群點,崔麗娟[13]等在此基礎上利用頻繁子圖和離群點算法挖掘出來的用戶群體定義為疑似網絡水軍團體。
除此之外,還有一些研究者獨辟蹊徑,發現了一些有趣的特征選取方法。如陳彤等在發現了水軍團體的“對抗性”行為特征后,提出了1用戶評論情感與用戶打分不一致、用戶文字評論與用戶上傳圖片評論都極其相似、用戶上傳與產品沒有任何關系的圖片評論三個“隱性特征”。
另外,考慮到水軍識別系統最終要實現實時性的在線識別,李巖[15]等使用計算波動率的方式構造了社交網絡用戶的動態行為特征,構造的特征計算量小、便于實際運用。相較于以往的靜態特征,動態特征更符合水軍識別系統的需要。
然而,到底哪些行為特征對水軍識別較為有效,學術界和工業界均尚無定論。
分析對象——從個體到團體
研究伊始,各種研究的關注點都放在對個體水軍的判別上。然而,隨著網絡水軍團體的發展,一方面,越來越多的網絡水軍之間已形成一定的組織結構,開始有目的有組織地行動;另一方面水軍之間為了隱藏自己的內容、行為等異常特征形成了緊密的聯系,其個體呈現出的特征趨向于正常用戶,導致以檢測單個網絡水軍為主的方法準確率不高。
不少研究者開始將網絡水軍團體作為研究對象,他們先利用以往的水軍識別技術發現網絡水軍,再利用聚類、社區劃分等算法挖掘網絡水軍團體。然而由于以上提到的種種原因,水軍往往表現出與正常用戶相似的行為,使得基于聚類的方法不夠有效,另外楊柯等研究發現,對隱藏性較高不共享大量目標產品的電商水軍團體,單純以行為特征構建排序或分類識別模型的識別準確率存在瓶頸。
以往都是以識別單個水軍為主的研究方法,很少有研究者對網絡水軍的整體性進行研究。而Chunlong等人[16]通過大量的實驗發現網絡水軍是一個有組織的、具有高度協作性的群體,為網絡水軍團體的識別研究提供了有效證據。
楊柯等利用電商水軍在電子商務平臺中形成的用戶關系網絡,探查其異常用戶關系,從而定位密集活動的大規模電商水軍團體。崔麗娟等利用改進的頻繁子圖挖掘算法找出經常一起出現在多個炒作博文 下的用戶群體。通過利用圖結構,更直觀,更清晰地呈現出水軍團體成員之間的關系,體現了網絡水軍團體的結構特征。在此基礎上,利用網絡水軍團體與普通用戶群體之間的不同特征,訓練了一個基于 C4.5 決策樹的網絡水軍團體分類系統,對疑似網絡水軍團體判定,得到網絡水軍團體。
算法設計關注點——從準確度到兼顧效率與可拓展性
現有研究多致力于提升檢測算法的準確性,較少關注算法的效率和擴展性,難以有效應對真實環境中的大規模用戶數據。大數據分析從來都是一個工程問題,不管研究什么問題,都必須從準確度、效率、可拓展性、實時性等多維度綜合考慮,
對此,張 璐等提出一種高效的水軍群組檢測算法,從兩個方面提升算法效率。首先,提出基于余弦模式挖掘的候選群組提取算法,通過余弦相似度衡量群組成員間的耦合性,更加精準地提取候選群組,降低后續識別的計算量。其次,利用組投影技術和 Spark 計算框架設計分布式群組提取算法,提升算法的運行速度和擴展性。
未來發展方向
從研究發展的發展脈絡,不難總結如下三條發展方向。
首先,在網絡水軍日益專業化、組織化、隱蔽化的大背景下,以往那些僅僅關注于文本特征、行為特征和綜合特征的研究方法已經不再有效,亟待根據水軍活動的現狀,從新的視角展開研究。而基于社交網絡的研究方法是一條有效路徑。
此外,以往的研究缺乏對工程上可實施性、實時性的關注,僅僅從水軍分辨的準確度這單一維度設計算法。然而在實際的應用中,在巨量的數據、有限的計算資源以及對實時結果的要求下,準確度并沒有那么重要。因此,在相關的研究分析中,應該站在工程的角度,通盤考慮這個問題,這是以往很多研究所欠缺的。
最后,楊柯還指出,電商水軍識別結果的不易評價是困擾電商水軍研究者們的一關鍵問題。識別模型的真實用戶評論集表現需結合準確的用戶分類標記進行,但在電子商務領域中為保護用戶隱私信息,無法百分百精確建立用戶分類標記。已有電商水軍識別的結果多數以專家和眾包服務所建立的用戶標記為基準,計算識別結果準確率難以得到有效提高。
因此,在這種數據標簽極難獲取的情況下, 如果一位地使用當前主流的大數據擬合小目標的監督式建模框架, 就必須通過人工標注來獲取訓練數據,如此一來會耗費大量的人力物力資源。不僅如此, 模型的效果很大程度取決于特征的完備性, 而特征工程往往強依賴業務經驗, 開發出一個有效的特征可能會需要一個人或團隊花上幾周甚至幾個月的時間。這大大降低了識別的效率與準確率,完全不符合平臺對于惡性用戶識別的“實時性”、“魯棒性”等要求。
如何通過無監督、自監督的建模框架,利用無標簽的數據實現對于平臺潛在惡性用戶的識別與挖掘是今后的一大發展方向。然而時下在惡性用戶識別領域則鮮有對該方向的研究,如前所述,大部分研究者將對于惡性用戶的識別定位為一個“二分類問題”。該定位首先意味著將研究的底座放在了監督式框架之上,則必然會遇到之前所提到的若干問題;另外,“二分類”問題會導致數據間“關系型”數據的丟失,而正如之前所提到的,在未來通過“社交網絡”進行分析是研究的一大趨勢。
因此,在未來的研究中有必要重新定義惡性用戶識別問題的本質,綜合考慮惡性用戶群體的發展特性、識別算法與模型的工程可行性等多方面因素。
參考文獻:
[1]Chevalier J A, Mayzlin D. The Effect of Word of Mouth on Sales: Online Book Reviews[J]. Journal of Marketing Research
[2]李璐旸,秦兵,劉挺. 虛假評論檢測研究綜述[J]. 計算機 學報. 2018, 41(04): 946-968.
[3]電子商務網絡水軍的智能識別研究 楊珂 莫倩
[4]騰訊&中國信通院. 2018.11. 數字金融反欺詐-洞察與攻略
http://www.caict.ac.cn/kxyj/qwfb/bps/201811/t20181127_189555.htm
[5]中國信息安全測評中心 趙爽 馮浩宸? “機器人水軍”發展與影響評析
[6]錢玉娟 經濟觀察報 http://www.eeo.com.cn/2019/0224/348529.shtml
[7]“星援”App被端 流量造假得不償失 北京商報 2019-06-12
[8]基于多特征的網絡水軍識別方法 楊 臻,張明慧,肖 漢
[9]基于邏輯回歸算法的微博水軍識別 謝忠紅,張 穎,張 琳
[10]基于貝葉斯模型的微博網絡水軍識別算法研究 張艷梅 黃瑩瑩 甘世杰 丁熠 馬志龍