武雅利,徐勇,焦夢蕾,許崇,汪倩
(安徽財經大學管理科學與工程學院,蚌埠233030)
據2019 年2 月發布的《第43 次中國互聯網絡發展狀況統計報告》顯示,截至2018 年底,我國網民規模達8.29 億,網絡普及率不斷提升,高達59.6%。其中,我國網絡購物用戶高達6.10 億,占網民整體的73.6%。隨著線上購物的興起,網購所產生的在線評論成為研究熱點。
在線評論作為用戶生成內容(User Generated Content,UGC)的一種存在形式,一直是電子商務平臺重要的研究對象。在文獻[1]一文中,給出了用戶生成內容(UGC)、電子口碑(EWOM)、在線評論和在線推薦的金字塔模型,其概念逐漸地細化,信息的質量也在不斷提升。在線評論作為金字塔的中堅力量,對在線推薦奠定了很好的基礎,同時也是網絡電子口碑不可分割的一部分。部分網絡商家為營造出虛假的繁榮,會進行“刷單”操作,且雇傭網絡水軍做出虛假評論,而在線評論的真實與否,對整個電商平臺的環境至關重要[2]。因此,針對虛假評論和網絡水軍的識別工作至關重要。創建于2000 年“貓途鷹”(TripAdvisor),是全球領先的旅游點評軟件。2018 年9 月,意大利的Promo Salento公司因雇傭員工在“貓途鷹”中從事虛假好評并出售,被判處9 個月監禁,且付出8000 歐元的經濟賠償,成為全球首例因虛假評論被判刑的案件。

圖1 UGC、EWOM、在線評論和在線推薦概念圖
電商平臺中,虛假評論通常是指與事實不符的信息,即與商品本身特征不相符的評論。如今,網購在很大程度上便捷了人們的生活,但信息不對稱現象一直存在于賣家與買家之間[3,4],而在線評論的存在就是為了緩解這一矛盾。通過在線評論,顧客之間形成一種交流與互動,有購買意向的潛在消費者可以通過瀏覽已購買用戶的在線評論,從而對自己是否購買做出決定,不再只關注賣家的一面之詞,大大地降低了購物過程中的風險。在線評論推動了線上和線下業務逐漸增長,那么商家勢必會采取各種方式提升自己的好評率,虛假評論順勢而生。虛假評論屬于垃圾評論的一種,此外,垃圾評論還包括無關評論。相較于無關評論,虛假評論更易被誤認為真實評論,不易鑒別。
網絡水軍是指網絡環境中,出于利益驅使、或惡意擾亂網絡環境的不良動機,經常性發布虛假言論的用戶個體。網絡水軍具有若干特征[5]。首先,網絡水軍進行對商品進行虛假評論往往是為了獲得經濟利益,而正常用戶是為了表達真實的購物體驗以及為其他用戶提供幫助;其次,網絡水軍數量較大,為了取得明顯的效果需要利用水軍軟件、傀儡賬號,或雇傭大量賬號;最后,網絡水軍行為異常,會短時間聚集于目標商品的評論區,并且這些評論通常具有很強的情感傾向。網絡水軍的不斷“進化”,使普通用戶越來越難以辨別,因此網絡水軍的識別工作愈加艱難。
針對用戶生成內容、在線評論等研究興起于國外,國內起步較晚但研究熱度較高。不同于由獨立單詞構成的英文評論文本,針對中文評論文本的研究更為艱難。從語法上來說,構成中文語句的基本單位是“詞”,而詞的結構不固定,在分詞階段易出現信息遺漏、歧義等問題[6]。語法分析包括對文本進行詞袋特征分析及詞性特征分析[7]。根據中文結構,文本分析可分為詞匯層、句子層和文本層[8],語法分析在這三個層面上都存在一些問題。如缺少完善的實驗語料、實驗平臺;大多研究僅僅通過主題詞、短語、語法等信息判定語句的極性,未能加入詞語所在語境的硬性;在文本情感分析過程,無法準確地辨別除情感詞外的詞語對語句情感極性是否有影響等。
語義,是指語言的意義。計算機在理解在線評論所包含的意義時,需要將評論文本轉換為機器可以識別的語言。現有的文本表示方法,通常利用谷歌公司于2013 年發布的Word2Vector 工具,將單條在線評論轉化為詞向量。針對每個詞進行語義信息改進,又可生成詞的語義特征向量[9]。
情感作為評論內容隱含的因素,可作為區分正常評論和虛假評論的途徑[10]。通過將LDA 的結構由原來的三層拓為四層,形成文檔、主題、情感、詞四層結構,并結合評論的主題信息,汪建成等將評論提取為6 維特征,提出了一種基于主題對立情感依賴模型(TOSDM)實現對虛假評論的檢測[11]。針對評論情感分析中的文本稀疏問題,M.H.Arif 通過對XCSR 分類器的擴展,改進了評論中帶有情感特定詞的分類效果,但仍存在局限性[12]。
電商平臺中,在線虛假評論的發起人可能是正常用戶,也可能是網絡水軍。信譽極低的用戶,其發布的評論也很可能是虛假評論[13-14]。金燕通過挖掘、分析用戶以往信息活動中的UGC 創建、轉發、評論等歷史行為,為用戶建立起個人信息行為動態信譽評級模型。并根據用戶的信譽等級,對用戶今后UGC 質量進行預判[15]。對虛假評論檢測任務,李璐旸等主要從虛假評論文本、虛假評論發布者及虛假評論群組三個角度開展研究。該文將依次對三類研究進行歸納分析,具體分別從特征設計、模型方法、數據集、評級指標等方面進行了對比總結。基于文本分析的檢測研究包含三類檢測方法,分別是基于語法分析、基于語義分析和基于文體元數據分析的虛假評論文本檢測。
用戶在網絡中的行為都會被記錄,如瀏覽商品、商品收藏、評價點贊等行為。通過對這些行為進行分析,可以刻畫出用戶的真實畫像。現有學者分別針對股民、社交用戶等網絡用戶群體進行用戶畫像的刻畫,且取得不錯成功[16-17]。以微博平臺為例,齊超等通過對用戶轉發、評論和提及三種行為進行綜合分析,運用統計分析方法就微博用戶的不同行為對傳播影響力的貢獻進行度量,提出一種基于行為權值分配的PageRank 算法,對傳播影響力大小進行定量的分析。并通過真實數據進行實驗,結果得到了準確率更高的用戶影響力判斷,且分析出轉發行為是用戶影響力判定的重要因素[18]。
類似于現實社會的人際關系,網絡用戶存在著千絲萬縷的聯系。微博平臺用戶之間的關注、評論、點贊、轉發等行為[19];電商平臺中用戶的商品推薦、商品收藏、評論點贊等行為;知識問答社區的提問、回答、關注等行為。基于“六度空間理論”,網絡用戶之間同樣存在著“強關系”與“弱關系”[20]。網絡用戶的關系可視為一個加權無向圖,其中節點表示用戶,邊表示用戶之間的關系,邊的權值表示用戶之間的關系強度,徐志明等將用戶關系強度定義為用戶之間的相似度[21]。王大玲等梳理了“用戶”與“資源”量大兩大實體間的關系,包括用戶與用戶的聯系、用戶與資源間的操作利用以及資源間的相似性[22]。從用戶關系或用戶行為任一孤立的角度解決網絡水軍識別,都是存在缺憾的。因此,將網絡用戶與網絡資源相結合可以將網絡水軍識別工作更加完善。
《中華人民共和國電子商務法》的立法進程于2013年底正式被啟動,2018 年8 月正式頒布,并與2019 年1 月1 日起正式實施。該法案對信用炒作、虛假交易及限制競爭等行為提出懲戒原則,規范網絡市場秩序。《反不正當競爭法》中也指出,經營者不得通過組織虛假交易等方式,幫助其他經營者進行虛假或者引人誤解的商業宣傳。縱觀近年來網絡水軍參與的網絡事件,網絡水軍雖然對社會輿論、商業環境產生一定不良影響,但未能完全操縱輿論,究其原因是網絡擁有自凈化機制自組織效應[23]。
國家相關部門頒布的相應法律法規,對在線商品的虛假評論、網絡水軍有一定震懾作用。與此同時,還應加強廣大網民的思想道德建設。網絡環境中,用戶所發表的言論具有一定隨機性、匿名性、海量性等特點,致使網民忽視了UGC 的版權問題[24]。加強全民版權保護意識、UGC 主體的版權意識,依靠學校教育、社會教育,以及UGC 網站中對UGC 版權的宣傳。
本文基于語義、語法和用戶主體角度,總結了現有虛假評論識別方法。基于用戶行為和用戶關系兩方面,描述網絡水軍的識別方法。指出凈化網絡環境和提升用戶素質角度,對虛假評論和網絡水軍現象進行治理。虛假評論檢測和網絡水軍識別一直是自然語言處理的研究熱點,除此之外,如何及時發現虛假評論、實時網絡水軍識別是下一步需要解決的問題。