999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向電商平臺的營銷水軍集成識別研究

2021-08-09 03:24:02王雷陳大文
電子技術與軟件工程 2021年11期
關鍵詞:特征用戶檢測

王雷 陳大文

(江蘇金盾檢測技術有限公司 江蘇省南京市 210042)

1 引言

隨著互聯網的發展與應用,人們邁進Web2.0 的時代,使人們由信息的接收者轉向信息貢獻者和信息創造者,大眾之間的虛擬交流變的更加頻繁。在各大網絡平臺,用戶注冊數量不端攀升,根據之前微博的財報顯示,目前微博的月活躍用戶已經超過3.76 億,美國點評網站Yelp 擁有超過1.08 億條評論信息,評論年增長超過0.18 億[1]。隨著阿里巴巴、郵件服務、網絡論壇等眾多領域都取得了飛速發展[2],大量不法分子發現了其中的巨大利益,利用網絡賬號發布謠言,欺騙公眾,造成了市場的混亂和社會的不穩定。網絡水軍指那些由商業利益驅動,為達到不正當目的,通過操縱水軍賬號,在互聯網中制造、傳播虛假信息和垃圾意見等網絡垃圾意見生產者的總稱[3],在電商平臺中則是營銷水軍。

在網絡上購物時,用戶留下的評論信息可以直接影響消費者的購買意愿。購買者對商品留下的評論信息往往具有重要的參考價值,可以了解到商品的真實情況。由于利益的驅動,一些商家會雇傭水軍為自己的商品散布一些不真實的正面評論以提高銷量,或是發布關于其他商家商品的負面評價。這些營銷水軍的存在嚴重影響了電商平臺的正常競爭機制。因此如何通過相關技術手段來識別這些網絡水軍已經成為了一個日益迫切的問題。

網絡水軍識別主要運用Web 信息挖掘技術,定義高區分度特征及行為模式發現隱藏的網絡水軍[4]。由于早期網絡環境并不復雜,獲得郵箱的途徑便捷且代價很小,所以傳統網絡水軍多是通過用戶郵箱來進行欺詐活動,其數量規模也不大,隱蔽性也不高,垃圾信息也較為單一,因而識別方法主要基于垃圾信息內容分析,例如郵件內容分析[5]來檢測水軍。而面對Web2.0 時代的新型網絡水軍,傳統的檢測方法已無法滿足要求,需要結合新的技術來解決問題。

2 相關技術與方法

表1:傳統水軍識別與新型水軍識別的比較

國內外網絡水軍識別研究取得了很大的進展,但是還是存在很多問題需要解決。從最早集中于郵件內容的研究,到如今針對各大網絡平臺上水軍的識別研究,出現了很多有效的技術和識別方法。

2.1 基于內容特征的水軍識別研究

Niu、Chen 等人[6]從論壇網站,用戶瀏覽行為和論壇水軍這幾個角度分析后,提出了基于內容特征來識別水軍制造的垃圾信息。劉鴻宇、趙妍妍等人[7]對評論內容進行了對象抽取和傾向性判斷,從而識別區別于正常用戶的水軍。

2.2 基于用戶特征的水軍識別研究

Husna 等人[8]分析了郵件機器人的行為特征,例如內容長度、垃圾郵件到達時間、垃圾郵件頻率等,還計算了郵件水軍的相似性對其聚類分析。Lim 等人[9]捕捉了Amazon 中幾種具有代表性的網絡水軍行為,并設計了基于商品評價偏離的識別方法。Sawaya、Kubota 等人[10]首次發現了移動服務商骨干網絡中的水軍有嚴格的時間序列特征和發送模式,并利用這些特征對其進行聚類分析。

2.3 基于環境特征的水軍識別研究

Uddin 等人[11]利用邊緣路由器IP 沖突記錄,通過網絡流量來得到水軍的網絡級別行為特征。Schatzmann 等人[12]提出了從網絡核心部分分析網絡水軍行為,以實現復雜網絡水軍的探測。Las-Casas 等人[13]提出從網絡水軍產生源頭進行識別的方法,即基于水軍產生時的網絡特征識別。

3 網絡營銷水軍特征分析

在Web 2.0 時代,網絡環境的劇烈變化而引發的新問題早已超出了傳統方案解決的能力。早期的傳統營銷水軍模式單一,行為復雜度不高,而今的營銷水軍通過多種手段和渠道進行欺詐,散布謠言等活動,其行為模式也更為隱蔽,使其加大了對營銷水軍識別的難度。如表1 所示。

目前網絡上營銷水軍的運作模式還是以散布廣告,虛假文本信息為主,例如,在我們熟知的新浪微博中,首先會有一個主管人向水軍用戶發布相關任務,每個水軍得到大致任務后,再根據具體要求向其他正常用戶發送信息。這其中,有的水軍可能會被分配向那些擁有很多粉絲的大咖發送營銷文案,另外一部分可能會被安排向較為活躍的普通用戶發送廣告,這些不同的用戶群體構成了不同的圈子,組織者會根據不同圈子的特點來組織水軍進行營銷,其內容也會根據不同用戶而改變。營銷水軍組織形式如圖1 所示。

不管每個水軍的行為模式和組織團體如何變化,它們在網絡中與正常用戶的關系結構是大致相同的,即每個營銷用戶都會與大量正常用戶節點產生信息交流。假設網絡中的所有用戶為節點,用戶之間產生的聯系為邊,則可以構建如圖2 的分布特性。

因為水軍需要發布大量的信息給不同用戶,基于這個性質可以發現水軍基本上會和大量用戶產生關聯關系。從上圖中來看,營銷水軍的出度普遍要大于入度,而普通用戶并沒有這一規律。出度為本節點向另外的節點發送信息,入度為本節點接收來自其他節點的信息。

4 虛假評論檢測模型

網絡營銷水軍在各大電商平臺的涌現,也隨之帶來了大量的營銷信息,這些營銷信息多是在商品評論區作為載體進行散布。正是因為這些信息具有不符合實際的因素,從而可以被稱為虛假評論。這些虛假評論鼓吹和夸大商品特點,影響用戶正確的選擇和消費行為。如何在網絡平臺中識別這些虛假評論一直是國內外研究的重點。

目前虛假評論的識別研究技術主要是在兩個方面:基于評論內容的方法和基于評論者行為的方法。為了增加營銷信息發布的范圍和傳播速度,水軍做出的評論一般都具有高重復,形式單一等特點,基于評論內容的方法主要通過自然語言處理的相關技術來識別評論中的顯著特征,以此來判斷評論真假。Stringhini 和Kruegel 等人[14]在幾個主流社交網站上使用自己的“誘捕器”收集了水軍的行為數據,發現了與正常用戶的不同之處。例如,水軍集中性的發布評論會給網絡帶來異常流量,所以它們會故意避開工作時間段發布信息。

圖3 展示了一般的虛假評論檢測方法框架,第一步是選擇使用的數據集,早期使用的數據以評論文本為主,往后又加入了評論者的行為數據以提高檢測精度。然后經過數據預處理階段過濾無效樣本,下一步中,通過特征工程來選取與任務最相關的特征,這也是影響最終結果關鍵的一步,一旦確定了特征之后即可將相關特征送入機器學習模型,通過計算后得出判斷結果。

5 模型和方案

從目前的研究來看,現有的方法仍然有不少不足之處。使用行為特征的檢測模型是基于營銷水軍的行為與正常用戶不同這一假設而來,但是隨著網絡環境的復雜化,用戶意識到大量水軍的存在并加強了對水軍的警惕性,導致營銷水軍不斷調整營銷策略。這樣一來營銷水軍的行動更為隱蔽,一般的行為識別機制已無法探測。另外,作為營銷手段的營銷文案也有越來越多樣化的趨勢,不同于直接復制發送的單一形式,現有的評論還會加入圖片,表情等多種元素,導致模型難以進行有效的檢測。

本文針對電商平臺上的營銷水軍識別從三個方面入手,首先對用戶的行為特征進行重新選取,考慮每個特征與實驗的相關性,選擇最佳的行為特征作為整個模型輸入的一部分。其次,擴展對評論文本的分析范圍,不僅考慮評論的重復性,最長公共子串的長度和語義分析,還增加了詞匯多樣性檢測,表達形式豐富性統計等,進一步提高檢測準確度。此外,還加入了水軍的網絡結構特征進行分析,因為它的穩定性,不會輕易被用戶行為所影響,營銷水軍也不能掩飾他們在網絡上的結構特征,甚至還可以發現水軍團體。營銷水軍模型框架如圖4 所示。

針對電商平臺上的用戶行為特征,經過計算我們挑選了6 個特征:用戶評論數量,用戶好評數量,用戶差評數量,用戶評論頻繁程度,用戶購買商品數量,此外還引入了用戶極端性評論數量。然后通過K 均值聚類算法基于行為對用戶聚類,K 均值算法會先選取K 個聚類質心點(μ1,μ2,μ3,…,μk)∈Rn,然后初始化簇C={C1,C2,…,Ck},計算樣本xi和各個質心點μj(j=1,2,…k)的距離,根據樣本到質心點的距離來對樣本進行簇類劃分,當劃分完畢后重新計算每個簇的質心點μj,重復上述步驟直到質心點不再更新或更新很小。距離公式和質心點更新公式如(1)(2)所示。

營銷水軍散布的文案中一般都會使用單一的詞匯或詞性,比起正常評論帶有豐富的情感和詞匯,虛假評論就會顯得較為機械性。所以我們利用評論中形容詞和副詞數量占整個總詞匯量的比例來表示詞匯多樣性。公式如(3)所示。

這里的rei為第i 個評論,Nadj為形容詞數量,Madv為副詞數量,total(review)為評論詞匯數量。

另外對于評論帶有的非文本因素也給予了考量,作為表達形式豐富性進行量化。假設評論中帶有圖片,表情,視頻,文字這四種形式,若第i 個評論中的第j 個圖片為Pij,第k 個表情為Eik,第s個視頻為Vis,則有以下公式(4)來表示形式豐富性。

利用用戶網絡關系拓撲結構圖可以分析營銷水軍在網絡中的“足跡”,傳播模式和影響力等重要性質,故而在文本中加入網絡結構特征進一步提高水軍識別能力。用戶結構圖以G(V,E)表示,其中節點數n=|V|,Vi代表節點i,eij代表節點i 和節點j 之間的邊,aij為鄰接矩陣的元素。我們用節點的出度和入度,節點中心度作為水軍在網絡結構中的特征因子。

公式(5)為節點中心度的計算方程,主要用來衡量網絡節點對其鄰居的影響力。公式(6)和公式(7)為節點的入度和出度的計算公式,與用戶相關行為的指標可以用它來表示,例如點贊數,評論數,回帖數等。

通過對評論內容,用戶行為和用戶網絡結構的綜合分析,可以取長補短,提高模型對營銷水軍識別的綜合能力。特別是對新型營銷水軍大肆泛濫的今天,通過單一方面的檢測已經很難達到滿意的效果,融合多種不同場景的特征分析可以勝任更艱巨的任務。

6 結論

本文基于電商平臺上的用戶評論、行為和網絡結構進行研究,分析了目前營銷水軍的行為特點,在網絡平臺上的組織結和網絡拓撲結構,在虛假評論檢測模型中引入了新的特征,對用戶行為進行聚類,提出了結合虛假評論檢測,用戶行為識別和用戶網絡拓撲結構分析的模型框架,為網絡營銷水軍識別提供了新思路和可靠方案。

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應用
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 九九免费观看全部免费视频| 亚洲精品无码抽插日韩| 99精品欧美一区| 亚洲精品视频在线观看视频| 91香蕉视频下载网站| 一级毛片在线播放| 亚洲天堂视频网| 亚洲免费福利视频| 欧美伊人色综合久久天天| 欧美色视频在线| 99视频精品全国免费品| 欧美中文字幕在线二区| 91高清在线视频| 久久黄色小视频| 欧美精品导航| 久久久久久久久久国产精品| 最新加勒比隔壁人妻| 久操中文在线| 欧美综合区自拍亚洲综合天堂| 免费国产好深啊好涨好硬视频| 成人福利一区二区视频在线| 成人在线综合| 婷婷色婷婷| 色综合天天综合| 国产成人精品男人的天堂| 成人精品免费视频| 日本亚洲成高清一区二区三区| 亚洲精品午夜无码电影网| 成人午夜视频网站| 国产福利免费视频| 亚洲嫩模喷白浆| 亚洲福利一区二区三区| 久久伊伊香蕉综合精品| 国产成人精彩在线视频50| 日本91在线| 四虎国产在线观看| 欧美色亚洲| 欧美国产日产一区二区| 99这里只有精品6| 亚洲一区无码在线| 欧美一级黄片一区2区| 亚洲欧美激情小说另类| 国产精品永久在线| 在线观看的黄网| 午夜福利无码一区二区| 少妇精品在线| 欧美福利在线观看| 99re在线视频观看| 亚洲熟女偷拍| 国产美女91视频| 97一区二区在线播放| 久草国产在线观看| 中文国产成人精品久久| 人妻无码一区二区视频| 日本精品一在线观看视频| AV不卡无码免费一区二区三区| 国产喷水视频| 在线日本国产成人免费的| 狠狠久久综合伊人不卡| 日韩精品一区二区三区免费| 亚洲三级a| 四虎成人免费毛片| 亚洲嫩模喷白浆| 成色7777精品在线| 亚洲午夜福利在线| 欧美一区二区丝袜高跟鞋| 夜夜操天天摸| 中文字幕欧美日韩高清| 亚洲欧洲免费视频| 波多野结衣中文字幕一区二区| 欧美视频在线第一页| 99re视频在线| 精品久久久久无码| 国产综合精品日本亚洲777| 色天天综合| 亚洲第一色视频| 久久这里只有精品66| 色噜噜狠狠狠综合曰曰曰| 国产在线麻豆波多野结衣| 高清乱码精品福利在线视频| 尤物精品国产福利网站| 99热这里只有精品国产99|