999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于D-S證據理論的電子商務虛假評論者檢測

2018-11-15 01:54:14張文宇張彬彬
小型微型計算機系統 2018年11期
關鍵詞:特征融合用戶

張文宇,岳 昆,張彬彬

(云南大學 信息學院,昆明 650500)

1 引 言

在亞馬遜中國、京東商城和淘寶網等電子商務網站中,消費者可以通過評論與評分表達他們對商品的使用感受和對商家服務的滿意度.不同于傳統實體購物,商品評論成為了消費者和商家了解產品質量和服務最為重要的信息來源.通常,與僅有小部分正面評論的產品相比,擁有絕大部分正面評論的產品更受消費者歡迎;如果一件產品包含正面評價較多,則可大大增加消費者的購買欲望[1],消費者在線評論的價值已得到消費者和在線零售商的公認[2].部分商家為提高自身信譽或貶低競爭對手開始通過雇傭評論者甚至親自去充當評論者書寫虛假評論誤導潛在消費者,這些評論者通常給予正面評論夸大商品的品質,通過負面評論詆毀商家的信譽.互聯網中這類發表不真實、具有欺騙性的評論者被稱為虛假評論者[3],虛假評論者的存在,干擾了商品描述的真實性及推薦系統的準確性,也損害了電子商務平臺的健康運行與良性發展.因此,如何對評論者信息數據進行分析、進而識別出虛假評論者,有重要現實意義.

不同于真實評論者,虛假評論者的動機主要是推銷和詆毀,故虛假評論者本身的行為特征和真實評論者有較大區別.現有虛假評論者識別方法主要從消費者某種單一行為入手進行分析,未從不同的視角對評論者的行為進行觀察,只能發現評論者的單一作弊行為而遺漏了其它潛在的作弊行為.表1給出了一個真實的虛假評論者示例,其作弊行為不僅體現在給予所評論商品全五星好評,而且體現在評論都集中在某一天、評論內容完全相同、評論目標集中在同一家商店的書籍等.當發現評論者的多種異常行為時,我們更加容易判斷其身份是虛假評論者,因此,本文在多種行為特征下對評論者身份進行分析.一方面,評論者的每一種行為特征對評論者身份的影響都具有不確定性,如何在不同的觀測空間中準確衡量這種不確定性,是提高虛假評論者識別率的前提.另一方面,如何有效綜合考慮影響評論者身份的多個因素,也是亟待解決的問題.因此,本文考慮衡量各層面因素的不確定性及這些因素對虛假評論者識別的綜合影響,在以上兩個角度識別虛假評論者.

表1 一個真實的虛假評論者

為了提高商品信譽度或宣傳競爭對手商品的缺點,虛假評論者往往會做出復制觀點、重復評論、評分極端、評論交易日期集中、夸大商品質量等舉措,意圖讓好評或差評成為目標商家商品的主流輿論,進而誤導消費者判斷.真實評論者會根據需求購買自己所需商品,不像虛假評論者那樣反復對同一網店的固定產品進行評論評分,購買行為呈現出隨機性.同時,虛假評論者賬戶的職能在于完成商家給定的任務,和其他評論者之間往往沒有交流行為,也沒有正常的社交網絡.綜上,在現有電商體系下,我們對此兩類評論者的行為動機進行分析,認為評論者自身的行為不僅表現在其評價行為,而且表現在對商品的關注行為和與其他評論者之間的交流行為,通過這三類不同特征來綜合描述評論者所呈現的行為.

證據理論(又稱D-S證據理論)是一種由Dempster提出、Shafer進一步完善的不精確推理理論,在解決不確定信息的表示和融合方面有其獨特優勢[4],被廣泛應用于數據融合、故障診斷及風險評估等領域[5-9].證據理論首先將描述系統的不確定信息轉化為證據,然后利用Dempster組合規則進行證據融合.本文基于D-S證據理論的基本思想,無需假設各影響因素不確定性和完備性,以評論者的評價行為、評論者對商品的關注行為、評論者的交流行為特征作為對虛假評論者檢測的“證據”,構建虛假評論者識別框架,討論基于以上三類特征的虛假評論者發現方法.

支持向量機(SVM,Support Vector Machine)是機器學習領域內的有監督學習模型,通常用來進行模式識別、分類及回歸分析[10-12].SVM分類本質是尋找一個軟間隔超平面,通過正則化求解,使樣本點到超平面的距離之和最大.當樣本集線性不可分時,通過選擇核函數將樣本映射到核函數隱式定義的特征空間.本文提出通過多個維度對評論者評價行為、評論者對商品的關注行為、評論者交流行為分別進行衡量,基于三種行為特征建立不同的SVM模型,利用SVM處理小樣本及多維數據的優勢對單特征模式下評論者的作弊行為進行探討.進一步,本文參考Platt引入sigmoid函數擬合后驗概率值[13],將SVM的無閾值輸出轉化為關于真實評論者和虛假評論者的后驗概率輸出,為證據融合奠定基礎.

我們在單特征SVM模型的基礎上定義了相應的概率賦值函數,利用證據組合規則得到不同證據對最終評論者身份判定的聯合影響.一方面,SVM的錯誤率表示不能確定將目標評論者樣本準確進行分類的概率,與證據理論中的不確定信息相吻合,可以將其視為融合決策中的不確定信息.另一方面,我們通過評論者后驗概率輸出結合SVM的準確率得到最終關于真實評論者和虛假評論者的信度值.

最后,建立在亞馬遜中國電商用戶數據集之上的實驗結果表明,本文所提出的方法準確有效.

2 相關工作

評論圖模型構建和虛假評論者檢測方面, Wang等[14]分析了評論者、 評論以及被評商店三者之間的交互關系, 通過構建包含這三種因素的評論圖對虛假評論者進行挖掘和檢測. Liang等[15]通過構造多邊圖來迭代計算評論者的不真實度檢測虛假評論者. Lu等[16]通過構建包含用戶特征及評論特征的評論因素圖并通過信息傳遞算法同時檢測虛假評論和虛假評論者. Rayana等[17]通過構建用戶、 商品、 評論間的關系圖來發現Yelp網站上存在的虛假評論人和虛假評論. 以上方法只考慮了評論圖中各節點之間的制約關系, 沒有考慮評論圖之外的因素, 并且評論圖的構建局限于某一特定商品或者商家, 未能從評論者的所有評論購買信息出發去發現評論者作弊行為.

基于異常行為的虛假評論者檢測方面,Lim[3]等基于用戶對單一商品多次相近評分、用戶對于單獨品牌上的產品群給予過高或過低評分、用戶在某些產品上的評分跟其他用戶評分偏離很大、用戶對剛上架的商品進行評分的等四種評分行為提出四種檢測模型.Mukherjee等[18]提出構建隱變量貝葉斯模型進行虛假評論者檢測,將用戶評論特征定義為隱變量,借助EM算法進行參數學習并利用吉布斯采樣進行推理.Xue等[19]通過構建信任感知模型得出每個用戶的可信度打分來識別虛假評論者.Ye等[20]通過監控不同時間片下用戶的突發行為和異常行為來發現用戶的作弊行為.Fei[21]等通過構建隱馬爾可夫模型發現用戶的評論、打分的異常變化.以上基于異常行為的虛假評論者檢測方法,從單一的角度去檢測虛假評論者,但近年來虛假評論者作弊方式呈現出多樣化趨勢并且隱藏性越來越高,當發現評論者不存在某種作弊行為時,并不代表該評論者不采用其他作弊手段.

基于集體作弊的虛假評論者檢測研究方面,Xie等[22]通過檢測不同時間窗口下商品評論數量變化、評分變化以及只發一條評論的評論者所占比例變化來發現集體作弊的現象.Choo等[23]從作弊者之間非正常的相互促進聯系行為和情感分析入手挖掘作弊聯盟.Yang等[24]借助作者主題模型得到每一個用戶的興趣概述,通過構造用戶興趣向量、計算余弦相似度來檢測作弊團體.Ye等[25]提出一種無監督可度量的方法來檢測網絡中的集體作弊團體.以上方法可以發現可疑的集體作弊團體,但是當一個評論者團體很可疑時,并不能肯定其中的每一個評論者都是作弊者,進而很難判斷其發表的評論時是否為虛假評論.

這些虛假評論者檢測方法為本文的研究提供了參考,但針對多特征行為模式下虛假評論者的檢測還需進一步探索.

3 評論者相關行為定義

3.1 評論者屬性

為了描述評論者評價行為、評論者對商品的關注行為、評論者交流行為這三類用戶特征,本文采用多個維度刻畫每一個特征.對于某個評論者,評論者屬性如表2所示.

表2 評論者屬性表示

3.2 評論者評價行為特征

虛假評論者往往會批量復制粘貼正常用戶的好評或差評對目標產品進行評價,打分呈現極端性,集中在1星和5星,且評論往往集中在某一天.因此,本文從以下5個維度描述虛假評論者的評價行為特征:評論者打分的極端性、評論內容的相似性、評價的早期性、評論的集中性和打分的偏差性.

1)評論者打分的極端性.打分往往能反映出用戶對商品的偏好和內心對商品真實評價,當一個用戶總是給出最高分五星或最低分一星打分時,那么這個用戶的偏好存在問題,其身份就很可疑.用極端打分數量占評論數量的比例來描述打分的極端性:

(1)

2)評價內容的相似性.虛假評論者往往會選擇復制抄襲先前用戶的好評并將其應用到自己的多數評論中,當一個評論者的多數評論內容相似,那么很可能是虛假評論者在批量復制評論.利用評論內容余弦相似度的最大值描述評論內容的相似性[26]:

S2=max{cosin(ri,rj),i≠j)

(2)

3)評價的早期性.當一個用戶往往在商品剛上架后不久發表評論,為商品后來銷售起到了促進作用,那么用戶身份就很可疑.用商品上架后一個月內發表評論占評論者所有評論的比例描述評價的早期性:

(3)

4)評論的集中性.不同于真實評論者在隨機時間內進行評論,虛假評論者往往在某一天內完成虛假評論的任務.用單日內發表的最多評論占總評論的比例描述評論的集中性:

(4)

5)打分的偏差性.虛假評論者對產品的描述往往和產品的真實質量不符,對商品的打分和商品所得的平均分有明顯出入.電子商務平臺中一般最高評分為五星,最低評分為一星,用商品打分和商品得分之差的平均偏差比例描述打分的偏差性:

(5)

3.3 評論者對商品的關注特征

和正常評論者相比,虛假評論者評價的商品類別、品牌數量和商家局限在小范圍內,平均單條評論涉及的商品類別數量、商家數量、品牌數量可以反映評論者對商品的特殊關注特征和虛假評論者的任務目標范圍.用評論所涉及商品類別數量占所有評論的比例描述商品類別涉及率,評論所涉及商家數量占所有評論的比例描述商家涉及率,用評論所涉及品牌數量占所有評論的比例描述品牌涉及率:

(6)

(7)

(8)

3.4 評論者的交流行為

虛假評論者往往得不到其他用戶的認可,也不會與正常評論者有交流,沒有正常的社交網絡,對于其他用戶的提問他們不會提供反饋咨詢,也不會提供有價值的信息或有幫助的投票.本文采用用戶有用投票比例、用戶平均每條評論被回應數量、用戶所有評論認可度的平均值三個維度來描述該特征:

S9=vr

(9)

(10)

(11)

4 虛假評論者識別模型的構建

4.1 基于D-S證據理論的虛假評論者識別框架

評論者的評價行為、評論者對商品的關注行為、評論者的交流行為從不同的側面構成了評論者身份判斷的“證據”.給定一個有限、互斥、窮舉的假設空間Θ,稱其為識別框架(Frame of Discernment),考慮Θ的冪集,即Θ的所有子集構成的集合,記為2Θ.如前所述,本文基于D-S證據理論,通過證據融合規則判斷評論者身份,下面首先給出相關定義.

定義1(辨識框架)將評論者身份可能的判定結果中真實評論者(T)和虛假評論者(F)構成的集合定義為辨識框架,記為Θ={T,F},Θ的冪集為2Θ={? ,{T},{F},{T,F}}.

定義2(mass函數)函數m:2Θ→[0,1]稱為Θ上的mass函數,若評論者的評價行為、評論者的對商品的關注行為、評論者和其他評論者交流行為相互獨立,m1為評論者評價特征的mass函數,m2為評論者對商品關注特征的mass函數,m3為用戶和其他用戶交流特征的mass函數.mi(T)表示第i個mass函數中對真實評論者的支持度,mi(F)表示第個mass函數中對虛假評論者的支持度,mi(Θ)表示第i個mass函數中關于不確定的支持度.

D-S證據理論中,Dempster證據組合規則組合兩個mass函數產生一個新的mass函數,表示初始可能沖突的證據間的一致意見,集合的交集表達了公共證據元素.Dempster證據組合規則的基本思想在于對多源不確定證據進行融合形成最終關于辨識框架的mass函數值,證據存在沖突時,通過歸一化因子k進行可信度標準化修正.根據其基本思想,定義3給出三種特征下mass函數的合成規則.

定義3(mass函數合成規則)對于?N?Θ,評論者識別框架Θ上的3個mass函數m1、m2和m3的Dempster合成規則為:

(m1⊕m2⊕m3)(N)

(12)

其中,

k=∑N1∩N2∩N3≠φm1(N1)m2(N2)m3(N3)

=1-∑N1∩N2∩N3=φm1(N1)m2(N2)m3(N3)

1-k即∑N1∩N2∩N3=φm1(N1)m2(N2)m3(N3),反映了有關評論者證據的沖突程度,?為證據組合算子,N1,N2,N3?2Θ.

根據定義1,辨識框架為Θ={虛假評論者,真實評論者};根據定義2,將評論者本身呈現的三類特征作為證據體構建基本概率分配函數;根據定義3,得到證據融合后的mass函數.在得到證據融合后關于虛假評論者和真實評論者的信度及不確定度量mi(Θ)后,我們辨識出評論者的身份,對評論者身份的最終判定遵循以下規則:

1)具有最大信度的類是目標類;

2)目標類與其他類的信度差值必須大于閾值θ1;

3)目標類信度必須大于不確定信度指派值;

4)不確定信度指派值必須小于閾值θ2.

4.2 基于Sigmoid函數的基本概率分配

為得到不同mass函數下的基本概率分配,需要度量單特征下評論者為真實評論者和評論者為虛假評論者的可能性以及無法識別的可能性,對于來自三種不同特征空間的評論者樣本集,本文首先建立評論者單特征下三個不同的SVM檢測模型,實現三個基于不同特征下的決策函數.對單特征下評論者檢測的準確率進行測試,利用錯誤率衡量不確定信息,進而參考Platt提出的利用sigmoid函數實現關于虛假評論者和真實評論者的后驗概率輸出,結合SVM的準確率去衡量樣本關于真實評論者和虛假評論者的基本概率分配.

我們將評論者評價特征量化為五維向量x1=(s1,s2,s3,s4,s5),對商品關注行為和交流行為分別量化為三維向量x2=(s6,s7,s8)、x3=(s9,s10,s11).對于來自不同特征空間的向量樣本,我們訓練三個行為特征下不同的SVM模型,訓練后帶有核函數的標準的SVM無閾值輸出為:

f(x)=h(x)+b

(13)

h(x)=∑xi∈svαiyik(xi,x)

(14)

其中,αi為拉格朗日乘子,k(xi,x)為選定的核函數,sv是支持向量集.

SVM決策分類函數為:

y=sgn(f(x))=sgn(∑xi∈svαiyik(xi,x)+b)

(15)

當y=1時,判斷該評論者為真實評論者,當y=-1時,判斷該評論者為虛假評論者.

然而,f(x)和y都不是評論者后驗概率輸出,我們引入參數A和B,利用sigmoid-fitting方法將無閾值輸出f(x)轉化為后驗概率.待檢測評論者是真實評論者的概率為:

(16)

待檢測評論者為虛假評論者的概率為:

(17)

我們通過極大似然估計的方法計算A和B:

(18)

其中,pl=pA,B(fl)

其中,m為訓練集中的樣本數,N+為樣本中真實評論者的數量,N-為樣本中虛假評論者的數量,yl是樣本的標簽.

對三個不同行為特征下的SVM分類器,在完成評論者樣本集的訓練過程后,根據式(18)得到最優參數Ai、Bi(i=1,2,3),并基于公式(16)和公式(17)得出后驗概率pi和1-pi.因此,結合SVM的識別準確率qi對mass函數值定義為:

mi(T)=qipi

(19)

mi(F)=qi(1-pi)

(20)

mi(Θ)=1-qi

(21)

將用戶的三種行為特征作為三個證據體,根據公式(19)、(20)、(21)得出每一證據體關于真實評論者和虛假評論者的基本可信度m1(T)、m1(F)、m2(T)、m2(F)、m3(T)、m3(F)及相關不確定性m1(Θ)、m2(Θ)、m3(Θ).

4.3 基于虛假評論者識別框架下mass函數值獲取算法

針對評論者行為特征信息,基于4.1節、4.2節中的方法計算用戶特征數據對其身份的聯合影響,進行證據融合,在預處理后的評論者屬性特征值的基礎上得到評論者識別框架下的信度值.

算法1.

輸入:待檢測的評論者集合U及每個評論者特征向量x1,x2,x3

輸出:每一位評論者在識別框架下的mass函數值t.m(T)、t.m(F)、t.m(Θ)(t∈U)

變量:A1、A2、A3、B1、B2、B3:后驗概率輸出函數的參數值

q1、q2、q3:SVM的準確率

步驟:

begin

for eacht∈Udo

fori=1 to 3 do

根據公式(13)得到t.fi(x);

根據公式(16)sigmoid函數輸出其屬于真實評論者的概率t.pi(T);

t.pi(F)←1-t.pi(T);

t.mi(T)←t.pi(T)*qi;

/*結合SVM的準確率ri計算單特征下關于真實評論者的信度*/

t.mi(F)←t.pi(F)*qi;

/*計算單特征下關于虛假評論者的信度*/

t.mi(Θ)←1-qi;

/*利用SVM的錯誤率表示不確定性*/

end for

t,k←1-∑N1∩N2∩N3=φt.m1(N1)*t.m2(N2)*t.m3(N3);

t,mr←∑N1∩N2∩N3=Tt.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

t,mF←∑N1∩N2∩N3=Ft.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

t,mθ←∑N1∩N2∩N3=θt.m1(N1)*t.m2(N2)*t.m3(N3)/t.k;

end for

return 所有t.mT、t.mF、t.mΘ

end

不難看出,算法1的執行代價主要取決于單特征下證據支持度的獲取及證據融合.其中,單特征下證據支持度的獲取執行一個常數次循環,證據融合依次執行計算規范化因子及3個mass函數基于識別框架下的證據融合,若有n個評論者,算法1的時間復雜度為O(n).

5 實驗結果

為了評判虛假評論者識別方法的準確性,我們從亞馬遜官網共計爬取了4000個用戶的完整信息,請三位有五年以上網上購物經驗的碩士作為標記人對樣本集進行標記,并制訂了五條虛假評論者鑒別規則:1)評論總在商品上架后不久發表且評論日期呈現集中化趨勢;2)極端好評與極端差評占絕大多數且常與平均打分出入很大;3)評論內容相似度很高且存在抄襲他人評論的現象;4)評論局限于個別商家并且反復對此商家的商品給予好評或差評;5)發表評論較多但與其他評論者不存在互動行為.當評論者的行為符合以上兩點或者兩點以上的描述時,評論者身份很可疑.最終人工標記結果見表3,其中“”表示和主對角線相對稱單元格數值相同.

本文通過計算Kappa值[27]對三位標記者標記結果的一致性進行檢驗,Kappa值越高,說明標記結果的一致性越高.三位標記者之間的Kappa值分別為0.79、0.89和0.87,人工標記結果具有很高可信度.當評論者被兩個及以上專家標記為虛假評論者時,視其為虛假評論者.實驗環境如下:Intel(R)Core(TM)i7-6700HQ 2.6GHZ處理器,8GB內存,Windows10(64位)操作系統,使用MatlabR2016a作為實驗平臺.

表3 專家標記虛假評論者結果

5.1 SVM準確率測試

由于s10取值范圍不為[0,1],我們首先對s10取值進行[0,1]歸一化處理.不同懲罰因子與核函數的選取會構建不同的分類超平面,進而影響到SVM準確率.SVM準確率越低,說明單特征下評論者識別的不確定性越高,進而會增大證據融合后不確定性的mass函數值、降低最終判斷決策的準確率.因此,我們對不同數量樣本集下SVM模型進行測試,測試SVM的準確率隨著樣本數量增加的變化趨勢;同時,選取不同的核函數和懲罰因子,測試不同參數選取對SVM準確率的影響.我們以評論者評價行為構建SVM為例,選取RBF核函數為典型代表,將訓練樣本分為5個子集,采取交叉驗證[28]的方式對SVM進行訓練,即每次以其中一個子集作為測試集,將其他四個子集作為訓練集,整個過程進行不重復循環直至每個子集都作為測試集被預測一次,最后取5次結果準確率的平均值去衡量SVM準確率.懲罰因子c分別選取為0.1、1、10、100、1000.實驗結果如圖1所示.同時,我們固定懲罰因子為100,選取線性核函數、多項式核函數、RBF核函數及sigmoid核函數作為測試對象,對這些核函數下SVM的準確率進行測試,測試結果如圖2所示.

圖1 不同懲罰因子下RBF核函數SVM模型準確率

圖2 懲罰因子為100時測得不同核函數下SVM準確率

根據圖1和圖2的測試結果,可得出隨著訓練樣本數量遞增,SVM準確率大體呈上升趨勢.sigmoid核函數分類效果明顯不如其他三類核函數,同時,當懲罰因子過大或過小時,都會降低SVM的準確率,進而大大增加證據理論模型中評論者識別的不確定性.因此,選擇合適的懲罰因子和核函數才能使模型的識別效果達到最佳.為避免懲罰因子選擇不當對實驗結果的影響,我們其取值范圍設置為[2-7,210],步距為0.1,測得最高準確率如表4所示.根據表4結果,我們選取RBF核函數作為最終三個SVM模型的核函數.

5.2 不同方法下虛假評論者識別比較

根據表4選取最優準確率對應的SVM模型作為單一特征模型,將SVM的無閾值輸出通過sigmoid函數得到在各個證據體下的證據支持度,進而進行證據融合,對得到的融合后的證據支持度依據判別規則對評論者身份進行判定并統計準確率.部分樣本的證據融合結果如表5和表6所示,根據實際情況,我們取θ1=0.05,θ2=0.1.

表4 不同核函數下的最高準確率

表5 初始不同評論特征下的證據支持度

表6 D-S證據融合后的證據支持度

根據最終實驗結果,證據理論模型對評論者的預測準確率達提高到了87.76%,相對于其它單特征下評論者識別效果有明顯提升.根據表4可以看出,其他三類檢測方法中,基于評論者對商品關注行為特征的檢測效果最差,大概為70%,而基于評論者的評價行為檢測效果優于另外兩種.在單特征下評論者身份無法識別時,比如評論者2,可以通過證據融合的方式對其身份進行識別.因此,證據理論模型提高了評論者識別的準度,也使識別的不確定性大大降低.

為了驗證模型的合理性,我們重新輸入標記者新標記的1000個真實評論者和1000個虛假評論者作為樣本統計準確率和召回率,測試所得虛假評論者識別準確率、虛假評論者識別召回率、真實評論者識別準確率、真實評論者識別召回率如表7所示,可以看出,基于證據融合方法的準確率和召回率都要高于其他三種單一特征下的識別方法.

表7 基于不同方法的識別準確率及召回率

同時基于前文提到的11種評論者屬性維度,我們利用Native Bayes、Logistic Regression和Decision Tree 3種有監督機器學習模型進行了對比實驗,實驗結果如表8所示.

可以看出,相比較于其他方法,證據融合的虛假評論者識別準確率提高了4%-9%,識別召回率提高了3%-8%,F1值提高了0.03-0.08.因此,證據融合方法在虛假評論者識別上優于其他三種傳統方法.

表8 四種方法的實驗結果對比

最后,在算法1得到mass函數值的基礎上,我們將評論者按虛假評論者證據支持度由大到小排序,以被標記者標記的次數將評論者分為3、2、1、0這4個級別,以10為排列位置間隔,計算前k(k=10,20,30,…,100)位置排列的NDCG值[29],NDCG值越高,說明排序結果越科學.同樣,在單一行為模式檢測下,我們按虛假評論者后驗概率值大小由高至低進行排序,對NDCG值進行計算,實驗結果如圖3所示.隨著排列位置的后移,四種排序方法得到的NDCG值都趨于穩定,其中,基于證據融合進行排序比其他排序方式提高了2%-4%,明顯優于其他排序,相反,基于評論者交流特征和基于對商品關注特征的排序并不是很好的排序方法.因此,基于虛假評論者證據支持度進行排序對虛假評論者有更好的區分度,能更準確地找出潛在的虛假評論者.

圖3 不同排序方法下的NDCG值

6 總 語

本文從解決虛假評論者識別問題出發, 分析了評論者評價行為在內的三種行為模式, 以多個維度對評論者行為特征進行描述, 并基于用戶行為證據融合構建D-S證據理論模型. 本文提出的方法和思路, 利用影響用戶身份各因素的不確定性和它們之間的相互關系, 從評論者的評價行為特征、 評論者對商品的關注特征、 評論者的交流行為特征三個全面的角度綜合考慮對評論者的身份進行檢測. 建立在真實數據上的實驗結果表明, 本文提出的方法結合多種作弊模式并進行證據融合, 可準確、 快速地檢測評論者身份, 避免了單個特征指標在解決虛假評論者檢測問題上的不足, 能夠幫助人們快速發現電子商務網站中存在虛假評論者、 虛假評論及低信譽商家, 進而對商品質量有更清晰的了解. 文獻[3]從用戶打分行為角度對虛假評論者進行分析, 列出了一些虛假評論者檢測的可行指標. 文獻[20]基于不同時間片下評論數量和平均打分的變化發現虛假評論和虛假評論者. 相比于文獻[3]和文獻[20], 我們更加系統全面地從不同角度分析了評論者行為, 同時更進一步對模型性能進行了測試. 相對于文獻[15]76%和文獻[21]83.7%的識別準確率, 我們87%的識別準確率取得了一定的提升. 然而, 本文的方法不適合對作弊團體中只發表個別評論的虛假評論者進行檢測. 今后將從集體作弊的角度分析, 去發現危害性更大、 隱蔽性更強的虛假評論者團體.

猜你喜歡
特征融合用戶
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产精品va| 日本免费新一区视频| 国产精品无码影视久久久久久久 | 亚洲精品va| 中国成人在线视频| 青青草国产在线视频| 久久99国产精品成人欧美| 在线99视频| 日韩国产精品无码一区二区三区| 99久久国产精品无码| 一区二区午夜| 麻豆精品在线视频| 国产成人免费高清AⅤ| 欧美日韩国产成人高清视频| 亚洲VA中文字幕| 欧美成人精品一级在线观看| 国产又大又粗又猛又爽的视频| 精品福利视频网| 亚洲熟妇AV日韩熟妇在线| 91无码国产视频| 美女被操黄色视频网站| 伊人大杳蕉中文无码| 永久免费AⅤ无码网站在线观看| 亚洲成a人在线观看| 欧美精品亚洲精品日韩专区va| 人妻精品久久无码区| 国产波多野结衣中文在线播放| 成年人国产网站| 无码一区中文字幕| 毛片久久久| 亚洲日韩精品伊甸| 欧美一区二区三区国产精品| 日韩激情成人| 欧美一级大片在线观看| 992Tv视频国产精品| 亚洲日本韩在线观看| 天天色天天综合| 亚洲精品无码在线播放网站| 扒开粉嫩的小缝隙喷白浆视频| 国产成人综合日韩精品无码不卡| 亚洲码一区二区三区| 国产精品无码AV中文| 99热这里只有精品免费国产| 久草中文网| 四虎影视8848永久精品| 白浆免费视频国产精品视频| 国产亚洲视频中文字幕视频| 精品午夜国产福利观看| 成人午夜福利视频| 国产91小视频在线观看| 欧美综合一区二区三区| 亚洲成AV人手机在线观看网站| 91免费国产在线观看尤物| 欧美日韩在线亚洲国产人| 999国内精品久久免费视频| JIZZ亚洲国产| a级毛片免费看| 一级片一区| 成年A级毛片| 中文无码毛片又爽又刺激| 亚洲黄色高清| 久久五月天国产自| 99这里精品| 91麻豆久久久| 在线观看免费AV网| 日韩资源站| 99热这里只有精品2| 色综合久久无码网| 国产色图在线观看| 国产丝袜啪啪| 欧美成人免费午夜全| 国产欧美日韩视频怡春院| 伊人久久久久久久| 国产成人久久777777| 国产人人乐人人爱| 日本一本在线视频| 国产高颜值露脸在线观看| 国产第八页| 国产成人1024精品| 国产乱人伦偷精品视频AAA| 伊人无码视屏| 久久婷婷色综合老司机|