楊 超 李天卓 談森鵬 楊新凱
(上海師范大學 上海 201400)
互聯網的出現極大地改變了人們的生活,尤其電商平臺的不斷發展,越來越影響著人們的衣食住行。與傳統的購物方式相比,網絡購物有很多優勢,但同時也存在很多缺點,其中一點便是消費者無法判斷所購買商品的質量。此時,電商平臺提供的在線評論功能成為人們了解該商品的最為重要的途徑。在線評論允許用戶書寫評論來表達自己對所購買商品的觀點,如商品的質量、商家的服務態度、配送速度等等。
由于在線評論可以引導消費者的購買行為,好的評論會給商家和個體帶來好的聲譽,從而帶來巨大的商業利益,差的評論會給商家或個體帶來利益的損失。一些商家為了利益會雇傭寫手為自家商品撰寫好評,或為其他商家撰寫差評[1]。因此,正確地區分虛假評論和真實評論對現在互聯網有急切的需求。
通常情況下,虛假評論識別被認為是一個二分類的問題,通過訓練集訓練出一個分類器,對新輸入的評論進行預測,判斷是否為虛假評論[2]。
虛假評論產生的方式有兩種:一種是注冊很多賬號,利用每個賬號發布少量的虛假評論;另外一種是注冊少量的賬號發表大量的評論。所以,從虛假評論產生的方式熵看,僅僅考慮文本內容是不夠的,因為第二種方式發表的評論內容比較隨意,基于文本內容不易識別;僅僅依靠行為信息也是不夠的,我們很難發現第一種方式的虛假評論[3]。為了有效識別虛假評論,我們需要將評論文本內容和評論者行為信息結合起來,提高識別的準確率。
2007 年美國伊利諾斯大學的Bing Liu 教授團隊首次提出虛假評論檢測問題[4],之后虛假評論檢測就成為了一個研究熱點。近些年,虛假評論識別成為越來越多的學者研究的內容之一,國內外的學者在虛假評論識別上做了大量的工作,取得了一些進展。
Jindal[5]等在研究中發現在商品評論中存在大量的虛假評論數據。他們利用商品的相關評論數據,將評論文本、產品特征和評論者特征信息綜合考慮進行建模,可以區復制觀點和非復制觀點。并將復制觀點歸為虛假評論。
OTT[6]等利用眾包平臺(Amazon Mechanical Turk)集了關于酒店的評論數據集,成為虛假評論識別中的“黃金”數據集。該數據集包含400 條人工編寫的虛假評論和400 條真實評論。在該數據集上,他們將虛假評論問題視為文本分類問題,提取n-gram 特征、詞性特征(POS 特征)和文本特征,并基于這些特征采用樸素貝葉斯和支持訓練集進行分類,取得了較高的分類準確率。
任亞峰[7~8]等提出了一種基于語言結構和情感極性的虛假評論識別方法,從自然語言處理角度出發,分析評論文本的正面情感和負面情感的影響,并使用遺傳算法,通過復制、交叉和變異實現種群的進化,從而提高識別的準確。
宋海霞[9]借助Co-Training的半監督學習方法,將評論文本和評論者評論行為特征進行融合,提出了內容和行為特征的虛假評論識別方法。
本節介紹我們提出的模型框架和其中的細節內容。虛假評論識別的數據分為兩個部分,一個是評論文本內容數據,一個是評論者的行為數據。這兩種數據的類型是不同的,因此我們需要分別對它們進行處理。然后對處理好的數據進行拼接后來對評論進行虛假評論的分類工作。本文虛假評論的框架如圖1所示。

圖1 虛假評論識別框架
由于文本內容是非結構化的數據,我們的模型無法直接進行處理。因此,在輸入到卷積神經網絡之前,我們需要將文本內容進行編碼,使用連續的實數來向量來對一個單詞進行表示,稱為詞向量。目前使用最為廣泛的詞向量模型為word2vec[10~11]。經過編碼的文本數據輸入到CNN 模型中,可以學習到一個稠密的評論文本內容的向量表示。
本文采用預先訓練好的谷歌詞向量Google-News-vectors-negative300.bin,將評論文本內容用詞向量的形式表示。這樣,每一條評論文本就可以表示為一個二維的詞向量矩陣的形式。然后將這個詞向量矩陣輸入到卷積神經網絡中,卷積神經網絡的示意圖如下,卷積神經網絡經過卷積操作和池化操作可以很好地提取出文本的自然語言相關特征。

圖2 卷積神經網絡
卷積操作:

池化操作:

我們從數據集中抽取一些關于評論者行為的特征,如表1所示。

表1 評論者行為特征
其中,評分一致性的計算公式如下:

其中,rating 表示的是每條評論的評分,sentiment是計算每條評論的情感得分。
本文實驗使用的數據集來自于Mukherjee等爬取的Yelp 網站關于99 家餐廳的64445 條評論,其中包括8035 條虛假評論,56410 條真實評論[12~14]。為了數據平衡,本文選取全部的虛假評論,并隨機的從真實評論種選取8035條,共16070條數據構造本文實驗數據集。

表2 數據集統計表
本文實驗環境為Ubuntu16.04 平臺的Python3.5。采用的編程環境為Pycharm。實驗的python 庫包括pandas、numpy、scikit-learn、keras、gensim。采用5折交叉驗證。
為了檢測虛假評論識別的準確度,本文選用了查準率(P)、查全率(R)以及F1值作為評價標準[15]。

表3 性能評估列聯表
其中:TP 是被正確判別為虛假評論的數據條數,FP 是被錯誤判別虛假評論的數據條數,FN 是被錯誤判別為真實評論的數據條數,TN 是被正確判斷為非虛假評論的數據條數。

TF_SVM:提取評論文本特征(Text Feature),然后使用提取的特征進行分類。
UBF_SVM:提取用戶行為特征(User behavioral feature),然后使用提取的特征進行分類。
TUBF_SVM:提取評論文本內容和評論者行為特征,然后使用提取的特征進行分類。
CNN:僅僅使用單個卷積神經網絡對評論文本內容進行虛假評論識別。
DCNN:使用雙卷積神經網絡進行虛假評論識別。
DCNN+SVM:雙卷積神經網絡+SVM。

表4 實驗結果
經過實驗發現,1)采用評論文本特征的虛假評論識別準確率比采用評論者行為特征的識別準確率要高,這說明從文本角度進行分析虛假評論更容易區分,也說明虛假評論與非虛假評論用詞特點有一定的區別;2)將文本特征和評論者行為特征結合,可以提高虛假評論識別的準確率;3)使用卷積神經網絡比傳統的機器學習取得更好的效果;4)本文提取的雙卷積神經網絡相較于其他模型有更好的表現。
為了能夠盡可能減少虛假評論的負面影響,本文基于評論文本內容和評論者行為特征設計了一種全新的虛假評論識別方法。基于神經網絡的研究正在各個領域大量應用,本文考慮到卷積神經網絡的優勢,將評論文本內容和評論者行為特征經過卷積神經網絡的處理,可以有效地發現虛假評論的特征。