999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于GCN的虛假評論檢測方法

2022-02-24 12:34:18曹東偉李邵梅陳鴻昶
計算機工程與應用 2022年3期
關鍵詞:語義詞匯文本

曹東偉,李邵梅,陳鴻昶

1.鄭州大學 中原網絡安全研究院,鄭州 450000

2.中國人民解放軍戰略支援部隊信息工程大學,鄭州 450000

互聯網與電子商務的迅速崛起改變了眾多消費者的消費模式,線上消費所占比例日益增加。線上消費的在線評論成為影響商家與消費者進行決策的重要因素。真實的用戶評論能夠引導消費者做出正確的消費決策,然而由于商業利益、個人偏見等原因發布的不符合產品真實特性的虛假評論則會干擾用戶的消費決策,對商家信譽造成不良影響。因此,尋找有效的檢測方法,準確檢測出點評網站的虛假評論對提升用戶體驗、維護良好的市場秩序具有重要意義。

自Jindal等[1]首次提出垃圾評論識別之后,虛假評論作為垃圾評論檢測任務中最困難的一類,一直是學者研究的熱點。目前,該研究方向主要還沿用Jindal的檢測原理,認為檢測虛假評論可以轉化為檢測復制的評論,例如,同一評論多次用于評論不同的商品或同一商品存在多條類似評論,將具有此類特點的評論歸為虛假評論。

虛假評論檢測的本質是文本分類問題,為此,隨著自然語言處理技術的發展,很多新的文本分類方法,如基于圖卷積網絡[2-3]的文本分類方法也被引入進行虛假評論檢測[4]。

Li等[5]利用GCN對閑魚網站中的虛假評論進行檢測,通過商品、用戶、評論異質網絡圖及評論與評論同質圖[6-7]相結合,提出閑魚虛假評論檢測模型GAS(GCNbased anti-spam),基于閑魚網站評論數據與GBDT(gradient boost regression tree)、CNN等模型相比較,檢測效果均優于其他模型。Wang等[8]研究發現,虛假用戶的行為越來越復雜,并且跨平臺評論的特點使得檢測更加困難。因此,作者提出基于GCN的半監督檢測模型,首先在大量節點中找出可疑度較高的節點作為種子節點,利用GCN網絡中節點之間信息相互傳播,找出與種子節點相似度高的節點,實現虛假評論檢測。Manaskasemsak等[9]針對現有檢測方法往往需要耗費大量成本來標記訓練數據這一現象,提出了基于用戶圖的檢測方法,與文獻[8]類似,首先提取一組特征,然后通過連接共同擁有這些特征的用戶構建用戶圖,通過子圖逐次迭代擴散發現更多與其相似度大的節點,在Yelp數據集上證明其具有效性。這些方法有的需要用到評論外的商品信息或者用戶行為信息,有的需要指定種子節點,而開源的虛假評論數據集通常難以滿足上述需求。

為此,本文借鑒文獻[10]中首次提出的基于圖卷積神經網絡文本分類模型Text-GCN(text-graph convolution networks),對基于評論內容的虛假評論檢測展開研究。文獻[10]的作者在構建圖過程中,連邊信息只考慮了詞匯間的共現關系,很明顯該方法對詞匯重合度較高的評論文本有更好的檢測效果,但是實際應用中,水軍可以通過變換詞匯或模板的方法規避檢測,所以該方法具有一定的局限性[11]。為了彌補該不足,本文提出一種融合語義信息的虛假評論檢測方法Sem-GCN(sematic-graph convolution networks),在構建詞匯-詞匯之間的連邊時,不僅考慮基于窗口的共現關系而且也考慮詞匯之間的語義相似性關系。通過構建融合共現關系和詞匯相似度的詞匯-評論異質網絡圖將虛假評論檢測問題轉化為節點分類問題,利用GCN可以很好地捕捉節點與節點之間高階特征信息的特點[12],從而提高虛假評論檢測的效果。在同一數據集上與K均值聚類方法、CNN、LSTM及Text-GCN進行實驗對比,驗證了本文方法的有效性。

1 Text-GCN

1.1 GCN

圖神經網絡是一種多層神經網絡,利用譜聚類的思想,將傳統的離散卷積應用在圖結構數據上,在對特征學習時綜合考慮了來自鄰居實體的所有信息[13]。圖結構可以用G=(V,ε)表示,其中節點v∈V,邊e∈ε。節點初始特征X=H0∈Rd0,其中d0代表節點的特征維度。模型中節點v第l層的隱藏向量可表示為H l∈Rd l,其中dl代表第l層的向量的維度。

GCN學習方式遵循逐層學習,所有節點同步更新[14]。每層學習過程可分解為兩個步驟:聚合與合并,其過程可以表示為式(1):

A表示節點的鄰接矩陣,D為鄰接矩陣的度矩陣,形式如式(2)所示,W l為第l層訓練得到的矩陣。

1.2 Text-GCN

Yao等[10]首次使用標準圖卷積網絡進行文本分類,以文檔和文檔中的詞作為節點,構建異構文本圖,將每個詞及文本表示為One-hot向量作為圖卷積網絡的輸入。其中包含詞與詞,詞與文檔兩類連邊,兩類連邊的構建方式如下:

(1)詞與文檔間連邊構建方法

根據詞在某個文檔中出現與否建立詞-文檔之間的邊。文獻[10]中針對的是普通的文本分類任務,在本文的應用中文檔為評論文本。評論與詞之間連邊的權重可以由TF-IDF特征值所表示,TF(term frequence)是詞在文檔中出現的次數,IDF(inverse document frequence)是指對評論總數除以包含該詞的評論數所得的商取對數。

(2)詞與詞間連邊構建方法

文獻[10]通過統計在給定長度為γ的時間窗口內,詞共現數作為詞與詞之間的權重。利用點互信息(PMI)來描述這種信息。例如節點wi與節點w j之間邊的權重計算可以由式(4)~(6)表示:

p(wi,w j)表示在時間窗口λ內詞wi與w j共現的概率,由式(5)所得,W(wi,w j)是評論集合在給定時間窗口內詞對(wi,w j)共現的數目,W是評論集合在給定時間窗口內所有詞的總數目。p(wi)是在時間窗口下wi出現的概率,W(wi)是整個評論集在時間窗口下wi出現的數目。

文本圖構建完成后,送入GCN網絡進行訓練學習,學習過程如式(7)所示:

2 Sem-GCN模型

本文借鑒文獻[10]描述的Text-GCN網絡進行虛假評論檢測,其中本文中的虛假評論對應上一章中的每個文檔。作者在構建圖過程中,連邊信息只考慮詞匯間的共現關系,但是評論文本具有的不規范性與詞匯多樣性導致檢測效果降低,所以該方法具有一定的局限性。此外,虛假評論具有很強的迷惑性,僅利用每條文本所含信息進行檢測,效果并不良好,而挖掘出每條評論在整個評論集中的全局信息更有助于提升檢測效果[15]。因此,為了提高對虛假評論的檢測效果,本文對Text-GCN進行改進,提出了基于Sem-GCN的檢測方法。與CNN、LSTM學習模型相比,Sem-GCN通過多種方法建立連邊使模型具有更好的捕獲全局信息的能力,構建詞與詞之間的連邊時,不僅利用詞間共現信息,還引入基于詞嵌入的相似性信息[16]。通過文本圖中連邊間信息迭代更新,每個節點不僅攜帶自身信息,還攜帶鄰域節點信息。如圖1所示。Sem-GCN在構建詞-詞的連邊時融入了詞之間的語義信息,語義信息又通過文本異質圖中詞與評論間的連接傳遞到評論與評論之間,有助于更好地得到每條評論在整個評論集合中的全局性特征信息。

圖1 Sem-GCN框架圖Fig.1 Sem-GCN frames

其中,圖1中基于語義相似度的邊權重計算方法如下。

(1)利用BERT預訓練詞向量分別得到兩個詞wi與w j的詞向量表示。

(2)對wi與w j兩個詞的向量表示計算余弦相似度,當相似度超出既定閾值時,則認為兩個詞之間存在語義關系,即建立連邊。本文選取閾值為0.8,邊的權重計算如式(8)所示:

其中,Ssem(wi,w j)表示單詞wi與w j之間邊的權重,Usem(wi,w j)表示在整個數據集的所有評論中wi與w j兩個單詞存在語義關系的數目。Utotal(wi,w j)是在整個評論集合中wi與w j在同一條評論中出現的次數。

本文提出的Sem-GCN進行虛假評論檢測的流程如下。

首先對所有評論中的詞進行統計并刪去重復詞構成一個詞匯表;基于詞匯表中的詞,每個詞視為一個節點,同時將每條評論也視為一個節點;然后,文本圖中建立連邊時遵循以下規則:若某條評論涵蓋詞匯表中的詞,則該條評論與詞建立連邊;設定固定大小的窗口,若在該窗口內,同時出現在窗口內的詞則分別建立連邊;計算每條評論中詞之間的語義相似度,若大于閾值則建立連邊。最后,評論信息轉化為圖中的節點,評論文本圖如圖2所示,其中R表示評論,W表示詞,可以看出詞與評論之間存在一種連邊,而詞與詞之間除基于窗口共現關系外,還存在基于語義相似度所建的連邊。圖2可以表示為式(9):

圖2 評論異質文本圖Fig.2 Review heterogeneous text map

其中,N={n1,n2,…,n n},代表評論與詞共有n個節點。邊集合由E={e1,e2,…,e s},節點ni與n j之間的連邊可以表示為eij=E(n i,n j)。邊的權重分為兩種,一種是詞匯與評論之間的權重αrw,另一種是詞匯與詞匯之間的權重αww。αrw由1.2節中公式(3)計算。

最終詞與詞之間連邊的權重值由1.2節中式(4)計算的PMI與式(8)計算的Ssem共同決定,如式(10)所示。當基于窗口與語義相似度兩種方法都存在連邊時,則權重αww為兩個權重值相加。僅基于時間窗口存在連邊時權重αww=PMI(wi,w j)。僅基于語義相似度存在連邊時αww=Ssem(wi,w j)。

3 實驗

3.1 數據集

實驗數據為Ott等人利用眾包平臺獲取的標準數據集,這也是唯一公開可用的虛假評論數據集。Ott等人雇傭人員為20個旅館進行評論,共收集400條虛假評論。此后,Ott等及Li等基于此數據又進行擴充,內容涵蓋酒店、餐飲等領域。數據總量為1 600條評論數據,其中真實評論與虛假評論各800條。實驗中按7∶2∶1比例將這些數據分為訓練集、測試集、驗證集三類。

3.2 評價指標

本文實驗結果評價指標采用精確率(P),召回率(R)與F1值。

精確率表示測試數據中被正確預測的評論數占所有評論的比例。計算方法如公式(11)所示。式中,TP表示被正確預測的評論數,FP表示被錯誤預測為真實的評論數。

召回率表示測試評論中被正確預測的評論數占所有真實評論數的比例,由公式(12)可以得出。其中,FN為被錯誤預測為虛假+評論的數量。

F1值用來綜合評價算法,由召回率與精確率計算,如公式(13)所示:

3.3 實驗結果分析

3.3.1 實驗1

本文實驗環境為系統版本Ubuntu16.04,硬件環境為TITAN XP處理器,模型包括兩層GCN網絡,每一層GCN隱藏層大小設置為200,窗口大小設置為15,學習率為0.01,訓練50輪次,訓練結果如圖3所示。

圖3 訓練結果Fig.3 Training result

在epoch=10以前,模型訓練還未達到最優。分析原因是對于Sem-GCN網絡,節點信息需要進行圖內傳播,當達到10輪左右,圖的全局信息在訓練過程中充分傳播,檢測效果明顯提升。模型訓練時長為24 s,其中構建評論文本圖耗費20 s,文本圖訓練耗費4 s。訓練時間如圖4所示。

圖4 訓練時間/輪次Fig.4 Training time/epoch

因為訓練開始,鄰域信息需要在評論圖中聚合傳播,所以訓練時間波動較大,同樣可以看出在經過10輪左右,每一輪次的訓練時間趨于穩定,證明在訓練10輪左右文本圖中全局信息充分傳播。評論檢測結果如圖5所示,標簽0代表真實評論,標簽為1代表虛假評論。

圖5 分類結果Fig.5 Classification result

3.3.2 實驗2

為了更好驗證該方法的有效性,在標準數據集上,本文與基線模型K均值聚類,CNN、LSTM模型以及文獻[10]中的Text-GCN方法進行對比實驗,結果如表1所示。其中,K均值聚類方法為任亞峰[17]在Ott等人合成的標準數據集上進行檢測的方法。實驗表明,與CNN、LSTM等深度學習模型相比,本文方法的準確率均得到不同程度的提升,并且處理效率也優于LSTM。本文認為主要原因是Sem-GCN將評論文本轉化為以詞匯為節點構圖,不僅利用節點的文本信息,還將評論與評論之間通過詞匯關聯起來,更好地利用節點之間的鄰域信息,彌補評論不規范的特性,緩解數據的稀疏性。值得強調的是,本文提出的Sem-GCN的檢測效果優于Text-GCN,證明本文提出的模型在構建文本圖過程中引入語義信息的有效性,融入語義信息后,在評論中某些表達含義相近的詞在基于語義相似度的方法下同樣也會建立連邊,有效緩解連邊信息只考慮詞匯間的共現關系,因評論文本不規范,詞匯多樣性導致檢測效果降低的狀況。

表1 實驗結果對比Table 1 Comparison of experimental results

此外,實驗發現本文提出的Sem-GCN在訓練樣本數較少時也可具有很好的效果,為了研究Sem-GCN在小樣本情況下的檢測性能,相同的實驗環境下,采用訓練數據集的40%進行模型訓練,觀測其檢測效果,結果如圖6所示。在訓練樣本數降到40%,訓練評論數只有448條的條件下,準確率也可達到87%;相同條件下,CNN和LSTM的準確率分別只有79%與82%。實驗結果表明GCN可以很好地將特征信息傳播到整個圖上,具有捕獲全局信息的能力,在小樣本條件下相對于其他模型的檢測效果優勢更明顯。

圖6 40%訓練數據效果Fig.6 40%training data effect

4 結語

本文基于GCN網絡對虛假評論檢測進行研究,提出利用文本圖來捕獲上下文語義信息,基于共現關系的上下文信息及評論與評論之間的關系信息,并對圖中的連邊賦予不同的權重。在Ott等人利用眾包平臺獲取的標準數據集上與LSTM、CNN等模型進行比較,檢測準確率均有不同程度的提升,證明了在順序上下文信息的基礎上融入語義信息,檢測效果有一定程度的提升。同時,證明了在小樣本情況下,本文提出的Sem-GCN模型同樣可以達到較好效果。未來的工作中,還可以融合用戶行為特征,構建多類型異質網絡,豐富節點信息,提高檢測效果。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本影院一区| 亚洲国产日韩在线观看| 激情無極限的亚洲一区免费| 美女被狂躁www在线观看| 九九九久久国产精品| 91在线激情在线观看| 国产日本视频91| 91精品啪在线观看国产91| 亚洲AV无码乱码在线观看代蜜桃| 国模极品一区二区三区| 精品无码一区二区在线观看| аv天堂最新中文在线| 亚洲av无码人妻| 国产国产人免费视频成18| 国产亚洲欧美日韩在线一区二区三区| 色综合久久88色综合天天提莫 | 丰满人妻中出白浆| 女人毛片a级大学毛片免费| 欧美爱爱网| 国产性精品| 国产精品露脸视频| 欧美午夜性视频| 天天色天天操综合网| V一区无码内射国产| 亚洲精品动漫在线观看| 激情视频综合网| 国产综合亚洲欧洲区精品无码| 国产日韩精品一区在线不卡| 久久青草热| 久久公开视频| 国产色偷丝袜婷婷无码麻豆制服| 国产理论一区| 一级毛片免费不卡在线| 全免费a级毛片免费看不卡| 欧美精品在线看| 91麻豆精品国产高清在线| 国产91丝袜| 在线观看国产精品第一区免费| 亚洲福利一区二区三区| 伊人色天堂| 日本中文字幕久久网站| 亚洲欧美激情另类| 亚洲性影院| 国产欧美视频在线| 亚洲福利片无码最新在线播放| 91日本在线观看亚洲精品| 精品国产污污免费网站| 色成人亚洲| 茄子视频毛片免费观看| 久久亚洲国产视频| 国产精品入口麻豆| 97免费在线观看视频| 内射人妻无套中出无码| 好紧好深好大乳无码中文字幕| 婷婷综合缴情亚洲五月伊| 99爱视频精品免视看| 亚洲中文精品人人永久免费| 亚洲无限乱码一二三四区| 国产97视频在线| 国产大片喷水在线在线视频| 免费a在线观看播放| 无码高潮喷水在线观看| 欧美亚洲国产精品久久蜜芽| 午夜少妇精品视频小电影| 国产成人在线无码免费视频| 欧美成人亚洲综合精品欧美激情| 亚洲中文字幕在线一区播放| 亚洲欧美人成电影在线观看| 72种姿势欧美久久久大黄蕉| 国产91成人| 色综合久久88| 伊人丁香五月天久久综合| 亚洲乱码精品久久久久..| 92午夜福利影院一区二区三区| 麻豆精品在线视频| 欧美色视频网站| 国产一级二级三级毛片| 亚洲无线国产观看| 国产欧美日韩精品第二区| 日韩最新中文字幕| 国产丝袜无码精品| 日韩亚洲综合在线|