999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類與句子加權的欺騙性評論檢測

2019-06-10 01:01:19張建鑫
軟件導刊 2019年2期

張建鑫

摘 要:消費者在購物前往往會參考產品評論,欺騙性評論容易誤導顧客使其作出錯誤決定。現有檢測欺騙性垃圾評論的方法大多采用機器學習方法,難以學習評論的潛在語義。因此提出一個基于聚類與注意力機制的神經網絡模型學習評論語義表示。該模型使用基于密度峰值的快速搜索聚類算法找出詞向量空間語義群,通過KL-divergence計算權重,然后綜合句子中單詞與單詞所屬的語義群得到句子表示。實驗結果表明,該模型準確率達82.2%,超過現有基準,在欺騙性垃圾評論識別中具有一定使用價值。

關鍵詞:欺騙性評論;聚類;句子加權;神經網絡

DOI:10. 11907/rjdk. 182701

中圖分類號:TP306文獻標識碼:A文章編號:1672-7800(2019)002-0034-04

Abstract:Consumers prefer to read product reviews before shopping. Deceptive comments can easily mislead customers to make wrong decisions. Existing methods for detecting fraudulent spam comments mostly use machine learning, but it is difficult to learn the underlying semantics of comments. This paper proposes a neural network model based on clustering and attention mechanism to learn the semantic representation of comments. Specifically, this paper first makes the fast search clustering algorithm based on density peaks to find the semantic group in the word vector space, and calculates the weight by KL-divergence. Then it synthesizes the words in the sentence and the semantic group to which the word belongs to get the sentence representation. The experimental results show that the accuracy of the proposed model reaches 82.2%, which exceeds the current benchmark. Therefore, it has certain value in the identification of fraudulent spam comments.

Key Words:deceptive review detection;clustering;sentence weighting;neural network

0 引言

欺騙性評論檢測是自然語言處理領域一項緊迫且有意義的任務。隨著用戶評論不斷增長,欺騙性垃圾信息的出現引起了廣泛關注。欺騙性評論是一種虛假評論,故意將其寫得真實可信,使受眾難以辨別。因此檢測欺騙性評論的研究是必要且有意義的[1-2]。

評論通常是簡短的文本。檢測的目的是區分文本是否為虛假評論。由于虛假評論具有隱藏性與多樣性,比如人類手工標注的評論數據集中必定存在一定數量的影響分類器的誤例。大多數現有方法遵循Ott等[3]利用機器學習算法構建分類器的方法。任亞峰等[4]提出一種創新的PU學習框架識別虛假評論;Ott、Shojaee及Li等[5-7]使用詞袋特征、詞性特征及文體特征等多種特征進行模型訓練,在眾包平臺構造的數據集上,獲得74%~79.6%的檢測準確率;Li&Hammad[8]、Mukherjee等[9]運用元數據特征對評論文本進行數據分析及虛假評論檢測。但以上方法均無學習文本的語義表示。

基于神經網絡模型良好性能的自然語言處理任務,如語言建模[12-13]、情感分析任務[14-15]與文本分類,本文提出一種新模型,通過使用詞向量聚類與句子加權的新方法學習評論語義表示,并檢測垃圾評論。通過學習文檔級的表示可以捕獲全局特征并考慮詞序與句子順序。

1 相關知識介紹

1.1 詞向量聚類

在嵌入空間中,相鄰單詞通常語義相關[16]。因此,可利用聚類方法發現語義群,但是在選擇聚類算法的過程中存在問題,如語義群數量事先未知,詞向量維度通常很高,導致模型計算量巨大。為了解決以上問題,本文采用基于密度峰值搜索的快速算法[17-18]實現詞嵌入聚類。

聚類算法假定聚類中心被局部密度較低的鄰居包圍,它們與任意一個局部密度較高的點之間的距離相對較大,正好滿足詞向量分布特性。該算法需要計算局部密度及密度較高點的距離。

局部密度[ρi]定義為:

其中函數

[dij]是數據點之間的距離, [dc]是截止距離。

與密度較高點的距離[δi]計算公式為:

1.2 句子加權

在區分垃圾評論與真實評論時,有些詞極其重要。因為在語義表示中,單詞詞義不同會導致單詞在句子中作用不同。因此,單詞不同的句子權重也不同。

對于文本T來說,獲得語義表示的方法中存在的關鍵問題為:T的語義通常由一些關鍵短語確定。如果只是簡單地將T的單詞進行語義表示,可能會引起歧義,并影響整個語句的語義表示。本文根據句子中單詞及單詞所屬的語義群計算句子權重,采用KL-divergence作為語義群與單詞的權重。KL-divergence的值代表特征在劃分文檔中的能力。

如圖1所示,本文模型首先在嵌入空間中使用聚類算法發現語義群,并使用KL-divergence計算語義群權重。在卷積層將輸入評論的每個句子轉換為固定長度矢量。根據句子權重計算公式得出每個句子的權重,最后通過上下文確定詞向量語義構成,計算文本語義表示。卷積層通過卷積核對語義表示進行卷積計算,提取高層次局部特征,利用K-Max Pooling對卷積層輸出特征圖進行下采樣,生成全局特征。最后,采用Softmax損失函數作為分類器。

1.3 架構描述

卷積層計算如式(4)所示,將卷積核與輸入矩陣向量作內積計算。

在卷積神經網絡中,經過卷積操作后放進池化層,以提取局部均值與最大值,根據計算出來的值分為均值池化層與最大值池化層。為獲取具有固定長度的最相關全局特征,本文使用K-Max池化操作對特征進行下采樣,如式(5)所示。

使用正切函數計算特征,從而得到輸入評論文本的特征表示。

通過上述層次序列之后,獲得具有固定大小的語義表示。在模型網絡最后一層與權重連接,如式(7)所示。

最后輸出層輸出模型預測結果。為將向量轉換為概率分布,使用Softmax函數。輸出向量的每個分量均可視為標簽得分。

為最小化交叉熵與所有樣本實際分布,在網絡訓練中使用交叉熵函數。因為交叉熵函數被證明能夠加速反向傳播算法,并提供良好的整體網絡性能與相對較短的停滯期,特別是對于分類任務。

2 實驗

2.1 實驗數據集

本文通過垃圾評論檢測實驗,評估基于聚類與句子加權的語義表示模型。本文采用Li[19]發布的黃金標準垃圾評論審查數據集。該數據集包含3個領域的統計數據。數據集分布如表1所示。

2.2 基準方法

將本文模型與如下基準方法進行比較。

(1)CNN模型。Kim[20]提出將卷積神經網絡用于分類模型。首先選擇詞向量作為原始特征,然后通過卷積神經網絡進一步提取特征,最后訓練出基于卷積神經網絡的分類模型。

(2)LSTM模型[21]。該方法是具有一個隱含層的長短期記憶網絡模型。LSTM網絡比簡單的循環架構更易于學習長期依賴。

(3)Bi-LSTM模型。雙向LSTM 模型是 LSTM 模型的變種,在處理很多自然語言任務時表現出良好性能。

2.3 實驗評估方法

本文采用準確率、精度、召回率及F1值評估模型有效性。準確率代表模型預測垃圾評論樣本和非垃圾評論的能力;精度反映模型預測垃圾評論的正確性能力;召回率反映在真實垃圾評論樣本中正確預測垃圾評論樣本的覆蓋范圍。

2.4 實驗結果與分析

本文使用10折交叉驗證法,通過與基準方法比較從而評價模型。從表2實驗結果可以看到,本文模型在餐廳領域獲得最佳結果,但在醫生領域表現結果不理想。LSTM與Bi-LSTM等復雜模型的表現比CNN簡單模型遜色,其主要原因是過度擬合。對于小數據集,包含眾多參數的基于神經網絡的模型未必是好的選擇。

本文模型在準確率、精度、召回率方面均超過了其它基準方法。主要原因歸結于兩個方面:①聚類算法的使用捕獲了內部深層次聯系;②句子加權的使用使模型能更好理解文本信息。

考慮到不同聚類算法對欺騙性評論檢測的影響,為得到最理想的結果,本文對兩個比較有代表性的聚類算法進行對比:K-means算法和DBSCAN算法。由圖2可以看出模型使用聚類算法比不使用聚類算法效果更好,因為通過聚類算法有助于理解文本語義,提高模型識別能力。但是不同聚類算法在嵌入空間中聚類效果不同。從圖2可以看出,基于DBSCAN聚類算法的模型優于基于K-means算法的模型。

同時本文還對比了兩種句子加權算法。在使用同類聚類算法條件下,從圖3可看出基于KL-divergence的加權優于其它方法,使用句子加權方法可提高模型準確率。

2.5 超參數影響

本部分通過實驗研究超參數(預設閾值與隱藏層長度)在本文模型檢測實驗中的效果。考慮聚類算法中閾值對算法性能的影響,本文對其進行實驗,結果如圖4所示,從中可知,當歐氏距離太小時,模型表示不理想;當歐氏距離太大時,模型準確率趨于平穩。

本文考慮到網絡隱藏層長度對算法性能有影響,使用卷積神經網絡作為基礎模型,如圖5所示。隨著隱藏層長度增加,模型準確率與F1值隨之提高,但變化幅度不大且趨于穩定。

3 結語

針對手工標注的缺點,為更加準確地獲取文本語義表示,本文提出一種基于聚類與句子加權的卷積神經網絡學習欺騙性評論的語義表示。通過在公共數據集上與多個基準方法進行比較,結果表明,基于聚類與句子加權的神經網絡比其它神經網絡模型表現更好,提高了整體模型準確率、精度及F1值,證明了本文模型有效性。但是,由于本文使用嵌入空間的歐氏距離作為預設閾值,忽略了文本單詞親和度,在未來可以在嵌入空間中改進計算親和度。

參考文獻:

[1] 林政,譚松波,程學旗. 基于情感關鍵句抽取的情感分類研究[J]. 計算機研究與發展,2012,49(11):2376-2382.

[2] 李素科,蔣嚴冰. 基于情感特征聚類的半監督情感分類[J]. 計算機研究與發展,2013, 50(12):2570-2577.

[3] OTT M,CHOI Y, CARDIE C,et al. Finding deceptive opinion spam by any stretch of the imagination[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics Human Language Technologies,2011: 309-319.

[4] 任亞峰,姬東鴻,張紅斌,等. 基于PU學習算法的虛假評論識別研究[J]. 計算機研究與發展,2015,52(3):639-648.

[5] 杜偉夫,譚松波,云曉春,等. 一種新的情感詞匯語義傾向計算方法[J]. 計算機研究與發展,2009,46(10):1713-1720.

[5] LI J, OTT M, CARDIE C, et al. Towards a general rule for identi-fying deceptive opinion spam[C]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014: 1566-1576.

[6] SHOJAEE S,MURAD M A A,AZMAN A B,et al. Detecting decep-tive reviews using lexical and syntactic features[C]. 2013 13th International Conference on Intelligent Systems Design and Applications,2013: 53-58.

[7] LI F, HUANG M, YANG Y, et al. Learning to identify review spam[C].IJCAI Proceedings-International Joint Conference on Artificial Intelligence, 2011: 2488.

[8] HAMMAD A S A,EL-HALEES A. An approach for detecting spam in Arabic opinion reviews[J]. The International Arab Journal of Information Technology, 2013, 12(1):1-9.

[9] MUKHERJEE A,VENKATARAMAN V,LIU B,et al. What yelp fake review filter might be doing?[C]. Proceedings of the International Conference on Weblogs and Social Media,2013: 409-418.

[10] 胡熠,陸汝占,李學寧,等. 基于語言建模的文本情感分類研究[J]. 計算機研究與發展,2007,44(9):1469-1475.

[11] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]. International Conference on Neural Information Processing Systems,2013:3111-3119.

[13] MNIH A,HINTON G E. A scalable hierarchical distributed lan-guage model[C]. Advances in neural information processing sys-tems,2009: 1081-1088.

[14] BENGIO Y,DUCHARME R,VINCENT P,et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155.

[15] 趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8):1834-1848.

[16] 張珊,于留寶,胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J]. 計算機科學,2012, 39(Z11):146-148.

[17] RODRIGUEZ A,LAIO A. Machine learning clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492.

[18] 賈培靈,建聰,彭延軍. 一種基于簇邊界的密度峰值點快速搜索聚類算法[J]. 南京大學學報:自然科學,2017,53(2):368-377.

[19] OTT M. Linguistic models of deceptive opinion spam[C].The Workshop on Computational Approaches to Subjectivity,2013:31-33.

[20] KIM Y. Convolutional neural networks for sentence classification[DB/OL]. https://arxiv.org/abs/1408.5882.

[21] 胡新辰. 基于LSTM的語義關系分類研究[D]. 哈爾濱:哈爾濱工業大學,2015.

(責任編輯:江 艷)

主站蜘蛛池模板: 午夜啪啪网| 亚洲毛片一级带毛片基地| 91麻豆久久久| 免费一级成人毛片| 国产在线视频自拍| 日本午夜影院| 毛片基地美国正在播放亚洲 | 永久在线播放| 暴力调教一区二区三区| 亚洲欧美在线看片AI| 国产福利微拍精品一区二区| 天堂岛国av无码免费无禁网站| 无码粉嫩虎白一线天在线观看| 在线综合亚洲欧美网站| 制服丝袜在线视频香蕉| 久久精品国产999大香线焦| 一本久道热中字伊人| 亚洲天堂久久久| 青青国产成人免费精品视频| 成年人国产视频| 亚洲熟女中文字幕男人总站| 亚洲日韩每日更新| 成人午夜天| 国产靠逼视频| 亚洲最大福利视频网| 国产精品视频3p| 国产微拍一区二区三区四区| 91蜜芽尤物福利在线观看| 欧美亚洲中文精品三区| 亚洲激情区| 永久天堂网Av| av性天堂网| 亚洲欧洲日本在线| 日韩天堂在线观看| 性色生活片在线观看| 一级毛片中文字幕| 91精品啪在线观看国产91| 波多野结衣在线se| 亚洲日韩国产精品综合在线观看| 天堂成人在线视频| 在线a视频免费观看| 亚洲国产成人无码AV在线影院L| 中文字幕调教一区二区视频| 91精品专区国产盗摄| 欧美在线一二区| AV无码一区二区三区四区| 久久国产亚洲偷自| 欧美综合成人| 欧洲日本亚洲中文字幕| 99久久无色码中文字幕| 国产不卡一级毛片视频| 97精品国产高清久久久久蜜芽 | 亚洲一道AV无码午夜福利| 日本不卡免费高清视频| 亚洲精品国产成人7777| V一区无码内射国产| 伊人天堂网| 素人激情视频福利| 久久婷婷国产综合尤物精品| 欧美激情二区三区| 国产精品一区在线麻豆| 国产精品网曝门免费视频| 日本一区二区三区精品视频| 亚洲欧美自拍一区| 国产在线观看人成激情视频| 国产精欧美一区二区三区| 久久女人网| 国产哺乳奶水91在线播放| 亚洲 日韩 激情 无码 中出| 欧美 亚洲 日韩 国产| 午夜国产理论| 国内精品久久九九国产精品 | 久热中文字幕在线| 亚洲综合色婷婷中文字幕| 国产区成人精品视频| 国产99视频精品免费观看9e| 日韩大乳视频中文字幕| 精品久久国产综合精麻豆| 粗大猛烈进出高潮视频无码| 亚洲精品动漫| 热久久这里是精品6免费观看| 国产自在线拍|