999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垃圾評論識別研究綜述

2019-11-29 18:48:38李耀鵬徐德華
科技與創新 2019年4期
關鍵詞:特征文本檢測

李耀鵬,徐德華

(同濟大學 經濟與管理學院,上海 201804)

在Web2.0的時代,人們越來越多地使用電子商務和輿論共享網站,因此,產生了海量的商品在線評論。由于在線商品評論對于消費者的購買意愿有較為顯著的影響,部分不良商家采用垃圾評論攻擊行為,通過發表虛假評論和評分試圖誤導消費者。垃圾評論的存在嚴重影響了在線評論應有作用的發揮,所以識別垃圾評論是一個緊急且重要的問題。目前,有許多關于垃圾評論識別的研究,按照識別對象,可分為識別垃圾評論發表者、識別垃圾評論發表者團體和直接識別垃圾評論。本文從識別對象的角度對垃圾評論檢測的研究現狀進行分析,以期能對相關工作的開展提供借鑒。

1 識別垃圾評論發表者

一些研究人員通過關注垃圾評論發表者來研究如何識別垃圾評論,他們在垃圾評論發表者方面進行了許多研究。垃圾評論發表者的檢測是以評論者為中心的,相比于直接檢測垃圾評論,垃圾評論發表者的檢測更加簡單、有效,因為一條評論能獲取的信息有限,比如評論文本、評分、發表時間等,但是一個評論人則可能發表多條評論,涉及多個產品,除了評論本身之外,還可以對其行為模式進行研究。

Lim等人[1]對垃圾評論發表者的行為特征進行建模并用于檢測垃圾評論發表者。他們使用垃圾評論行為的線性加權因子組合來計算評論者的整體垃圾評論分數。他們提出了基于打分行為的垃圾評論發表者的四種主要行為模式:針對某一個產品進行評分;針對某一類產品進行評分;總體偏差;早期偏差。

Jindal等人[2]發現了評論者的一些行為很可疑,比如一般正常的評論者所發表的評論往往包括積極的、中性的和消極的評論,但是有一部分評論者發表的評論全部是積極的或者全部是消極的。經過試驗發現這些行為特征與評論造假的關聯性很高。

Wang等人[3]提出了一種基于評論圖模型,利用評論者,評論和商鋪之間的影響來檢測垃圾評論發表者的迭代方法。該技術通過節點之間的相互關系計算評論者的可信度、評論的真實性以及商店的可靠性。

Fayazbakhsh等人[4]提出了一個類似的方法,也使用了一個評論圖模型。該方法再次對節點進行評分,然后使用迭代算法更新分數。這項研究所用的分數構成和初始化方法不同于Wang等人的研究。徐小婷等人[5]也采用了類似的方法,不同之處在于其采用了一種基于PageRank的評論者互評估可信度模型來檢測垃圾評論者。結果表明其模型在識別垃圾評論者方面是有效的,并且解決了僅有一條評論的評論者難以識別的問題。

Fei等人[6]使用核密度估計技術來建立了一種檢測特定產品的評論中的突發模式的算法。他們使用垃圾評論發表者的五個行為特征作為垃圾評論發表者檢測的指標,然后作者使用馬爾可夫隨機場(MRFs)來對突發模式中的評論者進行建模。他們的技術的精確度為83.7%,與以前的工作相比得出了更準確的結果。然而,Fei等人使用的最有效的特征是“亞馬遜驗證購買比例”;在任何檢測技術中使用這個特征都會極大地優化該方法的準確性。它將用戶限制為真實的客戶,因為它代表了評論者必須已經購買了產品。但這個特征不能應用于其他數據集,不具備通用性。

2 檢測垃圾評論發表者團體

某些情況下,垃圾評論活動可被視為群體性事件,即可能存在多個垃圾評論發表者被雇傭來發表評論,以達到一定的目的的情況。手動標記訓練數據以檢測垃圾評論發表者群體并不像垃圾評檢測中的其他任務那么困難,因為成員的垃圾評論行為是清晰的。來自垃圾評論發表者團體的第一個標記數據集是Mukherjee等人[7]創建的。

Mukherjee等人[8]使用頻繁模式挖掘技術來檢測垃圾評論發表者團體,通過上述特征對每個團體進行“Spamicity”打分,然后提出了GRank關系模型對垃圾評論發表團體進行排序,將評論者團體區分為垃圾評論或非垃圾評論團體。

3 識別垃圾評論

實際中,創建不同內容的多個垃圾評論是很耗費時間和精力的,垃圾評論發表者不會自己撰寫大量內容獨特的垃圾評論,他們傾向于復制現有的垃圾評論的文本。因此,查找類似的評論是檢測垃圾評論的關鍵部分。Jindal等人[9]提出了第一種垃圾評論檢測技術。他們發現,垃圾評論發表者通常會創建少量評論作為模板,并通過更改產品名稱將其復制到不同產品下面。因此,可以通過識別包含重復文本的評論來檢測垃圾評論。

Lai等人[10]提出了一個概率語言模型計算兩個評論之間的相似度分數。該模型使用Kullback-Leibler散度比較一些評論以衡量其內容相似度。

除了內容重復之外,評論的概念可能會出現重復。Algur等人[11]提出了一種度量概念相似度的技術,用于解決垃圾評論檢測問題。該技術被用來衡量被評論的產品其特征的相似性。作者利用傳統的余弦函數來度量概念特征相似度以檢測垃圾評論,從評論中提取的產品特征被用來構建評論矩陣。他們的方法的精確度是43.6%,效果不是很理想。

Ott等人[12]采用三種策略來處理垃圾評論檢測問題:①類型識別。Rayson等人[13]在計算語言學中的研究表明,文本的類型影響文本中詞性(POS)的分布。②心理語言檢測。心理語言學檢測賦予文本中使用的關鍵詞以心理語言學意義。語言查詢和字數統計(LIWC)軟件是著名的文本分析工具,它將80個心理語言學意義賦予給了4 500個關鍵詞。③文本分類。使用n-gram特征集,模擬評論的內容和上下文。結果顯示,使用LIWC和BIGRAMS在區分虛假垃圾評論方面的準確率達到了80%以上。該研究也被用來估計6個著名的在線評論社區的欺騙行為[14]。這兩項研究都使用從評論網站收集到的真實評論作為數據集。Banerjee等人[15]提出的另一種方法使用相同數據集,在文獻綜述的基礎上,作者假設欺騙性評論和真實性評論的可讀性(復雜性和閱讀難度),評論類型和評論寫作風格是不同的。

4 結束語

本文從識別垃圾評論發表者、識別垃圾評論發表者團體和直接識別垃圾評論這三個角度對垃圾評論識別的研究進行了綜述。該領域的研究已經比較成熟,但是仍然存在識別效果難以評估的問題,需要更多研究者投入精力。

猜你喜歡
特征文本檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品网曝门免费视频| 亚洲成综合人影院在院播放| 国产高清又黄又嫩的免费视频网站| 亚洲成年人片| 熟妇无码人妻| 天堂网亚洲系列亚洲系列| 国产真实乱子伦视频播放| 久久精品中文无码资源站| 日韩欧美国产综合| 久热99这里只有精品视频6| 亚洲va视频| 亚洲性影院| 欧美成人综合视频| 毛片网站免费在线观看| 亚洲中文字幕久久精品无码一区| 国产精品美女免费视频大全| 好紧好深好大乳无码中文字幕| 国产呦视频免费视频在线观看 | 欧美日韩精品在线播放| 国产免费高清无需播放器| 国产91精选在线观看| 亚洲精品不卡午夜精品| 欧美色视频日本| 欧美啪啪精品| 婷婷综合亚洲| 亚洲精品第五页| 亚洲系列中文字幕一区二区| 亚洲精品桃花岛av在线| 国产毛片高清一级国语| 亚洲欧洲日产国码无码av喷潮| 九色91在线视频| 成人小视频在线观看免费| 日韩免费毛片视频| 国产一级毛片高清完整视频版| 91麻豆精品国产高清在线| 中文字幕日韩丝袜一区| 亚洲天堂成人在线观看| 亚洲欧美日韩久久精品| 无码国产伊人| 日本成人不卡视频| 久久精品人人做人人爽97| 国产99视频免费精品是看6| 精品久久国产综合精麻豆| 久久不卡精品| 午夜国产大片免费观看| 91视频99| 亚洲第一成年人网站| 香蕉精品在线| 日本不卡在线视频| 亚洲无线视频| 在线五月婷婷| 欧美成人精品在线| 亚洲区视频在线观看| 欧美成人a∨视频免费观看| 国产精品亚洲五月天高清| 久久网欧美| 国产一二视频| 国产乱子伦无码精品小说| 国产网站在线看| 久久国产乱子伦视频无卡顿| 亚洲香蕉伊综合在人在线| 午夜日本永久乱码免费播放片| 亚洲动漫h| 无码AV日韩一二三区| 日韩成人在线网站| 国产成人高清在线精品| 国产区网址| 青青草一区二区免费精品| 国产成人亚洲精品无码电影| 99国产精品国产高清一区二区| 免费精品一区二区h| 国产女人水多毛片18| AV不卡在线永久免费观看| 亚洲精品国产精品乱码不卞 | 91精品啪在线观看国产91| 热99精品视频| 亚洲高清日韩heyzo| 国产00高中生在线播放| 国产免费黄| 喷潮白浆直流在线播放| 丝袜久久剧情精品国产| 国产美女在线观看|