999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

虛假評論特征提取檢測技術(shù)研究

2023-10-31 09:39:16張锏予
智能計算機與應(yīng)用 2023年10期
關(guān)鍵詞:特征提取特征文本

張锏予

(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院, 沈陽 110158)

0 引 言

隨著電子商務(wù)與互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,消費者的消費方式也從傳統(tǒng)的線下消費轉(zhuǎn)移到了線上購物。 而消費者為選擇合適的商品,會參考商品的用戶評論信息。 消費者判斷相關(guān)商家的誠信度和商品質(zhì)量的好壞會受到虛假評論的影響,這些虛假的評論信息會誘導(dǎo)消費者對一些不符合實際的商家服務(wù)、商品價值、商品質(zhì)量等進行選擇,嚴(yán)重干擾了消費者的購物選擇,擾亂了網(wǎng)絡(luò)電商的運營。

針對網(wǎng)上購物場景中的虛假評論,本文采用評論特征提取檢測技術(shù),確定虛假評論中的標(biāo)識文本內(nèi)容,將虛假評論與其他真實評論區(qū)分開。 隨著機器學(xué)習(xí)的應(yīng)用與發(fā)展,虛假評論特征提取檢測技術(shù)的發(fā)展與日俱進[1]。 但由于虛假評論是由商家或企業(yè)利用大量水軍發(fā)布的,而水軍可以通過多個賬號進行評價,留下的痕跡難以捕捉,目前沒有先進的技術(shù)可用于檢測這些虛假評論,所以高精確率、低成本要求、方便客戶操作和有效篩選的虛假評論特征提取技術(shù)的研究是未來的重點研究方向。

1 相關(guān)工作

虛假信息泛濫,品牌誠信對建立消費者信任至關(guān)重要,置信度有可能直接轉(zhuǎn)化為利潤。 檢測過濾出虛假評論,對于確保在線評論反饋系統(tǒng)的完整性、可靠性至關(guān)重要。 目前主要有2 種解決方法:一種是基于傳統(tǒng)方法的特征提取檢測;另一種是基于深度學(xué)習(xí)的特征提取檢測方法。

1.1 基于傳統(tǒng)方法的特征提取

基于傳統(tǒng)的提取評論方法是根據(jù)事實情況,手動的核對虛假信息中的虛假內(nèi)容及觀點,通過將信息表達與核實的真實表達比較,判斷評論信息的準(zhǔn)確度。 而手動核對虛假信息又可分為兩種方式,一種是基于專家的手動核查,通過對評論的整段評價,對詳述內(nèi)容的可靠性評級,對詞句、語法的正確表達進行篩選、評價,保證評論提取的準(zhǔn)確率,但是當(dāng)評論檢測數(shù)量激增時,準(zhǔn)確性會大打折扣;另一種是眾包的方法,利用群眾的數(shù)量優(yōu)勢對評論進行提取篩查,可以獲得較低的成本付出,但是人工方法檢測虛假評論的精度僅為57%,評論提取的準(zhǔn)確率不高是尚未解決的問題[2]。

1.2 基于深度學(xué)習(xí)的特征提取

隨著深度學(xué)習(xí)算法的不斷發(fā)展,深度學(xué)習(xí)算法也應(yīng)用在特征提取領(lǐng)域[3]。 卷積神經(jīng)網(wǎng)絡(luò)(CNN)被應(yīng)用在矩陣分解模型中,通過從評論中提取需要的特征量,對評論進行評分預(yù)測,并通過概率矩陣分解達到特征提取的效果,但模型無法驗證評論特征的重要程度。 Trans-Nets[4]通過拓展,構(gòu)建了基于并行神經(jīng)網(wǎng)絡(luò)的Deep-Conn 雙塔結(jié)構(gòu)模型,將隱藏層的引入作為評論描述和商品實際特點的轉(zhuǎn)化;而D-ATTN(Dual Attention model)模型以及NARRE(Neural Attentional Regression model with Reviewlevel Explanations)模型在Deep-Conn 模型的基礎(chǔ)上引入注意力機制,可以輕松的抓到評論文本中的中的關(guān)鍵要素及信息[5-6];DAML 模型集成了交互注意力機制,在捕獲用戶和商品特征后,展現(xiàn)用戶和特征評論的關(guān)聯(lián),特征交互由神經(jīng)因子分解機完成[7]。

1.3 基于機器學(xué)習(xí)的特征提取

基于機器學(xué)習(xí)提取特征包含4 個部分,分別是:基于文本內(nèi)容重復(fù)評論提取特征;基于評論人屬性與行為提取特征;基于評論主觀性的特征提??;基于特征融合的方法。

1.3.1 基于文本內(nèi)容重復(fù)評論提取特征

對于大部分發(fā)布虛假評論的用戶而言,不論評論的是同類型商品還是不同類型商品,虛假評價內(nèi)容都具有極高相似度[8]。 當(dāng)某些評論里的內(nèi)容和語言表達出現(xiàn)一定程度的相似或覆蓋時,就可將相似的部分作為特征提取的訓(xùn)練集,對訓(xùn)練集進行虛假評論特征提取訓(xùn)練。

1.3.2 基于評論人屬性與行為提取特征

Hussain 開發(fā)了一個評論圖來捕捉評論、評論者和商店之間的互動,評論的真實性是可以計算的,但這種方法沒有使用任何評論文本信息[9]。 相比之下,Wang[10]提出的方法僅基于文本特征,研究了幾個特征類別對垃圾評論識別的影響,包括打分時間、內(nèi)容、情感、產(chǎn)品或個人資料特征。

1.3.3 基于評論主觀性的特征提取

從評論主觀性角度分析,需要引入情感特征。如果評論中的表達顯得過于吹捧或者詆毀,則很可能是虛假的無意義評論,因此可以通過情感分析體現(xiàn)評論內(nèi)容的主觀性和褒貶性。 在現(xiàn)有研究中,一般利用情感詞匯的極性對文本的情感傾向進行評價,目前主要有利用情感詞數(shù)或利用情感詞典計算情感強度的加權(quán)得分兩種度量方法。

1.3.4 基于特征融合的方法

在檢測虛假評論時,不僅需要提取關(guān)于評論內(nèi)容的特征,還需要提取其他特征,如評論者信息、評論者關(guān)注數(shù)量、收藏商品等來輔助檢測。

2 多機器學(xué)習(xí)分類器比較

由于虛假評論與真實評論特征散亂,欺詐隱蔽性較強,無明顯分布區(qū)分度,故而需要借助多種機器學(xué)習(xí)算法,進行有監(jiān)督檢測學(xué)習(xí)。 當(dāng)前使用較多的機器學(xué)習(xí)分類器包括K 鄰近(KNN)、支持向量機(SVM)、樸素貝葉斯(NB)、決策樹(DT)等等。

2.1 K 鄰近(KNN)

K 鄰近算法分類是測量文本特征中不同特征值互相的距離。 假設(shè)特征空間中樣本的K個最鄰近的都同屬一種類型,那么在特征空間中的這個樣本也屬于這個類型。 KNN 算法具有很多優(yōu)點,操作簡單、理論清晰且無需參數(shù)支持等。 在多種分類要求的問題上,KNN 可提供更高的效率及準(zhǔn)確度,但是KNN 算法對樣本數(shù)量的要求較高,需要使用很大的算力,內(nèi)存消耗大。

2.2 支持向量機(SVM)

支持向量機通過給定系統(tǒng)的訓(xùn)練樣本集,使得系統(tǒng)在訓(xùn)練樣本集中找到無數(shù)個超平面,區(qū)分不同類型的樣本。 通過超平面做分類的支持向量機無需將樣本集中的所有樣本進行計算,可以提高運算效率,節(jié)省內(nèi)存。 支持向量機的缺點是在計算時需要將一些沒有規(guī)章且維度較低的數(shù)據(jù),在核函數(shù)的映射下,映射到高維空間,且使用超平面將樣本區(qū)分,較為復(fù)雜。

2.3 樸素貝葉斯(NB)

樸素貝葉斯算法是貝葉斯公式和條件獨立假設(shè)方法的結(jié)合應(yīng)用。 當(dāng)文本中的某些特征項不能通過直接統(tǒng)計獲得,則可以使用概率公式進行轉(zhuǎn)換,通過加強的假設(shè),將概率進行乘法運算,從而得到對應(yīng)的屬性概率。

樸素貝葉斯算法可以設(shè)置先驗概率,通過一系列簡單的數(shù)學(xué)計算就可以實現(xiàn),大大節(jié)省了內(nèi)存和運算時間,缺點是僅適用于文本樣本,且樣本特征相互獨立。

2.4 決策樹(DT)

決策樹是一種基本的機器學(xué)習(xí)模型,可以用樹形圖表示的樹結(jié)構(gòu),以此表示各個屬性與其對象值之間的映射關(guān)系。 在決策樹的整體結(jié)構(gòu)中,每個葉節(jié)點代表一個待預(yù)測的標(biāo)簽類型,每個內(nèi)部節(jié)點對應(yīng)于一個屬性,如果某些節(jié)點具有與之相對應(yīng)的屬性,則二者之間可能存在分支。 針對提取的特征應(yīng)用決策樹進行預(yù)測,通過遞歸分割過程,直至實現(xiàn)所有的子集包含一樣的目標(biāo)量,但決策樹算法在訓(xùn)練過程中時間成本較高。

2.5 融合分類器(LGB)

輕量級梯度提升分類器LGB 在不損害準(zhǔn)確率的條件下加快GBDT 模型的訓(xùn)練速度,且占用內(nèi)存更少,主要目的是利用弱分類器(決策樹)迭代訓(xùn)練以得到最優(yōu)模型,廣泛應(yīng)用于分類、預(yù)測等領(lǐng)域。

3 實驗驗證與結(jié)果分析

3.1 數(shù)據(jù)集

本文使用公開可用的Yelp 數(shù)據(jù)集,該數(shù)據(jù)集應(yīng)用廣泛且聲譽良好,采用Yelpzip 子集進行實驗。 該數(shù)據(jù)集中86.78%的數(shù)據(jù)被標(biāo)記為真實評論,13.22%為虛假評論,顯然非常不平衡。 因此,在建立相應(yīng)的分類模型之前,采用下采樣算法平衡數(shù)據(jù)集,減少分類器的識別誤差。 這種方法優(yōu)點是減少數(shù)據(jù)中的噪聲點,避免過擬合,缺點是減少了可學(xué)習(xí)的數(shù)據(jù)量。

3.2 實驗特征提取

Salminen J[11]分析得出在虛假評論檢測任務(wù)中,行為特征比單一文本特征更加有效。 故本文選用基于特征融合的方法提取Yelp 酒店和餐廳領(lǐng)域中行為和文本特征,并分析其有效性。

(1)活躍時間窗(AW):虛假評論者很可能在短時間內(nèi)進行評論,通常不是長期活躍的成員。 將該評論者的最后一次和第一次評論的時間戳之差作為活動窗口,檢測每一位評論者在指定時間窗內(nèi)的活躍度。 大多數(shù)的虛假評論者的活躍時間為2 個月,而真實評論者的活躍時間少于10 個月。

(2)最大評論數(shù)(MNR):表示一天內(nèi)的最大評論數(shù)。 在數(shù)據(jù)中,約三分之一的虛假評論人在一天內(nèi)發(fā)布了所有的評論,大部分的虛假評論人每天寫6 條或更多的評論,而真實評論者的日評論率非常適中。

(3)評論計數(shù)(RC):表示評論者的評論數(shù)量。大多數(shù)的虛假評論者發(fā)布評論數(shù)量在11 條之內(nèi),而半數(shù)的真實評論者評論數(shù)量超過40 條。 虛假評論者和真實評論者評論數(shù)量有明顯的區(qū)分。

(4)正面評價百分比(PR):正面評價(高于3分)占全部評價的百分比越高越可疑。 大多數(shù)的虛假評論者的目標(biāo)是提升企業(yè)口碑,正面評級較多。而在現(xiàn)實生活中,由于評價標(biāo)準(zhǔn)不同,真實評論者的評級表現(xiàn)出均衡的分布趨勢,不同范圍的評論者擁有不同比例的正面評論。

(5)評論長度(RL):大多數(shù)虛假評論的平均評論長度限制在135 個單詞以內(nèi),而大多數(shù)真實用戶的平均評論字符長度高于200 個字符。

(6)評論人偏差(RD):虛假評論者偏離一般消費者評級共識的數(shù)量。 為了測量評論者的偏差,首先計算一個評論人與同一產(chǎn)品的其他評論人之間的絕對評分偏差;其次,取其所有評論的所有評級偏差的平均值,計算該評論者的平均偏差。 在滿分為5的尺度上,偏差可以從0 ~4。 大多數(shù)真實評論人在五星尺度上的絕對偏差為0.6,這表明真實評論人與其他真實評論人對產(chǎn)品有評級共識,而大多數(shù)虛假評論者與真實評論者的評級偏差較大。

(7)最大內(nèi)容相似度(MCS):即同一評論者的任意兩條評論內(nèi)容的余弦相似度。 大多數(shù)真實評論人在評論中幾乎沒有相似度(以0.16 余弦相似度為界);而大多數(shù)的虛假評論者在評論中有較高相似度。

通過融合上述7 種互不相關(guān)的有效特征,可提高虛假評論檢測水平。 信息融合越全面,特征提取效率越高。

3.3 實驗結(jié)果分析

由于消費者在消費前習(xí)慣于參考平臺的最新消費評價信息,使得虛假評論往往在某一時間窗內(nèi)呈爆發(fā)趨勢。 選取Yelpzip 子集近兩年的評論數(shù)據(jù),并隨機選取其中80%數(shù)據(jù)集作為訓(xùn)練集,其余作為測試集,采用交叉驗證法,比較不同分類模型的預(yù)測性能優(yōu)劣,分類結(jié)果見表1。 從召回率來看,LGB 模型是檢測效果最佳的模型。

表1 交叉驗證機器學(xué)習(xí)模型分類結(jié)果Tab.1 Classification results of different machine learning models%

AUC(Area Under the Curve of ROC)是評估分類器性能的主流數(shù)值指標(biāo),能夠很好地平衡使用不同概率閾值的預(yù)測模型的真陽性率和假陽性率,所以針對嚴(yán)重不均衡的評論數(shù)據(jù)集,往往將高AUC值作為預(yù)測性能的首要評價指標(biāo)。 將下采樣法應(yīng)用于Yelp 數(shù)據(jù)集,機器學(xué)習(xí)模型分類結(jié)果見表2。 各個分類器模型的AUC值均有所提高,LGB 模型增長最為顯著,證實了基于分類器融合的有監(jiān)督方法在虛假評論檢測中具有較好效果,但需要在召回率和精度之間做出權(quán)衡。 此外,單純基于文本重復(fù)、評論人行為和評論主觀屬性中一方面進行特征提取的檢測效果遠低于多特征融合特征提取。 因此,虛假評論檢測精度與互不重疊的有效文本特征數(shù)呈正相關(guān)。

表2 下采樣后機器學(xué)習(xí)模型分類結(jié)果Tab.2 Classification results after downsampling %

4 結(jié)束語

本文針對Yelp 數(shù)據(jù)集中的已標(biāo)注虛假評論,提取虛假評論的文本特征和行為特征,運用多種機器學(xué)習(xí)比較融合的方法,對虛假評論進行有監(jiān)督機器學(xué)習(xí)分類。 實驗結(jié)果表明,Yelpzip 數(shù)據(jù)集極不均衡且虛假評論特征隱蔽性強,有監(jiān)督方法在虛假評論檢測中具有一定效果;提出利用下采樣法在分類檢測過程中平衡檢測精度和召回率;有監(jiān)督方法在實際應(yīng)用中取得了較好效果,也可為下一步設(shè)計基于在線虛假評論特征自動提取檢測技術(shù)方法提供參考。

猜你喜歡
特征提取特征文本
如何表達“特征”
在808DA上文本顯示的改善
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
基于MED和循環(huán)域解調(diào)的多故障特征提取
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品亚洲va在线观看| 99re在线观看视频| 日韩精品无码一级毛片免费| 国产日韩欧美视频| 毛片a级毛片免费观看免下载| 亚洲h视频在线| 欧美国产日韩另类| 国产女主播一区| 久久精品亚洲专区| 99九九成人免费视频精品| 亚洲国产精品一区二区高清无码久久 | 日本一区高清| 无码电影在线观看| 色婷婷综合在线| 丁香婷婷久久| 国产99久久亚洲综合精品西瓜tv| 亚洲永久免费网站| 久久一本日韩精品中文字幕屁孩| 亚洲香蕉在线| 福利视频久久| 视频二区国产精品职场同事| 无遮挡国产高潮视频免费观看| 国产主播一区二区三区| 18禁影院亚洲专区| 亚洲欧洲综合| 国产免费精彩视频| 亚洲国产精品一区二区第一页免| 国产在线拍偷自揄拍精品| 狠狠色丁香婷婷| 99精品视频在线观看免费播放| 亚洲v日韩v欧美在线观看| 色综合热无码热国产| 思思99热精品在线| av免费在线观看美女叉开腿| 性激烈欧美三级在线播放| 中文字幕色站| 国产成人福利在线视老湿机| 萌白酱国产一区二区| 看你懂的巨臀中文字幕一区二区 | 三上悠亚精品二区在线观看| 国内自拍久第一页| 国产高潮流白浆视频| 一级福利视频| 伊人中文网| a级毛片一区二区免费视频| 色悠久久久久久久综合网伊人| 日韩在线2020专区| 永久在线精品免费视频观看| 欧美激情视频一区二区三区免费| 国产精品一区二区不卡的视频| 一级毛片无毒不卡直接观看| 色噜噜狠狠狠综合曰曰曰| 性色一区| 日韩精品毛片| 亚洲性日韩精品一区二区| 一级毛片免费不卡在线| 色婷婷亚洲十月十月色天| 全部毛片免费看| 欧美高清三区| 嫩草在线视频| 欧洲熟妇精品视频| 日本高清视频在线www色| 国产精品一区二区在线播放| 丰满人妻一区二区三区视频| 久久久久亚洲AV成人人电影软件 | 亚洲成人www| 91无码人妻精品一区| 亚洲人成网站在线播放2019| 国产日韩精品欧美一区喷| 日韩在线第三页| 精品国产欧美精品v| jizz在线观看| 免费国产不卡午夜福在线观看| 最新日本中文字幕| 91精品视频播放| 精品色综合| 四虎在线观看视频高清无码| 久久91精品牛牛| 欧美激情二区三区| 国产成人无码久久久久毛片| 91精品亚洲| 欧美激情二区三区|