999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)民航事件虛假評論的識別研究

2016-09-26 11:28:56董松月陳潤雨劉西菩趙穎莉馬曉寧
智能計算機與應(yīng)用 2016年4期
關(guān)鍵詞:特征提取

董松月 陳潤雨 劉西菩 趙穎莉 馬曉寧

摘 要:互聯(lián)網(wǎng)的開放性使得當(dāng)前對于互聯(lián)網(wǎng)上用戶的評論內(nèi)容沒有質(zhì)量控制機制,用戶發(fā)表的內(nèi)容中存在大量虛假評論,如何識別這些虛假評論信息成為重要問題。運用信息增益(Information Gain,IG),支持向量機(Support Vector Machine,SVM)等方法對民航事件的評論進(jìn)行特征提取和分類,識別虛假評論。通過對比四種不同的核函數(shù),本文選定基于RBF核函數(shù)的SVM分類器進(jìn)行虛假信息的分類識別,其 F-measure值為90%,具有較優(yōu)的分類效果。

關(guān)鍵詞:虛假評論;信息增益;支持向量機;特征提取;核函數(shù)

Abstract: For the reason of internets openness, users are allowed to comment freely without quality control system, the published content includes many false reviews. How to identify these fake comments become an important issue. Based on Information Gain and SVM, this research identify the false reviews through feature extraction and classification. By comparing four kernel functions, RBF kernel function of SVM classifier is selected for the identification of the false information. The F-measure value is 90%, with qualified classification results.

Key words: false review; information gain; support vector machine; feature extraction; Kernel Function

0 引 言

隨著Web廣泛使用以及用戶深入?yún)⑴c,出現(xiàn)社會熱門事件后,用戶會通過網(wǎng)絡(luò)發(fā)表事件相關(guān)評論,但由于用戶評論時的隨意性,導(dǎo)致其中必然包含不實信息。自2007年起,虛假信息識別這一課題受到關(guān)注。國外研究成果已獲一定進(jìn)展,而國內(nèi)研究仍處于探索時期,同時虛假信息識別大多數(shù)研究卻只是集中于電子商務(wù)產(chǎn)品、互聯(lián)網(wǎng)銷售等新式專用領(lǐng)域,而關(guān)于民航事件評論中的虛假信息識別研究卻仍亟待起步。基于如上背景需求,針對如何從海量民航事件評論信息中識別出虛假評論,本文將展開詳盡論與闡析。

本文以民航事件(馬航370事件)評論信息為研究對象,提出評論描述上述特征,并采用信息增益(Information Gain, IG)方法對各個特征計算權(quán)重,再使用支持向量機(Surpport Vector Machine,SVM)的4種核函數(shù)模型分別對訓(xùn)練集評論進(jìn)行訓(xùn)練,得出四種分類器,對比性能后殼優(yōu)選基于RBF函數(shù)的分類器,能夠?qū)φ鎸嵲u論和虛假評論進(jìn)行更佳分類,從而高效、準(zhǔn)確地識別出民航事件評論信息中的虛假評論。

1 虛假評論識別模型

虛假評論識別模型中展示了識別虛假評論的步驟及流程。模型構(gòu)建表示如圖1如下。

模型圖中主要方法介紹如下:

1.1 虛假特征的確定

本文通過支持向量機(SVM)模型對貼吧、微博用戶關(guān)于民航事件的評論進(jìn)行虛假評論識別,在這一過程中,特征的選取會直接影響到模型的識別效果。通過對評論的分析研究,本文分別從評論者、評論本身、評論內(nèi)容3個方面進(jìn)行虛假評論特征的選擇,特征如下:

1)以評論者為中心的特征

評論者是否匿名(F1):本文關(guān)注的事件樣本是受到國內(nèi)乃至國際廣泛關(guān)注的民航重大事件,多數(shù)情況下,非匿名評論比匿名評論真實性強,可信度更高。其中,蓄意誤導(dǎo)價值觀,或具有反社會傾向的評論者,以引導(dǎo)輿論,擾亂社會為目的,通常會隱藏身份,選擇匿名的可能性較大。

2)以評論本身為中心的特征

評論是否重復(fù)出現(xiàn)(F2):普通評論者發(fā)表評論目的較為直接,重在表達(dá)意見,提出見解。而發(fā)布虛假信息的評論者,其重點在于誤導(dǎo)民眾情感,以達(dá)到引導(dǎo)輿論的目的。在這一前提下,通常認(rèn)為虛假評論者希望盡可能擴大網(wǎng)絡(luò)影響力,在各類貼吧論壇微博中重復(fù)發(fā)表語氣、情感、甚至語句十分相似的評論,尤其是重復(fù)評論。因此本文研究認(rèn)為,重復(fù)出現(xiàn)的評論可以作為識別虛假評論的重要特征。

(3)以評論內(nèi)容為中心的特征

評論中是否出現(xiàn)主要評論對象的名稱(F3):經(jīng)過對大量評論的統(tǒng)計分析可知,虛假評論通常針對國家、政府、政黨組織或非政府機構(gòu),在引導(dǎo)民眾對其產(chǎn)生負(fù)面情感的過程中,評論者會忽略評論對象本身。例如馬航事件中,評論者會忽略“馬航”而著重強調(diào)政府詞匯。

評論中正面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F4),評論中負(fù)面情感詞出現(xiàn)次數(shù)/評論中所有情感詞出現(xiàn)次數(shù)(F5):虛假評論制造者擅于使用情感傾向度較大的詞匯,在整體評論中情感傾向十分一致(持中間態(tài)度的虛假評論則較少出現(xiàn))。

評論中政府部門的出現(xiàn)次數(shù)/評論中所有評論對象的出現(xiàn)次數(shù)(F6):經(jīng)過對大量評論的研究統(tǒng)計可得,在民航重大事件的評論中,大多虛假評論內(nèi)容均圍繞貶低污蔑國家政府,這一特征已成為大多虛假評論的共性。

本文利用支持向量機識別評論時,每條評論均設(shè)定上述6個特征來構(gòu)成核心表示,并對支持向量機模型分類器進(jìn)行訓(xùn)練。

1.2 信息增益

在文本分類問題中,信息增益方法用于衡量虛假特征是否出現(xiàn)于某類別文本中、以及對于評論的虛假性預(yù)測能提供多少信息,是一種基于熵的評估方法。具體定義就是虛假特征為整個分類所能提供的信息量,即不考慮該特征時文檔的熵與考慮該特征后的文檔熵的差值。通過對數(shù)據(jù)的開發(fā)訓(xùn)練,計算出每個特征的信息增益值,按照信息增益從大到小排序,這一排序究其本質(zhì)也代表著不同特征對文本信息影響程度的排序。某個特征的信息增益值越大,表示其貢獻(xiàn)越大,對分類也就更為重要。本次研究中利用信息增益方法,對區(qū)分虛假評論的特征進(jìn)行影響力大小排序。

其中, 是虛假評論訓(xùn)練集的類別, 表示第 類文檔出現(xiàn)的概率, 表示在第 類文檔中特征 的出現(xiàn)的概率。 表示不含 特征的文檔概率, 表示不含有 的文檔在 中的條件概率。 為真實類或虛假類評論文檔。

1.3 支持向量機

(1)本實驗使用支持向量機的方法對評論的真假性進(jìn)行預(yù)測分類。首先通過特征選擇與提取的方法,選用評論是否匿名、評論是否重復(fù)出現(xiàn)、評論中是否出現(xiàn)主要評論對象的名稱、評論中正面情感詞占比、評論中負(fù)面情感詞占比、評論中政府部門相關(guān)詞匯占比這 6 項數(shù)據(jù)作為區(qū)別評論真假性的特征,這里用小寫字母 表示,把這 6 個特征表示為向量形式,特征向量具體表示為 。

(2)接著將 6 維的評論真假性預(yù)測結(jié)果特征向量映射為 6維空間內(nèi)的一個點,分別選取30個真實評論和虛假評論作為訓(xùn)練集來對應(yīng)配入 6 維空間,同時利用這些數(shù)據(jù)訓(xùn)練計算機形成 SVM 分類器,通過線性支持向量分類機算法計算出5 維的超平面(將 6 維空間一分為二的超平面比 6維空間少一維)作為分類邊界將 6 維空間進(jìn)行二分, 二分后的2個空間分別代表真實評論特性向量的集合和虛假評論特征向量的集合。

(3)對于一個未知真假性的評論,只需通過評論測試,得出測試結(jié)果。提取測試結(jié)果的特征,再將測試結(jié)果特性以向量的形式給出表示,并將數(shù)值代入訓(xùn)練后的 S V M 分類器超平面的數(shù)學(xué)表達(dá)式即可分析該評論的真假性性 :結(jié)果為0,則表示該評論為虛假性評論;結(jié)果為1,則表示該評論為真實性評論。評論真假預(yù)測結(jié)果特征向量在 6 維空間內(nèi)對應(yīng)的點距離超平面的距離越遠(yuǎn),則代表其特征越明顯,即虛假性越高或越低。

1. 實驗結(jié)果與分析

2.1 實驗分析

2.1.1 信息增益

本實驗以馬航370事件為實驗樣本,由于數(shù)據(jù)集會直接影響實驗的準(zhǔn)確性與科學(xué)性,為使數(shù)據(jù)集更具代表性和真實性,本文從貼吧、微博中隨機選取150條評論。選擇8名實驗者,分別對所有評論進(jìn)行虛假評論與真實評論的人工標(biāo)注,選擇結(jié)果中相同的評論作為本部分實驗的數(shù)據(jù)集。最終數(shù)據(jù)集共103條評論,其中虛假評論40條,非虛假評論63條。本實驗中將評論劃分為2類,T:虛假評論,F(xiàn):非虛假評論。其特征計算方法如下:

F1=n,(n=0,1)(0:匿名評論者;1:非匿名評論者);

F2=n,(n=0,1)(0:評論出現(xiàn)次數(shù)超過3次;1:評論出現(xiàn)3次以下);

F3=n,(n=0,1)(0:評論中不存在主要評論對象的名稱;1:評論中存在主要評論對象的名稱);

F4=評論中正面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

F5=評論中負(fù)面情感詞的次數(shù)/評論中出現(xiàn)所有情感詞的次數(shù);

F6=評論中政府部門出現(xiàn)的次數(shù)/評論中所有評論對象出現(xiàn)的次數(shù)。

本實驗對6個特征2個類別的100條評論進(jìn)行了信息增益的特征權(quán)重計算。權(quán)重計算結(jié)果如表1所示。

計算結(jié)果表明,6個特征為虛假信息識別提供的信息量由大到小依次為:F6, F4,F(xiàn)5,F(xiàn)2,F(xiàn)1,F(xiàn)3。信息增益值越大,表明該特征對識別虛假信息的影響力越強。由實驗結(jié)果可知,評論中是否出現(xiàn)針對政府部門的攻擊性詞匯是評判虛假信息的重要依據(jù)。情感詞匯也成為虛假信息的重要特征,含有濃厚正面或負(fù)面感情色彩的評論使虛假信息的可能性顯著提高。評論是否重復(fù)出現(xiàn)的影響力則相對較小。匿名特征權(quán)值小是當(dāng)今網(wǎng)絡(luò)平臺(例如微博、貼吧等)強制要求必須注冊賬號才能發(fā)表評論等限制因素造成的。由于評論都圍繞特定民航事件發(fā)表觀點,幾乎均存在評論對象名稱,故該特征權(quán)值相對最小。

2.1.2 SVM的訓(xùn)練與預(yù)測

本實驗使用Matlab實現(xiàn)SVM分類,用訓(xùn)練集對SVM分類器進(jìn)行訓(xùn)練,利用所得模型預(yù)測測試機標(biāo)簽值。實現(xiàn)使用libsvm工具箱。

首先建立數(shù)據(jù)集和類別集。數(shù)據(jù)集包括上文確定的6個特征,類別集含有虛假、真實2個類別。

評論屬性矩陣集如圖2所示。

3 結(jié)束語

總體而言,互聯(lián)網(wǎng)虛假評論研究是較新領(lǐng)域,具有廣闊的應(yīng)用前景。目前國內(nèi)外虛假評論研究集中在商品垃圾評論,尚未發(fā)現(xiàn)針對貼吧、微博用戶關(guān)于社會熱門事件所發(fā)表的虛假信息的篩選及研究。本文以馬航370事件作為研究對象,從信息的真實性角度對民航輿情評論的特征進(jìn)行概述,利用信息增益的方法計算特征權(quán)重,基于文本分類的思想,比較驗證SVM機器模型對虛假評論的識別效果。實驗結(jié)果證明,本文實驗所選取的特征及采用的方法能夠?qū)μ摷僭u論與真實評論進(jìn)行分類,進(jìn)而識別虛假評論。未來需要在進(jìn)一步研究虛假評論的特征、深入分析其產(chǎn)生機理的基礎(chǔ)上,研究更有效的分類及檢測方法。

參考文獻(xiàn):

[1] 李霄,丁晟春. 垃圾商品評論信息的識別研究[J]. 現(xiàn)代圖書情報技術(shù),2013(1):63-68.

[2] 陳曉美. 網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D].長春:吉林大學(xué),2014.

[3] 莫倩,楊珂. 網(wǎng)絡(luò)水軍識別研究[J]. 軟件學(xué)報,2014,25(7):1505-1526.

[4] 楊風(fēng)雷,黎建輝. 用戶生成內(nèi)容中的垃圾意見研究綜述[J]. 計算機應(yīng)用研究,2011,28(10):3601-3605.

[5] 韓曉暉. Web社會媒體中信息的質(zhì)量評價及應(yīng)用研究[D].濟南:山東大學(xué),2012.

[6] JINDAL N,LIU B.Analyzing and detecting review spam[C]//Proceeding of the 7th IEEE International Conference on Data Min-ing ( ICDM07 ).Omaha,Nebraska, USA:IEEE Computer Society, 2007: 547-552.

[7] JINDAL N, LIU B. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web.Banff, Al-berta, Canada:ACM, 2007: 1189 -1190.

[8] LIM EP, NGUYEN VA, JINDAL N, et al. Detecting product review spammers using rating behaviors[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Man-agement( CIKM10).Toronto, ON, Canada:ACM, 2010: 930 -948.

[9] MUKHERJEE A, LIU B, WANG J, etal. Detecting group review spam[C]//Proceedings of the 28th ACM International Conference on Information andKnowledge Management.Hyderabad, India:ACM, 2011:1123 -1126.

[10] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[C]//Proceedings of IEEE Symposium on Computational Intelligence in Cyber Security (CICS). Nashville, TN:IEEE Computer Society, 2009:37 -44.

[11] WU G, GREENE D, SMYTH B, etal.Distortion as a validation criterion in the identification of suspicious reviews[C]//Proceedings of the 1st Workshop on Social Media Analytics. Washington, DC, USA: ACM, 2010:10 -13.

猜你喜歡
特征提取
特征提取和最小二乘支持向量機的水下目標(biāo)識別
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于DNN的低資源語音識別特征提取技術(shù)
Bagging RCSP腦電特征提取算法
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于DSP的直線特征提取算法
基于改進(jìn)WLD的紋理特征提取方法
計算機工程(2015年4期)2015-07-05 08:28:02
淺析零件圖像的特征提取和識別方法
機電信息(2015年3期)2015-02-27 15:54:46
基于CATIA的橡皮囊成形零件的特征提取
主站蜘蛛池模板: 国产婬乱a一级毛片多女| 亚洲美女操| 国产免费a级片| 精品视频在线观看你懂的一区| a亚洲天堂| 热这里只有精品国产热门精品| 亚洲成人精品| 中文字幕色在线| 久久6免费视频| 蜜桃臀无码内射一区二区三区| 日本精品中文字幕在线不卡| 日本午夜视频在线观看| 精品第一国产综合精品Aⅴ| 亚洲人在线| 国产精品55夜色66夜色| 欧美曰批视频免费播放免费| 99精品免费在线| 国产人成网线在线播放va| 精品亚洲国产成人AV| 国产毛片高清一级国语| 日本高清在线看免费观看| 香蕉视频在线观看www| a毛片免费在线观看| 91色综合综合热五月激情| 国产一级精品毛片基地| 中文字幕人成乱码熟女免费| 午夜色综合| 看国产毛片| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩无码视频播放| 国产人前露出系列视频| 91青青视频| 992tv国产人成在线观看| 亚洲国产欧洲精品路线久久| 免费中文字幕在在线不卡| 五月婷婷丁香综合| 日日拍夜夜嗷嗷叫国产| www.99精品视频在线播放| 国产国产人成免费视频77777| 国产草草影院18成年视频| 亚洲欧美在线综合图区| 国产亚洲精品无码专| 亚洲美女视频一区| 九九九精品视频| 最近最新中文字幕在线第一页| 最新午夜男女福利片视频| 国产91久久久久久| 乱色熟女综合一区二区| 亚洲激情区| a亚洲视频| 国产午夜无码专区喷水| 伊人激情久久综合中文字幕| 伊人久久婷婷五月综合97色| 精品国产成人a在线观看| 一本色道久久88亚洲综合| 国产老女人精品免费视频| 色老头综合网| 亚洲精品在线观看91| 四虎国产成人免费观看| 久久窝窝国产精品午夜看片| 久久国产精品77777| www.99精品视频在线播放| 亚洲,国产,日韩,综合一区| 人妻一区二区三区无码精品一区| 91系列在线观看| 亚洲精品制服丝袜二区| 91亚洲精选| 99re热精品视频国产免费| 国产午夜精品一区二区三| 少妇人妻无码首页| 欧美天天干| 久久国产精品嫖妓| 在线视频亚洲欧美| 99无码中文字幕视频| 无码精品国产dvd在线观看9久| 伊人查蕉在线观看国产精品| 色综合日本| 日韩精品一区二区三区免费| 国产日韩AV高潮在线| 亚洲成人网在线观看| 天天爽免费视频| 欧美成a人片在线观看|