曲強(qiáng),于洪濤,黃瑞陽(yáng)
基于注意力機(jī)制的社交垃圾文本檢測(cè)方法
曲強(qiáng),于洪濤,黃瑞陽(yáng)
(國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
在社交網(wǎng)絡(luò)中,大量的垃圾文本嚴(yán)重威脅用戶的信息安全與社交網(wǎng)站的信用體系。針對(duì)噪聲性與稀疏性問(wèn)題,提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)方法。在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,該方法增加了過(guò)濾層,并在過(guò)濾層設(shè)計(jì)基于樸素貝葉斯權(quán)重技術(shù)的注意力機(jī)制,解決了噪聲性問(wèn)題。并且,它改變了池化層原有的策略,采用基于注意力機(jī)制的池化策略,緩解了稀疏性問(wèn)題。結(jié)果表明,相對(duì)于其他檢測(cè)方法,所提方法的檢測(cè)準(zhǔn)確率在4個(gè)數(shù)據(jù)集上分別提高了1.32%、2.15%、0.07%、1.63%。
社交網(wǎng)絡(luò);信息安全;垃圾文本;注意力機(jī)制
隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,在線社交網(wǎng)絡(luò)由于具有便捷、靈活、內(nèi)涵豐富的特性而快速成為人們生活重要的組成部分,如Facebook、Twitter、Google、新浪微博、微信等流行社交網(wǎng)絡(luò)。目前,在線社交網(wǎng)絡(luò)的用戶數(shù)量呈指數(shù)級(jí)別增長(zhǎng),據(jù)統(tǒng)計(jì),2018年春節(jié)期間微信和WeChat的合并月活躍賬戶數(shù)超過(guò)10億。社交網(wǎng)絡(luò)由于蘊(yùn)含的巨大用戶隱私信息及其廣闊的商業(yè)價(jià)值,成為不法分子圖謀不軌的目標(biāo)。大量發(fā)送垃圾文本是不法分子攻擊社交網(wǎng)絡(luò)的重要手段之一。其中,本文中的垃圾文本指:以為商品營(yíng)造虛假事實(shí)、威脅網(wǎng)絡(luò)安全等為目的,大量發(fā)送的商品推銷文本、虛假評(píng)論文本、熱點(diǎn)事件的謠言等文本內(nèi)容。根據(jù)2013年的社交網(wǎng)絡(luò)垃圾文本統(tǒng)計(jì)報(bào)告,2013年1–6月,社交垃圾文本數(shù)量增長(zhǎng)355%,每200條社交文本中有1條是垃圾文本,它們對(duì)5%的社交應(yīng)用App造成一定程度的威脅。社交網(wǎng)絡(luò)的垃圾文本不僅惡化社交網(wǎng)絡(luò)環(huán)境,影響用戶體驗(yàn),危害用戶信息安全,而且對(duì)社交網(wǎng)絡(luò)的可用性以及安全性造成一定程度的影響[1]。
針對(duì)社交網(wǎng)絡(luò)垃圾文本的危害,國(guó)內(nèi)外學(xué)者對(duì)社交網(wǎng)絡(luò)垃圾文本檢測(cè)方法進(jìn)行了大量的理論研究。Ratkiewicz等[2-3]提出基于關(guān)鍵詞的檢測(cè)方法,該類方法利用統(tǒng)計(jì)的方法提取垃圾文本中頻繁出現(xiàn)的關(guān)鍵詞,并根據(jù)這些關(guān)鍵詞檢測(cè)垃圾文本。該方法計(jì)算復(fù)雜度較低,并且取得了一定的檢測(cè)效果,但存在以下兩個(gè)問(wèn)題:①該方法需要人工設(shè)計(jì)提取的關(guān)鍵詞,不具有普適性;②該方法提取關(guān)鍵詞特征表示,在計(jì)算機(jī)中表示為0/1,并且其維度大小為關(guān)鍵詞數(shù)目,因此關(guān)鍵詞特征表示存在稀疏性問(wèn)題[4]。
為解決基于關(guān)鍵詞方法存在的非普適性問(wèn)題與稀疏性問(wèn)題,研究者提出基于神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法。例如,CNN[5]、RNN[6]、LSTM[7]、GRU[8]等神經(jīng)網(wǎng)絡(luò)方法。其中,CNN模型利用卷積核與池化核可以有效提取文本的深層認(rèn)知特征;RNN等模型利用時(shí)序神經(jīng)單元提取文本的時(shí)序特征。但它們都存在以下2個(gè)問(wèn)題:①該方法對(duì)原始文本進(jìn)行檢測(cè),缺乏合理的處理文本噪聲單詞的機(jī)制;②該方法池化層策略雖然選取了具有顯著區(qū)分能力的特征,如最大池化策略選取最突出的特征,平均池化策略選取平均的特征等,但這些池化策略目的單一,并且不能動(dòng)態(tài)地進(jìn)行優(yōu)化,即不能自動(dòng)選取貢獻(xiàn)最大的文本特征。
為實(shí)現(xiàn)自動(dòng)選取貢獻(xiàn)最大的文本特征,研究人員提出注意力機(jī)制模型,即根據(jù)句子中每個(gè)單詞對(duì)于分類結(jié)果的貢獻(xiàn)程度,賦予每個(gè)單詞不同的權(quán)重,以此表示模型對(duì)于每個(gè)單詞的注意力。目前,基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)方法根據(jù)利用信息類型的不同可以分為兩類:利用外部信息的方法和不利用外部信息的方法。①在利用外部信息的方法中,AHNN[9]、AP-CNN方法[10]利用CNN模型提取文本整體含義,輔助LSTM模型進(jìn)行注意力表示,但模型中的CNN模型僅起到輔助生成作用,并且使用文本信息的外部信息幫助,計(jì)算復(fù)雜度較高。②在不利用外部性信息的方法中,Semantic-CNN方法[11]在過(guò)濾層加入注意力機(jī)制,提出利用語(yǔ)義特征進(jìn)行初始化過(guò)濾,來(lái)提升文本分類的實(shí)驗(yàn)精度。AP-BiRNN[12]、AP-BiLSTM方法[13]在特征表示層與分類層間加入注意力機(jī)制,進(jìn)一步識(shí)別有效特征單詞,提升了文本分類精度。雖然基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)方法利用注意力機(jī)制可以提取足夠的特征表示,緩解稀疏性,但是依舊存在噪聲性[4]問(wèn)題。
針對(duì)基于關(guān)鍵詞方法面臨的稀疏性問(wèn)題,基于神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制方法面臨的噪聲性問(wèn)題,在不借助外部信息的情況下,本文提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(MA-CNN)檢測(cè)方法,主要內(nèi)容如下。
1) MA-CNN在原始CNN模型基礎(chǔ)上增加過(guò)濾層,并且在過(guò)濾層融合關(guān)鍵詞提取的思想,設(shè)計(jì)基于樸素貝葉斯權(quán)重技術(shù)[14]的注意力機(jī)制。通過(guò)提取具有檢測(cè)效果的關(guān)鍵詞,該方法有效降低了文本中噪聲含量,解決了噪聲性問(wèn)題。
2) MA-CNN在池化層融合注意力機(jī)制的思想,采用基于注意力機(jī)制的池化策略。通過(guò)注意力機(jī)制給具有檢測(cè)效果的單詞賦予較高的權(quán)重,有效提取文本的特征表示,緩解稀疏性問(wèn)題。需要說(shuō)明的是,本文中的注意力機(jī)制池化策略與目前流行的RNN注意力機(jī)制不同,不同之處在于RNN注意力機(jī)制是基于每個(gè)時(shí)刻單元重新賦予權(quán)重,而本文中的注意力機(jī)制池化策略是基于每個(gè)核內(nèi)部單元重新賦予權(quán)重。
3) 最后,本文在Youtube、Opinion、Telephone與E-mail這4個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,相比于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)方法與基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)方法,本文提出方法的檢測(cè)準(zhǔn)確率在4個(gè)數(shù)據(jù)集上分別提高了1.32%、2.15%、0.07%、1.63%。
針對(duì)社交網(wǎng)絡(luò)文本的噪聲性與稀疏性問(wèn)題,本文提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型分為5層,分別是過(guò)濾層、嵌入層、卷積層、池化層以及分類層。

基于樸素貝葉斯權(quán)重技術(shù)的注意力機(jī)制:根據(jù)式(1)計(jì)算每個(gè)單詞的樸素貝葉斯權(quán)重,然后按照條件選取一定數(shù)量的關(guān)鍵詞,從而過(guò)濾噪聲。



2014年,YoonKim提出新的CNN模型[5],解決了文本分類問(wèn)題并且取得了良好的效果。本文提出的MA-CNN模型在卷積層沿用了YoonKim設(shè)計(jì)模型的卷積核結(jié)構(gòu),但在池化層放棄了原來(lái)的最大池化策略,采用新的注意力機(jī)制池化策略,圖1展示了僅帶有大小為2卷積核的MA-CNN模型的卷積層、池化層以及分類層設(shè)計(jì)。

圖1 卷積核為2的MA-CNN模型
Figure 1 The MA-CNN model with convolution kernel size of two

針對(duì)CNN池化策略單一并且不能動(dòng)態(tài)更新的問(wèn)題,MA-CNN模型在池化層放棄了原來(lái)的最大池化策略,根據(jù)注意力機(jī)制的思想,提出基于注意力機(jī)制的池化策略。




基于交叉熵的定義,本文中Loss函數(shù)定義如式(6)所示,根據(jù)損失函數(shù)的梯度求導(dǎo),可以進(jìn)行反向傳播學(xué)習(xí)。

(1) 數(shù)據(jù)集
為驗(yàn)證MA-CNN方法的檢測(cè)效果,本文通過(guò)在4個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),進(jìn)一步評(píng)價(jià)MA-CNN的檢測(cè)效果。本文使用的4個(gè)數(shù)據(jù)集情況如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)集
1) Youtube數(shù)據(jù)集
該數(shù)據(jù)集是利用Youtube的API爬取形成的,包含2015年1?3月的5個(gè)訪問(wèn)次數(shù)最多的視頻的評(píng)論數(shù)據(jù),共1 005條垃圾評(píng)論信息和956條正常評(píng)論信息。
2) Opinion數(shù)據(jù)集
該數(shù)據(jù)集由幾個(gè)網(wǎng)站的數(shù)據(jù)集組成,包含400條來(lái)自TripAdvisor網(wǎng)站的可信積極評(píng)論,400條來(lái)自Expedia、Hotels.com、Orbitz、Priceline、TripAdvisor、Yelp等網(wǎng)站的可信消極評(píng)論,400條來(lái)自Amazon Mechanical Turk的虛假積極評(píng)論,400條來(lái)自Amazon Mechanical Turk的虛假消極評(píng)論。
3) SMS數(shù)據(jù)集
該數(shù)據(jù)集由4個(gè)SMS數(shù)據(jù)集組成,包含來(lái)自Grumbletext Web Site的425條垃圾信息,來(lái)自NUS SMS中心的3 375條正常信息,來(lái)自Caroline Tag's PhD論文的450條正常信息,來(lái)自SMS Corpus 0.1的1 002條正常信息和433條垃圾信息。
4) E-mail數(shù)據(jù)集
該數(shù)據(jù)集通過(guò)郵件系統(tǒng)采集形成,包含1 813條垃圾郵件信息與2 788條正常郵件信息。
(2) 實(shí)驗(yàn)環(huán)境
本文使用的實(shí)驗(yàn)環(huán)境為Ubuntu16.04系統(tǒng),8個(gè)CPU處理器以及23.5 GB內(nèi)存,編程語(yǔ)言為Python3.6,編程框架為T(mén)ensorflow。
(3) 實(shí)驗(yàn)設(shè)置
在過(guò)濾層,MA-CNN使用基于樸素貝葉斯權(quán)重技術(shù)的注意力機(jī)制。在嵌入層,MA-CNN使用隨機(jī)化的表示方法,單詞表示向量維度為128維。在卷積層,MA-CNN使用核大小為3、4、5的3種卷積核,每種卷積核數(shù)目為100個(gè)。在池化層,MA-CNN采用基于注意力機(jī)制的池化策略。在分類層,MA-CNN采用softmax函數(shù)。在實(shí)驗(yàn)中,訓(xùn)練集與測(cè)試集的比例為9:1,實(shí)驗(yàn)過(guò)程進(jìn)行10次,取10次檢測(cè)準(zhǔn)確率的均值作為最終的結(jié)果。
(4) 評(píng)價(jià)指標(biāo)
本文采用檢測(cè)準(zhǔn)確率評(píng)價(jià)實(shí)驗(yàn)各個(gè)方法的實(shí)驗(yàn)效果,這里的檢測(cè)準(zhǔn)確率是所有社交文本的檢測(cè)準(zhǔn)確率,不僅包含垃圾文本的檢測(cè)準(zhǔn)確率,而且包含正常文本的檢測(cè)準(zhǔn)確率。因此,檢測(cè)準(zhǔn)確率的計(jì)算方法如式(7)所示。

其中,TP表示真實(shí)類別為正常文本,模型預(yù)測(cè)類別仍為正常文本的文本數(shù)目;表示真實(shí)類別為垃圾文本,模型預(yù)測(cè)類別仍為垃圾文本的文本數(shù)目;表示真實(shí)類別為垃圾文本,模型預(yù)測(cè)類別卻為正常文本的文本數(shù)目;表示真實(shí)類別為正常文本,模型預(yù)測(cè)類別仍為垃圾文本的文本數(shù)目。
在實(shí)驗(yàn)部分中,本文首先將提出的MA-CNN方法與6種方法進(jìn)行對(duì)比,包含4種傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)方法與2種目前流行的基于注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)方法(semantic-CNN、AP-BiLSTM),驗(yàn)證MA-CNN方法的檢測(cè)性能效果。其次,在CNN模型的基礎(chǔ)上,分別對(duì)嵌入層表示方法、卷積層激活函數(shù)以及池化層注意力機(jī)制對(duì)檢測(cè)結(jié)果的影響進(jìn)行了探討。
實(shí)驗(yàn)1 不同檢測(cè)方法的檢測(cè)性能對(duì)比
根據(jù)表2的實(shí)驗(yàn)結(jié)果,在4個(gè)經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)算法中,CNN模型在Youtube、Opinion與SMS這3個(gè)數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率比較高,而LSTM模型在E-mail數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率比較高,可以看出CNN模型在文本分類與檢測(cè)的效果一般好于循環(huán)神經(jīng)網(wǎng)絡(luò)模型。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)更加注重文本內(nèi)容的深度語(yǔ)義特征,而循環(huán)神經(jīng)網(wǎng)絡(luò)更加注重文本字符的時(shí)間序列特征,所以對(duì)于文本分類與檢測(cè)這種偏向于區(qū)分語(yǔ)義特征的任務(wù)而言,卷積神經(jīng)網(wǎng)絡(luò),即CNN模型的檢測(cè)效果表現(xiàn)得更好。由于CNN模型良好的檢測(cè)效果,因此在后續(xù)對(duì)于各個(gè)層次的機(jī)制與方法的實(shí)驗(yàn)中,實(shí)驗(yàn)選取的基礎(chǔ)模型是CNN模型,不是循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

表2 不同檢測(cè)方法的檢測(cè)性能對(duì)比
另外,將6種方法在各個(gè)數(shù)據(jù)集上檢測(cè)效果比較好的方法與本文提出的MA-CNN模型進(jìn)行對(duì)比,相對(duì)于每個(gè)數(shù)據(jù)集上的最佳算法,MA-CNN模型在4個(gè)數(shù)據(jù)集上分別有1.32%、2.15%、0.07%、1.63%的提升,驗(yàn)證了MA-CNN模型可以有效檢測(cè)社交網(wǎng)絡(luò)垃圾文本。
實(shí)驗(yàn)2 嵌入層表示方法的影響
在CNN模型的基礎(chǔ)上,本部分實(shí)驗(yàn)由嵌入層表示方法對(duì)檢測(cè)準(zhǔn)確率的影響進(jìn)行探究,分別采用4種表示方法:隨機(jī)化方法、SkipGram方法、CBOW方法與Glove方法。
根據(jù)表3的實(shí)驗(yàn)結(jié)果,使用不同的表示方法的CNN模型在不同數(shù)據(jù)集上表現(xiàn)性能不一般。例如,對(duì)于SMS數(shù)據(jù)集,使用Random+CNN模型的檢測(cè)準(zhǔn)確率最高;對(duì)于Youtube與E-mail數(shù)據(jù)集,使用CBOW+CNN模型的檢測(cè)準(zhǔn)確率最高;對(duì)于Opinion數(shù)據(jù)集,使用Glove+CNN模型的檢測(cè)準(zhǔn)確率最高。盡管對(duì)于這4個(gè)數(shù)據(jù)集,使用SkipGram+CNN模型的檢測(cè)準(zhǔn)確率都不是最高,但檢測(cè)準(zhǔn)確率穩(wěn)定在比較高的水平。

表3 嵌入層表示方法的影響
實(shí)驗(yàn)3 卷積層激活函數(shù)的影響
在CNN模型的基礎(chǔ)上,本部分實(shí)驗(yàn)由卷積層激活函數(shù)對(duì)于檢測(cè)準(zhǔn)確率的影響進(jìn)行探究,分別采用relu函數(shù)、sigmoid函數(shù)、tanh函數(shù)、softplus函數(shù)、softsign函數(shù)與leakly-relu函數(shù)這6種常用的激活函數(shù)。
根據(jù)表4的實(shí)驗(yàn)結(jié)果,使用不同的激活函數(shù)CNN模型在不同數(shù)據(jù)集上表現(xiàn)性能不一??傮w而言,使用sigmoid函數(shù)、tanh函數(shù)與softsign函數(shù)的CNN模型表現(xiàn)性能很差,與每個(gè)數(shù)據(jù)集的最高檢測(cè)準(zhǔn)確率有比較大的差距。而使用relu函數(shù)、softplus函數(shù)與leakly-relu函數(shù)的CNN模型表現(xiàn)性能較好,其中,relu+CNN模型在Opinion與SMS數(shù)據(jù)集上表現(xiàn)最好,領(lǐng)先其他方法0.56%與0.41%;使用softplus+CNN模型在Youtube與E-mail數(shù)據(jù)集上表現(xiàn)最好,領(lǐng)先其他方法0.51%與0.22%。

表4 卷積層激活函數(shù)的影響
實(shí)驗(yàn)4 池化層池化策略的影響
在CNN模型的基礎(chǔ)上,本部分實(shí)驗(yàn)對(duì)池化層池化策略對(duì)檢測(cè)準(zhǔn)確率的影響進(jìn)行探究,分別采用最大池化策略、最小池化策略、平均池化策略與注意力機(jī)制池化策略這4種池化策略,如圖2所示。

圖2 池化層池化策略的影響
Figure 2 The influence of pooling strategies in the pooling layer
根據(jù)圖2的實(shí)驗(yàn)結(jié)果,使用不同的池化策略在不同的數(shù)據(jù)集上表現(xiàn)性能不一。總體而言,相對(duì)于傳統(tǒng)的3種池化策略,基于注意力機(jī)制的池化策略在Opinion、SMS、E-mail數(shù)據(jù)集上取得了最好的效果。但在Youtube數(shù)據(jù)集上,相對(duì)于最大池化策略,使用注意力機(jī)制策略的CNN的檢測(cè)準(zhǔn)確率下降了1.04%。
針對(duì)卷積神經(jīng)網(wǎng)絡(luò)方法檢測(cè)社交網(wǎng)絡(luò)垃圾信息的噪聲性與稀疏性問(wèn)題,本文提出了一種注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(MA-CNN)檢測(cè)方法。該方法首先在過(guò)濾層融合了關(guān)鍵詞提取的思想,采用了基于樸素貝葉斯權(quán)重技術(shù)的注意力機(jī)制,降低文本中的噪聲含量,解決了稀疏性問(wèn)題。其次,在池化層融合了注意力機(jī)制的思想,采用了基于注意力機(jī)制的池化策略,緩解了稀疏性問(wèn)題。未來(lái),將利用遷移學(xué)習(xí)的思想進(jìn)一步解決社交網(wǎng)絡(luò)垃圾文本檢測(cè)中的標(biāo)注瓶頸問(wèn)題。
[1] ZAFARANI, REZA, HUAN LIU. 10 bits of surprise: detecting malicious users with minimum information[C]//The 24th ACM International on Conference on Information and Knowledge Management. 2015: 423-431.
[2] RATKIEWICZ, JACOB, et al. Detecting and tracking political abuse in social media[C]//ICWSM. 2011: 297-304.
[3] BENEVENUTO, FABRICIO, et al. Detecting spammers on twitter[C]//Collaboration, Electronic Messaging, Anti-abuse and Spam Conference. 2010: 12.
[4] SONG G E. Short text classification: a survey[J]. Journal of Multimedia, 2014, 9(5): 635.
[5] YOON K. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.
[6] MIKOLOV, TOMAS, et al. Recurrent neural network based language model[C]//Eleventh Annual Conference of the International Speech Communication Association. 2010.
[7] PASCANU R, MIKOLOV T, BENGIO Y. On the difficulty of training recurrent neural networks[C]// International Conference on Machine Learning. 2013: 1310-1318.
[8] TANG D Y, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]//The 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1422-1432.
[9] ZHANG X M, LI H, QU H. AHNN: an attention-based hybrid neural network for sentence modeling[C]//National CCF Conference on Natural Language Processing and Chinese Computing. 2017: 731-740.
[10] ZHANG Y, ER M J, WANG N. Attention pooling-based convolutional neural network for sentence modelling[J]. Information Sciences 373, 2016: 388-403.
[11] LI S, ZHAO Z, LIU T, et al. Initializing convolutional filters with semantic features for text classification[C]//The 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 1884-1889.
[12] DU C S, HUANG L. Text classification research with attention-based recurrent neural networks[C]// International Journal of Computers Communications & Control. 2018: 50-61.
[13] ZHOU P, SHI W, TIAN J. Attention-based bidirectional long short-term memory networks for relation classification[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 207-212.
[14] WANG S D, MANNING C D. Manning. Baselines and bigrams: simple, good sentiment and topic classification[C]//The 50th Annual Meeting of the Association for Computational Linguistics. 2012: 90-94.
[15] GOLDBERG Y, LEVY O. Word2vec explained: deriving Mikolov et al.'s negative-sampling word-embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.
[16] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//The 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 1532-1543.
Attention-based approach of detecting spam in social networks
QU Qiang, YU Hongtao, HUANG Ruiyang
National Digital Switching System Engineering & Technological R&D Center, Zhengzhou 450002, China
In social networks, a large amount of spam has seriously threaten users' information security and the credit system of social websites. Aiming at the noise and sparsity problems, an attention-based CNN method was proposed to detect spam. On the basis of classical CNN, this method added a filter layer in which an attention mechanism based on Naive Bayesian weighting technology was designed to solve the noise issue. What’s more, instead of the original pooling strategy, it adapted an attention-based pooling policy to alleviate the sparsity problem. Compared with other methods, the results show that the accuracy has increased by 1.32%,2.15%,0.07%,1.63% on four different data sets.
social networks, information security, spam, attention system
The National Natural Science Foundation Innovation Group Project (No.61521003)
TP309
A
10.11959/j.issn.2096?109x.2020002

曲強(qiáng)(1994? ),男,黑龍江齊齊哈爾人,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)空間安全、大數(shù)據(jù)分析與處理、復(fù)雜網(wǎng)絡(luò)異常用戶檢測(cè)。
于洪濤(1970? ),男,遼寧丹東人,博士,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心研究員,主要研究方向?yàn)榫W(wǎng)絡(luò)大數(shù)據(jù)分析與處理。

黃瑞陽(yáng)(1986? ),男,福建漳州人,博士,國(guó)家數(shù)字交換系統(tǒng)工程技術(shù)研究中心助理研究員,主要研究方向?yàn)槲谋就诰?、圖挖掘。
論文引用格式:曲強(qiáng), 于洪濤, 黃瑞陽(yáng). 基于注意力機(jī)制的社交垃圾文本檢測(cè)方法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(1): 54-61.
QU Q, YU H T, HUANG R Y. Attention-based approach of detecting spam in social networks[J]. Chinese Journal of Network and Information Security, 2020, 6(1): 54-61.
2019?03?25;
2019?07?11
于洪濤,yht_ndsc@139.com
國(guó)家自然科學(xué)基金創(chuàng)新群體基金資助項(xiàng)目(No.61521003)