999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分層欠采樣和Bi-GRU的惡意行為檢測模型

2022-03-01 13:12:54婭,李
計算機工程與設計 2022年2期
關鍵詞:特征實驗檢測

周 婭,李 賽

(桂林電子科技大學 計算機與信息安全學院,廣西 桂林 541004)

0 引 言

越來越多的人傾向于在網絡上發表意見和表達情感,也因此產生了各式各樣的數據。但其中卻隱藏很多攻擊性甚至騷擾的惡意評論,如文獻[1]對4248名美國成年人進行的一項新的全國性調查發現,近41%民眾曾在網上受到過個人騷擾行為,近18%民眾在互聯網收到不同程度的騷擾和威脅。這些問題引起了學術界、媒體和社交平臺的高度關注。如何更好利用最新技術對這些短文本進行分類,經成為相關研究者研究的熱點之一[2]。文獻[4]提出基于LSTM的分類器集合,討論了用戶的種族主義或性別歧視傾向等。采用來自維基百科對話頁面的評論數據來構建檢測模型。雖然數據集包含大量的標注,針對此數據集特點總結出現有檢測模型還存在一些待改進之處:

(1)現有評論文本檢測模型針對性較強,不適用于本文惡意評論數據集;

(2)評論文本自身有類不平衡的問題存在,加大了檢測的困難度,在實際檢測中低頻的惡意評論將很難被及時識別。不易及時訓練出行之有效的檢測算法,也是惡意行為檢測難度增大和效率低的原因;

(3)現有模型擬合能力弱,傳統機器學習模型不僅結構簡單,同時在特征提取和學習能力也比較弱。不能很好處理一些特殊文本和大規模數據集,更無法對數據分布形成有效映射。

所以針對以上問題,提出一種基于樣本分層欠采樣算法和Bi-GRU網絡的網絡惡意行為檢測模型(SSU-BG)。

1 相關工作

文中惡意評論檢測與現有的一些其它評論檢測相比存在一些不同之處,本文所述的惡意評論只是針對人自身存在的惡意攻擊行為進行的檢測,比如一些恐嚇、騷擾、謾罵、猥褻、侮辱等不良行為。惡意評論數據集本身在內容和結構上也與其它數據集大相徑庭。在此次實驗的數據集中總共包含7個大類,通過統計很容易發現一些非常明顯的問題,比如這7類數據之間存在嚴重的類不平衡問題,其中正常的評論有143 346條,其它6種不正常的評論加在一起也與正常評論相差甚遠,在6種不正常的評論中同樣也存在類不平衡問題,這一問題將嚴重影響評論文本的整體檢測效率。

若想提高惡意評論的檢測率首先要緩解類間數據相差巨大問題,即類不平衡問題。類間距過大問題及現有檢測模型的局限性使得改善類間距過大問題的分類模型應時而生。如下針對類間距過大問題的研究做了一些總結和分析。在文獻[5]中研究者們針對類不平衡問題分析探討了在聚類、大數據分析與應用、回歸、數據流及分類等7個應用領域上目前所面臨的一些新的問題和挑戰,同時針對各個領域給出了一些針對性的意見和建議。

目前解決該問題的方法主要分為算法層面、數據層面以及混合方法。

算法層面:是指通過提出新算法或對一些現有的算法進行修改,以降低其對高頻類的偏移量,從而側面緩解類不平衡問題。目前主流的有兩種改變策略,代價敏感策略[6]及決策輸出補償策略[7]。在文獻[8]中,研究者們通過將數據清洗與代價敏感學習策略結合的方法改進了BP算法,這一算法的創新不僅解決了類不平衡問題還一定程度上緩解了類間重疊的問題。而在文獻[9]中,研究者們采用了決策輸出補償技術,提出了加權ELM算法,此算法的目的是為每一個類賦予大小不同的權值。此算法雖然一定程度上提高了低頻類的檢測率,但因為其對同類樣本賦予了相同的權值,導致其不能很好考慮到樣例的閑言信息分布。

數據層面:是指針對現有模型特點,修改現有數據集,以使其適應現有的算法模型。此方法相對修改算法而言大大降低了時間復雜度,同時也避免了選擇哪一種分類器的問題。可細分為過采樣和欠采樣兩種解決辦法,且存在各自的優缺點。很多研究者也做了進一步的探討,文獻[10]中研究者采用雅虎中用戶針對財經新聞欄目的評論采用專家手動標記的方法識別出其中的一些仇恨言論。文獻[11]中采用和本文中來自相同的數據集,他們同樣提出一些改善類不平衡問題的策略,他們采用數據增強的方式,首先將檢測問題轉換成分類問題,先對輸入的評論進行惡意傾向的判斷,進一步將其判定為哪一類惡意行為,并取得了很好的實驗結果。在文獻[12]中,研究者們提出了線性不平衡和階梯不平衡兩種形式,同時采用相同的評價指標分別做了4組實驗作為對比。實驗結果顯示:采用線性不平衡形式不適合隨機欠采樣方法,在隨機過采樣數據集上能取得較好的結果;而采用階梯不平衡方式時,原始數據集檢測效果依然不如隨機過采樣效果好。

混合方法:是指結合算法和數據處理兩者的優點,采用一種集成的思想,將分類器與數據策略集成在一起形成一種新的分類模型。如文獻[6]和文獻[13]中的研究者們都提出了敏感代價策略與采樣技術結合的形式組合成新的分類模型[13],并取得了不錯的分類效果。

2 SSU-BG檢測模型介紹

通過分析惡意評論數據集的內容及結構得的特點,提出了SSU-BG惡意行為檢測模型。SSU-BG模型的結構具有一定的層級關系,根據各層結構在整個模型中所起的作用將其劃分為三個模塊,首先,頂層是數據預處理模塊,中間一層為模型的核心模塊,即不平衡處理模塊,最底層為分類器模塊。其中在數據預處理模塊最重要的過程是特征的選擇和歸一化,歸一化的目的是加速模型的收斂速度和簡化模型的運算過程,通過分析發現大多數的惡意詞匯都出現在句子的末尾,所以為增強模型檢測的準確率,本文考慮將句末詞加入向量化。考慮到惡意評論數據集數據結構單一,為更好發現評論的特征,本文為每一條評論都構造一個多維的特征模型,隨后依據每個特征與預測值之間的相關性,篩選出關聯性相對較強的來作為刻畫評論內容真實性特征。而在數據不平衡模塊,本文提出一種基于樣本最高密度點的隨機欠采樣算法(SSU)對高頻的樣本進行適當的減法操作。在分類器模塊,本文采用基于Bi-GRU網絡來實現,Bi-GRU比Bi-LSTM神經網絡結構簡單,且具有Bi-LSTM神經網絡可以捕捉到評論文本的上下文的優點。

2.1 樣本分層欠采樣算法

為了解決惡意評論文本的類不平衡問題,首先分析了隨機欠采樣算法及一些研究現狀,發現采用隨機欠采樣算法時的采樣比例設定相對比較簡單,僅依據樣本之間的比例設定,且不能解決采樣的隨機性和樣本直接的重疊問題,導致最終的實驗效果并不是很理想。而本文在此算法的基礎上提出了一種檢查模型,基于最高密度點的樣本采樣算法SSU-BG模型。

SSU算法核心思想是,首先通過統計和計算出各個標簽對應的不平衡度,然后計算出這些不平衡度的均值并將其賦值為樣本的整體采樣比例;隨后采用傳統歐氏距離算法計算出各個類的類內平均歐氏距離及高頻類的最高密度點,依據這個兩個值將高頻類區域劃分為3個模塊,分別為稀疏區、稠密區及稀疏區的邊界層,以類內平均歐式距離為半徑,以最高密度點為圓心畫一個圓,此時,將圓以內的區域稱之為稠密區,將圓以外區域稱之為稀疏區;根據樣本需求,我們選擇從稠密區、稀疏區的邊界層獲取樣本數據,而對于稀疏區邊界層以外的區域,我們將其定義為非采樣區。為了使獲取的樣本能具有一定的均衡性,本文做了進一步的探討,將獲得的稠密區進行再次劃分,最終將其劃分為不同個數的等距圓環,而此時圓環范圍被定義在1到N+1個,按照設定好的采樣比例分別在每個圓環里隨機采集樣本點,得到模型訓練數據集。樣本模擬平面分布圖如圖1所示。

圖1 樣本模擬平面分布

此算法減少了樣本的總數,從而降低后續所提模型的訓練量和訓練時間。算法流程如下:

(1)輸入訓練集X={(x1,y1),(x2,y2),…(xn,yn)} 及所需參數,其中xi∈Rq,yi∈{-1,1},(i=1,2,…n)。

在上述表述中,X為包含n條評論的樣本點,yi=1表示標簽屬性為1的低頻類樣本點,yi=-1表示標簽屬性為0高頻類樣本點,分別記為:S={(x1,1),(x2,1),…(xs,1)} 和M={(x1,-1),(x2,-1),…(xm,-1)}。

(2)從高頻類樣本點中隨機選出的兩個樣本點xi,xj,q表示樣本點對應的特征數,兩點之間的歐氏距離,記為D(xi,xj)

(1)

(3)根據(2)中得出的結果,統計高頻類的類內平均歐式距離,記為:Avg_dist

M={(x1,-1),(x2,-1),…(xm,-1)}

(2)

(3)

(4)根據(2)中計算的結果,統計各樣本點的平均密度,記為Avg_density(xi)

(4)

(5)D(xi,xj) 的值越大則表明樣本越不密集, Avg_density(xi) 的值越大則表明樣本越密集,根據Avg_density(xi) 計算高頻類樣本的最高密度點,記為xsup_den

xsup_den=argsup(Avg_density(xi)),xi∈M

(5)

(6)根據(5)計算的xsup_den值及(3)計算的Avg_dist,根據M={(x1,-1),(x2,-1),…(xm,-1)} 樣本,分別以xsup_den、Avg_dist兩個值為圓心和半徑畫一個圓,稠密區和稀疏區分別記為:Lay_den和Lay_spa

Lay_den={xi|D(xi,xsup_den)≤Avg_dist,xi∈M}

(6)

Lay_spa={xi|D(xi,xsup_den)≥Avg_dist,xi∈M}

(7)

(7)隨機選擇兩個點xt,xj∈Lay_spa, 同時結合(2)和(5)計算出稠密區的邊界域,記為margin

margin=max(D(xsup_den,xj))-max(D(xt,xj))

(8)

(8)根據(7)可以計算出稀疏區的邊界層,記為Mar_lay

Mar_lay={xk|max(D(xi,xsup_den))≤margin,xi∈Lay_den,xk∈Lay_spa}

(9)

(9)設每個樣本對應的標簽數為N,結合樣本對應的標簽數統計出1到N個標簽數對應的樣本的不平衡度及均值,分別記為αi、α_mean

αi={α1,α2,…αN}

(10)

(11)

(10)根據(6)中計算結果,將稀疏區邊界層及稠密區定義為采樣區,而將稀疏邊界層以外的區域劃分為非采樣區,為了均衡采樣,將稠密區劃分成不同個數的等距圓環,圓環范圍為1到N+1個,按照既定的采樣比例分別在每層上隨機采樣,劃分圓環個數記為δ

δ={δ1,δ2,…δN+1}

(12)

(11)根據(10)計算的結果,得到N+1組相同比例,不同樣本點的數據集,記為Tnew

Tnew={T1,T2,…TN+1}

(13)

2.2 Bi-GRU網絡

Bi-GRU模型與Bi-LSTM模型結構非常類似,Bi-GRU模型包括前向GRU和后向GRU,兩個GRU單元與同一個輸出層相連,因為GRU單元可以對歷史信息進行選擇性記憶,因此其參數學習過程也比較快,雙向GRU可以保留從前往后的信息和從后往前的信息。

Bi-GRU即為兩層的GRU網絡,其基本網絡結構如圖2所示。

圖2 Bi-GRU網絡結構

Bi-GRU模型將已學習到的特征向量輸入到分類器中,即先將檢測問題轉化成一個多分類問題。

3 實驗設置

3.1 實驗數據集

本次實驗數據集相對比較權威,由Kaggle官網提供的一些評論文本,數據集獲取網址為:https://www.kaggle.com。

此數據集總共包含7個標簽,總評論條數為159 571條,分別被標記,如表1。

表1 標簽

根據圖3所示,它們分別所占比例為:89.6%、9.6%、1.0%、5.3%、0.3%、4.9%及0.9%。從這里也能明顯看到它們之間存在嚴重的類不平衡問題。如圖3所示。

圖3 評論類別分布

為了更好分析每條評論的結構和信息,本實驗還分別對每條評論長度的平均值、方差及最大值進行了統計,分別為:67.86、100.52及2273。且統計出每天評論所包含1的數量,1的值越多表明惡意的程度越嚴重,如果所有的值都是0,則說明此條評論不存在惡意行為。圖4中縱坐標表示對應的評論條數,橫坐標表示每條評論標簽存在1的數量。如圖4所示。

圖4 評論標簽數分布

分析圖3和圖4統計結果,可以發現各類評論之間存在較嚴重的類不平衡問題,因此,為了緩解這一問題,本文提出了一種基于最高密度點的SSU欠采樣采樣算法。該算法雖然減少了樣本數量,降低了樣本的利用率,但是提高了分類準確率,同時提高了分類效率。

3.2 評價指標

為了較好評估衡量SSU算法效率,及更好的與其它算法做對比,本文采用了較傳統高效的準確率(Acc)和錯誤率(Loss)、F-measure及AUC 4個比較常用評價指標。具體見表2。

表2 性能評估列聯表

精確率(Precision)計算公式

(14)

分類器錯誤率(false positive rate,FPR)

(15)

準確率(Accuracy,Acc)

(16)

F-measure值的計算

(17)

式(17)中:β可以較好調節Precision和Recall的權值,通常情況下將其賦值為1,F-measure是一個廣泛應用于不平衡分類的評價指標,其既可以兼顧查全率又可以兼顧查詢率。

AUC是ROC曲線下面的面積[14,15],也對分類器性能評估起到至關重要的作用,ROC曲線的X軸表示FPR,Y軸表示TPR即公式TPR=FP/(TN+FP)。

3.3 特征選擇

通過對此次實驗用到的數據集進行分析統計發現,此數據集于正常評論文本之間存在較大的差別,為了量化兩者之間的差別,本文將總結的11個特征加入訓練模型,11個特征見表3所示:

表3 特征

表4中,為了驗證我們新加入的11個特征的影響度,本文計算了特征與每個預測值之間的相關程度,通過對比分析選擇出了對預測值貢獻度高的特征,見表4。

表4 特征與預測值相關性

為了篩選出影響程度較高的特征,我們又分別統計11個特征對每個類別的相關性值的絕對值之和,通過對比各個相關性值的絕對值之和的大小,發現Question_mark、Smilies以及Symbols 3個特征對評論文本的類別影響程度相對較小,因此本文考慮將不再引入這3個特征到訓練模型中,此時實際引入特征為其余8個。

4 實驗和結果分析

為了驗證SSU算法與Bi-GRU網絡結合模型,即SSU-BG模型相比其它模型的優點,本文將基于在隨機下采樣數據集、SMOTE算法過采樣、SSU分層欠采樣數據集上分別做對比實驗,同時分別與表5中3種傳統模型算法及表6中的3種深度學習模型算法分別在上述3類數據集上做對比實驗。

表5所示為3中傳統算法的對比實驗結果:

表5中XG-Boost、LR、NBSVM這3種模型分別在3種數據集上進行了9組實驗。每組實驗都采用了4個相同的評價指標。在數據居選取層面上可以發現,SSU欠采樣數據集在3大組實驗中整體表現較好。雖然SMOTE算法在AUC指標上表現略好一些,比SSU算法的AUC值高出0.0127,比隨機欠采樣算法的AUC值高出0.0063,但綜合考察3種模型中的Acc、Loss、F-measure這3個評價指標,可以發現在SSU算法下整體實驗結果最好,為了驗證這一點,我們可以做進一步的分析,例如對SSU算法下表現較好的NBSVM模型下的實驗結果分析可得,SSU欠采樣算法在準確率上比隨機欠采樣算法高出0.0453及比SMOTE算法高出了0.014;在錯誤率上比隨機欠采樣算法降低0.1289,相比SMOTE算法降低0.048;F-measure值比其它們分別高出0.0256和0.008。因此可以發現SSU算法在3種傳統采樣算法中整體表現最好。

表5 傳統算法實驗結果

本文還做了其它12組針對4種深度學習算法的實驗,實驗結果見表6。

表6 深度學習算法實驗結果

在表6中展示了3種數據集與4種結構類似的深度學習模型組合的對比實驗結果,采用同上一組實驗相同的評價指標。通過分析隨機欠采樣算法可發現,隨機欠采樣算法中只抽取了少量的數據集做為輸入,大量的數據被選擇放棄使用,最終導致實驗結果并不理想。通過SMOTE算法過得的數據集可發現,此算法可以是整個數據集進行擴增,使得輸入模型中的數據增多。在SMOTE算法算法下,Bi-LSTM網絡表現較好一些,但如果從整體實驗結果上來看,SSU算法表現略勝一籌。本文著重對比了SSU算法分別與這4種深度學習模型組合的實驗結果。通過對比可以得出SSU-BG模型在4種評價指標下表現較好一些,得出結果如下:

(1)Acc值比其它最小值高出0.0228;

(2)Loss值比其它最高值降低0.0408;

(3)F-measure值比其它最小值高出0.0788;

(4)AUC值比其它最小值高出0.0157。

最后,結合表5和表6的實驗結果對比和分析,可以得出如下結論:①SSU-BG評論檢測模型提高了低頻類的檢測率;②SSU-BG評論檢測模型沒用損失高頻類的檢查準確率;③SSU-BG評論檢測模型對比其它檢測模型,整體樣本檢測率有所提高。

5 結束語

通過統計和分析惡意評論文本的結構特點,得出該數據集內容比較單一,且7類評論數量差距較大,使得各類之間存在嚴重的類不平衡問題,這將嚴重影響惡意評論的檢測效果。為此,本文提出了SSU-BG檢測模型來一定程度上緩解以上問題,同時提交檢測效率。為驗證SSU-BG模型的效果,本文分別與其它6個模型在3種數據集上做對比實驗,總共21組實驗。同時為了驗證本文提出的SSU算法及SSU-BG模型優勢,對比實驗設計時考慮到在相同分類器下不同算法獲取的數據集做對比實驗及在相同數據集下不同分類器做對比實驗。最終的實驗結果顯示,SSU算法相比其它兩種采樣算法表現較好,同時SSU-BG模型在處理不平衡問題上相比其它幾種模型表現較好。在未來的研究工作中我們將驗證該模型在更多應用領域上的表現效果,同時從考慮改進分類器角度進一步提高檢測效率。

猜你喜歡
特征實驗檢測
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
做個怪怪長實驗
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 亚洲侵犯无码网址在线观看| 黄色在线网| 亚洲美女一区二区三区| 天天操精品| 久久综合成人| 亚洲第一视频网站| 58av国产精品| 中文字幕在线看视频一区二区三区| 国产精品思思热在线| 免费高清毛片| 色悠久久综合| 天天综合亚洲| 日本免费高清一区| 97青青青国产在线播放| 中国毛片网| 欧美精品高清| 亚洲免费毛片| 最近最新中文字幕在线第一页| 宅男噜噜噜66国产在线观看| 国产精品自拍露脸视频| 亚洲精品少妇熟女| 熟女视频91| 特级aaaaaaaaa毛片免费视频 | 亚洲成aⅴ人在线观看| 中文国产成人久久精品小说| 国产91丝袜| 伊人久久精品无码麻豆精品| 性做久久久久久久免费看| 蝴蝶伊人久久中文娱乐网| 日韩黄色在线| 精品国产自在现线看久久| 国产无码制服丝袜| 国产福利2021最新在线观看| 天堂网国产| 五月婷婷综合色| 亚洲va视频| 亚洲三级电影在线播放 | 日韩精品资源| 最新国产高清在线| 亚洲日本一本dvd高清| 久久这里只有精品2| 天天摸夜夜操| 欧美97欧美综合色伦图| 精品视频91| 欧美另类第一页| 亚洲成AV人手机在线观看网站| 91在线一9|永久视频在线| 日本91视频| 国产人妖视频一区在线观看| 亚洲精品动漫在线观看| 国产精品网址你懂的| 第九色区aⅴ天堂久久香| 久久青草精品一区二区三区| 中字无码精油按摩中出视频| 欧美日本在线一区二区三区| 午夜啪啪福利| 一级黄色片网| 国产毛片高清一级国语 | 成人免费午间影院在线观看| 小13箩利洗澡无码视频免费网站| 色视频久久| 狠狠做深爱婷婷久久一区| 久久久精品无码一区二区三区| 久久国产成人精品国产成人亚洲 | 狠狠亚洲五月天| 视频一本大道香蕉久在线播放| 五月天香蕉视频国产亚| 亚洲成人一区二区三区| 中文字幕在线视频免费| 91福利免费| 久草性视频| 亚洲狠狠婷婷综合久久久久| 国产网站免费| 国产精品思思热在线| 大学生久久香蕉国产线观看| 尤物成AV人片在线观看| 亚洲区视频在线观看| 女人18一级毛片免费观看| 无码aⅴ精品一区二区三区| 秋霞国产在线| 国产乱子伦视频在线播放| 国产一区二区三区精品久久呦|