999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征矩陣構(gòu)造與BP神經(jīng)網(wǎng)絡(luò)的垃圾文本過(guò)濾模型

2020-08-19 07:01:04于俊洋董李鋒
計(jì)算機(jī)工程 2020年8期
關(guān)鍵詞:分類特征文本

方 瑞,于俊洋,董李鋒

(1.河南大學(xué) 軟件學(xué)院,河南 開(kāi)封 475000; 2.河南九域騰龍信息工程有限公司,鄭州 450000)

0 概述

近年來(lái),互聯(lián)網(wǎng)得到快速發(fā)展并已融入人們?nèi)粘I钪小>W(wǎng)絡(luò)社交逐步興起,各種社交平臺(tái)相繼推出且文本信息形式逐漸多樣化,出現(xiàn)如微博、社交短信、事件評(píng)論、社交郵件和新聞簡(jiǎn)訊等多種文本信息。同時(shí),網(wǎng)絡(luò)的信息開(kāi)放、傳播迅速等特性使色情、暴力、廣告推銷等垃圾文本廣泛散布,擾亂并破壞了社交平臺(tái)的綠色環(huán)境。如何從大量文本中對(duì)垃圾文本進(jìn)行高效準(zhǔn)確過(guò)濾,已成為當(dāng)前重要的研究課題之一。

本文提出一種基于B-Feature特征構(gòu)造和BP神經(jīng)網(wǎng)絡(luò)的垃圾文本過(guò)濾模型。采用BERT模型和B-Feature方法構(gòu)造文本特征矩陣,使用BP神經(jīng)網(wǎng)絡(luò)分類器處理特征矩陣后對(duì)文本分類,進(jìn)而檢測(cè)出垃圾文本并進(jìn)行過(guò)濾。

1 相關(guān)工作

垃圾文本過(guò)濾技術(shù)主要包括基于行為模式和基于內(nèi)容的過(guò)濾技術(shù)。在基于內(nèi)容的過(guò)濾技術(shù)中,文獻(xiàn)[1]針對(duì)多樣化內(nèi)容數(shù)據(jù)個(gè)性化推薦系統(tǒng)提出基于注意力的網(wǎng)絡(luò)模型來(lái)融合用戶多源數(shù)據(jù),以解決不同場(chǎng)景下的推薦問(wèn)題。文獻(xiàn)[2]利用多粒度特征和混合算法進(jìn)行文檔分析。文獻(xiàn)[3]提出一種語(yǔ)義相似度集成方法識(shí)別軟件特征與源碼之間的映射關(guān)系。文獻(xiàn)[4]采用自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò)模型來(lái)關(guān)注特定信息,并挖掘詞語(yǔ)和目標(biāo)的特征關(guān)系。文獻(xiàn)[5]提出分層雙向LSTM網(wǎng)絡(luò)模型,保存句子之間互相聯(lián)系信息并提取其中的特征。在基于行為模式的過(guò)濾技術(shù)中,文獻(xiàn)[6]采用一種錯(cuò)誤定位的方法增強(qiáng)上下文以尋找程序錯(cuò)誤位置。文獻(xiàn)[7]提出基于時(shí)序行為的協(xié)同過(guò)濾推薦算法以提升推薦精度。

常用的垃圾文本過(guò)濾模型有樸素貝葉斯[8]、支持向量機(jī)(Support Vector Machine,SVM)[9]、決策樹(shù)[10]和隨機(jī)森林[11]等。近年來(lái)運(yùn)用較廣泛的是樸素貝葉斯模型,該模型邏輯簡(jiǎn)單且易于實(shí)現(xiàn)[12]。這些垃圾文本過(guò)濾模型包括文本表示和分類器分類[13]兩部分,模型框架如圖1所示。其中,虛線箭頭表示測(cè)試樣本過(guò)程,實(shí)線箭頭表示訓(xùn)練樣本過(guò)程。

圖1 常用的垃圾文本過(guò)濾模型框架Fig.1 Framework of common used junk text filtering model

傳統(tǒng)文本過(guò)濾模型在獲取文本特征向量時(shí),雖然邏輯簡(jiǎn)單,但需要對(duì)文本進(jìn)行分詞處理,分詞的結(jié)果對(duì)文本特征獲取影響很大。本文在傳統(tǒng)文本過(guò)濾模型的基礎(chǔ)上,提出一種基于B-Feature特征構(gòu)造和BP神經(jīng)網(wǎng)絡(luò)且不需要進(jìn)行分詞的垃圾文本過(guò)濾模型。該模型框架如圖2所示。

圖2 本文垃圾文本過(guò)濾模型框架Fig.2 Framework of the proposed junk text filtering model

2 BP神經(jīng)網(wǎng)絡(luò)分類器

BP神經(jīng)網(wǎng)絡(luò)主體由輸入層、隱藏層和輸出層組成,各層之間采用權(quán)值為W的連接線連接[14]。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of BP neural network

BP神經(jīng)網(wǎng)絡(luò)正向傳遞過(guò)程較簡(jiǎn)單,主要計(jì)算傳遞過(guò)程中每個(gè)節(jié)點(diǎn)輸出值Y。Y由其上層i所有節(jié)點(diǎn)輸出值、節(jié)點(diǎn)j偏置b、節(jié)點(diǎn)j與上層i全部節(jié)點(diǎn)之間的權(quán)值W及所選Sigmoid激活函數(shù)共同確定,Sigmoid激活函數(shù)點(diǎn)輸出值計(jì)算公式為:

Y=f(∑Wij×Xi+bj)

(1)

(2)

誤差反向傳遞過(guò)程建立在真實(shí)值Y和預(yù)期值T之間誤差的基礎(chǔ)上。BP神經(jīng)網(wǎng)絡(luò)通過(guò)反向傳播利用誤差項(xiàng)不斷調(diào)整權(quán)值和偏置以獲得最小誤差函數(shù)值。本文使用的誤差函數(shù)是均方差損失函數(shù),其計(jì)算公式為:

(3)

其中,tk為輸出層實(shí)際結(jié)果,yk為輸出層期望結(jié)果。整個(gè)網(wǎng)絡(luò)權(quán)值與閾值通過(guò)沿相對(duì)誤差平方和最快下降方向來(lái)修正。由梯度下降法可知,隱含層權(quán)值的矢量修正與當(dāng)前位置誤差項(xiàng)梯度成正比,第j個(gè)輸出節(jié)點(diǎn)權(quán)值修正為:

(4)

其中,η為學(xué)習(xí)率,其取值范圍為[0,1]。權(quán)值Wij計(jì)算公式為:

(5)

由梯度下降法得到修正權(quán)值公式為:

ΔWij=-η·δij·Xi

(6)

Δbj=-η·δij

(7)

3 基于特征矩陣構(gòu)造與BP神經(jīng)網(wǎng)絡(luò)的模型

本節(jié)主要介紹利用B-Feature處理文本構(gòu)造特征矩陣并結(jié)合BP神經(jīng)網(wǎng)絡(luò)模型(B-Feature-BP)進(jìn)行分類的具體過(guò)程。B-Feature-BP模型框架如圖4所示。采用BERT模型進(jìn)行文本特征捕捉,利用特征構(gòu)造B-Feature算法將捕捉的特征形成特征矩陣并傳輸?shù)缴蠈?由BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類過(guò)濾。

圖4 B-Feature-BP模型框架Fig.4 Framework of B-Feature-BP model

3.1 BERT模型

BERT模型是由Google公司開(kāi)發(fā)的NLP模型[15]。本文使用BERT模型為句編碼服務(wù),將可變長(zhǎng)度的句子轉(zhuǎn)變?yōu)楣潭ㄩL(zhǎng)度的向量。句編碼是許多NLP應(yīng)用程序所需的上游任務(wù),例如情感分析和文本分類等。在使用BERT模型時(shí),先在主機(jī)上安裝其服務(wù)器和客戶機(jī),然后啟動(dòng)架構(gòu)通過(guò)本機(jī)該模型得到服務(wù)。BERT模型在啟動(dòng)后,可對(duì)輸入文本進(jìn)行處理以獲取文本句編碼。BERT模型框架如圖5所示。

圖5 BERT模型框架Fig.5 Framework of BERT model

3.2 B-Feature特征構(gòu)造

傳統(tǒng)文本分類模型[16]在獲取文本特征向量時(shí),需要對(duì)文本進(jìn)行分詞,然后通過(guò)算法評(píng)估一個(gè)詞語(yǔ)對(duì)全部文本或者語(yǔ)料庫(kù)中某個(gè)文本的重要程度,再將重要程度高的詞語(yǔ)轉(zhuǎn)換成特征向量[17],進(jìn)而用其代表全部文本或者該語(yǔ)料庫(kù)的特征。由于對(duì)文本進(jìn)行有效分詞并確定詞語(yǔ)的重要程度較難,因此傳統(tǒng)文本分類模型具有很大局限性。使用BERT模型獲得文本句編碼,無(wú)需對(duì)文本進(jìn)行分詞。利用BERT模型服務(wù)時(shí),對(duì)于原始輸入序列長(zhǎng)度或詞組合方式不同的序列,服務(wù)會(huì)為每個(gè)序列返回一個(gè)代表該序列維度為768的矩陣。采用BERT模型獲取的部分文本句編碼如表1所示。

表1 采用BERT模型獲取的部分文本句編碼Table 1 Partial text sentence coding obtained by BERT model

與傳統(tǒng)文本處理模型不同[18],本文利用BERT模型獲取句編碼矩陣是用每個(gè)文本的每行作為一個(gè)矩陣,由于不同文本行數(shù)不同,從而文本矩陣大小不同,因此通過(guò)BERT模型得到的句編碼矩陣不能直接用于神經(jīng)網(wǎng)絡(luò)輸入。為此,本文提出一種用于對(duì)BERT所提取句編碼進(jìn)行特征構(gòu)造的B-Feature方法。

B-Feature方法的具體步驟如下:

步驟1按行讀取文本,將文本所有行向量轉(zhuǎn)換成單個(gè)文本向量Q,Q的大小為M×N(N為行向量維度(BERT模型輸出維度為768)。

步驟2將文本向量Q構(gòu)造為列數(shù)為M×N的一維矩陣P。

步驟3將P轉(zhuǎn)換為維度為1、長(zhǎng)度為T(mén)的矩陣O,其中,如果N>T,則將T后的N-T部分舍去;如果N

設(shè)數(shù)據(jù)集總文本數(shù)為X,各文本行數(shù)分別為n1,n2,…,nx。所有文本行數(shù)平均值L的計(jì)算公式為:

(8)

矩陣長(zhǎng)度T的計(jì)算公式為:

T=N×L

(9)

步驟4回到步驟1。

步驟5將所有矩陣O按行銜接,融合成尺寸為X×T的矩陣E(X為文本文件的總數(shù))。

B-Feature方法框架如圖6所示。

圖6 B-Feature方法框架Fig.6 Framework of B-Feature method

所有文本通過(guò)B-Feature方法進(jìn)行特征構(gòu)造處理后,需采用BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行分類過(guò)濾。但BP神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)訓(xùn)練與測(cè)試中的效率和相容性均不理想,因此對(duì)BP神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化。增加隱層數(shù)可降低網(wǎng)絡(luò)誤差并提高精度,但會(huì)造成網(wǎng)絡(luò)復(fù)雜化,導(dǎo)致增加網(wǎng)絡(luò)訓(xùn)練時(shí)間以及出現(xiàn)“過(guò)擬合”傾向。在BP神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)采用Sigmoid函數(shù),理論上2個(gè)隱藏層網(wǎng)絡(luò)就能處理所有文本分類問(wèn)題[19],因此,為防止出現(xiàn)過(guò)擬合及降低網(wǎng)絡(luò)誤差,本文采用包含2個(gè)~4個(gè)隱藏層的網(wǎng)絡(luò)結(jié)構(gòu)。

如果隱藏層節(jié)點(diǎn)數(shù)太少,則網(wǎng)絡(luò)不具備必要的學(xué)習(xí)能力和信息處理能力;如果隱藏層節(jié)點(diǎn)數(shù)太多,則會(huì)大幅增加網(wǎng)絡(luò)復(fù)雜度并降低效率。與網(wǎng)絡(luò)激活函數(shù)相比,關(guān)于確定隱藏層節(jié)點(diǎn)數(shù)的研究較少[20]。一般用經(jīng)驗(yàn)公式來(lái)確定節(jié)點(diǎn)數(shù):

(10)

其中,a為輸入層節(jié)點(diǎn)數(shù),n為輸出層節(jié)點(diǎn)數(shù),c為范圍為(0,10)的常數(shù)。采用B-Feature方法構(gòu)造的特征矩陣與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,特征矩陣作為神經(jīng)網(wǎng)絡(luò)輸入,其維度m決定網(wǎng)絡(luò)輸入層節(jié)點(diǎn)數(shù),因此,根據(jù)式(10)確定節(jié)點(diǎn)數(shù)計(jì)算公式為:

(11)

4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

選取長(zhǎng)、中、短3種文本長(zhǎng)度的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)以驗(yàn)證本文模型的有效性。長(zhǎng)文本數(shù)據(jù)集(THUCNews)是根據(jù)新浪新聞RSS訂閱頻道歷史數(shù)據(jù)篩選過(guò)濾生成的新聞文本數(shù)據(jù)集,并按照9∶1的比例劃分?jǐn)?shù)據(jù)個(gè)數(shù)得到訓(xùn)練集和測(cè)試集。中文本數(shù)據(jù)集采用垃圾郵件數(shù)據(jù)集(Ccert Data Sets of Chinese Emails,CDSCE),按照7∶3的比例劃分?jǐn)?shù)據(jù)個(gè)數(shù)得到訓(xùn)練集和測(cè)試集。短文本數(shù)據(jù)集采用中文垃圾短信數(shù)據(jù)集,按照8∶2 的比例劃分得到訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)集具體情況如表2所示。

表2 實(shí)驗(yàn)數(shù)據(jù)集Table 2 Experimental data sets

本文采用準(zhǔn)確率(A)、精確率(P)、召回率(R)、F1值(F)作為文本分類方法評(píng)價(jià)指標(biāo)。將正類預(yù)測(cè)結(jié)果為T(mén)rue記作TP,將負(fù)類預(yù)測(cè)結(jié)果為False記作TN,將負(fù)類預(yù)測(cè)為T(mén)rue記作FP,將正類預(yù)測(cè)為False記作FN。準(zhǔn)確率、精確率、召回率和F1值計(jì)算公式分別為:

(12)

(13)

(14)

(15)

實(shí)驗(yàn)分別采用傳統(tǒng)機(jī)器學(xué)習(xí)算法中的樸素貝葉斯模型、TFIDF-BP模型以及基于Bert特征構(gòu)造的BP 神經(jīng)網(wǎng)絡(luò)分類模型(以下稱為B-Feature-BP模型)在上述3種數(shù)據(jù)集上進(jìn)行文本分類測(cè)試。

4.2 實(shí)驗(yàn)結(jié)果與分析

由圖7可以看出,B-Feature-BP模型在THUCNews數(shù)據(jù)集上準(zhǔn)確率低于樸素貝葉斯模型,但是在CDSCE和中文垃圾短信數(shù)據(jù)集上要優(yōu)于其他兩種模型;B-Feature-BP模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率較TFIDF-BP模型分別提高7.8%、3.8%和11.7%,在CDSCE、中文垃圾短信數(shù)據(jù)集上的準(zhǔn)確率較樸素貝葉斯模型分別提高2.1%和13.7%,特別是在中文垃圾短信數(shù)據(jù)集上B-Feature-BP模型的準(zhǔn)確率最高達(dá)到0.961。此外,B-Feature-BP模型在3種數(shù)據(jù)集上準(zhǔn)確率都在92%以上,說(shuō)明該模型能有效對(duì)垃圾文本進(jìn)行分類過(guò)濾。

圖7 不同模型的準(zhǔn)確率對(duì)比Fig.7 Comparison of accuracy of different models

由圖8~圖10可以看出,B-Feature-BP模型在3種數(shù)據(jù)集上的精確率、召回率和F1值均在0.9以上,說(shuō)明其在各種長(zhǎng)度的文本分類中都有良好且穩(wěn)定的表現(xiàn)。樸素貝葉斯模型雖然在長(zhǎng)文本高維度的情況下表現(xiàn)優(yōu)異,但是當(dāng)文本長(zhǎng)度變短、維度變小的情況下,其分類效果和穩(wěn)定性均不佳。TFIDF-BP模型雖然在各種長(zhǎng)度的文本中表現(xiàn)都較穩(wěn)定,但是其分類精確率較其他兩種方法要低。綜合來(lái)看,B-Feature-BP模型在3個(gè)數(shù)據(jù)集上的表現(xiàn)要比其他兩種模型更優(yōu)。

圖8 不同模型的精確率對(duì)比Fig.8 Comparison of precision of different models

圖9 不同模型的召回率對(duì)比Fig.9 Comparison of recall of different models

圖10 不同模型的F1值對(duì)比Fig.10 Comparison of F1 values of different models

5 結(jié)束語(yǔ)

本文提出一種基于B-Feature特征構(gòu)造和BP神經(jīng)網(wǎng)絡(luò)的垃圾文本過(guò)濾模型。引入BERT模型對(duì)文本進(jìn)行特征構(gòu)造,采用B-Feature方法建立特征矩陣,使用BP神經(jīng)網(wǎng)絡(luò)分類器對(duì)垃圾文本進(jìn)行分類和過(guò)濾。實(shí)驗(yàn)結(jié)果表明,本文模型較TFIDF-BP模型和樸素貝葉斯模型在垃圾文本分類和過(guò)濾上有更好的效果。但由于該模型提取句編碼后的編碼矩陣較大,時(shí)間復(fù)雜度較高,而計(jì)算資源有限,因此未對(duì)BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行更大規(guī)模和更長(zhǎng)時(shí)間的訓(xùn)練。后續(xù)將對(duì)模型計(jì)算以及迭代速度進(jìn)行優(yōu)化以進(jìn)一步提高文本分類準(zhǔn)確率。

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲永久精品ww47国产| 亚洲中字无码AV电影在线观看| 99r在线精品视频在线播放| 在线国产欧美| 狠狠五月天中文字幕| 福利小视频在线播放| 欧美日韩亚洲国产| 午夜在线不卡| 拍国产真实乱人偷精品| 白丝美女办公室高潮喷水视频| 日韩人妻无码制服丝袜视频| 国产午夜人做人免费视频中文| 试看120秒男女啪啪免费| 国产青青草视频| 亚洲成A人V欧美综合| 青青草原国产一区二区| 亚洲成人黄色在线| 久久这里只有精品23| 免费A级毛片无码免费视频| 国产区福利小视频在线观看尤物| 99视频国产精品| 国产精品2| 国产午夜看片| 最近最新中文字幕在线第一页| 亚洲无码在线午夜电影| 亚洲精品自拍区在线观看| 国内精品九九久久久精品| a天堂视频| 谁有在线观看日韩亚洲最新视频| 亚洲中文字幕在线观看| 丝袜国产一区| 98超碰在线观看| 激情六月丁香婷婷| av午夜福利一片免费看| 99人体免费视频| 内射人妻无码色AV天堂| 国产二级毛片| 97se亚洲综合不卡| 欧洲亚洲一区| 亚洲国产黄色| 性喷潮久久久久久久久| 国产高潮流白浆视频| 伊人久综合| 综合色天天| 被公侵犯人妻少妇一区二区三区| 新SSS无码手机在线观看| 成人免费网站久久久| 人妻丰满熟妇αv无码| 久久特级毛片| 中文字幕欧美日韩高清| 天堂在线www网亚洲| 久久精品人人做人人| 欧美亚洲国产视频| 全部免费特黄特色大片视频| 青青草综合网| 日韩少妇激情一区二区| 青青网在线国产| 国产91色在线| 亚洲不卡av中文在线| 国产精品永久在线| 伊人成人在线| 第一页亚洲| 天天干天天色综合网| 免费观看三级毛片| 国产成人1024精品| 国产95在线 | 成人毛片在线播放| 亚洲第一色视频| 精品久久久无码专区中文字幕| 在线永久免费观看的毛片| 欧美日韩国产在线人| 99热这里只有精品国产99| 欧日韩在线不卡视频| 日韩在线1| 国内精自线i品一区202| 99久久婷婷国产综合精| 在线免费a视频| 日本成人不卡视频| 国产微拍精品| 国产三级毛片| 国产小视频网站| 国产色网站|