999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結(jié)合AdaBERT的TextCNN垃圾彈幕識別和過濾算法

2021-06-05 06:27:52孫瑞安張云華
智能計算機(jī)與應(yīng)用 2021年4期
關(guān)鍵詞:分類文本模型

孫瑞安,張云華

(浙江理工大學(xué) 信息學(xué)院,杭州310018)

0 引 言

隨著現(xiàn)代互聯(lián)網(wǎng)的發(fā)展,越來越多的人在網(wǎng)絡(luò)上尋找消磨時間的娛樂方式,其中就包括了帶有趣味的彈幕視頻——有彈幕飄過的視頻。彈幕最初出現(xiàn)在日本niconcio視頻網(wǎng)的視頻里。之所以叫彈幕,是因?yàn)槠渚拖褡訌椧粯用芗卦谝曨l上飄過,網(wǎng)友借此發(fā)明視頻彈幕這一網(wǎng)絡(luò)詞匯。人們可以使用彈幕發(fā)表對某一情節(jié)的看法和評論,也可以借用彈幕對一些電影進(jìn)行背景介紹,讓新來的觀眾對電影有一定的了解,方便決定自己是否要繼續(xù)看下去。而有些視頻的語音是外語的,而且沒有提供字幕,這時候就有熱心網(wǎng)友使用底部彈幕的形式制作中文字幕方便別人的觀看??梢钥闯?,彈幕作為一種新型網(wǎng)絡(luò)文化有一定的趣味性和實(shí)用性。但是,當(dāng)有人利用彈幕發(fā)布與視頻無關(guān)的信息,比如廣告、貶低別人的話語,又或者發(fā)布遮擋字幕的底部彈幕,就會影響他人的觀看,甚至形成不好的社會風(fēng)氣,造成惡劣的后果。所以,對垃圾彈幕進(jìn)行過濾是一件急需落實(shí)的措施。目前的彈幕過濾方法一般是使用關(guān)鍵詞進(jìn)行識別過濾。該方法將彈幕評論與關(guān)鍵詞進(jìn)行對比,如果匹配成功,則屏蔽該彈幕;否則不屏蔽[1]。在使用關(guān)鍵詞進(jìn)行垃圾彈幕過濾時,需要與時俱進(jìn)更新新的屏蔽詞,無形中又增加了時間及人力成本。所以,只使用關(guān)鍵詞進(jìn)行過濾,不僅效率較低,其準(zhǔn)確率也不高。為了提高垃圾彈幕的識別和過濾效率,本文提出了一種結(jié)合AdaBERT自適應(yīng)結(jié)構(gòu)的TextCNN垃圾彈幕識別和過濾算法。與原始的BERT模型相比,使用AdaBERT壓縮后的模型的參數(shù)規(guī)模大大下降,其推理速度也提升了十多倍,提升了垃圾彈幕識別模型的性能和效率。

1 相關(guān)研究

自然語言處理是機(jī)器學(xué)習(xí)的一個重要研究領(lǐng)域,而文本分類和文本生成是其兩個研究重點(diǎn)。本文研究的彈幕就是一種特殊的網(wǎng)絡(luò)文本?,F(xiàn)在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在文本分類領(lǐng)域的研究發(fā)展迅速,并取得了一定的進(jìn)展。

機(jī)器學(xué)習(xí)的方法主要有4種:

(1)邏輯回歸方法。這種方法經(jīng)常用來預(yù)測一個樣例屬于某個類別的概率,適用于二分類問題和多分類問題;

(2)樸素貝葉斯方法[2]。其原理依賴于數(shù)理統(tǒng)計的貝葉斯定理;

(3)隨機(jī)森林方法。這種方法是將多個決策樹的結(jié)果綜合起來[3];

(4)支持向量機(jī)(Support Vector Machine,SVM)方法。其可以用于線性分類、非線性分類、回歸等任務(wù),主要思想是使用間隔進(jìn)行分類[4]。

隨著深度學(xué)習(xí)的發(fā)展,越來越多的深度學(xué)習(xí)模型被應(yīng)用于短文本分類任務(wù)中。如,文獻(xiàn)[5]中提出基于自編碼網(wǎng)絡(luò)的短文本流形表示方法,實(shí)現(xiàn)文本特征的非線性降維,可以更好地以非稀疏形式、更準(zhǔn)確地描述短文本特征信息,提高分類效率;文獻(xiàn)[6]提出一種基于語義理解的多元特征融合中文文本分類模型,通過嵌入層的各個通路,提取不同層次的文本特征,比神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network,CNN)與長短期記憶網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)的文本分類精度提升了8%;文獻(xiàn)[7]使用CNN模型,將句中的詞向量合成為句子向量,并作為特征訓(xùn)練多標(biāo)簽分類器完成分類任務(wù),取得了較好的分類效果;文獻(xiàn)[8]提出DCNN模型,在不依賴句法解析樹的條件下,利用動態(tài)k-max pooling提取全局特征,取得了良好的分類效果;文獻(xiàn)[9]采用多通道卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行監(jiān)督學(xué)習(xí),將詞矢量作為輸入特征,可以在不同大小的窗口內(nèi)進(jìn)行語義合成操作,完成文本分類任務(wù);文獻(xiàn)[10]結(jié)合CNN和LSTM模型的特點(diǎn),提出了卷積記憶神經(jīng)網(wǎng)絡(luò)模型(Convolutional Memory Neural Network,CMNN),相比傳統(tǒng)方法,該模型避免了具體任務(wù)的特征工程設(shè)計;文獻(xiàn)[11]將CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)有機(jī)結(jié)合,從語義層面對句子進(jìn)行分類,取得良好的分類效果;文獻(xiàn)[12]提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),并將該網(wǎng)絡(luò)用在句子對建模任務(wù)中,證明了注意力機(jī)制和CNN結(jié)合的有效性;文獻(xiàn)[13]提出了一種基于彈幕內(nèi)容和發(fā)送彈幕的用戶標(biāo)識的混合垃圾彈幕識別過濾算法,其主要考慮彈幕本身的特點(diǎn)來研究。

目前,遷移學(xué)習(xí)在自然語言處理的應(yīng)用,主要針對第一層的微調(diào)預(yù)訓(xùn)練的詞嵌入,而且對于不同的語言任務(wù)都要有針對性地單獨(dú)訓(xùn)練一個模型,比較浪費(fèi)時間和資源。為此,一些學(xué)者提出,通過一個大數(shù)據(jù)集下訓(xùn)練過的NLP模型,然后針對不同的小任務(wù)只需要細(xì)微的調(diào)些參數(shù)即可完成不同的語言處理任務(wù)。在這其中就包括BERT預(yù)訓(xùn)練模型[14]。BERT模型是谷歌在2018年提出的,其在11個NLP任務(wù)中打敗其它所有選手,成為最受矚目的明日之星。BERT使用Transformer進(jìn)行特征提取,Transformer可以學(xué)習(xí)到語句的雙向關(guān)系。BERT主要使用MLM(Mask Language Model)和NSP(Next Sentence Predication)作為訓(xùn)練任務(wù)。使用BERT預(yù)訓(xùn)練的模型只需進(jìn)行微調(diào)參數(shù)就能適應(yīng)各種下游任務(wù),但BERT所需調(diào)整的參數(shù)量十分巨大,需要更好的硬件條件來運(yùn)行。如何壓縮BERT模型就成為某些研究者新的研究課題。Chen[15]等通過可微神經(jīng)架構(gòu)搜索(Differentiable Neural Architecture Search,DNAS)將BERT壓縮成適應(yīng)相應(yīng)任務(wù)的微小模型,加快了推理速度,減少了大量參數(shù)。

2 結(jié)合AdaBERT的TextCNN垃圾彈幕識別及過濾算法模型構(gòu)建

2.1 AdaBERT詞向量模型

在使用BERT預(yù)訓(xùn)練模型時,其參數(shù)達(dá)到110M之多,給訓(xùn)練此模型帶來一定難度。要想訓(xùn)練這樣規(guī)模的模型需要更好的機(jī)器和更多的資費(fèi),這對于一般人是無法承擔(dān)的。為在模型結(jié)構(gòu)不變的情況下減少參數(shù)的規(guī)模,文獻(xiàn)[16]提出向量參數(shù)分解的方法,將詞語的大向量分解為小向量,并且將層之間的參數(shù)共享,實(shí)現(xiàn)了模型壓縮。由于這些研究都是在不改變原始模型結(jié)構(gòu)的情況下減少參數(shù)數(shù)量,而BERT在海量數(shù)據(jù)中學(xué)到了不同領(lǐng)域的知識。對于不同的任務(wù),知識面是不同的。因此,需要尋找適合每種任務(wù)本身的、小的結(jié)構(gòu)和知識。而AdaBERT就實(shí)現(xiàn)了這一目標(biāo)。

AdaBERT的損失函數(shù)包含兩個方面:一個是針對任務(wù)進(jìn)行知識蒸餾,引導(dǎo)模型的搜索;二是模型效率反饋的損失,對模型的搜索過程進(jìn)行剪枝。只有同時考慮這兩方面的損失,才不會導(dǎo)致最終的模型只有效率高而有效性低,或者只有有效性高而速度卻很慢。而應(yīng)該找到一個效率和有效性權(quán)衡的模型。具體流程如圖1所示。

圖中,目標(biāo)彈幕文本數(shù)據(jù)集為D t,經(jīng)過調(diào)整參數(shù)后的BERT模型記為BERTt,所探索的模型空間記為S,而最終搜索到的最適合本文文本類型的模型記為s∈S。其損失函數(shù)為:

圖1 AdaBERT流程Fig.1 AdaBERT process

式中,ωs是搜索到的結(jié)構(gòu)s對應(yīng)的訓(xùn)練權(quán)重;L c是和目標(biāo)數(shù)據(jù)集D t相關(guān)的交叉熵?fù)p失;而L k、L e分別是面向任務(wù)的知識蒸餾損失和模型的效率損失;λ和α是平衡所有損失的超參數(shù)。

為了將搜索目標(biāo)表示為分布變量,最直接的方式是建模為one-hot變量。但這樣帶來的問題是,離散的采樣過程會使得梯度無法回傳。因此,AdaBERT引入了Gumbel Softmax[17]技術(shù),將onehot的模型結(jié)構(gòu)變量松弛為連續(xù)分布y K和y o。 對于堆疊層數(shù)K相對應(yīng)的第i維(表示模型結(jié)構(gòu)最后堆疊i層的概率),以及候選Opearation的第i維(表示DAG中某條邊最后導(dǎo)出第i種operation的概率):

這里,g i是Gumbel分布中采樣得到的隨機(jī)噪聲,τ代表此分布與one-hot分布的接近程度。此后,變量都是可微的,可以直接使用相應(yīng)的優(yōu)化器進(jìn)行損失優(yōu)化。

2.2 TextCNN模型

使用TextCNN可以實(shí)現(xiàn)對文本的分類任務(wù),其模型結(jié)構(gòu)如圖2所示。其中包括:一個用于生成詞向量的嵌入層;一個包含幾個卷積核的卷積層,一個卷積核可以得到len(seq)-filter_size+1個卷積結(jié)果;進(jìn)入激活函數(shù)進(jìn)行非線性化操作;再進(jìn)行最大化池化操作;最后經(jīng)過全連接傳入softmax進(jìn)行分類。

圖2 TextCNN模型Fig.2 TextCNN model

2.3 結(jié)合AdaBERT的TextCNN模型

在TextCNN中一般使用word2vec或者GloVe作為詞向量的選擇,而AdaBERT使用Transformer可以真正識別上下文的信息。所以,本文使用AdaBERT的詞向量代替TextCNN本身的詞向量。BERT模型本身學(xué)習(xí)了大量百科知識,擁有很好的學(xué)習(xí)能力來學(xué)習(xí)彈幕中的上下文關(guān)系。而AdaBERT可以訓(xùn)練出適合本文彈幕語料集的相應(yīng)結(jié)構(gòu)的模型,使用AdaBERT詞向量,對提高最終的模型效率和有效性有一定作用。

結(jié)合AdaBERT的TextCNN模型,在輸入層對文本使用AdaBERT轉(zhuǎn)換成相應(yīng)的詞向量,然后將所有詞向量拼接成一個向量矩陣B,公式如下:

其中,[]代表拼接詞向量的操作;b i代表句子里的每一個詞向量;Bi:j代表將第i個詞向量到第j個詞向量拼接。然后使用不同的卷積核W,大小(h)分別為3、4、5。從而獲得3個字符、4個字符、5個字符之間的關(guān)系。進(jìn)行卷積操作得到特征Fi,如式(5)所示:

式中,b為偏差,通過R e L U激活函數(shù)生成特征F=[F1,F(xiàn)2,...,F(xiàn) n-m+h],然后進(jìn)行批量歸一化(BN)操作,防止維度爆炸或者彌散。再進(jìn)行最大池化,最后全連接到softmax層,輸出樣本在不同分類上的概率,取最大值為分類結(jié)果。

本文結(jié)合AdaBERT的TextCNN模型架構(gòu)如圖3所示:

圖3 結(jié)合AdaBERT的TextCNN模型Fig.3 TextCNN based on AdaBERT model

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)主要進(jìn)行模型正確性的驗(yàn)證。本文采集了嗶哩嗶哩彈幕網(wǎng)的《秒速五厘米》的彈幕數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。使用爬蟲技術(shù)共爬取5 384 000條彈幕,經(jīng)過去重、去除只有標(biāo)點(diǎn)符號、去除表情等清理數(shù)據(jù)的手段后,剩余154 268條彈幕。對彈幕數(shù)據(jù)進(jìn)行敏感詞標(biāo)注,再進(jìn)行人工標(biāo)注查漏補(bǔ)缺。由于垃圾彈幕屬于少量異常數(shù)據(jù),所以本文將取出與垃圾彈幕相等數(shù)量的正常彈幕,生成平衡數(shù)據(jù)集。

最終電影《秒速五厘米》的彈幕數(shù)據(jù)集一共包含6 000條帶有標(biāo)簽的彈幕數(shù)據(jù),其中含有3 000條正常彈幕和3 000條垃圾彈幕。彈幕數(shù)據(jù)集的標(biāo)注結(jié)果見表1。

表1 彈幕數(shù)據(jù)集的標(biāo)簽Tab.1 Label of barrage dataset

3.2 實(shí)驗(yàn)結(jié)果評價標(biāo)準(zhǔn)

評判分類問題性能優(yōu)劣,一般可以用正確率和錯誤率來評估。而在本文的數(shù)據(jù)集中,少數(shù)異常是主要的關(guān)注對象,其分類精度也就顯得很重要。數(shù)據(jù)集中正常彈幕和垃圾彈幕的數(shù)量差距大,是一種不平衡的文本分類數(shù)據(jù)集,那么正誤率不太適合作為這種數(shù)據(jù)集的分類算法評判指標(biāo)。本文將采用精確率(Pr eci s i on)、召回率(Recal l)、F1分?jǐn)?shù)(F1-s cor e)這3個指標(biāo)對算法進(jìn)行評估。表2所示的混淆矩陣更能直觀地說明這3個概念。

表2 混淆矩陣Tab.2 Confusion matrix

精確率P表示的是預(yù)測結(jié)果為正例的數(shù)據(jù)中預(yù)測正確的比例;召回率R是指實(shí)際為正例中預(yù)測為正例的百分比。精確率和召回率之間存在一定的數(shù)量關(guān)系,即當(dāng)精確率上升時,召回率會下降,反之亦然。綜合考慮精確率和召回率時可以使用F1分?jǐn)?shù)。以下是精確率、召回率和F1分?jǐn)?shù)的計算公式:

3.3 實(shí)驗(yàn)過程與結(jié)果分析

本次實(shí)驗(yàn)使用Windows10操作系統(tǒng)、jupyter lab平臺,使用TensorFlow深度學(xué)習(xí)框架進(jìn)行模型訓(xùn)練,主要開發(fā)語言為Python。實(shí)驗(yàn)數(shù)據(jù)集包含相等數(shù)量的正常彈幕和垃圾彈幕,從中隨機(jī)將數(shù)據(jù)集按8:2的比例分成訓(xùn)練集和測試集。為說明本文提出的結(jié)合AdaBERT的TextCNN算法的優(yōu)勢,通過與TextCNN算法、樸素貝葉斯算法和BiLSTM算法進(jìn)行對比結(jié)果,說明本文算法的有效性。實(shí)驗(yàn)結(jié)果見表3。

表3 實(shí)驗(yàn)結(jié)果Tab.3 Experimental result

從測試結(jié)果可見,本文算法的3個指標(biāo)都是最高的。與使用word2vec的其它算法相比,采用AdaBERT詞向量模型的TextCNN模型相關(guān)指標(biāo)均更高。說明使用AdaBERT進(jìn)行模型預(yù)訓(xùn)練得到的詞向量比word2vec詞向量更好。使用統(tǒng)計學(xué)知識計算分類概率的樸素貝葉斯模型,沒有考慮詞之間的上下文關(guān)系,而只是把每個詞單獨(dú)轉(zhuǎn)換成相應(yīng)的數(shù)值,并計算其屬于某個類型的概率。其取得的結(jié)果必定是不準(zhǔn)確的。TextCNN、AdaBERT-TextCNN模型都屬于CNN類別的模型,而BiLSTM則屬于RNN模型。CNN類型的模型比使用RNN的BiLSTM的精確率和召回率更高,這說明彈幕這種短文本類型的分類更適合使用CNN進(jìn)行。在垃圾彈幕識別中上下文關(guān)系比較少,關(guān)鍵詞的信息更多。

為了說明AdaBERT對BERT的參數(shù)優(yōu)化,本文還包含了這兩種方法的實(shí)驗(yàn)對比,結(jié)果見表4。

表4 時間對比Tab.4 Time comparison

從表中結(jié)果來看,使用自適應(yīng)的BERT模型的確減少了訓(xùn)練時間,提高了模型的效率。

總體來看,本文提出的結(jié)合AdaBERT的TextCNN模型,在實(shí)驗(yàn)中取得較好的成果,與普通分類算法相比優(yōu)勢較大。使用AdaBERT相比一般BERT算法的參數(shù)更少,可以加快模型的預(yù)訓(xùn)練,更好的提取詞向量特征,結(jié)合TextCNN后可以獲得更好的模型泛化能力。可以預(yù)見,本文算法對垃圾彈幕過濾這一應(yīng)用場景有較大作用,可以投入到實(shí)際的彈幕過濾系統(tǒng)中使用。

4 結(jié)束語

本文提出的結(jié)合AdaBERT的TextCNN垃圾彈幕識別與過濾算法模型,與以前的基于統(tǒng)計學(xué)的分類算法相比,有更高的準(zhǔn)確率;與CNN類型和RNN類型的模型相比,擁有更好的泛化能力。采用AdaBERT也減少了模型的復(fù)雜程度,使得總體訓(xùn)練時間降低。實(shí)現(xiàn)了對垃圾彈幕文本更好的語義理解,獲取了更準(zhǔn)確的彈幕特征,提高垃圾彈幕識別的準(zhǔn)確率。目前,本文只研究基于彈幕文本內(nèi)容的篩選,后續(xù)將考慮加入彈幕的位置和視頻內(nèi)容等維度加以綜合評估,進(jìn)一步提高識別精確率。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲女同一区二区| 国产成人精品一区二区免费看京| 久久精品人妻中文系列| 欧美日韩高清| 亚洲va欧美va国产综合下载| 99久久亚洲精品影院| 精品综合久久久久久97超人该| 99精品在线看| yjizz国产在线视频网| 久久99精品久久久久久不卡| 婷婷激情五月网| 看看一级毛片| 人妻熟妇日韩AV在线播放| 国产男女免费完整版视频| 一本久道久久综合多人| 最新国产麻豆aⅴ精品无| 亚洲国产成人无码AV在线影院L | 欧美另类精品一区二区三区| 午夜在线不卡| 国产美女在线观看| 乱系列中文字幕在线视频 | 亚洲精品第一页不卡| 久久久无码人妻精品无码| 久久www视频| 99国产精品国产| 亚洲精品国产自在现线最新| 亚洲免费播放| 露脸一二三区国语对白| 色老二精品视频在线观看| 日本三级精品| 国产亚洲精品va在线| 国产精品观看视频免费完整版| 国产区在线看| 国产男人的天堂| 国产精品深爱在线| 国产成人精品无码一区二 | 秋霞一区二区三区| 99激情网| 狠狠色丁香婷婷| 亚洲有无码中文网| 亚洲视频四区| 91久久偷偷做嫩草影院精品| 国产亚洲欧美在线视频| 亚洲成人精品久久| 老司机精品99在线播放| 欧美在线一二区| 中文字幕66页| 一本大道东京热无码av | 欧美亚洲激情| 中文字幕自拍偷拍| 久久中文字幕不卡一二区| 91最新精品视频发布页| 精品国产香蕉伊思人在线| 在线观看亚洲精品福利片| 91美女视频在线观看| 福利姬国产精品一区在线| 国产成人免费| 99视频国产精品| 一本综合久久| 国产手机在线ΑⅤ片无码观看| 国产经典在线观看一区| 国产欧美日韩va另类在线播放| 亚洲色欲色欲www在线观看| 国产国产人在线成免费视频狼人色| 亚洲黄网在线| 国产91九色在线播放| 国产菊爆视频在线观看| 亚洲精品中文字幕午夜| 欧美一区福利| 日韩视频精品在线| 福利在线一区| 四虎影视国产精品| 首页亚洲国产丝袜长腿综合| 欧美激情综合| 波多野一区| 免费不卡在线观看av| 亚洲va视频| 亚洲国产成人自拍| 免费在线国产一区二区三区精品| 毛片在线播放网址| 欧美福利在线观看| 久久精品无码一区二区日韩免费|