999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信識別①

2020-09-22 07:45:24吳思慧陳世平
計算機系統應用 2020年9期
關鍵詞:機制

吳思慧,陳世平

1(上海理工大學 光電信息與計算機工程學院,上海 200093)

2(復旦大學 上海市數據科學重點實驗室,上海 201203)

21世紀以來,手機用戶不斷增加,特別是智能手機的使用越來越多,人們可以通過短信快速高效的獲取信息,但隨之而來的是垃圾短信的泛濫,垃圾短信不僅僅影響到人們正常的手機使用和體驗,更主要的是垃圾短信會帶來嚴重的安全隱患,很多不法分子通過垃圾短信獲取用戶的私人信息,危害到用戶隱私安全.因此,垃圾短信的識別具有重要的現實意義.治理垃圾短信不僅需要有關部門的持法監督和相應手機安全廠商的屏蔽,同時應該利用先進的技術,直接在源頭上消滅垃圾短信.

目前常用的垃圾短信識別的方法主要包括基于黑白名單的方法,基于規則的方法和基于短信內容的方法這樣3 種[1],前兩種方法要人工手動添加發送垃圾短信號碼的名單或者手動添加與垃圾短信對應關鍵詞,由于手動添加的數據量有限且效率低,因此目前主要是使用基于短信內容的方法來進行短信識別,即將文本分類技術用于識別垃圾短信.

文本分類是計算機應用于根據特定的分類系統或者標準自動分類文本[2,3].隨著深度學習在自然語言預處理領域的應用,相對于傳統的文本分類算法如樸素貝葉斯,支持向量機等[4-6],深度學習在文本分類上獲得了令人滿意的結果.目前長短時記憶網絡(Long Short-Term Memory,LSTM)已經廣泛應用在文本分類里面,與循環神經網絡(Recurrent Neural Network,RNN)相比,LSTM 網絡采用了特殊隱式單元,因此更適合于處理長期依賴關系,很好的解決了RNN 的梯度消失或者梯度爆炸的問題,可以更好的獲取文本的全局特征信息.以LSTM 網絡為基礎的雙向循環神經網絡(Bidirectional LSTM,Bi-LSTM) 網絡是由向前的LSTM 和向后的LSTM 組成[7-13],在處理文本分類上面可以更好的捕捉雙向的語義依賴,對于詞向量[14]的依賴更少,從而提高文本的分類效率.

專家學者根據基于對人類視覺的研究,提出注意力(attention)機制[15],目前Attention 機制已經引入到自然語言預處理領域[16,17],學習并重點關注目標區域,使得模型在有效資源的情況下關注重點消息.Attention機制通常結合編碼解碼(encoder-decoder)模型使用,應用場景十分廣泛,因此隨后出現多種注意力機制的變形,如自注意力(self-attention)機制.

根據以上背景本文提出一種結合TFIDF 的selfattention-based Bi-LSTM 神經網絡模型.首先,使用Word2Vec[18-20]將短信文本處理成詞向量形式,隨后使用Bi-LSTM 模型對詞向量形式的短信文本的特征信息進行提取,接著引入自注意機制,并結合TFIDF 模型,對重點詞匯進行加權,最后將輸出的特征向量輸入Softmax 分類器得到分類結果.該模型不僅能夠充分利用上下文本信息來進行短信文本特征提取,還能在對短信文本進行分類時分辨中不同詞語的重要程度從而實現對重點詞語的提取,與未使用自注意機制和TFIDF 模型的Bi-LSTM 模型相比,在對垃圾短信和正常短信分類時的分類準確率,召回率,F1 值,運行時間等值上有較大的提升,其中分類準確率達到了90.1%,召回率達到了90.5%,F1 值達到了90.2%,說明該模型在對短信文本處理時具有更好的分類能力[21],同時從實驗結果的準確率與訓練集大小的性能趨勢曲線上來看,該模型始終優于其他模型,該模型相較于其他模型需要更少的訓練數據就可以到達較高的準確率.實驗結果驗證了結合TFIDF 的self-attention-based Bi-LSTM神經網絡模型的可行性和有效性.

本文的主要貢獻如下:

(1)將Bi-LSTM 模型運用到垃圾短信識別中,既可以利用過去的信息也可以利用將來的信息.

(2)將自注意機制和TFIDF 模型相結合,進一步加強重點詞匯的權重,增強分類效果.

(3)在BI-LSTM 模型中引用自注意機制和TFIDF模型,進一步獲取對短信文本分類結果產生影響的重點詞語的特征.

1 模型構建

本文結合TFIDF 的self-attention-based Bi-LSTM神經網絡總體模型如圖1所示,模型包含詞向量輸入層,Bi-LSTM 網絡層,結合TFIDF 的自注意層,Softmax 層.模型流程主要是短信文本以詞向量的方式輸入到Bi-LSTM 層,經過特征提取并結合TFIDF 和自注意層的重點詞匯加權從而獲得最后的特征向量,最后通過Softmax 分類器對最終的特征向量進行分類從而得到短信文本分類結果.

1.1 RNN 模型

RNN 能處理序列問題,允許信息持久化,即將上一刻運算結果添加到當前計算的輸入中去,從而實現了“考慮上下文信息”的功能,可用于一段段連續的語義,一段段連續的段落等,RNN 包含循環結構,例如一個tanh 層.具體運行過程是t時刻輸入當前信息xt并由神經網絡模塊A 接收,之后由A 得到t時刻的輸出ht,并且將當前時刻的部分信息傳遞到下一刻t+1,RNN結構如圖2所示.

圖1 結合TFIDF 的self-attention-based Bi-LSTM 模型

1.2 LSTM 模型

在RNN 模型中僅靠一條線來記錄所有的輸入信息其工作效果并不是很理想,很難完美的處理具有長期依賴的信息,如一段很長的英語句子,RNN 很難記住前面主語的時態形式從而在句子后面選擇相應的合適的時態.因此在RNN 模型的基礎上,出現了LSTM.LSTM 是一種特殊的循環神經網絡,可以學習長期依賴信息,其結構和傳統的RNN 結構相同,只是重復模塊A 結構更加復雜些,多了一個單元控制器Cell,其能夠判斷信息是否有用,從而解決了RNN 常有的梯度消失或者梯度爆炸的問題.LSTM 結構內部主要包括輸入門it,遺忘門ft,輸出門ot和Cell 狀態更新向量ct等部分,LSTM 結構如圖3所示.

圖3 LSTM 結構

(1)遺忘門ft決定需要舍棄的信息部分,其計算公式如下:

其中,Wf和bf分別表示遺忘門的權重矩陣和遺忘門的偏置矩陣,σ為激活函數,ht-1表示歷史信息,xt表示當前流入Cell 中新的信息,xt作用是為了根據當前輸入的新的信息來決定要忘記哪些歷史信息,將上一時刻的輸出ht-1和 本時刻的輸入xt兩個向量拼接起來,通過激活函數輸出一個在0 到1 之間的數值,0 表示完全拋棄,1 表示完全保留,同時,絕大部分數值都是接近0 或者1 的,這個數據決定要遺忘多少歷史信息,0 表示完全拋棄,1 表示完全保留.

(2)輸入門it處理當前位置的輸入,確定什么樣的新信息被存放在Cell 中,此處包含兩個部分,首先,Sigmoid 層的“輸入門層”會決定更新哪些值,接著tanh 層會建立一個新的候選值向量,在獲得了輸入門和遺忘門系數之后則更新當前的Cell 狀態,Ct-1更新為Ct,其計算公式如下:

其中,Wi和bi分別表示輸入門的權重,tanh 為激活函數.

(3)輸出門控制哪些信息用于此刻的輸出,輸出門是由歷史信息ht-1和 新的信息xt來決定的,此處包含兩個部分,首先,運行一個Sigmoid 層,主要用于決定Cell 狀態的哪個部分將被輸出出去,將Cell 狀態通過一個tanh 層進行處理,得到一個在-1 到1 之間的值,將這個值乘以Sigmoid 門的輸出,最后模型將僅輸出確定要輸出的部分,其計算公式如下:

其中,Wo和bo分別表示輸入門的權重矩陣和輸入門的偏置矩陣.

1.3 Bi-LSTM 模型

Bi-LSTM 是對LSTM 的改進,因為LSTM 是序列化處理信息,所以在信息處理上有先后的順序,也就是常常忽略下文信息,不能綜合上下文的信息,例如:“作業寫完了,我想_手機”,要在橫線中填詞,如果只考慮前面的信息,那么橫線可以填“睡覺”,“玩”,“看電視”等,但是如果同時結合后面的信息“手機”一詞,那么橫線處填“玩”的概率最大,而Bi-LSTM 模型包含一個前向的LSTM 模型和一個后向的LSTM 模型,可以獲取足夠的上下文信息,并且兩個模型都被連接到相同的輸出層,Bi-LSTM 結構如圖4所示.

圖4 Bi-LSTM 結構

圖4中前向的LSTM 模型捕捉當前時刻的前文特征信息,后向的LSTM 模型捕捉當前時刻的后文特征信息,Bi-LSTM 模型t時刻的輸入的計算公式如下:

1.4 TFIDF 模型

TFIDF 是一種于咨詢檢索與咨詢勘探的常用加權技術,主要用以評估一字詞對于一個文集的重要程度或者對于一個語料庫中的其中一份文件的重要程度,字詞的重要程度與它在文檔中出現的次數成正比,與它在整個語料庫出現次數成反比.該模型主要包括:詞頻(TF)和逆文檔頻率(IDF)兩個部分,TF表示某個詞wn在文檔dm中的出現頻率,IDF 代表該詞的類別區分,計算公式如下:

其中,dm為文檔集中任意一篇,M為文檔集中文檔的總數,dm有詞匯集合w={wn,wn,···,wn,···,wN},N為每篇文檔的詞匯總數,fn,m表示詞wn在文檔dm中出現的次數;表示文檔dm中出現的所有詞匯數;D為文檔集合所有的文檔數量,Dwn表示出現了詞wn的文檔數量,并且為了不會出現由于語料集不包括詞wn而導致的分母等于零的情況,在此將分母加上一個常數1.

TFIDF權重即為TF和IDF的乘積,計算公式如下:

1.5 Self-Attention 機制

短信文本的識別過程中,文本所包含的詞數比較少,很難獲取更多的句子語義信息,但通過對比語料庫可以發現,在句子中的某些重點詞匯可以更快的幫助識別短信類別,如在“元旦特惠,原價xxx 的三星手機現在特惠,全部八折,最高直降xxx”這樣的一條垃圾短信中,就包含了一些重點詞匯:“三星”(品牌名稱),“特惠”,“八折”,“直降”等.對于不同的詞匯,其對文本分類起到的作用也不一樣,因此為突出關鍵詞并優化特征詞提取過程,引入Attention 機制,結構如圖5所示.

圖5 Attention 機制結構

Attention 機制通過對不同的詞匯分配不同的權重從而強化關鍵信息的比重.傳統的attention 機制模型需要依賴部分外部信息,而self-attention 機制不需要使用其他外部的信息,它會自動從自身所給的信息訓練來更新參數從而給不同信息分配不同的權重,因此本文采用self-attention 機制.

根據Bi-LSTM 所有的輸出向量組成的矩陣H=[H1,H2,···,HN],結合TFIDF 模型所得到了當前輸入文本的權重,更好將注意力集中的重點詞匯上,從而獲得更好的分類效果,基于TFIDF 的self-attention 機制的計算公式下:

計算公式如下:

H包含Bi-LSTM 所輸出向量 [H1,H2,···,HN],TFIDFN為當前輸入文本的權重,eN為N 維單位向量,N為輸入文本的長度,WT為隨機初始化并在訓練中學習的權重矩陣,γ基于TFIDF 的self-attention 層的輸出值,將輸出值輸入激活函數得到分類結果,短信文本進行“正常短信”和“垃圾短信”的二元分類.

2 實驗介紹

2.1 實驗數據

本文參與實驗的短信數據共有20 萬條,分為垃圾短信(negative)和正常短信(positive)兩種,其中正常短信數量為10 萬條,垃圾短信數量為10 萬條,這些數據在初始化時已經被分為了垃圾短信或者正常短信.

2.2 實驗數據預處理和參數設置

原始短信數據包含了很多非法符號,例如表情符號這些對于短信分類并沒有用,所以數據不直接使用,先進行數據的清洗.經過清洗過的短信數據要進行中文分詞處理,將短信的句子拆成單個中文單詞,本文中使用結巴分詞工具對短信進行分詞,分詞結束之后去除短信文本中的停用詞,常見的停用詞有“的”“得”“在”等,提高關鍵詞密度,增強搜索效率.

分詞處理之后,本文使用Word2Vec 工具初始化詞向量,同時使用Skip-gram[22,23]模型訓練數據集,并結合維基中文語料庫訓練詞向量維度,詞向量維度越高可以越好的表達中文單詞的語義,但是隨著維度的升高也會增加模型參數的數量,因此經過實驗對比,將詞向量維度設置為100,隱藏層設置為128,窗口大小設置為5,經過預處理之后的短信數據最長的一條為100 個中文詞匯,因此每條短信的特征矩陣大小均為,將特征矩陣作為TFIDF-self-attention-based Bi-LSTM模型的輸入參與到模型的訓練中去.

2.3 評價指標

本文以準確率Precision,召回率Recall和F1 作為指標來評估模型在垃圾短信識別任務中的有效性,計算公式如下:

其中,Nright,Nwrong,TP,FN分別表示短信分類準確的數量,短信分類錯誤的數量,正常短信被判斷成正常短信的數量和正常短信被判斷成垃圾短信的數量.

本文采用十折交叉驗證法來評估模型在短信測試集上的準確率.

3 結語

3.1 實驗結果

在本文中,設計了4 組對比實驗,分別使用了LSTM,Bi-LSTM,self-attention-based Bi-LSTM (SA Bi-LSTM),結合TFIDF 的self-attention-based Bi-LSTM (TSA Bi-LSTM) 4 組不同的模型,準確率實驗結果和運行時間對比實驗結果分別如表1和表2所示,對4 種模型根據不同訓練集的大小進行實驗結果如圖6所示.

表1 準確率對比實驗結果

表2 運行時間對比實驗結果

圖6 訓練集大小與準確率比較

3.2 模型對比分析

4種不同模型的準確率可以看出,LSTM 模型的準確率低于Bi-LSTM 模型的準確率,在Bi-LSTM 模型中引入attention 機制準確率得到了提高,而self-attentionbased BI-LSTM 模型結合TFIDF 則又進一步提高了模型準確率.

因此,通過以上實驗結果可得出結論:

(1)對比LSTM 模型和Bi-LSTM 模型,發現Bi-LSTM1 模型準確率高于LSTM 模型,同時模型用時更短,所以Bi-LSTM 模型對文本特征信息提取具有更精確的效果.

(2)對比Bi-LSTM 模型和self-attention-based Bi-LSTM 模型,可以得出在Bi-LSTM 模型引入selfattention 機制之后可以提高模型的準確率并且一定程度上縮短了模型運行時間,證明了self-attention 機制的有效性.

(3)對比self-attention-based Bi-LSTM 模型和結合TFIDF 的self-attention-based Bi-LSTM 模型,可以得出將注意力機制和TFIDF 模型相結合,更能有效提高重點詞匯的權重達到更好的分類效果.

4 結語

本文將self-attention 機制和TFIDF 模型相結合加入到Bi-LSTM 模型,設計出結合TFIDF 的selfattention-based Bi-LSTM 模型,并應用到垃圾短信識別中,通過4 組對比實驗,驗證了該模型具有良好的使用效果.

由于self-attention 機制的引用需要消耗一定的計算成本,因此在未來的工作中,將考慮如何在減少selfattention 機制對計算成本消耗的基礎上繼續優化結合TFIDF 的self-attention-based Bi-LSTM 模型,使得該模型能在未來的應用中達到更好的使用表現.

猜你喜歡
機制
構建“不敢腐、不能腐、不想腐”機制的思考
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
“三項機制”為追趕超越蓄力
當代陜西(2018年9期)2018-08-29 01:21:00
丹鳳“四個強化”從嚴落實“三項機制”
當代陜西(2017年12期)2018-01-19 01:42:33
保留和突破:TPP協定ISDS機制中的平衡
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
氫氣對缺血再灌注損傷保護的可能機制
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
主站蜘蛛池模板: 免费Aⅴ片在线观看蜜芽Tⅴ | 色久综合在线| 久久国产亚洲欧美日韩精品| 国产精品 欧美激情 在线播放| 国产精品毛片一区| 97在线免费视频| 免费国产在线精品一区| 国产AV无码专区亚洲A∨毛片| 欧美精品高清| 国产不卡一级毛片视频| 91精品国产91久久久久久三级| 欧美一区中文字幕| 日本免费福利视频| 国产精品久久久精品三级| 91在线精品麻豆欧美在线| 伊人成色综合网| 乱码国产乱码精品精在线播放| AV片亚洲国产男人的天堂| 日本欧美成人免费| 91尤物国产尤物福利在线| 日本高清有码人妻| 亚洲国产第一区二区香蕉| 国产视频欧美| 国产一级在线观看www色| 99国产精品国产高清一区二区| 免费a级毛片视频| 中文字幕无线码一区| 亚洲欧美极品| 亚洲天堂精品在线观看| 亚洲色大成网站www国产| 亚洲天堂网视频| 中文字幕免费在线视频| 亚洲国产精品成人久久综合影院| 国内精品视频区在线2021| 色综合中文| 69国产精品视频免费| 久草中文网| 久久香蕉国产线看观| 真人高潮娇喘嗯啊在线观看| 免费观看国产小粉嫩喷水| 国产欧美日韩综合在线第一| 亚洲一区毛片| 一级在线毛片| 国产精品天干天干在线观看| 精品国产电影久久九九| 亚洲91精品视频| 国产精品jizz在线观看软件| 二级毛片免费观看全程| 一本大道香蕉久中文在线播放| 青青操视频免费观看| 伊人网址在线| 在线国产91| 婷婷六月综合网| 午夜啪啪福利| 在线免费a视频| 99久久精品免费观看国产| 欧美色综合久久| 日韩在线播放中文字幕| 麻豆精品在线视频| 日韩人妻精品一区| 久久香蕉国产线| 精品国产美女福到在线不卡f| 永久免费av网站可以直接看的| 国产在线97| 全部无卡免费的毛片在线看| 精品一区二区三区水蜜桃| 国产激情无码一区二区三区免费| 久久人人97超碰人人澡爱香蕉| 国产亚洲欧美日韩在线观看一区二区| 久久精品一卡日本电影| 中文字幕在线视频免费| 中文字幕精品一区二区三区视频 | 九九久久精品国产av片囯产区| 国产一区二区网站| 欧洲亚洲一区| 九九热精品视频在线| 538精品在线观看| 国产成人a在线观看视频| 久久www视频| 99视频在线精品免费观看6| 波多野吉衣一区二区三区av| 国产日韩精品欧美一区灰|