999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環神經網絡(RNN)和卷積神經網絡(CNN)對電子郵件的作者識別

2018-04-21 08:10:12米碩孫瑞彬李欣明曉
科技創新與應用 2018年10期

米碩 孫瑞彬 李欣 明曉

摘 要:文章針對如何捕獲電子郵件的語言特征來識別作者的問題進行了研究建模,首先使用NLTK自然語言處理工具對文本進行了預處理,然后使用Word2Vec和GloVe模型對文本內容進行了嵌入化處理得到了詞向量,接著文章使用改進的基于TextCNN的網絡架構,使用改進的基于CLSTM的網絡架構和提出了一種新的基于循環神經網絡(RNN)和卷積神經網絡(CNN)的網絡架構來解決文章的問題,并且采用集成學習的方法對上述三種單一模型進行模型融合作為最終的模型來識別作者,最終的效果較好。

關鍵詞:循環神經網絡;卷積神經網絡;詞向量;Python

中圖分類號:TP391 文獻標志碼:A 文章編號:2095-2945(2018)10-0024-02

Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

1 模型的建立

筆跡分析是一種非常特殊的調查形式,用于將人們與書面證據聯系起來。筆跡調查人員通常被要求在法庭或刑事調查中,以確定書面樣本是否來自某個特定的人。由于許多語言證據現在都出現在電子郵件中,從廣義上說,筆跡分析也包括了如何通過電子郵件的語言特征來識別作者的問題。本文基于此使用深度學習的方法建立了相應的模型。其為改進的基于TextCNN的分類模型,改進的基于CLSTM的分類模型和一種新的基于循環神經網絡和卷積神經網絡的分類模型,并且使用集成學習的方法對上述三種單一模型進行融合作為最終的分類結果。(見圖1、圖2、圖3)

2 模型的求解

對于每個單一模型的輸入都為用詞向量替換的郵件原始正文文本數據的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個人的概率本文在訓練中使用Ten-folder cross-validation(十折交叉驗證)的方法來做數據進行訓練和驗證。本文所用的數據集大小為255636,首先留出5636個樣本作為測試集,剩余的250000個樣本分成十份,輪流的將其中九份作為訓練數據,1份作為測試數據,進行試驗,每次訓練都會得出相應的準確率。10次的結果的準確率的平均值作為最終的準確率,最終來對算法準確性進行估計。

本文在進行模型訓練時根據算法的準確性不斷的進行參數的調節,并且使用GTX 1080Ti顯卡進行足夠時間的學習訓練,力求使每個模型的準確率達到最高。

由訓練集和測試集的準確率變化可知,該模型對于電子郵件作者的識別取得了不錯的效果。較單一的傳統模型效果更佳,故采用本文的方法能較好的解決該電子郵件識別問題。

3 模型的優缺點

3.1 模型的優點

(1)同時使用了Word2Vec模型和GloVe模型對文本進行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來進行文本分類識別。

(2)使用了集成學習的方法來進行模型融合,這種方法相比使用單一的分類模型效果更好。

(3)在驗證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗證方法,證實了模型的準確率相對來說較好。

(4)本文創新性的提出了一種新的文本分類識別模型,并且在此文本分類識別問題上取得了不錯的效果。

3.2 模型的缺點

(1)在模型過程中,可能未找到最優的模型參數值使得模型表現出最好的效果。

(2)因為單一模型的最后是全連接層,需要訓練的參數較多,容易出現過擬合,深度模型容易出現梯度消散問題。

3.3 模型的改進

(1)通過迭代法找到模型表現出最好的效果時的模型參數值。

(2)對通過Word2Vec模型和GloVe模型得到詞向量進行L1,L2正則化處理,以提高單一模型的泛化能力,也會使得最終的模型融合的效果更優。

參考文獻:

[1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

communications Press,2017.

[2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

[3]楊靜.基于SVM的中文電子郵件作者性別識別技術研究[D].河北農業大學,2007.

[4]聶小塵.電子郵件取證模型及關鍵技術研究[D].上海交通大學,2011.

[5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術研究[D].河北農業大學,2004.

主站蜘蛛池模板: 久久综合干| 亚洲天堂福利视频| 91精品免费高清在线| 一级成人a毛片免费播放| 40岁成熟女人牲交片免费| 国产一区二区丝袜高跟鞋| 久久久久久尹人网香蕉 | 永久免费精品视频| 精品国产免费观看一区| 97国产精品视频人人做人人爱| 国产精品美人久久久久久AV| 日本人又色又爽的视频| aaa国产一级毛片| 免费av一区二区三区在线| 青草国产在线视频| 激情六月丁香婷婷四房播| 成人中文字幕在线| 又黄又湿又爽的视频| 婷婷色在线视频| 日韩欧美中文亚洲高清在线| 久久人妻xunleige无码| 日本免费新一区视频| 国产主播喷水| 欧美精品成人| 亚洲综合婷婷激情| 国产特级毛片| 中文字幕永久视频| 久久精品国产一区二区小说| 亚洲欧洲日产国码无码av喷潮| 欧美97色| 欧美在线三级| 中文字幕人成乱码熟女免费| 成人另类稀缺在线观看| 伊人国产无码高清视频| 成人国内精品久久久久影院| 欧美一区二区自偷自拍视频| 国内精品伊人久久久久7777人| www.亚洲国产| av尤物免费在线观看| 欧美精品啪啪一区二区三区| 久久伊人久久亚洲综合| 看国产一级毛片| 中文无码日韩精品| 乱系列中文字幕在线视频| 国产丰满成熟女性性满足视频| 国产高清在线精品一区二区三区 | 久久久受www免费人成| 好紧太爽了视频免费无码| 国产va视频| 久草青青在线视频| 欧美日韩国产精品va| 亚洲欧美激情小说另类| 第一页亚洲| 91色爱欧美精品www| 伊在人亞洲香蕉精品區| 亚洲欧美色中文字幕| 999精品免费视频| 制服丝袜一区| 免费不卡视频| 亚洲国产天堂久久综合| 91美女在线| 日韩123欧美字幕| 日韩高清欧美| 一级黄色片网| 国产无人区一区二区三区| 亚洲va在线观看| 在线亚洲天堂| 久久久久无码精品| 欧美性猛交一区二区三区| 久久精品亚洲热综合一区二区| 国产三级成人| 99久久国产精品无码| 欧美怡红院视频一区二区三区| 久久综合九九亚洲一区| 香蕉久久永久视频| 无码网站免费观看| 91精品福利自产拍在线观看| 日韩福利在线观看| 乱系列中文字幕在线视频| 色精品视频| 久久免费观看视频| 日本福利视频网站|