999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)電子郵件的作者識(shí)別

2018-04-21 08:10:12米碩孫瑞彬李欣明曉
科技創(chuàng)新與應(yīng)用 2018年10期

米碩 孫瑞彬 李欣 明曉

摘 要:文章針對(duì)如何捕獲電子郵件的語(yǔ)言特征來識(shí)別作者的問題進(jìn)行了研究建模,首先使用NLTK自然語(yǔ)言處理工具對(duì)文本進(jìn)行了預(yù)處理,然后使用Word2Vec和GloVe模型對(duì)文本內(nèi)容進(jìn)行了嵌入化處理得到了詞向量,接著文章使用改進(jìn)的基于TextCNN的網(wǎng)絡(luò)架構(gòu),使用改進(jìn)的基于CLSTM的網(wǎng)絡(luò)架構(gòu)和提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的網(wǎng)絡(luò)架構(gòu)來解決文章的問題,并且采用集成學(xué)習(xí)的方法對(duì)上述三種單一模型進(jìn)行模型融合作為最終的模型來識(shí)別作者,最終的效果較好。

關(guān)鍵詞:循環(huán)神經(jīng)網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò);詞向量;Python

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)10-0024-02

Abstract: In this paper, we study and model in view of how to capture the language features of email to identify the author. Firstly, we preprocess the text with NLTK natural language processing tool. Then we use Word2Vec and GloVe models to embed the text content to get word vector. Then we use the improved network architecture based on TextCNN and an improved network architecture based on CLSTM, and a new network architecture based on recurrent neural network (RNN) and convolutional neural network (CNN) is proposed to solve the problem of an article. And the integration learning method is used to identify the author by fusing the above three single models as the final model, with a good final effect.

Keywords: recurrent neural network (RNN); convolutional neural network (CNN); word vector; Python

1 模型的建立

筆跡分析是一種非常特殊的調(diào)查形式,用于將人們與書面證據(jù)聯(lián)系起來。筆跡調(diào)查人員通常被要求在法庭或刑事調(diào)查中,以確定書面樣本是否來自某個(gè)特定的人。由于許多語(yǔ)言證據(jù)現(xiàn)在都出現(xiàn)在電子郵件中,從廣義上說,筆跡分析也包括了如何通過電子郵件的語(yǔ)言特征來識(shí)別作者的問題。本文基于此使用深度學(xué)習(xí)的方法建立了相應(yīng)的模型。其為改進(jìn)的基于TextCNN的分類模型,改進(jìn)的基于CLSTM的分類模型和一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的分類模型,并且使用集成學(xué)習(xí)的方法對(duì)上述三種單一模型進(jìn)行融合作為最終的分類結(jié)果。(見圖1、圖2、圖3)

2 模型的求解

對(duì)于每個(gè)單一模型的輸入都為用詞向量替換的郵件原始正文文本數(shù)據(jù)的詞向量矩陣,模型最終的輸出為133維的向量,代表這封郵件屬于這133個(gè)人的概率本文在訓(xùn)練中使用Ten-folder cross-validation(十折交叉驗(yàn)證)的方法來做數(shù)據(jù)進(jìn)行訓(xùn)練和驗(yàn)證。本文所用的數(shù)據(jù)集大小為255636,首先留出5636個(gè)樣本作為測(cè)試集,剩余的250000個(gè)樣本分成十份,輪流的將其中九份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),進(jìn)行試驗(yàn),每次訓(xùn)練都會(huì)得出相應(yīng)的準(zhǔn)確率。10次的結(jié)果的準(zhǔn)確率的平均值作為最終的準(zhǔn)確率,最終來對(duì)算法準(zhǔn)確性進(jìn)行估計(jì)。

本文在進(jìn)行模型訓(xùn)練時(shí)根據(jù)算法的準(zhǔn)確性不斷的進(jìn)行參數(shù)的調(diào)節(jié),并且使用GTX 1080Ti顯卡進(jìn)行足夠時(shí)間的學(xué)習(xí)訓(xùn)練,力求使每個(gè)模型的準(zhǔn)確率達(dá)到最高。

由訓(xùn)練集和測(cè)試集的準(zhǔn)確率變化可知,該模型對(duì)于電子郵件作者的識(shí)別取得了不錯(cuò)的效果。較單一的傳統(tǒng)模型效果更佳,故采用本文的方法能較好的解決該電子郵件識(shí)別問題。

3 模型的優(yōu)缺點(diǎn)

3.1 模型的優(yōu)點(diǎn)

(1)同時(shí)使用了Word2Vec模型和GloVe模型對(duì)文本進(jìn)行了處理得到了原始文本的特征表示,使得模型能夠從文本中提取到更加有效的特征來進(jìn)行文本分類識(shí)別。

(2)使用了集成學(xué)習(xí)的方法來進(jìn)行模型融合,這種方法相比使用單一的分類模型效果更好。

(3)在驗(yàn)證單一模型的使用的算法的有效性和正確性方面,使用十折交叉驗(yàn)證方法,證實(shí)了模型的準(zhǔn)確率相對(duì)來說較好。

(4)本文創(chuàng)新性的提出了一種新的文本分類識(shí)別模型,并且在此文本分類識(shí)別問題上取得了不錯(cuò)的效果。

3.2 模型的缺點(diǎn)

(1)在模型過程中,可能未找到最優(yōu)的模型參數(shù)值使得模型表現(xiàn)出最好的效果。

(2)因?yàn)閱我荒P偷淖詈笫侨B接層,需要訓(xùn)練的參數(shù)較多,容易出現(xiàn)過擬合,深度模型容易出現(xiàn)梯度消散問題。

3.3 模型的改進(jìn)

(1)通過迭代法找到模型表現(xiàn)出最好的效果時(shí)的模型參數(shù)值。

(2)對(duì)通過Word2Vec模型和GloVe模型得到詞向量進(jìn)行L1,L2正則化處理,以提高單一模型的泛化能力,也會(huì)使得最終的模型融合的效果更優(yōu)。

參考文獻(xiàn):

[1]lan Goodfellow,Deep learning[M].Beijing:People's post and Tele

communications Press,2017.

[2]Shalini Ghosh,Orilo Vinyals, Contextual LSTM(CLSTM)models for large scale NLP tasks, arxiv.org,2016.

[3]楊靜.基于SVM的中文電子郵件作者性別識(shí)別技術(shù)研究[D].河北農(nóng)業(yè)大學(xué),2007.

[4]聶小塵.電子郵件取證模型及關(guān)鍵技術(shù)研究[D].上海交通大學(xué),2011.

[5]馬建斌.基于SVM的中文電子郵件作者身份挖掘技術(shù)研究[D].河北農(nóng)業(yè)大學(xué),2004.

主站蜘蛛池模板: 亚洲成a人片7777| 婷婷激情五月网| 日本日韩欧美| aaa国产一级毛片| 亚洲系列无码专区偷窥无码| 婷婷五月在线视频| 男女猛烈无遮挡午夜视频| 久久精品视频亚洲| 九色综合伊人久久富二代| 777午夜精品电影免费看| 青青操视频在线| 亚亚洲乱码一二三四区| 亚欧成人无码AV在线播放| 91九色最新地址| 亚洲美女久久| 狠狠色狠狠综合久久| 欧美成人精品欧美一级乱黄| 国产亚洲精品自在久久不卡 | 国产成人h在线观看网站站| 日韩无码黄色| 五月天久久婷婷| 日韩精品欧美国产在线| 97久久免费视频| 久久综合丝袜日本网| 久久亚洲AⅤ无码精品午夜麻豆| 国产va欧美va在线观看| 91丨九色丨首页在线播放 | 为你提供最新久久精品久久综合| 青青草一区| 亚洲AV无码乱码在线观看裸奔 | 国产精品浪潮Av| 亚洲日韩日本中文在线| 亚洲天堂免费观看| 国产成人福利在线| 欧美日韩亚洲综合在线观看| 午夜国产在线观看| 国产成人麻豆精品| 亚洲无码熟妇人妻AV在线| 人人91人人澡人人妻人人爽| 国产成人综合日韩精品无码首页 | www亚洲天堂| 国产一区二区三区在线无码| 国产成人喷潮在线观看| 精品少妇人妻av无码久久| 特级欧美视频aaaaaa| 在线观看国产精美视频| 亚洲精品片911| 毛片在线播放网址| 波多野结衣一区二区三视频| 有专无码视频| 性视频一区| 国产H片无码不卡在线视频| 激情视频综合网| 国产99热| 日本免费福利视频| 人妻丰满熟妇啪啪| AV不卡无码免费一区二区三区| 亚洲国产天堂久久综合226114| 亚洲成a人片| 亚洲日韩精品伊甸| 日韩毛片在线播放| 成人第一页| 无码福利视频| 国产女人18水真多毛片18精品 | 久久精品亚洲专区| 亚洲aⅴ天堂| 欧美不卡二区| 久久国产精品国产自线拍| 午夜电影在线观看国产1区| 国产精女同一区二区三区久| 人妻中文字幕无码久久一区| 欧美在线精品怡红院| 亚洲综合专区| 97国产精品视频人人做人人爱| 青青青视频91在线 | 国产精品久久久久久久久kt| 午夜精品国产自在| 中文字幕亚洲专区第19页| 国产肉感大码AV无码| 在线日韩日本国产亚洲| 91九色最新地址| 日韩国产黄色网站|