999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語言風格的郵件分析問題

2018-08-22 19:35:16張敬巍
科學與財富 2018年20期
關鍵詞:分類特征文本

張敬巍

摘要:作者識別是一個應用廣泛的研究領域,可以應用于中外文學作品的作者考證領域,也可以應用于版權保護、惡意郵件識別等信息安全領域【1】。本文主要研究如何通過電子郵件的語言特征來識別作者的問題。在眾多郵件當中,根據語言風格的分析,確定作者。“風格”是指由于作者的生活經歷、藝術素養等造成的不同的創作特色,而語言風格是作家通過作品表現出來的創作語言特有的格調。我們將要進行的作者識別過程其實是一個文本分類的過程。文本分類是對文本集按照一定的分類體系或標準進行自動分類標記,屬于一種基于分類體系的自動分類。已有的文本分類算法有:決策樹、神經網絡、k近鄰、樸素貝葉斯、遺傳算法和支持向量機等。文本的分類通過分析電子郵件的語言特征實現,作者的語言特征是長期形成的行文習慣在寫作活動中的體現。我們通過統計的方法用某些數量特征表現作者的行文風格,從例如詞長、句長、詞頻,以及修辭、句法等不同角度綜合體現。我們運用支持向量機結合語言風格學的方法分析郵件的作者歸屬問題。

關鍵詞:作者識別支持向量機語言特征

1.問題分析

問題要求基于電子郵件的語言特征來識別作者。每位作者在書寫時會體現出不同的行文風格,我們選取一些不同的角度對每位作者的郵件文本進行分析。分析過程包括:文本預處理、詞頻統計、文本特征的抽取、分類器的訓練。

2.假設

1.假設郵件的主要內容主要集中在后半部分。

2.假設文本中詞與詞之間的關系是相互獨立的。

3.1文本預處理

文本預處理是我們進行詞頻統計和文本預處理的第一步,只有對文本進行預處理,才能對郵件的詞頻進行統計,對訓練集進行有效的訓練。首先進行詞干化,詞干化是將所有形式的衍生詞脫離各種各樣的詞性和語法變化,提取出共同的主干,變為統一的詞根,降低文本特征的維數,便于接下來的處理。如:effective→effect等。

過濾停用詞和稀有詞:通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。

3.2特征選擇

3.3文本表示模型

對于計算機而言,如果要進行文本分類,那么需要將文本表示成計算機能夠處理的形式,我們選擇的表示模型為向量空間模型,這也是最常用的一個模型。向量空間模型(VSM)是指將每篇文檔表示成一個向量,各個特征詞的詞頻作為向量中的一個元素,語料庫中所有的文檔構成一個矩陣。

3.4特征權重表示

在將文檔用向量空間模型表示后,還需要給每個特征詞賦予一定的權重,以矩陣的形式交給計算機去處理。布爾權重是常用的文本特征權重表示方法。布爾權重基于簡單的二元判定標準,定義十分直觀。

3.5分類方法統計

K-近鄰法:K-近鄰法(KNN)因算法簡單、易于實現、不需要估計參數、分類精度高等優勢,已成為模式識別和統計學領域最著名的算法之一,也是機器學習中最早應用于自動文本分類的非參數算法之一。

樸素貝葉斯法:樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率。同時,NBC模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。

3.6分類器訓練

為了準確的預測郵件的作者,我們首先對分類器進行訓練。我們選取樣本的75%作為訓練集使訓練器更具有準確性,剩下的25%作為測試集,檢驗分類器的正確性。

參考文獻:

[1]萬晶.中文作者識別方法研究[D].湖南大學,2012.

[2]劉明勇.基于寫作風格學的作者識別技術研究[D].浙江大學,2013.

[3]吳寅雪.歐美科普作品的詞法特征及其翻譯[J].校園英語(中旬),2015,(7):237-238.

[4][期刊論文] 蘇佩娟,劉赪,牟建波,王麗梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西華大學學報(自然科學版)》2017年4期

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲毛片一级带毛片基地| 欧洲成人免费视频| 91欧美在线| 国产高清无码麻豆精品| 国产无码制服丝袜| 亚洲娇小与黑人巨大交| 性69交片免费看| 国产chinese男男gay视频网| 成人国产精品网站在线看| 国产高潮流白浆视频| 国产精品尤物铁牛tv| 99久久精品无码专区免费| 九九线精品视频在线观看| 69av在线| 22sihu国产精品视频影视资讯| 欧美在线视频a| 色婷婷综合激情视频免费看| 亚洲日产2021三区在线| 亚洲二三区| 久久精品66| 国产成人精品2021欧美日韩| 国产精品亚洲一区二区在线观看| 在线观看国产网址你懂的| 成人字幕网视频在线观看| 亚洲一区二区成人| 国产亚洲精品自在线| 欧美日韩91| 婷婷色狠狠干| 日韩高清欧美| 夜夜爽免费视频| 国语少妇高潮| 精品免费在线视频| 国产精品视频导航| 久久五月天国产自| 无码人中文字幕| 国产打屁股免费区网站| 日本成人不卡视频| 亚洲天堂区| 免费Aⅴ片在线观看蜜芽Tⅴ| 99九九成人免费视频精品| 中文字幕在线日韩91| 国产欧美视频综合二区| 免费人成视网站在线不卡| 狠狠操夜夜爽| 久久这里只精品国产99热8| 九九九精品成人免费视频7| 亚洲日韩高清在线亚洲专区| 午夜在线不卡| 在线日韩一区二区| 亚洲欧美激情小说另类| 国内熟女少妇一线天| 午夜不卡视频| 欧美成人午夜视频免看| 亚洲日韩第九十九页| 色综合成人| 女人18毛片一级毛片在线| 毛片视频网址| 欧美日本在线播放| 爆乳熟妇一区二区三区| 国产乱子伦视频在线播放| 欧美综合在线观看| 久久这里只有精品免费| 免费无码一区二区| 国产成人一区| 国产剧情一区二区| 日韩欧美视频第一区在线观看 | 精品国产自| 亚洲欧洲日韩国产综合在线二区| 国产在线观看一区精品| 亚洲无码日韩一区| 一级不卡毛片| 国产毛片不卡| 91午夜福利在线观看| 五月天丁香婷婷综合久久| 免费高清自慰一区二区三区| 啊嗯不日本网站| 在线欧美一区| 欧美激情网址| 99精品热视频这里只有精品7| 精品国产香蕉在线播出| 久久精品中文字幕少妇| 亚洲码在线中文在线观看|