999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于稀疏自編碼器和SVM的垃圾短信過濾

2016-04-12 00:00:00王貴新彭娟鄭孝宗張小川
現代電子技術 2016年17期

摘 要: 在垃圾短信過濾系統中,傳統方法的短信息特征很難準確地考慮到詞語的貢獻。提出了一種新的特征詞查找和特征構造方法,較好地反映了詞語之間的關系和在短信中的貢獻度。通過聯合采用稀疏自編碼器和支撐矢量機(SVM)進行學習和分類仿真實驗,結果表明過濾效果比目前報道的類似分類器效果有顯著的提升和改進。

關鍵詞: 支撐矢量機; 稀疏自編碼器; 短信; 特征提取

中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)17?0145?04

0 引 言

每年移動運營商和國家都花費了大量的人力和物力進行垃圾短信治理,但公眾還是不滿意治理效果,主要是由于短信自動識別技術方面還有待提高的地方。本文利用SVM[1?2]完成短信分類,取得了比KNN更好的效果,但如果數據量大,訓練的時間則比較長。但是SVM有個很大的優解,能夠收斂到全局最優解。因此選擇SVM作為分類器,是實際應用中不錯的選擇;稀疏自編碼(SAE)是深度學習理論的強力工具,它具有獲取從低層到高層特征的能力,同時具有稀疏數據能力[3]。SAE這些能力正好合乎SVM的有效分類應用。

本文主要根據實際完成的移動垃圾過濾項目的結果,結合理論進行提升。首先通過深度學習方法取得詞語在構成一個短信語義中的貢獻度,從而獲得特征詞庫和特征,接著完成短信的特征構建,然后用堆疊稀疏自編碼對原始特征數據進行有效特征分解,最后利用SVM分類器短信進行分類識別。實驗表明本文算法更能精確地過濾垃圾短信,比目前報道的效果[1?2]有顯著的提升和改進。

由于沒有公開的短信素材可以得到,本文利用以前所做項目收集的大約有300萬條的短信作為實驗樣本。

3 實驗與結論

本文拿出每類大約42 560條垃圾短信(訓練樣本數的2倍)和70 000條正常短信作為測試樣本。把這些測試樣本首先按照式(5),式(6)的方式取得所有短信的稀疏編碼向量。

在訓練階段仿真用的稀疏自編碼器代碼借鑒了DeepLearnToolbox?master工具包;多類帶概率輸出的SVM訓練和分類器借鑒了臺灣的林智仁LIBSVM工具。

稀疏自編碼器訓練參數和結果見第2節。圖2是SVM訓練后的參數設置和支撐矢量情況,考慮到政治敏感性,分類器SVM中[C1,C2,C3,C4]四個類的輸出概率下限分別是0.67,0.9,0.95,0.8(可以根據不同需求調整),比這個下限值小的樣本本文認為是正常短信。

為了能將識別結果與已有文獻[1,4]比較,本文按照文獻[4]列出的指標對本文的結果進行了統計(見表2)。統計指標有:查準率(P)、查全率(R,召回率) 和正常短信誤分率(N)。同時本文用?T表示訓練樣本,?C表示測試樣本。比如P?T表示的是訓練樣本的查準率。

從表2可以得出以下結論:本文設計的分類器,推廣性能較好。其分類效果優于文獻[1,4]。主要是本文設計的特征采用了深度學習的理論,比較準確地考慮了詞語在短信中的權重;從訓練時間來看稍微比文獻[4]的方法長,主要是因為本文采用了稀疏自編碼器,需要批量過濾短信。

本文需要改進的是如何減少學習時間,這需要從模型上進行研究。另外,短信的特征除了本文特征詞的特征外,還可以考慮主被叫、來源地等特征,分類效果會更好。

參考文獻

[1] 李慧,葉鴻,潘學瑞,等.基于SVM 的垃圾短信過濾系統[J].計算機安全,2012(6):34?38.

[2] 楊明極,宋艷艷.支持向量機在垃圾短信攔截系統中的實現[J].數字技術與應用,2012(1):32.

[3] SHIN H C, ORTON M R, COLLINS D J, et al. Stacked auto?encoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data [J]. IEEE tran?sactions on pattern analysis and machine intelligence, 2013, 35(8): 1930?1943.

[4] 張永軍,劉金嶺.基于特征詞的垃圾短信分類器模型[J].計算機應用,2013,33(5):1334?1337.

[5] BENGIO Y, DUCHARME B, VINCENT P, et a1. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3: 1137?1155.

[6] 袁丁.中文短文本的情感分析[D].北京:北京郵電大學,2015.

[7] SCHOLKOPF B, PLATT J, HOFMANN T, et al. Efficient learning of sparse representations with an energy?based model [C]// Proceedings of 2006 IEEE Conference on Advances in Neural Information Processing Systems. US: IEEE, 2006: 1137?1144.

[8] 段寶彬,韓立新,謝進.基于堆疊稀疏自編碼的模糊C?均值聚類算法[J].計算機工程與應用,2015,51(4):51?56.

[9] LEOPOLD E, KINDERMANN J. Text categorization with support vector machines, how to represent text in input space [J]. Machine learning, 2002, 46(1): 423?444.

[10] HUANG T K, WENG R C, LIN C J. Generalized Bradley?Terry models and multi?class probability estimates [J]. Journal of machine learning research, 2006, 7(1): 85?115.

主站蜘蛛池模板: 国产a在视频线精品视频下载| 亚洲va视频| 久久这里只有精品2| 久久福利网| 国产一区二区三区免费观看 | 国产在线观看一区二区三区| 野花国产精品入口| 亚洲人成高清| 蜜芽国产尤物av尤物在线看| 美女视频黄频a免费高清不卡| 老色鬼欧美精品| 人妻精品久久无码区| 色吊丝av中文字幕| 亚洲一区第一页| 国产手机在线ΑⅤ片无码观看| 国产丝袜丝视频在线观看| 亚洲精品成人福利在线电影| 国产资源免费观看| 国产精品永久免费嫩草研究院| 在线免费不卡视频| 在线欧美一区| 久青草国产高清在线视频| 久久夜色精品国产嚕嚕亚洲av| 毛片久久网站小视频| 亚洲欧美另类专区| 四虎精品国产AV二区| 97人妻精品专区久久久久| 色天天综合久久久久综合片| 久久中文字幕2021精品| 午夜在线不卡| 久久精品人人做人人爽电影蜜月| 国产主播福利在线观看| 五月天在线网站| 欧美亚洲一区二区三区在线| 亚洲swag精品自拍一区| 国产成年女人特黄特色大片免费| 日本在线亚洲| 一本一本大道香蕉久在线播放| 国产精品久久久久久久久kt| 国产在线啪| 一本视频精品中文字幕| 色综合成人| 亚洲,国产,日韩,综合一区 | 88av在线| 素人激情视频福利| 中文字幕中文字字幕码一二区| 亚洲欧美成人综合| 日韩欧美国产精品| 老色鬼欧美精品| 91免费国产在线观看尤物| 免费观看男人免费桶女人视频| 国产女人在线| 亚洲精品成人福利在线电影| 久久久久久国产精品mv| 日韩欧美国产另类| 日韩中文字幕亚洲无线码| 国产视频你懂得| 国产免费羞羞视频| 老熟妇喷水一区二区三区| 国产门事件在线| 国产欧美精品一区二区| 福利在线一区| 精品自窥自偷在线看| 国产成年女人特黄特色毛片免 | 九九九九热精品视频| 视频二区中文无码| 99热这里只有成人精品国产| 欧美中文字幕一区二区三区| 9cao视频精品| 亚洲性视频网站| 国产精品大白天新婚身材| 首页亚洲国产丝袜长腿综合| 国产精品一线天| 色妞永久免费视频| 一级毛片在线播放免费| 黄片一区二区三区| 东京热av无码电影一区二区| 亚洲AV免费一区二区三区| 黄色国产在线| 91破解版在线亚洲| 五月婷婷伊人网| 日本欧美精品|