999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進遺傳算法的支持向量機微信垃圾文章識別

2016-03-25 17:43:27梁闊洋?k
計算技術與自動化 2015年4期

梁闊洋?k

摘要:近幾年,隨著微信的快速發展和普及,微信已經成為智能移動設備必備的應用之一,但與之同時也出現了大量微信詐騙信息、垃圾廣告等,給人們帶來了極大的困擾。本文將從搜狗微信搜索中抽取微信文章樣本,將微信垃圾文章識別看做文本分類問題,采用支持向量機對樣本進行分類模型的訓練,并應用改進的遺傳算法對支持向量機的參數進行優化。文中詳細的介紹了改進遺傳算法在支持向量機上的應用,相比傳統的支持向量機,采用改進遺傳算法對支持向量機參數進行優化,提升了模型準確率和優化效率。在文章的最后進行了由15000篇微信文章所形成的測試集上的分類模型效果實驗,實現結果表明,本方法能夠達到94.7%的準確率,非常準確的識別微信垃圾文章。

關鍵詞:支持向量機;遺傳算法;特征選擇;參數優化;垃圾文章

中圖分類號:TP391.1文獻標識碼:A

1引言

隨著微信應用的快速發展和普及,微信已經成為移動智能設備中必備的應用之一,與之同時也出現了大量微信詐騙信息,垃圾廣告等垃圾文章。這些信息不僅浪費了用戶的帶寬和時間,同時也對互聯網的安全構成了較大的威脅。因此如何識別此類微信文章顯得格外重要。

傳統的解決方案為黑名單方法,黑名單方法收集發表垃圾文章的用戶,將用戶ID加入垃圾用戶黑名單列表。但由于微信用戶量大、并且增長速度快、黑名單方法不僅實施周期長,并且工作量大。

微信垃圾文章識別的過程可視為一個文本分類的過程,對于文本分類問題,樣本經過特征選擇后,每一個樣本被當做一個n維特征向量空間中的向量、作為機器學習算法的輸入。常用的機器學習方法有:K-近鄰(K-Near Neighbor)[1]、樸素貝葉斯(Na

4實驗結果

實驗數據來源于搜狗微信搜索數據源,實驗共選取了5組訓練集,和2組測試集。

第一,采用不同數量的訓練集對模型進行訓練,記錄模型訓練的準確率、召回率、F值,如表2:

通過對不同數量的訓練集對模型進行訓練,可以看出,當采用TRAIN1,數量為685對模型進行訓練,準確率、召回率、F值非常低,隨著訓練樣本的增多,準確率、召回率、F值的提升非??欤@說明訓練樣本數量對模型整體的訓練效果有非常大的影響。

采用TRAIN5所訓練的模型,進行3組不同數量測試上的實驗,幾率其準確率、召回率、F值,如表3:

從上表可以看出,使用同一訓練集,準確性稍有升高,幅度不大,表明模型是相當穩定的。召回率與F值稍有下降,說明訓練集中并沒有覆蓋所有實際情況,某些特殊實例沒有被包含進來。

從上面兩組實驗結果可以得到,基于改進遺傳算法的支持向量機微信垃圾文章識別,對于搜狗微信搜索數據源具有良好的效果,其實驗結果有益于后續研究的繼續進行。訓練所得模型的準確率、召回率、F值能夠滿足實際應用的需求。

5結論與展望

本文采用支持向量機對微信文章垃圾文章進行識別,并應用改進的遺傳算法對支持向量機進行參數優化,最終得到最優的參數組合,從了得到了能夠進行良好分類的分類器。今后的主要工作集中在優化特征選擇,對某些重要特征進行加權處理,并考慮平衡數據和費平衡數據對分類器訓練效果的影響,使得分類的準確率、召回率、F值獲得更大程度的提高。

參考文獻

[1]ANDROUTSPOULOS I,PALIOURAS G,KARKALETSIS V,et al. Learning to filter spam email: A Comparison of a Naive Bayesian and a MemoryBased Approach[C].Proceedings of the workshop on machine learning and textual information access, 4th European conference on principles and practice of knowledge discovery in databases. Lyon, France: [sn.].2000:1-13

[2]ANDROUTSOPOULOS I,KOUTSIAS J,CHANDRINOS K, et al. An evaluation of nave Bayesian antispam filtering[C].Proceedings of the 11th European conference on machine learning.Barcelona, Spain:[sn.].2000:9-17.

[3]CARRERAS X,MARQUEZ L. Boosting trees for antispam email filtering[C].The Forth International Conference on Recent Advances in Natural Language Processing. Bulgaria: Tzigov Chark.2001:58-64.

[4]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning.1995,20(1):273 –329.

[5]平源. 基于支持向量機的聚類及文本分類研究[D].北京:北京郵電大學,2012.

[6]KUBAT T M,MATWIN S. Addressing the Curse of Imbalanced Training Sets: OneSide Selection[C]. Proceedings of the 14th International Conference on Machine Learning. USA: Nashville.1997:217-225.)

[7]李人厚.智能控制理論和方法[M].陜西:西安電子科技大學出版社,2005.

[8]楊淑瑩,著.模式識別與智能計算—— Matlab技術實現[M].北京:電子工業出版社,2008..

[9]施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計算機應用,2009,S1:167-170+180.

[10]DASH M, LIU H. Feature Selection for Classification[J]. Intelligent Data Analysis, 1997, 1(3): 131-156.

主站蜘蛛池模板: 午夜不卡视频| P尤物久久99国产综合精品| 中文字幕日韩久久综合影院| 国产精品女在线观看| 亚洲综合香蕉| 中文字幕一区二区人妻电影| 国产成人盗摄精品| 秘书高跟黑色丝袜国产91在线| 中文字幕永久在线看| 无码精品一区二区久久久| 亚洲香蕉在线| 国产精品亚洲αv天堂无码| 香蕉久久国产精品免| 人妻无码一区二区视频| 青青青视频免费一区二区| 伊人蕉久影院| 亚洲视频在线观看免费视频| 91久草视频| 五月综合色婷婷| 欧美色99| 日本精品影院| 在线视频亚洲色图| 天天综合色天天综合网| 国产欧美在线视频免费| 69视频国产| 亚洲人成网7777777国产| 亚洲最猛黑人xxxx黑人猛交 | 91成人精品视频| 国产亚洲精久久久久久无码AV| 久久人人97超碰人人澡爱香蕉| 国产裸舞福利在线视频合集| 99久久精品国产综合婷婷| 五月婷婷激情四射| 国产精品视频系列专区 | 波多野结衣久久精品| 久久先锋资源| 中文国产成人精品久久一| 国产va视频| 91精品啪在线观看国产| 高清无码手机在线观看| 精品一区二区久久久久网站| 欧美一级高清片久久99| 国产拍揄自揄精品视频网站| 久久精品无码一区二区日韩免费| 午夜视频在线观看区二区| 亚洲日韩每日更新| 国产农村妇女精品一二区| 欧美成一级| 亚洲动漫h| 成人一级免费视频| 日韩国产 在线| 国产亚洲精品精品精品| 午夜影院a级片| 久久久久无码精品| 日本欧美成人免费| 中文字幕在线一区二区在线| 欧美无专区| 91视频精品| 久久精品国产在热久久2019| 色爽网免费视频| 伊人查蕉在线观看国产精品| 毛片手机在线看| 丁香六月综合网| 欧美日本激情| 激情六月丁香婷婷| 伊人久久大香线蕉影院| 亚洲色大成网站www国产| 欧美精品啪啪一区二区三区| 免费观看成人久久网免费观看| 很黄的网站在线观看| 国产二级毛片| 美女无遮挡拍拍拍免费视频| 黄色网址手机国内免费在线观看| 精品人妻一区二区三区蜜桃AⅤ| 久久视精品| 伊人婷婷色香五月综合缴缴情| 欧美日韩中文字幕二区三区| 亚洲第一视频网站| 亚洲日本www| 高清无码手机在线观看| 色婷婷国产精品视频| 婷婷色在线视频|