999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯分類的手機垃圾短信過濾系統

2008-12-31 00:00:00張勇敢
電腦知識與技術 2008年26期

摘要:該文介紹一種手機垃圾短信過濾的方法,通過將樸素貝葉斯分類技術與黑名單技術相結合,應用于垃圾短信的過濾中。全文詳細介紹了過濾系統的結構和流程,為了進一步提高分類器的準確性,對樸素貝葉斯分類多元模型公式進行了相應改進。

關鍵詞:手機垃圾短信;黑名單;樸素貝葉斯分類

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)26-1797-03

Handset Trash Short Note Filtration System Classifies which Based on Simple Baye

ZHANG Yong-gan

(Putian Institute Electronic Information Project Department, Putian 351100, China)

Abstract: This article introduced one kind of handset trash short note filtration the method, through classifies simple Baye the technology and the blacklist technology unifies, applies in trash short note filtration. Full text detailed introduction filtration system structure and flow, in order to further enhance the sorter the accuracy, classified the multi-dimensional model formula to simple Baye to make the corresponding improvement.

Key words: handset trash short note; blacklist; simple baye classifies

1 引言

隨著移動通信技術的飛速發展和手機普及率的迅速提高,手機短信越來越受到眾多人士的青睞。短信業務正以其短小、迅速、簡便、價格低廉等諸多優點日益成為人們的一種重要通信和交流方式。移動短信業務在飛速發展的過程中,一方面給廣大使用者帶來了各種方便;另一方面由于各種垃圾短信的大量出現,也帶來了信息安全上的問題,影響了人們的正常生活。因而非常有必要將這些垃圾短信過濾掉。

通過對短信業務結構的分析,短信的發送方式有兩種,一種是SP-手機,另外一種是手機-手機,無論哪一種都是通過短信服務中心進行存儲、轉發,再到用戶手機上。所以可以從兩個方面對垃圾短信進行過濾,一種是短消息服務中心的過濾方式,另一種是手機終端的過濾方式。無論是從短消息服務中心的過濾方式還是手機終端的過濾方式,都存在一些不足?,F在一些高端手機上已經運用了黑名單技術來實現垃圾短信的過濾,但功能有限??紤]手機容量越來越大,本系統采用了手機終端的過濾方式,通過黑名單技術與文本分類技術相結合的方法,利用樸素貝葉斯分類方法對短信內容進行分類識別,從而實現對垃圾短信的過濾。

2 系統結構

本系統主要包括兩個子系統,分別為黑名單子系統和樸素貝葉斯分類子系統,其中黑名單子系統主要是實現對黑名單的各項操作,其中包括將新號碼加入到黑名單、在黑名單中查找號碼、刪除黑名單里的號碼、實現黑名單里號碼等功能。而樸素貝葉斯分類子系統主是實現對短信內容的識別,通過學習建立一個短信分類器,然后將分類器應用于實踐中。其中包括分詞、特征向量的選取、分類器的學習、及分類器的應用。具體系統結構見圖1。

3 系統流程

本過濾系統是應用于手機終端,所以整個過濾過程是介于短信到達手機與通知用戶收到短信之間 進行,具體手機垃圾短信過濾程序流程如下:

1)獲取發送短信的手機號碼;

2)在黑名單中查找手機號碼,如果發現手機號碼在黑名單中,則自動實現過濾;

3)否則,獲取短信文本內容;

4)調用短信分類程序進行短信識別,如果由短信分類模型測試出短信不是垃圾短信,直接執行第7步。

5)如果由短信分類模型測試出短信是垃圾短信,就彈出一個提示信息給用戶,由用戶來決定是否閱讀此條短信,如果用戶選擇閱讀,則執行第7步。

6)如果不閱讀,則將短信過濾掉。

7)通知用戶閱讀;

8)如果用戶發現是垃圾短信,就人工地將號碼加入黑名單去。

具體的流程圖見圖2。

4 樸素貝葉斯分類技術

在利用樸素貝葉斯分類技術對短信進行識別時,先要將短信進行分詞處理,由于分詞技術不是本文重點討論的問題,故這部分不作詳細說明。下面重點就對樸素貝葉斯分類技術進行說明。

貝葉斯分類是一種統計學分類方法,它基于貝葉斯理論,可以用來預測類成員關系的可能性,給出文本屬于某特定類別的概率。樸素貝葉斯分類模型訓練的過程其實就是統計每一個特征詞在各類別中出現規律的過程。樸素貝葉斯分類模型有兩種,分別為樸素貝葉斯分類的多元模型和多項模型。多元模型只考慮特征詞是否在文本中出現,而多項模型除了考慮特征詞是否在文本出現外,還要考慮特征詞出現的次數??紤]到手機短信文本內容較少,在同一條短信中出現相同詞的機率比較小,多項模型的計算復雜度較高等原因,本文采用樸素貝葉斯分類的多元模型。

對于樸素貝葉斯模型的多元模型,由于該模型只考慮了特征詞在文本中是否出現(出現計為1,否則計為0),因此用該模型進行文本分類的準確度不是很高。為了強調特征詞在未知文本中出現的重要性,經過反復試驗,對多元模型公式改進如下:

其中,wt表示第t個特征詞,|V|是特征詞的個數,Bxt表示wt是否在文本X中出現(出現記1,不出現記0),常數R是對分類器進行測試時所得到的經驗值。

下面就給出樸素貝葉斯分類程序的具體實現流程。準備好分類語料庫和用于分詞的詞典,其中分類語料庫已按其內容分成類。為了防止數據過分適應的現象,將分類語料庫分成兩部分,一部分是訓練樣本短信庫,用于樸素貝葉斯分類器的學習之用;另一部分是測試樣本短信庫,用于樸素貝葉斯分類器的測試之用,因為只有準確率達到一定高度的分類器,在實際中才有運用價值。在實驗過程中將全部樣本的2/3作為訓練樣本,另1/3為測試樣本。具體流程圖見圖3。

5 結果評估與分析

本過濾系統最重要的部分就是分類器是否能夠較好的識別出垃圾短信,所以在實驗時,主要是對分類器的準確率進行測試。由于短信內容的范圍非常廣泛,沒辦法將其收齊,所以本系統只收集了三類有代表性的短信來做實驗,分別為:中獎短信、黃色短信、祝福短信。由于本系統具有良好的擴展性,如果要引入不同的類別短信,操作也非常簡單。

在實驗中,收集了三類不同的短信,其中黃色短信、祝福短信各300條,中獎短信37條。為了防止學習模型傾向于過分適合數據,在實驗中將數據源分成兩大部分,其中黃色短信200條、祝福短信200條、中獎短信23條作為訓練樣本,用于樸素貝葉斯分類模型建立學習所用,余下的短信作為測試樣本,用來檢測分類模型的準確率。

在程序設計的過程中有兩個參數需要重點研究,分別為特征向量詞個數N和參數R(經驗值),不同的值會得到不同的準確率。以下是通過實驗得到的數據。

綜合三張表的結果,考慮到手機容量小的特點及結果的準確性,本系統選取N=50,R=100,最后的各類短信測試結果為表4:

通過上面的結果可知,在此實驗中短信分類的準確率較高,主要由于實驗中只選取了三類短信,而且特征比較明顯。隨著不斷的加入各類短信,準確率一定會有所下降。

6 小結

本論文主要是針對當前垃圾短信泛濫的現狀提出了一種過濾的方法,通過將文本分類技術與黑名單技術結合起來實現對垃圾短信的過濾,具有一定的嘗試性和創新性。但由于時間緊迫及實驗條件所限,其工作還需進一步完善。

參考文獻:

[1] 張燕,傅建明.垃圾短信的識別與追蹤研究[J].計算機應用研究,2006,(3):251-253.

[2] 張云濤,龔玲.數據挖掘原理與技術[M].北京:電子工業出版社,2004.

[3] Han J W, Kamber M. DATA MINING Concepts and Techniques[M]. Higher Education Press, Morgan Kaufmann Publishers,2001.

[4] Eyheramendy S, Lewis D D, Madigan D. On the Na?ve Bayes Model for Text Categorization[D]. Artificial Intelligence Statistics,2003.

主站蜘蛛池模板: 经典三级久久| 国产成人精品一区二区不卡| 国产成人精品免费视频大全五级| 尤物在线观看乱码| 日韩专区第一页| 日韩福利视频导航| 99在线视频精品| 亚洲精品欧美日本中文字幕| 婷婷色在线视频| 一本久道热中字伊人| 亚洲精品无码专区在线观看| 亚洲色欲色欲www网| 国产日韩欧美一区二区三区在线| 成人福利在线观看| 四虎永久免费地址在线网站| 亚洲欧洲天堂色AV| 夜夜拍夜夜爽| 国产香蕉在线| 久久a毛片| 国产办公室秘书无码精品| 久久夜夜视频| 最新国产网站| 99视频在线观看免费| 国产在线精彩视频论坛| 欧洲成人免费视频| 婷婷五月在线| av尤物免费在线观看| 99re精彩视频| 亚洲高清日韩heyzo| 国国产a国产片免费麻豆| 国产精品99一区不卡| 精品一区二区三区视频免费观看| 人人妻人人澡人人爽欧美一区| 国产肉感大码AV无码| 日韩色图区| 超清无码一区二区三区| 久夜色精品国产噜噜| 无码aⅴ精品一区二区三区| 欧美成人免费一区在线播放| 国产成人一区免费观看 | 亚洲成A人V欧美综合天堂| 亚洲天堂视频在线播放| 四虎永久免费地址在线网站| 国产成人凹凸视频在线| 色综合中文综合网| 欧美yw精品日本国产精品| 激情爆乳一区二区| 亚洲国产精品国自产拍A| 国产喷水视频| 国产精品成人久久| 久草视频精品| 欧美日韩成人在线观看| 欧美亚洲另类在线观看| 黄色污网站在线观看| 激情五月婷婷综合网| 成年人福利视频| 国产精品妖精视频| 伊人91视频| 欧美曰批视频免费播放免费| 欧美黄网在线| 亚洲首页在线观看| 91无码人妻精品一区二区蜜桃| 91小视频版在线观看www| 99re经典视频在线| 中文字幕乱码二三区免费| 亚洲国产清纯| 精品少妇人妻一区二区| 青青草91视频| 农村乱人伦一区二区| 亚洲国模精品一区| 超薄丝袜足j国产在线视频| 91久久性奴调教国产免费| 亚洲中文字幕无码爆乳| 久久情精品国产品免费| 国产黄色免费看| 蜜臀AV在线播放| 9久久伊人精品综合| 尤物亚洲最大AV无码网站| 久久夜色精品国产嚕嚕亚洲av| 国产精品亚洲а∨天堂免下载| 五月丁香伊人啪啪手机免费观看| 久久a级片|