摘要:首先分析了短信傳輸方式:SP-手機和手機-手機,然后分析垃圾短信過濾位置的選擇及提出了垃圾短信的過濾方法。最后給出系統的設計思想。
關鍵詞:垃圾短信;短信過濾
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)23-932-02
Research on Chinese Junk Short Message Filtering System
ZHANG Jing
(Guangdong Lingnan Vocational-technical College, Guangzhou 510663, China)
Abstract:Firstly,this paper analyzes two ways of transferring short messages:SP to mobile and mobile to mobile.Furthermore,it analyzes where filters junk short message.Lastly,system about filtering junk short message is investigated.
Key words:junk short message;short message filtering
隨著移動通信技術的飛速發展和手機普及率的迅速提高,手機短信越來越受到眾多人士的青睞。短信業務正以其短小、迅速、簡便、價格低廉等諸多優點日益成為人們的一種重要通信和交流方式。手機短信與郵件一樣存在著令人苦惱的垃圾信息問題,來自不同渠道的各種垃圾短信充斥手機短信,給用戶帶來了很多的煩惱。手機垃圾短信是指未經請求或允許而收到的,對接收者來說無用的短信,例如未經短信接收人請求或允許而發送的商業廣告。垃圾短信的常見內容包括廣告信息、色情信息、假中獎信息、欺詐信息、惡作劇等開發完善的垃圾短信過濾系統一直是移動運營商的追求的目標。
1 短信的傳輸方式
無線短信服務(SMS)是全球公認的無線服務,它能夠在移動用戶及外部系統(如電子郵件、頁面調度以及聲音郵件系統)之間傳送包括文字與數字的短信。短信服務于1991年出現在歐洲的無線領域,如全球移動通信系統(GSM),一開始就包括了短信服務。這些無線數字網包括基于GSM、碼分多路訪問(CDMA)和時分多路訪問(TDMA)等標準的網絡。
該服務的一個顯著特點是一個可用的移動手機能夠在任何時候接收或提交短信,不依賴于是否該手機正在通話或正在傳送信息。移動短信服務也確保短信在網絡中的傳輸。例如,暫時的故障導致難以獲得接收點,這時故障被確認,并且短信將被存在短信服務中心一直到目的地的設備恢復,該機制的實現和性能在不同運營商中可能不同。
為了拓展短信增值業務,電信運營商為廣大CP/SP提供了互聯網的入口一般移動短信業務網如圖1所示。
根據圖1,一般有以下兩種短信發送方式:
1)SP-手機。SP都有一個由電信運營商提供的服務號碼。手機用戶想預訂某個SP的短信服務,只需給該SP的服務號碼發送預訂短信,以后SP會自動發送其預訂的內容給手機用戶。預訂短信的收費可以是按條收費的,也可以是按月計算的。SP為了吸引用戶預訂其資源,可能向大量手機用戶發送廣告短信,從而導致垃圾短信的產生。而且,有的SP設計前規定誘使用戶訂購其短信服務。SP的接入管理可能會影響垃圾短信的產生。例如在A省申請一個SP資格,然后把需要的垃圾短信發送到B省的用戶。B省會處理所在省的投訴,但是因為短信的發送者位于A省,使用的也是A省的短信網關,B省對他們可能無能為力。為此,必須加強SP的管理。對這種發送方式,攻擊者占領短信網關或者利用網關漏洞向手機發送大量短信,就可以進行短信拒絕服務攻擊。典型的就是利用各大門戶網站的手機服務漏洞,攻擊程序不停地用某個手機號碼訂閱某項服務或者退訂某個服務,如SMS.Flood。
2)手機-手機。手機-手機的發送方式更自由。任何人都可以利用手機給任何手機號碼發送短信。這種方式給垃圾短信的監管帶來一定的困難,因為沒有較好的預防措施。單純采用手工發送垃圾短信,對系統的影響較小。事實上,有部分的垃圾短信發送者采用個人群發器發送短信。該設備直接連接手機和計算機,然后通過程序直接發送短信。該設備能在短時間內發送出大量的垃圾短信。由于成本低,這種方法使用得也相當普遍,許多短信詐騙就是采用該發送方式。
2 關于垃圾短信的過濾位置的選擇
根據圖1 移動短信業務網基本結構,垃圾短信過濾的位置可以選擇。
2.1 短信中心
在短信中心過濾由于短信數據量龐大,需要考慮過濾設備的吞吐量、垃圾短信的識別率問題。從短信中心過濾相對應手機用戶比較透明,是最佳過濾位置。
2.2 手機客戶端
由于當前手機生產商所開發的手機系統沒有一個確定的標準。每個手機生產商說開發的系統都有所不同。在手機客戶端進行過濾很難實現一個統一的標準。因此只能是手機開發商自己開發對應的垃圾短信過濾系統。
3 關于短信中心過濾垃圾短信的方法
當前短信一般有兩種:文本短信(只包含文本和發送者的號碼)、彩信(除文本和發送者號碼外還包含附件圖片和鏈接)。其中彩信由于技術原因很難根據內容進行過濾。下面主要討論關于文本短信的過濾。
3.1 根據文本內容進行過濾
在對短信進行基于語義的過濾之前,需要對文本進行預處理,使文本更適合后繼分析的需要。文本預處理的主要任務是剔除文檔中所有與分類任務無關的內容,并將文本(即由字、詞、數字、標點符號等構成的文字串)轉化為由其包含的基本語義單位組成的表列。分詞這項預處理工作與文本的表示有著十分密切的聯系,甚至可看成是文本表示的一個重要組成部分。分詞的關鍵在于如何選擇恰當的基本語義單位。對于進入短信監控中心的短信,預處理模塊將進行短信清洗、自動分詞等預處理,并送到過濾模塊。它包括短信清洗、去除停用詞、自動分詞、詞性標注、特征項提取、特征項權重計算和生成短信向量一系列過程,其處理流程如圖2所示。
在對短信文本進行預處理以后,需要把短信表示成向量形式,使用的是向量空間模型.在該模型中,短信空間被看作是由一組向量組成的向量空間。若該空間的維數為,則每條短信可被表示為一個特征向量。
關于短信的過濾考慮使用貝葉斯的文本過濾。我們考慮了短信的特殊情況,在將詞作為特征項的同時,加入了短信長度以及規則作為新的特征項。在實際過濾中,還得一些規則的匹配頻率。例如,含有電話號碼、含有URL、含有錢的信息。按照對應的概率,并綜合這些概率設置適合的閥值過濾。
3.2 對包含黑名單的短信號碼的短信進行過濾(黑名單過濾)
隨著垃圾短信的日益增多,以及內容的復雜化,僅僅依靠有限的關鍵字無法進行真正有效地屏蔽和監控。運營商可以對某一個手機或某一個SP單位時間發送或接收的短信數量進行統計,一旦發現該統計值超過某一個閾值就報警。如果能檢測到大量發送垃圾短信的個人或者服務商,立即對其進行監管和過濾。
第一種方法是檢測單位時間內發送短信數目。檢測單位時間用戶發送短信數目需要為每個用戶配置一個計數器,每發送一條短信,計數器自動加一。如果發送短信條數到達規定數目,則由計數裝置自動報警,將短信內容匯報到相關人員處進行檢查。上海、廣東等地已經采用了該方法,但該方法對緩慢攻擊無效(單位時間發送的垃圾短信較少)。
第二種方法是檢測兩條短信間隔時間。這種時間檢測法和上一種方法非常類似,其不同就是這種方法不是對單位時間內發送短信的總數目進行計數,而是對短信的發送頻率進行監控。當兩條短信間隔過短,即表示該用戶發送短信頻繁,則自動報警,將短信內容送至管理人員。
4 系統設計
根據上節所提出的關于短信中心過濾垃圾短信的方法及其過濾位置的選擇。系統應該在短信處理中心包含文本內容過濾模塊和短信號碼過濾模塊。結構如圖3所示。
5 結束語
垃圾短信困擾著的人們生活和工作。如何預防和解決垃圾短信的傳播一直是人們研究的重要內容。本文旨在通過短信的傳播方式的分析,給出了垃圾短信識別的兩種方法,隨著彩信的普及,基于彩信的垃圾信息也出現了,如何有效的過濾彩信將是我們下一步的工作。
參考文獻:
[1] LICY,GOU J,WU HF,et al.A ProcessMeta-Model Supporting Domain Reuse[M].2005 International software process workshop,2005:459-461.
[2] Eei-hong H,Karypis C,Kumar V.Text categorization using weight adjusted K-nearest neighbor classification[M].Computer Science Department,University of Minnesota,2000.
[3] Leopold E, Kindermann J.Text Categorization with Support Vector Machines,How to represent text in input space[J].Machine Learning,2002,46(1):423-444.
[4] Li Y H,Jain A K.Classification of text document[J].The Computer Journal,1998,41(8):537-546.
[5] 許建宏,李慧.移動短信業務發展中存在的問題及解決方案探討[J].郵電設計技術,2004,(6):25-30
[6] 秦近,陳笑蓉,汪維家,等.文本分類中的特征抽取[J].計算機應用,2003,23(2):45-46.