李鋒++萬小強
摘要:短信自動分類一直以來都是學者研究的熱點問題,伴隨著各種類別短信的出現(xiàn),對于用戶來說,希望盡可能獲取到自己想要看到的短信,因此本文在此問題上提出了利用一種結(jié)合黑白名單及時間因素的短信分類器,通過實驗表明該分類器可以獲得較好的準確率及召回率。
關(guān)鍵詞:短信自動分類; 分類器; 黑白名單; 準確率; 召回率
中圖分類號: TP391
文獻標志碼: A
文章編號: 2095-2163(2016)06-0005-04
0引言
[JP2]短信在人們生活中作為一種重要的交流方式,已然獲得了高度廣泛的現(xiàn)實應(yīng)用。但無可避免地卻會發(fā)現(xiàn):當短信進入了大批量、各范疇的使用領(lǐng)域時,其中卻瑕瑜互見地混雜有某些經(jīng)由不法商戶制造形成的帶有欺詐行為性質(zhì)的短信內(nèi)容。基于此,為了杜絕該類事情現(xiàn)象的發(fā)生困擾,同時更為了助益用戶快速定位到目標需求短信,本次研究中通過結(jié)合黑白名單以及時間因素而設(shè)計提出了短信分類器,根據(jù)短信的特征將其分為不同類別,這樣一來,用戶就可以通過類別來獲取到自己想要看到的短信。針對這一相關(guān)課題,[JP3]學界也已展開了一定研究。諸如陳公平、沈明玉等提出基于改進貝葉斯的短信分類[1]。蔡永泉等人也隨即給出了基于語序的關(guān)聯(lián)分類算法[2]。王棟則進一步探討了基于文本挖掘的短信分類技術(shù)[3]。此后,還有王紅等人深入研究了云計算在短信分類中的應(yīng)用[4]。李彩雁又重點發(fā)表了云計算在短信分類中的應(yīng)用淺議[5]。另有崔彩霞也研發(fā)推出了基于字特征的短信分類方法[6]。[JP]
綜上文獻分析可知,已有成果都是利用相關(guān)算法實現(xiàn)的分類器來對短信進行分類,但是考慮到短信的如下特征[7]:
1)短信是一種內(nèi)容比較短的文本;
2)短信沒有完備的數(shù)據(jù)集;
3)短信的語法格式和一般的文本區(qū)別很大。
至此,研究引入了有關(guān)短信特征的具體分析后,本文就將主要利用短信的特征詞對短信進行自動分類。
1短信的特征詞提取
在短信分類中,短信中的詞語是一個關(guān)鍵的分類特征,因此選擇合理的特征詞提取方法對于短信自動分類是非常重要的。目前比較常用的特征提取方法主要包括文檔頻率和信息增益[8-10] 。為了敘述上的方便,本文中所提特征詞如無特別標注將均不包含停用詞[11]。