王金棟,向前蘭,李 岳(.中國電信股份有限公司陜西分公司,陜西西安 70035;.咸陽師范學(xué)院,陜西咸陽 7000)
隨著移動(dòng)通信業(yè)務(wù)的飛速發(fā)展,手機(jī)給人們帶來便利的同時(shí),也帶來了許多危害。與微信、QQ 等社交工具相比,短信具有被叫號碼不受限制、快捷、高效等優(yōu)勢,導(dǎo)致不法分子趁機(jī)以短信形式實(shí)施詐騙、廣告宣傳甚至傳播手機(jī)病毒,輕則給用戶帶來騷擾,重則造成經(jīng)濟(jì)損失。目前,大部分運(yùn)營商垃圾短信監(jiān)控系統(tǒng)主要利用關(guān)鍵字策略、流量策略和被叫行為分析等方法進(jìn)行變相組合監(jiān)控和攔截[1-2],同時(shí)配以人工審核對監(jiān)控結(jié)果進(jìn)行二次確認(rèn)提高查準(zhǔn)率。但隨著近年來垃圾短信發(fā)送方法的不斷升級,運(yùn)維運(yùn)營的治理成本大幅上升,治理效果卻在下降。
基于此,本文重點(diǎn)研究基于內(nèi)容的智能垃圾短信分析系統(tǒng),在原有垃圾短信網(wǎng)元中增加智能分析模塊,及時(shí)發(fā)現(xiàn)并更新攔截策略;采用廣義數(shù)字識(shí)別方法識(shí)別短信中的電話號碼、銀行卡等數(shù)字信息,提升攔截效率和效果。
增加了智能分析系統(tǒng)后,需要對現(xiàn)有的短消息業(yè)務(wù)流程進(jìn)行調(diào)整,在原有系統(tǒng)基礎(chǔ)上增加智能分析系統(tǒng),具體業(yè)務(wù)流程如圖1所示。
a)MO為用戶提交消息到短消息中心(SMSC)。
b)deliver_req 為SMSC 提交消息到監(jiān)控平臺(tái)進(jìn)行監(jiān)控處理。
c)deliver_rsp 為監(jiān)控平臺(tái)根據(jù)現(xiàn)有監(jiān)控策略對消息進(jìn)行相關(guān)監(jiān)控處理,并將結(jié)果反饋給短消息中心。

圖1 短消息業(yè)務(wù)流程設(shè)計(jì)
d)監(jiān)控平臺(tái)將消息話單同步到智能分析系統(tǒng)。
e)智能分析系統(tǒng)將此條話單入庫,并進(jìn)行大數(shù)據(jù)挖掘和分析處理。
f)智能分析系統(tǒng)將相關(guān)數(shù)據(jù)挖掘結(jié)果同步到監(jiān)控平臺(tái)(新提取關(guān)鍵字、黑名單號碼、疑似垃圾短信)。
g)后續(xù)SMSC 提交到監(jiān)控平臺(tái)的消息,將根據(jù)更新后的監(jiān)控策略進(jìn)行處理。
從垃圾短信產(chǎn)生的根源分析,詐騙或者宣傳類的垃圾短信通常會(huì)包含聯(lián)系電話或銀行賬號等重要信息,而由于成本及更換困難等多種原因,這些聯(lián)系電話或賬號相對比較固定,通過之前的垃圾短信內(nèi)容分析,很多內(nèi)容是經(jīng)常變化的,但銀行卡賬號或者電話號碼一般更換的較少。因此,數(shù)字特征是大量垃圾短信中具有明顯特征且比較固定的特征信息。如果根據(jù)垃圾短信內(nèi)容中的數(shù)字相關(guān)信息進(jìn)行攔截,攔截效率大大提升的同時(shí),攔截效果也會(huì)非常顯著。
目前垃圾短信中所包含的電話號碼、賬號等數(shù)字已不是簡單的阿拉伯?dāng)?shù)字,不法分子為了避免被攔截,往往在其中穿插了各種各樣的“數(shù)字”:阿拉伯?dāng)?shù)字、中文簡體數(shù)字、繁體數(shù)字、諧音數(shù)字、帶符號的數(shù)字,這些表現(xiàn)形式多樣的“數(shù)字”稱為廣義數(shù)字。
廣義數(shù)字庫可配置,包括阿拉伯?dāng)?shù)字、中文簡體數(shù)字(如一、二、三)、繁體數(shù)字(如壹、貳、叁)、諧音數(shù)字、帶符號的數(shù)字(①)、以全角或上下標(biāo)表示的數(shù)字等[3]。
通過智能垃圾短信攔截系統(tǒng)對大量話單的挖掘統(tǒng)計(jì)分析,會(huì)提取一份廣義數(shù)字黑名單送往實(shí)時(shí)監(jiān)控系統(tǒng),經(jīng)啟用同步后用于垃圾短信的實(shí)時(shí)判斷,當(dāng)多個(gè)不同的主叫發(fā)送的短信中都含有上述廣義數(shù)字時(shí),實(shí)時(shí)短信垃圾監(jiān)控系統(tǒng)會(huì)判斷擊中廣義數(shù)字黑名單規(guī)則并直接實(shí)時(shí)攔截,從而減少短信下發(fā)。
廣義數(shù)字特征向量是從該條短信內(nèi)容中提取的若干個(gè)連續(xù)廣義數(shù)字組成的集合。
a)短信內(nèi)容預(yù)處理。首先對短信內(nèi)容進(jìn)行特殊字符過濾,即去除掉空格和標(biāo)點(diǎn)符號后,接著以廣義數(shù)字庫為基礎(chǔ),對短信內(nèi)容中的廣義數(shù)字進(jìn)行檢測,統(tǒng)一替換為阿拉伯?dāng)?shù)字。
b)單個(gè)連續(xù)數(shù)字段的最小長度(字符數(shù))判斷。連續(xù)K個(gè)或K個(gè)以上(K可以自定義,如K=3,即表示連續(xù)3 個(gè)或3 個(gè)以上的廣義數(shù)字段才會(huì)被抽樣出來)的廣義數(shù)字才會(huì)被抽樣出來,設(shè)某條短信內(nèi)容中抽樣出的數(shù)字各段組合集合:{a1a2…ai,b1b2…bj,…},其中a1a2…ai和b1b2…bj是抽樣出的2 個(gè)數(shù)字段,則必須滿足i,j≥3。
c)2個(gè)連續(xù)數(shù)字段的最小距離(字符數(shù))判斷。廣義數(shù)字特征向量應(yīng)是由該條短信內(nèi)容中相對集中的一段廣義數(shù)字組成的集合,設(shè)某條短信抽樣出的數(shù)字各段組合成集合:{a1a2…ai,b1b2…bj,…},則必須滿足:a1a2…ai和b1b2…bj2段廣義數(shù)字段之間的距離小于等于J個(gè)字符。其中J可以自定義,如J=4,則表示如果2組數(shù)字之間的其他字符超過4 個(gè)或4 個(gè)以上時(shí)a1a2…ai不會(huì)被抽樣出來;繼續(xù)檢查b1b2…bj和下一段之間的距離。
d)有效的數(shù)字特征向量長度范圍(字符數(shù))判斷。抽樣出的廣義數(shù)字段組成一個(gè)廣義數(shù)字特征向量:V={a1a2…aib1b2…bj…}。檢查該向量的長度x需要滿足長度范圍m≤x≤n,考慮到目前手機(jī)號碼為11位,固定電話號碼不含區(qū)號一般為7~8位,含區(qū)號一般為11~12 位,銀行賬號一般為16 位,故可設(shè)定m=7,n=16。
廣義數(shù)字特征向量判斷首先對短信內(nèi)容進(jìn)行預(yù)處理,將短信格式進(jìn)行規(guī)整,然后抽樣出廣義數(shù)字特征,具體流程如圖2所示。
為每個(gè)新提取出的廣義數(shù)字特征向量設(shè)置一個(gè)計(jì)數(shù)器Qi,當(dāng)發(fā)現(xiàn)另一條包含該特征向量的短信時(shí),該計(jì)數(shù)器Qi累加;同時(shí)比較該特征向量的主叫號碼是否相同,若不相同,則其相應(yīng)的主叫號碼離散度Di加1。
當(dāng)某個(gè)廣義數(shù)字特征向量滿足:計(jì)數(shù)器Qi達(dá)到閾值且主叫號碼離散度Di達(dá)到閾值,則該條特征向量判定為可疑廣義數(shù)字特征向量。
根據(jù)可疑廣義數(shù)字特征向量挖掘規(guī)則,將短信內(nèi)容及主叫號碼提取出來,并根據(jù)人工判斷是否啟用規(guī)則,通過對樣本挖掘,結(jié)果舉例如圖3所示。
圖3 中每行第1 列為提取的數(shù)字,第2 列為其權(quán)重,權(quán)重越高垃圾短信嫌疑越大,一般權(quán)重為0為垃圾短信和正常短信的臨界點(diǎn)。
經(jīng)過對內(nèi)容進(jìn)行人工判斷,如圖3 所示訓(xùn)練結(jié)果均可被認(rèn)定為垃圾短信,認(rèn)定判斷準(zhǔn)確。

圖2 廣義數(shù)字判斷流程

圖3 廣義數(shù)字訓(xùn)練結(jié)果
本文重點(diǎn)對基于內(nèi)容的智能垃圾短信攔截系統(tǒng)進(jìn)行了分析,與其他垃圾短信鑒定系統(tǒng)不同的是,此次主要以廣義數(shù)字樣本識(shí)別對垃圾短信的內(nèi)容進(jìn)行了判斷,并且通過文本實(shí)驗(yàn)進(jìn)行抽樣,可行性強(qiáng),判斷準(zhǔn)確率高,可以為運(yùn)營商垃圾短信治理提供強(qiáng)有力的支撐手段。