王貴新,鄭孝宗,張浩然,張小川
(1.重慶工程學(xué)院 軟件學(xué)院,重慶 402260;2.重慶理工大學(xué) 計算機學(xué)院,重慶 400054)
?
基于Word2vec的短信向量化算法
王貴新1,鄭孝宗1,張浩然1,張小川2
(1.重慶工程學(xué)院 軟件學(xué)院,重慶402260;2.重慶理工大學(xué) 計算機學(xué)院,重慶400054)
摘要針對目前垃圾短信過濾效果有待提高的問題,提出一種新的短信特征提取方法。該方法采用了建立在深度學(xué)習(xí)理論基礎(chǔ)上的最新成果和Word2vec工具。基于中文短信的內(nèi)容和結(jié)構(gòu)特點,利用該工具設(shè)計了一個短信向量化算法。該算法能有效地將每條短信與一個向量對應(yīng),在深度置信網(wǎng)絡(luò)上利用該算法對垃圾短信進行分類實驗。實驗結(jié)果表明,推廣性能比已有報道結(jié)果提高了約5%。
關(guān)鍵詞深度置信網(wǎng)絡(luò);深度學(xué)習(xí);短信;向量化
目前垃圾短信治理主要采用軟件自動過濾和人工干預(yù)[1-5]。但這些學(xué)習(xí)和過濾算法目前已經(jīng)不能很好適應(yīng)機器學(xué)習(xí)環(huán)境,特別是深度學(xué)習(xí)算法理論的完善和應(yīng)用發(fā)展,為機器學(xué)習(xí)提供了廣闊空間[6]。
垃圾短信的自動過濾系統(tǒng),一般采用多分類器的組合,使得分類效果更佳。在這過程中,短信特征的分析和提取是非常重要的環(huán)節(jié)[5]。本文將利用深度學(xué)習(xí)的理論工具Word2vec,研究短信特征提取的新算法,并將該算法采用深度置信網(wǎng)絡(luò)(DBN)進行了驗證,取得了較好的分類效果。
實驗樣本來源于以前所做垃圾短信智能分類系統(tǒng)項目所收集的大約有三百萬條短信。處于保護個人隱私目的,該樣本內(nèi)容沒有主、被叫號碼、短信時間等信息。……