999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)的垃圾短信識(shí)別應(yīng)用

2020-04-08 09:30:50石鳳貴
電腦知識(shí)與技術(shù) 2020年3期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

石鳳貴

摘要:隨著科技的快速發(fā)展,手持終端已成為我們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡囊徊糠帧P畔⒓夹g(shù)正在不斷改變我們的工作和生活,但信息安全問題也給我們的信息和財(cái)產(chǎn)安全帶來了威脅,垃圾短信層出不窮。對(duì)于垃圾短信,應(yīng)該構(gòu)建一種智能化的攔截和過濾機(jī)制進(jìn)行自動(dòng)識(shí)別處理。本文介紹了機(jī)器學(xué)習(xí)算法和中文信息處理技術(shù)并構(gòu)建了短信識(shí)別應(yīng)用。

關(guān)鍵詞:機(jī)器學(xué)習(xí);樸素貝葉斯;Scikit-Leam;垃圾短信

中圖分類號(hào):TP181

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)03-0202-03

當(dāng)前,信息技術(shù)正處于高速發(fā)展階段,各類詐騙電話、詐騙短信、垃圾短信層出不窮,這些垃圾類短信直接威脅到人們的日常生活和工作,稍有不慎就會(huì)導(dǎo)致經(jīng)濟(jì)損失。對(duì)于對(duì)這些垃圾信息識(shí)別能力較差的人群更容易上當(dāng)受騙。盡管現(xiàn)在出現(xiàn)了各類垃圾短信識(shí)別軟件,但對(duì)信息不能進(jìn)行個(gè)性化攔截,大多還是依賴于黑白名單,識(shí)別攔截垃圾短信需要更加智能化。

短信內(nèi)容屬于中文本數(shù)據(jù),對(duì)垃圾短信應(yīng)采用文本處理和分類技術(shù)進(jìn)行文本挖掘。機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,主要涉及概率與統(tǒng)計(jì)、計(jì)算機(jī)算法等,研究計(jì)算機(jī)模擬人類學(xué)習(xí)獲取新知識(shí)和技能,改進(jìn)知識(shí)結(jié)構(gòu)和性能。機(jī)器學(xué)習(xí)是人工智能的核心,人工智能通過機(jī)器學(xué)習(xí)得意實(shí)現(xiàn)。機(jī)器學(xué)習(xí)的研究主要包括決策樹、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯、支持向量機(jī)等。

本文介紹了使用機(jī)器學(xué)習(xí)方法來智能化識(shí)別垃圾短信,包括樸素貝葉斯算法、Sciki-Learn機(jī)器學(xué)習(xí)算法庫、TF-IDF、分類模型構(gòu)建及測(cè)試評(píng)估。

1 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是計(jì)算機(jī)科學(xué)與人工智能的重要分支領(lǐng)域。計(jì)算機(jī)通過“數(shù)據(jù)”學(xué)習(xí),“數(shù)據(jù)”相當(dāng)于人的經(jīng)驗(yàn),通過學(xué)習(xí)這些經(jīng)驗(yàn)數(shù)據(jù)生成一個(gè)算法模型,對(duì)于新的數(shù)據(jù)可以利用生成的模型進(jìn)行判斷,這就是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)就是從數(shù)據(jù)中產(chǎn)生模型的算法。數(shù)據(jù)集中的每條記錄是對(duì)一個(gè)事件或?qū)ο蟮拿枋觯Q為樣本。從數(shù)據(jù)中獲得模型的過程稱為訓(xùn)練即學(xué)習(xí),這個(gè)過程中使用的數(shù)據(jù)稱為訓(xùn)練數(shù)據(jù)。模型有時(shí)也稱為學(xué)習(xí)器,

機(jī)器學(xué)習(xí)過程如圖1所示。

Python Scikit-Leam庫封裝了多種機(jī)器學(xué)習(xí)算法,提供各種機(jī)器學(xué)習(xí)算法接口,可以讓用戶簡(jiǎn)單、高效地進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析。本文使用Scikit-Learn進(jìn)行垃圾短信文本數(shù)據(jù)分析。

2 樸素貝葉斯算法

樸素貝葉斯算法是一種分類算法,用于構(gòu)建分類模型即分類器,允許使用概率給出一組特征來預(yù)測(cè)一個(gè)類,需要的訓(xùn)練比較少。樸素貝葉斯是一種運(yùn)用廣泛,分類效果比較突出的分類方法,特別是在處理文本分類任務(wù),是一種分類效果比較好的方法。

3.1貝葉斯定理

3 相關(guān)關(guān)鍵技術(shù)

3.1 中文分詞

中文語句結(jié)構(gòu)復(fù)雜,語句中詞語沒有明顯的分隔符號(hào)。詞是構(gòu)成中文語句的基本單元,詞語之間緊密連接在一起組成語句。因此,理解語句需要先理解詞語,分詞質(zhì)量的高低直接影響文本分詞效果。目前,中文分詞技術(shù)不斷完善,主要的分詞工具有NLPIR (Natural Language Processing&Information Re-trieval)、THULAC f THU LexicalAnalvzer for Chinese)、jieba分詞和Snow NLP等分詞器[2]。使用時(shí),根據(jù)項(xiàng)目應(yīng)用場(chǎng)景選用合適的中文分詞器。

文本的分類,基本上是基于詞袋模型,也就是一個(gè)文本中包含多少詞以及各個(gè)詞的頻率。對(duì)于英文,其天生的句子空格可以很容易分割單詞。但是中文就得先進(jìn)行分詞處理,也就是將一個(gè)完整的中文分割為一個(gè)一個(gè)詞。Python提供了第三方模塊-jieba分詞來對(duì)中文進(jìn)行分詞。

jieba中文分詞基于前綴詞典實(shí)現(xiàn)高效詞圖掃描,對(duì)句子中所有可能生成詞情況構(gòu)成有向無環(huán)圖(DAG),采用動(dòng)態(tài)查找最大概率路徑,切分出基于詞頻的最大切分組合。對(duì)于未登陸詞,采用漢字成詞HMM模型即隱馬爾科夫模型。對(duì)于停用詞,可以自定義。jieba分詞器被廣泛應(yīng)用在中文分詞,用Python語言開發(fā)的開源免費(fèi)分詞工具,同時(shí)根據(jù)文本內(nèi)容可以自定義詞典和修改詞典。因此,本文采用jieba中文分詞器對(duì)短信內(nèi)容進(jìn)行分詞。

3.2 特征提取

特征數(shù)據(jù)表示輸入的數(shù)據(jù),目標(biāo)數(shù)據(jù)則是輸入數(shù)據(jù)的屬性,本文中,短信內(nèi)容就是特征數(shù)據(jù),短信的分類就是目標(biāo)數(shù)據(jù)。本文使用機(jī)器學(xué)習(xí)Scikit-Leam算法庫實(shí)現(xiàn)應(yīng)用。從文本中提取特征,需要利用到Scikit-Learn中的CountVectorizer0方法和TfidfTransformer0方法。CountVectorizer0用于將文本從標(biāo)量轉(zhuǎn)換為向量,Tfidfl ransformer0則將向量文本轉(zhuǎn)換為tf-idf矩陣。

3.3 TF-IDF

TF-IDF(Term Frequency - Inverse Document Frequency)為“詞頻一逆文本頻率”,包括TF和IDF兩部分。TF為“詞頻”即文本中詞的出現(xiàn)頻率統(tǒng)計(jì),作為文本特征。IDF為“逆文本頻率”,反應(yīng)一個(gè)詞在所有文檔中出現(xiàn)的頻率。如果一個(gè)詞在多個(gè)文本中出現(xiàn),則IDF值低;如果一個(gè)詞在較少的文本中出現(xiàn),則IDF值高;如果一個(gè)詞在所有文本中均出現(xiàn),則IDF值為0。IDF基本計(jì)算公式如公式10所示,N表示語料庫中文本數(shù),Ⅳ(x)表示其中包含詞x的文本數(shù):

4 應(yīng)用實(shí)現(xiàn)

4.1 對(duì)短信內(nèi)容進(jìn)行分詞

jieba中文分詞支持三種模式[3]:

1)全模式

seg_list= jieba.cut(”我來到北京清華大學(xué)”,cut_aIl=True)

print(”全模式:”+”/¨.join(seg_list》

分詞結(jié)果:我/來到/北京/清華/清華大學(xué)/華大/大學(xué)

2)精確模式

seg_list= jieba.cut(”我來到北京清華大學(xué)”,cut_aIl=False)

print(”精準(zhǔn)模式:”+”/”.join(seg_list》

分詞結(jié)果:我/來到/北京/清華大學(xué)

默認(rèn)模式是精確模式

3)搜索引擎模式

seg_list= jieba. cut_for_search('小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所,后在日本京都大學(xué)深造”)

print(”,”.join(seg_list》

分詞結(jié)果:小明,碩士,畢業(yè),于,中國(guó),科學(xué),學(xué)院,科學(xué)院,中國(guó)科學(xué)院,計(jì)算,計(jì)算所,后,在,日本,京都,大學(xué),日本京都大學(xué),深造

本文分詞模式采用默認(rèn),語料中增加一列存放分詞結(jié)果:

data= pd.read_csv(r”./data/rubmessage. csv”, encoding= 'utf_8,sep=,,)#導(dǎo)入短信數(shù)據(jù)

data[,分詞短信]-data[,短信內(nèi)容].apply(lambda x:””.join(jieba.cut(x》)

data.head0#顯示前5個(gè)樣本

4.2 特征提取及分割數(shù)據(jù)集

特征數(shù)據(jù)表示輸入的數(shù)據(jù),目標(biāo)數(shù)據(jù)則是輸入數(shù)據(jù)的屬性。短信內(nèi)容就是特征數(shù)據(jù),短信的分類就是目標(biāo)數(shù)據(jù)。代碼如下:

x= data[”分詞短信”].values

y= data[,分類,].values

使用skleam的分割模塊分割出訓(xùn)練集和測(cè)試集,直接使用train_test_split0:

x_train, x_test. y_train. y_test=train_test_split(x,y,test_size=0.11

4.3 文本特征數(shù)字化

from sklearn. feature_extraction. text import TfidfTransformer,CountVectorizer

#定義向量轉(zhuǎn)換器和TF-IDF轉(zhuǎn)換器

vectorizer= CountVectorizer0

tfidf_transformer= TfidfTransformer0

#訓(xùn)練集數(shù)字化

x_train_termcounts= vectorizer.fit_transform(x_train)

x_train_tfidf

=

tfidf_ transformer.fit_transform(x_train_termcounts)

#測(cè)試集數(shù)字化

x—test termcounts= vectorizer.transform(x_test)

x_test_tfidf= tfidf_transformer.transform(x_test_termcounts)

4.4 模型構(gòu)建、測(cè)試及評(píng)估

1)構(gòu)建樸素貝葉斯分類模型并訓(xùn)練

from sklearn.naive_bayes import MultinomialNB

classifier= MultinomialNB O.fit(x_train_tfidf, y_train)

2)測(cè)試模型

predicted_categories= classifier.predict(x_test_tfidf)

print(predicted_categories)

結(jié)果:

[0 00001000000000000000000100000000 0 0 0000000 0 0 0 0 0 000000 0 0 0 1 0 0000000 0 00 0]

3)評(píng)估模型

from sklearn.metrics import accuracy_score print(”準(zhǔn)確率:”,accuracy_score(y_test,predicted_c ategories》

評(píng)估結(jié)果:

準(zhǔn)確率:0.9420289855072463

參考文獻(xiàn):

[1]劉秋陽,林澤鋒,欒青青.基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)[J].電腦知識(shí)與技術(shù),2016,12(12):190-192.

[2]賴文輝,喬宇鵬.基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2018,38(9):2469-2476.

[3]結(jié)巴中文分詞[EB/OL].https://github.com/fxsjy/jieba.

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
主站蜘蛛池模板: 免费不卡视频| 亚洲三级成人| 看国产毛片| 国产熟睡乱子伦视频网站 | 精品久久久久久久久久久| 国内视频精品| 91麻豆精品视频| 国产三级成人| 亚洲第一区欧美国产综合| 国产午夜福利片在线观看| 欧美日韩综合网| 成人免费一级片| 久久久久亚洲av成人网人人软件| 欧美精品综合视频一区二区| 国产乱子伦手机在线| 欧美成a人片在线观看| 国产内射一区亚洲| 亚洲男人的天堂久久香蕉| 国产本道久久一区二区三区| 精品小视频在线观看| 国产91在线|日本| 蜜桃臀无码内射一区二区三区| 亚洲资源在线视频| 免费一级毛片| 欧美中文字幕在线二区| 精品福利视频网| 久久精品日日躁夜夜躁欧美| 久久精品嫩草研究院| 国产一二视频| 日韩在线中文| 白浆免费视频国产精品视频| 欧美国产另类| 久久网欧美| 免费亚洲成人| 国产自在自线午夜精品视频| 国产在线视频福利资源站| 久久国产精品嫖妓| 蜜芽国产尤物av尤物在线看| 三区在线视频| 国产aaaaa一级毛片| 欧美激情二区三区| 尤物精品视频一区二区三区| 91热爆在线| 亚洲无码免费黄色网址| 久久国产精品影院| 免费毛片视频| 2020国产在线视精品在| 亚洲一区二区无码视频| 日本影院一区| 91久久偷偷做嫩草影院| 乱人伦99久久| 98超碰在线观看| 久久婷婷综合色一区二区| 亚洲色中色| 欧美午夜一区| 色色中文字幕| 波多野结衣第一页| 成人伊人色一区二区三区| 久久精品视频亚洲| 亚洲国产精品VA在线看黑人| 免费中文字幕在在线不卡| 亚洲区欧美区| 玖玖精品在线| 色成人综合| 97se亚洲综合在线天天| 国产高潮流白浆视频| 国产精品流白浆在线观看| 亚洲自拍另类| 波多野吉衣一区二区三区av| 久久久久亚洲AV成人网站软件| 亚洲国产精品久久久久秋霞影院| 国产又爽又黄无遮挡免费观看 | 一本大道AV人久久综合| 久久人搡人人玩人妻精品| 国产国产人在线成免费视频狼人色| 成人综合网址| 毛片免费观看视频| 天天躁夜夜躁狠狠躁躁88| 亚洲国产欧美自拍| 无码人中文字幕| 久久99国产综合精品1| 免费a级毛片视频|