999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的短文本分類研究

2018-10-21 19:44:59檀亞寧劉宏玉王子浪
關(guān)鍵詞:分類文本

檀亞寧 劉宏玉 王子浪

摘要:自然語(yǔ)言處理是目前智能科學(xué)領(lǐng)域中的一個(gè)非常熱門的方向,文本的分類同樣也是自然語(yǔ)言處理中的一項(xiàng)關(guān)鍵的技術(shù)。隨著深度學(xué)習(xí)發(fā)展,樸素貝葉斯算法也已經(jīng)在文本的分類中取得到了良好的分類效果。本文針對(duì)短文本的分類問(wèn)題,首先對(duì)短文本數(shù)據(jù)進(jìn)行了預(yù)處理操作,其中包括中文分詞、去除停用詞以及特征的提取,隨后闡明了樸素貝葉斯算法構(gòu)建分類器的過(guò)程,最后將樸素貝葉斯算法與邏輯回歸和支持向量機(jī)分類算法的分類效果進(jìn)行了對(duì)比分析,得出樸素貝葉斯算法在訓(xùn)練所需的效率上及準(zhǔn)確率上有較為優(yōu)異的表現(xiàn)。

關(guān)鍵詞:自然語(yǔ)言處理文本分類機(jī)器學(xué)習(xí)樸素貝葉斯

引言

文本分類問(wèn)題是自然語(yǔ)言處理中的一個(gè)非常經(jīng)典的問(wèn)題。文本分類是計(jì)算機(jī)通過(guò)按照一定的分類標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記的有監(jiān)督學(xué)習(xí)過(guò)程。在文本特征工程中,和兩種方法應(yīng)用最為廣泛[1] 。在分類器中,使用普遍的有樸素貝葉斯,邏輯回歸,支持向量機(jī)等算法。其中樸素貝葉斯是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。基于此,本文采用基于的特征提取的樸素貝葉斯算法進(jìn)行文本分類,探求樸素貝葉斯算法在短文本分類中的適用性。

1數(shù)據(jù)預(yù)處理

1.1中文分詞

中文分詞是指將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。中文分詞是中文文本處理的一個(gè)基礎(chǔ)步驟,也是對(duì)中文處理較為重要的部分,更是人機(jī)自然語(yǔ)言交流交互的基礎(chǔ)模塊。在進(jìn)行中文自然語(yǔ)言處理時(shí),通常需要先進(jìn)行中文分詞處理[2] 。

1.2停用詞處理

去除停用詞能夠節(jié)省存儲(chǔ)空間和計(jì)算時(shí)間,降低對(duì)系統(tǒng)精度的影響。對(duì)于停用詞的處理,要先對(duì)語(yǔ)料庫(kù)進(jìn)行分詞、詞形以及詞性的類化,為區(qū)分需求表述和信息內(nèi)容詞語(yǔ)提供基礎(chǔ)。去停用詞后可以更好地分析文本的情感極性,本文采用廣泛使用的哈工大停用詞表進(jìn)行去停用詞處理。

1.3特征提取

文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),一般要轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),一般是將文本轉(zhuǎn)換成“文檔-詞頻矩陣”,矩陣中的元素使用詞頻或者。它的計(jì)算為,

某一特定文件內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)文件集合中的低詞語(yǔ)頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)。

2模型的建立

2.1貝葉斯理論

樸素貝葉斯分類器是一系列以假設(shè)特征之間強(qiáng)(樸素)獨(dú)立下運(yùn)用貝葉斯定理為基礎(chǔ)的簡(jiǎn)單概率分類器[3] 。

構(gòu)成文本的有意義的單元是詞語(yǔ),文本的類別和文本出現(xiàn)的詞語(yǔ)是有關(guān)聯(lián)性的。假設(shè)文本可以用一組能表示文本類別的特征詞來(lái)表示,可以把這組特征詞定義成文本的特征向量。假設(shè)訓(xùn)練樣本集中有個(gè)不同的類別,,,…,要確定特征向量屬于哪個(gè)類別,只需要計(jì)算每個(gè)類別的條件概率,選取概率值最大的類別作為文本的類別[4] 。根據(jù)貝葉斯定理可得文本分類函數(shù):

3實(shí)驗(yàn)及結(jié)果分析

3.1實(shí)驗(yàn)結(jié)果

經(jīng)過(guò)對(duì)比分析不同種類分類器效果,后進(jìn)行十折交叉驗(yàn)證取平均值,實(shí)驗(yàn)結(jié)果如下表。

3.2結(jié)果分析

綜合表1中的準(zhǔn)確率和F1值可以看出,樸素貝葉斯模型在準(zhǔn)確率和F1值與邏輯回歸和支持向量機(jī)分類器相比都較高。而且在訓(xùn)練時(shí)間上,樸素貝葉斯在有更為優(yōu)異的表現(xiàn)。

4結(jié)論

本文在研究短文本分類方法的基礎(chǔ)上,使用了樸素貝葉斯模型作為分類器,進(jìn)行了文本分類的實(shí)驗(yàn)。通過(guò)基于的特征提取,十折交叉驗(yàn)證后取平均值準(zhǔn)確率可以到達(dá)91.95%,F(xiàn)1值為0.91,得到了樸素貝葉斯分類器這一方法在短文本分類上具有較好的適用性的結(jié)果。

參考文獻(xiàn):

[1] 孟濤,王誠(chéng).基于擴(kuò)展短文本詞特征向量的分類研究[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展.

[2] 紀(jì)明宇,王晨龍,安翔,牟偉曄.面向智能客服的句子相似度計(jì)算方法[J/OL].計(jì)算機(jī)工程與應(yīng)用.

[3] 黃勇,羅文輝,張瑞舒.改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用.

[4] 丁月,汪學(xué)明.一種基于改進(jìn)特征加權(quán)的樸素貝葉斯分類算法[J/OL].計(jì)算機(jī)應(yīng)用研究.

(作者單位:華北理工大學(xué)理學(xué)院)

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产激情第一页| 国产美女免费网站| 国产va在线观看| 亚洲第一成人在线| 国产丝袜啪啪| 精品伊人久久久大香线蕉欧美| 国产精品偷伦视频免费观看国产| 1769国产精品视频免费观看| 国产杨幂丝袜av在线播放| 国产精品尹人在线观看| 国产精品永久久久久| 国产幂在线无码精品| 久久熟女AV| 鲁鲁鲁爽爽爽在线视频观看| 欧美国产菊爆免费观看 | 久久久国产精品免费视频| 在线精品视频成人网| 国产小视频在线高清播放| 久久这里只有精品国产99| 在线播放真实国产乱子伦| 亚洲 欧美 偷自乱 图片| 中文字幕在线观| 婷婷亚洲视频| 国产精品亚洲日韩AⅤ在线观看| 欧美国产日本高清不卡| 国产成人精品综合| 久久这里只有精品8| 国产精品美女免费视频大全| 亚洲欧洲自拍拍偷午夜色无码| 国产女同自拍视频| 特级精品毛片免费观看| 九九这里只有精品视频| 玖玖免费视频在线观看| 欧美日韩激情在线| 免费看美女自慰的网站| 中文字幕一区二区人妻电影| 又粗又硬又大又爽免费视频播放| 在线精品亚洲国产| 国产成人综合亚洲欧洲色就色 | 无码人妻免费| 波多野结衣视频一区二区| 欧美一区二区三区国产精品| 亚洲视频在线网| 亚洲欧美在线精品一区二区| 高清无码一本到东京热| 国产成年女人特黄特色毛片免| 91一级片| 人人爽人人爽人人片| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产精品19p| 天堂成人在线视频| 99视频在线观看免费| 国产色婷婷视频在线观看| 久久精品国产免费观看频道| 国产成人久久777777| 亚洲一级色| 特黄日韩免费一区二区三区| 免费国产不卡午夜福在线观看| 欧美日韩精品在线播放| 欧美激情第一欧美在线| 免费午夜无码18禁无码影院| 欧美国产日韩在线| 久久青青草原亚洲av无码| 91精品啪在线观看国产| 97一区二区在线播放| 国产自在自线午夜精品视频| 青青青国产视频手机| 欧美a级完整在线观看| 久久精品电影| 无码一区中文字幕| 极品国产一区二区三区| 91国内外精品自在线播放| 国产91丝袜在线播放动漫 | 日本国产一区在线观看| 草逼视频国产| 国产乱子伦手机在线| 亚洲国产成人无码AV在线影院L| 精品国产免费观看一区| 永久免费精品视频| 欧美亚洲日韩不卡在线在线观看| 无码专区第一页| 国产精品无码AV中文|