999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

并行化改進的樸素貝葉斯算法在中文文本分類上的應用

2020-09-04 07:56:10彭子豪
科學技術創新 2020年26期
關鍵詞:分類特征文本

彭子豪 譚 欣

(湖北第二師范學院計算機學院,湖北 潛江433100)

1 概述

互聯網技術的迅猛發展,使文本信息的體量乘上了增長的快車。為了有效的對海量文本信息進行數據挖掘,文本分類成為了研究的熱點。文本分類在新聞主題分類、情感分析、輿情分析和智能信息推薦中都應用廣泛。尤其是大數據海量文本數據而言,對其進行高效高精度的文本分類是一個重要的研究內容。樸素貝葉斯算法是公認經典的分類算法,普遍用于文本分類。樸素貝葉斯最核心的部分是貝葉斯法則,用后驗概率和聯合概率來計算先驗概率。

文獻[1]在樸素貝葉斯算法文本分類算法中去掉了對先驗概率的計算,并在后驗概率的計算中引入了一個放大系數,提升了計算精度。

文獻[2] 提出一種基于詞向量間余弦相似度的改進樸素貝葉斯算法,有效的降低了特征向量的數據冗余和計算復雜性。

文獻[3]實現了基于MapReduce 實現樸素貝葉斯算法,使在大數據量的情況下, 并行化的貝葉斯算法較傳統的貝葉斯算法具有更好的執行效率和較高的擴展性。在基于樸素貝葉斯的文本分類時,首先需要通過詞頻統計獲取文本特征,之后利用貝葉斯對屬性以同權的形式進行模型計算。

而上述文獻沒有考慮到對于文本屬性而言,不同的屬性在表征類別時貢獻可能是不同的,而在傳統貝葉斯文本分類方法中,認為特征項在分類時對決策的貢獻相同,對不具有代表性的、噪聲污染的特征和高頻出現特征屬性進行同權處理,導致分類精確度降低。

為區分文本單詞特征屬性在分類時的權重差異,提升文本大數據的分類精度及效率,本文首先利用改進的TFIDFCF 算法進行文本詞頻統計,獲取不同單詞的詞頻,該算法解決了TFIDF算法在計算特征詞權重時忽略類間關系的問題。其次將文本特征詞的詞頻統計結果,作為樸素貝葉斯模型的屬性特征權重輸入,進行加權分類。此外為了提高算法對海量大數據文本分類的處理能力,基于MapReduce 編程理念,在分布式框架上進行改進的算法的并行化處理,并通過計算召回率,精確率,f1-score等對算法性能進行評價。

實驗結果表明,本文提出的基于改進的TFIDF 詞頻處理及并行框架下的樸素貝葉斯文本分類算法,較傳統方法在分類精度及效率上均有提升。

2 基于TFIDF 算法的詞頻統計

2.1 TFIDF 算法簡介

2.2 傳統的TFIDF 算法的改進

3 樸素貝葉斯分類算法

3.1 樸素貝葉斯算法介紹

樸素貝葉斯的主要思想是在假設特征在互相條件獨立的情況下,基于貝葉斯公式用先驗概率的值來計算后驗概率。

3.2 特征加權文本分類樸素貝葉斯算法

傳統的樸素貝葉斯算法認為所有特征屬性對分類決策的貢獻是相同的。文獻[5]表明,在文本分類中,得冗余的、與分類無關的、相互影響的以及被噪聲污染的特征和其他特征具有相同的地位,并使得分類的正確性降低。針對傳統的樸素貝葉斯在文本分類上認為特征詞貢獻相同,提出了基于TFIDFCF 特征加權的樸素貝葉斯算法。

其中Wk,d為特征項Xk詞在d 文本中的TFIDFCF 權值。將詞頻,逆文檔頻率和類別區分度兼顧,較好的反應了詞語的重要程度。這樣將此權重加權到樸素貝葉斯模型中,會根據詞的重要程度優化樸素貝葉斯假定特征詞都條件獨立的情況。

4 MapReduce 實現并行TFIDFCF 特征加權貝葉斯算法流程

4.1 算法實現流程圖

算法實現總體可以分為兩大步驟。第一個步驟為計算每個文章中詞的TFIDFCF 值,第二個步驟為計算語料庫中類別出現的概率及每個詞在每個類別下的出現的條件概率。最終輸出到NewBayesCalCulateMap 中即可進行類別預測(在實際預測中,由于樸素貝葉斯是由先驗概率和聯合概率來估計后驗概率,所以第二步驟在預測時不需要計算,按照訓練出來的模型帶入即可)。由于MapReduce 并行計算框架支持有向圖計算,按照上面的拓撲圖進行會進行有序的輸入輸出形成MapReduce 鏈。雖然并行計算提高了計算的速度,但mapreduce 需要頻繁的落盤,磁盤IO 開銷大。而spark 基于內存的運算方式可能可以在此基礎上更快。

MapReduce 實現并行TFIDFCF 特征加權貝葉斯算法流程圖

4.2 實現算法中需要注意的幾點

防止下溢出:在實現貝葉斯公式計算時。若進行浮點數運算,因為浮點數精確度不夠,會導致乘積為零的情況,對改進的貝葉斯算法取對后公式如下:

5 文本分類結果分析

為驗證算法的可行性,本文選取了清華大學自然語言處理實驗室THUCNews 新聞文本部分數據和兩組測試數據進行分類試驗;并以傳統貝葉斯文本分類結果對比對比試驗,進行算法有效性分析。

THUCNews 新聞文本數據分類:

(1)THUCNews 數據介紹

THUCNews 新聞文本數據是根據新浪新聞RSS 訂閱頻道2005~2011 年間的歷史數據篩選過濾生成, 包含74 萬篇新聞文檔,包含14 個候選分類類別:財經、彩票、房產、股票、娛樂等。本文節選了7 類每類5000 篇文檔進行模型訓練和測試。

(2)實驗步驟

①對文本數據進行分詞。去除停用詞后,通過特征工程提取特征詞,作為詞庫。

②根據詞庫把輸入的文本數據轉化為詞向量。

③訓練樸素貝葉斯模型。

④基于1.2 介紹的TFIDFCF 算法計算每篇文章中特征詞的權重。

⑤將TFIDFCF 權重值加權到訓練好的樸素貝葉斯分類模型中,取計算出的最大值所屬類別為預測結果。

(3)THUCNews 新聞文本分類結果分析

分類預測結果對比表

本文中使用準確率、召回率、F1-score 三個指標來評估算法效果。

①精確率(Precision):分類結果中正確分類為Ci 的樣本數占分類結果中所有分為Ci 類別的樣本數,衡量分類的查準率

②召回率(Recall):分類結果中正確分類為Ci 的樣本數占所有Ci 類的樣本數的比例,衡量分類的查全率

③F1-score:在精確率和召回率的基礎上提出了F1 值的概念,來對精確率和召回率進行整體評價

本文基于如上實驗步驟在并行框架的計算優勢下實現了這兩種算法,提取了大量特征詞。由于特征詞多,數據量大,分類模型都建立的很準確。實驗結果表明兩種方法都有很好的文本分類能力。根據分類結果對比表可以發現,基于TFIDFCF 特征加權的樸素貝葉斯算法對于傳統的樸素貝葉斯算法在大部分新聞類別中分類效果上有一定提升。

6 結論

在本文中,通過研究,對樸素貝葉斯應用在文本分類認為特征詞之間相互條件獨立提出了不同的觀點。首先研究了TFIDFCF 算法,消除了TFIDF 算法在類間的偏差,并加權到樸素貝葉斯算法模型中。這樣使那些重要的詞相較于傳統的樸素貝葉斯算法擁有更合理的權重。最后通過實驗結果表明并行的TFIDFCF 特征加權的樸素貝葉斯算法是高效,合理,準確的。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 亚洲日本韩在线观看| 综合成人国产| 国产精品制服| 亚洲人成网7777777国产| 国产不卡国语在线| 丝袜亚洲综合| 喷潮白浆直流在线播放| 亚洲伊人电影| 欧美成人免费午夜全| 一级毛片免费观看久| A级毛片高清免费视频就| 亚洲视屏在线观看| 亚洲狠狠婷婷综合久久久久| 久久 午夜福利 张柏芝| 久久性妇女精品免费| 欧洲亚洲一区| 国产欧美日韩综合在线第一| 亚欧美国产综合| 国模视频一区二区| 日本免费精品| 制服丝袜一区| 欧美精品高清| 日韩乱码免费一区二区三区| 国产免费一级精品视频 | 亚洲91精品视频| 久久国产黑丝袜视频| 国产男人天堂| 亚洲资源站av无码网址| 亚洲精品欧美日韩在线| 亚洲综合第一区| m男亚洲一区中文字幕| 精品少妇三级亚洲| 九色免费视频| 色综合天天娱乐综合网| 亚洲Va中文字幕久久一区| 久久精品女人天堂aaa| 香蕉久人久人青草青草| 91精品国产一区自在线拍| 国产日本一区二区三区| 亚洲无码熟妇人妻AV在线| 精品视频一区二区观看| 日本成人一区| 九九九精品成人免费视频7| 日韩AV无码免费一二三区 | 日本少妇又色又爽又高潮| 美女潮喷出白浆在线观看视频| 91久久国产热精品免费| 99精品伊人久久久大香线蕉| 国产视频资源在线观看| 99久久免费精品特色大片| 国产成人一区免费观看| 91系列在线观看| 国产色婷婷| 国产精品午夜福利麻豆| 久久国产乱子伦视频无卡顿| 欧美高清国产| 国产网站免费观看| 午夜老司机永久免费看片| 精品国产自| 欧美日韩在线亚洲国产人| 国产精品一区在线观看你懂的| 2022国产91精品久久久久久| 日韩经典精品无码一区二区| 亚洲永久色| 国产三区二区| 国产91高跟丝袜| 看av免费毛片手机播放| 色婷婷亚洲综合五月| 亚洲中文制服丝袜欧美精品| 午夜a视频| 欧美高清视频一区二区三区| 四虎永久在线精品影院| 99在线视频网站| 欧美日韩在线成人| 精品国产www| 中文字幕伦视频| 欧洲免费精品视频在线| 91精品啪在线观看国产91| 国内精品视频区在线2021| 亚洲欧美一区在线| 国产无码制服丝袜| 伊人激情综合|