999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的中文文本分類

2019-11-03 14:07:16姜天宇王蘇徐偉
電腦知識與技術 2019年23期

姜天宇 王蘇 徐偉

摘要:在當今數據大爆炸時代,每天所產生的文本量數以億計,急需整理分類,然而傳統的數據分類的文本處理方式過于煩瑣,在浩瀚的數據流中迅速,高效,精確地找到需求信息極其困難。怎么有效地區分鑒別雜亂的信息,怎么迅速地滿足用戶的需求,都面臨著困難。為了解決信息無序的問題,文本的自動分類技術自然成了處理和組織大量信息的一個重要技術。因此眾多文本分類方法應運而生,樸素貝葉斯也是其中一種。樸素貝葉斯作為數據的十大算法之一,由于其易于構造和解釋,并具有良好的性能,因此被廣泛用于解決分類和排序問題。本文研究基于樸素貝葉斯算法的中文文本分類改進算法。

關鍵詞:樸素貝葉斯;文本預處理;特征選擇

中圖分類號:TP181? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)23-0253-02

開放科學(資源服務)標識碼(OSID):

Chinese Text Classification Based on Naive Bayes

JIANG Tian-yu, WANG Su, XU Wei

(College of Electronic and Optical Engineering, Nanjing University of Posts and Telecommunications,Nanjing 210023, China)

Abstract: In today's era of big data explosion, billions of texts are generated every day, which are in urgent need of sorting and classification. However, the traditional text processing method of data classification is too complicated, and it is extremely difficult to find demand information quickly, efficiently and accurately in the vast data flow. How to effectively distinguish and identify mixed and disorderly information, how to quickly meet the needs of users, are facing difficulties. In order to solve the problem of information disorder, automatic text classification technology has naturally become an important technology for processing and organizing a large amount of information. Therefore, many text classification methods emerge at the right moment, and naive bayes is one of them. As one of the top ten data algorithms, naive bayes is widely used to solve classification and sorting problems due to its easy construction and interpretation and good performance. This paper studies an improved algorithm for Chinese text classification based on naive bayes algorithm.

Key words: Naive bayes; Text preprocessing; Feature selection;

樸素貝葉斯是一種基于概率的統計學習模型,它有一個前提假設,即給定類的所有屬性都是完全獨立的。雖然這一假設在許多實際應用中經常被違反,但樸素貝葉斯仍然是排名前十的算法之一,因為它的簡單、高效和可解釋性。

1 樸素貝葉斯文本分類法

基于特征獨立性的假設稱為樸素貝葉斯分類法,就是對于某個類別節點,表示文本的屬性之間沒有任何關系即相互獨立。

如圖1所示,樸素貝葉斯分類模型的表示方法為:

C 為類別節點,A1,A2,…, Am是類別節點 C 下文本表示的m個屬性結點。

在實際應用中,我們假設其中每個屬性對所屬類別的影響是相互獨立的。這一假設降低了計算復雜度,因而能夠加快分類速度。

使用樸素貝葉斯分類器對文本進行分類的過程如下:

(1)首先我們用特征向量空間來表示文本類別,這樣一來我們就把分類的首要工作轉變成構造每個類別的特征向量空間。我們就可以把訓練集分成 m 類特征向量空間,每個文本類別擁有了一個獨有的表示該類別文本的特征向量空間。

(2)我們用 P(ci|x)來表示待分類文本x屬于類別ci的概率,那么文本分類的關鍵就是求出使P(ci|x)取最大值的類別。

(3)根據式[PAm|B=PAmPB|Am∑PAiPB|Aii],用 P(ci|x)(i=1,2,…,m)計算每個類別的條件概率。

(4)文檔所屬類別就是條件概率最大的類別。可以用公式表示為:P(ck|x)=max{P(c1|x),…, P(cm|x)},則x∈ck。

由于如何實現最優的樸素貝葉斯分類器是一個很困難的問題,改進的樸素貝葉斯分類方法引起了研究者的廣泛關注。

改進的方法大致可分為五大類:1)結構擴展;2)屬性權重;3)屬性選擇;4)實例加權;5)局部學習。

2 系統設計

2.1文本預處理

本文的實驗語料樣本來自新華社的1659封郵件,包含有環境、交通、教育、軍事、經濟、體育共6個類別。接著給1659封郵件中每封郵件中的文本進行分詞處理, 由此產生與之對應的文本詞語表。再接著進一步簡化,消去副詞、虛詞、量詞這些沒有意義的詞, 消去經常重復多次出現沒有顯著特征的動詞、名詞, 記下體現文本中權重較高的詞及詞頻, 將這些文本形成向量空間模型, 最后將全部文本處理完成之后形成一個矩陣,稱其為詞頻矩陣,類屬性加在最后一列。

2.2特征選擇

本文使用改進TF-IDF做特征選擇。TF-IDF(Term Frequency–Inverse Document Frequency)是一種用于信息搜查的常用加權技術。TF-IDF是一種統計方法,用以評估每個字詞對于一份文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

TF,(Term Frequency)表示某個關鍵詞在某個文檔中出現的頻率。可以表示為:

詞頻(TF)=某個詞在文章的出現次數/文章的總詞數。即:

[TFi,j=ni,jkni,k]

DF,(Document Frequency)的縮寫,表示文檔集合中,出現某個關鍵詞的文檔個數。

IDF,(Inversed Document Frequency)的縮寫,表示一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到:

[IDFj=logD1+DFj]

其中|D|:語料庫中的文件總數

如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數。

TF-IDF計算公式如下:

[TF-IDFi,j=詞頻(TFi,j)×逆文檔頻率(IDFj])

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。可以看到,TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。所以,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

2.3系統流程圖

3 系統驗證

3.1訓練分類仿真結果

本文所有實驗都是在普通PC(Intel CORE i7,2.60 GHz CPU,8.0 GB RAM),軟件為Pycharm64,使用Python語言實現提出的樸素貝葉斯算法。本文的實驗樣本來自新華社的1659封郵件,包含有環境、交通、教育、軍事、經濟、體育6個類別。

先對待分類文本進行關鍵詞提取,每篇提取前 20 個權重最大的詞,再轉換成詞向量,然后與模型訓練計算出來的先驗概率一起計算出文本屬于每一類文本的概率,然后比較大小,選擇概率最大的并判別文本屬于哪個類別,輸出類別標簽。

注:

1.調和平均值 = 查全率 × 查準率 × 2/查全率 + 查準率。

2.圖中P為查準率,R為查全率,F1為調和平均值

由上圖可得以下表格:

從上表我們可以看出,對待分類文本采用改進TF-IDF 算法提取關鍵字后,再運用樸素貝葉斯算法對文本進行分類,各類文本都取得不錯的分類效果,尤其環境類的查準率和調和平均值都超過了 90%。分類速度約為 800 篇/min。

4 總結

在本文中,我們首先研究了現有的樸素貝葉斯分類方法。然后,我們通過改進TF-IDF加權方法,該方法通過對訓練數據的特征加權頻率進行深度計算來估計樸素貝葉斯的條件概率。實驗結果表明,與之前方法相比,我們的改進TF-IDF加權方法很少會降低模型的質量,而且在很多情況下,可以顯著提高模型的質量。最后,我們對樸素貝葉斯中文文本分類器進行了改進TF-IDF加權,并取得了顯著的改進。

參考文獻:

[1]賀科達,朱錚濤,程昱.基于改進TF-IDF 算法的文本分類方法研究[J].廣東工業大學學報,2016(9).

[2] 安艷輝,董五洲,游自英.基于改進的樸素貝葉斯文本分類研究[J].河北省科學院學報,2007(01):22.

[3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算法[J].廈門大學學報:自然科學版,2012(4):682.

[4] 楊凱峰,張毅坤,李燕.基于文檔頻率的特征選擇方[J].計算機工程,2010(17):33.

[5] 陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學學報:自然科學版,2011(4):401.

[6] 朱娟.基于貝葉斯算法的多語言文檔分類[D].蘇州大學,2016.

[7] 包小兵.基于樸素貝葉斯的Web文本分類及其應用[J].電腦知識與技術,2016(30):220.

[8] 史琬瑩.樸素貝葉斯方法在文本分類中的運用[J].電子技術與軟件工程,2018(208).

[9] 賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報科學,2016(7):147.

【通聯編輯:唐一東】

主站蜘蛛池模板: 尤物亚洲最大AV无码网站| 真实国产乱子伦高清| 亚洲综合色婷婷| 亚洲男人在线天堂| 欧美性久久久久| 精品福利视频网| 黄色网在线| 亚洲精品麻豆| 国产精品思思热在线| 中文字幕在线欧美| 特级欧美视频aaaaaa| 台湾AV国片精品女同性| 2021亚洲精品不卡a| 亚洲男人在线| 国产99精品视频| 国产精品国产三级国产专业不| 国产日韩欧美一区二区三区在线 | 色噜噜狠狠狠综合曰曰曰| 国产在线观看人成激情视频| 999国内精品久久免费视频| 国产免费a级片| 久久久久国产一级毛片高清板| 亚洲无码A视频在线| 强乱中文字幕在线播放不卡| 国产午夜小视频| 国产女人水多毛片18| 99精品免费欧美成人小视频 | 毛片免费高清免费| 日韩无码视频网站| 青青草综合网| 国产特级毛片aaaaaa| A级毛片无码久久精品免费| 久久午夜夜伦鲁鲁片无码免费| 国产精品久久久久久久久kt| 乱系列中文字幕在线视频| 亚洲成人www| 本亚洲精品网站| 国产精品无码一区二区桃花视频| 永久免费AⅤ无码网站在线观看| 58av国产精品| 自拍欧美亚洲| 在线观看亚洲精品福利片| 精品無碼一區在線觀看 | 国产精品极品美女自在线网站| 欧美精品成人一区二区在线观看| 麻豆国产精品| 久久人妻xunleige无码| 人妻免费无码不卡视频| 无码人妻免费| 国语少妇高潮| 亚洲 成人国产| 国产剧情国内精品原创| 午夜国产精品视频| 国产精品不卡永久免费| 麻豆AV网站免费进入| 成人91在线| 国产91视频观看| 成人国产精品视频频| 国产精品19p| 国产资源站| 欧美午夜网| 91精品在线视频观看| 亚洲综合精品香蕉久久网| 欧美在线国产| 国产在线精品人成导航| 国产sm重味一区二区三区| 亚洲精品在线91| 3344在线观看无码| 91网在线| 久久国产精品77777| 国产制服丝袜91在线| 国产天天射| 美女被操黄色视频网站| 亚洲第一成网站| 91网址在线播放| 亚洲av无码专区久久蜜芽| 国产第八页| 国产免费高清无需播放器 | a级毛片一区二区免费视频| 亚洲美女久久| 蜜芽国产尤物av尤物在线看| 国产男人的天堂|