嚴石


摘要:隨著網(wǎng)絡(luò)的普及以及互聯(lián)網(wǎng)的飛速發(fā)展,在網(wǎng)上獲取信息已經(jīng)成了一種重要的方式,互聯(lián)網(wǎng)充斥著大量的新聞數(shù)據(jù),如何有效的獲取利用這些數(shù)據(jù)已經(jīng)成為當務之急。本文介紹了文本分類的原理,以及解決文本分類問題的流程,通過真實新聞數(shù)據(jù)集對相關(guān)算法進行測試,并給出了實驗結(jié)果。
關(guān)鍵詞:新聞數(shù)據(jù);文本分類;算法; 測試
中圖分類號:TP311? ?文獻標識碼:A
文章編號:1009-3044(2019)16-0283-02
開放科學(資源服務)標識碼(OSID):
Abstract: With the popularity and the rapid development of the Internet, it has become an important way to obtain information on the Internet. The Internet is full of a large number of news data. How to effectively obtain and use these data has become an urgent matter. This paper introduces the principle of text categorization and the flow of solving the problem of text categorization. The related algorithms are tested by real news datasets, and the experimental results are given.
Key words: news data; text classification; algorithms; test
文本分類,就是利用計算機相關(guān)技術(shù)將具有相同特征的文本信息根據(jù)一定的規(guī)則劃分到事先預定好的類別之中。樸素貝葉斯方法是一種基于貝葉斯定理和特定條件獨立性假設(shè)的分類方法。相關(guān)研究的實驗表明,這種方法應用到文本分類的任務上效果較好[1]。
1 文本分類的流程
文本是一種非結(jié)構(gòu)化的數(shù)據(jù),在進行分類之前,先要進行分詞、去停用詞,并通過一定的方式將文本用向量表示出來,將處理過后的數(shù)據(jù)輸入到分類模型中才能到的結(jié)論[2]。為了測評分類器的效果,我們采用通用的準確率P(Precision)、召回率R(Recall)、以及F值(F-score)作為實驗的評價指標[3]。
2 樸素貝葉斯算法
1) 設(shè)D是訓練元組和它們相關(guān)聯(lián)的類標號的集合,每一個元組用一個n維屬性向量[X={x1,x2,…,xn}]表示,描述由n個屬性[A1,A2,…,An]對元組的n個測量。
2) 假設(shè)有m個類[C1,C2,…,Cm]。給定元組X,樸素貝葉斯分類法預測X屬于[Ci]類,當且僅當
3 實驗結(jié)果及分析
我們準備了科技、汽車、娛樂、軍事、體育五類新聞數(shù)據(jù),并選取五組不同數(shù)目的樣本,把樣本的75%用作訓練集,剩下的25%用作測試集。下圖為測試后平均精度最高的一組數(shù)據(jù):
我們發(fā)現(xiàn)不同類別的新聞在同一次測試中,其準確率、召回率、F值也有細微的差別,而分類的精度隨著測試樣本數(shù)目的增大會有一定的提高,同時,在樣本數(shù)目不變的情況下,分類的精度會隨著特征值的數(shù)目增大而提高。
4 結(jié)語
本文分析了新聞文本分類的流程,并用樸素貝葉斯算法構(gòu)造分類器,通過大量的分組實驗,獲取了在不同樣本數(shù)目、不同特征值數(shù)目下的精度,在下一步實驗中,我們將測試該方法應用于其他的類型分類下的精度問題。
參考文獻:
[1] 靳小波.文本分類綜述[J].自動化博覽, 2006 (S1) :24, 26, 28, 29.
[2] 劉測,韓家新.面向新聞文本的分類方法的比較研究[J].智能計算機與應用,2018,8(5):38-41.
[3] 楊娟,王未央.幾種文本分類算法性能比較與分析[J].現(xiàn)代計算機(專業(yè)版),2016(25):12-16.
[4] 劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動分類技術(shù)概述[J].電腦知識與技術(shù),2017,13(35):87-91.
【通聯(lián)編輯:梁書】