999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯與Softmax回歸在文本分類上的對比研究

2021-11-28 02:24:54李詠豪李倫波
電腦知識與技術 2021年28期

李詠豪 李倫波

摘要:文本分類問題是自然語言處理中的重要任務。本文將機器學習中的樸素貝葉斯模型以及Softmax回歸應用于自動文本分類中,在清華新聞分類語料數據集上實現了基于多項分布與類條件分布假設實現了樸素貝葉斯模型,并使用BOOL、TF、IDF、TF-IDF四種特征權重訓練了Softmax回歸模型。最后,將兩種模型在訓練集與測試集上的性能進行對比。

關鍵詞:樸素貝葉斯;Softmax回歸;自然語言處理;文本分類

中圖分類號:G642? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)28-0131-02

開放科學(資源服務)標識碼(OSID):

A Comparative Study of Naive Bayes and Softmax Regression in Text Classification

LI Yong-hao*, LI Lun-bo

(College of Computer Science and Engineering, Nanjing University of Science & Technology, Nanjing 210094, China)

Abstract: Text classification is an important task in natural language processing. In this paper, the Naive Bayes model and Softmax regression in machine learning are applied to automatic text classification. The naive Bayes model is implemented on the Tsinghua news classified corpus data set based on the assumption of multinomial distribution and class conditional distribution. And the Softmax regression model is trained with four feature weights including BOOL, TF, IDF, and TF-IDF. Finally, we compare the performance of the two models on the training set and the test set.

Key words: naive bayes; softmax regression; natural language processing; text classification

1 引言

自然語言處理中的文本分類指的是給定文檔,將文檔歸為n個類別中的1個。文本分類在現實生活中的用途十分廣泛,比如,將社交媒體中短文按照其討論內容分為不同的類別;在情感分析問題中,提取文檔中人物表露的態度;在郵箱管理中,自動區別垃圾郵件與非垃圾郵件。

文本分類任務通常由傳統的機器學習模型完成,如支持向量機[1]、樸素貝葉斯[2],也可由深度學習方法[3]實現。無論哪種統計學習模型,數據集對于模型性能都有著巨大的影響,本文中的模型使用了清華新聞分類語料數據集[4],它是根據新浪RSS訂閱頻道2005年至2011年間的歷史數據篩選過濾生成的,包括74萬篇新聞文檔,10余個類別標簽,數據集中句子已經過準確的分詞,比如: 他 和 與 他 同輩 的 一 批 科學家 是 我國 計算機 技術 逼近 國際 先進 水平 的 希望 。同時,該數據集中包括一系列停用詞,“我”“自己”等停用詞十分常用,反而會影響新聞分類的精確度。由于數據規模過大,在CPU上訓練速度緩慢,所以,在所有類別中,選擇體育、政治、教育、法律、電腦與經濟共6個主題的數據,每個子類中進行500條新聞的隨機抽樣。

2 模型介紹

2.1 樸素貝葉斯

機器學習模型可分為判別式模型與生成式模型。判別式模型對給定觀測值的標簽的后驗概率[p(y|x)]建模,而生成式模型對觀測值和標簽的聯合概率[p(x,y)]建模,然后用貝葉斯法則[p(y|x)=p(x,y)/p(x)]進行預測。樸素貝葉斯模型是一種生成式模型。

樸素貝葉斯采用詞袋表示。在詞袋模型中,不考慮文檔中單詞的位置,詞與詞之間是互相獨立的,就像將所有詞語裝進一個袋子里一樣。

樸素貝葉斯文本分類的步驟如下:

(1) 計算先驗概率,即[p(y=cj)],每個樣本對應的先驗概率等于所屬類別樣本數占所有樣本數目的比例。

(2) 計算條件概率,令N為文檔個數,V為詞表大小,[N(ti,x(k))]表示第i個詞在第k個文檔中出現的次數,[cj]表示第j個類別:

[θi|j=Nk=1I(y(k)=cj)N(ti,x(k))+1i'=1VNk=1I(y(k)=cj)N(ti,x(k))+V](多項式分布假設)? ? ?(1)

[μi|j=Nk=1I(y(k)=cj)I(ti∈x(k))+1Nk=1I(y(k)=cj)+2](多變量伯努利假設)? ? ? ?(2)

[μi|j]與[θi|j]表示一個文檔中的第i個詞屬于第j個類別的概率,對于多項式分布假設,分母為所有文檔總詞數,分子為文檔第i個詞在第j類所有文檔中出現的總次數;對于多變量假設,分母為所有文檔中出現過第i個詞的文檔數目,分子為第j類所有文檔中有第i個詞出現的文檔數目。為了防止零概率問題,需要進行拉普拉斯平滑處理。

(3) 計算后驗概率[p(x|y=cj)=i=1V[I(ti∈x)μi|j+I(ti∈x)(1-μi|j)]],去后驗概率最大時對應的類別作為預測類別。

2.2 Softmax回歸

Softmax回歸[5]是一種多分類模型,也稱作多類logistic回歸,在NLP中,與最大熵模型是等價的,Softmax回歸作為一種廣泛使用的分類算法,常常作為深度學習分類模型最后一層執行分類預測。與樸素貝葉斯不同,Softmax模型是一種判別式模型。

模型假設如下:

[p(y=j|x;θ)=hj(x)=eθTjxk=1CeθThx,j=1,2,…C,where θC=0]? ? ? ?(3)

[p(y=j|x;θ)]表示給定參數[θ]時,樣本x屬于第j類的概率。值得注意的是,樣本x通過特征權重法構造,對于每一個文檔,特征權重法構建一個詞表,詞表中的每個詞具有一個固定的下標以及一個特征值。在使用TF特征(Term Frequency)時,某一文檔的特征向量中對應詞的特征值等于詞在文檔中出現的次數,其他特征權重方法有BOOL、IDF、TF-IDF等。

Softmax回歸模型使用梯度下降法更新權重:[?l(θ)?θj'=k=1N(1y(k)=j'-hj'(x(k)))x(k)]。

3 實驗

所有模型中,樸素貝葉斯(多項式分布)在測試集上的準確率最高,訓練時間最短。Softmax回歸模型使用TF權重時,測試集上的準確率最高。

樸素貝葉斯(多項式分布)實驗結果如圖1所示。

樸素貝葉斯(多變量伯努利)[6]實驗結果如圖2所示。

Softmax(GD+TF)實驗結果如圖3所示。

Softmax模型對于訓練集的擬合效果更好(準確率達到100%),但在測試集上,樸素貝葉斯分類準確率更高。我們觀察到Softmax的具體分類準確率與訓練集的文檔數目存在聯系,某一類別在訓練集中的文檔數目越多,則測試集上該類的分類準確率越高。Softmax模型不需要詞袋假設,適用范圍更廣泛。而在數據集較小的文本分類中,樸素貝葉斯模型的速度快、識別準確率高。時間成本上,樸素貝葉斯低于Softmax回歸。原因如下:樸素貝葉斯模型直接統計得到頻率與概率表格,不需要使用梯度下降進行參數優化。

基于多項式假設的樸素貝葉斯模型準確率遠高于多變量假設。這是因為在多項式模型的類條件概率計算中,對于一個文檔d,多項式模型中,只有在d中出現過的單詞,才會參與后驗概率計算。Softmax(bool)模型在本問題中優于多變量伯努利模型。

分類準確率:TF > IDF > BOOL > TF-IDF。BOOL特征權重具有實現簡單,速度快的優點,但是忽視了詞頻。TF權重以詞頻度量詞的重要性,詞頻越高,認為該詞越重要。對于大部分詞,詞頻高,說明詞重要。然而,有一些詞(如“方面”、“中國”)在文檔中大量出現,此時,詞頻無法有效描述文檔的特征。

4 結束語

本文將對樸素貝葉斯模型和Softmax回歸進行了對比研究,并在清華新聞分類語料數據集上進行了文本分類實驗,實驗結果表明,從時間復雜度來看,樸素貝葉斯低于Softmax回歸,Softmax模型適用范圍較廣。

參考文獻:

[1] 岳文應.基于Doc2Vec與SVM的聊天內容過濾[J].計算機系統應用,2018,27(7):127-132.

[2] 蘇瑩,張勇,胡珀,等.基于樸素貝葉斯與潛在狄利克雷分布相結合的情感分析[J].計算機應用,2016,36(6):1613-1618.

[3] 孫志遠,魯成祥,史忠植,等.深度學習研究與進展[J].計算機科學,2016,43(2):1-8.

[4] 蔡巍,王英林,尹中航.基于網上新聞語料的Web頁面自動分類研究[J].情報科學,2010,28(1):124-127,136.

[5] 劉亞沖,唐智靈.基于Softmax回歸的通信輻射源特征分類識別方法[J].計算機工程,2018,44(2):98-102.

[6] 吳皋,李明,周稻祥,等.基于深度集成樸素貝葉斯模型的文本分類[J].濟南大學學報(自然科學版),2020,34(5):436-442.

【通聯編輯:唐一東】

主站蜘蛛池模板: 国产拍揄自揄精品视频网站| 97亚洲色综久久精品| 亚洲精品福利视频| 成人一级免费视频| 亚洲中文字幕在线一区播放| 国产精品第一区在线观看| 亚洲国模精品一区| 激情综合五月网| 波多野结衣亚洲一区| 亚洲综合第一区| 国产精品视频导航| 中文字幕天无码久久精品视频免费| 午夜a级毛片| 久热精品免费| 日韩精品无码免费专网站| 麻豆精品国产自产在线| 午夜电影在线观看国产1区| 园内精品自拍视频在线播放| 国产麻豆精品在线观看| 久久美女精品| 欧美综合中文字幕久久| 看国产一级毛片| 国产主播在线一区| 国产在线八区| 操美女免费网站| 日韩午夜伦| 欧美精品v| 天天摸夜夜操| 色综合中文| 99成人在线观看| 88av在线看| 亚洲日韩久久综合中文字幕| 欧美国产菊爆免费观看| 3D动漫精品啪啪一区二区下载| 五月天福利视频| 国产美女自慰在线观看| 全午夜免费一级毛片| 九九精品在线观看| 国产午夜福利亚洲第一| av一区二区无码在线| 无码AV日韩一二三区| 欧美人与性动交a欧美精品| 亚洲一区二区成人| 在线永久免费观看的毛片| 国产AV无码专区亚洲精品网站| 国产成人a毛片在线| 久久这里只有精品国产99| 国产精品久久久精品三级| 亚洲欧美成aⅴ人在线观看 | 国产成人永久免费视频| 久久综合结合久久狠狠狠97色| 亚洲精品午夜无码电影网| 啪啪啪亚洲无码| 色综合狠狠操| 在线观看网站国产| 不卡的在线视频免费观看| 精品国产一二三区| 欧洲精品视频在线观看| 亚洲欧洲免费视频| 国产成人精品一区二区三区| 欧美性久久久久| 99爱视频精品免视看| 欧美精品v| 第一页亚洲| 国产va在线观看免费| 无码AV动漫| 99热这里只有免费国产精品| 99热这里只有精品在线观看| 欧美69视频在线| 高清无码手机在线观看 | 色综合激情网| 尤物精品视频一区二区三区| 国产丝袜一区二区三区视频免下载| 国产成人毛片| 欧美无遮挡国产欧美另类| 欧美日本不卡| 91福利国产成人精品导航| 毛片久久久| 精品国产中文一级毛片在线看| 色香蕉影院| 亚洲午夜福利精品无码| 欧美激情首页|