基于FastText的新聞文本多分類研究

2020-05-28 09:36:21張超超盧新明

軟件導刊 2020年3期

張超超　盧新明

摘要：在迅速增加的海量數(shù)據(jù)中，文本形式的數(shù)據(jù)占很大比重。文本分類作為最常見的文本挖掘技術(shù)，可在大量雜亂的文本數(shù)據(jù)中發(fā)現(xiàn)有價值的信息，具有重要意義。文本分類面臨的首要問題是如何在確保分類準確率的同時縮短分類時間。提出使用分類模型FastText學習單詞特征以解決該問題，同時在數(shù)據(jù)集上使用停用詞處理方法降低噪聲數(shù)據(jù)對分類模型的影響。實驗結(jié)果表明，使用FastText文本分類模型在數(shù)據(jù)集上準確率達到96.11%，比傳統(tǒng)模型提高近4%，且模型處理每條文本的平均時間為1.5ms，縮短了約1/3。

關(guān)鍵詞：文本分類;詞向量;FastText;停用詞;噪聲數(shù)據(jù)

DOI：10. 11907/rjdk. 192499

中圖分類號：TP301 ? 文獻標識碼：A??????????????? 文章編號：1672-7800（2020）003-0044-04

Research on News Text Classification Based on FastText

ZHANG Chao-chao， LU Xin-ming

（College of Computer Science and Engineering， Shandong University of Science and Technology，Qingdao 266590，China）

Abstract： With the rapid increase of the amount of data， textual data accounts for a large proportion. Text classification， as the most common text mining technology， is of great significance for finding valuable information in a large amount of messy text data. In the field of text classification， the primary goal is to reduce the classification time while ensuring the classification accuracy. Therefore， this paper uses the classification model FastText to learn the word features to solve the current problem. In addition， a stop word processing method is used to reduce the influence of noise data on the classification model. The experimental results show that the accuracy rate of FastText text classification model is 96.11%， which is nearly 4% higher than the traditional model. Furthermore the time spent by the model in processing each text was 1.5m/s on average， which was reduced by about 1/3.

Key Words： text classification; term vectors; FastText; stop words; noise data

0 引言

文本分類最初使用基于特定規(guī)則[1]的方法。先收集關(guān)于待分類文本領(lǐng)域內(nèi)專家知識和經(jīng)驗，將其組織成一系列分類規(guī)則[2]，然后根據(jù)這些分類規(guī)則進行文本分類。文獻[3]使用基于降噪自動編碼器的中文文本分類方法;文獻[4]提出一種基于維基百科的文本分類規(guī)則。雖然這些分類方法處理特定領(lǐng)域的文本有很好的效果，但概括分類領(lǐng)域所有知識并制定相關(guān)分類規(guī)則需消耗大量人力成本，所以該類方法適用性較差。此外，當文本無法依照現(xiàn)有規(guī)則進行分類時，需重新獲取文本并歸納規(guī)則再進行分類，因此該類方法泛化性也較差。相比而言，本文FastText模型無需較多人工訓練模型，僅對訓練數(shù)據(jù)集作簡單的預處理后即可放入模型進行訓練，且在新分類任務出現(xiàn)時，模型只需更新迭代訓練之后即可完成新任務，大幅降低了人力、物力成本。

隨著人工智能的飛速發(fā)展，機器學習算法在文本分類中的應用成為自然語言處理研究熱點。文獻[5]提出將Word2vec應用于文本分類研究;文獻[6]采用LDA與SVM算法結(jié)合的文本分類。這些方法將文本數(shù)據(jù)改為以向量的形式輸入，所有數(shù)據(jù)被分為一定比例的訓練集和測試集，利用分類模型進行訓練和測試，并將模型分類結(jié)果與原有類別對比作為分類算法效果的證明。目前已有多種機器學習算法應用于文本分類。趙剛等[7]在基于機器學習的商品評論情感分析模型研究中，通過集群技術(shù)刪除數(shù)據(jù)集中的正面例子以得到更多負面例子，使用改進的詞頻率逆文檔頻率（tf-idf）進行特征提取，與支持向量機相結(jié)合改進Rocchio分類器構(gòu)建，以提高分類準確性。但是這類方法大都忽略了詞與詞之間的句法形態(tài)，導致最終分類效果只能在90%左右。本文FastText模型通過學習單詞特征，關(guān)聯(lián)上下文單詞詞義并將其作為分類結(jié)果，使詞頻不同但相互之間有所聯(lián)系的單詞在分類任務中發(fā)揮一定作用。

其中σ（？）表示 Sigmoid 函數(shù)[4]，LC（n）表示 n 節(jié)點的左孩子，[x]是一個特殊函數(shù)，其定義如式（5）所示。

[θn（yj，l）]為節(jié)點[n（yj，l）]的參數(shù)。X是輸入。從根節(jié)點到[y2]的路徑長度為[L（y2）=4]。這樣在經(jīng)過分層Softmax處理之后，模型計算復雜度從[O（k）]降低至[O（log（k））]，資源耗費大幅降低。

3 實驗與分析

3.1 實驗數(shù)據(jù)

本文數(shù)據(jù)集包括來自搜狗新聞的50 000條訓練集與10 000條測試集，分別有體育、財經(jīng)、房產(chǎn)、家居、教育、科技、時尚、時政、游戲和娛樂10個類別。

因為新聞數(shù)據(jù)集為中文文本，分詞工具為Python中jieba分詞工具，jieba分詞有3種模式，本文根據(jù)實際文本序列長度，采用其中的精確模式，jieba分詞前后文本樣例如圖3所示。

為降低文本分類器計算復雜度、提高分類器分類效率，需在將文本語料轉(zhuǎn)化為特征向量前對文本作降維處理，方法為去掉文本中對分類沒有意義的停用詞和低頻詞，同時去掉文本中的表情、網(wǎng)址、特殊符號，以減小特征詞典大小，減少噪音數(shù)據(jù)對分類模型的影響。

3.2 實驗結(jié)果

由圖4、圖5可知，分類器在測試集上的測試結(jié)果比較理想，精確率為96.11%，閾值為60%時，精確率為?? 0.985 2%，召回率為0.966 1%，F(xiàn)1分數(shù)為0.975 6%。本文數(shù)據(jù)集文本質(zhì)量相對較好，所以訓練后的分類器在測試集上的表現(xiàn)比較好，測試集每條文本對應的測試label打分均相對較高。

4 結(jié)語

本文首先簡要介紹了常用文本分類方法，然后闡述了文本分類理論與技術(shù)。根據(jù)新聞文本特點，在新聞文本預處理過程中，將地點名詞加入到常用停用詞表中，去除了更多對文本表達無意義的詞，分類效果得以改進。通過實驗數(shù)據(jù)綜合對比，可以觀察到本文提出的FastText算法模型與傳統(tǒng)機器學習算法相比，在訓練速度、預測速度和準確率上均有明顯提升，證明本文模型具有較高的使用價值。

參考文獻：

[1]段旭磊，張仰森，孫祎卓. 微博文本的句向量表示及相似度計算方法研究[J]. 計算機工程，2017， 43（5）： 143-148.

[2]范云杰，劉懷亮. 基于維基百科的中文短文本分類研究[J]. 現(xiàn)代圖書情報技術(shù)，2012（3）：47-52.

[3]劉紅光，馬雙剛，劉桂鋒. 基于降噪自動編碼器的中文新聞文本分類方法研究[J]. 現(xiàn)代圖書情報技術(shù)， 2016（6）： 12-19.

[4]趙輝，劉懷亮. 一種基于維基百科的中文短文本分類算法[J]. 圖書情報工作，2013，57（11）： 120-124.

[5]張謙，高章敏，劉嘉勇. 基于Word2vec的微博短文本分類研究[J]. 信息網(wǎng)絡安全， 2017（1）： 57-62.

[6]宋鈺婷，徐德華. 基于LDA和SVM 的中文文本分類研究[J]. 現(xiàn)代計算機（專業(yè)版），2016（5）： 18-23.

[7]趙剛，徐贊. 基于機器學習的商品評論情感分析模型研究[J]. 信息安全研究， 2017， 3（2）： 166-170.

[8]金志剛，韓玥，朱琦. 一種結(jié)合深度學習和集成學習的情感分析模型[J]. 哈爾濱工業(yè)大學學報，2018， 50（11）： 32-39.

[9]梁喜濤，顧磊. 中文分詞與詞性標注研究[J]. 計算機技術(shù)與發(fā)展，2015，25（2）：175-180.

[10]徐戈，王厚峰. 自然語言處理中主題模型的發(fā)展[J]. 計算機學報，2011，34（8）：1423-1436.

[11]劉德喜，聶建云，張晶，等. 中文微博情感詞提取：N-Gram為特征的分類方法[J]. 中文信息學報， 2016， 30（4）： 193-205， 212.

[12]萬紅新，彭云，鄭睿穎. 時序化LDA的輿情文本動態(tài)主題提取[J]. 計算機與現(xiàn)代化， 2016（7）： 91-94.

[13]李鵬，于巖，李英樂，等. 基于權(quán)重微博鏈的改進LDA微博主題模型[J]. 計算機應用研究，2016， 33（7）：2018-2021.

[14]KORDE V，MAHENDER C N. Text classification and classifiers： a survey[J]. International Journal of Artificial Intelligence & Applications （IJAIA）， 2012，3（2）：86-99.

[15]CARPENTER B. Integrating out multinomial parameters in latent Dirichlet allocation and naive Bayes for collapsed Gibbs sampling[R]. ALIAS：2010.

[16]GOUDJIL M， KOUDIL M， BEDDA M， et al. A novel active learning method using SVM for text classification[J]. International Journal of Automation & Computing， 2015（1）： 1-9.

[17]TONG S，KOLLER D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research，2001，2（11）：45-66.

[18]BAHASSINE S， MADANI A， KISSI M. An improved Chi-sqaure feature selection for Arabic text classification using decision tree[C]. International Conference on Intelligent Systems： Theories and Applications，2016： 2378-2536.

[19]SCHAPIRE R E，SINGER Y. Machine learning[M]. Cambridge：MIT Press，2000.

[20]MARUF S， JAVED K， BABRI H A. Improving text classification performance with random forests-based feature selection[J]. Arabian Journal for Science & Engineering， 2016， 41（3）： 951-964.

（責任編輯：江艷）

收稿日期：2019-11-14

基金項目：國家重點研發(fā)計劃項目（2017YFC0804406）;山東省重點研發(fā)計劃項目（2016ZDJS02A05）

作者簡介：張超超（1994-），男，山東科技大學計算機科學與工程學院碩士研究生，研究方向為自然語言處理;盧新明（1961-），男，博士，山東科技大學計算機科學與工程學院教授、博士生導師，研究方向為數(shù)字礦山軟件、CAD、計算機圖形學。

軟件導刊2020年3期

軟件導刊的其它文章: 基于神經(jīng)元網(wǎng)絡PID整定的電液位置伺服系統(tǒng); 基于Android的“社交+自適應推薦”閱讀APP設計與實現(xiàn); 大數(shù)據(jù)實體識別相關(guān)技術(shù)研究; 融合情感符號的自注意力BLSTM情感分析; 基于半監(jiān)督學習與CRF的應急預案命名實體識別; 基于改進HOG算法的AGV小車避障研究