中文文本分類方法綜述

2019-10-18 11:30:56于游付鈺吳曉平

網絡與信息安全學報 2019年5期

關鍵詞：分類特征文本

于游，付鈺，吳曉平

中文文本分類方法綜述

于游，付鈺，吳曉平

（海軍工程大學信息安全系，湖北武漢 430033）

如何高效地文本分類是當前研究的一個熱點。首先對文本分類概念及流程中的分詞、特征提取和文本分類方法等相關技術及研究現狀進行了介紹和闡述，然后分析了現有文本分類相關技術面臨的挑戰，最后對文本分類的發展趨勢進行了總結。

文本分類；分詞；特征選擇

1 引言

隨著大數據、云計算等現代信息技術的發展，傳統的紙質文檔快速向電子化、數字化轉變。面對大量的數據和信息，人們越來越傾向于利用計算機對數據和信息進行處理，不但可以提高相關操作的效率，還可以在一定程度上提高相關操作的準確度。信息挖掘和檢索、自然語言處理是目前數據管理的關鍵技術，而文本分類則是這些技術進行操作的重要基礎，是目前研究的一個熱點，也是一個難點。傳統的文本分類主要依靠人工完成，費時費力，為提高文本分類的效率、降低成本，文本自動分類技術已成為當前研究的一個熱點。

2 文本分類的概念和過程

2.1 文本分類的概念

文本分類是指按照一定的分類體系或規則對文本實現自動劃歸類別的過程，在信息索引、數字圖書管理、情報過濾等領域有廣泛的應用[1]。文本分類一般包括文本預處理、分詞、模型構建和分類幾個過程。隨著互聯網技術的快速發展，文本和詞匯呈現出多元化、更新快的特點，這給文本分類帶來了巨大的挑戰。為更加清晰地了解文本分類算法的發展，本文針對文本分類過程中的相關技術和分類方法進行詳細的梳理和分析。

2.2 文本分類流程

文本分類的一般流程可分為5步，如圖1所示。

圖1 文本分類的一般流程

Step1 對文本進行預處理，去掉文本中多余的部分，如標點、介詞等。

Step2 對文本進行分詞操作，對預處理后的文本進行詞切分操作，并識別其中的未登錄詞。

Step3 特征提取和特征選擇，得到文本分詞結果后，選擇文本特征提取方法，并對特征進行選擇，約簡特征，盡量降低維度，減少后續計算量。

Step4 文本表示，選擇合適的方法表示選擇的特征，作為分類的依據。

Step5 文本分類，選擇合理的分類方法對文本進行分類，得到文本類別。其中，分詞方法、特征選擇以及分類算法的選擇是關鍵。結合當前文本分類研究現狀，本文主要對分詞方法、特征提取與特征選擇、文本分類方法進行綜述。

3 分詞

分詞是中文文本處理的第一步，指通過一定的規則和方法將文本中的語句分割成詞。相比于英文，中文詞與詞之間沒有嚴格的分界符，增加了中文分詞的難度。

3.1 分詞的一般方法

目前，中文分詞方法主要分為：基于字符串匹配的、基于理解的和基于統計的分詞方法。

（1）基于字符串匹配的分詞方法

基于字符串匹配[2]的分詞方法是指在已有字典的基礎上，按照指定的規則進行匹配，直到完成規則中的“最大”匹配，則識別出一個詞。按照匹配的方向不同，基于字符串匹配方式的不同又可以分為：正向最大匹配、逆向最大匹配、雙向最大匹配。

（2）基于理解的分詞方法

基于理解的分詞方法是指利用計算機模擬人對文本的理解，結合語義、句法等因素處理文本，從而實現分詞。基于理解的分詞方法需要大量的語言知識，由于中文文本自身的復雜性，該方法目前還難以實施。

（3）基于統計的分詞方法

基于統計的分詞方法[3]是指計算機通過計算字符串在語料庫的出現頻率對其是否構成詞進行判斷。隨著大量語料庫的出現及機器學習的不斷發展，基于統計的分詞方法是目前使用最廣泛的一種分詞方法。

3.2 分詞研究現狀

中文文本不同于英文文本，詞與詞之間沒有明顯的區分，增加了中文分詞的困難。在文本進行分詞處理時，常用的手段主要是：利用分詞工具直接對文本進行分詞操作、利用現有詞典進行分詞操作和通過算法建立分詞模型進而進行分詞操作。常用的分詞工具有：張華平等開發的ICTCIAS分詞系統[4]，其主要思想是通過隱馬爾可夫模型進行分詞，實現已有詞識別、簡單未登錄詞識別、詞性標注等功能，提高了分詞的準確性和效率，NLPIR分詞工具也是以此為基礎開發的，缺點是標準版本需要付費，提供的接口難以適用于JAVA；Jieba分詞工具是基于Trie樹結構采用動態規劃查找最大概率路徑的方法得到分詞結果，并采用基于隱馬爾可夫模型和Viterbi算法進行未登錄詞識別，是國內使用最多的中文分詞工具，缺點是在未登錄詞識別上存在缺陷，大部分需要用戶手動加入詞典；THULAC分詞工具[5]是由清華大學自然語言處理與社會人文計算實驗室研發，具備分詞和詞性標注等功能，計算能力強、速度快、準確率高，缺點是只支持UTF8編碼的中文文本。目前，常用的分詞詞典主要有《同義詞詞林（擴展版）》[6]《現代漢語語義詞典》《現代漢語語義詞典》《知網》[7]和《人民日報語料庫》等。

許多學者針對分詞工具存在的不足展開探索和研究，不斷完善中文文本分詞方法。針對未登錄詞識別問題，文獻[8]提出網絡輿情中的新詞識別方法，利用網絡輿情中未被詞典收錄的主題詞的局部高頻這一特性，通過計算異常分詞與周圍分詞之間的粘結度，識別出未被詞典收錄的主題詞，但該方法僅僅通過單個字分詞對異常分詞進行判斷和召回。文獻[9]針對短文本的特點，通過對條件隨機場中的標記選擇和特征做出了優化，提出一種基于條件隨機場的中文文本分詞方法，該算法可有效解決傳統CRF算法標記冗余的問題，并有良好的未登錄詞識別效果，但由于標記選擇的原因，其在不同長度詞的識別上有一定的局限。文獻[10]對未登錄詞識別方法做了進一步改進，利用互信息改進算法，提出一種非監督的詞識別方法，結合規則，可以在大規模語料中識別出指定長度的新詞。文獻[11]和文獻[12]都通過LSTM記憶單元和神經網絡模型，對分詞方法進行了改進，改進后的方法有效利用序列長距離信息和上下文信息，但算法復雜且神經網絡具有黑箱特性，不易于理解。

為提高中文文本分詞的速度，文獻[13]為提高中文分詞的速度，結合分組散列和正則表達式進行字符截取技術，提出基于分組Hash與變長匹配的中文分詞技術，大幅度降低了算法的時間復雜度。文獻[14]利用對抗訓練的思想，通過多目標集成學習的方法來學習多個異構標準的分詞語料集，利用不同標準的語料來提升分詞的效果，突破傳統側重于改進使用單個標準的語料下的分詞性能的方法，并通過實驗證明，相比單標準學習方法，模型在每個語料集上的性能都獲得了顯著改進。隨著深度學習技術不斷發展，越來越多的學習方法被應用到文本分類中。文獻[15]提出了一種CNN雙向GRU-CRF神經網絡模型，突破了傳統方法窗口的限制，有效地利用上下文信息，并通過偏差變量權重貪婪策略解決了在神經網絡學習中偏量的影響，縮短了中文分詞中模型的訓練時間，但易出現特征稀疏導致的過擬合現象。

近年來，許多學者在基于傳統分詞的基礎上，通過對算法改進和整合，提出多種分詞新方法。但目前實際應用中，廣泛使用的分詞手段還是已有的分詞工具進行初步分詞，再結合未登錄詞識別算法進一步進行操作。

隨著互聯網技術的迅速發展，網絡用語日新月異，海量新詞匯出現，給未登錄詞識別技術帶來了巨大的挑戰，且未登錄詞識別沒有一套標準的規范，增加了未登錄詞的識別難度。消除歧義詞往往需要利用上下文、語義等信息，而傳統的分詞方法往往忽略了文中的關聯信息，給歧義詞消除帶來了困難。分析可得出，中文分詞面臨的困難主要有3點：未登錄詞識別、歧義消除、效能提升。處理中文文本時，分詞往往是處理的第一步，如何快速實現對文本的精準分詞、提高效率，也是當前研究的一個熱點。

4 特征提取與特征選擇

特征提取和特征選擇作為特征工程的兩部分，是文本分類算法中的重要一步。特征提取主要是通過屬性間的關系，改變原特征空間，如組合不同屬性得到新的屬性；特征選擇則是對原特征空間中的特征進行篩選，沒有改變其原屬性。但兩者的核心目的都是為降低特征向量維度，目前常用的特征提取方法有PCA、LDA、SVD；常用的特征選擇方法主要有Filter、Wrapper、Embedded；本文對特征選擇方法做詳細介紹。

4.1 特征選擇的一般方法

(1) Filter法

Filter法[16]的主要思想是通過對每個特征賦予權重，根據其重要程度對特征進行選擇。目前常用的Filter法主要有：基于文檔頻率的方法、2統計量法、互信息方法和信息增益方法。

(2) Wrapper法

Wrapper法[17]的實質是將特征選擇問題作為尋優的問題，通過對不同組合進行評價和比較，選擇出最優的特征集合。目前常用的Wrapper方法主要有遺傳算法（GA）、粒子群優化（PSO）、優化蟻群算法（ACO）。

(3) Embedded法

Embedded法[18]是通過在建立模型的過程中，篩選出對提高模型準確度最有用的特征。

4.2 特征選擇研究現狀

針對傳統特征提取方法存在的不足，眾多學者展開了相關研究。針對傳統Filter算法存在的不足，文獻[19]提出一種基于特征重要度的文本特征加權方法，結合實數粗糙集理論定義特征重要度，在特征權重中引入特征對分類的決策信息。文獻[20]和文獻[21]分別采用基于類別分布信息和改進期望交差熵的方法，對特征提取算法進行了改進，可以提取出有較強區分能力的特征，有效地提高系統的分類效能。文獻[22]針對網頁內容，提出一種基于正則表達式的特征選取方法，能夠有效提取其中的強特征。

針對傳統Wrapper方法在特征選擇時存在的不足，對傳統算法進行了改進，取得了顯著效果。文獻[23]為解決高維數據處理困難，結合機器學習方法，提出一種多重遺傳算法的特征選擇方法，可以從大量冗余數據中提取出有用的特征信息，但文中的實驗數據是通過模擬產生的，在實際數據中使用的實驗效果有待進一步驗證。文獻[24]和文獻[25]對粒子群算法進行了優化，分別通過社團劃分和開方檢驗的方法對文本特征進行初步篩選，進而通過粒子群方法得到有效特征，提高了算法的準確率，對特征進行降維處理。基于傳統蟻群算法存在的不足，文獻[26]和文獻[27]對蟻群算法做了改進，分別結合SVM評價方法和線性遞減的方法動態調整觀察半徑，制定蟻群算法策略，提高了蟻群算法的效能，避免了傳統算法依賴最大迭代次數而消耗時間和運算空間的問題。

隨著機器學習和深度學習的不斷發展，越來越多學者傾向于采用學習的方法對文本特征進行篩選。文獻[28]提出卷積神經網絡增強特征選擇模型，將傳統特征評價方法對特征重要性的理解結合到神經網絡的學習過程中，能有效地對特征進行選擇。文獻[29]針對如何結合上下文信息挖掘信息重點，提出了一個序列匹配網。該網絡通過二維卷積神經網和循環神經網的耦合可以很好地對上下文建模并且抓住上下文中的關鍵點，可以過濾很多冗余信息。文獻[30] 將N-gram信息引入多種主流的詞向量模型中，不僅可以學習到更好的詞向量，同時還能得到高質量的N-gram向量，通過構建共現矩陣的方法降低N-gram的訓練復雜性，這些預訓練的向量對于后續NLP任務都是非常有用的資源。為解決文本特征稀疏的問題，學者開始將文本主題引入特征中。文獻[31]在LDA主題模型中引入了詞與詞的關系，提出了一種基于Topical N-Gram Model的特征提取方法，可通過對分詞粒度的調整，更加精確地對文本特征進行選擇，大大提升了短文本分類的效果，但該算法仍是以LDA算法為基礎進行詞和主題向量的嵌入，無法避免LDA算法的缺陷，不能有效解決原始文本特征稀疏的問題。文獻[32]提出基于Biterm Topic Model的文本主題表示方法，使用結構化的事件來表示主題，有效地解決了事件稀疏性問題。

面對大量文本樣本時，對其進行處理后得到的特征往往多而雜，這些特征中的大部分是一些無關特征，如何將其中的有效特征篩選出來，在高維特征中合理地選出高效特征，實現特征降維，從而提高后續操作的能效，是文本特征選擇面臨的一大挑戰。并且，隨著機器學習和深度學習的不斷發展，越來越多的方法和手段被應用于特征選擇算法中，但其融合的算法往往結構復雜、計算量大，如何有效降低算法的復雜度成了特征降維中的又一問題。

5 文本分類

文本分類是指利用計算機按照一定的分類標準或體系自動將文本分門別類[33]，它不僅是自然語言處理問題，也是一個模式識別問題。所以，研究文本分類問題不僅可以推動自然語言研究的發展，對人工智能技術的研究也有重大意義。

5.1 文本分類一般方法

文本分類一般分為兩種：基于知識工程（KE，knowledge engineering）的分類方法和基于機器學習（ML，machine learning）的分類方法。基于知識工程的分類方法是指通過專家經驗，依靠人工提取規則進行的分類；基于機器學習的分類方法是指通過計算機自主學習、提取規則進行的分類。應用最早的機器學習方法是樸素貝葉斯[34]，隨后，幾乎所有重要的機器學習算法在文本分類領域得到了應用，如支持向量機(SVM)[35]、神經網絡[36]和決策樹[37]等。

5.2 文本分類研究現狀

針對傳統文本分類方法存在的不足，眾多學者對文本分類方法展開研究，對其進行修正和改進。基于神經網絡算法在自然語言領域處理的優越性，文獻[38]分別使用神經網絡算法、KNN算法及SVM算法對Web文本進行分類，結果顯示神經網絡算法的準確度優于其他算法。相比于傳統的分類主要采用有監督的方法，依賴于現有的自然語言處理工具容易導致處理過程中的誤差累積問題，文獻[39]提出了基于卷積深層神經網絡的文本語義特征學習方法，利用卷積深層神經網絡，自動學習表征實體語義關系的詞匯特征、上下文特征以及實體所在的句子文本特征等，該方法不需要利用NLP處理工具抽取特征，極大地改善了特征抽取過程中多個處理環節所帶來的誤差累積問題，提高了文本分類的準確性。文獻[40]提出了一種基于表觀語義和ASLA的中文文本分類方法。利用百度百科對中文文本的表觀語義進行提取，進而采用pLSA挖掘潛在語義，并計算根據表觀語義和潛在語義與文檔對類別的相關程度，該方法能夠很好地處理中文網絡短文本等不規則文本的分類。為直接表達文本，文獻[41]提出了一種基于密集網的短文本分類模型，采用one-hot編碼，通過合并和隨機選擇的方法擴大文本特征選擇，解決了特征稀疏、維文本數據和特征表示等方面問題。文獻[42]和文獻[43]分別采用改進TF-IDF修改詞向量權重和人工建立詞典的方法，對文本分類算法進行優化，最終利用卷積神經網絡構造分類器，提高了文本分類的精度，但其對高階特征未進行合理的處置，導致學習的時間復雜度遠高于傳統的機器學習方法，還有待進一步改善。文獻[44]提出了一種基于深度學習的特征融合模型的文本分類方法，使用卷積神經網絡和雙向門控循環單元提取s間的語義特征信息，降低文本表示對分類結果的影響。

表1 各分類算法的優缺點

各分類算法的優缺點如表1所示。

現有的常用分類方法雖然在某些方面性能上能達到對文本分類的目標要求，但依舊存在算法效率不高、領域針對性差、學習過程易出現過擬合等問題，如何降低學習的時間、提高分類的效率、將不同分類方法的優點進行有機結合、實現高效準確的文本分類已是自然語言處理領域研究的熱點問題。

6 結束語

本文介紹了文本分類概念、流程、關鍵技術和分類方法，綜述了現有的研究和解決方法，結合目前文本分類過程中面臨的挑戰，總結了文本分類相關技術發展趨勢，如下。

1) 對文本特征的表示從離散、高維到連續、低維發展。傳統文本分類方法對文本進行描述時，一般通過詞的方式對其進行表示，隨著自然語言處理方法的不斷發展，文本表示越來越傾向于以短語、句子為中心的主題表示方法，該類方法可有效解決詞表示過程中的稀疏性問題。

2) 對文本的學習由淺層向深層發展。隨著機器學習和深度學習的不斷發展，文本處理方法開始由傳統的步驟式向整體學習轉變，對文本的理解由淺層分析到深度理解發展，大量機器學習和深度學習的方法被應用到文本分類過程中，如模糊神經網絡、卷積神經網絡[45]、循環神經網絡[46]等在文本分類中的應用越來越廣泛。

3) 文本分類方法由單一向集成發展。隨著文本分類技術的日益成熟，各種文本分類方法的優點和不足顯露出來，通過合理地融合不同分類方法，如boosting改進算法等，可以進一步優化文本分類方法。

[1] 鄭捷.NLP漢語自然語言處理原理與實踐[M]. 北京: 電子工業出版社,2017.

ZHENG J. NLP chinese natural language processing principle and practice [M]. Beijing: Publishing House of Electronics Industry, 2017.

[2] 常建秋, 沈煒. 基于字符串匹配的中文分詞算法的研究[J]. 工業控制計算機, 2016, 29(2): 115-116+119.

CHANG J Q, SHEN W. Research on chinese word segmentation algorithm based on string matching[J]. Industrial control computer, 2016, 29(2): 115-116+119.

[3] 鄒佳倫, 文漢云, 王同喜. 基于統計的中文分詞算法研究[J]. 電腦知識與技術, 2019, 15(4): 149-150+153.

ZOU J L, WEN H Y, WANG T X. Research on chinese word segmentation algorithm based on statistics[J]. Computer Knowledge and Technology, 2019, 15(4): 149-150+153.

[4] 劉群, 張華平, 俞鴻魁, 等. 基于層疊隱馬模型的漢語詞法分析[J]. 計算機研究與發展, 2004(8): 1421-1429.

LIU Q, ZHANG H P, YU H K, et al. Chinese lexical analysis model using cascading hidden horse model[J]. Journal of Computer Research and Development, 2004(8): 1421-1429.

[5] 孫茂松, 陳新雄, 張開旭, 等. THULAC: 一個高效的中文詞法分析工具包[R]. 2016.

SUN M S, CHEN X X, ZHANG K X et al. THULAC: an efficient Chinese lexical analysis toolkit[R]. 2016.

[6] 熊回香, 葉佳鑫. 基于同義詞詞林的社會化標簽等級結構構建研究[J]. 情報雜志, 2018, 37(1): 126-131.

XIONG H X, YE J X. Research onStructure construction of social tags TongYiCi CiLin[J].Journal of Information,2018, 37(1) : 126-131.

[7] XIE R, YUAN X, LIU Z, et al. Lexical sememe prediction via word embeddings and Matrix factorization[C]//The 26th International Joint Conference on Artificial Intelligence. 2017: 4200-4206.

[8] 唐籍濤, 李飛, 郭昌松. 網絡輿情監控中新詞識別問題的研究[J]. 計算機技術與發展, 2012, 22(1): 119-121+125.

TANG J T, LI F, GUO C S. Research on new word pattern recognition in network monitoring public opinion[J].Computer Technology and Development, 2012, 22(01): 119-121+125.

[9] 劉澤文, 丁冬, 李春文. 基于條件隨機場的中文短文本分詞方法[J]. 清華大學學報(自然科學版), 2015, 55(08): 906-910+915.

LIU Z W, DING D, LI C W. A chinese short text word segmentation method based on conditional random fields[J]. Journal of Tsinghua University(Science and Technology), 2015, 55(8): 906- 910+915.

[10] 杜麗萍, 李曉戈, 于根, 等. 基于互信息改進算法的新詞發現對中文分詞系統改進[J]. 北京大學學報(自然科學版), 2016, 52(01): 35-40.

DU L P, LI X G, YU G, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system[J]. Journal of Peking University(Natural Science), 2016, 52(01): 35-40.

[11] 胡婕, 張俊馳. 雙向循環網絡中文分詞模型[J]. 小型微型計算機系統, 2017, 38(3): 522-526.

HU J, ZHANG J C. Bidirectional recurrent network for chinese word segmentation[J]. Journal of Chinese Computer Systems, 2017, 38(3): 522-526.

[12] ZHANG Y N, XU J N, MIAO G Y, et al. Improving neural chinese word segmentation using unlabeled data[J]. IOP Conference Series: Materials Science and Engineering, 2018, 435(1).

[13] 楊光豹, 楊豐赫, 毛貴軍. 基于分組hash與變長匹配的中文分詞技術[J]. 計算機時代, 2019(4): 52-55.

YANG G B, YANG F H, MAO G J. Chinese word segmentation technology based on group hash and variable length matching[J]. Computer Age, 2019(4): 52-55.

[14] CHEN X C, SHI Z, QIU X P, et al. Adversarial multi-criteria learning for chinese word segmentation[C]//ACL2017:Computation and Language. 2017.

[15] YU C H, WANG S P, GUO J J. Learning chinese word segmentation based on bidirectional GRU-CRF and CNN network model[J]. International Journal of Technology and Human Interaction (IJTHI), 2019, 15(3).

[16] DARSHAN S L, JAIDHAR C D. Performance evaluation of filter-based feature selection techniques in classifying portable executable files[J]. Procedia Computer Science, 2018, 125: 346-356.

[17] HANCER E. Differential evolution for feature selection: a fuzzy wrapper–filter approach[J]. Soft Computing,2019,23(13): 5233-5248.

[18] MALDONADO S, LóPEZ J. Dealing with high-dimensional class-imbalanced datasets: embedded feature selection for SVM classification[J]. Applied Soft Computing, 2018(67): 228-246.

[19] 劉赫, 劉大有, 裴志利, 等.一種基于特征重要度的文本分類特征加權方法[J]. 計算機研究與發展, 2009, 46(10): 1693-1703.

LIU H, LIU D Y, YAN Z L, et al. A Feature weighting scheme for text categorization based on feature importance[J]. Journal of Computer Research and Development, 2009, 46(10): 1693-1703.

[20] 靖紅芳, 王斌, 楊雅輝, 等. 基于類別分布的特征選擇框架[J].計算機研究與發展, 2009, 46(9): 1586-1593.

JING H F, WANG B, YANG Y H, et al. Category distribution-based feature selection framework [J]. Journal of Computer Research and Development, 2009, 46(9): 1586-1593.

[21] 單麗莉, 劉秉權, 孫承杰. 文本分類中特征選擇方法的比較與改進[J]. 哈爾濱工業大學學報, 2011, 43(S1): 319-324.

SHAN L L, LIU B Q, SUN C J. Comparison and improvement of feature selection methods in text categorization[J].Journal of Harbin Institute of Technology,2011,43(S1):319-324.

[22] 王正琦, 馮曉兵, 張馳. 基于兩層分類器的惡意網頁快速檢測系統研究[J]. 網絡與信息安全學報, 2017, 3(8): 48-64.

WANG Z Q, FENG X B, ZHANG C. Study of high-speed malicious web pages detection system based on two-type classifier[J].Journal of Network and Information Security,2017,3(8):48-64.

[23] 蔣勝利. 高維數據的特征選擇與特征提取研究[D]. 西安: 西安電子科技大學,2011.

JIANG S L. Research on feature selection and feature extraction of high dimensional data[D]. Xi’an: Xidian University, 2011.

[24] 李煒, 巢秀琴. 改進的粒子群算法優化的特征選擇方法[J]. 計算機科學與探索, 2019, (6): 990-1004.

LI W, CAI X Q. Improved particle swarm optimization method for feature[J]. Journal of Frontiers of Computer Science and Technology, 2019, (6): 990-1004.

[25] 路永和, 曹利朝. 基于粒子群優化的文本特征選擇方法[J]. 現代圖書情報技術, 2011, (Z1): 76-81.

LU Y H, CAO L C. Text feature selection method based on particle swarm optimization[J]. New Technology of Library and Information Service, 2011, (Z1): 76-81.

[26] 張杰慧, 何中市, 王健, 等. 基于自適應蟻群算法的組合式特征選擇算法[J]. 系統仿真學報, 2009, 21(6): 1605-1608+1614.

ZHANG J H, HE Z S, WANG J, et al. Hybrid feature selection algorithm based on adaptive ant colony algorithm[J]. Journal of System Simulation, 2009, 21(6): 1605-1608+1614.

[27] 張海濤. 基于文本降維和蟻群算法的文本聚類研究[D]. 合肥: 安徽大學, 2016.

ZHANG H T. Research on text clustering based on text dimension reduction and ant colony algorithm [D]. Hefei: Anhui University, 2016.

[28] 盧泓宇, 張敏, 劉奕群, 等. 卷積神經網絡特征重要性分析及增強特征選擇模型[J]. 軟件學報, 2017, 28(11): 2879-2890.

LU Y Y, ZHANG M, LIU Y Q, et al. Convolutional neural networks importance analysis and feature selection enhanced model [J]. Journal of Software, 2017, 28(11): 2879-2890.

[29] WU Y, WU W, XING C, et al. Sequential matching network: a new architecture for multi-turn response selection in retrieval-based chatbots[C]//ACL 2017: Computation and Language. 2017.

[30] ZHAO Z，LIU T, LI S, et al. Ngram2vec: learning improved word representations from ngram co-occurrence statistics[C]//Conference on Empirical Methods in Natural Language Processing. 2017: 244-253.

[31] 趙芃. 基于主題模型與深度學習的短文本特征擴展與分類研究[D]. 天津: 天津工業大學, 2018.

ZHAO P. Research on short text feature expansion and classification based on topic model and deep learning [D]. Tianjin: Tianjin Polytechnic University, 2018.

[32] 孫銳, 郭晟, 姬東鴻. 融入事件知識的主題表示方法[J].計算機學報,2017,40(4):791-804.

SUN R, GUO W, JI D H. Topic representation integrated method of integrating with event knowledge[J].Chinese Journal of Computers, 2017, 40(4): 791-804.

[33] 李森, 馬軍, 趙嫣, 等. 對數字化科技論文的自動分類研究[J].山東大學學報(理學版), 2006(3): 81-84.

LI S, MA J, ZHAO Y, et al. Automatic classification of digital science and technology papers[J]. Journal of Shandong University(Science Edition), 2006(3): 81-84.

[34] CUI W. A chinese text classification system based on naive bayes algorithm[C]//MATEC Web of Conferences. 2016: 1015.

[35] ZHANG M Y, AI X B, HU Y Z. Chinese text classification system on regulatory information based on SVM[C]//IOP Conference Series: Earth and Environmental Science. 2019: 252.

[36] SAHA D. Web text classification using a neural network[C]//2011 Second International Conference on,2011.

[37] 雷飛. 基于神經網絡和決策樹的文本分類及其應用研究[D]. 成都: 電子科技大學, 2018.

LEI F. Text research on text classification based on neural network and decision tree and its application [D]. Chengdu: University of Electronic Science and Technology of China, 2018.

[38] 周樸雄.基于神經網絡集成的Web文檔分類研究[J]. 圖書情報工作, 2008, (7): 110-112.

ZHOU P X. Study on Web document classification based on neural network integration[J]. Library and Information Service, 2008, (7): 110-112.

[39] ZENG D J, LIU K, LAI S W, et.cl. relation classification via convolutional deep neural network[C]//The 25th international Computational Linguistics: 2014: 2335-2344.

[40] CHEN Y W, WANG J L, CAI Y Q , et al. A method for chinese text classification based on apparent semantics and latent aspects[J]. Journal of Ambient Intelligence and Humanized Computing, 2015, 6(4): 473-480.

[41] LI H M, HUANG H N, CAO X, et al. Falcon: a novel chinese short text classification method[J]. Journal of Computer and Communications, 2018, 6: 216-226.

[42] 王根生, 黃學堅. 基于Word2vec和改進型TF-IDF的卷積神經網絡文本分類模型[J]. 小型微型計算機系統, 2019, 40(5): 1120-1126.

WANG G S, HUANG X J. Convolutional neural network text classification model based on Word2vec and improved TF-IDF[J]. Journal of Chinese Computer Systems, 2019, 40(5): 1120-1126.

[43] 王磊. 基于混合神經網絡的中文短文本分類方法研究[D]. 杭州: 浙江理工大學, 2019.

WANG L. Research on chinese short text classification based on hybrid neural network[D]. Hangzhou: Zhejiang University of Science and Technology, 2019.

[44] JIN W Z, ZHU H, YANG G C. An efficient character-level and word-level feature fusion method for chinese text classification[C]// Journal of Physics: Conference Series. 2019: 12057.

[45] WANG P, XU B, XU J M, et al. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J]. Neurocomputing, 2016, 174: 806-814.

[46] 龔千健. 基于循環神經網絡模型的文本分類[D]. 武漢: 華中科技大學, 2016.

GONG Q J. Text Classification based on recurrent neural network model[D]. Wuhan: Huazhong University of Science and Technology, 2016.

Summary of text classification methods

YU You, FU Yu, WU Xiaoping

Department of Information Security, Naval University of Engineering, Wuhan 430033, China

How to effectively classify text has become a hot topic. Firstly, the concept of text classification, word segmentation, feature extraction and text classification methods were introduced, and the research actuality was summarized. And then the challenges of text classification related technologies were analyzed. Finally, the development trend of text classification was summarized.

text classification, word segmentation, feature selection

于游（1995? ），女，山東威海人，海軍工程大學碩士生，主要研究方向為信息安全。

付鈺（1982? ），女，湖北武漢人，博士，海軍工程大學副教授，主要研究方向為信息安全風險評估。

吳曉平（1961? ），男，山西新絳人，博士，海軍工程大學教授、博士生導師，主要研究方向為系統分析與決策。

TP391

10.11959/j.issn.2096?109x.2019045

2019?05?25；

2019?08?09

于游，874354471@qq.com

國家自然科學基金資助項目（No.61672531）

The National Natural Science Foundation of China (No.61672531)

于游, 付鈺, 吳曉平. 中文文本分類方法綜述[J]. 網絡與信息安全學報, 2019, 5(5): 1-8.

YU Y, FU Y, WU X P. Summary of text classification methods[J]. Chinese Journal of Network and Information Security, 2019, 5(5): 1-8.