龔維印,韋旭勤



摘要:針對單一CNN網(wǎng)絡在新聞文本分類中容易忽略上下文的語義信息,分類準確率低的問題,同時結(jié)合CNN和BiLSTM的優(yōu)點,提出一種基于BiLSTM-CNN模型的新聞文本方法。該模型先使用Word2Vec中的Skip-gram模型對數(shù)據(jù)中的詞進行映射處理,轉(zhuǎn)換為固定維度的向量;再利用BiLSTM捕捉雙向的語義信息;最后將BiLSTM模型提取的特征與詞嵌入的特征進行拼接作為CNN的輸入,使用大小為2,3,4的卷積核進行卷積。在THUCNews和SougouCS兩個公開的數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,融合的BiLSTM-CNN模型在新聞文本分類效果上優(yōu)于BiLSTM、CNN模型。
關鍵詞:文本分類;CNN;BiLSTM;Word2Vec
中圖分類號:TP391.1? ?文獻標識碼:A
文章編號:1009-3044(2021)21-0105-03
開放科學(資源服務)標識碼(OSID):
News Text Classification Method Based on BiLSTM-CNN Model
GONG Wei-yin,WEI Xu-qin
(School of Mathematics and Computer Science, Liupanshui Normal University, Liupanshui 553004, China)
Abstract: To solve the problem that a single CNN network is easy to ignore the semantic information of context in news text classification and the classification accuracy is low. At the same time, combined with the advantages of CNN and BiLSTM, a news text method based on BiLSTM-CNN model is proposed. The model uses the Skip-gram model in the Word2Vec to map the words in the data and convert them into fixed dimension vectors, and then uses the BiLSTM to capture bidirectional semantic information. Finally, the features extracted from the BiLSTM model are spliced with the embedded features as the CNN input, and the convolution kernel is used. the experiment is carried out on two open data sets of THUCNews and SougouCS. the experimental results show that the fused BiLSTM-CNN model is superior to the BiLSTM、CNN model in the classification effect of news text.
Key words: Text Classification; Convolutional Neural Network; Bi-directional Long Short-Term Memory; Word2Vec
1 引言
在互聯(lián)網(wǎng)及電子產(chǎn)品發(fā)展的同時,電子新聞也成為人們獲取信息的重要來源。面對日益呈爆炸式增長的電子新聞文本數(shù)據(jù),造成信息過量而知識匱乏的現(xiàn)象。因此,如何將海量雜亂無章的數(shù)據(jù)進行高效管理,從中快速挑選出具有價值的文本信息?這就凸顯了文本分類技術的重要性。
文本分類即是指通過特定的學習機制,學習大規(guī)模分類樣本數(shù)據(jù)的潛在規(guī)則,再根據(jù)該規(guī)則將新的樣本分配到一個或多個類別里面。其主要流程有數(shù)據(jù)預處理,文本表示,特征提取和分類器的構建等。傳統(tǒng)的文本分類通常是將詞袋法(Bag-of-Word)與機器學習算法相結(jié)合,其詞袋法則是把每篇文檔看作由多個詞組成,詞與詞之間相互獨立,忽略其語法、語序和語義信息[1],但是基于詞袋法的文本分類存在特征維數(shù)高,數(shù)據(jù)稀疏等問題,無法準確表示上下文語義信息。文本分類中常用于分類器構造的機器學習算法有:支持向量機(SVM)[2]、K-最近鄰(KNN)[3]和樸素貝葉斯(NB)[4]等分類算法。
現(xiàn)今社會高速發(fā)展,大數(shù)據(jù)時代已穩(wěn)步前進,其深度學習在圖像處理、語音識別等復雜對象中取得的優(yōu)異成績。而眾多研究者早已將深度學習應用到自然語言處理中。面對海量的文本數(shù)據(jù),2013年谷歌提出Word2Vec詞向量工具,能夠?qū)⒏呔S的詞向量映射到固定維度的空間。Kim等人[5]于2014年通過Word2Vec訓練詞向量,使用詞嵌入的方法將文本中的詞轉(zhuǎn)換為固定維度的詞向量矩陣,然后將其作為卷積神經(jīng)網(wǎng)絡的輸入,最后使用不同尺寸的卷積核進行局部特征提取,有效證明詞向量的有效性。同年,Kalchbrenner等人[6]根據(jù)MaxPooling的原理設計了K-MaxPooling池化,即設置一定大小的滑動窗口,在每次滑動過程中提取特征值排名靠前的K個特征值,此方法逐漸應用到各個領域。Zhou等人[7]于2015年考慮上下文的語義信息,彌補了CNN上下文信息缺失的問題,結(jié)合CNN和LSTM的優(yōu)點,將其應用到文本情感分析中,這一研究取得了較好的效果。