999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BiLSTM-CNN模型的新聞文本分類

2021-09-23 07:20:04龔維印,韋旭勤
電腦知識與技術 2021年21期

龔維印,韋旭勤

摘要:針對單一CNN網(wǎng)絡在新聞文本分類中容易忽略上下文的語義信息,分類準確率低的問題,同時結(jié)合CNN和BiLSTM的優(yōu)點,提出一種基于BiLSTM-CNN模型的新聞文本方法。該模型先使用Word2Vec中的Skip-gram模型對數(shù)據(jù)中的詞進行映射處理,轉(zhuǎn)換為固定維度的向量;再利用BiLSTM捕捉雙向的語義信息;最后將BiLSTM模型提取的特征與詞嵌入的特征進行拼接作為CNN的輸入,使用大小為2,3,4的卷積核進行卷積。在THUCNews和SougouCS兩個公開的數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,融合的BiLSTM-CNN模型在新聞文本分類效果上優(yōu)于BiLSTM、CNN模型。

關鍵詞:文本分類;CNN;BiLSTM;Word2Vec

中圖分類號:TP391.1? ?文獻標識碼:A

文章編號:1009-3044(2021)21-0105-03

開放科學(資源服務)標識碼(OSID):

News Text Classification Method Based on BiLSTM-CNN Model

GONG Wei-yin,WEI Xu-qin

(School of Mathematics and Computer Science, Liupanshui Normal University, Liupanshui 553004, China)

Abstract: To solve the problem that a single CNN network is easy to ignore the semantic information of context in news text classification and the classification accuracy is low. At the same time, combined with the advantages of CNN and BiLSTM, a news text method based on BiLSTM-CNN model is proposed. The model uses the Skip-gram model in the Word2Vec to map the words in the data and convert them into fixed dimension vectors, and then uses the BiLSTM to capture bidirectional semantic information. Finally, the features extracted from the BiLSTM model are spliced with the embedded features as the CNN input, and the convolution kernel is used. the experiment is carried out on two open data sets of THUCNews and SougouCS. the experimental results show that the fused BiLSTM-CNN model is superior to the BiLSTM、CNN model in the classification effect of news text.

Key words: Text Classification; Convolutional Neural Network; Bi-directional Long Short-Term Memory; Word2Vec

1 引言

在互聯(lián)網(wǎng)及電子產(chǎn)品發(fā)展的同時,電子新聞也成為人們獲取信息的重要來源。面對日益呈爆炸式增長的電子新聞文本數(shù)據(jù),造成信息過量而知識匱乏的現(xiàn)象。因此,如何將海量雜亂無章的數(shù)據(jù)進行高效管理,從中快速挑選出具有價值的文本信息?這就凸顯了文本分類技術的重要性。

文本分類即是指通過特定的學習機制,學習大規(guī)模分類樣本數(shù)據(jù)的潛在規(guī)則,再根據(jù)該規(guī)則將新的樣本分配到一個或多個類別里面。其主要流程有數(shù)據(jù)預處理,文本表示,特征提取和分類器的構建等。傳統(tǒng)的文本分類通常是將詞袋法(Bag-of-Word)與機器學習算法相結(jié)合,其詞袋法則是把每篇文檔看作由多個詞組成,詞與詞之間相互獨立,忽略其語法、語序和語義信息[1],但是基于詞袋法的文本分類存在特征維數(shù)高,數(shù)據(jù)稀疏等問題,無法準確表示上下文語義信息。文本分類中常用于分類器構造的機器學習算法有:支持向量機(SVM)[2]、K-最近鄰(KNN)[3]和樸素貝葉斯(NB)[4]等分類算法。

現(xiàn)今社會高速發(fā)展,大數(shù)據(jù)時代已穩(wěn)步前進,其深度學習在圖像處理、語音識別等復雜對象中取得的優(yōu)異成績。而眾多研究者早已將深度學習應用到自然語言處理中。面對海量的文本數(shù)據(jù),2013年谷歌提出Word2Vec詞向量工具,能夠?qū)⒏呔S的詞向量映射到固定維度的空間。Kim等人[5]于2014年通過Word2Vec訓練詞向量,使用詞嵌入的方法將文本中的詞轉(zhuǎn)換為固定維度的詞向量矩陣,然后將其作為卷積神經(jīng)網(wǎng)絡的輸入,最后使用不同尺寸的卷積核進行局部特征提取,有效證明詞向量的有效性。同年,Kalchbrenner等人[6]根據(jù)MaxPooling的原理設計了K-MaxPooling池化,即設置一定大小的滑動窗口,在每次滑動過程中提取特征值排名靠前的K個特征值,此方法逐漸應用到各個領域。Zhou等人[7]于2015年考慮上下文的語義信息,彌補了CNN上下文信息缺失的問題,結(jié)合CNN和LSTM的優(yōu)點,將其應用到文本情感分析中,這一研究取得了較好的效果。

主站蜘蛛池模板: 91精品在线视频观看| 日本午夜三级| 国产成年无码AⅤ片在线 | 精品久久777| 久久先锋资源| 国产精品永久在线| a级免费视频| 999国产精品永久免费视频精品久久| 免费国产在线精品一区| 中文字幕永久在线看| 欧美国产成人在线| 日韩欧美国产三级| 亚洲三级成人| 久久黄色毛片| 日韩欧美国产精品| 国产在线日本| 最新国产你懂的在线网址| 国产精品美女网站| 夜夜拍夜夜爽| 亚洲最大福利网站| 亚洲国产天堂久久综合226114| 成人a免费α片在线视频网站| 狠狠色丁香婷婷综合| 日韩在线成年视频人网站观看| 色噜噜综合网| 在线观看免费AV网| 亚洲国产91人成在线| 日韩 欧美 小说 综合网 另类| 国产激情无码一区二区三区免费| 日本不卡在线视频| 91成人在线免费观看| 午夜精品区| 91精品国产一区自在线拍| 色成人亚洲| 精品国产欧美精品v| 日本道综合一本久久久88| 亚洲VA中文字幕| 尤物视频一区| 日本一本正道综合久久dvd| 国产精品亚洲欧美日韩久久| 99热精品久久| 精品国产一区二区三区在线观看| 色综合五月| 国产乱视频网站| 欧美精品亚洲精品日韩专区va| 亚洲美女AV免费一区| 日韩 欧美 国产 精品 综合| 亚洲男女在线| 欧美日韩在线观看一区二区三区| 全午夜免费一级毛片| 九九精品在线观看| 亚洲欧美一区二区三区图片| 无码人妻免费| 欧美日本在线一区二区三区| 不卡视频国产| 色哟哟国产精品一区二区| 真人免费一级毛片一区二区 | 国产成年女人特黄特色毛片免| 日本高清有码人妻| 露脸国产精品自产在线播| 女同久久精品国产99国| 伊人久久大香线蕉影院| 爱爱影院18禁免费| 日韩成人在线视频| 中文字幕久久波多野结衣 | 54pao国产成人免费视频| 免费观看成人久久网免费观看| 久久久亚洲色| 伊人久久大线影院首页| 日本少妇又色又爽又高潮| 亚洲欧美日韩成人在线| 国产噜噜在线视频观看| 毛片在线看网站| 高清无码不卡视频| 国产美女精品一区二区| 亚洲人在线| 亚洲国产高清精品线久久| 国产美女精品一区二区| 久久黄色一级视频| 超碰91免费人妻| 91区国产福利在线观看午夜 | 香蕉伊思人视频|