999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類研究

2019-05-22 09:26:08陸正球毛煥宇王海穎
無線互聯(lián)科技 2019年6期

陸正球 毛煥宇 王海穎

摘 要:隨著移動互聯(lián)網(wǎng)的發(fā)展,如何從大量的文本中挖掘出有價值的信息并提供參考成為一種新的需求,文本分類作為信息檢索和挖掘的關(guān)鍵技術(shù),能夠?qū)崿F(xiàn)對不同類型文本的自動分類。文章提出了基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法,首先通過jieba實現(xiàn)文本的分詞,然后通過開源工具word2vec實現(xiàn)了詞向量,最后通過卷積層、最大池化層和全連接層完成新聞數(shù)據(jù)的分類。實驗結(jié)果顯示,基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類具有較高的分類效果。

關(guān)鍵詞:文本分類;卷積神經(jīng)網(wǎng)絡(luò);word2vec

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展和個人移動終端功能的日益強(qiáng)大,人們從網(wǎng)絡(luò)中獲取的信息越來越多,由此產(chǎn)生的大量信息數(shù)據(jù)多以文本的形式出現(xiàn),如何從這些文本中挖掘出有價值的信息并給用戶提供參考價值就顯得尤為重要。

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是一種專門用來處理具有類似網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò),使用的是普通的神經(jīng)元網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。卷積和池化作為一種無限強(qiáng)的先驗[1],在提取特征上體現(xiàn)了高度的置換不變性,局部感受與權(quán)值共享兩個主要特征使得卷積神經(jīng)網(wǎng)絡(luò)可以有效地減少參數(shù)學(xué)習(xí)的數(shù)量級,從而降低了模型的復(fù)雜度,提高了模型的可用性。

通常卷積神經(jīng)網(wǎng)絡(luò)中一般包含4層:輸入層、卷積層、池化層以及全連接層。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類

基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類的過程一般包括數(shù)據(jù)預(yù)處理,特征提取、文本分類3個階段。

2.1 數(shù)據(jù)預(yù)處理

由于數(shù)據(jù)集來源于互聯(lián)網(wǎng),因此首先需要對數(shù)據(jù)集進(jìn)行一系列預(yù)處理,包括去掉文本中的所有標(biāo)點符號、數(shù)字和符號,只保留下含有較多語義信息的中文文本。而后通過Jieba分詞開源庫的精確分詞模式來完成對短文本數(shù)據(jù)集的分詞步驟。

經(jīng)過數(shù)據(jù)預(yù)處理后,得到的數(shù)據(jù)和格式如表1所示。

2.2 特征提取

本文采用Mikolov等提出的Skip-Gram神經(jīng)網(wǎng)絡(luò)語言模型,在完成基礎(chǔ)數(shù)據(jù)集的預(yù)處理和分詞操作后,利用無監(jiān)督學(xué)習(xí)方式的Skip-Gram模型訓(xùn)練出每個詞的分布式特征表示,即詞向量,然后,將訓(xùn)練好的詞向量進(jìn)行組合得到每條短文本的分布式特征。相比傳統(tǒng)的人工特征提取方式,此次提取的方式既可以控制特征維度,又可以不影響詞與詞在空間中的相對位置關(guān)系。

在具體實現(xiàn)的過程中,使用Google在2013年開源的詞向量計算工具—Word2vec,不僅可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進(jìn)行高效地訓(xùn)練,而且該工具實現(xiàn)了訓(xùn)練結(jié)果—詞向量(Word Embedding),可以很好地度量詞與詞之間的相似性。

2.3 文本分類

在文本分類中,本文將采用卷積神經(jīng)網(wǎng)絡(luò)模型完成最終的分類任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上最大的特點就是卷積層和Max-pooling層的交替累積[2]。其中,卷積層接收來自通過word2vec處理后的詞向量,在該層共設(shè)置256個卷積核,設(shè)置每個卷積核的大小是5。每類卷積核都能夠提取出不同的局部特征圖,并且對輸入數(shù)據(jù)的局部特征進(jìn)行描述,Max-pooling層可對每張?zhí)卣鲌D中表達(dá)能力最強(qiáng)的特征進(jìn)行二次提取,全連接層部分完成了文本的分類任務(wù),并最終通過Softmax實現(xiàn)歸一化操作,如圖1所示。

3 實驗

首先從互聯(lián)網(wǎng)上獲取并經(jīng)過處理的文本數(shù)據(jù)進(jìn)行訓(xùn)練和測試,包括體育、財經(jīng)、房產(chǎn)、教育、科技、體育、娛樂、時政、游戲等10個大類,其中每個分類有6 500條數(shù)據(jù)。為了便于進(jìn)行數(shù)據(jù)的訓(xùn)練、驗證和測試,將其中5 000條用于訓(xùn)練,500條用于驗證,1 000條用于測試。

本文所使用的開發(fā)與訓(xùn)練的實驗環(huán)境如表2所示。

首先進(jìn)行數(shù)據(jù)訓(xùn)練,在驗證集上經(jīng)過5輪迭代后的最佳分類效果是96.1%。其中準(zhǔn)確率和誤差loss如圖2—3所示。

同時,使用測試集上的數(shù)據(jù)進(jìn)行測試,得到的數(shù)據(jù)集結(jié)果顯示如下,其中測試的誤差是0.13,測試的準(zhǔn)確率是96.27%,除了時尚類別外,其他類別的預(yù)測準(zhǔn)確率都高于95%。其中體育類的測試為100%,整體的precision、recall和F1值都是96%,如圖4所示。

最后,使用剩余的10 000條數(shù)據(jù)進(jìn)行預(yù)測,系統(tǒng)隨機(jī)選擇其中6個類別,從實驗結(jié)果可以發(fā)現(xiàn)原文的標(biāo)簽和預(yù)測的標(biāo)簽結(jié)果都是一樣的,如圖5所示。

4 結(jié)語

通過對短文本分類問題的研究,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)算法的短文本分類模型。經(jīng)過大量的文本數(shù)據(jù)進(jìn)行了測試,實驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法具有較高的分類效果。

[參考文獻(xiàn)]

[1]高云龍.基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的短文本分類研究[D].長春:吉林大學(xué),2018.

[2]蔡慧萍.基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類方法研究[D].重慶:西南大學(xué),2016.

主站蜘蛛池模板: 亚洲成aⅴ人在线观看| 中文成人在线视频| 日本中文字幕久久网站| 无码中文AⅤ在线观看| 综合社区亚洲熟妇p| 波多野结衣久久高清免费| 一本一道波多野结衣一区二区 | 亚洲码一区二区三区| 最新精品久久精品| 日韩精品一区二区三区大桥未久| 欧美黄网在线| 亚洲视屏在线观看| 中文字幕在线欧美| 中文毛片无遮挡播放免费| 毛片视频网址| 亚洲天堂久久| 91美女视频在线观看| 亚洲视频无码| 色综合激情网| 欧美日韩中文国产| 中文字幕亚洲乱码熟女1区2区| 国产成人艳妇AA视频在线| 色婷婷电影网| 国产日韩欧美视频| 免费毛片a| 亚洲视频免| 国产精品永久免费嫩草研究院| 国产又黄又硬又粗| 久久国产高清视频| 欧美性色综合网| a毛片在线播放| 亚洲三级电影在线播放| 亚洲第一成年人网站| 久久久久人妻一区精品| av免费在线观看美女叉开腿| 国产成人无码AV在线播放动漫| 天堂网国产| 无遮挡一级毛片呦女视频| 免费一级大毛片a一观看不卡| www.狠狠| 欧美黄色a| 日韩精品一区二区三区免费在线观看| 久久鸭综合久久国产| 国产成人三级| 91丝袜乱伦| 国产真实乱人视频| 特级做a爰片毛片免费69| 制服丝袜在线视频香蕉| 日韩精品亚洲精品第一页| 久久 午夜福利 张柏芝| 就去色综合| 91精品网站| 毛片网站在线播放| 欧美在线精品一区二区三区| 国产幂在线无码精品| 亚洲资源站av无码网址| 日韩不卡高清视频| 久久99精品久久久久纯品| 天堂成人av| 国产尤物jk自慰制服喷水| 亚洲AV无码久久天堂| 亚洲欧洲日韩国产综合在线二区| 国产亚洲精品91| 四虎国产精品永久在线网址| 任我操在线视频| 国产在线麻豆波多野结衣| 中国一级特黄视频| 欧美一级大片在线观看| 五月激情综合网| 国产女人18水真多毛片18精品 | 国产精品污视频| 夜夜操国产| 亚洲精品欧美重口| 91精品国产一区自在线拍| 欧美三级视频网站| 亚洲中文字幕久久精品无码一区| AV无码一区二区三区四区| 2019年国产精品自拍不卡| 久久狠狠色噜噜狠狠狠狠97视色 | 国产在线啪| 国产精品露脸视频| 亚洲国产AV无码综合原创|