999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練模型和詞嵌入的CNN情感分類方法

2020-01-27 02:26:49翟高粵
錦繡·中旬刊 2020年8期
關鍵詞:深度學習

翟高粵

摘要:針對one-hot詞嵌入技術無法表述相關詞之間的語意和關系的問題,提出一種基于預訓練模型的詞嵌入(GloVe)和CNN神經網絡相結合的情感分類方法。首先,讀取要分類的語料并加載中文預訓練詞向量模型;然后使用TensorFlow進行數據預處理,生成訓練集和測試集;最后定義兩種詞嵌入矩陣并構建CNN模型進行對比。實驗結果表明,使用預訓練模型的詞嵌入方法比自定義訓練的方式能進行更好的情感分類

關鍵詞:詞嵌入;深度學習;卷積神經網絡;情感分類

中圖分類號:TP183:文獻標識碼:A

0 引言

情感分析是從自然語言中識別人的態度的一種人工智能方法,現在有很多人通過社交網絡服務、博客、在線評論和社區網站上面發表他們的觀點或看法。由于很多用戶在網絡上表達自己的情感,因此研究人員可以通過分析現實世界中的情感來了解社會輿論。

1 相關概念

1.1 卷積神經網絡(CNN)

CNN模型在計算機視覺處理中獲得了很大的成功。它由輸入層、卷積層、池化層和完全連接層組成。輸入層主要輸入原始像素值的圖像,包括RGB通道。在卷積層中,通過滑動窗口(過濾器)來捕獲像素的局部特征。在池化層中,局部小平移具有不變性的特點,并通過子抽樣的方法減小了參數維數。在全連接層中,把高維度圖像進行平展后進行分類。

1.2 詞嵌入技術(Word-Embedding)

為了數字化輸入的單詞,我們可以使用k個編碼向量(由若干個0和一個1組成)中的1(one-hot)來表示一個單詞,這種方法非常簡單,但無法表達單詞之間的關系。為了能表達單詞之間的關系,我們通常使用詞嵌入方法,這是一種降維技術。詞嵌入方法就是把每個單詞矢量化表示。它由密集且維數較低的k維向量表示。研究表明,語義相近的詞向量在向量空間中距離很近,反之語義差距大的詞向量在向量空間距離較遠。目前,許多關于自然語言處理(NLP)的研究都使用預訓練詞向量。

使用預訓練的詞嵌入,在數據集較小的情況下,難以學習到足夠好的embedding層,選擇一些權威的官方詞嵌入數據庫(比如GloVe)能夠有效解決數據集的問題。GloVe的全稱叫Global Vectors for Word Representation,它是一個基于全局詞頻統計(count-based & overall statistics)的詞表征(word representation)工具,它可以把一個單詞表達成一個由實數組成的向量,這些向量捕捉到了單詞之間一些語義特性,比如相似性(similarity)、類比性(analogy)等。我們通過對向量的運算,比如歐幾里得距離或者cosine相似度,可以計算出兩個單詞之間的語義相似性。

1.3 情感分類

情緒分類的目的是識別給定句子(或文檔)的情緒極性(積極或消極)。傳統分類方法大致可以分為基于詞典的分類方法和基于深度學習的分類方法。基于詞典的方法通過人工的方法來提取語言特征。例如,通過在詞典中標注每個單詞的情感極性就被當作語言特征。另一方面,深度學習方法具有自動地從原始數據中學習表示的能力。基于深度學習的方法自動從原始文本輸入中提取特征,并使用它們對情緒極性進行分類。因此,基于深度學習的方法在情緒分類任務中越來越受到研究人員的歡迎。

2 數據預處理(定義詞嵌入矩陣)

2.1 數據集介紹

本文使用的是IMDB電影評論數據集,該數據集是用于情感分析的國際標準數據集之一。數據集收集了大約50000條的評論,其中訓練集25000條,測試集25000條。對于預訓練詞嵌入,本文使用的是GloVe。

2.2 讀取語料

打開語料文件,把原始語料劃分為訓練數據和測試數據,把文本信息讀取到texts列表中,標簽信息讀取到labels中,其中文本信息需要使用預處理詞嵌入技術進行處理,標簽信息本文使用one-hot進行表示。

2.3 加載預訓練詞向量模型

本文采用的詞向量是一個稠密向量,可以理解為將文本的語義抽象信息嵌入到了一個具體的多維空間中,詞之間語義關系可以用向量空間中的范數計算來表示。

下載GlOve,進行解壓之后的中文預訓練詞向量模型的文件格式是文本文件,首行只有兩個空格隔開的數字:詞的個數和詞向量的維度,從第二行開始格式為:詞 數字1 數字2 …… 數字300,形式如下:

364180 300? [首行]

china 0.003146 0.582671 0.049029 -0.312803 0.522986 0.026432 -0.097115 0.194231 -0.362708

以上364180表示的是詞的個數,300表示的詞的維度,即一個詞用300維的數字進行表示,”中國”使用了300維的向量進行表示。

2.4 使用tf.keras對語料進行處理

tf.keras是tensorflow中集成的keras處理模塊,通過tf.keras可以直接調用keras中的各種功能。本文將使用tf.keras中的Tokenizer對語料文本進行處理,每個向量等于每個文本的長度,這個長度在處理的時候由變量MAX_SEQUENCE_LEN(最大句子長度)做了限制,其數值并不表示計數,而是對應于字典tokenizer.word_index中的單詞索引值,這個字典是在調用Tokenizer時產生。

長度超過MAX_SEQUENCE_LEN的文本序列會被截斷,長度小于這個值的文本序列則需要補零來達到這個長度,可以使用tf.keras中的pad_sequence()就是用零來填充向量序列。例如:對[1,2,3,4,5,6,7,8],[6,7,8,9],用maxlen=6進行長度的截斷,結果如下:

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 男人天堂伊人网| 久久婷婷五月综合97色| 国产91av在线| 色偷偷一区| 国产精品手机在线观看你懂的| 91成人在线免费观看| 91日本在线观看亚洲精品| 色综合婷婷| 青青草综合网| 国产av剧情无码精品色午夜| a级毛片在线免费| 岛国精品一区免费视频在线观看| 成人伊人色一区二区三区| 手机在线看片不卡中文字幕| 在线观看国产精美视频| 久久国产拍爱| 日日拍夜夜嗷嗷叫国产| 国产农村精品一级毛片视频| 国产一区二区三区在线无码| 欧美日在线观看| 婷婷激情亚洲| 香蕉国产精品视频| 亚洲av无码牛牛影视在线二区| 在线观看欧美国产| 久久99精品久久久久纯品| 欧美日韩国产在线人| 日韩欧美中文在线| WWW丫丫国产成人精品| 新SSS无码手机在线观看| 青青青国产视频| 全免费a级毛片免费看不卡| 成人a免费α片在线视频网站| 天堂av高清一区二区三区| 亚洲成人网在线观看| 午夜精品久久久久久久2023| 国产一区二区三区精品欧美日韩| 香蕉久久国产超碰青草| 沈阳少妇高潮在线| 日韩亚洲综合在线| 亚洲性影院| 国产欧美视频在线| 欧美一区二区人人喊爽| 日韩一级毛一欧美一国产| 久久精品午夜视频| 亚洲第一香蕉视频| 91国内在线视频| 免费人成又黄又爽的视频网站| 免费A∨中文乱码专区| 日韩高清一区 | 日日碰狠狠添天天爽| 日韩精品无码免费一区二区三区| 国产熟女一级毛片| 国产一区二区三区免费观看 | 国产麻豆精品久久一二三| 亚洲欧美成人综合| 欧美精品高清| 亚洲国内精品自在自线官| 精品无码日韩国产不卡av | 福利姬国产精品一区在线| 美女国内精品自产拍在线播放| 白浆视频在线观看| 亚洲欧美日韩综合二区三区| 亚洲精品国产首次亮相| 18禁影院亚洲专区| 国产女人综合久久精品视| 91久久性奴调教国产免费| 亚洲福利一区二区三区| 亚洲无码视频一区二区三区| 国产一区亚洲一区| 99999久久久久久亚洲| 丰满的熟女一区二区三区l| 伊人成人在线视频| 麻豆国产在线观看一区二区| 国产日产欧美精品| 另类专区亚洲| 2021最新国产精品网站| 无码内射中文字幕岛国片| 伊人久久大线影院首页| 女人18毛片水真多国产| 成年人免费国产视频| 日本午夜影院| 国产真实乱了在线播放|