999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習方法的中文情感分析*

2022-04-07 03:43:02騫恒源孟彩霞
計算機與數字工程 2022年3期
關鍵詞:分類特征文本

騫恒源 孟彩霞

(西安郵電大學計算機學院 西安 710061)

1 引言

情感分析,又被稱為意向挖掘、傾向性分析等[1],其主要任務是針對人們在網絡社交或者產品評論等日常網絡行為中產生的主觀性文本進行分析、挖掘,以獲得其中的情感信息,是自然語言處理領域的研究熱點。

傳統的針對于文本情感極性分析處理的技術主要分為兩類。1)基于規則的情感分析技術:從語言學角度出發,根據經驗或者專家的知識和意見構建特征、情感詞典和模板,進而完成對文本情感極性的分析。這個過程需要大量的人工干預[2~3],構建特征需要花費極大的代價。2)基于機器學習的情感分析技術:人為地對數據集進行情感標注,標注過的數據集即為訓練集。接著在訓練集上進行特征的提取和學習,得到機器學習模型。最后,通過訓練完成的機器學習模型對文本的情感極性進行判斷[4~5]。然而,該方法面臨特征稀疏,維度爆炸,特征提取較為困難等問題。

近來,深度學習的技術越來越多地被應用到自然語言處理的領域,且深度學習的技術在不斷的發展和完善[6~7]。Kim 等[8]采用卷積神經網絡(CNN)完成了對電影評論的情感分類,Wang 等[9]利用長短期記憶網絡(LSTM)對文本情感進行分析,都取得了比傳統分類器更好的效果。但上述模型無法挖掘到文本更多的隱藏信息,從而導致對文本中包含的大量語義信息利用不充分。劉龍飛等[10]提出了一種將不同粒度的CNN 模型相結合來獲得到更多的語義信息。但該模型沒有對現有的情感資源,包括情感詞典、情感規則等進行有效利用,忽略了情感信息對于情感分類的影響。陳釗等[11]提出將情感特征與深度學習模型相結合,使得模型在訓練過程中充分利用文本所包含的情感信息,提升了分類的準確率。然而該模型難以表征每個詞對分類的重要程度。陳珂[12]等提出基于多通道卷積神經網絡的模型,將詞性映射為連續的值向量,對詞語在句子中的位置進行取值并進行向量化操作來表示詞語在句子中的重要程度,最后將其與詞向量、情感向量相互拼接作為卷積神經網絡中不同通道的輸入。盡管該模型考慮到了每個詞的重要性對于分類結果的影響,但是用詞語在句子中的位置特征表示詞語重要性的方法明顯不能準確地體現出詞語對于句子以及分類的重要程度。

針對以上問題,本文提出一種基于權重分配的多通道卷積神經網絡與雙向長短期記憶網絡特征相結合的模型(WAMCCNN-BILSTM)。首先,針對陳珂[12]等提出的MCCNN 模型進行改進并提出基于權重分配的多通道卷積神經網絡模型(WAMCCNN),該模型使用詞語的特征權重表征每個詞對于句子的重要程度,句子中每個詞語的特征權重通過TF-IDF特征權重算法計算得出。將其與其他特征結合形成不同的通道作為卷積神經網絡的輸入,充分利用文本的情感信息以及詞對于分類重要性等信息學習出文本的局部特征。相較于原模型,該模型在降低輸入向量維度的同時也提高了模型的訓練效率。接著,針對卷積神經網絡無法充分利用文本的上下文關系,提出雙向長短時記憶網絡(BILSTM)來獲取包含文本上下文信息的全局特征。最后將兩種模型提取出的特征相結合作為全連接層的輸入完成對文本的分類。在京東評論數據集和微博評論數據集上的實驗顯示本方法相較之前基于神經網絡模型的情感分析方法取得了更好的效果。

2 情感分析模型

如圖1 所示,本文所提出的WAMCCNN-BILSTM模型由五部分組成。

圖1 WAMCCNN-BILSTM模型

1)輸入層,將不同特征組合形成不同通道作為WAMCCNN模型的輸入,將文本映射為詞向量的形式作為BILSTM模型的輸入。

2)特征提取層,使用WAMCCNN 模型提取出包含豐富語義信息和隱藏信息的文本局部特征,使用BILSTM模型學習包含文本上下文信息的全局特征。

3)合并層,將通過WAMCCNN 模型挖掘到的包含豐富語義信息和大量隱藏信息的局部特征和經過BILSTM模型提取到的包含文本上下文信息的全局特征進行拼接并將其作為合并層的輸入。

4)隱藏層,本文在合并層和輸出層之間加入一個隱藏層,目的在于對合并層得到的特征向量進行學習,挖掘出局部特征和全局特征之間的聯系,提高分類的準確率。

5)輸出層,利用softmax 函數輸出文本情感極性。

和普通卷積神經網絡相比,本文提出的WAMCCNN 模型充分利用了文本中所隱藏的情感信息且有效突出了詞語對于分類的貢獻度。通過將不同特征結合形成不同的輸入通道,使得模型在訓練過程中充分學習不同特征間的聯系,獲取到更多的語義信息。因為將不同的特征相結合不但可以生成新的特征,也使得不同特征間相互聯系和影響。同時,WAMCCNN 模型的輸入通道獨立存在,在對模型進行訓練時,可以在模型的不同輸入通道中區別設置各自的卷積核和激活函數,使得模型能夠更加全面地對文本隱藏信息進行挖掘。在此基礎上,本文通過引入雙向長短時記憶網絡模型所構建的WAMCCNN-BILSTM 模型能夠通過WAMCCNN 模型對包含豐富語義信息和大量隱藏信息的文本局部特征進行挖掘,利用BILSTM 模型對包含特征之間依賴關系的文本上下文信息進行學習,之后將通過BILSTM 模型得到的文本全局特征與通過WAMCCNN 模型得到的文本局部特征合并,從而使得模型在情感分析過程中能夠有效地利用到文本的上下文信息,進一步提高分類準確率。

3 實驗

本文通過python 爬蟲爬取京東評論文本和微博評論文本進行實驗,對本文所提模型的有效性進行驗證。爬取不同領域10000 條評論文本,作為京東評論數據集(JD-comment dataset,JDC),包括5000條正面評論和5000條負面評論。爬取新浪微博的10000 條評論文本作為微博評論數據集(Weibo-comment dataset,WBC),包括 正 向情緒 評 論5000條,負面情緒評論5000條。此外,從微博評論數據集和京東評論數據集各抽出3000 條數據形成混合數據集,驗證本文所提方法在混合數據集上的有效性。

3.1 數據預處理與模型參數設置

本文使用JIEBA 分詞對實驗數據進行分詞處理并且進行詞性標注。通過Google 開源的word2vec[13]的Skip-gram 模型,利用京東評論數據集對詞向量和詞性向量進行訓練。實驗中,詞向量維度為30 維,詞性向量維度為30 維。本文所提模型卷積神經網絡部分參數設置如表1 所示,對本文所提模型中BILSTM 模型的參數設置如表2 所示,在模型的訓練階段,本文采用Zeiler[14]提出的隨地梯度下降法對模型的參數進行迭代更新。

表1 卷積神經網絡參數

表2 BILSTM網絡參數

3.2 實驗介紹

將本文所提出的WAMCCNN-BILSTM 模型與其它深度學習的模型在不同的數據集上進行對比實驗,驗證本文所提出的情感分析模型在分類準確率上得到提高,以下對各實驗進行介紹。

1)CNN。文獻[7]提出的普通卷積神經網絡模型。

2)BILSTM。雙向長短時記憶網絡模型。

3)MCCNN。文獻[11]提出的MCCNN 模型,將不同特征組合形成不同的通道作為卷積神經網絡的輸入。

4)CNN-BILSTM[15]。文獻[15]提出的CNNBILSTM 模型,將使用卷積神經網絡學習到的局部特征與使用雙向長短時記憶網絡學習到的全局特征結合,作為融合模型的輸入。

5)WAMCCN。本文提出的WAMCCNN模型。

6)WAMCCNN-BILSTM。本文提出的WAMC CNN-BILST模型。

7)SWCNN。文獻[11]提出的SWCNN 模型,將文本的情感特征映射為詞向量加入卷積神經網絡。

8)WFCNN 模型。文獻[10]提出的WFCNN 模型,對情感特征進行二值化操作,將二值形式的情感特征加入卷積神經網絡。

3.3 實驗結果與分析

在本文所提數據集上進行8 組不同的實驗對比驗證本文所提模型的,對比結果如表3所示。

表3 不同模型情感分類性能對比

根據表3 結果可以看出,本文所提WAMCCNN-BILSTM 模型在三種不同數據集上均取得了最好的結果,其中在最好的JDC數據集上取得了86.75%的正確率,相比于MCCNN 模型的85.10%和CNN-BILSTM 模型的83.35%分別提高了1.65%和3.40%,驗證了本文所提方法的有效性。對比文獻[10]提出的將詞性特征加入卷積神經網絡的WFCNN 模型和文獻[7]提出的CNN 模型,在三種不同數據集上WFCNN 模型分別取得了82.79%、83.55%、82.40%的準確率,相較于CNN 模型的82.42%、82.92%、82.20%分別提升了0.37%、0.63%、0.2%,說明文本情感信息的加入可以使得模型取得更好的分類效果。對比將情感特征映射為詞向量形式加入到網絡的SWCNN 模型和WFCNN 模型可以看出,SWCNN 模型分類效果較之WFCNN 模型得到了提升,說明將詞性特征映射為詞向量的形式加入卷積神經網絡使得文本的情感特征在網絡中被充分利用,分類準確率得到提升。對比文獻[11]提出MCCNN 模型和WFCNN 模型可以看出,將不同的特征組合形成不同的通道作為卷積神經網絡輸入的MCCNN 模型相較于WFCNN 模型在3 種數據集上的準確率均有大幅度提高,說明將不同特征結合形成不同的通道作為卷積神經網絡的輸入使得模型能夠充分學習到文本不同特征之間的聯系,文本中更多的語義信息得到發掘,進而提升了模型分類的準確率。

此外,從表3 結果可以看出,融合模型相較于單模型有更好的分類效果,結合表3 實驗結果,在三種不同數據集上完成3 組對比實驗來進一步說明融合模型在情感分類任務中的有效性,對比結果如圖2所示。

圖2 融合模型與單模型對比結果

如圖2 結果可以看出,CNN-BILSTM 模型在三種不同數據集上取得的分類效果較之CNN、BILSTM 均有所提升,同時,本文所提出的WAMCCNN-BILSTM 模型在不同數據集上較之其WAMCCNN、BISTM 單獨模型也取得了更好的情感分類效果。該結果表明,更過的語義信息的加入可以使得模型取得更好的分類效果。此外,對實驗結果進一步分析可以看出結合文本上下文信息的CNN-BILSTM 模 型和WAMCCNN-BILSTM 模型 在3 種數據集上相較于CNN、WAMCCNN 模型分類準確率均有提高。對比結果表明,本文提出的結合文本上下文信息的方法可以使得模型在訓練過程中充分利用到文本的上下文信息,有效地解決了卷積神經網絡無法充分利用上下文信息的問題,提高了分類的準確率。

4 結語

本文提出一種WAMCCNN 和BILSTM 模型相結合的情感分析模型,該模型利用WAMCCNN 對文本的各個特征之間的聯系進行學習和挖掘,獲取到了更多的語義信息和隱藏信息,同時利用長短時記憶網絡獲取文本中包含的上下文信息,將通過WAMCCNN 提取到的包含豐富語音信息和隱藏信息的局部特征和通過BILSTM提取到的包含文本上下文信息的全局特征相結合作為WAMCCNNBILST 模型全連接層的輸入,經過隱藏層后得到分類結果。 實驗結果表明,本文提出的WAMCCNN-BILST 模型在情感分析中相較于之前的深度學習模型取得了更好的分類效果。

在接下來的工作中,可以考慮引入更多的文本特征并將其組合形成不同的通道作為卷積神經網絡的輸入,使得模型可以學習到更多特征之間的聯系。同時考慮在不同的通道采用不同的激活函數,使得模型可以學習到更多的隱藏信息,提高分類準確率。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 香蕉色综合| 国产色婷婷| 欧美日本不卡| 亚洲无码高清免费视频亚洲| 一级毛片无毒不卡直接观看| 欧美综合激情| 亚洲三级影院| 91精品视频网站| 久久99国产综合精品女同| 青青青国产在线播放| 直接黄91麻豆网站| 98超碰在线观看| 一区二区三区毛片无码| 国产大全韩国亚洲一区二区三区| 亚洲欧洲日产国产无码AV| 狠狠操夜夜爽| 亚洲无码视频喷水| 91香蕉视频下载网站| 成年女人a毛片免费视频| 国模沟沟一区二区三区| 欧美在线中文字幕| 成人自拍视频在线观看| 久久一日本道色综合久久| 韩国福利一区| 日韩黄色大片免费看| 国产三级精品三级在线观看| 国产第八页| 国产一二视频| 国产一区在线视频观看| 东京热av无码电影一区二区| 国产高清在线观看| 欧美成人影院亚洲综合图| 精品国产女同疯狂摩擦2| 久久国产精品嫖妓| 日韩欧美高清视频| 国产青榴视频在线观看网站| 亚洲综合日韩精品| 青青青国产在线播放| 亚洲无码久久久久| 国产农村1级毛片| 国产精品自在自线免费观看| 欧美成人日韩| 久久精品国产在热久久2019| 日本午夜三级| 国产成人亚洲精品蜜芽影院| 亚洲免费成人网| 中文字幕亚洲另类天堂| 国产主播在线一区| 亚洲AⅤ永久无码精品毛片| 高清码无在线看| 91在线中文| 国产综合精品一区二区| 中文毛片无遮挡播放免费| 久久久无码人妻精品无码| 99久久精品无码专区免费| 制服丝袜一区| 91探花国产综合在线精品| 国产精品va| 特级毛片免费视频| 香蕉综合在线视频91| 欧美精品1区2区| 久久国产乱子伦视频无卡顿| 在线精品欧美日韩| 理论片一区| 亚洲精品自拍区在线观看| www成人国产在线观看网站| 亚洲AV成人一区国产精品| 亚洲欧美成aⅴ人在线观看 | 性激烈欧美三级在线播放| 亚洲天堂网站在线| 91午夜福利在线观看| 欧美亚洲另类在线观看| 久久精品视频一| 久久综合九九亚洲一区 | 日本高清免费不卡视频| 91精品最新国内在线播放| 在线中文字幕日韩| 日本尹人综合香蕉在线观看 | 亚洲无码电影| 88av在线| 婷婷综合亚洲| 成人综合在线观看|