999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

雙通道卷積記憶神經網絡文本情感分析

2019-10-11 11:24:36蘇靈松應捷楊海馬肖昊琪
軟件導刊 2019年7期

蘇靈松 應捷 楊海馬 肖昊琪

摘 要:近年來,電子商務發展迅速,對電商商品評論進行情感分析可為消費者購物、商家調整銷售策略與電商平臺個性化推薦提供重要參考意見,因此提出雙通道卷積記憶神經網絡文本情感分析模型。首先,通過詞向量與由特征詞典構造的擴展特征矩陣兩個不同的通道進行卷積運算,再利用卷積神經網絡提取文本局部最優信息,最后利用長短期記憶神經網絡學習長距離的上下文情感,完成文本情感分析任務。實驗結果表明,與多種文本情感分析方法相比,雙通道卷積記憶神經網絡文本分析算法具有較高的精度,達到95%,且考慮了文本語義信息與文本情感信息,可獲得更好的文本表示,同時兼顧文本局部特征與上下文信息的學習,可有效提高文本情感分析準確率。

關鍵詞:電子商務;商品評論;文本情感分析;卷積記憶神經網絡

DOI:10. 11907/rjdk. 182697 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP3-0文獻標識碼:A 文章編號:1672-7800(2019)007-0032-05

Text Sentiment Analysis of Dual-Channel Convolutional Memory Neural Network

SU Ling-song,YING Jie,YANG Hai-ma,XIAO Hao-qi

(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract:In recent years, e-commerce has developed rapidly. The purpose of sentiment analysis of e-commerce reviews is to provide an important reference for consumers to buy, merchants to adjust sales strategy and personalized recommendation of e-commerce platform. A text sentiment analysis algorithm based on the double channel convolution memory neural network is presented. Firstly, the convolution operation was carried out by using two different channels, namely, the word vector and the extended feature matrix constructed by feature dictionaries. Secondly, convolution neural network was used to extract the local optimal information of the text. Finally, long-term and short-term memory neural network was used to learn long distance context sentiment so as to complete text sentiment analysis task. Experimental results show that the proposed algorithm has higher accuracy compared with many text sentiment analysis methods. Dual-channel convolutional memory neural network text analysis algorithm considers the semantic information and emotional information of text to get better text representation. It also takes into account the local features of the text and the learning of context information, which can effectively improve the accuracy of text emotional analysis.

Key Words:e-commerce; product review; text sentiment; convolution memory neural network

作者簡介:蘇靈松(1993-),男,上海理工大學光電信息與計算機工程學院碩士研究生,研究方向為智能檢測與分析;應捷(1973-),女,博士,上海理工大學光電信息與計算機工程學院副教授、碩士生導師,研究方向為智能檢測與分析、機器視覺檢測技術;楊海馬(1979-),男,博士,上海理工大學光電信息與計算機工程學院副教授、碩士生導師,研究方向為智能檢測與量子通信技術;肖昊琪(1996-),女,上海理工大學光電信息與計算機工程學院學生,研究方向為信號與信息處理。

0 引言

近年來,電商平臺發展迅速,網絡購物成為大眾日常行為,消費者網購后通常會對商品進行售后評價,表達其對商品及服務的看法。針對商品評論文本進行情感分析,可同時為消費者購物、商家制定銷售策略和電商平臺進行個性化商品推薦提供重要參考。

文本情感分析又稱為意見挖掘、傾向性分析,實質是對帶有情感色彩的文本立場、觀點、情感傾向等信息進行挖掘[1]。目前文本情感分析的主要研究方法是基于傳統機器學習的方法[2],常用模型有樸素貝葉斯模型(Naive Bayes)、支持向量機模型(Support Vector Machine)、邏輯回歸模型(Logistic Regression)和K近鄰模型(K Nearest Neighbors)等。曾宇、劉培玉[2]提出特征加權融合的樸素貝葉斯情感分類算法,將相同極性情感詞作為特征整體,通過調整整體特征對文本情感貢獻度的權值,提高模型分類準確率;邢玉娟[3]提出基于混合特征云向量模型與SVM的文本情感分類算法,結合文本的TF-IDF權重特征及詞性特征生成云向量模型作為支持向量機的輸入,再進行文本情感分類,取得了良好的分類準確率與訓練速度;李平、戴月明等[4]提出基于混合卡方統計量與邏輯回歸的文本情感分析算法,通過混合特征頻率系數、逆文檔頻率系數及負相關性系數的卡方統計量提取特征,然后采用模擬退火原理自適應選擇步長的邏輯回歸方法進行文本情感分析,具有較好的文本情感分類質量。

近年來,隨著互聯網的急速發展,累積了海量的文本數據待處理,深度學習在大數據時代應運而生,在進行大規模數據處理時,深度學習相較于傳統機器學習有顯著優勢。在文本情感分析領域,眾多深度學習模型分類性能表現優異,如卷積神經網絡(Convolutional Neural Network,CNN)、長短期神經網絡(Long Short-term Memory Neural Network,LSTM)[5-7]。陸正球等[8]提出基于卷積神經網絡的社交媒體文本情感分析算法,先對語料進行詞向量初始化,輸入卷積網絡層、隱含層、嵌入層、分類層完成評論數據情感分類,得到較高的分類準確率;劉建興等[9]提出一個基于深度雙向長短時記憶循環神經網絡(DB-LSTM-RNN)的情感分析預測模型,用詞嵌入的方法學習文本分布式表示,并將其作為預訓練向量,用深度雙向長短時記憶網絡模型進行序列學習,將該結構學習到的深層表示輸入到機器學習分類器中進行情感分類,取得了較好的準確率;李平、戴月明、吳定會[10]提出雙通道卷積神經網絡文本情感分析算法,采用字向量與詞向量作為卷積神經網絡兩個輸入通道,字作為句子最小單位,可輔助詞向量獲取更深層次的語義特征,取得良好的分類效果。單獨的CNN可獲取時間或空間局部最優特征,雖避免了人工提取特征引起的弊端,卻缺乏獲取序列相關性的能力;單獨的LSTM雖然能獲取句子上下文信息,卻無法獲取平行的局部特征,而且僅使用深度學習的方法進行文本情感分析無法有效利用前人研究積累的情感詞典、語言學結構知識等[11]。如何基于深度神經網絡使用已有情感資源取得更好的情感分類效果,是亟待解決的問題。

因此,本文提出雙通道卷積記憶神經網絡的文本情感分析方法,將詞向量與擴展特征向量作為模型的兩個輸入通道,模型融合CNN、LSTM,通過CNN提取出商品評論文本局部特征,作為下一層LSTM網絡輸入,LSTM獲取句子上下文情感傾向信息,最后通過Softmax分類器完成文本情感分析任務。通過詞向量可獲取文本語義信息,由情感詞、詞性、程度副詞、否定詞、標點符號5種詞語特征[12]構成擴展特征向量可充分利用已有的情感資源,學習文本中每個詞的情感信息,既考慮了文本語義信息,又考慮了文本情感信息,從而得到了更好的文本表示,有利于后續模型的訓練。模型融合了CNN與LSTM的優點[13-14],在學習局部平行特征的同時還可學習上下文信息,提高文本情感分析效果。

1 雙通道卷積記憶神經網絡模型

雙通道卷積記憶神經網絡結構如圖1所示,包含4級結構:在輸入層中,利用Google研發的Word2vec工具訓練商品評論文本,獲取詞向量,選取文本情感傾向影響較大的5種詞語特征(情感詞、詞性、程度副詞、否定詞、標點符號)作為擴展特征;在卷積層中,使用兩個輸入通道傳遞的擴展特征向量與詞向量,通過不同的卷積核,提取多種平行的局部特征;在時序層中,利用從卷積層得到的局部特征進行學習,獲取其上下文歷史信息特征,得到兼具局部特征與上下文信息特征的特征向量;最終在輸出層中,利用Softmax分類器得到情感分析結果。

圖1 雙通道卷積記憶神經網絡模型

1.1 輸入層

1.1.1 詞向量

Word2vec是很好的開源詞向量訓練工具,通過對輸入文本進行訓練,可將文本中每個詞都轉化為一個維度大小固定的低維稠密向量,從而將對文本的處理簡化為向量運算,向量之間的相似度或距離可代表詞之間語義相似度或距離。本文運用Word2vec工具,選擇Skip-gram語言模型訓練得到詞向量[15]。

1.1.2 擴展特征

為利用現有情感資源與語言學結構知識,增強文本情感信息表示,將其納入擴展特征向量作為神經網絡模型輸入。首先挑選可顯著影響文本情感傾向的5種詞語特征作為擴展特征,包括情感詞、詞性(如副詞、形容詞、動詞)、程度副詞、否定詞、標點符號(如感嘆號、問號);然后根據每個擴展特征對情感分類的貢獻強度分別賦予強度值,如表1所示,最后利用以上特征將文本映射為擴展向量,將文本的每個詞分別與上述特征進行匹配,匹配成功時將強度值賦值給對應特征,否則賦值為0。

表1 各擴展特征及其強度值

各擴展特征設計方法如下:

(1)情感詞特征。情感詞是進行情感極性判定的重要參考依據。本文選取情感詞典SentiWordNet的正向與負向情感詞構建情感詞典。將正、負向情感詞強度值分別設為1和-1。

(2)詞性特征。Kim 等[16]發現動詞、形容詞、副詞等詞性是表達情感的主要標志,故將其作為擴展特征之一,首先使用自然語言處理工具包(Natural Language Toolkit,NLTK)對文本進行詞性標注,然后選取標注結果中的動詞、形容詞、副詞等作為詞性特征,各自強度值如表1所示。

對式(10)取對數為:

[logP(τ|x,θ)=sθ(x)τ-log(?i∈Tesθ(x)τ)]? ? ? (11)

采用隨機梯度下降(SGD)使負似然函數最小化為:

[θ→α(x,y)∈D-logP(y|x,θ)]? ? ? ? ? ? ? (12)

其中,x表示一個文本,y表示該文本情感標簽。

1.5 模型評價指標

準確率(precision)是文本情感分析常用評價指標,指分類器正確分類樣本數與總樣本數之比,在文本情感分類中,即正確情感分類文本數與總情感分類文本數之比[18]。

[Accuacy=正確分類的文本數總文本數]? ?(13)

2 實驗分析

2.1 實驗數據準備

為檢驗模型有效性,本文選用2012年亞馬遜美食評論數據集(Amazon Fine Food Reviews)共568 454個關于亞馬遜食品評論。本文選取其中20 000條數據,為平衡語料,取積極、消極評論各10 000條。

積極商品評論樣例為:Great taffy at a great price.? There was a wide assortment of yummy taffy.

I love thesevery tasty!!!!!!!!!!? Infact, I think I am addicted to them.

消極商品評論樣例為:This contains sucralose which is basically splenda.

This is the worst tasting cola I've ever tried.

2.2 詞向量訓練與模型超參數設置

本文利用Python語言NLTK自然語言處理庫提供的word_tokenize()進行句子分詞處理[19]。使用Google提供的開源詞向量訓練工具Word2vec進行詞向量訓練,其訓練參數如表3所示。

表3 Word2vec訓練參數

雙通道卷積記憶神經網絡模型超參數設置如表4所示。

表4 網絡模型參數

1.3 實驗結果與分析

本文利用基于Python語言的Tensorflow框架完成實驗。Tensorflow支持多種主流神經網絡模型,包括CNN、LSTM等,本文具體實驗環境如表5所示。

表5 實驗環境配置

為進行對比實驗,利用樸素貝葉斯模型、邏輯回歸模型、支持向量機模型、K近鄰模型對相同的20 000條商品評論進行文本情感分析[20]。NB使用多項式樸素貝葉斯,訓練時參數設置為:添加Laplace平滑參數,平滑項參數alpha設為1.0;fit_prior設為True,表示學習先驗概率;類別先驗概率class_prior設為None;邏輯回歸模型參數設置為:正則化選擇參數penalty為l2,懲罰系數C為5,優化算法solver參數為saga;支持向量機模型[21]參數設置為:懲罰系數C為160,高斯核函數參數g為1.2。kNN模型參數設置如下:鄰居數量n_neighbors為3。實驗結果見圖3。

圖3 對比模型準確率

雙通道卷積記憶神經網絡模型對相同的20 000條商品評論進行情感分析得到的準確率曲線見圖4。當迭代次數達到1 000次后,模型準確率穩定在95%以上。

圖4 雙通道卷積記憶神經網絡模型準確率

為方便對比,將模型實驗結果匯總如表6所示。

表6 模型比較結果

通過對以上實驗結果進行分析,發現雙通道卷積記憶神經網絡模型情感分類準確率達到95%,優于所有對比模型,原因在于本文模型融合了卷積神經網絡與長短期記憶神經網絡,在考慮商品評論文本局部特征信息的同時,也考慮了文本上下文信息特征,同時增加了擴展特征向量的雙通道輸入,更好地利用了已有情感資源與語言學結構知識,增強了對文本情感特征的表示,使本文模型對商品評論情感分析性能明顯提升。

3 結語

本文提出了一種雙通道卷積記憶神經網絡文本情感分析方法。該方法分別在詞向量與擴展特征向量兩個不同的通道上進行卷積,利用詞向量捕捉文本語義特征,利用擴展特征向量捕捉文本情感特征,以此得到更優質的特征;同時融合CNN和LSTM兩種神經網絡,通過CNN捕捉文本局部特征,通過LSTM捕捉文本上下文情感,模型文本情感分類準確率達到了95%。但是,模型在得到較高準確率的同時,也存在不足之處:模型訓練時間比較長,因為受卷積神經網絡并行結構限制,多提取一種窗口類型的局部語義特征,需要增加一種并行卷積層,模型在訓練和預測過程中的計算量會大大增加。在下一步研究中,將針對模型訓練與預測時間進行更加深入的研究,在保證高準確率的同時,用更短的時間完成文本情感分類。

參考文獻:

[1] 羅毅,李利,譚松波,等. 基于中文微博語料的情感傾向性分析[J]. 山東大學學報:理學版,2014,49(11):1-7.

[2] 曾宇,劉培玉,劉文鋒,等. 特征加權融合的樸素貝葉斯情感分類算法[J]. 西北師范大學學報:自然科學版,2017,53(4):56-60.

[3] 邢玉娟. 基于混合特征云向量模型和SVM的文本情感分類[J]. 寧夏大學學報:自然版,2017,38(1):69-73.

[4] 李平,戴月明,王艷. 基于混合卡方統計量與邏輯回歸的文本情感分析[J]. 計算機工程,2017,43(12):192-196.

[5] ZHOU C,SUN C,LIU Z,et al. A C-LSTM neural network for text classification[J]. Computer Science,2015,1(4):39-44.

[6] HUANG Q,CHEN R,ZHENG X,et al. Deep sentiment representation based on CNN and LSTM[J]. International Conference on Green Informatics,2017:30-33.

[7] SATO M,ORIHARA R,SEI Y,et al. Text classification and transfer learning based on character-level deep convolutional neural networks[C]. Proceeding of Agents and Artificial Intelligence -9th International Conference,2017:62-81.

[8] 陸正球,王麟閣,周春良. 基于卷積神經網絡的社交媒體文本情感分析[J]. 現代信息科技,2018,2(2):89-92.

[9] 劉建興,蔡國永,呂光瑞,等. 基于深度雙向長短時記憶網絡的文本情感分類[J]. 桂林電子科技大學學報,2018,38(2):122-126.

[10] 李平,戴月明,吳定會. 雙通道卷積神經網絡在文本情感分析中的應用[J]. 計算機應用,2018,38(6):1542-1546.

[11] 黃仁,張衛. 基于word2vec的互聯網商品評論情感傾向研究[J]. 計算機科學,2016,43(s1):387-389.

[12] 杜永萍,陳守欽,趙曉錚. 基于特征擴展與深度學習的短文本情感判定方法[J]. 計算機科學,2017,44(10):283-288.

[13] LIAO S Y,WANG J B,YU RY,et al. CNN for situations understanding based on sentiment analysis of twitter data[C]. 8th International Conference on Advances in Information Technology,2017:376-381.

[14] ALEC Y,ABHISHEK V. Deep CNN-LSTM with combined kernels from multiple branches for IMDb review sentiment analysis[C].? IEEE 8th Annual Ubiquitous Computing Electronics and Mobile Communication Conference,2017:540-546.

[15] BIRD S,KLEIN E,LOPER E. Natural language processing with Python[M]. 陳濤,張旭,崔楊,劉海平,譯. 北京:人民郵電出版社,2014.

[16] KIM S M,HOVY E. Automatic detection of opinion bearing words and sentences[EB/OL]. https://dblp.uni-trier.de/db/conf/ijcnlp/ijcnlp2005-2.html.

[17] 朱儉. 文本情感分析關鍵技術研究[M]. 北京:中國社會科學出版社,2015.

[18] 梁軍,柴玉梅,原慧斌,等. 基于深度學習的微博情感分析[J]. 中文信息學報,2014,28(5):155-161.

[19] 秦鋒,王恒,鄭嘯,等. 基于上下文語境的微博情感分析[J]. 計算機工程,2017,43(3):241-246,252.

[20] 陳龍,管子玉,何金紅,等. 情感分類研究進展[J]. 計算機研究與發展,2017,54(6):1150-1170.

[21] 李婷婷,姬東鴻. 基于SVM和CRF多特征組合的微博情感分析[J]. 計算機應用研究,2015,32(4):978-981.

(責任編輯:江 艷)

主站蜘蛛池模板: 亚瑟天堂久久一区二区影院| 亚洲国产日韩一区| 日日碰狠狠添天天爽| 欧美69视频在线| 真实国产精品vr专区| 欧美日韩中文国产va另类| 国产福利微拍精品一区二区| 免费A级毛片无码免费视频| 香蕉蕉亚亚洲aav综合| 国产在线视频福利资源站| AV天堂资源福利在线观看| 国产精品久线在线观看| 日韩AV手机在线观看蜜芽| 亚洲男女在线| 欧美日韩成人| 呦女亚洲一区精品| 国产区人妖精品人妖精品视频| 不卡午夜视频| 亚洲欧美另类色图| 久久情精品国产品免费| 国产喷水视频| 亚洲精品波多野结衣| 青青国产在线| 无码精油按摩潮喷在线播放| 国产成人精品午夜视频'| 亚洲精品国产日韩无码AV永久免费网| 亚洲人免费视频| 日韩资源站| 一本一道波多野结衣一区二区| 亚洲性影院| 久久美女精品| 亚洲人在线| 青青草国产精品久久久久| 日本午夜视频在线观看| 国产女人喷水视频| 2020久久国产综合精品swag| 久热中文字幕在线观看| 亚洲第一视频网| 亚洲狠狠婷婷综合久久久久| 日本一本正道综合久久dvd| 欧美日本在线| 国产成人禁片在线观看| 九九热精品在线视频| 久草青青在线视频| 青青久久91| 欧美另类一区| 精品无码国产自产野外拍在线| 一级毛片免费不卡在线视频| 亚洲第一区在线| 日韩中文无码av超清| 狠狠色综合久久狠狠色综合| 国产第一色| 亚洲成人一区二区| 在线免费观看AV| 亚洲女同一区二区| 国产精品综合久久久| 国产精品va免费视频| 国产男女XX00免费观看| 国产在线第二页| 久青草网站| 国产哺乳奶水91在线播放| AⅤ色综合久久天堂AV色综合| 高清不卡毛片| 高清国产在线| 五月婷婷欧美| 欧美日韩一区二区在线播放| 午夜国产理论| 免费人成在线观看视频色| 国产菊爆视频在线观看| 婷婷色一区二区三区| 国产福利观看| 欧洲熟妇精品视频| 欧美日韩成人在线观看| aaa国产一级毛片| 首页亚洲国产丝袜长腿综合| 亚洲一区无码在线| 国产精品原创不卡在线| 国产精品久久国产精麻豆99网站| 丝袜无码一区二区三区| 欧美亚洲日韩不卡在线在线观看| 亚洲天堂精品在线| www.av男人.com|