999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的商品評論情感分類

2019-12-19 02:07:13嚴鵬
軟件 2019年11期
關鍵詞:深度學習

嚴鵬

摘? 要: 近年來,隨著互聯網技術的進步,我國電子商務也有了快速的發展,越來越多的人選擇網絡購物,顧客利用互聯網平臺對所購產品進行文字評價或數字評分已成為一種常態。商品評論的情感分類是獲取顧客對該商品直接反饋的一個重要方式。現階段,在情感分類研究中最常用的是基于機器學習和情感詞典的傳統方法,但這些方法都存在一些不足之處。因此,本文主要采用深度學習中的LSTM網絡對某品牌電視的評論進行模型構建與數據分析,并與基于機器學習的SVM方法進行對比分析。

關鍵詞: 情感分類;商品評論;深度學習;LSTM;Word Embedding

【Abstract】: In recent years, with the progress of Internet technology, China's e-commerce has also had a rapid development, more and more people choose shopping network, customers using the Internet platform to buy products for text evaluation or digital score has become a normal. Emotional classification of product reviews is an important way to obtain customers' direct feedback on the product. At present, the traditional methods based on machine learning and emotion dictionary are most commonly used in the research of emotion classification, but these methods have some shortcomings. Therefore, this paper mainly USES LSTM network in deep learning to conduct model construction and data analysis on the comments of a certain brand of TV, and conducts comparative analysis with SVM method based on machine learning.

【Key words】: Emotional classification; Product reviews; Deep learning; LSTM; Word embedding

0? 引言

情感分類又稱做觀點挖掘,其研究目標就是分析文本中人們對所評論事物(如產品,服務,時事話題等)的情感、觀點或者具體態度。情感分類在成為自然語言處理中的一個研究主題后,迅速成為了熱點研究領域[1-3]。情感分類作為一種特殊的分類問題,既有一般模式分類的共性問題,也有其特殊性,如情感信息表達的隱蔽性、多義性和極性不明顯等。針對這些問題人們做了大量研究,提出了很多分類方法。這些方法主要按機器學習方法歸類與按情感詞典方法劃分[4]。

基于機器學習的方法[5]中,根據所使用訓練樣本的標注情況,情感文本分類可以大致分為有監督學習方法、半監督學習方法和無監督學習方法三類。基于有監督學習的情感分類方法使用機器學習方法來訓練大量標注樣本。基于半監督學習的情感分類方法是通過在少量標注樣本上訓練,并在大量未標注樣本上進行學習的方式構建分類模型。基于無監督學習的情感分類方法是指僅使用非標注樣本進行情感分類建模。

基于詞典的方法[6]主要通過制定一系列的情感詞典和規則,對文本進行拆句、分析及匹配詞典(一般有詞性分析,句法依存分析)來計算情感值,最后通過情感值來作為文本的情感傾向判斷的依據。

除了基于機器學習和詞典的傳統方法,基于深度學習的方法也是近期學者的研究方向,并被廣泛應用于情感分類任務中。

電子商務網站的商品評論數據豐富,情感特征較為明顯。以商品評論文本為對象,進行情感分類既有現實基礎,也有積極的應用前景[7-13]。情感分類應用于商品評論的主要任務是識別出用戶的評論文本所流露的情感信息。通過識別出的情感信息,我們能有效判別該商品在顧客心中的喜好,并可以借此推斷出該商品的優劣。

根據文本的粒度不同,文本的情感分類可以被分成篇章級別情感分類、句子級別情感分類以及詞語級別情感分類三種[14-16]。本文主要針對句子級別情感分類,并且采用基于深度學習的LSTM(Long Short-Term Memory,長短期記憶)方法來進行情感分類。

1? 相關工作

1.1? Word Embedding

Word embedding(詞嵌入)[17]是NLP(自然語言處理)中一組語言模型(language modeling)和特征學習技術(feature learning techniques)的總稱,這些技術會把詞匯表中的單詞或者短語映射成由實數構成的向量上。

Word embedding具體獲取的方式有兩種:

(1)在神經網絡中添加embedding層去學習word embedding,它是在詞向量之間反映出語義關系,將人類自然語言映射到幾何空間中。

另一種方式是利用預訓練的word embedding,尤其是適用于擁有少量的訓練數據的情況下,重利用在復雜問題上學習到的特征應用到自己的任務中,這是一種簡單而有效的方法。我們在預訓練中采用已有的word embedding預計算的數據庫,例如,word2vec[18],Glove。目前,最常用的是Google開源的Word2Vec,用高維的向量來表示詞語,并把具有相近意思的詞語放在相近的位置,且固定詞向量的維度,就可以通過實數向量來訓練模型,以此獲得詞語的詞向量表示。具體來說,Word2Vec中涉及到了兩種算法,一個是CBOW,一個是Skip- Gram[19-20]。

二者模型如圖1、2所示。

1.2? LSTM (Long Short-Term Memory)

由S.Hochreiter等[21]提出的長短時記憶神經網絡LSTM是一種時間遞歸神經網絡,可以解決較長的序列數據,主要是為了解決長序列訓練過程中的梯度消失和梯度爆炸問題。簡單來說,就是相比普通的RNN,LSTM能夠在更長的序列中有更好的表現。LSTM解決了RNN[22]的長期依賴問題,其特點是在RNN各層結構單元中添加了輸入門、遺忘門和輸出門等閘門[23]。LSTM結構如圖3所示。

三個控制閥門組成了LSTM的基本單元,稱為cell,下圖是LSTM神經網絡一個單元的基本結構,其中fn表示遺忘門,in表示輸入門,on表示輸出門,hn表示當前單元狀態。

LSTM神經網絡cell的基本結構如圖4所示。

其中表示函數,作用于三個門上,其輸出為[0,1],每個值表示對應的部分信息是否應該通過。0值表示不允許信息通過,1值表示讓所有信息通過。而函數用在了狀態和輸出。為權重,如為遺忘門對應的上一時態輸出信息的權重,表示偏置。

2? 模型

2.1? 文本獲取

本文以京東網站上某品牌電視評論作為數據集來進行情感分類[24]。通過從京東網站爬取用戶評論文本,并使用人工標注的方法將文本進行初步情感分類。在本模型中,情感分為正面情感和負面情感兩類。在標注成功之后將文本分成兩部分,一部分為訓練數據集,一部分為測試數據集,其中訓練數據集用于訓練模型,測試數據集用于測試模型。本文共收集4283條評論。樣例如表1、2所示。

2.2? 文本分析

評論文本標注之后,對文本進行數據分析,研究其情感分布和評論句子長度分布。其中正面情感評論1908條,負面情感評論2375條,由此可看出數據集中正負情感分類數目相差不多。

句子長度及出現頻數統計如圖5所示。

句子長度累積分布函數如圖6所示。

從上圖中可以看出,大多數樣本的句子長度集中在1-200之間。因此,句子長度累計頻率取0.91分位點,則長度為183左右。

2.3? 模型構建

Keras提供了一個嵌入層,適用于文本數據的神經網絡,這個嵌入層就是embedding層。它是一個靈活的圖層,可以以多種方式使用,本文將它用作深度學習模型的一部分,將該層嵌入于模型本身一起學習。數據經過embedding層之后就方便地轉換為了可以由LSTM進一步處理的格式,且經過embedding層處理后,數據進行了一定程度的降維,由此加快了模型的數據處理速度。

使用embedding層+LSTM網絡+Softmax函數構建模型。

將embedding層添加到模型中進行數據集的詞向量生成。

生成詞向量后,搭建LSTM網絡,將已經得到的詞向量通過LSTM網絡進行文本的特征提取。

最后將LSTM網絡提取出的文本特征使用softmax函數進行預測,得出最終結果。

3? 實驗與結果分析

我們將數據集分為訓練集和測試集,其中訓練集和測試集的比例為9∶1。訓練集用于訓練LSTM模型,測試集用于測試模型的分類效果。使用訓練集將LSTM模型訓練5次,可以看出,該模型在訓練集上的準確率在95%以上。隨后,使用訓練好的LSTM模型對測試集進行測試。

本次實驗還與基于機器學習的SVM方法進行對比。本實驗采用的評估分類模型的主要指標為模型分類的準確率,具體計算公式如下:

其中,a表示情感分類模型判斷文本類別正確的數目;b表示情感分類模型判斷錯誤將本不屬于此類的文本分到本類別的數目。實驗結果如表3所示。

上表中可以輕易看出使用Embedding+LSTM的深度學習模型的準確率明顯要高于基于傳統機器學習的SVM模型。采用基于機器學習的方法由于需要進行特征的選擇和降維操作仍需要較大的工作量,由此可以證實本文提出的LSTM模型對商品評論的情感分類具有較好的實用性和較高的準確性。

4? 總結

本次實驗主要采用將embedding層嵌入LSTM神經網絡的方法來構建LSTM模型。該模型較于傳統情感詞典和機器學習方法有很大優勢,克服了傳統情感詞典方法的領域詞典不足的情況,也不用人為的提取特征,在訓練結果上也得到了很大的提升,這也證明了該模型的可行性。由于條件限制,本文主要使用LSTM網絡進行模型構建,以此對文本情感分類,尚未與其余基于深度學習的神經網絡模型進行研究和對比實驗。在未來的工作中,可以圍繞這一點進行展開研究。

參考文獻

[1]王仲遠, 程健鵬, 王海勛, 文繼榮. 短文本理解研究[J]. 計算機研究與發展, 2016, 53(02): 262-269.

[2]耿斌. 在線評論對用戶購買行為的影響研究[D]. 南京: 南京大學, 2019.

[3]左梅, 荊曉遠. 基于深度記憶網絡的特定目標情感分類[J]. 計算機應用究: 2019-07-3, 1-6.

[4]PANDARACHALILR, SENDHILKUMA RS, MAHALAK SHMI G. Twitter sentiment analysis for large-scale data: an unsupervised approach[J]. Cognitive Computation, 2015, 7(2): 254-262.

[5]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techni ques[C]. Proceedings of the 2002 Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86.

[6]Lunwei Ku, Tungho Wu, Liying Lee, et al. Construction of an Evaluation Corpus for Opinion Extraction[C]. NTCIR-5 Japan 2005: 513-520.

[7]張紫瓊, 葉強, 李一軍. 互聯網商品評論情感分析研究綜述[J]. 管理科學學報, 2010, 13(06): 84-96.

[8]葉強, 張紫瓊, 羅振雄. 面向互聯網評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統學報, 2007(01): 79-91.

[9]陸文星, 王燕飛. 中文文本情感分析研究綜述[J]. 計算機應用研究, 2012, 29(06): 2014-2017.

[10]趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(08): 1834-1848.

[11]周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J]. 計算機應用, 2008(11): 2725-2728.

[12]謝法舉, 劉臣, 唐莉. 在線評論情感分析研究綜述[J]. 軟件導刊, 2018, 17(02): 1-4+7.

[13]靳文利, 張建. 電子商務對傳統企業的影響及對策[J]. 軟件, 2015, 36(6): 158-162.

[14]張英. 基于深度神經網絡的微博短文本情感分析研究[D]. 鄭州: 中原工學院, 2017.

[15]江周峰, 楊俊, 鄂海紅. 結合社會化標簽的基于內容的推薦算法[J]. 軟件, 2015, 36(1): 1-5.

[16]陳磊磊. 不同距離測度的K-Means 文本聚類研究[J]. 軟件, 2015, 36(1): 56-61.

[17]Mikolov T, Sutskever I, Chen K, et al. Distributed Repre sentations of Words and Phrases and Their Composi tion ality[C]. Proceedings of the Advances in Neural Information Processing Systems. Currant Associates, 2013: 3111-3119.

[18]王云龍. 基于Word2Vec新詞識別的評論情感分析系統的研究與實現[D]. 哈爾濱: 哈爾濱工業大學, 2018.

[19]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.

[20]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[21]HOCH REITE R S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735.

[22]Jain A, Zamir A R, Savarese S, et al. Structural-RNN: Deep Learning on Spatio-Temporal Graphs[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016: 5308-5317.

[23]張玉環, 錢江. 基于兩種 LSTM 結構的文本情感分析[J]. 軟件, 2018, 39(1): 116-120.

[24]王鐵剛. 社交媒體數據的獲取分析[J]. 軟件, 2015, 36(2): 86-91.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 亚洲成人一区二区三区| 日本人妻丰满熟妇区| 中字无码av在线电影| 亚洲AV色香蕉一区二区| 97成人在线视频| 国产精品999在线| 亚洲欧美激情小说另类| 成人午夜久久| 四虎影视永久在线精品| 欧美亚洲国产精品久久蜜芽| 色AV色 综合网站| 国产亚洲精品无码专| 中文字幕在线不卡视频| 成年人国产网站| 日韩小视频在线观看| 在线a网站| 国产在线拍偷自揄观看视频网站| 99精品福利视频| aa级毛片毛片免费观看久| 一级成人a做片免费| 亚洲欧美日韩动漫| 久久美女精品国产精品亚洲| 国产资源站| 欧美不卡视频一区发布| 国产精品视频导航| 午夜精品久久久久久久2023| 欧美日韩国产一级| 亚洲人成人无码www| 国产在线精彩视频论坛| 91黄色在线观看| 伊人久久精品亚洲午夜| 日韩无码视频网站| 久久大香香蕉国产免费网站| 国产av剧情无码精品色午夜| 欧美成人精品在线| 中文字幕久久精品波多野结| 欧美成人综合视频| 亚洲精品欧美日本中文字幕| 成年片色大黄全免费网站久久| 亚洲AV无码乱码在线观看代蜜桃 | 国产香蕉在线视频| 精品欧美日韩国产日漫一区不卡| 亚洲美女久久| 久久久久国产精品熟女影院| 国产99视频在线| 在线国产资源| 精品国产电影久久九九| 成人av手机在线观看| 久久熟女AV| 亚洲国产清纯| 欧美色香蕉| 一区二区日韩国产精久久| 久久精品娱乐亚洲领先| 午夜精品影院| 青青操国产| 国产剧情国内精品原创| 日本免费一区视频| 久久美女精品国产精品亚洲| 久久毛片免费基地| 色哟哟色院91精品网站| 一边摸一边做爽的视频17国产 | 亚洲有无码中文网| 97影院午夜在线观看视频| 亚洲综合片| 国产高潮视频在线观看| 国产日产欧美精品| 91在线免费公开视频| 美女无遮挡拍拍拍免费视频| 久久a级片| 国产精品久久精品| 日韩精品一区二区三区视频免费看| 亚洲国产91人成在线| 无码 在线 在线| 亚洲码一区二区三区| 国产香蕉国产精品偷在线观看| 国产无码高清视频不卡| 国产电话自拍伊人| 在线欧美a| 国产精品人成在线播放| 黄色一级视频欧美| 国产精品免费电影| 中文字幕在线看视频一区二区三区|