999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的電商平臺產品評論情感分析

2023-06-22 17:30:09趙浩博唐非
現代信息科技 2023年5期
關鍵詞:機器學習深度學習

趙浩博 唐非

摘? 要:隨著網絡的蓬勃發展,現代人越來越依賴于網上購物,消費者在購物后留下大量的商品評論文本。為了能讓評論文本為消費者及商家帶來更多的優質信息,利用Python抓取某電商平臺中某個產品的評論,對所得到的文本數據進行預處理,采用機器學習和深度學習算法構建模型并進行分析,找出分析效果最好的模型,并分析產品的不足,給出相應的指導意見。

關鍵詞:用戶評論;文本分析;情感分析;機器學習;深度學習

中圖分類號:TP391.1;F724.6? 文獻標識碼:A? 文章編號:2096-4706(2023)05-0030-04

Emotion Analysis of E-commerce Platform Product Reviews Based on Deep Learning

ZHAO Haobo1, TANG Fei1,2

(1.School of Software, Shenyang University of Technology, Shenyang? 110870, China;

2.School of Artificial Intelligence, Shenyang University of Technology, Shenyang? 110870, China)

Abstract: With the vigorous development of the Internet, modern people increasingly rely on online shopping, and consumers leave a large number of product comments after shopping. In order to make the comment text bring more high-quality information to consumers and businesses, Python is used to capture the comments of a product in an E-commerce platform, preprocess the obtained text data, use machine learning and deep learning algorithms to build model and make analysis, find out the model with the best analysis effect, analyze the shortcomings of the products, and give corresponding guidance.

Keywords: user comment; text analysis; emotion analysis; machine learning; deep learning

0? 引? 言

近年來,國外又掀起一股互聯網熱潮,據《中國互聯網絡發展狀況統計報告》[1]顯示,截至2022年6月,我國在網上購物的人數達到8.41億,占網民總人數的80%。在如此龐大的購物人群中,產品的評論就顯得尤為重要[2]。我們進行了一項實驗,在京東商城中使用Python爬蟲技術,爬取紅米K50手機的評論[3]。由于所爬取的差評文本較少,實驗將中評和差評文本合并,統一標為差評。對數據進行預處理后[4],使用機器學習和深度學習模型進行分類[5],得到一個效果較好的分類模型。一方面消費者可以從評論中提取與自己需求匹配的關鍵信息,另一方面也可以幫助商家對自己產品功能的優勢和劣勢進行區分。

1? 評論的情感分析

1.1? 數據的獲取

使用Python爬蟲技術對京東商城旗艦店某品牌最新款5G手機進行評論的爬取[6]。由于網頁版京東商城設置了反爬機制,實驗將不同型號和不同顏色的k50相互組合,分別進行爬取。首先調用request庫,在京東網站上搜索所需抓取商品的信息,找到自己想要抓取信息的商品并點開其評價信息;復制URL,在Python編輯器中定義URL;使用json庫進行在線分析,尋找規律后對所抓取的代碼進行解析;調用json庫中的函數并將其整合成帶有好評及差評標簽的兩列評論文本,并保存在.csv文件中,一列為評論文本,一列為評價類型,便于后續的使用。所爬取的部分評論如表1所示。

1.2? 數據的預處理

為了避免數據遺漏及數據重復對實驗造成影響,首先對所得到的文本進行預處理。通常,不同用戶對于其所購買產品的評價是不同的,所以他們在平臺留下的評價也各不相同。如果消費者在購買商品后沒有對商品做出評論,平臺會給出默認評論,例如,“此用戶未填寫評價內容”等,所以這類文本數據是沒有任何分析價值的。除此之外,還存在一些購買者的評論內容完全重復的情況,這種評論只有最早的評論才有意義。本實驗對兩條或多條重復的評論進行處理,僅刪除完全重復的評論,以確保保留有用的文本評論信息。

在對評論去重之后,使用Python中的jieba庫對評論文本進行分詞。Jieba的分詞功能和執行準確率相比其他工具更高。當然,在已有的停用詞表基礎上,如果我們還有一些不需要的詞語,也可以自己完善停用詞表。本文依照哈工大停用詞表去掉與實驗不相關的停用詞,例如“我們”“買”“已經”等[7]。同時使用自定義詞典,加入網絡流行詞及長詞,避免在jieba中被默認分割。

由于好評和差評也屬于文本數據,采用數字編碼方法將好評轉碼為1,將差評轉碼為0,方便后續實驗的有序進行。如圖1所示為好評與差評中頻數較高若干詞的柱狀圖。

1.3? 數據可視化

目前,開源工具種類繁多,實驗使用Jieba庫。在編譯器Pytharm中導入jieba庫、wordcloud庫和matplotlib庫。Wordcloud用于繪制詞云圖,而Matplotlib庫用于將圖展示出來。根據分詞之后的詞頻繪制詞云圖。從詞云圖中不難看出,好評中占比較高的詞有“屏幕”“性價比”“電池”等;差評中占比較高的詞有“速度”“效果”“系統”等。如圖2所示為好評與差評中頻數較高若干詞的詞云圖。

2? 詞向量轉換

2.1? 詞袋模型

由于文本數據不能直接使用,需要將文本數據轉換為可以計算的向量[8],可以使用詞袋模型來解決此問題。詞袋模型就是將詞語打亂順序后放入袋子里,按順序編碼,然后取詞語的個數按句子的對應關系構建詞向量。但是one-hot編碼有多少詞語,就要構建多少維的向量,這樣可能會發生維度災難,而且也無法度量詞語之間的相似性。

2.2? 詞嵌入模型

詞嵌入模型(Word to Vector)是表示詞語位置關系的一種模型[9]。Word2vec提出了一種假設,一段話中離得越近的詞語它們的相似度也就也高。使用余弦相似度計算兩個詞語之間的距離,判斷兩個詞語之間的關系,現在常用Word2vec構建詞嵌入模型,它是由CBOW和Skip-Gram算法組成的神經網絡模型。CBOW的主要方法是通過句子中的上下文詞來推測出中心詞,而Skip-Gram則是使用中心詞來預測上下文詞。

詞袋模型的One-Hot表示法、TF表示法等算法都沒有考慮詞與詞之間的關系,比如“的”字的后面只能接名詞性詞語,“地”字的后面只能接動詞性詞語。也就是說,詞袋模型認為一個詞出現的可能性與其他詞出現的可能性無關,詞語的出現是相互獨立的。

詞袋模型最大的缺陷是向量的維度高,維度高造成后續相似度或文本分類的計算量非常大,同時數據稀疏也導致相似度區分不明顯。由于詞袋模型所表示文本向量的每個維度都代表一個詞語,因此可以將聚類后簇中心向量中具有較大值的維度對應的詞語用作簇的關鍵詞。Word2vec是神經網絡的衍生品,在使用淺層神經網絡對文本進行情感分析時,發現在得到分類結果的同時,輸入矩陣剛好可以用來表示詞語。由于詞語是用上下文來表達的,一定程度上反映了詞語的語義,但這并不代表機器真正明白了詞語的含義,只是說明相似詞語之間的向量相似度較大而已。如圖3所示為Skip-Gram網絡結構圖。

3? 算法建立

3.1? 機器學習算法

支持向量機(Support Vector Machines, SVM)是一種傳統的機器學習算法,于1993年被提出。它是一種二分類模型,將數值型的特征向量投影到平面或空間上,尋找區分兩類點的超平面,使得邊際最大,以“最好地”區分這兩類點。SVM稱得上深度學習出現之前最好的機器學習算法之一。調用sklearn中的SVM庫,進行SVM算法的調試和模型訓練,得到準確值和預測值,然后將模型保存。將兩萬多條帶有標簽的數據集按7:3的比例分成訓練集和測試集,實驗之后把測試集導入訓練好的模型進行測驗。

3.2? 深度學習算法

3.2.1? 卷積神經網絡

卷積神經網絡(Convolutional Neural Networks, CNN)是一種深度學習的算法,也是Deep Learning中較為火熱的幾個算法之一,它通常被用于圖像處理。CNN通常由輸入層、卷積層、池化層、全連接層、softmax層組成。使用TensorFlow中的CNN,調整input與卷積核參數,迭代次數為100,epoch次數為5,詞向量的維度為20。在上文分好的訓練集上進行測試,并進行多次訓練。

3.2.2? 長短期記憶網絡

長短期記憶網絡(Long Short-Term Memory, LSTM)是循環神經網絡(RNN)的一種變體,在RNN標準模型的基礎上增加了三個門控單元:遺忘門(Forget Gate)、輸入門(Input Gate)以及輸出門(Output Gate)。三個門恰好可以把LSTM分成三個部分,整個LSTM的實現也是圍繞著這三個門展開的。如圖4所示為LSTM的結構圖。

圖中,C(t-1)為上一次的單元狀態,通過遺忘門有選擇性地遺忘一些信息。假設輸入的x(t)為10個向量,通過四個全連接層計算出新的候選信息值,傳遞到輸入門補充新的信息。最后一層sigmoid函數通向輸出門,與其他“記憶”發生權值交集,一部分從h(t)以隱藏狀態輸出,一部分作為包含歷史信息的長期記憶,繼續從c(t)輸出下去。四個全連接層的權重公式為:

(1)

(2)

(3)

(4)

舉個例子,我們在閱讀或看書的時候,會根據已經讀過的文字來推理和理解后續的文字,而不是看一段忘一段,我們一直保持著一個思考的狀態。

傳統的神經網絡即RNN做不到這一點,LSTM是具有循環的網絡,解決了信息無法長期存在的問題,在工業界普遍使用并取得了良好的效果。使用LSTM,很容易實現對文本的情感分析。針對每一條商品評論,對長度較短的評論進行補充,對長度過長的評論進行裁剪處理,使得每個句子向量的長度相同。然后,利用長短時記憶網絡,按照從左到右的順序讀取每一個句子向量。讀取之后,使用長短時記憶網絡的最后一個輸出記憶,將其當作上一條語句的信息,并且將這條讀取完的信息當作下一條語句的輸入向量,送入一個分類層進行分類和訓練。設置迭代次數為100,epoch次數為5,詞向量的維度為20,完成對LSTM算法模型的建立。

3.3? 情感分析效果驗證

本實驗中情感分類模型的性能評價指標,主要包含準確率、精確率、召回率、F1_score、ROC曲線、AUC等。對于給定的測試集來說,準確度為模型正確分類的樣本數與需要進行分類的總樣本數之比。但是在分類樣本集中如果差距較大,準確率就不能很好地體現分類的優劣。精確度為分類模型將正類樣本預測為正類的數量與整個樣本預測為正類的總數的比例。召回率在實際為正的樣本中被預測為正樣本的概率,而F1值則是前兩種方法所得結果的調和平均數。如表2所示為實驗中三種方法的評價指標。由表2可知,LSTM算法的分類性能要好于其他兩種算法。

4? 結? 論

本文使用爬蟲技術對京東商城某品牌手機進行評論內容的抓取、評論去重、數據清洗、中文分詞、去掉停用詞的預處理,然后將評論文本分為正面評價和負面評價兩類。通過詞頻統計得到出現次數較高的詞,以此得出該款手機在外觀、運行速度方面的優勢,而在屏幕和手機整體外觀上還需要進一步提升,以更好地適應消費者的需求。由于商品評論數據過于龐大,本文未全部獲得并進行分析,只對平臺上34 220條評論進行了處理和分析,在所用數據上難免會存在偶然性。最后使用處理好的數據進行算法的構建,通過對比分類指標得出,LSTM算法的性能明顯優于CNN和SVM,滿足商品評論情感分析的需要。

參考文獻:

[1] 張曉娜.第50次《中國互聯網絡發展狀況統計報告》發布 [N/OL].光明日報,[2022-11-02].http://www.gov.cn/xinwen/2022-09/01/content_5707695.htm.

[2] 王惠,撒海蘭.電商購物平臺追加評論對消費者購買意愿影響的實證分析——基于新疆高校的調查數據 [J].新疆廣播電視大學學報,2021,25(2):45-51.

[3] 彭梅,胡必波.基于大數據人工智能的電商用戶評論情感分析 [J].電腦編程技巧與維護,2022(6):123-126.

[4] 王鵬嶺,應欣慧,梁家瑞,等.網購評論情感分析——以某化妝品為例 [J].電腦知識與技術,2022,18(13):21-23.

[5] 吳淑凡.基于機器學習的電商平臺中用戶價值分析研究 [J].惠州學院學報,2022,42(3):81-86.

[6] 千文.基于Python的旅游網站數據爬蟲分析 [J].電腦編程技巧與維護,2022(9):85-87+118.

[7] 吳昔遙,劉欣凱,王孝杰.基于信息化的酒店評論情感分析 [J].中國新通信,2022,24(4):124-126.

[8] 朱名勛,郭琴.電商平臺中的在線評論情感分析 [J].長江信息通信,2022,35(1):170-171+174.

[9] 凌潔,劉玉林.電商平臺在線評論分析研究綜述 [J].江蘇經貿職業技術學院學報,2019(6):38-41.

作者簡介:趙浩博(1998—),男,漢族,遼寧鞍山人,碩士研究生在讀,主要研究方向:自然語言處理;唐非(1975—),女,漢族,遼寧沈陽人,講師,博士,主要研究方向:數據分析。

收稿日期:2022-11-09

基金項目:遼寧省教育廳項目(LJKZ0145)

猜你喜歡
機器學習深度學習
基于詞典與機器學習的中文微博情感分析
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網絡的人臉年齡分析算法與實現
軟件工程(2016年8期)2016-10-25 15:47:34
基于支持向量機的金融數據分析研究
主站蜘蛛池模板: 凹凸精品免费精品视频| 美女毛片在线| 国产一区二区三区夜色 | 国产福利一区视频| 宅男噜噜噜66国产在线观看| 欧美在线一级片| 国产亚洲精品精品精品| 日韩精品欧美国产在线| 国产成人精品在线1区| 一级一毛片a级毛片| 国产精品成人不卡在线观看| 亚洲精品黄| 超清无码熟妇人妻AV在线绿巨人| 91成人试看福利体验区| 成人午夜视频网站| 四虎成人免费毛片| 国产成人亚洲无码淙合青草| 亚洲欧美国产五月天综合| 97在线公开视频| 国产一级无码不卡视频| 国产在线97| 国产成人免费观看在线视频| 欧美三级视频网站| 婷婷亚洲综合五月天在线| 欧美在线网| 婷婷六月激情综合一区| 国产尤物在线播放| 日韩午夜片| 999精品视频在线| 精品亚洲国产成人AV| 国产成人调教在线视频| 午夜国产小视频| 国产成人调教在线视频| 亚洲永久视频| 无码丝袜人妻| 亚洲国产亚综合在线区| 久久久久88色偷偷| 四虎永久在线精品国产免费| 色综合久久88| 免费xxxxx在线观看网站| 国产精品lululu在线观看 | 亚洲毛片在线看| 三级毛片在线播放| 久久精品波多野结衣| 亚洲综合色婷婷中文字幕| 在线观看亚洲成人| 午夜精品久久久久久久无码软件 | 亚洲欧美日韩色图| 国产日韩精品欧美一区喷| 亚洲国产天堂久久九九九| 中字无码av在线电影| 无码电影在线观看| 国产av一码二码三码无码| A级毛片高清免费视频就| 亚洲av日韩av制服丝袜| 亚洲国产日韩一区| 毛片在线看网站| 欧美69视频在线| jizz在线观看| 福利在线免费视频| 中日无码在线观看| 午夜福利亚洲精品| 精品国产成人av免费| 最新加勒比隔壁人妻| 少妇人妻无码首页| 亚洲熟女中文字幕男人总站| 欧美黄色网站在线看| 国产精品网曝门免费视频| 72种姿势欧美久久久大黄蕉| 在线观看免费人成视频色快速| 中文无码精品a∨在线观看| 国产女人爽到高潮的免费视频| 国产打屁股免费区网站| 日韩高清无码免费| 40岁成熟女人牲交片免费| 国产丰满大乳无码免费播放| 欧美成人综合在线| 欧美狠狠干| 乱人伦99久久| 日本午夜三级| 自拍偷拍欧美| 99在线视频网站|