999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

運用NLP算法和BP神經網絡系統分析商品評論數據

2020-09-03 02:26:02謝易宏
無線互聯科技 2020年12期
關鍵詞:文本情感分析

謝易宏

(上海師范大學,上海 200234)

1 新技術應用的必要性

隨著科技的發展,網購已經成為人們主流的購物方式之一,據聯合國貿易和發展會議(United Nations Conference on Trade and Development,UNCTAD)2019年3月29日發布的數據顯示,2017年全球電子商務(Electronic Commerce,EC)交易額比上年增加13%,達到29.367萬億美元。通過網購獨有的評級、評論、幫助性評級和評論時間等,來提出在線銷售戰略,確定潛在的重要設計特征,以增強產品的吸引力,成了公司線上銷售部所必須要解決的問題之一。

自然語言處理在實體抽取,情感分析等任務上的準確度不斷提高[1],為精確處理評論數據提供了可能。通過對評論的關鍵詞提取以及情感分析,可以有效地從大量的評論數據中獲取有效信息,從而獲得對商品的有效反饋,可以針對性地改進產品質量,制定營銷策略。

2 模型設計

2.1 模型概覽

模型首先通過爬蟲在電商平臺上獲取相應的評論數據,再利用自然語言處理工具(Natural Language Toolkit,NLTK)對數據依次進行清洗、分詞,根據詞頻——逆文本頻率指數(Term Frequency-Inverse Document Frequency,TF-IDF)算法對關鍵信息進行抽取,最后同樣利用NLTK對關鍵信息進行情感標注,獲取情感傾向。對于時域上的評論數量的變化,利反向傳播(Back Propagation,BP)神經網絡對未來的數據進行預測,從而有效地對評論數據進行分析和預測,如圖1所示。

2.2 數據來源

本數據集來自美國亞馬遜電商平臺,文章利用Python中的request包爬取了2004——2019年吹風機和奶嘴商品的11 417條評論記錄。評論數據按照商品編號、購買時間、星級、評論文本存儲在MySQL數據庫中。

2.3 關鍵詞提取

NLTK是一套基于Python的自然語言處理工具集,能實現分詞、詞性標注、詞頻分析、情感分析等豐富的功能[3]。將數據導入程序,進行文本清洗,分句和分詞處理后,對相應的分詞進行詞形歸一化,去除標點以及去除停用詞,以最大程度地保留有用數據。隨后采用TF-IDF算法進行關鍵信息提取。

TF指詞頻,表示在一段文本中單詞出現的頻繁程度。假設在一段文本W={w1,w2,…,wn}中,共n個詞,其中單詞x出現了m次,那么單詞x的詞頻就是:

IDF指逆文檔頻率,表示在所有文本中單詞出現的不頻繁程度。假設N代表語料庫中所有的文本,N(x)表示語料庫中包含詞x的文本總數,那么該詞x的IDF為:

在得到TF和IDF之后,一個詞x的TF-IDF值計算為:通過在scikit-learn中使用TfidfVectorizer實現TF-IDF,從而得到相應的文本關鍵詞。

2.4 情感標注

情感分析或觀點挖掘是通過計算來識別作者對某段文本的態度是積極、消極還是中性的過程[2]。此反饋可能很有用,比如在自然語言評論中挖掘對某款產品或服務的觀點時。NTLK包含一個簡單的基于規則的情感分析模型,其中組合了詞匯特征來識別情感強度[3-4]。導入必要模塊(包括Vader情感分析器),創建一個函數來接受某個句子并呈現情感分類。該函數首先對SentimentIntensityAnalyzer執行實例化,然后使用傳遞的句子來調用polarity_scores方法。結果是一組浮點值,表示輸入文本的正或負價態。這些浮點值是為4個類別(正、中性、負和表示一個聚合分數的化合態)而發出的。該腳本最后調用傳遞的參數來識別情感,最終得到每一條評論對應的情感指數。

2.5 數據預測

BP神經網絡具有任意復雜的模式分類能力和優良的多維函數映射能力,解決了簡單感知器無法解決的排他性OR,XOR和其他一些問題。在結構上,BP網絡有輸入層、隱藏層和輸出層。本質上,BP算法以網絡的平方誤差作為目標函數,采用梯度下降法計算目標函數的最小值[5]。

模型統計每一年的評論數量并繪制趨勢圖,再利用BP神經網絡對數據進行擬合,從而可以對未來的數據進行預測。

3 實驗部分

3.1 關鍵詞提取

通過TF-IDF算法,得到了相應的關鍵詞,從中抽去了20條并根據出現頻率進行排序,命名后存入txt文檔中,如圖2所示。

圖2 關鍵詞提取

3.2 情感標注

針對每一條評論,分別給出其相應的情感指數,其中正數代表正向情感,負數相反。指數越接近1,說明傾向性越顯著,如圖3所示。

圖3 情感標注

3.3 趨勢預測

針對按年統計的評論數量,劃分出訓練數據和測試數據,并對數據進行了擬合,結果顯示出不錯的擬合效果,如圖4所示。

圖4 擬合效果

4 結語

該模型較好地對商品評論數據進行了分析處理,同時也存在以下一些缺點:(1)情感分析的粒度相對粗糙,缺乏層次分析和對情感因素的深層探討。(2)數據量相對較少,容易出現過擬合現象,難以對更長時間的數據進行準確預測。

猜你喜歡
文本情感分析
隱蔽失效適航要求符合性驗證分析
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
電力系統及其自動化發展趨勢分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 香蕉99国内自产自拍视频| 色老头综合网| 欧美在线视频不卡| 中国一级毛片免费观看| 114级毛片免费观看| 九九久久99精品| 激情在线网| 国产精品美人久久久久久AV| 久久久黄色片| 91毛片网| 中文字幕第4页| 亚洲国产成人精品青青草原| 精品人妻系列无码专区久久| 免费全部高H视频无码无遮掩| 免费三A级毛片视频| 天堂岛国av无码免费无禁网站| 久久熟女AV| 国产嫩草在线观看| 国产成人精品18| 黄色福利在线| 国产视频大全| 在线观看亚洲精品福利片| 亚洲综合九九| 99re热精品视频国产免费| 亚洲一区二区三区中文字幕5566| 久久伊人操| 亚洲视频免费播放| 国产精品林美惠子在线播放| 免费在线看黄网址| 99在线免费播放| 国产亚洲成AⅤ人片在线观看| 成人精品午夜福利在线播放| 丰满的少妇人妻无码区| 九色视频一区| 亚洲三级片在线看| 一区二区三区毛片无码| 亚洲色中色| 亚洲性影院| 国产XXXX做受性欧美88| 正在播放久久| 日韩午夜福利在线观看| 亚洲欧美精品日韩欧美| 免费在线视频a| 另类欧美日韩| 亚洲欧美综合另类图片小说区| 成人夜夜嗨| 不卡无码网| 992tv国产人成在线观看| 久久香蕉国产线看精品| 欧美午夜在线观看| 久综合日韩| 亚洲色图欧美激情| 日韩无码精品人妻| 精品一区二区久久久久网站| 自偷自拍三级全三级视频| 天堂亚洲网| 伊人无码视屏| 国产香蕉一区二区在线网站| 国产熟睡乱子伦视频网站| 99re在线视频观看| 国产精品福利社| 人妻一区二区三区无码精品一区 | 日本不卡在线| 亚洲国产成熟视频在线多多 | 中文字幕亚洲乱码熟女1区2区| 中国一级特黄视频| 麻豆国产原创视频在线播放| 亚洲午夜天堂| 国产乱子精品一区二区在线观看| 青草视频久久| 国产在线无码av完整版在线观看| 亚洲男人天堂久久| 制服丝袜国产精品| 亚洲欧美另类中文字幕| 欧美在线天堂| 福利视频99| 99九九成人免费视频精品| 欧美高清三区| 久久综合色视频| 国产二级毛片| av午夜福利一片免费看| 国产尤物在线播放|