999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Gensim的LDA主題模型分析在商品評價中的應用

2021-11-28 10:53:41肖自乾陳經優符天
電腦知識與技術 2021年30期
關鍵詞:評價

肖自乾 陳經優 符天

摘要:目前在網上購物已成為大多數人的首選,避免購物途中的勞累并且也節約時間。文章基于LDA主題模型對電商平臺商品的評論數據進行分析,得出用戶正面評價和負面評價分別主要集中在哪些方面,并提出針對性的改進建議,從而提高商品的質量和用戶體驗。

關鍵詞:Gemsim;LDA;文本分析;主題模型;評價

中圖分類號:G642? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)30-0017-03

開放科學(資源服務)標識碼(OSID):

1引言

隨著信息技術的不斷發展革新,線下物流業的蓬勃發展,人們在電商平臺購物已成為生活的一部分。2020年中國網上零售額達11.76萬億元,同比增長10.9%,實物商品網上零售額達9.76萬億元,同比增長14.8%[1]。面對如此龐大用戶群體、如此龐大的交易額,商家如何高效準確地獲取客戶反饋對提高銷售量、提升客戶滿意度及提高服務質量顯得尤為重要。因此課題從電商平臺著手,獲取海量用戶對某一產品的評價,如好評、差評等,接著進行文本主題分析,得到該產品有哪些方面的優點和缺點,進而提供相關的改進建議。

2 LDA主題模型

2.1 文本分析

文本分析是指對文本的表示及其特征項的選取,它把從文本中抽取出的特征詞進行量化來表示文本信息。課題用數學的方法進行選取,找出最具分類信息的特征,這是一種比較精確的方法,尤其適合于文本自動分類挖掘系統的應用[2]。

2.2 LDA的概念和方法

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為三層貝葉斯概率模型,包含詞、主題和文檔三層結構。LDA是一種非監督機器學習技術,可以用來識別大規模文檔集或語料庫中潛藏的主題信息,它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息[3]。課題主要應用Gensim庫中的LDA模型。Gensim是一款開源的第三方Python工具包,用于從原始的非結構化的文本中,無監督地學習到文本隱藏層的主題向量表達。它支持包括TF-IDF,LSA,LDA,和word2vec在內的多種主題模型算法,支持流式訓練,并提供了諸如相似度計算,信息檢索等一些常用任務的API接口。

3抓取筆記本電腦用戶評論

我們選取電商平臺上一款銷售量較高的筆記本電腦產品,查看“商品評論”可以看到分為好評、中評以及差評。在評論數據包含用戶ID、商品名稱、評論內容以及評論時間等。在數據抓取中我們可以使用“requests”庫或者“Scrapy”爬蟲框架來實現。

我們編寫程序抓取“好評”評論,對每條記錄標記為“pos”,抓取“差評”,對每條記錄標記為“neg”。抓取評論頁數設置為50頁。最終獲取正面評論500條,負面評論360條。

4 數據處理分析及LDA模型構建

4.1 語料處理

第一步是進行數據去重和刪除筆記本電腦名稱等無關詞組。抓取到的數據是比較完整的,里面存在諸如商品名、商品型號等重復數據,我們需要對這些數據進行刪除,保留能反映商品優缺點的評論內容。

第二步是進行分詞、刪除標點符號和停用詞。中文分詞是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊,在進行中文自然語言處理時,通常需要先進行分詞。在項目中我們引入jieba庫,jieba分詞算法使用了基于前綴詞典實現高效的詞圖掃描,生成句子中漢字所有可能生成詞情況所構成的有向無環圖(DAG),再采用了動態規劃查找最大概率路徑,找出基于詞頻的最大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。下一步是去除停用詞(Stop Words)。停用詞被譯為“電腦檢索中的虛字、非檢索用字”。在SEO 搜索引擎中,為節省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些詞,這些字或詞即被稱為停用詞。停用詞一定程度上相當于過濾詞(Filter Words),區別是過濾詞的范圍更大一些,包含敏感信息的關鍵詞都會被視作過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞大致可分為如下兩類:一類是使用十分廣泛,甚至是過于頻繁的一些單詞。另一類是文本中出現頻率很高,但實際意義又不大的詞。主要包括了語氣助詞、副詞、介詞、連詞等,通常自身并無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。經過分詞后,評論由一個字符串的形式變為多個由文字或詞語組成的字符串的形式,可判斷評論中詞語是否為停用詞。根據上述停用詞的定義整理出停用詞庫,對評論數據進行處理。

最后一步是合并評論ID、評論中詞的ID、詞、詞性以及評論類型成一張表,提取含有名詞類的評論,最后將語料處理結果寫入數據文件。

4.2 文本情感分析

情感傾向也稱為情感極性。在商品評論中,情感傾向可以理解為用戶對該商品表達自身觀點所持的態度是支持、反對還是中立,即通常所指的正面情感、負面情感、中性情感。由于課題主要是對產品的優缺點進行分析,所以只要確定用戶評論信息中的情感傾向方向分析即可,不需要分析每一評論的情感程度。

首先我們建立負面評價詞語、負面情感詞語、正面評價詞語以及正面情感詞語四個文本庫,用于我們進行目標文本分析的時候用于計算情感值。即正面評價詞和正面情感詞分值為1,負面評價詞和負面情感詞分值為-1;然后是根據否定詞或雙重否定對情感值進行修正;最后是去掉情感值為0的評論,并分別得到正面和負面的評論信息關鍵詞。通過實驗表明,在使用原始的正面負面文本庫的情況下,假設不存在“好評”中給差評,和“差評”中給好評的情況,根據文本情感分析的正確率為0.8763326226012793,此時交叉矩陣如表3所示。

經過查看文本數據,發現較多正面評價詞語被歸到負面,或者一些情感詞沒有被歸類到相應的類別,因此需要進行修正,即添加正面或負面評價詞語到相應的文本庫中,再次運行并得到正確率提高到0.955,此時交叉矩陣如表4所示。

4.3 主題數尋優

在這里我們引入Gensim庫,使用doc2bow方法分別將每個正面評論或負面評論生成一個n維向量即語料庫。應用基于相似度的自適應最優LDA 模型選擇方法,確定主題數并進行主題分析。具體步驟如下:

(1)選擇初始主題數k 值,得到初始模型,計算各主題之間的相似度(平均余弦距離)。

(2)增加或減少k 值,重新訓練模型,再次計算各主題之間的相似度。

(3)重復步驟2 直到得到最優k 值。

利用各主題間的余弦相似度來度量主題間的相似程度。從詞頻入手,計算它們的相似度,用詞越相似,則內容越相近。

對正面評論和負面評論分別執行劃分2~10個主題并計算計算主題平均余弦相似度,生成折線圖如圖1、2所示,從而確定最佳的主題數。

從以圖1和圖2我們可以看出,對于正面、負面評論主題數我們分別選1個和2個較為合適。

4.4 LDA主題模型分析結論

根據主題數尋優結果,進行基于LDA的主題分析,打印前10個詞組,正面評論生成1個主題,結果見表5,負面評論生成2個主題,結果見表6。

通過主題分析我們可以看出,對于正面評論,相對是比較集中在運行速度快、外觀等方面;負面評論有兩個方面,首先是對產品總體評價差、開機慢、卡頓等,其次是客服、售后服務質量差,也存在散熱等問題。

5 結語

課題通過對電商平臺上一款筆記本電腦的正面評論和負面評論進行主題分析,得出相應的結論,具體指出用戶正面評價、負面評價主要體現哪些方面,從而為產品制造商、電商平臺服務等提出針對性的建議,從而提高產品的質量和平臺的服務質量。

參考文獻:

[1] 2020年全年網絡零售市場發展情況[EB/OL].http://www.mofcom.gov.cn/article/i/jyjl/j/202101/20210103033716.shtml.

[2] 曾祥坤,張俊輝,石拓,邵可佳. 基于主題提取模型的交通違法行為文本數據的挖掘[J].電子技術應用,2019(6):47-51.

[3] 程元堃,蔣言,程光. 基于word2vec的網站主題分類研究[J]. 計算機與數字工程,2019(1):174-178.

[4]張厚棟,徐愛民.基于LDA模型的電商用戶評價分析[J].浙江萬里學院學報,2020,33(6):91-96.

[5] 張心悅. 生鮮農產品在線評論文本內容對消費者滿意度的影響研究[D].哈爾濱工業大學,2020.

[6] 陳俊宇. 基于文本挖掘的在線評論應用研究[D].湖北工業大學,2020.

【通聯編輯:王力】

猜你喜歡
評價
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
中藥治療室性早搏系統評價再評價
自制C肽質控品及其性能評價
寫作交流與評價:詞的欣賞
中學語文(2015年21期)2015-03-01 03:52:11
基于Moodle的學習評價
關于項目后評價中“專項”后評價的探討
HBV-DNA提取液I的配制和應用評價
西南軍醫(2015年1期)2015-01-22 09:08:16
有效評價讓每朵花兒都綻放
模糊數學評價法在水質評價中的應用
治淮(2013年1期)2013-03-11 20:05:18
保加利亞轉軌20年評價
主站蜘蛛池模板: 久久精品日日躁夜夜躁欧美| 欧美自拍另类欧美综合图区| 日韩一区二区三免费高清| 国产精品亚洲五月天高清| 国产第八页| 国产黄网站在线观看| 亚洲精品国产综合99| 国产精品无码久久久久久| 激情国产精品一区| 久久国产V一级毛多内射| 亚州AV秘 一区二区三区| 久久久久国产一级毛片高清板| 国产综合网站| 麻豆AV网站免费进入| 成人毛片免费在线观看| 国产一区二区免费播放| 亚洲人视频在线观看| 精品成人免费自拍视频| 青青青国产视频| 婷婷亚洲视频| 欧美日韩成人在线观看| 久久人体视频| 91久久大香线蕉| 婷婷99视频精品全部在线观看| 国产微拍一区| 亚洲精品无码久久毛片波多野吉| 国产91导航| 内射人妻无码色AV天堂| 国产美女精品人人做人人爽| 午夜日b视频| 亚洲经典在线中文字幕| 亚洲AⅤ综合在线欧美一区| 亚洲第一香蕉视频| 亚洲精品视频网| 精品伊人久久大香线蕉网站| 制服丝袜在线视频香蕉| www.youjizz.com久久| 尤物成AV人片在线观看| 永久免费无码日韩视频| 波多野吉衣一区二区三区av| 欧美成人影院亚洲综合图| 真实国产乱子伦视频| 国产精品爽爽va在线无码观看 | 久久综合一个色综合网| 亚洲另类第一页| 蜜臀AVWWW国产天堂| 日韩精品亚洲一区中文字幕| 午夜视频免费一区二区在线看| 三上悠亚在线精品二区| 亚洲天堂.com| 久久国产精品国产自线拍| 国产精选自拍| 狂欢视频在线观看不卡| 欧美国产日产一区二区| 91小视频在线播放| 亚洲国产理论片在线播放| 性欧美久久| 国产成人区在线观看视频| 国产成人三级| 无码专区第一页| 精品人妻一区二区三区蜜桃AⅤ| 国产亚洲高清在线精品99| 久久精品国产999大香线焦| 国产永久免费视频m3u8| www中文字幕在线观看| 国产91蝌蚪窝| 久久亚洲美女精品国产精品| 一级看片免费视频| 国产主播喷水| 二级特黄绝大片免费视频大片| 国产亚洲精品无码专| 日韩欧美中文在线| 午夜福利在线观看成人| 国产无遮挡猛进猛出免费软件| 亚洲成人动漫在线| 一级成人a做片免费| 无码专区在线观看| 人妻丰满熟妇AV无码区| 亚洲一区二区无码视频| 国产无码精品在线| 亚洲欧美日韩另类| 一级片一区|