999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的電商用戶評價分析

2023-03-14 04:19:24
科技創業月刊 2023年2期
關鍵詞:詞匯文本情感

杜 利

(北京郵電大學 經濟管理學院,北京 100876)

0 引言

隨著互聯網和電子商務的建設發展,人們日常生活的消費購物服務方式發生了巨大的變化。中國互聯網絡信息中心(CNNIC)發布的《第47次中國互聯網發展統計報告》[1]指出,截至2020年12月,中國移動互聯網用戶已經超過9.89億人,網上虛擬購物用戶也達到7.82億人,比2020年3月增加7 215萬人。2020年,全國網絡零售額總量達到11.76萬億元,比2019年增長10.9%。隨著網絡購物規模和頻率的不斷增加,越來越多消費者也習慣在商品購買結束后發表評論,包括個人觀點、情感信息、使用體驗、價格、商品物流等內容感知[2]。相比于傳統的市場需求調研,在線產品評論一般不受工作時間、地域、職業差異等影響,用戶對產品特性和產品服務的改進要求,均能得到直觀展現,能夠較為客觀、全面、及時地反映當前市場需求變化。

圖1 網絡購物用戶規模及使用率

對消費者來說,這是一種反饋意見的方式,同時,也是一種信息獲取方式,通過了解商品質量和售后服務來影響購買決策。對于商家來說,與用戶之間的互動不僅可以幫助用戶選擇,增加用戶粘性,還可以收集和分析在線用戶評論內容,改進自己的產品,加強內部管理,提高競爭力[3]。

本文利用Python采集Apple京東自營旗艦店的iPhone12商品在線文本評論數據,將文本挖掘處理碎片化、非結構化的電商網站評論數據,轉化為結構化數據。參考知網發布的情感分析詞匯集,統計評論數據的正負情感指數,進行情感分析,通過詞云圖直觀查看正負評論的關鍵詞。最后,通過潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,了解用戶的需求、意見、購買原因、產品的優缺點等,提取評論的關鍵信息,提出提高用戶滿意度的建議。

1 數據獲取與處理

1.1 數據采集

以來自京東的Apple旗艦店數據,選擇最近流行的手機產品,找到網頁源碼地址,使用python的Json對頁面內容進行分析,并在2022年6月26日前循環爬取該產品的所有用戶評論,共4 530條。根據用戶名、評論內容、購買時間、點贊數、回復數、評分時間、手機型號,將獲得的商品數據寫入CSV格式文件中。

1.2 數據預處理

由于原始評論數據上的重復評論和自動評論都會影響數據分析和結果,導致數據分析與實際情況間的偏差,因此對數據的預處理至關重要。結合系統原始評論數據,刪除所有自動評論和重復評論,共刪除1 077條評論,剩余評論3 453條。繼續對目標文本內容進行預處理,對目標文本進行分段、分句、分詞、詞性標記,并刪除文本中的停用詞。

1.2.1 數據清洗

數據清洗是通過軟件對數據重復信息進行信息審查與判斷處理和數據校驗分析的綜合過程,目的在于刪除重復數據或錯誤信息,保證數據一致性。

表1 部分數據清洗結果

1.2.2 文本分詞和詞性標注

經過對上述評論的文本內容進行處理后,需要對該評論的文本內容進行中文分詞,確定情感分析結果。中文做分詞遠比英文做分詞更加復雜,英語句子結構中單詞是可以用空格來進行分隔處理的,而漢語沒有空格[4]。為了解決這個問題,需要處理好評論中需要使用到的各種文字標記,然后去做中文分詞。分詞編碼和詞性標注處理后產生的最終結果如表2所示。

表2 分詞及詞性標注部分結果

1.2.3 去除停用詞

評論大多也是口語化的,會有很多如"啊""呃"或"在"之類的詞。這類叫停用詞,不能體現主題。停用詞可能沒用,但它出現的頻率可能很高。如果不能夠予以處理,會導致在一定程度上影響實驗結果[5]。

1.3 詞云圖

經過上述的文本數據預處理后,再對處理生成的評論數據進行詞云分析,如圖2所示。可以看出,消費者提到最多的四個詞是“好看”“速度”“喜歡”“拍照”??梢姶蟛糠窒M者主觀上仍然是十分認同這次消費的,蘋果作為智能手機的龍頭廠商,實力雄厚,名副其實。商家可以通過詞云了解用戶的需求,也可以讓用戶對產品有一個整體了解,幫助用戶在購買前快速提煉評論內容。

圖2 詞云圖

2 基于LDA模型的商品在線評論分析

2.1 評論數據情感傾向分析

情感分析是自然語言處理的相關分支領域,其主要任務是分析某個單詞、段落內容或一篇文章中所包含的情感色彩。過去在有人要購買某商品時,往往就會事先向親朋好友詢問有關該件商品的使用感受,然后才選擇是否購買。每個評論往往都是包含著消費者對商品的基本情感取向,購買者們往往會根據這些評論進行理性選擇。任何一種評論風格都會影響購買者個人的購買意愿,因此進行情感分析顯得尤為重要。

2.1.1 匹配情感詞

情感傾向也叫情感極性。在用戶對商品進行留言評論過程中,可以直接了解該用戶對該款商品看法的態度是支持、反對還是中立,通常稱為積極情緒、消極情緒和中立情緒。由于本案例主要分析產品本身的一些優缺點,所以只需要去確定每個用戶對于評論內容的主觀情感傾向,不需要具體分析每條用戶評論內容的情感程度。

分析評論的情感傾向,首先是情感詞匹配,主要是詞典匹配。本案例中使用的正面情感詞匯是來自我國于2007年10月22日在知網發布的《用于情感分析的詞匯(Beta版)》。將“中文正面評論”和“中文正面情感”這兩個詞匯組合起來,給每個組合詞設置初始權重為1,就是本案例的正面評論情感詞匯。將“中文負面評價”和“中文負面情緒”這兩個詞匯組合起來,給每個詞增加初始的權重-1,作為本案例的一個負面評論情緒詞匯。

一般基于詞匯的情感分析方法往往與情感詞匯中的詞有很強的相關性。如果情感詞匯中的詞語足夠全面,并且詞語符合案例場景中所表達的情感,那么情感分析效果會更好。對于這個案例場景,需要對知網提供的詞匯進行優化。比如“高贊”“超值”“差評”“五分”等詞匯,只有在網購評論中出現時,可以根據詞匯的情感傾向,添加到相應的情感詞匯中。在積極情緒詞匯中加入“滿意”“贊美”“很快”“ok”“很值”“很有力量”“支持”等詞匯。在負面情緒詞匯中加入“差評”“貴”“高”等詞匯。

在正面和負面評論的情感詞匯中讀取,正面詞的初始權重為1,負面詞的初始權重為-1。使用Merge函數,根據單詞將情感詞匯與分詞結果進行匹配。

2.1.2 修正情感傾向

情感方向修正法主要是指根據情感詞中是否存在著同一否定詞,去判斷其情感值正確與否,由于漢語詞匯結構中,存在著奇數否定詞,表示否定的意思,即當這一否定詞連續出現奇數次,表示這是一個否定的意思;或當否定詞出現偶數次時,表示為肯定的意思。

本文中使用到的否定助詞表中共有19個否定詞,分別記為:不、沒、無、非、莫、弗、毋、未、否、別、無、休、不是、不能、不可、沒有、不用、不要、從沒、不太。

讀入否定代詞表,對情感值的方向進行修正。計算出每條評論信息的情感得分,將評論內容分為正面評論和負面評論,并據此計算出情感分析的結果的統計準確率。運行代碼,可得正面情感評論詞云如圖3所示,負面情感評論詞云如圖4所示。

圖3 正面情感詞云

圖4 負面情感詞云

為了找出產品評論文本之間蘊含的語義關系,分析其產品屬性特征的差異優劣,有必要系統地對這些評論的文本語義進行進一步的綜合提煉,挖掘評論文本中包含的主題詞。

2.2 文本評論的LDA主題分析

2.2.1 LDA模型介紹

LDA模型是一種主題模型。它通過分析每篇文檔中使用的每個文本主題類型,抽取出代表它們概率特征類型的文本主題,可以進行文本主題的聚類分析或文本主題分類[6]。它實際上是一種典型的詞袋模型,即每一篇文檔內容均是由某一組詞所構成的,詞組之間完全沒有任何時間先后順序的關系。建立LDA主題模型,首先需要建立詞典及語料庫,方可進行主題分析。

2.2.2 尋找最優主題數

基于相似度的自適應最優LDA模型選擇方法,確定主題數并進行主題分析。實驗證明該方法可以做到不需要人工調試主題數目的情況下,用相對少的迭代,找到最優的主題結構[7]。

使用LDA主題模型,找出不同類型的主題數下相同的主題詞集;并且從每個主題模型上隨機取出了若干個主題詞(比如前100個),合并成一個集合;生成任何兩個主題間的詞頻向量;計算兩個向量數的余弦相似度,值越大表示越相似;計算主題數的平均余弦相似度,尋找最優主題數。運行代碼可得主題間的平均余弦相似度圖,如圖5所示。

圖5 主題間平均余弦相似度

由圖5可知,對于正面評論數據,當主題數為1或2時,主題間的平均余弦相似度達到最低。因此,對正面評論數據做LDA;對于負面評論數據,當選擇的主題數為3時,主題間平均余弦相似度達到最低。因此,對負面評論數據做LDA,可以選擇主題數為3。

2.2.3 評價主題分析結果

根據主題數尋優結果,使用基于Python框架的Gensim模塊對正、負面評論分析數據并分別構建LDA主題模型,設置主題數為3經過LDA主題分析后,每個主題下生成10個最有可能出現的詞語以及相應的概率,可得LDA主題分析結果如表3、表4所示。

表3 手機正面評價潛在主題

表4 手機負面評價潛在主題

表3反映了手機正面評價文本中的潛在主題。主題1中的高頻特色詞主要關注速度、流暢性和操作性,主要體現手機的平穩運行。主題2中的高頻特征詞,即重點主要是喜歡、滿意等,主要體現了手機的良好質量和令人滿意的產品;主題3中的高頻功能,即屏幕、好看、顏色等,主要體現了手機的美觀外觀,其基本功能如拍照、發聲等都很好。

表4反映出手機負面評價文本中包含的潛在主題,主題1文本中包含的高頻特征詞的主要關注點在貴、價格等,意味著有部分消費者對手機價格過高而產生不反滿;主題2中高頻特征詞則主要與外觀、屏幕這幾方面,映產品質量也確實存在部分問題;主題3中的高頻特征詞主要與客服、信號有關,即主要反映的是手機售后產品質量存在某些問題。

基于以上對主題和高頻特征詞的分析,這款手機的優點是:外觀好,產品性能優秀。相對而言,用戶對手機的抱怨主要體現在手機價格高,部分手機質量管控不到位。

3 結語

本文向讀者展示了使用Python處理電商文本數據。通過使用Python爬取案例數據,對文本數據進行預處理、分詞、去停詞等操作,在知網情感詞表上進行優化,并基于詞表進行情感詞匯分析。最后,利用LDA對案例好評率和案例差評率進行主題分析。通過對手機用戶情感傾向的分析,探索產品的優劣勢。

對此,提出以下對策建議:由于電子產品是在線上銷售,消費者在購買手機前無法檢查手機產品質量,因此商家們需切實加強售后質量控制、及時將手機消費者的需求反饋給制造商,使制造商可以及時調整以迅速適應終端市場,并能夠在終端產品設計中應用人機交互功能,實現終端銷售的增長目標;客戶服務態度是促進銷售成果轉化率的關鍵,加強客服人員的專業培訓輔導和日常考核是提高客戶滿意度和促成銷售的重要方式;供應商應主動加強與其他物流企業的業務合作,實時監控物流中產品庫存狀態,確保貨物安全快速地送達客戶。

猜你喜歡
詞匯文本情感
本刊可直接用縮寫的常用詞匯
如何在情感中自我成長,保持獨立
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品久久久久久久久kt| P尤物久久99国产综合精品| 国产在线观看第二页| 青青热久麻豆精品视频在线观看| 香蕉伊思人视频| www中文字幕在线观看| 欧美日一级片| 丰满人妻被猛烈进入无码| 一级高清毛片免费a级高清毛片| 久久人妻xunleige无码| 国模私拍一区二区| 久久人妻系列无码一区| 国产精品福利尤物youwu | 国产女人18水真多毛片18精品| 91精品国产情侣高潮露脸| 一级毛片高清| 91福利片| 久久夜色撩人精品国产| 亚洲精品黄| 天天爽免费视频| 亚洲丝袜中文字幕| 亚洲国产欧美国产综合久久| 国产在线视频导航| 99青青青精品视频在线| 亚洲中文字幕手机在线第一页| 无码中文AⅤ在线观看| 免费人成黄页在线观看国产| 久久久久久久久亚洲精品| 国产精品手机在线观看你懂的 | 伊人成人在线| 免费看av在线网站网址| 欧美性天天| 久草青青在线视频| 美女一级免费毛片| 亚洲精品高清视频| 久久网欧美| 秘书高跟黑色丝袜国产91在线| www中文字幕在线观看| 亚洲成人播放| 九色视频在线免费观看| 97综合久久| 香蕉国产精品视频| 亚洲欧美在线综合图区| 久久精品娱乐亚洲领先| 国产精品成人一区二区不卡| 久久久久无码精品| 欧日韩在线不卡视频| 女同久久精品国产99国| 国产精品一区二区不卡的视频 | 久久人体视频| 波多野衣结在线精品二区| 国产传媒一区二区三区四区五区| 在线精品亚洲一区二区古装| 少妇精品网站| 高清国产va日韩亚洲免费午夜电影| 色综合热无码热国产| 国产国模一区二区三区四区| 中文字幕亚洲另类天堂| 久久这里只精品热免费99| 欧美日韩国产在线播放| 最新国产高清在线| …亚洲 欧洲 另类 春色| 特级精品毛片免费观看| 69av在线| 国产中文一区a级毛片视频 | 91九色最新地址| 国产又爽又黄无遮挡免费观看| 情侣午夜国产在线一区无码| 无码免费视频| 日韩精品无码免费一区二区三区 | 欧美日韩精品一区二区在线线 | 伊人久久精品无码麻豆精品| 久久a毛片| 亚洲最大福利网站| 亚洲综合狠狠| 国产aⅴ无码专区亚洲av综合网 | 久久伊伊香蕉综合精品| 国产成人精品综合| 欧美日韩专区| 欧美日韩亚洲综合在线观看| 国产欧美视频在线观看| 萌白酱国产一区二区|