999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯分類算法的用戶評論數(shù)據(jù)挖掘系統(tǒng)設(shè)計

2021-03-25 04:06:04孫含笑
現(xiàn)代計算機 2021年4期
關(guān)鍵詞:詞匯分類用戶

孫含笑

(汕尾職業(yè)技術(shù)學(xué)院信息工程系,汕尾516600)

0 引言

20 世紀(jì)是一個信息爆炸的時代,相比于從前的車馬慢的生活,快節(jié)奏是這個時代的標(biāo)志,為了滿足時代的發(fā)展,電商應(yīng)用而生。相比于傳統(tǒng)的購物方式,網(wǎng)購用戶可以足不出戶在家“逛商店”,訂貨不受時間、地點的限制;并且獲得大量的商品細(xì)節(jié)信息,買到當(dāng)?shù)厝狈Φ纳唐返龋瑯O大地突破了購物的時間和空間限制。同時,商品銷量也因網(wǎng)購獲得極大的提升。此外電商平臺存儲了海量的商品交易信息、用戶評價等,從這些海量的數(shù)據(jù)中采用數(shù)據(jù)挖掘的方式搜索隱藏于其中信息[1],從而做出相應(yīng)的調(diào)整。例如數(shù)據(jù)挖掘經(jīng)典的應(yīng)用案例,“尿布和啤酒的故事”。樸素貝葉斯作為數(shù)據(jù)挖掘的十大經(jīng)典算法,廣泛地應(yīng)用在文本分類面。“樸素”一詞的由來在于假設(shè)特征之間是相互獨立的,即一個特征或者單詞出現(xiàn)的可能性與它和其他單詞相鄰沒有關(guān)系[2]。簡單的理解,給出一段文字,“研表究明,漢字的序順并不定一能影閱響讀,比如你當(dāng)完看段話后,才發(fā)現(xiàn)這里的字全是亂的。”,樸素貝葉斯分類器就是基于這樣的原理,將復(fù)雜的問題進(jìn)一步簡化,進(jìn)而對文本分類,并且達(dá)到比較好的效果。貝葉斯分類器的實現(xiàn)還依賴于貝葉斯定理[3]:

其中P(H|X)表示給定觀測樣本X,假設(shè)H 成立時的概率;

P(H|X)是后驗概率;

P(H)是H 的先驗概率;

P(X)是X 的先驗概率。

當(dāng)假設(shè)樣本具有n 個特征,且假設(shè)各個特征相互獨立時,式子表述為:

基于貝葉斯分類算法,可以對用戶的評論做出文本分類,從不同的分類中可以挖掘出客戶對商品的主要關(guān)注點,客戶對商品的滿意度,以及商品的改進(jìn)點等。相比于傳統(tǒng)的客戶滿意度調(diào)查,采用數(shù)據(jù)挖掘的方式,更容易發(fā)現(xiàn)數(shù)據(jù)的潛在規(guī)律,而且節(jié)省了人力、物力。

1 研究目的與框架

1.1 研究目的

近年來,隨著電子商務(wù)的不斷發(fā)展,電商的競爭力越來越大,為了提升商品的競爭力,商家可謂是百花齊放。挖掘客戶的潛在需求,聆聽客戶的聲音顯得至關(guān)重要。用戶的評論當(dāng)中,蘊含了大量的信息。此次研究以當(dāng)下最火的化妝品行業(yè)為例,近年來女性對于化妝品的期望越來越高,越來越多的女性渴望擁有白凈的皮膚,由此市面上各種化妝品層出不窮,對于商家來說競爭也越來越大。本文采用Python 爬取某知名化妝品的用戶評論,繪制詞云,根據(jù)詞匯出現(xiàn)的頻次,從而找到關(guān)于該商品的敏感詞匯。利用貝葉斯分類器對用戶評論進(jìn)行類別訓(xùn)練,類別有好評、差評、中評三個類別。對于不同類別的評論分類找到敏感詞匯,找到該商品的改善點以及優(yōu)點,從而提升商品的競爭力。

1.2 研究框架

(1)研究設(shè)計的創(chuàng)新點

采用繪制詞云的方式,可以方便非專業(yè)人士讀取有效的信息。將評論內(nèi)容進(jìn)行分類,從不同類別的評論里找到敏感詞匯,從而精準(zhǔn)地找到商品的核心競爭力以及改善點。

(2)研究和試驗設(shè)計的框架

圖1 研究和試驗設(shè)計框架示意圖

2 研究的設(shè)計與實現(xiàn)

2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

登錄天貓網(wǎng)站,進(jìn)行爬取某知名化妝品的現(xiàn)有評論數(shù)據(jù)。將得到的數(shù)據(jù)存儲在數(shù)據(jù)庫當(dāng)中。對評論數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,例如有些用戶沒有做出評價,系統(tǒng)會默認(rèn)給出好評,這些評論數(shù)據(jù)對研究意義不大,因此需要進(jìn)行清洗。

2.2 提取詞頻及繪制詞云圖

對清洗之后的數(shù)據(jù),不能直接使用CountVectorizer進(jìn)行詞頻統(tǒng)計,因為中文的分詞較英文分詞有很大的不同,英文里面每個單詞都是用空格隔開,使用Count-Vectorizer 進(jìn)行詞頻統(tǒng)計有很好的效果,但是處理中文效果卻很不理想。因此先利用jieba 分詞進(jìn)行分詞處理,但使用jieba 分詞在處理過程中發(fā)現(xiàn)有一些詞匯,例如:“不油膩”、“不暗沉”等詞匯,在分詞之后是“不”,“油膩”以及“不”,“暗沉”,這樣的分詞結(jié)果顯然不是想要的結(jié)果,因此在使用jieba 分詞進(jìn)行分詞時,自定義字典添加新詞匯,從而避免jieba 分詞處理過程中的弊端。分詞之后利用CountVectorizer 進(jìn)行詞頻統(tǒng)計,在特征詞匯中發(fā)現(xiàn)一些無用詞匯,例如:“一下”,“一下子”等,因此需要去除停用詞,并利用WordCloud 繪制詞云圖。程序中的關(guān)鍵代碼如下:

繪制的詞云圖如圖2。

圖2 詞云圖

由圖2 詞云圖可以得到一些有效的信息,字體的大小和詞匯出現(xiàn)的頻次成正比。大部分用戶對該商品體驗不錯,感到很滿意。客戶關(guān)注該商品的重點是,吸收效果、保濕效果、味道、滋潤度、包裝、活動優(yōu)惠力度、美白效果、清爽度。

2.3 建立貝葉斯分類模型

通過繪制詞云,可以看到客戶對商品的整體評價以及客戶對商品的關(guān)注點。對于該電商來說,不僅僅需要上述信息,還需要從客戶的評價中找到商品的宣傳點、核心競爭力以及商品所存在的問題。貝葉斯分類器對于文本分類問題具有較好的分類效果,因此構(gòu)建貝葉斯分類器模型,將商品評論分為好評、差評、以及中評,現(xiàn)有的評論分類比例為:好評:差評:中評=177:1.2:1,因此大部分客戶對該商品比較滿意,并從現(xiàn)有的分類結(jié)果對模型進(jìn)行訓(xùn)練以及評估,訓(xùn)練集和測試集的比例為:3:1,模型訓(xùn)練的結(jié)果為:訓(xùn)練集的得分0.999611046285492,測試集的分值為測試集的得分1.0,具有較好的分類結(jié)果。

利用貝葉斯分類器測試集的評分如表1 所示,由表1 的結(jié)果可知,差評和中評的準(zhǔn)確率和召回率都為1,因此我們所構(gòu)建的模型能夠準(zhǔn)確地對評論進(jìn)行正確分類。通過構(gòu)建貝葉斯分類器,可以快速將評論數(shù)據(jù)進(jìn)行分類,進(jìn)而能夠準(zhǔn)確地在不同類別中尋找敏感詞匯。

表1 模型分類評價表

2.4 提取各個類別的敏感詞匯

提取評論中好評、差評、中評中的高頻詞匯,如表2所示。

表2 高頻詞匯分類表

圖3 高頻詞匯雷達(dá)圖

通過表2 可以獲得高頻詞匯雷達(dá)圖(如圖3 所示)。從不同類別中提取高頻詞匯可以看到,商品的特點有:保濕效果好、質(zhì)地不錯、滋潤度好、清爽不油膩,包裝精美、味道好聞,具有美白效果好,受到90%以上的用戶喜愛。從差評中提取的高頻詞匯可知,首先是客戶對商品是否是正品存在質(zhì)疑以及味道刺鼻等問題,另外商品在雙十一活動中存在一些問題,客服態(tài)度以及贈送的小樣沒有達(dá)到部分顧客的滿意度。從中評中提取的高頻詞匯可知,商品整體評價不錯,但是沒有贈品問題以及價格不劃算拉低了用戶體驗。

接下來我們來分析主要的消費群體,如表3 所示。

表3 消費群體分類表

除了大部分女性消費群體,一些男士也會買給自己的女朋友和老婆。因此可以將一些年輕的男士也作為重點推廣客戶。

接下來我們來分析消費群體的膚質(zhì)特征,如表4所示。

表4 消費群體膚質(zhì)分類表

由上述結(jié)果可知,該護(hù)膚品適合所有的膚質(zhì),不同膚質(zhì)的用戶體驗都不錯。對于敏感肌和痘肌的用戶也有不錯的體驗。

從上述分析來看,大部分客戶對商品的滿意度高。從少部分的客戶評價來看,商品本身可能存在氣味刺鼻的問題,但是這個問題也存在質(zhì)疑,因為從大部分客戶的評價來看,商品氣味沒有問題,氣味有淡淡的清香。因此商家可以通過樣本測試或者市場調(diào)研來解決這個問題。此外,從獲取的評論數(shù)據(jù)中可知,商家的贈品比較少,打折力度不夠,也是拉低用戶體驗的原因,因此商家可以在一些大型的電商促銷活動中,例如雙十一和雙十二等節(jié)日中加大打折力度或者贈送樣品來回饋顧客。

3 結(jié)語

本文基于通過Python 爬取某知名化妝品的用戶評論,通過對數(shù)據(jù)清洗、詞頻統(tǒng)計以及繪制詞云圖,分析得到客戶對商品的用戶體驗,以及客戶對該商品的主要關(guān)注點。接下來為了更好地得到用戶評價潛在的信息,對評論數(shù)據(jù)進(jìn)行分類,分成中評、差評、好評,并構(gòu)建貝葉斯分類器模型,進(jìn)行模型訓(xùn)練及評估。由結(jié)果可知,訓(xùn)練集和測試集的準(zhǔn)確率都基本達(dá)到100%,各個類別的查準(zhǔn)率和查全率也達(dá)到100%,因此能夠準(zhǔn)確地識別出差評以及中評,表明構(gòu)建的模型有很好的效果。接著對各個類別分別提取敏感詞匯,找到商品的核心競爭力和商品存在的問題。研究實驗表明,該研究易讀性強,成本低,具有潛在的商業(yè)應(yīng)用價值。

猜你喜歡
詞匯分類用戶
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
本刊可直接用縮寫的常用詞匯
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 十八禁美女裸体网站| 国产玖玖视频| 视频二区亚洲精品| 久久免费视频播放| 99re热精品视频国产免费| 国产日韩欧美黄色片免费观看| 国产精品观看视频免费完整版| 伊人久久婷婷| 在线中文字幕网| 熟女成人国产精品视频| 色视频久久| a毛片在线播放| 亚洲嫩模喷白浆| 无码精油按摩潮喷在线播放 | 欧美日韩亚洲综合在线观看| 午夜日b视频| 国产va免费精品| 国产亚洲精久久久久久久91| 波多野结衣AV无码久久一区| 国产Av无码精品色午夜| 国产午夜人做人免费视频中文| 一级成人欧美一区在线观看| 国产精品人成在线播放| 99re在线免费视频| 欧美午夜在线观看| 亚洲人成网站日本片| 中文字幕av一区二区三区欲色| 亚洲系列中文字幕一区二区| 四虎精品免费久久| 亚洲国产日韩一区| 亚洲综合久久一本伊一区| 理论片一区| 美女视频黄频a免费高清不卡| 久99久热只有精品国产15| 美女视频黄频a免费高清不卡| 国产精品福利在线观看无码卡| 一本大道香蕉久中文在线播放| 日韩欧美网址| yjizz视频最新网站在线| 成人福利在线免费观看| 伊人国产无码高清视频| 中文字幕免费播放| 麻豆精品在线播放| 亚洲bt欧美bt精品| 成·人免费午夜无码视频在线观看| 亚洲日韩日本中文在线| 人妻夜夜爽天天爽| 日本日韩欧美| 国产福利观看| 狠狠操夜夜爽| 伊在人亚洲香蕉精品播放| 国产精品浪潮Av| 国产高潮流白浆视频| 婷婷亚洲最大| 91久久国产综合精品女同我| 九九视频免费看| 久久久受www免费人成| A级全黄试看30分钟小视频| 国产成人高清精品免费软件| 欧美性久久久久| 久草热视频在线| 亚洲国内精品自在自线官| 巨熟乳波霸若妻中文观看免费| 中文字幕日韩视频欧美一区| 最新加勒比隔壁人妻| 亚洲精品桃花岛av在线| 国产日韩欧美黄色片免费观看| 欧美亚洲一二三区| 精品黑人一区二区三区| 白浆视频在线观看| 青草视频久久| 漂亮人妻被中出中文字幕久久| 国产精品30p| 亚洲国产天堂在线观看| 露脸国产精品自产在线播| 成人福利在线免费观看| 午夜激情婷婷| 国产精品内射视频| 国产91麻豆视频| 亚洲天堂网站在线| 色婷婷成人网| 亚洲精品久综合蜜|