王曄 楊耀田 李政誼 李興隆


摘要:近年來(lái),客戶對(duì)購(gòu)買(mǎi)產(chǎn)品滿意度的評(píng)價(jià)在市場(chǎng)銷(xiāo)售中占有越來(lái)越高的地位。為了解決Sunshine公司銷(xiāo)售pacifier、microwave、hair_dryer三款產(chǎn)品的問(wèn)題和需求,首先建立了基于LDA的數(shù)據(jù)評(píng)論模型,對(duì)產(chǎn)品進(jìn)行星級(jí)評(píng)價(jià)。然后,建立基于TF-IDF的評(píng)論語(yǔ)料庫(kù),通過(guò)產(chǎn)生高權(quán)重的詞語(yǔ)頻率,構(gòu)建語(yǔ)義情感詞典。研究結(jié)果表明:pacifier的銷(xiāo)售非常穩(wěn)定,商譽(yù)波動(dòng)率很低;microwave產(chǎn)品聲譽(yù)的較高峰的4月9月,聲譽(yù)的低谷的2月和11月;hair_dryer產(chǎn)品的星級(jí)評(píng)價(jià)較為穩(wěn)定,可以一直保持在相對(duì)穩(wěn)定的聲譽(yù)。
關(guān)鍵詞:TF-IDF? LDA? 聲譽(yù)? 星級(jí)評(píng)價(jià)
一、引言
亞馬遜在其創(chuàng)建的在線市場(chǎng)中,亞馬遜為客戶提供了一個(gè)評(píng)價(jià)和審查購(gòu)買(mǎi)的機(jī)會(huì)。個(gè)人評(píng)級(jí)=稱為“星級(jí)評(píng)級(jí)”。允許購(gòu)買(mǎi)者使用1(低評(píng)級(jí),低滿意度)到5(高評(píng)級(jí),高滿意度)的等級(jí)來(lái)表達(dá)他們對(duì)產(chǎn)品的滿意度。此外,客戶可以提交基于文本的消息稱為“評(píng)論”以表達(dá)關(guān)于產(chǎn)品的進(jìn)一步意見(jiàn)和信息。其他客戶可以在這些評(píng)論中提交對(duì)他們自己的產(chǎn)品購(gòu)買(mǎi)決策是否有幫助的評(píng)級(jí)——稱為“幫助度評(píng)級(jí)”。公司利用這些數(shù)據(jù)來(lái)洞察他們所參與的市場(chǎng)、參與的時(shí)機(jī)以及產(chǎn)品設(shè)計(jì)特性選擇的潛在成功。
Sunshine公司計(jì)劃在網(wǎng)上市場(chǎng)推出并銷(xiāo)售三種新產(chǎn)品:微波爐、嬰兒奶嘴和電吹風(fēng)。該公司過(guò)去曾使用數(shù)據(jù)來(lái)告知銷(xiāo)售策略,但他們以前從未使用過(guò)這種特定的組合和類(lèi)型的數(shù)據(jù)。Sunshine公司特別感興趣的是這些數(shù)據(jù)中的基于時(shí)間的模式,以及它們之間的交互方式是否有助于該公司打造成功的產(chǎn)品。因此本文即利用該公司2005-2015年的產(chǎn)品銷(xiāo)售數(shù)據(jù)進(jìn)行了相關(guān)評(píng)價(jià)研究。
二、基于LDA的產(chǎn)品星級(jí)評(píng)價(jià)模型
為了方便訓(xùn)練數(shù)據(jù),還需要將數(shù)據(jù)集中的月和日按照線性分布,分布在單位為12的橫坐標(biāo)上,假設(shè)月為month,日為day,當(dāng)月的數(shù)據(jù)集樣本量為N。假設(shè)Vrtified_purchase is Yes,Normal buyer和Amazon vine Voices在第j天評(píng)價(jià)的數(shù)量為a,b,c,不同購(gòu)買(mǎi)者,每個(gè)人的評(píng)星為ri,可以得到當(dāng)日評(píng)價(jià)的總星數(shù)yj為:
根據(jù)公式計(jì)算可知,5階多項(xiàng)式具有較好的擬合性。microwave在一月份也出現(xiàn)了較為大的波動(dòng),也是由于一月數(shù)據(jù)量較為密集導(dǎo)致的。其他月份銷(xiāo)售在4月份和9月份有著較為明顯的聲譽(yù)高峰,在2月份和11月份會(huì)有聲譽(yù)的低谷。如下選取了pacifier產(chǎn)品在聲譽(yù)的較高峰的6月份和8月份,聲譽(yù)的低谷的4月份和12月份的評(píng)價(jià)星級(jí)進(jìn)行了統(tǒng)計(jì):
可以看來(lái)這是由于在差評(píng)率不變的情況下,5星或4星好評(píng)變多,從而導(dǎo)致這些月份之間造成了一定的差異。同樣地選取microwave產(chǎn)品聲譽(yù)的較高峰的4月份和9月份,聲譽(yù)的低谷的2月份和11月份的評(píng)價(jià)星級(jí)進(jìn)行了統(tǒng)計(jì)。發(fā)現(xiàn)同樣在不同月份,好評(píng)的多少?zèng)Q定了整體評(píng)價(jià)的高低,這是因?yàn)閺谋戎厣蟻?lái)說(shuō)好評(píng)比差評(píng)造成的影響更高,過(guò)高的好評(píng)有助于提升產(chǎn)品整體的聲譽(yù)。
三、基于TF-IDF的統(tǒng)計(jì)詞頻語(yǔ)料庫(kù)評(píng)級(jí)模型
我們需要用Term frequency–Inverse document frequency(TF-IDF)統(tǒng)計(jì)詞頻,然后進(jìn)行半自動(dòng)化打標(biāo)記,通過(guò)將高贊成票的評(píng)論分成不同星級(jí),然后分別構(gòu)建不同感情色彩的語(yǔ)料庫(kù)。Term frequency(TF),是表示詞條在文本中出現(xiàn)的頻率,我們需要對(duì)得到的數(shù)字進(jìn)行歸一化。我們用nij表示該詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù),可以得到:
根據(jù)產(chǎn)品評(píng)論情感分析數(shù)據(jù)得出,評(píng)價(jià)星級(jí)較低的評(píng)論負(fù)面詞匯較多,而評(píng)價(jià)星級(jí)較高的評(píng)論積極詞匯較多,但也有一些評(píng)價(jià)與星級(jí)不符的評(píng)論,但是大體上符合上述的規(guī)律。所以我們認(rèn)為如“熱情”、“失望”等不同感情色彩的詞匯往往與其評(píng)級(jí)的水平密切相關(guān)。
四、小結(jié)
為了解決Sunshine公司銷(xiāo)售電吹風(fēng)、微波爐、奶嘴三款產(chǎn)品的問(wèn)題和需求,本研究對(duì)Sunshine公司的三組數(shù)據(jù)進(jìn)行了深入分析。考慮了helpful_votes、vine和verified_purchase三個(gè)字段,并為它們的不同效果設(shè)置了不同的權(quán)重,以獲得更準(zhǔn)確的數(shù)據(jù)。然后利用LDA模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行矢量化處理,并通過(guò)術(shù)語(yǔ)頻率逆文檔頻率(TF-IDF)建立具有不同情感取向的評(píng)論語(yǔ)料庫(kù),利用自然語(yǔ)言處理(NLP)方法獲得可視化分析數(shù)據(jù)。我們發(fā)現(xiàn)奶嘴的銷(xiāo)售非常穩(wěn)定,每個(gè)月的商譽(yù)波動(dòng)率很低,綜合得分為0.7562;微波銷(xiāo)售4月和9月,達(dá)到了聲譽(yù)的頂峰,進(jìn)入了一個(gè)低谷的聲譽(yù)與綜合評(píng)分在2月和11月的銷(xiāo)售hair_dryer達(dá)到頂峰的名聲在6月和8月,并進(jìn)入了一個(gè)低谷的聲譽(yù)4月和12月,綜合得分為0.7123分。我們了解到微波爐是最低的,反映了奶嘴的銷(xiāo)售穩(wěn)定,購(gòu)買(mǎi)人群穩(wěn)定,性價(jià)比高,深受消費(fèi)者歡迎,微波爐的質(zhì)量有待提高。
參考文獻(xiàn)
[1]廖斌峰,余體偉.大型企業(yè)的部門(mén)管理成熟度評(píng)價(jià)方案探索[J].中國(guó)標(biāo)準(zhǔn)化,2019(20):153-154.
[2]雒婉,王瑜,魏慧嬌,林麗霞,韓明勇.生態(tài)城區(qū)綠色建筑星級(jí)潛力評(píng)價(jià)體系研究[J].建筑節(jié)能,2019,47(09):66-69+97.