周艷聰 白家文


【摘? 要】隨著電商行業(yè)的快速發(fā)展,商家在網(wǎng)絡(luò)購物平臺的競爭越來越激烈。購買者對購買商品作出評價,將同時為商家和其他購買者提供大量參考信息,然而從大量的評價中篩選有意義的信息是非常困難的。論文對京東商城某品牌熱水器的評論數(shù)據(jù)進(jìn)行建模,對文本進(jìn)行預(yù)處理、中文分詞、停用詞過濾,通過建立LDA主題模型,實現(xiàn)對文本評論數(shù)據(jù)的傾向性判斷,從而為商家和購買者提供有價值的信息。
【Abstract】With the rapid development of the e-commerce industry, the competition among merchants in online shopping platforms is increasingly fierce. Buyers' comments on purchased goods will provide merchants and other buyers with a lot of reference information. However, it is very difficult to filter meaningful information from a large number of comments. This paper modeled the comment data of a water heater of a brand in Jingdong Mall, preprocessed the text, segmented Chinese words and filtered stop words, and realized the bias judgment of the text comment data by establishing the LDA theme model, so as to provide valuable information for merchants and buyers.
【關(guān)鍵詞】用戶評論;預(yù)處理;中文分詞;LDA主題模型;情感分析
【Keywords】user comment; pretreatment; Chinese words segmentation; LDA theme model; emotion analysis
【中圖分類號】F724.6;TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號】1673-1069(2020)06-0130-02
1 引言
互聯(lián)網(wǎng)的快速發(fā)展,人類在網(wǎng)絡(luò)上的交互方式為大量網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生提供了可能。隨著電商的發(fā)展,購買者通過淘寶、京東、亞馬遜等各種平臺購買商品,并對商品進(jìn)行評論以表達(dá)對購物體驗及商品性能的滿意程度。對產(chǎn)品的評論數(shù)據(jù)進(jìn)行情感分析,進(jìn)而挖掘購買者對商品的情感傾向,為其他購買者提供參考,或挖掘出購買者對商品的關(guān)注程度和情感傾向,以便企業(yè)能更好地提升商品及服務(wù)質(zhì)量。因此,高效、準(zhǔn)確地對互聯(lián)網(wǎng)電商評論數(shù)據(jù)進(jìn)行情感分析,對電商行業(yè)及購買者本身有很大的幫助。但如何高效合理地從海量評價文本數(shù)據(jù)中提取有價值的信息,一直是眾多學(xué)者研究的課題。
凌潔等對電商平臺在線評論分析進(jìn)行了綜合研究,劉玉林等以情感傾向為基礎(chǔ)建立情感指數(shù),從多方面對評論數(shù)據(jù)進(jìn)行了多維度分析,景永霞等在評論分析中引入了LDA主題模型,并探討了其在課程評論中的應(yīng)用,李明等在商品評論情感傾向性方面進(jìn)行了分析研究。文獻(xiàn)分別在校園微博、汽車和電影評論等方面進(jìn)行了研究分析。本文將綜合應(yīng)用情感分析技術(shù)對某品牌熱水器評論數(shù)據(jù)進(jìn)行情感分析,以為商家和購買者提供信息參考和相關(guān)支持。
2 評論數(shù)據(jù)處理
2.1 文本去重
本文采用京東商城某品牌空調(diào)產(chǎn)品評論數(shù)據(jù)。由于數(shù)據(jù)質(zhì)量參差不齊,如重復(fù)或不知所云等。這些評論數(shù)據(jù)不僅不能提供價值,還會造成不必要的麻煩。因此,在對評論數(shù)據(jù)進(jìn)行分析之前先要“文本去重”,把沒有價值的數(shù)據(jù)去掉。
某些電商平臺為了避免客戶長時間不進(jìn)行評論,往往設(shè)置為超期后系統(tǒng)自動好評。顯然這些評論沒有任何分析價值,而且這些評論大量重復(fù),必須去除。經(jīng)過去重處理后,共得到55400條評論。使用value_counts函數(shù)統(tǒng)計重復(fù)的評論,可以得到重復(fù)評論文本的重復(fù)數(shù)量,數(shù)量最大的評論文本是系統(tǒng)默認(rèn)評論。
2.2 文本分詞
在對評論文本進(jìn)行分析之前,最重要的一步是對數(shù)據(jù)進(jìn)行相應(yīng)的分詞,分詞 是否準(zhǔn)確,將會影響后面的工作質(zhì)量。目前Python語言中的中文分析包“jieba”對評論文本進(jìn)行分詞,效果較好,在業(yè)內(nèi)應(yīng)用較廣泛。本文利用其對自定義詞典進(jìn)行分詞。
2.3 去除停用詞
在SEO中,為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。在自然語言處理中,停用詞一般不攜帶有價值的信息,選擇去除掉。從圖1可以看出,經(jīng)過停用詞過濾后,之前的“是”“的”等停用詞被去掉了,而且可以達(dá)到不錯的去除效果。
2.4 特征提取
在文本處理中,特征選擇是關(guān)鍵步驟。一個好的特征選擇通常能夠達(dá)到滿意的分類效果。在特征提取中如果僅僅通過詞頻的方式來處理可能會得出錯誤的分析結(jié)果。但如果在實際操作中把所有的詞語都作為特征詞選項的話,則會導(dǎo)致特征空間的維度過大沒有實際意義。本文首先從特征全集中采用某評價標(biāo)準(zhǔn)綜合篩選出特征子集,同時對特征子集進(jìn)行有效性驗證,以此完成特征提取工作。
2.5 情感詞典的構(gòu)建
一個句子或是短語的情感傾向通常由句中的情感詞決定,一個好的情感詞典要能夠較好地囊括研究領(lǐng)域的情感詞,準(zhǔn)確判斷出相關(guān)文本的情感傾向,因此,構(gòu)建情感詞典是研究文本情感的基礎(chǔ)。本文將電商評論中的情感詞語作為特征項進(jìn)行相關(guān)的提取工作,然后把形成的情感詞典導(dǎo)入分詞系統(tǒng)中形成自定義詞典,設(shè)置好相關(guān)的分詞詞典的優(yōu)先選擇順序,大大提高了分詞結(jié)果的準(zhǔn)確性。
3 基于情感分析的LDA模型主題分析
在機(jī)器學(xué)習(xí)和自然語言處理等領(lǐng)域,主題模型是一種在一系列文檔中發(fā)現(xiàn)抽象主題的統(tǒng)計模型。一篇文檔如果有多個主題,則這些特定的可代表不同主題的詞語會反復(fù)出現(xiàn),此時,運(yùn)用主題模型,能夠發(fā)現(xiàn)文本中使用詞語的規(guī)律,并且規(guī)律相似的文本聯(lián)系到一起,以尋求非結(jié)構(gòu)化的文本集中的有用信息。LDA模型作為其中的一種主題模型,屬于無監(jiān)督的生成式主題概率模型。
對本文數(shù)據(jù)進(jìn)行主題分析,提取的高頻特征詞有:“不錯”“買”“好”“加熱”“便宜”“價格”“實惠”“熱水器”“好用”“保溫”。然后取得每個主題的特征詞并轉(zhuǎn)換為DataFrame格式,如表1所示。
由表1可以看出,主題一主要為熱水器售后服務(wù)安裝方面相關(guān)內(nèi)容,主題二主要為熱水器的質(zhì)量、價格、送貨相關(guān)方面,主題三主要為熱水器的安裝、加熱、保溫效果相關(guān)方面。綜上,主題特征詞的DataFrame格式非常清晰地展示了每個主題的關(guān)鍵點以及評論的情感傾向。而且,從表中可以看出,評論中關(guān)于“安裝”一詞的出現(xiàn)頻率較高,體現(xiàn)出顧客對于安裝這項售后服務(wù)的關(guān)心。而且?guī)煾怠惭b費等詞相對出現(xiàn)頻率較高,表明客戶對安裝師傅及其費用的關(guān)注度較高。關(guān)于產(chǎn)品性能“質(zhì)量”“加熱”等詞,客戶的反應(yīng)為“好”“加熱快”等正面評價。
基于客戶對產(chǎn)品的評論可以看出,客戶對商品的總體滿意度較高。商家售后服務(wù)的進(jìn)一步改進(jìn)可以從降低安裝費用、加快送貨速度等方面入手。商家的進(jìn)一步發(fā)展策略可以定位為保障商品質(zhì)量的前提下,進(jìn)一步提高送貨速度,降低安裝費用,公開使用材料等,綜合提高售后服務(wù)水平,進(jìn)一步獲得客戶的認(rèn)可度,提高客戶粘性。
4 結(jié)論
本文針對京東商城某品牌熱水器的消費者文本評論數(shù)據(jù)進(jìn)行建模,對評論文本進(jìn)行進(jìn)一步的預(yù)處理工作,完成了文本去重、中文分詞、停用詞過濾后、特征提取等工作,通過建立LDA主題模型的數(shù)據(jù)挖掘模型,實現(xiàn)了對文本評論數(shù)據(jù)的傾向性判斷以及關(guān)于主題的高頻特征詞提取,并且通過高頻詞的頻率分析,進(jìn)一步提煉客戶情感,從而為商家今后發(fā)展策略和其他客戶購買產(chǎn)品提供進(jìn)一步的建議。由于中文語言表達(dá)方式的多樣性、句式的復(fù)雜性、各種不同的習(xí)慣用語以及網(wǎng)絡(luò)用語的層出不窮,還需要增強(qiáng)對復(fù)雜評論的處理能力,這也是本文下一步的努力方向。
【參考文獻(xiàn)】
【1】凌潔,劉玉林.電商平臺在線評論分析研究綜述[J].江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報,2019(6):38-41.
【2】劉玉林,管利榮.基于文本情感分析的電商在線評論數(shù)據(jù)挖掘[J].統(tǒng)計與信息論壇,2018(12):119-124.
【3】景永霞,茍和平,劉強(qiáng),等.基于主題模型的在線課程評論情感分析研究[J].蘭州文理學(xué)院學(xué)報(自然科學(xué)版),2020,34(1):54-56,64.
【4】李明,胡吉霞,侯琳娜,等.商品評論情感傾向性分析[J].計算機(jī)應(yīng)用,2019,39(S2):15-19.