陳光宇,易鐘婷,關一,李甲貴*
(1. 西北農林科技大學經濟管理學院,陜西楊凌 712100;2. 西北農林科技大學葡萄酒學院,陜西楊凌 712100/西北農林科技大學寧夏賀蘭山東麓葡萄酒試驗示范站,寧夏永寧 750104)
關鍵字:葡萄酒;網上購買;消費者;關注度;滿意度
隨著居民可支配收入的不斷提升與葡萄酒文化的快速傳播,葡萄酒已經成為一種人們追求健康和時尚生活方式的象征。中國酒業協會2021年發布了《中國酒業“十四五”發展指導意見》,預測未來五年我國葡萄酒產量將達到7億升,較2020年上漲75%,對應收入將增加66.7%。然而,目前我國葡萄酒人均年消耗量僅有1.3升,相當于世界人均消耗量的40%。可以預見,未來幾年我國葡萄酒產業將迎來發展的黃金時期。伴隨著市場規模的提升,葡萄酒銷售模式也在不斷革新。頭豹研究院發布的《2019年中國葡萄酒行業概括》顯示,雖然商超仍是酒類產品的主要銷售渠道,但是購物網站和直播帶貨等線上購物的規模正在以每年40%左右的增長率持續上升。購物網站也給消費者搭建了一個分享購買葡萄酒感受的交流平臺。這些平臺中反映消費者心聲的評論,不僅為研究消費者關注因素提供大量的數據支撐[1],而且有利于商家改進商品質量和服務以提升客戶轉化率[2]。LDA(Latent Dirichlet Allocation)主題模型是一種基于機器學習算法的文檔主題生成模型,因其能大規模提取文本內容、歸納消費者關注的主題、支持主題間關系計算等優勢,已經成為主題發現的主流算法。IPA(Important-Performance Analysis)分析矩陣是一種基于期望差異理論的測量方法,可以綜合測量消費者產品關注度和產品績效相對關系。本文將LDA主題模型和IPA分析矩陣模型結合使用,可以將每個主題從消費者關注度和產品滿意度兩個維度量化處理,以期輔助商家了解消費者訴求,制定針對性營銷策略。
近年來,蓬勃發展的電商平臺,給消費者提供了大量觀點分享渠道。這些平臺每天生成的海量評論,給相關領域研究者提供了寶貴的研究資料。然而,評論中包含著消費者大量由不同描述語言構成的觀點和偏好,這種開放式的語言表達,雖然可以完整呈現顧客的真實想法,形成電子口碑效應,但是難以被傳統分析方法提取和處理。近幾年興起的文本挖掘技術,為解決這類問題提供了新方法。
消費者在消費過程中會對產品產生正面或負面的評價,而這些評價與購買意愿存在著一定關系[3]。消費者對于產品評價主要由感官評價、認知評價、使用評價和關聯評價構成[4]。線上平臺的設計美觀度、消費者在購物時的體驗、詳情頁的展示度會影響消費者的購買意愿。Sharma[5]認為,線上產品的特征,例如質量、價格等因素都會影響消費者的購買意愿。
馮坤等[6]人基于LDA模型提取出線上平臺消費者對于食品的評論主題,通過構建商品品類下不同商品的隨機占優矩陣,算出了不同商品影響因素的滿意度排序,如:有的商品品類中消費者最為關注的是性價比,而有的品類消費者最關注的卻是品牌。Iwata等[7]使用LDA模型研究了不同大類商品的消費者滿意度影響因素,結果表明不同類的市場中影響因素不盡相同。吳江等[8]分析不同時間段兩種商品的評論信息發現,隨著時間的推移,商品的消費者滿意度曲線呈現U型,即購入商品之后消費者的滿意度往往會有所下降,之后消費者對商品質量和好性能的產品的喜愛程度會隨著時間的延長而增加。
王珠美等[9]使用LDA模型統計出農產品評論的主題及其占比,進而運用直覺模糊TOPSIS模型算出各種農產品評價的綜合得分,發現商品的銷量與評論的綜合得分呈正相關。阮光冊等[10]使用LDA模型統計出商品的屬性,分析各個屬性的情感極性并結合多元回歸模型探究情感極性與銷量排名之間的關系。結果顯示,隨著各屬性的情感分值增加,銷量排名上升。畢達天等[11]利用LDA模型探究了交易雙方的行為,通過系統研究“淘寶”的商品差評,發現商家向消費者索要好評的行為會引起消費者的厭惡,從而給出差評,且商家索要好評的方式和次數都會影響消費者給出差評的決策。
綜上所述,在電商平臺評論領域,消費者購買不同大類的產品時關注因素往往存在較大差異。同一大類產品下,不同子產品之間受關注因素的關注度和滿意度也不盡相同。然而,大多數學者只是分析出產品影響滿意度的因素,而不考慮該因素的重要程度,籠統地給出建議。出于成本的考量,采納全部建議顯然不能滿足商家效益最大化的目標。因此,本文綜合利用LDA模型、重要性-績效性(IPA)分析法,深入挖掘葡萄酒評論信息。在獲取評論主要關注因素的基礎上,利用語義網絡圖展示不同情感極性下關鍵詞之間的聯系,在綜合考量關注度和滿意度兩個指標的基礎上給出合適的營銷建議。
LDA主題模型能夠高效地利用關鍵詞反映出消費者主要關注因素,IPA矩陣可以綜合測量消費者對產品的關注度與滿意度的相對關系,因此LDA模型與IPA矩陣分析法相結合的網絡評論信息研究方法,廣泛應用于不同領域的用戶觀點研究。本研究基于LDA模型構建了葡萄酒評論的分析框架,以便準確地獲取消費者具體反饋,有針對性地給出建議。具體研究流程如下:(1)根據搜索關鍵詞葡萄酒,利用爬蟲技術獲取京東平臺銷量排名前100的葡萄酒品牌的消費者評論數據,將文本進行預處理,得出目標數據。(2)對處理后的文本數據進行中文分詞等操作,借助LDA模型獲取評論主要關注因素并評論的文本信息進行情感分類。(3)結合評論中提取的觀點,將關注因素進一步細分,算出二級指標的關注度和滿意度。(4)構建基于IPA方法的關注度-滿意度矩陣,進行可視化分析。
本文使用Python語言編寫爬蟲代碼,抓取2020年12月1日“京東商城”上銷量前100的葡萄酒評論文本,將每個葡萄酒的評論單獨保存成一個csv文件,共獲得66 563條評論信息。京東商城前100的葡萄酒之間存在共用評論的現象,因此需要對比每個csv文件,去掉重復文件后得到33 282條評論信息。使用Python數據分析領域的Pandas庫清洗剩余評論的文本數據。首先,為保證數據不受人為因素干擾,需要將明顯的刷單信息刪去。例如:刪除“京東的質量我一直比較放心,發貨也比較快”此類按特定套路生成的高度重復且一致的評論信息;更正一些錯別字,如將“丹寧”改為“單寧”等;把一些意思相近的詞語進行同義替換,如將“飛速”“快速”“飛快”等詞語統一替換成“很快”。然后,選取中文文本處理效果比較好的Jieba分詞模塊,結合“搜狗詞庫”中的“網購詞庫”“葡萄酒相關名詞詞庫”構建自定義詞庫,對評論文本進行分詞。最后,導入停用詞庫,把分詞后文本中沒有意義的詞語過濾掉。
2.3.1 LDA主題模型
2003年,Blei[12]針對PLSI模型不能用概率描述文本信息產生的缺陷,提出將文檔主題混合的比例表示成一個服從Dirichlet分布的隱含隨機變量,以此模擬文檔生成過程,提出了一種非監督機器學習的文檔主題模型,即LDA主題模型。LDA模型包含文檔、主題和特征詞三個維度。利用評論文檔D及其先驗參數α和β推斷每個關鍵詞的主題分配序列z_(d,ω),并根據該序列得到評論-主題分布概率θ和主題-詞匯Φ分布概率。具體方法如下[13]:
(1)確定評論數目N和該文檔中的特征詞數dn;
(2)對于評論d,生成主題分布:θ_d~Dir(α);
(3)對于主題κ,生成特征詞分布:Φ_κ~Dir(β);
(4)對于特征詞ω_(d,i),先在θ_d生成一個主題z_(d,i)~Multi(θ_d),再根據z_(d,i)生成ω_(d,i)~Multi(θ_(z_(d,i)))其中iε{1,2,...,dn}。
使用模型各變量最大化的聯合分布,估計各個參數:
通過吉布斯抽樣求解參數的概率p,進一步引入狄利克
其中,z_(dω)表示該特征詞分配的主題;z_(-(dω))代表不包括此特征詞的其它詞語的主題分配序列;代表將評論d中除去特征詞ω之后的其它特征詞分配給主題κ的次數;代表排除文檔d中的特征詞ω之后,ω仍分配給主題的次數。
2.3.2 LDA模型主題個數的確定
由于LDA模型的主題個數對分析結果有決定性的影響,因此在分析葡萄酒評論的關注因素之前,需要確定主題個數。目前有三種應用較為廣泛的方法:第一種是利用層次狄利克雷過程將主題的個數轉化成非參數,從而去除主題個數對模型的影響。第二種方法由Griffiths等[18]提出,基于貝葉斯算法確定文本數據主題個數的方法。第三種是Blei[16]提出的分析不同主題個數下模型困惑度(Perplexity),確定主題個數的方法。由于第一種和第二種算法的復雜度高且效率較低,因此本文選用第三種方法測量主題個數。困惑度的計算公式如下:
其中:D表示所有葡萄酒評論的集合,d表示集合中的一條評論,Nd表示d評論中的特征詞個數,ωd表示d評論中的特征詞序列,P(ωd)表示d評論中ωd出現的概率。
IPA分析是一種基于期望差異理論提出的衡量研究對象滿意度的方法[14]。它將關注因素的重要性和績效一起納入考量范圍,通過比較兩者的關系,確定改進策略,以便管理者對有限的資源進行利益最大化的利用。由于葡萄酒評論開放式的文本屬性,一個評論中可能包含不止一個觀點,且對于不同觀點的情感極性也不一定相同。本文利用百度AI開放平臺基于深度學習技術研發的觀點提取模型對葡萄酒評論進行觀點提取。首先,使用Python安裝并導入百度提供的AiNlp第三方庫,用其提供的身份信息進行驗證。最后,將評論文本循環輸入百度提供的接口進行處理,提取輸出的觀點以及情感極性。該模型經過大量的購物評論語義訓練,對輸入的評論信息可以較好的進行觀點和情感極性提取。本文在LDA模型確定的關注因素基礎上將其再度細分為多個二級指標,將提取出的觀點歸類到二級指標之中,計算出各個二級指標的關注度和滿意度,根據IPA方法構建關注度-滿意度矩陣進行。
3.1.1 確定最優主題數目
本文使用Gibbs抽樣計算參數的概率,因此抽樣迭代次數也會對困惑度產生較大的影響。通過分別測算迭代參數在20~300的情況下主題數在1~20時最佳主題的困惑度,發現迭代次數為23時,效果最好。將抽樣迭代次數設置為23,分別測算主題數為1~20對應的困惑度。圖1的折線可以看出,把主題個數設置為5時,模型的困惑度最低。
3.1.2 LDA主題挖掘
本文使用Python自然語言處理領域Gensim庫中的LDA模型,對預處理后的葡萄酒評論數據進行建模分析。通過困惑度與主題之間的對應關系,得出最佳主題數之后,將主題數帶入LDA模型并將關鍵詞個數設置為10,分析出了各個主題包含的關鍵詞和對應的相似度。見表1。
LDA模型根據特征詞與主題的相似性,將相關詞語劃分在一起,表達對應的主題。根據表1的結果,通過多個按主題相似性排序的特征詞描述,可以推斷出對應的主題。主題1中出現了‘物流’‘速度’‘很快’‘快遞’等特征詞,可以推斷出此主題描述了葡萄酒銷售環節的物流特征;主題2中出現了‘口感’‘品嘗’‘味道’‘包裝’等詞,可以推斷出這些詞主要描述了葡萄酒的產品特征;主題3出現了‘感覺’‘贈品’等詞,結合具體評論可以推斷出此主題描述了客服質量;主題4出現了‘購買’‘不錯’‘值得’等詞,可以推斷出此主題與購物體驗相關;主題5出現了‘便宜’‘價格’‘活動’等詞可以推斷出此主題與葡萄酒價格特征相關。
3.1.3 關注因素的關注度與滿意度分析
根據LDA模型分析可知,消費者主要關注因素有5種,分別是:產品特征、價格特征、物流特征、購物體驗和客服質量。為深入研究消費者對每一種關注因素的關注度和滿意度,需要將每段評論中包含的觀點全部提取出來。使用百度AI開放平臺基于深度學習技術開發的觀點提取功能,結合LDA模型分析主題及其特征詞,將評論觀點進行主題歸類。根據觀點分類的結果,統計各個主題特征的關注度和滿意度。
圖2表明,消費者在京東商城購買葡萄酒時,對于產品、價格、物流、購物體驗以及客服方面整體滿意度較高(在83%以上)。但是,消費者除了比較關注產品特征外(52.65%),對于價格、物流、購物體驗、客服質量關注程度都很低(僅僅7.74%~13.41%),這說明消費者對線上購物整體上比較滿意,對產品質量比較關注,對其他方面均比較滿意,甚至不怎么關心。結合表1結果可以發現:京東商城商品質量相對較好,商品出現問題的概率較低;消費者對物流的滿意之處主要是速度快,這點也能印證京東自建物流的成功,高效率物流為京東商城的葡萄酒銷售起到了積極的促進作用。對物流的不滿之處主要集中在物流質量方面,比如:瓶子破損,包裝損壞等。

表1 LDA主題模型結果Table 1 The LDA model of topic maps
承接上文對消費者購買葡萄酒時感受的定性描述,此處使用IPA分析的方法研究各個指標的滿意度和關注度關系。首先,本文對于提取的觀點進行了歸類,并進一步對主題模型統計出的5個關注因素進行細分,得到11個二級指標,分別統計出每個二級指標的關注度和滿意度(如表2)。
根據表2的數據,以滿意度為橫軸,關注度為縱軸,將坐標(88.03%,8.23%)設置為交叉點,并且將4個象限命名為A區、B區、C區,D區以此建立IPA方法。其中,88.03%表示的是滿意度的均值,8.23%表示的是關注度的均值。IPA分析結果如圖3所示。

表2 消費者網上購物葡萄酒所關注因數Table 2 Consumers' attention of online wine shopping
3.3.1 提升產品質量,差異化定位市場
由于消費者對產品質量關注度和滿意度都非常高,該因素落在了A區域。但是,仍有部分消費者反映“對國內的酒莊有些失望,品質如同國外餐酒”。目前,國產酒與進口酒相比,并沒有價格優勢,若是質量得不到提升,將處于更加被動的狀態。因此,產品質量關仍然是商家關注的重點。對于對品質比較挑剔的消費者,在提升質量的同時,需要把產品定位和消費者群體結合起來,重新進行合理定位。引進先進的釀造工藝和設備,根據線上品牌的銷售情況,釀造出不同類型的葡萄酒,確立企業的一級主打產品、二級大眾產品和三級下沉產品,在線上系統的支持下對不同類型的消費者進行差異化推薦,滿足不同的市場人群。
3.3.2 提高總體關注度,提升產品自身優勢
落在B區域的關注因素有總體感受、優惠、價格、物流速度、物流質量,視覺感受。消費者對這6個因素雖然關注相對較低,但是滿意度較高。說明商家在這些方面做得已經比較出色,不需要將過多的精力投放在此。消費者對于酒的色澤并不敏感,但是隨著葡萄酒文化的普及,消費者對于酒的色澤認知提升,不排除視覺感受下降的可能。也就是說,消費者的滿意度較高,但總體關注度不高,那么產品自身優勢還是不能顯著發揮。一個優秀的銷售品牌需要擴大自身的優勢,將產品的優勢信息傳遞給消費者,進而影響消費者的消費意愿和行為。在企業品牌運營過程中,可以把消費者對于滿意度高的優勢加入到產品的線上廣告中,引起消費者的共鳴。
3.3.3 減少消費負面情緒,建設線上銷售團隊
客服質量落在C區域,表明消費者對于客服人員服務態度的滿意度和關注度都不是很高。客服質量的關注度不高,原因是消費者在購買葡萄酒時很少遇到問題,不必尋求客服幫助。然而,如果遇到問題,消費者就很容易產生不滿情緒,此時若是客服人員的服務態度不好或者解決效率不高,消費者就會喪失對商家的信任。因此,在銷售過程中需要重新制定客服銷售激勵計劃,對客服話術和服務態度進行培訓,提高客服銷售待遇,用收入激勵客服人員的活力,將客服人員的工資與績效掛鉤,或者像那些有經驗的銷售團隊學習,建設優秀的線上銷售團隊以減少消費者在消費過程中的不滿情緒。
3.3.4 優化產品特性,注重飲酒感官體驗
落在D區域的有包裝設計、味覺感受、嗅覺感受,表明消費者對這3個的關注度高,滿意度較低。商家應該優先解決此區域中關注因素存在的問題。很多消費者購買葡萄酒是為了送禮,因此包裝設計是否有新意、是否上檔次就成為消費者重要的考量因素。消費者反映的影響滿意度的主要原因是包裝不夠高端,送禮有失面子。味覺方面,消費者不滿的地方在于有些葡萄酒酸澀較重,無法適應,綜合評論信息發現消費者喜愛口感偏甜的葡萄酒。如“兌點雪碧類的甜汽水會喝著舒服一些,酒味不那么刺鼻”。消費者對于一款酒最初的感受源自于其香味,因此嗅覺感受遠高于其他因素。進一步分析消費者喜歡的葡萄酒香氣,發現相較于其他香氣,消費者對果香更加敏感。
本文利用“京東”購物平臺的葡萄酒評論數據,綜合運用LDA主題模型、IPA分析矩陣等方法研究消費者的關注因素及其滿意度和關注度。結果發現,葡萄酒消費者主要關注因素為產品特征、價格特征、物流特征、購物體驗,客服質量。產品特征又可以細分為視覺感受、味覺感受、嗅覺感受、產品質量、包裝設計;價格特征包含價格和優惠;物流特征可以細分成物流速度和物流質量。關注度最高的4個因素全是產品特征的二級指標,其中味覺感受、嗅覺感受、包裝設計這3個因素需要重點改進,產品質量需要繼續保持。消費者對于包括購物體驗在內的6個因素關注度較低,滿意度較高,表明對這些因素總體上比較滿意。
商家應該將改進的重點放在提升葡萄酒的整體質量上。產品質量關不能松懈,保證釀酒葡萄的質量,嚴格把控各個生產環節,產品出廠前進行嚴格的質量篩查,防止出現產品變質等情況;包裝設計方面,建議商家分別設置禮盒裝和家用裝,滿足一部分消費者自飲需求的同時,也讓買酒送禮的消費者多一種選擇;味覺方面,大部分對葡萄酒了解不深的消費者,比較難以適應干紅的澀味,更加偏向于甜味。建議商家適當增加半干型、半甜型和甜型葡萄酒;在嗅覺方面,大部分消費者更傾向于葡萄酒的果香,對于其它香味認知并不強,建議商家生產更多具有明顯果香、花香特征的葡萄酒。在改進產品整體質量的同時,也要加強客服人員的職業素養培訓,改進服務態度,提升為客戶解決問題的能力。例如:在與消費者溝通時,及時且友好地回復消費者的問題,根據消費者不同的用酒場景,為其推薦合適的酒品;一旦出現售后問題,及時有效地給出解決方案。