周 歡,秦天琦
(湖南工業大學 商學院,湖南 株洲 412007)
隨著互聯網及電子商務的快速發展,人們的購物消費方式發生了巨大的改變。中國互聯網絡信息中心(CNNIC)發布的第45次《中國互聯網絡發展狀況統計報告》指出,截至2020年3月,我國網絡購物用戶規模達7.10億,較2018年底增長16.4%,占網民總量的78.6%。2020年1—2月,全國實物商品網上零售額同比增長3.0%,實現逆勢增長,占社會消費品零售總額的21.5%,比上年同期提高5個百分點。[1]
在網絡購物規模和頻率日益增長的趨勢下,越來越多的消費者開始習慣于在購買后發表包含個人觀點、情感信息、使用體驗、價格和商品物流等多方面感知的在線評論信息,這使網絡購物在線評論成為消費者表達購物體驗的重要渠道,同時也是促使商家改進產品和改善服務的重要信息源。隨著企業管理和數據監測的不斷完善,在線評論的真實性和可靠性也不斷提升。相比傳統的市場需求調研,在線評論不受時間、地域、職業差異等的影響,使用戶對產品和服務的改進需求和未來需求均能得到較大程度的展現。因此基于在線評論能夠較為客觀、全面地反映市場需求實現的程度。[2]王安寧等[3]提出了一種基于在線評論的區域需求偏好識別框架,實驗結果表明,產品特征的情感極性以及產品滿意度受區域因素的影響十分顯著。岳子靜等[4]采集了美團網的餐館在線評論,對當地各菜系及其相關屬性進行統計與情感傾向分析,得到其關注度與滿意度,以此反映用戶的菜系偏好及各菜系的傳播發展情況。趙宇晴等[2]利用模糊理論融合情感分析技術,構建了需求—滿意度量化模型,實現了用戶滿意度定量評價。Ru-xinNie等[5]利用在線文本評論,提出了融合多準則決策方法和情感分析技術的酒店選擇模型,以幫助游客選擇滿意的酒店,并引導酒店經營者獲得競爭優勢。
雖然在線評論廣泛應用于酒店、餐飲等行業的研究,但是在網絡購物的物流服務質量上的研究卻不多。傳統物流服務質量的研究主要針對線下實體配送的物流企業,如Mentzer[6]在研究中結合物流服務的特點提出客戶導向模型,從訂單釋放數量、訂貨流程、溝通質量、信息質量、貨物精準率、貨品完好程度、貨品質量、時間性、誤差處理等九個維度衡量物流服務質量。在線評論的出現使物流服務質量的研究主體從物流企業轉向了消費者。Yuan等[7]指出,價格、方便性、時間性對消費者網購具有重要影響,是衡量B2C及C2C網購物流服務質量的重要維度。謝廣營[8]從商家交付、物流配送、消費者簽收、消費者滿意或退換貨等四個環節入手對物流服務質量的優劣進行評價。胡媛榮等[9]基于在線用戶評論數據,識別出速度、包裝、快遞員態度以及退換貨服務等四個用戶最為關注的物流服務質量維度,并進一步分析了這四個維度的有效評論對潛在消費者購買意愿的影響。張華泉等[10]發現“物流因素”和“平臺因素”對消費者正面滿意度產生直接影響,而“產品因素”與消費者負面滿意度之間具有顯著的正向影響作用。毛郁欣等[11]基于負面在線消費者評論,發現貨損、配送及時性與物流服務質量顯著相關。張耀荔[12]通過實證分析和統計分析歸納出六個影響網購物流服務質量的維度:送貨服務水平、接單服務水平、正確履行訂單能力、時間性、信息服務能力和價格。
現有的基于在線評論的網絡購物物流服務質量研究大多沒有對在線評論進行情感分類,對不同情感極性的評論分別分析其特征,也沒有針對不同類型網購商品的特點分析其不同的物流服務質量影響因素。鑒于此,本文擬利用Python采集京東商城家電類、生鮮類和電子類商品的在線文本評論數據,采用自然語言處理方法對評論進行分析,判斷三種類型商品物流服務評論的情感極性,并分別對三種類型商品的正面、負面評論進行聚類,最后結合潛在狄利克雷分配 (Latent Dirichlet Allocation,LDA)模型確定消費者重點關注的物流服務維度,提高顧客的滿意度。
在網購前,很多用戶習慣從在線評論中獲取相關信息,但這些在線評論數據存在冗雜、不完整、體量大等問題,使消費者很難決策。本節提出一種基于在線評論情感分析和LDA的物流服務質量評價模型(見圖1),找出影響物流服務質量的主要因素,幫助消費者進行物流服務質量評價。

圖1 基于在線評論情感分析和LDA的物流服務質量評價模型
為了更好地從在線評論中識別出消費者對于商品物流服務質量的關注維度,本文利用網絡爬蟲技術獲取購物平臺上的在線評論數據??紤]到不同商品物流服務質量影響因素可能存在不同,本文將分別采集不同類型商品的評論文本數據作為實驗樣本。
消費者的語言習慣、無意中的輸入錯誤或是對熱門評論的復制等都有可能導致采集的線評論文本數據出現重復與異常,如果不對這些數據進行處理,則會嚴重影響模型運行的結果,最終降低程序的運行效率與執行的準確度,導致分析結果的偏差。本小節使用Python 3.7對爬取到的在線評論數據進行預處理,包括缺失數據清洗、數據去重、機械壓縮去詞、短語過濾處理等。
情感分類是自然語言處理的一個研究方向,也稱傾向性分析(Opinion Analysis),通常用于從社交媒體或電商網站上發布的大量在線評論中提取豐富的意見、情緒或態度。[13]即目標文本中的意見是關于一個實體或實體的方面和屬性,可將意見簡單地分為兩個相反情感極性中的一個,或者將其定位在這兩個情感極性之間的連續變量上進行測算,有助于對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理。[14]
本文使用Python 3.7的SnowNLP庫中的情感分析模塊進行情感分類。首先,對預處理后的評論文本數據進行預訓練并生成預訓練模型,然后根據訓練集的詞語生成情感詞典。用情感詞典與預訓練模型對測試數據即商品評論數據進行情感值計算,并且設定概率P為閾值,當數值大于P時為正面評論,反之為負面評論。圖2為情感分析的基本流程圖。

圖2 情感分析基本流程
情感分類的關鍵是計算情感值,即把具有正面傾向的在線評論的概率與在線評論文本在A類中的條件概率相乘,計算公式為:
(1)
式中,表示詞匯Count(di,A)在A中出現的次數,N為文本分類的詞組總數。在進行情感分類時,本文將情感值>0.5的在線評論文本數據記為正面情感評論。同理,將情感值<0.5的在線評論文本數據記為負面情感評論。
LDA模型是由David Blei等[15]在狄利克雷過程基礎上提出的一種概率生成模型。LDA包含文檔—主題—詞三層貝葉斯文檔主題生成模型,[16]同時也是一種詞袋模型,是一種無監督機器學習的方法,用于識別文檔集或是語料庫中隱藏的主題,其模型結構見圖3。

圖3 LDA主題模型結構圖
圖中,K為潛在主題數,M表示文本數量,N為一篇文檔中的單詞數量;z為“主題”的獨特分布,ω=(ω1,ω2,…,ωN)為由N個詞語組成的商品在線評論;θ為在線評論的主題分布,并且每個主題從參數為α的對稱Dirichlet先驗分布中獨立產生;φ為主題的詞語分布,并且每個詞語分布都是從參數為β的對稱Dirichlet先驗分布中獨立產生的。
LDA主題模型可以被應用于商品在線文本評論的挖掘與信息的檢索領域,通過分析文本數據的相似性并采用更深層的語義挖掘,把文本數據中隱藏的主題及特征挖掘出來,從而得到文本中潛藏的有效信息。
本文LDA主題模型的建模采用了Python中的Gensim模塊,分別對正、負面商品評論進行主題抽取。
首先,使用分詞工具對整個評論數據文檔集合進行分詞并通過排序得到詞組序列。鑒于Jieba分詞具有分詞精度高、操作簡單等特點,本小節擬選擇Jieba分詞工具實現中文分詞功能。分詞之后為每個詞語分配ID,即Corpora.Dictionary。
然后,利用詞頻-逆文檔頻率(Term Frequency Inverse Document Frequency,TF-IDF)算法[18-19]獲取高頻詞并計算相應的權重,使用“詞ID:詞頻”的形式形成稀疏向量。其中詞頻(Term Frequency,TF)表示詞語在文檔中的頻率,其計算公式為:
(2)
逆文本頻率指數(InverseDocumentFrequency,IDF)表示總文檔與包含詞條t的文檔的比值求對數,計算公式為:
(3)
則最終詞語t在文檔Di中的TF-IDF值,也就是詞語t的權重值為:
TF-IDFt,Di=TFt,Di×IDFi
(4)
通過計算商品正負面在線評論的TF-IDF值,可以分別得到正面高頻詞和負面高頻詞排序。
最后,使用LDA模型進行訓練,得到若干主題。根據這些主題分析消費者們最關注的物流服務影響因素,從而有針對性地提升物流服務質量。
本小節選取京東商城家電類、生鮮類和電子類三種不同類型商品,通過網絡爬蟲程序采集這三類商品的在線評論數據,包括會員、級別、評價星級、評價內容、時間、點贊數、評論數、追評時間、追評內容、商品屬性、頁面網址、頁面標題、采集時間等,各類商品分別采集15 000條有效在線評論,即共計45 000條數據。數據構成見表1。

表1 京東商城商品在線評論的數據構成
然后,運用Python編寫代碼對在線評論原始文本數據進行文本預處理,即去重數據、機械壓縮去詞、短語過濾。處理結果見表2。

表2 文本預處理結果
對預處理后的文本評論數據進行情感分類,分別得到家電類、生鮮類和電子類三種類型商品的正、負面評論文本數據集(見表3)。其中,從評論數的角度來看,電子類商品的好評數最多,生鮮類商品的正面評論數最少,家電類商品的負面評論最少,而生鮮類商品的負面評論最多。從好評率的角度來看,家電類商品中正面數據占62%,生鮮類商品占46%,電子類商品占61%。將三種類型商品好評率相互對比可發現,家電類商品好評率與電子類商品的好評率幾乎持平,家電類略高,而生鮮類商品的好評率相對前二者明顯較低。

表3 在線評論情感極性分類表
使用Jieba分詞工具進行中文分詞,然后通過TF-IDF算法得到三類商品的正面評論與負面評論的高頻詞及其權重,表4至表9分別為三種類型商品正、負面評論高頻詞Top 20及其權重排名表。

表4 家電類商品正面評論TF-IDF高頻詞及其權重
從表4和表5可以發現,家電類商品的在線評論Top 20的高頻詞中,有半數以上為物流服務質量相關詞語。在其正面評論的高頻詞中出現了安裝、服務態度、師傅等詞,可以看出消費者在網上購買家電類商品后對安裝服務及安裝人員的服務態度十分重視且給予肯定。而送貨、小哥、配送、速度、物流等詞反映了消費者對于物流配送,尤其是“最后一公里”同城配送速度非常關注。在其負面評論中,從客服、聯系、售后、退貨、服務態度等詞可以看出負面問題主要集中在消費者與售后客服的聯系交流和退換貨服務要求上。除去商品在物流配送前的質量問題,出現退換貨大多是因為家電類商品在包裝保護及配送環節沒有充分考慮到商品體積大、價格高、易損壞等特征導致。從安裝、收費、安裝費等詞結合正面評論,可以看出不同地區安裝服務收費標準尚未統一。從價格、保價等詞可以看出消費者對價格及一定時間內的保價措施是存在需求的。

表5 家電類商品負面評論TF-IDF高頻詞及其權重
表6和表7的數據表明,在生鮮類商品的正面在線評論高頻詞中出現最多的詞為口感、味道等,說明消費者對生鮮類商品最為關注的維度是商品質量。新鮮度是生鮮類商品質量最重要的評判維度,物流、配送、快遞、挺快、速度等描述物流配送速度的詞,恰好可以等同為描述新鮮度,所以物流配送速度是消費者購買生鮮類商品時的重要參考因素。此外,包裝這個詞在生鮮類商品的正面評論詞頻中排行第四,說明包裝對生鮮商品質量十分重要,也是消費者關注的重要因素。從負面評論來看,快遞、冰袋、味道、物流、解凍這些詞都與生鮮類商品的質量,即新鮮度相關,也就是與配送速度與保鮮方式相關,說明生鮮類商品在某些地區的配送速度與長途運輸的保鮮方式依舊存在問題。此外,從客服、退貨、商家、服務態度、售后等詞可看出,在消費者收到問題產品后,與商家溝通和申請退換貨服務過程中,客服人員服務質量及其態度也是消費者考慮給出差評的一個重要因素。

表6 生鮮類商品正面評論TF-IDF高頻詞及其權重

表7 生鮮類商品負面評論TF-IDF高頻詞及其權重
表8和表9的數據表明,在電子類商品的正面在線評論高頻詞中出現最多的詞為外觀、屏幕、散熱等,說明消費者對電子類商品最為關注的維度是外觀和性能,對物流服務質量的感知并沒有家電類和生鮮類商品那么敏感。但是表中也出現了物流、服務態度、配送這類詞語,說明物流配送服務和客服服務依然是消費者重點關注的因素。正面評價中出現保價、性價比等詞,說明電子類產品性價比高且保價措施做得很好;負面評論中,客服、售后、退貨、服務、態度等詞出現頻次比較靠前,說明電子類商品的退換貨服務相對家電類和生鮮類商品比較頻繁,電子類商品的退換貨服務并不理想,存在較多問題。

表8 電子類商品正面評論TF-IDF高頻詞及其權重

表9 電子類商品負面評論TF-IDF高頻詞及其權重
根據文獻中常見的參數設定,[18]將Dirichlet 先驗分布的超參數α和β分別設置為0.1和0.01,通過LDA主題分析得到的正面評論文本主題分類結果與負面評論文本主題分類結果見表10至表15。

表10 家電類商品正面評論的LDA主題分類

表11 家電類商品負面評論的LDA主題分類

表12 生鮮類商品正面評論的LDA主題分類

表13 生鮮類商品負面評論的LDA主題分類

表14 電子類商品正面評論的LDA主題分類

表15 電子類商品負面評論的LDA主題分類
表中數據顯示了各類商品正負面評論的主題詞結果及主題詞概率。以家電類商品正面評論的主題識別結果為例,可以看出消費者最關注Topic 0為服務、很快、物流、速度、送貨,與配送服務相關;Topic 1為速度、安裝、東西、不錯、好看,與安裝服務相關;Topic 2為值得、品牌、信賴、購買、價格,與商品質量相關;Topic 3為服務、態度、小哥、耐心、感覺,與售后服務相關。由家電類商品的正面評論主題詞可以看出,消費者對家電類商品的物流配送、安裝服務、商品質量和相關人員服務是給予肯定態度的,其中Topic 3的主題詞平均概率最高,即對相關人員服務的感知與評價較高。通過對家電類負面評論的LDA主題詞分析可看出,在安裝服務中出現收取額外安裝費等收費不合理行為、上門安裝人員安裝維修技能比較低、安裝人員服務態度差、“最后一公里”配送過程慢、商品保價措施失誤和售后服務態度差等問題,而且其Topic 3的主題詞概率最高,即售后服務相關問題尤為突出。在生鮮類商品正面評論的LDA主題分析表明,消費者對新鮮度(體現在配送速度與商品質量上)、包裝、價格和配送服務態度四個維度較為關注,其中Topic 1的主題詞概率最高,說明消費者對京東生鮮的包裝比較滿意。生鮮類商品負面評論LDA主題分析中評論維度比較單一,說明消費者對生鮮類產品的不滿集中在新鮮度以及其所導致的一些問題,包括配送速度慢、商品損壞變質、退換貨處理不當等。不同于家電類和生鮮類商品,電子類商品具有體積小、價值高等特點,所以主題分析的維度中性能、性價比、體驗等的主題詞概率較高,與物流服務質量相關的因素僅有配送和速度。但電子類商品負面LDA主題分析的結果相反,物流服務質量影響因素比較多,包括配送時間長、貨損及退換貨和保價服務等,尤其是退換貨服務的主題詞概率最高,說明電子類產品的退換貨服務相對家電類和生鮮類產品更為頻繁,說明電子類產品的退換貨服務質量存在較多問題。
對比近些年基于在線評論聚類以獲得物流服務質量影響因素的研究見表16。

表16 基于在線評論的物流服務質量影響因素研究
本研究結果基本涵蓋了前人所總結的大多影響因素,但是本研究不限于從總體上得到在線評論中物流服務質量的影響因素,而是對三種常見的不同品類商品分別探究影響其正負面評論中所包含的物流服務質量的因素,從而針對不同類商品的特點進行具體分析。
綜上所述,從正面評論的高頻詞及LDA主題分析可以看出,消費者比較關注家電類商品的安裝和售后服務,希望生鮮類商品的包裝合理和配送速度快,以保證商品的新鮮度,對電子類商品的退換貨服務要求比較高。這三類商品企業可以改善這些方面的服務,有效提升消費者滿意度,進而帶來更高收益。
物流服務作為網絡購物中必不可少的環節,其服務質量已成為影響消費者滿意度和購物體驗的重要因素。本文基于消費者的視角,對在線評論進行處理,分析了影響物流服務質量的主要因素。首先,通過網絡爬蟲采集京東商城家電類、生鮮類和電子類三類商品的近期在線評論數據并進行預處理;其次,利用情感分類把預處理后的評論文本數據分為正面和負面評論,并通過詞頻分析展現在線評論中的高頻內容;最后,利用LDA主題模型分析得出三種類型商品正面和負面在線評論中影響物流服務質量的相關主題信息。本文分析有助于物流企業關注不同種類商品的特點,在物流服務上采取不同措施,以提升物流服務質量,進而提高顧客滿意度。后續研究希望可以從技術層面入手提高自然語言處理和分析能力,選取更加全面、更有代表性的品類,利用在線評論對網絡購物的物流服務質量進行評價,對物流服務質量做進一步研究。
本研究經LDA主題模型得到的物流服務影響因素為,家電類:配送服務、安裝服務、商品質量、售后服務和服務態度;生鮮類:配送速度、包裝、退換貨服務;電子類:配送速度和退換貨服務。