文/胡迪
物流是暢通國民經(jīng)濟循環(huán)的重要環(huán)節(jié),近年來隨著電子商務(wù)的快速發(fā)展,線上購物逐漸成為消費主流,隨著物流業(yè)的井噴式發(fā)展,隨之而來的也有一系列的消費問題,網(wǎng)經(jīng)社電子商務(wù)研究中心發(fā)布的《2020年度電商物流消費投訴數(shù)據(jù)與典型案例報告》顯示,在用戶投訴問題類型中,物流問題占比高達42.42%。已有大量研究表明物流是影響生鮮電商發(fā)展的重要因素[1-5],因此,為了讓物流快遞企業(yè)更多地了解客戶需求,本文基于生鮮電商的在線評論數(shù)據(jù),從不同維度對生鮮電商的物流滿意度進行測評研究,根據(jù)分析結(jié)果,對生鮮電商的物流快遞企業(yè)提供相應(yīng)的意見及建議,以提高消費者對整個物流環(huán)節(jié)的滿意度。
通過文獻梳理后發(fā)現(xiàn),我國生鮮電商的發(fā)展過程中還存在短板和不足,尤其是在物流環(huán)節(jié)中存在的問題較多,并且對于生鮮電商產(chǎn)品來說,物流因素是影響購買者購買意愿的重要因素。主流的物流客戶滿意度研究中,大多是采用問卷調(diào)查法等實證研究方法。目前主流的研究物流客戶滿意度大部分集中在路徑規(guī)劃、末端物流節(jié)點選址上,而在線評論作為消費者在購買使用過產(chǎn)品后所發(fā)表的評論,能夠真實反映出產(chǎn)品及服務(wù)的相關(guān)情況,因此本文基于生鮮電商平臺的評論數(shù)據(jù),提出一種結(jié)合文本挖掘和情感分析的物流客戶滿意度深度挖掘分析方法。
本文從詞頻特征衡量詞語與物流屬性之間的相關(guān)性,挖掘詞語的隱式語義信息,關(guān)鍵詞既包含文本的主題相關(guān)性,又能反映詞語的重要性[6]。TF-IDF是用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度的一種統(tǒng)計方法。TFIDF算法的優(yōu)勢是其能同時考慮到低頻詞和高頻詞對分類過程的影響,因此其特征向量提取的效果相對較好[7]。
TF(Term Frequency)表示樣本關(guān)鍵詞i在文檔j中出現(xiàn)的頻率,計算公式如(1)所示:

IDF(Inverse Document Frequency)逆文檔頻率,反映關(guān)鍵詞的普遍程度,當(dāng)有大量文檔包含這個詞時,其IDF值越低;反之,則IDF值越高。計算公式如(2)所示:

其中,N為所有的文檔總數(shù),Y(i,j)表示文檔j是否包含關(guān)鍵詞,若包含則為1,若不包含則為0。若詞i在所有文檔中均未出現(xiàn),則IDiF公式中的分母為0,因此平滑即加一處理。
關(guān)鍵詞i在文檔j中的重要程度可用公式(3)表示:

TF-IDF值可以有效度量詞語的重要性程度,越大證明其越重要。
如果一條評論為有用評論,其必定包含用戶關(guān)注的物流屬性,即一個評論具有一個或一個以上的物流屬性詞,則認為該評論為有用評論,判斷規(guī)則公式如(4)所示:

Vm為第m個評論是否為有效評論的判斷值,取值為0或者1。當(dāng)m第條評論中含有的屬性詞個數(shù) 時,他的有用性 ,則這條評論被選取,否則這條評論被過濾掉。
Word2Vec 通過淺層的神經(jīng)網(wǎng)絡(luò)對模型進行優(yōu)化,考慮了詞語之間的語義聯(lián)系,將單詞轉(zhuǎn)換成多維向量形式,把對文本內(nèi)容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度,余弦相似度是通過計算兩個向量的夾角余弦值來評估他們的相似度,余弦值越大則越相似,其計算公式如(5)所示:

其中 , 分別代表提取的關(guān)鍵詞向量A和物流屬性B的各分量,如“物流”這個詞語經(jīng)過向量轉(zhuǎn)化后為[-0.201,-0.094,0.506,0.356,......],“包裝”這個詞語經(jīng)過向量轉(zhuǎn)化后為[ 0.062,-0.108,0.178,0.332,......],通過計算兩個向量之間的余弦相似度,余弦值越接近1,就表明兩個向量越相似,即兩個詞語越相似。
情感分析的主要目的是挖掘評論中蘊含的感情色彩,即分析文本的情感傾向于正面還是負面。Zhang等人[8]提出了一種基于規(guī)則的方法:首先根據(jù)情感詞典得到句子的情感傾向,再根據(jù)句子的情感傾向得到整個文檔的情感傾向。Pang等[9]按照不同的方法提取特征,他們將用戶標(biāo)記的情感極性或者評分作為標(biāo)簽,并且使用機器學(xué)習(xí)算法構(gòu)建帶有文本特征的情感分類器。本文將情感分析看作是一個分類問題,情感分析旨在預(yù)測評論文本的情感標(biāo)簽,使用Bayes分類器來預(yù)測給定評論的傾向性。
貝葉斯模型在文本分類領(lǐng)域應(yīng)用廣泛,其主要利用文本類別的先驗概率和特征向量對類別的條件概率計算未知文本屬于某一類別的概率。對于有兩個類別的c1和c2的分類問題來說,其特征為 ,特征之間是相互獨立的,則屬于類別c1的貝葉斯計算公式如(6)-(8)所示:

其中:

則公式可化簡為:

主觀評價以傳統(tǒng)調(diào)查問卷或訪談形式進行,消耗時間精力較多,數(shù)據(jù)不具有實時性,調(diào)查對象數(shù)量有限,且獲得的結(jié)論受問題設(shè)置影響較大,準確性大打折扣。因此本文利用 Python Request 編寫在線爬蟲程序,爬取京東商城生鮮產(chǎn)品中新鮮水果、海鮮水產(chǎn)、精選肉類、冷凍飲食、蔬菜蛋品5類商品的在線評論,爬取內(nèi)容包括店鋪名稱、用戶ID、評論內(nèi)容、滿意度星級等,為保證評論數(shù)據(jù)的準確性,對爬取的評論數(shù)據(jù)進行預(yù)處理,刪除為空、重復(fù)的評論和評論內(nèi)容只有標(biāo)點符號或者表情的評論,最終得到838,143條評論。
對初始數(shù)據(jù)進行清洗和挖掘后,對所有評論進行評論有用性分析,利用中文分詞工具 Jieba 分詞,采用精確模式(lcut)對所獲得的評論進行分詞處理,去除停用詞、標(biāo)點符號和介詞、代詞等沒有實際意義的詞,進行詞頻統(tǒng)計,并運用TF-IDF算法提取出評論中TDIDF值前100的主題詞,從中篩選出所有和物流相關(guān)的屬性,根據(jù)主題詞提取結(jié)果和特征詞頻統(tǒng)計結(jié)果,本文將生鮮產(chǎn)品的物流特征屬性分為11類,即包裝、運輸、發(fā)貨、配送員、配送、完整性、配送方式、冷鏈、速度、服務(wù)、質(zhì)量,運用上述所提到的Word2Vec方法構(gòu)建評論詞向量,計算出生鮮產(chǎn)品物流屬性所包含的屬性詞詞典,建立的詞典如表1所示。

表1 物流屬性及其屬性詞
本文先通過公式4結(jié)合TF-ID確定的關(guān)鍵詞,初步篩選出和物流相關(guān)的評論,然后通過Word2Vec模型生成詞向量并結(jié)合余弦相似度,計算其和物流屬性的相似度,從而確定每句話中是否含有物流屬性,取兩個向量之間相似性大于0.5的向量作為物流相關(guān)的評論,最終共獲得了21,9571條有用評論,模型參數(shù)設(shè)置如下:size=100,window=5,sg=1,min_count=1。由物流屬性及其屬性詞確定的每個有效評論中都包含屬性詞且與物流屬性向量的相似度均大于0.5,從而確定評論中和物流屬性相關(guān)的評論。
本文分析的內(nèi)容源于用戶評論,采用專門針對中文文本挖掘的SnowNLP情感分析庫進行情感分析,Sentiment模型是基于貝葉斯分類器進行訓(xùn)練,針對在線評論中的物流評論進行人工構(gòu)建研究相關(guān)領(lǐng)域的情感語料庫,經(jīng)專家審核后補充或替換通用語料庫,調(diào)用sentiment.train函數(shù)訓(xùn)練新的情感分類器,以提升準確度。對評論數(shù)據(jù)人工標(biāo)注1000條正向評論和1000條負向評論,對語料庫進行訓(xùn)練,并保存訓(xùn)練模型。
結(jié)合本文提出的物流屬性提取方法和SnowNLP模型,計算評論中的物流情感傾向,例如“包裝完好,送貨速度快,這個藍莓已經(jīng)回購過幾次。日期新鮮。味道還不錯,酸酸甜甜的,家里的小朋友們都很喜歡,下次還會再買的。”這句話,經(jīng)過計算可得其和物流相關(guān)的屬性有:包裝、送貨、速度、質(zhì)量、完整性。情感傾向值是指該句情感指向為正的概率,經(jīng)過SnowNLP.sentence模塊的切分,其中包含這些物流屬性的情感正向概率分別為0.6828、0.8964、0.9643、0.5474、0.6828,則這句話中的物流總體傾向取這5項的均值為:0.7548,記為 , 。
用戶的在線評論由評論內(nèi)容和評論星級兩部分組成,則用戶評論的滿意度最終評分也由評論內(nèi)容的評論星級得分和情感值得分兩部分而來,因此將用戶評論中的“5星好評”視為正向概率為1,“四星好評”視為正向概率為0.8,以此類推,用戶評論的星級正向概率為 , 。則用戶評論的最終得分由下列公式(9)可得:

其中E為滿意度綜合評分; 為物流屬性情感滿意度傾向值;E2為星級滿意度傾向值,E數(shù)值越大,情感越積極,用戶的滿意度越高,取 即 為正向評論,標(biāo)記為1,E<1.2為負向評論,標(biāo)記為0。則所有物流評論數(shù)據(jù)的情感傾向計算結(jié)果如表2所示。
表2 物流情感傾向概率計算結(jié)果4.結(jié)果分析

表2 物流情感傾向概率計算結(jié)果
為驗證方法的有效性,設(shè)置一組沒有區(qū)分物流屬性直接進行情感分析計算的對比實驗,其他所有步驟均相同,實驗中采用分類模型中的常用指標(biāo)值作為評判標(biāo)準,其計算公式如(10)-(13)所示。
查準率(精準率):

查全率(召回率):

正確率(準確率):

F值(F1-scores):

其中TP:真正例,實際為正預(yù)測為正;FP:假正例,實際為負但預(yù)測為正;FN:假反例,實際為正但預(yù)測為負;TN:真反例,實際為負預(yù)測為負。區(qū)分物流屬性和不區(qū)分物流屬性的模型評價結(jié)果如表3所示。

表3 分類模型評價結(jié)果
通過對不同分類模型指標(biāo)的計算結(jié)果對比發(fā)現(xiàn),在對不同物流屬性分別進行測算的情況下,分類的查準率、查全率、正確率和F值均有了不同程度的提升,說明此方法的有效性。ROC作為一種綜合評價指標(biāo),經(jīng)常用于不平衡數(shù)據(jù)的分類模型性能評估準則,ROC曲線越凸向左上方,則下方面積越大,表示分類模型的泛化能力越強。ROC曲線下面包圍的面積,也就是對ROC曲線進行積分,得到的結(jié)果稱為AUC(Area Under Curve)。用metrics.roc_curve函數(shù),繪制二者的ROC曲線圖如圖1所示。可以發(fā)現(xiàn)測算了物流屬性的情況下其AUC為0.94,而未測算物流屬性的其AUC為0.888,低于測算物流屬性的AUC,故證明了本文提出方法的有效性。

圖1 ROC曲線示意圖
將在上述研究的基礎(chǔ)上繼續(xù)進行深度挖掘,探索生鮮電商物流客戶滿意度情況,對所有物流評論的物流屬性及其情感傾向值分別取均值并繪制雷達圖如圖2所示,進一步探究生鮮電商評論中對物流各屬性的滿意度情況。

圖2 生鮮電商物流總體滿意度
從物流屬性情感傾向圖中可以發(fā)現(xiàn),用戶對生鮮電商的總體滿意度得分差異性較大,用戶對生鮮電商物流客戶滿意度排名依次為:速度>完整性>運輸>質(zhì)量>服務(wù)>包裝>冷鏈>配送員>配送方式>發(fā)貨>配送,取情感傾向概率均值大于0.5的為正向評論,可以看到用戶對速度和完整性的滿意度較高,對運輸、質(zhì)量、服務(wù)的滿意度相對較高,對包裝則不是很滿意,對冷鏈、發(fā)貨、整個配送環(huán)節(jié)不滿意,說明物流企業(yè)和公司在保持自身優(yōu)勢的同時,也需要進一步提高對配送環(huán)節(jié)、發(fā)貨環(huán)節(jié)、冷鏈環(huán)節(jié)、包裝環(huán)節(jié)的改進。
加強快遞員隊伍建設(shè),提升末端配送滿意度。加強對快遞員隊伍的建設(shè)和管理,完善人才培養(yǎng)和培訓(xùn)機制,同時也要提高快遞員的福利待遇水平,增強快遞員的安全感和幸福感,不斷增加快遞員的職業(yè)成就感,提高物流配送效率和服務(wù)質(zhì)量。
優(yōu)化產(chǎn)品發(fā)貨流程。加強自動分揀系統(tǒng)的建設(shè),對貨物進行自動化分類揀取,同時確保物件的及時跟蹤,為后續(xù)作業(yè)的完成提供信息支持對商品進行清點、檢驗,按調(diào)撥單上的貨號及數(shù)量進行盤查,保證貨物的數(shù)目核對正確,提高發(fā)貨效率和準確性。
加大對冷鏈技術(shù)的科技研發(fā)和技術(shù)創(chuàng)新。改進冷凍水產(chǎn)品貯藏、運輸、流通及消費的過程中,通過采用新型凍結(jié)方式以改善解凍后水產(chǎn)品的品質(zhì),或者采用涂膜、浸泡、噴淋等形式,通過添加物減緩溫度波動對水產(chǎn)品品質(zhì)帶來的變化,保證產(chǎn)品的質(zhì)量和新鮮口感。
加大對快遞包裝的研發(fā)投入,提高產(chǎn)品包裝質(zhì)量。在滿足用戶需求的同時也做好包裝的綠色循環(huán)使用,秉承綠色快遞包裝設(shè)計理念,避免造成資源浪費和環(huán)境污染。要注重快遞包裝減量化、品牌化設(shè)計,側(cè)重快遞包裝易拆卸性、人性化設(shè)計,創(chuàng)新快遞包裝設(shè)計,以提高物流客戶對包裝的滿意度。
隨著日益激烈的市場競爭環(huán)境和不斷變化的用戶需求,對物流快遞業(yè)發(fā)展提出了更高的要求。為了促進物流快遞業(yè)的健康發(fā)展,本文基于生鮮電商評論大數(shù)據(jù),結(jié)合文本挖掘和情感分析,提出一種提取評論中物流相關(guān)評論的方法,并分別對每種物流屬性的情感值進行測算,對比不同物流屬性分別進行測算的情況,通過模型驗證發(fā)現(xiàn),提取物流屬性并分別對物流屬性進行客戶滿意度測算,得到的結(jié)果更加準確,論證了本文提出方法的有效性,最后在分析物流環(huán)節(jié)不足的基礎(chǔ)上,對物流客戶相對不滿的環(huán)節(jié)提出對策建議。