張炎亮 李小哲



摘要: 在線評論是售后問題的文字化反映,分析其所包含的信息對售后問題的解決有重要意義。文中基于案例推理技術,應用NLPIR軟件對Pathon軟件獲取的9家天貓店鋪3 964條售后評論進行分析,通過信息挖掘獲取關鍵詞并建立案例庫;引入向量空間模型思想進行售后評論與歷史評論的相似度計算。通過分析發現,關鍵詞詞匯量過大會使詞匯冗余從而造成問題分類模糊,而考慮窮舉過程中詞匯相同的次數會使問題分類變得更加準確。
關鍵詞: 在線評論; 案例推理; 模型構建; 數據獲取; 信息挖掘; 結果分析
中圖分類號: TN911?34; F272.3 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)02?0057?03
Tmall shop online comment analysis based on case?based reasoning
ZHANG Yanliang, LI Xiaozhe
Abstract: Online comment is the literal reflection of the post?sales problems, in which the analysis of the comment information has great significance for the solution of after?sales problems. On the basis of the case?based reasoning technology, the 3 964 post?sales comments for 9 Tmall stores obtained with the Pathon software are analyzed with NLPIR software, and the keywords are obtained by means of information mining and the case library is built. The vector space model thought is introduced to perform the similarity calculation of after?sales comments and historical comments. It is found by analyzing that the excessive vocabulary of keywords can make the vocabulary redundant to cause the problem classification fuzzy, and considering the same number of words in the exhaustive process can make the problem classification more accurate.
Keywords: online comment; case?based reasoning; model construction; data acquisition; information mining; result analysis
0 ?引 ?言
網絡購物過程中,在線評論數量、評論次數等因素影響消費者的購買決策[1]。商品的在線評論以其直觀表達顧客感受的優點更容易獲得潛在顧客的青睞[2]。潛在顧客根據在線評論對產品進行認知與感受,從而決定是否進行購買[3]。在線評論是使用者對產品的真實感受,對其進行處理是幫助顧客和商家從海量信息中找到有用信息的重要措施[4]。在線評論在表達顧客對產品感受的過程中,也表露了自身的情感傾向。畢建武等通過對在線評論的情感強度值進行分析,從而對商品進行排序,為消費者進行商品購買提供了建議[5]。在線評論的情感傾向的不同影響了消費者的購買決策,進而影響了產品的銷量[6]。阮光冊等指出商品的銷量排名與反映產品本質的商品屬性的情感極性存在著正相關關系[7]。從上述分析可以看出在線評論對消費者進行產品購買有著重要的影響作用。加大對在線評論的管理力度,消除負面在線評論是電子商務平臺店鋪關注的重點。
消除負面在線評論的主要方法是對在線評論中的差評進行關注,找出差評的原因并對自身進行改善[8]。基于此,本文對在線評論進行研究,引入向量空間模型思想,根據窮舉策略對在線評論相似度進行計算,從而尋找類似案例的處理方案。在線評論的互動性可以幫助制造商了解顧客需求,從而獲得啟發,提升產品質量[9]。引入產品全生命周期思想,將問題反饋到相對應的階段,通過提升服務的質量和產品的質量,最終提升顧客的滿意度。
1 ?模型構建
1.1 ?基于產品全生命周期的售后評論案例庫的構建
產品的全生命周期可以分為三個階段,用[CB],[CM],[CE]表示產品需求分析階段、產品生產階段和產品售后服務階段的問題類別集合,具體表述為:
[CB=CB1,CB2,…,CBn]
[CM=CM1,CM2,…,CMn]
[CE=CE1,CE2,…,CEn]
描述問題時,通常使用相關的關鍵詞來表明該問題的種類,即:
[CBi=CBi1,CBi2,…,CBim]
[CMi=CMi1,CMi2,…,CMin]
[CEi=CEi1,CEi2,…,CEik]
因此,構建案例庫:
[C=CBiCBi1…CBimCMiCBi1…CBinCEiCEi1…CEik]
1.2 ?基于向量空間模型的案例相似度計算
利用NLPIR軟件對顧客所反映的售后問題進行分詞處理,確定不同種類售后問題所特有的關鍵詞,并對這些關鍵詞做詞頻統計。針對不同類別的售后問題的關鍵詞的詞頻表示為[FBi=FBi1,FBi2,…,FBim],[FMi=FMi1,FMi2,…,FMin],[FEi=FEi1,FEi2,…,FEik],其中[FBi],[FMi],[FEi]分別表示[CBi],[CMi],[CEi]中對應的關鍵詞的詞頻,則基于向量空間模型的關鍵詞的權重計算公式(以關鍵詞[CBi1]的權重計算為例)為:
[wBi1=FBi1j=1mFBij]
窮舉策略是對相似度進行計算的一種有效方法,將句子進行分詞處理,并將分詞后的詞匯分別與關鍵詞進行對比,若句中詞匯[xi]與關鍵詞[CBij](以[CBi]中的關鍵詞為例)相同,則[wi(xi,CBij)=wBij],否則[wi=0]。如果評論在與文檔中的詞匯進行對比的過程中,該評論中有較多的詞匯出現在該文檔中,那么說明該評論與該篇文檔有較大的相關度,為了避免詞匯量對于詞匯權重的影響,應該在計算句子與文檔之間的相似度的過程中加入對比相同詞匯量的指標,記為[ni]。句子與歷史售后評論之間的相似度計算公式表示為:
[Sim(Sen,d)=nii=1nwi]
2 ?實證分析
服飾作為必需品,需求越多,產生的問題相對較多,因此本文根據上衣、褲子、鞋子隨機選取九家店鋪數據。利用Pathon軟件獲取所選取的天貓店鋪的評價數據,并對獲取的售后評論進行如下分類:尺寸、厚薄程度、顏色和舒適度。其中有關尺寸的在線評論有2 888條,厚薄程度的有639條,顏色的為306條,有關舒適度的評論有131條。
2.1 ?詞頻統計
利用NLPIR軟件對收集的數據進行分詞處理,尺寸、厚薄程度、顏色和舒適度的詞匯分別有682,490,426,82條,部分統計結果(以部分尺寸詞頻統計為例)如表1所示。
2.2 ?關鍵詞獲取
對獲得的詞匯進行分析,以尺寸詞匯為例。表1中類似于“非常”的副詞,并不含有實際的意義,應進行剔除。“碼子偏小一點”“尺碼有點偏小”再提取“碼子小”“尺碼小”,并分別將處理后的結果在“碼子”“尺碼”“小”上增加12,4,16。另外“買”“一”“好”等與相關的主題不相關的詞匯也應當予以去除。同理,以此篩選規則分別對薄厚程度、顏色、舒適度進行詞匯的處理,最終處理的結果如表2所示。
2.3 ?案例分析
1) 關鍵詞有效性驗證
選擇4條天貓店鋪中評論語句, “薄點,號碼小點,建議親們買的時候拍大一號”“料子很硬,不是軟的,但是很舒服,透氣一般,沒見掉色”“掉色很嚴重 味道也難聞 物流還慢 同樣是2尺3的黑的就可以穿 灰的就穿不了 說是有運費險還不是我自己掏的錢 也沒有給我返支付寶 什么意思也懶的問 就當花錢買教訓了”“買給他的,這件他還挺喜歡的,178,50 kg左右,拍的碼大了,換了165剛剛好,面料也不錯,薄薄的,比另外一件一百多的好”,記為Sen1,Sen2,Sen3,Sen4。為了驗證關鍵詞的有效性,利用本文提取的關鍵詞、全部詞匯和根據文獻[10]選取排序前20%的詞匯組成的關鍵詞分別對4條評論進行相似度計算,并只進行對比相一致的詞匯的權重的相加。計算結果如表3所示。
從上述計算可以看出,本文提取的關鍵詞對于相關度不大的問題不會產生相似度值,而相關度大的問題相似度值更高,說明選取的關鍵詞可以對問題種類進行更有力的區別。因此本文選取的關鍵詞對問題的刻畫有著一定的準確性、快速性及有效性。
2) 基于向量空間模型的相似度計算
由以上分析可知該選取關鍵詞的規則具有一定的有效性,但是最高的兩個相似度相差卻很小,不易對在線評論進行分類,本文考慮句子與案例庫關鍵詞間詞匯相一致的次數。根據本文提出基于向量空間模型的相似度計算方法對Sen1,Sen2,Sen3,Sen4進行相似度計算,結果如表4所示。
根據上述計算結果將Sen1,Sen2,Sen3,Sen4分別歸類到尺寸、舒適度、顏色和尺寸。Sen1,Sen2,Sen3,Sen4與尺寸、舒適度、顏色和尺寸的關鍵詞相一致的詞匯分別為“號碼、小、大、號”“硬、透氣、料子”“掉色、黑”“碼、大”。從上述售后評論中的重要詞匯可以看出對應的商品的問題分別是尺碼不符、料子硬、掉色和尺碼偏大四種,商家可以根據以往對這類問題的解決方案對新產生的售后問題進行相應的處理。同時Sen1,Sen2,Sen3,Sen4四個評論反映了產品全生命周期的設計階段中尺碼設計不標準、材料選取、染色工藝選取等問題,店鋪將涉及的產品進行反饋可以促進產品質量的提升。
3 ?結 ?論
本文以在線評論為研究對象,文中引入產品全生命周期和向量空間模型對案例庫進行構建及相似度計算,通過實例驗證得到如下結論:將全生命周期的思想引入案例推理中,更有利于對案例庫進行分類及產品問題的解決,引入向量空間模型思想,使相似度計算變得更加簡便,并減少了人工參與;在進行相似度計算的過程中,句子詞匯與關鍵詞相同的次數越多說明該句子與該案例庫的相關程度越大;進行分詞后,去除所得的分詞中的詞匯冗余有利于更迅速地將問題進行分類,并且分類的結果更具有說服力;詞匯量過大有可能會淹沒問題與案例庫的相似度,導致相似度較低不易判斷問題的種類。
參考文獻
[1] 李宗偉,張艷輝,欒東慶.哪些因素影響消費者的在線購買決策:顧客感知價值的驅動作用[J].管理評論,2017,29(8):136?146.
[2] 張倩,郭曉林.在線商品評論對制造商收益的影響研究[J].商業經濟研究,2016(11):72?74.
[3] 汪旭暉,張其林,杜航.在線顧客評論對產品銷量的影響:品牌強度和產品成熟度的調節作用[J].管理工程學報,2018,32(3):9?18.
[4] 聶卉.隱主題模型下產品評論觀點的凝聚與量化[J].情報學報,2017,36(6):565?573.
[5] 畢建武,劉洋,樊治平.依據在線評論的商品排序方法[J].系統工程學報,2018,33(3):422?432.
[6] 石文華,王璐,繩娜,等.在線初次評論與在線追加評論對商品銷量影響的比較研究[J].管理評論,2018,30(1):144?153.
[7] 阮光冊,周健超.商品屬性的情感表達與商品銷售熱度的相關性研究[J].圖書情報工作,2017,61(22):13?19.
[8] 林潔,王平春.電子商務貿易中在線評論有用性影響因素研究[J].商業經濟研究,2017(10):73?75.
[9] 張倩,郭曉林.在線商品評論對制造商收益的影響研究[J].商業經濟研究,2016(11):72?74.
[10] 李琦,趙輝.中文報紙中的水土保持新聞特點[J].水土保持通報,2017,37(5):213?217.
作者簡介:張炎亮(1979—),女,安徽人,副教授,主要研究方向為質量管理、質量控制、服務質量等。
李小哲(1993—),男,河南人,碩士研究生,主要研究方向為工業工程、電子商務、服務質量等。