黃春林 肖群 徐晨 郝亞男



摘要:如今,網絡評論已成為消費者了解商品信息、購買商品的重要影響因素,海量用戶的頻繁交易形成了大量的在線商品評論,從而提供了極具價值的文本信息。本研究基于信息采納模型的框架,以京東平臺的數碼影音產品為研討對象,利用網絡爬蟲收集用戶評論,然后對評論內容進行文本挖掘,概括出數碼影音產品中影響用戶滿意度的六個因素:做工質感、商家服務、續航能力、音質音效、產品特色、佩戴感受。研究結果可幫助廠商、京東平臺店鋪制定產品的改進和營銷策略。
關鍵詞:在線評論挖掘;數碼影音產品;用戶滿意度;LDA
引言
隨著移動互聯網技術的發展,電子商務凸顯出巨大潛力,為人們的生活方式帶來了巨大改變,也重塑了諸多行業的貿易機制。由于線上交易的虛擬性,繼而催生了如用戶生成內容(UGC)等許多獨有的消費者行為,體現在網絡購物市場上就是用戶在線評論。有學者認為,在線上購物環境下用戶在線評論已成為消費者了解商品質量信息、降低購買風險性進而確定是否購買的重要信息資源。因此,如何提高服務質量,進而提升消費者網購體驗,成為維持用戶滿意度和持續增長重要因素。
CNNIC最新公布的《第47次中國互聯網絡發展狀況統計報告》,截至2020年12月,我國的線上購物用戶規模已經達到7.82億[1];然而,根據《2020年度中國電子商務用戶體驗與投訴監測報告》顯示, 2020全年,我國線上購物的投訴占全體投訴的59. 97%,網絡購物領域如此高比例投訴量,除去其自身商業模式的影響,更體現出此行業依然存在大量消費體驗不佳現象[2]。而當今的市場競爭愈發激烈,電商行業已經從搶占市場份額的戰略逐漸向強調服務質量和用戶體驗的戰略轉移,同時總體市場發展的趨勢也逐漸由“價格驅動”轉向“服務驅動”,因此,如何幫助電商企業和經營商家提升網購顧客體驗質量,輔助企業進行運營管理,成了急需解決的問題。
網購消費者在購買商品后,常會發表商品評價,一般包括購買商品與線上介紹是否一致、商品使用情況、商家服務質量和物流配送等內容。基于線上購物時商品的虛擬屬性,用戶了解商品信息的渠道單一,無法對商品情況進行全面了解,因此無形中增大了消費者購買風險,而在線評論根據真實用戶的購買情況,包含了諸多額外的商品信息,能夠幫助有購買意向的消費者,使其對商品信息有更全面的了解,所以在線網絡評論更容易獲得其他用戶的信服和采納,如何從大量用戶評論中提取出影響用戶選擇行為的因素,成為了當前理論研究和企業發展急需關注的問題。
本研究選取京東平臺作為用戶在線評價的數據來源,以文本挖掘技術為基礎,對數碼影音商品的評論進行分析,分析影響消費者滿意度的因素,進而找到提高電商平臺用戶網絡購物體驗的方法,這樣企業也能根據用戶需要逐漸改進商品和服務,從而進一步提升用戶滿意度,為企業和消費者帶來雙贏的局面 [3]。
相關理論
用戶滿意度理論
通過對國內外文獻中用戶滿意度概念的研究和總結,發現它們的定義仍然存在差異。Oliver(1980)認為,用戶滿意度是指用戶在進行商品和商家服務的購買或享受后,對商品和服務的現實感受與預期感知的比較[4]。當用戶覺得商品或商品比自己期望的產品和服務更好時,就會支持產品,產生認同感,當用戶覺得商品或商品并沒有比自己預期的產品和服務更好時,就會有一種不以為然的感覺,這是一種事后的評價[4]。Davis F D(1989)認為,用戶滿意度的定義是從購買開始到使用產品和服務的全過程中的感受,表達了用戶在整個過程中的心理[5]。
網絡爬蟲技術理論
網絡爬蟲,是指按照一定的規則自動地在萬維網中抓取信息的一種程序或者腳本,其被用于自動提取網頁[6]。
文本挖掘理論
文本挖掘(Text Data Mining, TDM),其含義是指為了實現發現知識的目的,從大規模文本庫中抽取隱含的、有潛在價值信息的過程,作為數字化社會的產物,文本分析已成為大數據時代下的一種極受歡迎的新興技術[7]。
數碼影音評論數據采集
數據來源
本文選擇平臺上銷量大、瀏覽量和收藏量高的產品為研究對象。在眾多網購產品中,以耳機為代表的數碼影音產品憑借廣大數碼產品迷的青睞,已經成為消費者最喜愛的商品之一。
在過去三年中耳機市場發生了一個重大的變化,由原本維持多年的音頻產品轉向了產品功能更加多樣的智能電子產品。這個行業的巨大變化由此也引發了相關用戶的消費觀念、市場競爭等諸多的變化。發生這一變化之前,大多數用戶都以使用手機標配耳機為主,很少一部分用戶由于追求更好的音質等原因去購買其他的耳機,但自從2016年蘋果AirPods問世,打破了原先耳機市場的平衡,一年后真無線耳機市場得到了突飛猛進的增長,耳機市場的銷售額更是一舉超過過去5年銷售額度的總和,成為一個新的紅海市場。其中,Strategy Analytics新興終端技術團隊最新公布,截止2020年全球藍牙耳機的總銷量將超過3億部。然而,耳機市場的快速變化,質量參差不齊,市場監管不到位,由此也帶來了諸多產品和市場問題。因此本文將選用耳機作為研究的對象。
同時,主打數碼家電產品的京東電商平臺以極高的營收增速位居各大電商平臺的首位,顯示出了巨大的發展潛力,故本研究選取京東平臺作為用戶在線評論的數據來源。
數據采集
本文使用八爪魚爬蟲程序,爬取了京東部分商店的數碼影音用戶的在線評論數據,總用戶評論量存在7個CSV文件中,原始數據共約10萬條數據。抓取數據時,首先對數碼影音關鍵詞進行檢索,抓取所有數碼影音商品列表用戶評論頁鏈接地址,之后通過循環此評論列表頁的地址進入每個商品的用戶評論頁,對用戶評論進行抓取。由于京東平臺網頁端對用戶評論展示進行限制,故單個商品最多只能抓取100頁的用戶評論,約1000條。
筆者在查看京東平臺商品評論區時,發現用戶評論主要由用戶名、會員標志、數碼影音型號,數碼影音顏色、評論時間、評價星級、評論內容和追評等板塊組成。然后在進行正式評估之前,要對所采集的數據進行預處理,首先由于從網頁中爬取的數據中會包含一些無效信息,如特殊符號、語氣助詞、表情符號等,需要去除無關數據,因此選取其中出現頻次較高的關鍵詞作為基本分析對象。由于這些因素與本研究沒有太多益處,故剔除其他評論中的因素,只保留用戶文本評論內容。
文本分析與數碼影音用戶滿意度因素歸納
數據預處理——中文分詞
中文分詞是根據一定的規范將連續的字序列重新組合成詞序列的過程[8]。本文所用的jieba分詞器是一個第三方中文分詞組件庫,分詞效果準確度較高,因此本文選用jieba組件進行分詞。
文本詞云統計
西北大學里奇·戈登在2006年提出“wordcloud”這個概念,通過形成“關鍵詞云層”或“關鍵詞渲染”,在圖形上突出內容文本中出現次數較高的“關鍵詞”。詞云圖通過去掉大量的文字信息,讓網絡訪問者對文字的主旨一目了然。本文將分好的詞進行頻數統計后,采用Wordcloud庫生成詞云圖,效果如圖:
詞云圖中字體越大的詞組的詞頻越高,也側面反映出了該詞組在該文本當中可能越為重要,但文本中一般會存在大量標點符號、日常語氣詞、副詞等詞,這些詞與用戶要表達的主題思想通常關系不大,一般做法是將其列為停用詞列表,讓真正的主題詞(比如名詞、動詞)凸顯出來。由上圖,可以看出一些用戶對于數碼影音購買滿意度的關注特征,例如音質、音效、質感、舒適度等特征,但仍有一些詞如數碼影音、能力、感覺等與主題表達無關的詞,這些將在后續中進行優化。
用戶滿意度因素歸納
本小節使用LDA模型對數碼影音評論進行主題分析,從而得出用戶在購買數碼影音產品中滿意度的影響因素。LDA是文檔主題生成模型,也被稱為三層貝葉斯概率模型,其本質上是一種非監督機器型的學習技術,能夠對大量文檔內容集或語料庫中潛藏的主題信息進行識別,LDA通過采用詞袋的方法,將每一篇文檔都看做成一個詞頻向量,然后對文本信息向易于建模的數字信息的轉變有了極大的幫助[9]。
LDA生成過程
LDA對于語料庫中的每篇文檔都定義了以下的生成過程:首先從每篇文檔的主題分布中抽取一個主題;然后從被抽到的主題所對應的單詞分布中抽取一個單詞;最后一直重復上述過程直到文檔中的每個單詞都被抽取過[9]。
語料庫中的每個文檔都對應于T的多項分布(multinomial distribution)(通過重復試驗等方法事先給定),多項分布被記作θ。每個主題對應于詞匯表(vocabulary)中V個單詞的多項分布,并且該多項分布被稱為φ。
LDA模型生成部分代碼:
#lda模型,num_topics設置主題的個數
%time lda = models. ldamodel. LdaModel (corpus = corpus, id2word = dictionary, num_topics = 6, passes =100, iterations = 6000)
本模型中iterations意思為訓練模型過程中試圖推斷文本主題的次數,通常在1000以上,設為6000次,passes意思為訓練模型過程中遍歷全部文本的次數,通常情況遍歷次數越大,耗時越長,設為100次。
主題分析結果
實驗過程中針對文本主題num_topic進行調整參數,最終確定6個主題,盡量做到不重不漏。下圖2為主題分析結果。盡管該模型預測不能做到百分百準確預測主題詞,但基本上各個主題的關鍵詞相似度極高,皆有共同特征,可以視為同一個主題。
經整理,確定的6個主題如下,為:做工質感、商家服務、續航能力、音質音效、產品特色、佩戴感受。
研究結論
結論
本文通過文本分析的方法對京東平臺數碼影音產品的用戶評論進行了研究,構建了相應的BOW文本詞頻向量,利用LDA算法對實驗數據進行建模模擬計算,經過不斷的調整參數,最終確定影響用戶購買數碼產品的6個因素,即做工質感、商家服務、續航能力、音質音效、產品特色和佩戴感受。這為商家和耳機產商優化產品、平臺和商家服務以進一步提升用戶滿意度提供了參考建議。
對數碼影音廠商和銷售平臺的建議
對耳機產商的建議
本文研究數據表明,在耳機產品方面,用戶主要關注五方面的因素,即做工質感、續航能力、音質音效、產品特色、佩戴感受。針對這五個因素,本文提出以下建議:
1.對做工質感的建議
在做工質感類別中,出現頻率較高特征詞有做工、質感、顏色、手感、外觀、很漂亮、材質、磨砂等詞,各大耳機廠商在這些方面要多加注意,提升產品的質感、外觀設計等元素,緊追前沿時尚,給用戶以體驗上的滿足。
2.對音質音效的建議
音質音效在數碼影音產品中的重要性一直以來都是比較高的,本實驗也側面佐證了這一點。耳機產商也都深知要提升音質音效,但產品有限的價位上,要重點提升哪些方面的音質音效,還需后續深入研究。本實驗中,音質音效方面的關鍵特征詞有低音、降噪、雜音、隔音、高音、重低音等詞,故耳機廠商可重點提升這幾個產品音質因素。
3.對續航能力的建議
續航能力在數碼產品中是用戶經常容易吐槽的點。對于無線耳機產品來說,廠商可優化產品的功耗、提升電池模組的性能、支持快速充電的功能等。
4.對佩戴感受的建議
佩戴感受方面的關鍵詞有舒適度、佩戴、耳塞、入耳式等,廠商可重點關注耳機的佩戴感受方面,多進行用戶佩戴實驗,優化產品佩戴體驗細節。
5.對產品特色的建議
每一個成功的產品大多都有自己的獨立特色,故廠商要想讓自己的產品大規模普及開來,也必須針對自己企業的技術和設計特點,設計自己產品的特色。此主題關鍵詞包括好看、性價比、顏值、小巧、可愛、時尚、好用等,廠商可針對產品的外觀設計、性價比、易用性等方面進行用戶滿意度的優化。
對京東平臺和私營店鋪的建議
商家服務主題的關鍵詞為物流、京東、快遞、客服、速度、包裝、品牌、服務等,京東平臺和私營店鋪可以針對這些關鍵詞,進行服務優化,提升快遞配送速度、客服人性化程度等。
參考文獻:
[1] 中國政府網,《第47次中國互聯網絡發展狀況統計報告》[EB/OL].http://www.gov.cn/xinwen/2021-02/03/content_5584518.htm
[2] 網經社,《2020年度中國電子商務用戶體驗與投訴監測報告》[EB/OL]http://www.100ec.cn/zt/2021yhtsbg
[3] 徐冬磊.C2C電子商務中的顧客滿意度影響因素分析[D].安徽大學,2010.
[4] Davis F D.Perceived usefulness, perceived ease of use,and user acceptance of information technology[J].MIS quarterly,1989:319-340
[5] 朱俊亞.用戶滿意度影響因素研究—基于產品創新的視角[D].西南交通大學,2017.
[6] 百度百科,網絡爬蟲[EB/OL].https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin
[7] 諶志群,張國煊.文本挖掘研究進展[J].模式識別與人工智能,2005,18(1):65-74.
[8] 丁蔚.基于詞典和機器學習組合的情感分析[D].西安郵電大學,2017.
[9] 孔振.基于VSM的文本分類系統的設計和實現[D].哈爾濱工業大學,2014.
基金項目:國家自科項目地區基金:基于信息不對稱和行為偏好雙重視角下的供應鏈決策與協調研究(71762031)