章蓬偉 賈鈺峰 邵小青 賈園園
(新疆科技學院信息科學與工程學院 新疆維吾爾自治區巴音郭楞蒙古自治州庫爾勒市 841000)
2020年中央一號文件繼續關注農村電商發展,強調加快信息化與農業現代化融合,打造地方知名農產品品牌,擴大電子商務進農村覆蓋面,加快標準化、品牌化建設。生鮮農產品具有保質期短、易腐性等特征,對電商各個環節要求更高。消費者在線評論數據反映了商品質量的好壞以及用戶的滿意程度。面對海量的評論數據,需要使用自然語言處理幫助企業在合理時間挖掘分析數據,提取出有用的信息,為企業經營決策提供幫助。主題模型(topic model)研究成果不僅應用于文本聚類/分類[1]、查詢檢索[2]、話題檢測與演化追蹤[3]、多文檔自動摘要[4]等任務,還在情感分析[5]、產品推薦[6]、本體生成[7]、詞向量訓練等研究中扮演重要角色[8]。本文以新疆庫爾勒香梨為例,通過研究京東平臺上數據評論,基于主題模型和實證分析探究交易屬性對消費者滿意度的影響,從用戶情感傾向出發挖掘出香梨銷售存在的優點與不足,從而提升商品的品牌競爭力,找到影響銷量的問題,完善用戶體驗,從消費者的視角幫助企業經營者進一步提高產品競爭力,完善產品相關服務,更好的帶動地方農村經濟發展。
首先把京東商城庫爾勒香梨評論數據進行數據清洗,分詞處理進行詞云展示,最后基于LDA 主題模型對評論數據信息進行挖掘,以便指導商家提升商品的品牌競爭力。主要有以下步驟,使用Python 語言進行數據采集與后續的數據處理分析,流程如圖1 所示。
京東商城的評論數據通過JS 動態加載的,用戶評論字段有昵稱、會員等級、評價星級、評價內容等。由于京東商城新疆庫爾勒香梨有多個賣家,抓取數據時需制定翻頁循環列表,再選中每個賣家,進入香梨的詳細頁面。通過開發者工具選擇Network,查看JS文件。商品評論真實的URL 中包含兩個重要的信息,productId 和page,需通過隨機生成頁碼然后拼接URL 的方式采用Python 制定翻頁循環列表,循環抓取每頁評論信息。為了避免被反爬蟲封鎖,除了IP 代理,還需要對爬蟲進行偽裝,設置請求頭文件的信息和Cookie 內容。為了避免返回空值,每次請求設置1-2 秒的間隔。
商品評論數據含有大量重復,沒有價值的信息,比如默認評價,雷同復制的評價等。在進行分詞之前首先進行數據清洗,排除無效信息對數據分析的干擾。
進行數據評論文本挖掘時,分詞結果的準確性直接影響后續的情感分析。本文釆用Python 的中文分詞包“jieba”(結巴分詞),jieba分詞精度高達97%以上。采用jieba 分詞的精確模式。通過關鍵詞生成詞云,如圖2 所示。
LDA模型為一個三層貝葉斯概率模型,由詞組、主題、文檔構成。LDA 三層模型如圖4 所示,若干個隱含主題隨機組成一個文檔,而每個主題又由文檔中的若干個詞語表示。因此,可將每篇文檔代表為主題概率分布,而每個主題又代表詞項概率分布,如圖3 所示。
LDA 模型如圖4 所示,符號含義如下:M 表示文檔集的文檔總數,K 表示主題數,V 表示詞匯數,α 表示主題分布的超參數,β 表示詞項分布的超參數,θm 表示第m 篇文檔的主題分布,φk 表示K 主題下的詞分布,Nm 表示第m 篇文檔的詞總數,Zmn 表示第m 篇文檔中第n 個詞項的主題,Wmn 表示第m 篇文檔中第n 個詞語。把某一篇文檔用訓練好的LDA 模型進行預測,得到“文檔-主題”概率分布,將概率最大主題下的詞語擴展到短文本初始特征中,形成新的特征向量。

圖1:數據挖掘整體流出圖

圖2:高頻詞匯展示圖

圖3:詞語-主題-文檔關系圖

表1:香梨正面評價潛在主題

表2:香梨正面評價潛在主題

圖4:LDA 模型圖

圖5:香梨正面評價3 個主題及5 個主要詞概率

圖6:香梨負面評價3 個主題及5 個主要詞概率
把用戶評論分為兩部分好評和差評,分別經過LDA 主題分析后,評論文本被聚成3 個主題,每個主題下生成5 個最有可能出現的詞語以及相應的概率,表1 顯示了庫爾勒香梨正面評價文本中的潛在主題,表2 展示了庫爾勒香梨負面評價文本中的潛在主題。
根據對庫爾勒香梨3 個潛在主題的特征詞提取,主題1 中的高頻特征詞,即快遞,不錯,喜歡等,主要反映庫爾勒香梨快遞得到用戶滿意;主題2 中的高頻特征詞,即熱門關注點主要是水果特別好吃,新鮮等;主題3 中的高頻特征詞,即熱門關注點主要香梨的口味和物流等,消費者對新疆庫爾勒香梨還是比較滿意的。從部分差評的3 個潛在主題的特征詞提取關鍵詞。主題1 是部分香梨有壞,差;主題2 是客服態度不好,有公梨;主題3 是客服描述不一致。綜合以上對主題及其中的高頻特征詞可以看出,庫爾勒香梨優勢有以下幾個方面:口味好,包裝好,水分足。消費者對庫爾勒香梨抱怨點主要體現以下幾個方面:售后服務和部分香梨出現壞果等。
根據對京東平臺上庫爾勒香梨的用戶評價情況進行LDA 主題模型分析,我們對庫爾勒香梨提出以下建議
(1)在保持香梨口感味道的同時,注意香梨分級分類,提升品牌質量。
(2)注意冷鏈物流庫爾勒香梨的保存,減少出現壞果的概率,或者篩除掉壞果,保證質量。
(3)進一步加強售后服務,特別是出現分歧時,客服需要耐心友好的給消費者反饋。