瞿 娟, 郁舒蘭
(南京林業大學 家居與工業設計學院, 南京 210037)
各種各樣的網購平臺促使人們的消費方式從線下轉到線上,用戶評論數據呈爆發式增長。用戶會在購物平臺上發表大量有關產品、服務、物流等個人體驗的評價。用戶評論是消費者了解產品真實情況的重要途徑。目前,個性定制、個性服務已成為主流的趨勢,如何通過消費者的評論來挖掘產品的發展趨勢,將成為廠商盈利、擴大市場份額的重要手段。能不能迎合消費者的需求,引領產品的發展方向,將關系到一個企業的生死存亡。家具電商在新的商業模式下也面臨著艱難的挑戰。本文通過大量分析用戶在網購平臺上的文本數據,有效挖掘出有價值的信息,幫助家具行業在戰略、營銷或技術上尋找相應的變革機會和發展對策。
本文選取某購物平臺中的某款家具產品的用戶評論數據,使用現有的網絡爬蟲和文本分析技術進行分析。通過對評論數據的語義挖掘分析出用戶對家具產品的關注側重點,了解用戶對已購家具產品的態度和意見,進而幫助未購買用戶全方位了解已購買用戶對家具產品的評價,同時也幫助家具企業更好的掌握家具用戶的消費習慣和行為特征,把握自身產品的后續優化方向,并制定更加精準的營銷策略。以某購物平臺的一款折疊桌作為實例,對如何設計爬蟲程序獲取信息,及對獲取的信息快速分析進行了深入探討與研究。
網絡爬蟲程序的開發成功取決于程序是否能夠實現用戶定制功能,達到預期設計目的。本次研究即以某購物平臺的一款折疊桌為例,通過爬蟲對當前此款折疊桌的商品評論詳情做出科學分析,而受技術、數據庫以及服務器的限制,該購物網站只能顯示前100頁內容,故而針對此情況只能從天貓網站中獲取該款折疊桌的前100頁的商品評論內容和評論日期,在程序設計中,具備了較強的針對性。
(1)爬蟲程序設計思路。首先,需要獲得所有該款折疊桌網頁的源碼;其次,在網頁源碼中尋找出與需求相匹配的信息,此時就需要連接爬蟲系統和數據庫,將每次成功匹配到的信息均存入數據庫中,直至所有網頁檢索完畢。在數據爬取的過程中,針對天貓網站的高度反爬,還要引入適當的反扒策略,以此保證數據爬取的連續性[1]。爬蟲程序的流程如圖1所示。

圖1 爬蟲程序的流程框架
(2) 網頁抓取。網頁抓取是爬蟲程序中最重要的部分,由于同一個IP 在短時間內的多次爬取,會被網站屏蔽,因此采用代理IP技術去訪問,還需要加入 User Agent 將自己偽裝成代理服務器。通過構造代理IP,每次隨機選擇訪問 IP與用戶代理的搭配,將自己偽裝成來自不同IP 的用戶訪問,大大降低了被反爬蟲的概率。
(3)網頁源碼分析。在提取好第一層URL 的源碼后,分析當前文本,尋找用戶需要的關鍵信息,根據用戶的需求,還需要了解每一類工作的名稱與對應網頁鏈接,通過對 Elements 的尋找,發現每一個商品評論都位于 < div class=”tm-rate-fulltxt”> 標簽中,每一個評論日期都在 < div class=”tm-rate-date”> 中。將所有的商品評價存入 rateContent 列表,將所有的評價日期存入與rateContent 列表對應的 rateDate 列表。
(4)信息獲取。使用requests 庫實現當前網頁解析,同樣也可以運用代理 IP 加上用戶代理池隨機選擇與搭配的方法以便能夠更加流暢地爬取信息。網頁解析JSON格式數據,將獲取到的頁面數據轉換為字典類型。
(5)MongoDB數據庫的聯合使用。某購物網站上的這款折疊桌的用戶評論的信息相對來說是一個比較大的數據,MongoDB 數據庫開源,易操作、并且速度、可靠性以及適應性,因此選擇 MongoDB 數據庫對爬取的數據進行存儲。使用 MongoDB 8.0,并通過pymongo 庫去對數據庫進行操作,在程序開端,利用API 建立數據庫的鏈接。
提取網頁分析信息主要包括評價日期、評價內容和顏色分類,將這些數據導入所創建的數據庫的表中,為下一步的用戶評價分析奠定基礎。本文利用數據庫可視化工具 STudio 3T 展示部分爬取數據如圖2所示。
利用網絡爬蟲程序從某購物網站上爬取了2019年10月18日11:43至2019年12月13日14:35的所有用戶評論(共有9003條)數據,采集的內容包括用戶評論的發布時間、評論內容、顏色分類等,研究與分析折疊桌的數據研,對用戶、家具行業、產品設計師可起到一個初步指導的作用。
通過 Jieba 對讀取到的文本數據分詞處理,利用現有的停用詞詞典對評價內容進行清理,去除對句子理解無意義的詞,此時可對處理過后的文本數據進行分析。通過 TF-IDF算法提取關鍵詞,再采用共現分析技術進一步挖掘這些主題詞的聯系,獲取共詞矩陣。
隨著家具行業網購的人數每年不斷上升,各個家具品牌店都紛紛建立屬于自己的線上銷售模式,用戶評論數據也大大增加,在這種激烈的行業競爭環境下,如何通過研究激增的用戶評論數據分析用戶的關注點和行為特征從而改進產品、服務質量即已成為研究的熱點與焦點。

圖2 折疊桌的部分用戶評論爬取數據截取
研究可得,大部分的購買人群比較關注折疊桌的質量、快遞、穩定性、包裝、外觀、顏色、功能等,見表1。因此后續折疊桌在改良或迭代更新時需要考慮上述方面的問題。至于“床上”一詞則表明用戶經常在床上使用該款折疊桌。“結實”一詞則說明用戶普遍認為該款折疊桌較結實。

表1 天貓折疊桌的網購評論中的高頻次關鍵詞(前20)
分析高頻次關鍵詞的詞頻統計,可以清楚知道該領域中的研究熱點。然而,僅僅依據關鍵詞的出現頻次排列,并不能理清這些高頻關鍵詞之間的聯系,因此采用共詞分析的方法來進一步挖掘這些主題詞之間的聯系,見表2。研究可得,“質量”、“物流”與折疊桌有較密切的聯系,為購買人群比較關注的方面。

表2 天貓折疊桌的網購評論中的共詞矩陣
本文設計了一個基于某購物網站中某款折疊桌的用戶評論的網絡爬蟲數據采集程序,該程序能夠登錄網站獲取頁面信息,分析頁面中的 URL鏈接,同時對篩選構造后的URL 鏈接再一次進行數據篩選,將用戶獲取到的數據存儲到數據庫,在此基礎上將對數據進行深層次的挖掘,即運用一系列的文本數據分析手段,獲得關于折疊桌的用戶評價中潛藏的一系列重要信息。用戶對該折疊桌的關注點主要集中在質量、穩定性、外觀、顏色、功能、材質等產品特征上,除此以外還有對快遞、包裝、物流等服務上也存在較大的關注度。而用戶關注的這些產品特征大部分都是折疊桌的產品賣點。因此折疊桌在下一輪的產品迭代研發中,需要加強自身產品的特色,在質量上嚴格把關,與此同時還需要重新設計包裝,并加強工人在包裝時的監督管理,確保線上的用戶群體在實際收到產品時不會出現破損、污漬等問題。此外,折疊桌的用戶群體對于價格并不看重,因此后續可以向較高品質上發展。進一步分析用戶對該款折疊桌的潛在需求為:該折疊桌的品質需要進一步提升,能更加結實;對于價格上有較高的追求,不能接受便宜又廉價的產品,可向高品質方向發展;功能上無需多樣化,能滿足折疊桌的基本功能即可,折疊起來的過程流暢、不卡頓;優化其外觀,即從顏色等角度出發;包裝上要更仔細,不能在運輸途中產生破損、污漬;放置在床上或其他地方時要具備較強的穩定性;在物流服務上,能加快發貨速度;在客服服務上,買家在發現貨物出現問題時,客服要第一時間處理,安撫購買者的情緒,維護品牌形象,做好售后服務,不可言語激烈,發生不可調和的矛盾等。