楊國勝,郭貝貝
?
機器學習增強的電子商務平臺用戶行為預測
楊國勝,郭貝貝*
(中央民族大學,北京 100081)
黨的十九大報告指出,要“推動互聯網、大數據、人工智能和實體經濟深度融合”,這為電子商務發展指明了方向,如今以淘寶、京東為代表的電商品牌給消費者帶來巨大方便、高效的消費模式,同時運營成本相較于實體經濟更低。隨著機器學習的發展,利用海量用戶消費數據,結合數據挖掘、深度學習等先進算法,精確分析用戶購買、退貨等行為從而使得電子商務平臺體驗升級吸引更多客戶量以及購買量。本文研究了基于不同數據挖掘及學習算法的用戶行為預測系統的關鍵技術,在此基礎上介紹了一種新穎的基于深度學習的電子商務平臺用戶行為預測技術,使得預測結果更為精準,接近消費者真實想法,以期為電子商務的發展提供一定的參考和借鑒。
機器學習;電子商務;用戶行為預測;在線電子支付
電子商務通常是指一種新穎的在互聯網開放的網絡平臺上,消費者基于瀏覽器/服務器應用方式進行各種商貿活動的商業運營模式。消費者在此平臺上可實現無需與賣家面對面的網上購物、交易和在線電子支付。從2013年開始,越來越多的電子商務企業更加注重通過使用互聯網為用戶提供優質的服務,并隨著電子商務越來越普及,更多人選擇在其上進行交易,因此,存在著龐大客戶購買行為數據信息等,更重要的還有消費者的評價以及反饋意見。因此,如何利用這些數據信息分析挖掘所蘊含的用戶行為規律,從而應用于客戶購買行為預測成為研究熱點之一。準確把握客戶購買行為,能夠精確識別和定位潛在客戶群體進行,將瀏覽者變為購買者,有著極其強的現實意義和經濟價值。
電子商務客戶的購買行為預測是指根據消費者歷史訪問點擊操作、服務器日志、瀏覽記錄以及商品反饋信息中所蘊含的行為規律,對在線客戶購買傾向進行實時預測的行為。因此,可針對客戶推薦商品、制訂營銷策略以及決定平臺商品的進貨量與出貨量。
20世紀90年代,研究者就開始對大量網絡數據進行挖掘和研究,國內還專門成立數據挖掘研究機構來分析客戶的購物行為。隨著電子商務的普及,越來越多方法被提出應用到客戶行為分析預測中,如決策樹方法、貝葉斯分類算法、支持向量機、神經網絡方法及時間序列預測方法等。它們大都以數據驅動,從消費者個人信息、商品、消費行為等多種信息中篩選出主要因素并設計特征,利用機器學習算法對篩選出的數據進行模型訓練,以訓練好的模型預測消費者購買可能性最大的商品。
機器學習的本質是通過算法在眾多的假設空間中找到一個最優的假設,預測方法是對數據從不同角度進行分析,預測方法以及處理的數據不同,客戶行為預測的效果也不同,對于特定的學習問題都有與其相匹配的較合適的算法。而在現實生活中,并沒有一個算法可以在任何領域里學習出準確的模型。通過集成多個單一算法的學習結果形成新的組合模型,從而提高算法最終學習準確率的做法越來越流行。使用何種方法來集成算法對于提高融合后最終算法的準確率至關重要。
在電商平臺中,平臺往往需要對客戶網購行為進行分析及預測。電子商務平臺以所具有的客戶信息數據庫為基礎,完成對客戶網購行為的實時及針對性預測,從而體現了對客戶行為的智慧化預測。因此,作為一套完整的預測模型系統,首先需要利用數據挖掘、機器學習、統計學等方法進行知識的發現,對數據進行特征提取。以此為基礎,構建作為知識指導的知識存儲與表示的客戶網購行為知識庫,進而建立從數據輸入到預測行為的系統體系。主要研究內容如下。
從電子商務交互系統中抽取交互日志,準備與消費者行為分析預測相關數據;進行數據預處理,包括數據清洗、填充缺失值和去除異常值,保證數據的唯一性,從而為實現消費者行為預測提供良好的基礎保障。
基于原始數據,進行提取用戶行為購買特征,根據不同分類方法可將特征分成原始和拓展、靜態和動態,或者將兩種或以上類別的特征合成一個新的特征。
要得到良好的預估效果,數據和特征很大程度上決定了模型預估的上限,因此,如何構建適合的特征是為實現用戶行為分析提供良好保障的關鍵因素。
預測模型的準確性是保障消費者行為預測分析的關鍵,目前雖然有很多預測模型,但都遠遠達不到真實情況下的準確性要求。如何利用消費者靜態或動態數據的分析進行準確預測消費者行為是極其關鍵的技術。
由于電子商務具有數據量大、處理復雜等處理難點,目前,沒有一種模型能夠完全解決所有問題,絕大部分研究還是定性分析影響因素、構建理論模型。傳統大多采用基于Logistic回歸的方法,但其本質是一個線性分類模型,對輸入有很高的要求,比如要求目標對象是線性可分的,但在實際中提出來的特征關聯性強,且存在復雜的非線性關系。再者就是Badding和隨機森林方法,它們的性能都或多或少受到限制。為此,我們提出一種基于深度學習的消費者購物行為分析方法,如圖1所示。
深度學習的概念由Hinton等人于2006年提出,屬于機器學習研究中的一個新的領域,為了解決神經網絡易陷入局部最小和學習能力受限的問題,借助“逐層貪婪學習”的思想,通過學習更深層次的非線性網絡,并從中選取有助于機器學習的更加有效的特征,可以預測出更加精準的結果。本質是對數據的表征學習,目標是尋求更好的表示方法,并創建更好的模型,從大規模未標記數據中學習這些表示方法。 基于深度學習的消費者購物行為分析工作流程主要分為以下4個步驟。
2.4.1 準備并處理數據集
包含用戶交互信息采集、數據清洗等。
2.4.2 特征構建
分為特征選擇、劃分樣本訓練集和測試集、特征處理三個階段。特征選擇是構建預測模型的關鍵,即從大量數據集中挑選對分類極為重要的特征集,進而提高模型預測精準度,縮短運行時間。因不同維度選擇出的特征量綱和單位不統一會影響評估特征的權重,進而影響模型的預估效果,因此,需進行特征管理來進行歸一化處理。
2.4.3 設計預測模型并訓練
選擇基本模型框架為卷積神經網絡CNN+循環神經網絡RNN,并在其基礎上對數據的負樣本進行隨機抽樣、調整網絡層數、確定損失函數、設計學習率等超參數;將模型輸出誤差通過BP算法反向傳播,利用隨機梯度下降SGD或Adam算法優化模型參數。
2.4.4 模型驗證
利用未訓練的數據驗證模型的泛化能力,如果預測結果不理想,則需要重新設計模型,進行新一輪的訓練;至今已有數種成熟的深度學習模型,包括深度神經網絡DNN、卷積神經網絡CNN和深度置信網絡DBN和遞歸神經網絡RNN等。這些在機器視覺、自然語言處理、生物信息學、語音識別等領域得到廣泛應用,并取得顯著效果。
消費者行為預測是目前在電子商務中極具前瞻性的研究領域,隨著人工智能深度學習模型的深入研究,極大提升了消費者行為預測準確率。但是由于深度學習具有的黑盒特性,難以對消費者行為預測的特征提取過程進行定性研究,為此,仍需要進一步加強對深度學習模型的可視化技術研究,提高學習模型的可靠性分析,并在可解釋性的基礎上進一步提高消費者行為預測準確度。
[1]劉建,孫鵬,倪宏.基于神經網絡的用戶興趣度估計[J].計算機工程,2011,37(07):187-189.
[2]李美其,齊佳音.基于購買行為及評論行為的用戶購買預測研究[J].北京郵電大學學報(社會科學版),2016,18(04):18-25.
[3]胡東波,肖璇,周錦.基于數據挖掘的移動電子商務用戶群體特征分析[J].科技管理研究,2013,33(09):222-226.
[4]Kuo R J,LIAO J L,TU C.Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J].Decision Support Systems,2005(40):355-374.
[5]Wei C P,Chiu I T.Turning telecommunications call details to churn prediction:A data mining approach[J].Expert Systems with Application,2002,23(02):103-112.
*本文作者為人工智能開放創新平臺(chinaopen.ai)聯合學者
2095-6835(2019)01-0124-02
F724.6
A
10.15913/j.cnki.kjycx.2019.01.124
〔編輯:張思楠〕