劉占玉, 高榮芳
(西安石油大學 計算機學院, 西安710065)
隨著互聯網的發展,網絡購物幾乎成為人們最常用的消費渠道,然而不同類型的消費者、不同的購物網站、不同促銷活動和特殊日期等,都會影響消費者的購買意圖。 社會環境不同,使得消費者的購物需求出現了個性化和多樣化,如受新冠肺炎疫情影響,大部分消費者選擇網上購物。
在線購買領域,國內學者也做了很多相關研究。如:袁智慧采用實證研究的方法,來探究中UGC 不同形式的自我披露對消費者在線購買意愿的影響機理,并分析了產品熟悉度在其中的調節作用,不僅對自我披露理論的發展起到一定的補充和深化作用,也能給社會化商務平臺通過UGC 達到商家、消費者、平臺三方共贏的局面提供一定的決策支持[1]。盧美麗等人考慮在線重復購買強化效應,建立顧客重復購買通用模型[2]。 Verhagen 等人針對沒有研究檢查在線商店信念和消費者在線情感狀態之間的效果等級是否因產品類型而異。 研究通過檢查思考層次和感覺思考層次在解釋針對搜索產品與體驗產品的在線購買意向以及高參與度與低參與度產品的在線購買意向中的解釋能力[3]。 本文使用機器學習對電商平臺的顧客在線購物數據進行分析,幫助商家更好的預測并掌握消費者的購買意向。
隨機森林是Leo Breiman 把隨機子空間算法和集成學習算法相結合,最終得到了解決決策樹過擬合問題的隨機森林算法。 它是一種基于樹的分類器,由多棵決策樹構成對樣本進行訓練,并預測的一種分類器。 對于一棵樹,訓練樣本采用放回式,從總的訓練集中隨機采樣出來,而訓練樹的結點{G1,G2,…,Gn} 時,特征是從原有特征中按照一定的比例隨機地無放回式抽取的,類別的輸出是由各節點預測結果來決定最優的預測結果,如圖1 所示。
支持向量機是由Vapnik 等人根據統計學理論提出的一種新的機器學習方法,是通過監督學習的方式對樣本數據進行二分類的廣義性分類器,它主要尋找一個超平面對樣本數據進行分割,讓訓練集樣本中的數據恰好分布在超平面兩側。 分割原則是間隔最大化,最終轉化為一個凸二次規劃問題來求解[4]。 給定訓練數據集D ={ ( x1,y1) , ( x2,y2) ,…,(xm,ym)},其中xi∈χ =Rn,yi∈γ = { + 1, - 1},i =1,2,…,N,xi為第i 個特征向量,yi為xi的類標記。 它最基本的想法就是在訓練集D 的樣本空間中找到一個劃分超平面,將不同類別的樣本分開,其中樣本的劃分存在很多個超平面,找到一個最佳的分類超平面,如圖2 所示。

圖1 隨機森林Fig. 1 Random forest

圖2 支持向量機Fig. 2 Support vector machines
對線性不可分情況的SVM,選擇恰當的核函數K(xi,xj) 和恰當的參數C,構造并求解最優問題,如公式(1):

其中:ai為拉格朗日乘子,K(xi,xj) 為核函數,C 為懲罰系數。
支持向量機最終的判別函數,如公式(2):

樸素貝葉斯算法是結合貝葉斯原理和特征條件假設的分類方法。 有n 維特征向量X ={x1,x2,…,xn},類變量Y ={y1,y2,…,ym}。 根據樸素貝葉斯基本理論,其后驗概率,如公式(3):

樸素貝葉斯算法根據樣本的特征X,計算所有類別的概率,最終概率最大的類別即為該樣本所屬的類。P(X) 是不變的,在比較后驗概率時,只比較上式分子部分,得到一個樣本數據屬于類別yi的樸素貝葉斯計算方法,如公式(4):

本文實驗使用Anaconda 3 5.0.1 環境,UCI 網站公開的Online Shoppers Purchasing Intention Dataset Data Set 數據集,該數據集包含12330 個實例和18個字段,字段包括BounceRates(跳出率)、ExitRates(退出率)、SpecialDay(特殊日期)、Region(區域)、PageValues(頁面值)、VisitorType(訪客類型)等,其中Revenue 是類標簽。
實驗使用大部分樣本數據進行模型訓練,小部分數據進行模型預測。 使用清洗過的數據集建立隨機森林、SVM、樸素貝葉斯模型。 為了選出可靠的模型,每個模型都進行k 折交叉驗證,參數cv 設置為3、5、10,通過實驗驗證,得到效果最好是cv =5,即3個模型采用五折交叉驗證,結果如表1 所示。 支持向量機模型的參數c 表示懲罰系數,通過多次實驗取得c =10 的模型訓練效果最好。

表1 模型五折交叉驗證評估結果Tab. 1 Model 5-fold cross-validation evaluation results
采用準確率、召回率、F1 值、AUC 作為衡量性能的標準,在構建的在線購買意圖預測模型中,其性能評價結果如表2 所示。 從表2 中可以看出隨機森林比SVM 準確率、召回率、F1 值、AUC 分別高0.18、0.06、0.12、0.263,比樸素貝葉斯的分別高0.05、0.1、0.08、0.039,因此對在線購買意圖預測最好的算法是隨機森林。

表2 在線購買意圖預測模型性能評價指標Tab. 2 Performance evaluation index of online purchase intention prediction model
在線購買已經成為一種消費趨勢,文章使用機器學習中隨機森林算法、SVM 算法、樸素貝葉斯算法建立在線購買意圖預測模型,通過比較模型的準確率、召回率、F1 值、AUC,得到隨機森林算法更適合用于在線購買意圖的預測。 就此,電商網站可以通過網站消費者的行為數據預測用戶的偏好和購買行為,機器學習發揮了重要的作用,對提高產品購買銷售具有重要的意義。