林倞夷 孟健 龐有俊
摘 要:本文對消費者購車評價數據進行機器學習建模與訓練,實現消費者購車性價比實際認知指標的預測和影響因素優先級評估。從而指導整車制造企業通過平衡價格、汽車各項性能指標的方式提高消費者對新車的性價比認知指標,提高新車銷量。
關鍵詞:機器學習;消費者性價比認知;分類預測;汽車性能因素分析;消費者研究
1 引言
2012年后,我國汽車消費者市場逐漸回歸理性,面對日益激烈競爭和消費者更加個性化需求,給汽車產業帶來了新的挑戰。運用科學的調研方法和研究手段,深入了解消費者需求,制定精準的產品策略和價格策略,成為越來越多整車制造企業關注重點。本文重點研究如何運用機器學習方法,將消費者對汽車性價比認知指標進行分類預測,從而指導、建議更多企業在產品規劃、定義、價格制定階段,通過定量平衡價格、優化各汽車性能要素的方法,提升消費者對汽車的性價比實際認知,增加汽車銷量。
2 關于消費者性價比認知指標
購車性價比,是一個性能與價格之間的比例關系,這個指標可以通過科學的量化和計算獲得,侯仁勇(2007)曾經提出過我國家用轎車的評價比模型,他認為性價比的主要性能指標包括:質量穩定性、價格合理性、安全性、乘坐舒適性、耗油量、售后服務、外形美觀、操作方便等。
然而在經濟學中,很多問題的特征都是多元的,當我們使用模型去計算時,可能呈現非線性表達,而線性模型可能難以滿足現實世界的復雜性要求。
消費者對汽車性價比的實際認知指標,來源于消費者調研數據,與經過科學計算公式計算而來用于指導消費者的性價比公式而言,消費者還會受自身心理以及價值評判標準影響。
3 消費者性價比認知與汽車銷量的關系
為了探討消費者性價比認知指標的價值,本文選取了10-20萬區間的汽車品牌,這些車型數據分別包括朗逸、寶來、速騰、凌渡、思域、卡羅拉、軒逸、福克斯、雷凌、馬自達、高爾夫、Polo,數據來源包括網上評價信息和線下問卷調研信息匯總。分別對不同品牌的車型的銷售量進行分析,我們發現銷量與消費者對汽車性價比實際認知值成正相關。這讓我相信提升汽車在消費者心中的性價比指數,對于銷量提升有著正向積極的促進作用,見圖1。
而消費者口碑價比指數,通常難以被測算,大多通過消費者調研來獲得,這往往需要大量的人力成本和時間周期。我們也可以通過將消費者性價比指數與其他因素建立相關機器學習模型,從而進行預測。
4 機器學習技術在汽車類產品消費者研究工作中的應用和作用
機器學習是一門人工智能的科學,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科進行建模,使用實際場景下數據進行訓練,相比于富有經驗的人類分析結果,更容易幫助人們發現隱藏在事物中的特征和規律,也不容易受到人類主觀因素影響,對于消費者調研研究工作,具有很高的參考和應用價值,其作用在于:
(1)在開展消費者調研之前進行預測,便于定義調研范圍;(2)幫助研究人員預處理數量龐大的調研數據,發現隱含在海量調研數據中的價值,便于進一步分析研究;(3)調研后對調研結果進行分析,發現異常調研數據,并進一步挖掘調研數據價值;(4)在周期較短、缺乏足夠調研條件的情況下,可以進行粗略的輔助判斷。
目前機器學習技術已經被廣泛應用于處理網絡用戶評論和反饋數據,蘇翔(2015)基于機器學習方法實現購物網站用戶反饋信息聚類,便于工作人員快速捕捉重要的反饋信息。沈敏(2015)針對大數據環境下高校圖書館檢索系統的信息超載問題,提出一種機器學習方法,為用戶提供個性化的偏好檢索服務。
5 本文研究方法實現
為了預測消費者對各款車型的性價比評價指標,選取相關因素進行分析,這些因素包括:價格、空間、動力、操控、油耗、舒適、外觀、內飾,而這些數據指標的獲取均來自消費者評價調研。我們假設富有經驗的汽車研發人員也具備評價這些因素的能力,這樣當我們完成預測模型后,可以幫助研發人員預判消費者對于汽車的性價比實際認知值,幫助他們針對下一步的調研研究工作縮小調研范圍。
5.1 數據選擇
A、獲取了100組來自于用戶口碑評價數據,這些數據的汽車款型銷量分布在10-20萬這個區間,這樣同一批訓練樣本中不會出現品牌價值差異很大的車型。
B、為了保證評價指數能夠真實客觀反映消費者認知(不受個別消費者特殊情況影響),選取每種汽車款型評價數總次數大于50次的數據,取其均值。(實驗過程反應出低于50人次的評價容易形成臟數據干擾模型)
C、這些車型包括品牌: 朗逸、寶來、速騰、凌渡、思域、卡羅拉、軒逸、??怂埂⒗琢?、馬自達、高爾夫、Polo。這樣對于不同品牌汽車款型的數據選取,也便于我們通過模型訓練出的效果判斷在同一價格區間內,品牌是否對消費者口碑性價比指標產生影響。
D、數據類型上,選擇進行消費者口碑性價比指標預測的因素及其取值范圍如表1:
價格取值范圍:10-20萬;
空間、動力、操控、油耗、舒適、外觀、內飾:1-5,精確到小數點后2位;
口碑性價比:1-5,精確到小數點后2位;
其中,價格我們選擇市場指導價,這和整車制造企業制定價格策略時的價格相吻合;
5.2 數據預處理準備
A、正負樣本分配:保證正負樣本比例為1:1,就目前獲取的口碑性價比數據而言,大多集中在3-4.9之間,現在取4.4-5為正樣本,其余為負樣本進行而二分類。如果遇到樣本出現更多類別,可在完成第一次而分類訓練后,對負樣本繼續進行正負樣本劃分;
B、數據分組:將這100組數據分成8:2的比例,其中80%用于訓練模型,隨機選取的20%用于測試模型輸出的準確度。
5.3 數據降維處理
我們使用Matlab進行數據處理和模型建立與訓練。Matlab是一種用于算法開發、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環境。
將處理好的數據存入Excel,然后使用Matlab軟件導入進行數據的處理和機器學習建模與訓練。使用主成分分析方法(PCA),對多維數據進行降維度,取前兩維特征向量(K=2)。
獲得PCA后的8維特征,每個維度影響度排序如下:
3.8196, 0.2983, 0.1353, 0.0861, 0.0746, 0.0406, 0.0286, 0.0406, 0.0286, 0.0172
其中,前兩維特征,占所有特征貢獻值的90.1%。我們取降維后的前兩維數組,基本上可以體現數據的絕大部分特征。這樣降低數據計算速度同時,也使我們的模型更加簡單,利于可視化分析。
5.4 數據建模與訓練
將數據進行主成分分析后針對前兩個特征進行SVM分類預測,使用Matlab的SVM工具箱可直接獲得分類結果,在這里我們使用核函數進行非線性分類,kernel_Function取高斯徑向核函數(rbf),其公式如下:
訓練前后后的數據可視化情況如上圖所示,正負樣本被特征空間存在的超曲平面分開。
5.5 模型的測試
訓練集上準確率達90.80%,在測試集合上準確率達87.5%。
5.6 利用訓練完成的模型,嘗試對各項影響因素進行分析
不同因素對性價比的影響不同,我們分別減少某個因素之后,重復SVM模型建立過程,觀察預測分類模型準率度變化,從而分析各因素對特征值的貢獻度,進而用于評價各個因素對于汽車性價比因素影響的重要程度,我們發現如下情況:
分別去除各個影響因素后再次以相同方法建立模型,發現模型輸出預測結果都有不同程度出現準確率下降的情況,其準確度和下降情況如下列表2所示;
(1)針對這個結果我們總結出如下規律:
(2)我們發現該模型對其他價格區間的數據不起作用;
(3)10-20萬價格區間的汽車款型里,去掉價格因素,模型準確率也明顯降低 ;
(4)在性能因素中,動力對口碑性價比影響最大,其次分別是內飾、操控、空間、友好、舒適性,而外觀對該模型的影響基本上很小。
關于選取汽車價格段分析:
(1)上述模型選用了不同品牌(自主、合資)的數據進行建模,在評價數據量足夠大情況下,出現了較好的分類能力,證明在同一價格區間,大多數品牌對性價比的影響力不高。
(2)而對于上述結論出現了一些意外情況,我們發現分類中容易出錯的車型比較多集中在大眾這個品牌(經常實際性價比評價指標比分類的要高),有可能這個價位區間的這個品牌對消費者性價比考察產生了一些心理影響。
(3)使用價格區間高于10-20的汽車口碑指標輸入該分類預測模型,預測的準確率明顯降低,這說明品牌價值因素對消費者認同的性價比指標是有很大影響的。
5 結語
借助機器學習方法,我們可以應用消費者調研數據訓練預測模型,指導整車研發過程,平衡價格和汽車性能指標,以提升消費者對汽車的性價比實際認知。同時,通過訓練完成的模型,我們同樣可以進行影響因素分析,判斷哪些是我們決策指標的關鍵影響因素,這有助于幫助我們發掘數據中隱藏的規律,對我們的調研研究和產品策略進行指導。
參考文獻:
[1]侯仁勇,蘇艷麗.我國轎車性價比評價模型[J].價值工程,2007,(1):77-78.
[2]蘇翔.基于機器學習方法實現購物網站用戶反饋信息聚類[J].信息與電腦(理論板),2015,(15),42-44.
[3]沈敏,楊新涯,王楷.基于機器學習的高校圖書館用戶偏好檢索系統研究[J].圖書情報工作,2015,(11),143-148.