基于線性回歸和神經(jīng)網(wǎng)絡(luò)模型的二手車交易價格預(yù)測分析

2023-09-21 15:49:02鄭愛萍李彬彬郭傳好

智能計算機與應(yīng)用 2023年9期

鄭愛萍，李彬彬，郭傳好，2

（1 浙江理工大學經(jīng)濟管理學院，杭州 310018； 2 浙江理工大學浙江省生態(tài)文明研究院，杭州 310018）

0 引言

中國汽車流通協(xié)會數(shù)據(jù)資料顯示，二手車市場的年交易量從2000 年的25 萬輛增加到2021 年的1 769萬輛，21 年間增長了約70 倍，市場發(fā)展和需求潛力巨大。 2022 年1 月21 日國家發(fā)展改革委等七個部門聯(lián)合發(fā)布了“促進綠色消費實施方案”，該方案指出要積極發(fā)展二手車經(jīng)銷業(yè)務(wù)，進一步擴大二手車流通。二手車因其“一車一況”的特殊性，比一般的商品定價要復(fù)雜和困難，如品牌、車系、動力、行駛里程、受損情況、維修情況以及新車價格都會對二手車價格的制定帶來影響，國家目前亦沒有出臺評判二手車資產(chǎn)價值的統(tǒng)一標準。因此，研究二手車的不同定價模型及價格預(yù)測方法，對于二手車市場價格的合理制定和二手車市場的健康發(fā)展具有重要的意義。

二手車定價方法的研究成果不多，且主要集中于傳統(tǒng)的資產(chǎn)評估方法。馮秀榮等［1］利用分析法得出影響二手車價值的重要因素是使用時間和里程；童佳等［2］指出二手車評估和傳統(tǒng)資產(chǎn)評估的方法一樣，根據(jù)不同的評估目的、價值標準和業(yè)務(wù)條件可分為收益現(xiàn)值法、重置成本法和清算價格法；王傳杏等［3］基于特征價值理論，利用多元線性回歸建立了特征價格評估模型；程曉軍［4］重置成本法中對成新率的權(quán)重系數(shù)，對二手車價格進行了更為全面的評估。

隨著大數(shù)據(jù)和機器學習的快速發(fā)展，相關(guān)的數(shù)據(jù)分析和統(tǒng)計預(yù)測方法亦被越來越多的學者應(yīng)用于經(jīng)濟管理問題的研究之中。林建吾等［5］利用輕量化卷積神經(jīng)網(wǎng)絡(luò)對番茄病害進行圖像識別；丁飛等［6］基于神經(jīng)網(wǎng)絡(luò)模型對房價進行預(yù)測；Pudaruth［7］研究了品牌、車型、容積、公里數(shù)等多個因素與價格的關(guān)系，應(yīng)用了包括k 近鄰、多元線性回歸和決策樹模型對毛里求斯的汽車價格進行預(yù)測；Gegic 等［8］建立了一個預(yù)測波斯尼亞和黑塞哥維那的二手車價格預(yù)測模型，分別使用了人工神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林3 種機器學習技術(shù)，該模型具有較好的預(yù)測效果，但模型的訓練僅基于1 105個樣本，模型的普適性有待提高；毛攀等［9］基于BP 神經(jīng)網(wǎng)絡(luò)建立了二手車價格評估模型，模型的可靠性與樣本數(shù)量關(guān)系重大；鄭婕［10］提出了基于隨機森林和XGBoost（eXtreme Gradient Boosting）算法的二手車價格預(yù)測模型，但該模型是基于啟發(fā)式算法，得到的定價解為局部最優(yōu)而非全局最優(yōu)；Arefin［11］采用決策樹、支持向量機等機器學習方法對特斯拉二手車汽車進行研究，結(jié)果表明增強決策樹模型的預(yù)測效果最好；F Wang 等［12］使用Python中的自動特征處理工具與超參數(shù)優(yōu)化方法對不同機器學習算法進行訓練，發(fā)現(xiàn)使用極端學習樹與隨機森林算法訓練的模型預(yù)測能力較好。

中國關(guān)于二手車交易價格預(yù)測的相關(guān)研究成果相對較少，存在模型特征量選擇少、數(shù)據(jù)樣本信息不足等問題。本文深入分析探討影響二手車交易價格的因素，建立二手車交易價格的多元線性回歸預(yù)測模型和神經(jīng)網(wǎng)絡(luò)模型；為了改進模型的預(yù)測性能，同時利用自然對數(shù)對原數(shù)據(jù)進行數(shù)據(jù)處理，進而建立相應(yīng)的預(yù)測模型。為了評估不同模型的預(yù)測性能，基于58 同城二手車交易平臺部分數(shù)據(jù)進行了相關(guān)的數(shù)值測試分析，結(jié)果表明經(jīng)過自然對數(shù)處理數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)模型具有較好的預(yù)測結(jié)果，對于二手車交易市場中價格的制定和預(yù)測以及二手車交易市場的健康發(fā)展具有重要的指導意義。

1 數(shù)據(jù)來源與分析

1.1 數(shù)據(jù)來源

本文利用的樣本數(shù)據(jù)采集于2021 年58 同城二手車交易平臺的30 000*36 的數(shù)據(jù)量，數(shù)據(jù)主要包括車輛基礎(chǔ)信息、交易時間信息、價格信息等，共計36 個特征變量，有15 個變量AF1-AF15 匿名變量，相關(guān)變量字段的信息見表1。

表1 數(shù)據(jù)集特征信息Tab. 1 Feature information of dataset

1.2 數(shù)據(jù)分析

為了便于對數(shù)據(jù)的理解和方便建模，本文對數(shù)據(jù)集的每個特征變量及數(shù)值含義進行簡單的解釋和說明，發(fā)現(xiàn)汽車的“展銷時間”與交易價格之間沒有顯著的關(guān)系，但“注冊日期”和“上牌日期”與“二手車交易價格”之間有較明顯的正向關(guān)系；在對“展銷時間”和“注冊日期”兩列特征數(shù)據(jù)進行處理后，發(fā)現(xiàn)車輛的“使用時間”與“二手車交易價格”亦是直接相關(guān)的，與一般的交易情況亦是符合的，4 個特征變量與交易價格的關(guān)系圖如圖1 中所示。

圖1 汽車上牌，展銷，注冊及其使用時間與二手交易價格的關(guān)系圖Fig. 1 Diagram of relationship between licenseDate， tradeTime，registerdate， unsetime and price

本文使用的數(shù)據(jù)集中還包含15 列匿名特征，其中“匿名11”特征下的數(shù)據(jù)為字符型數(shù)據(jù)，無法準確判斷其性質(zhì)特征，為了減少不正確變量選擇對模型效果的影響，故對“匿名11”特征及其數(shù)據(jù)進行刪除處理。 “匿名12”是一組表示為長*寬*高的數(shù)據(jù)，將其理解為車輛外觀尺寸的表達形式，車輛的大小與車長和軸距有關(guān)，且在未知軸距的情況下，可將車長作為區(qū)分車輛大小的重要指標。為了數(shù)據(jù)處理和建模的方便，基于數(shù)據(jù)集本文將車輛區(qū)分指標劃分見表2，同時將相關(guān)數(shù)據(jù)均轉(zhuǎn)換為數(shù)值型數(shù)據(jù)。

表2 車輛大小指標與數(shù)據(jù)賦值Tab. 2 Vehicle size indicat or and data assignment

對數(shù)據(jù)缺失值進行檢查分析，檢查結(jié)果如圖2所示，橫坐標為其在整個數(shù)據(jù)集中所占的比例，縱坐標為含有缺失值的特征名稱，黑色部分表示該特征中所含缺失值的計數(shù)，本文以缺失值占比20%為分界線，即缺失值在整體數(shù)據(jù)中占比超過20%，則將該特征刪除，否則使用該特征下數(shù)據(jù)的平均值對相關(guān)缺失值部分進行補充，即對缺失過多且會影響數(shù)據(jù)細節(jié)的缺失值進行剔除，對含缺失值較少的特征，在保證數(shù)據(jù)細節(jié)不受影響的前提下使用相關(guān)數(shù)據(jù)進行補充，如均值插補等，避免大量剔除缺失數(shù)據(jù)導致數(shù)據(jù)量不足。

圖2 含缺失值的特征及其缺失值占比Fig. 2 Features with missing values and the proportion of missing values

此外，本文使用箱形圖分析數(shù)據(jù)集的離散情況，并判斷數(shù)據(jù)集中是否存在離群點（異常值）。異常值的處理以“二手車交易價格”為重點特征，即在“二手車交易價格”這一特征中存在異常值。為了提高所建立模型的普適性，在對異常值處理時本文允許存在離群程度不大的異常值，但對極端異常值所在行進行剔除，相關(guān)結(jié)果如圖3 中所示。

圖3 二手車交易價格箱形圖Fig. 3 Box plot of transaction price

二手車交易價格分布直方圖和自然對數(shù)處理后分布直方圖如圖4 所示。由圖4（a）可知，此時二手車交易價格數(shù)據(jù)分布呈現(xiàn)一個近似正偏的正態(tài)分布；如圖4（b）所示，為了降低數(shù)據(jù)分布不規(guī)范對建立模型結(jié)果的影響，利用自然對數(shù)對二手車交易價格數(shù)據(jù)進行變換處理，進而可得到一個數(shù)據(jù)分布較規(guī)范的二手車交易價格數(shù)據(jù)集。

圖4 二手車交易價格分布直方圖和自然對數(shù)處理后分布直方圖Fig. 4 Histogram of transaction price and its nature longarithm

對初始數(shù)據(jù)集預(yù)處理，最終得到一個29319*28 的數(shù)據(jù)集，其中對該數(shù)據(jù)集的描述性統(tǒng)計分析結(jié)果見表3。

表3 二手車交易數(shù)據(jù)的描述性統(tǒng)計結(jié)果Tab. 3 Descriptive statistics of transaction dataset

首先，在數(shù)據(jù)集中一部分特征的數(shù)據(jù)屬于分類賦值的離散數(shù)據(jù)，但無法得知其確切的含義，如假設(shè)“品牌”與“二手車交易價格”是正相關(guān)的，可以得出：當“品牌”的數(shù)值越大時，“二手車交易價格”也就越大，但由于不知道特征“品牌”數(shù)值的具體含義，沒辦法對這組關(guān)系進行更深入的分析，故而在模型的建立與求解中雖仍將這部分特征引入模型，但不再分析其結(jié)果的具體意義；其次，本文視里程和使用時間為汽車的使用程度，其他幾個特征視為汽車自身的情況，在汽車使用程度中平均行駛里程為7.20 個單位，最大行駛里程為44.74 個單位，即大部分車輛的使用程度都較低，其平均使用時間為2 114.26 天，結(jié)合平均行駛里程可知，展銷的二手車具有里程短，使用時間長等特點，符合二手車的商品特征；再次，平均過戶次數(shù)為0.51 次，且至少50%的車輛都未經(jīng)過過戶，說明在這些展銷的二手車中大部分都是新車購車車主將該車輛作為二手車轉(zhuǎn)售的，平均載客人數(shù)和平均車輛大小均說明展銷的二手車主體是更經(jīng)濟適用的中等大小、可載客5 人的車輛；最后，平均新車價格為26.76萬元，但平均二手車成交價格為12.85 萬元，跌幅明顯，即汽車作為不保值商品，在二次售賣時價格會有較大幅度的下降，從新車價格分布中可以看出，大部分展銷出售的二手車在一開始購買時75%的汽車新車售價為35 萬以下，即二手車交易市場的流通主體是售價偏大眾的經(jīng)濟型汽車。

2 建模與分析

為了建立二手車價格的預(yù)測模型，本文先對數(shù)據(jù)集中的28 個特征進行了相關(guān)性分析，并給出相關(guān)系數(shù)熱力圖，如表4 和圖5 中所示。表4 給出了與二手車交易價格呈現(xiàn)相關(guān)性最大的前8 個特征變量及其相關(guān)系數(shù)大小，可知新車價格對二手車交易價格的影響最為顯著，相關(guān)影響系數(shù)為0.810 1；其它對二手車交易價格影響較大的特征是排量、匿名12、匿名2、匿名8、年款、廠商類型及使用時間，其中使用時間對二手車交易價格的影響呈現(xiàn)負相關(guān)性。圖5 中各個特征變量標簽的釋義見表1，越靠近藍色代表正相關(guān)性越強，越靠近紅色則代表負相關(guān)性越強，即顏色越深的區(qū)域的相關(guān)系數(shù)的絕對值越接近1，此時兩個特征變量越相關(guān)。

圖5 特征相關(guān)系數(shù)熱力圖Fig. 5 Heat map of correlation coefficient

表4 二手車交易價格與部分特征的相關(guān)系數(shù)Tab. 4 Correlation coefficient between transaction price and some characteristic variables

2.1 多元線性回歸模型

基于特征變量的相關(guān)性分析結(jié)果，以“二手車交易價格”為因變量，建立多元線性回歸預(yù)測模型。在0.1 顯著性水平下，對模型檢驗分析發(fā)現(xiàn)：“里程”、“過戶次數(shù)”和“使用時間”3 個特征變量與“二手車交易價格”呈現(xiàn)負相關(guān)性，而且這些特征變量也可作為車輛使用程度的描述，即車輛使用的程度越高，該車輛作為二手車售賣時成交的價格就越低。同時，“二手車交易價格”同“載客人數(shù)”、“排量”、“新車價格”和“匿名12”呈現(xiàn)顯著正相關(guān)性。為了保證模型的顯著性效果，篩去與“二手車交易價格”相關(guān)性較低的特征變量，最終得到二手車交易價格預(yù)測回歸模型如式（1）：

其中，特征變量的含義見表1。

利用自然對數(shù)變換處理過的特征變量數(shù)據(jù)集具有較好的分布特征和度量性質(zhì)，因此利用自然對數(shù)對所有特征變量數(shù)據(jù)進行處理，并對處理后的數(shù)據(jù)進行多元線性回歸建模，對數(shù)變換函數(shù)如式（2）：

其中，Xi為特征變量，即表1 中所示的變量；ε為回歸的誤差；βi是回歸方程系數(shù)；Y為二手車價格。

同理，在相同顯著性水平下，可得此時回歸預(yù)測模型如式（3）：

其中，特征變量的含義見表1。

2.2 模型結(jié)果分析

為了有效的評價和對比分析所建預(yù)測模型的有效性和準確性，本文采用平均相對誤差（MAPE， Mean Absolute Percentage Error）和準確率（Accuracy5）的線性組合作為模型的最終評價指標M，式（4）：

MAPE又稱相對誤差（APE，Absolute Percentage Error）的算術(shù)平均值。為了降低單次預(yù)測中噪聲數(shù)據(jù)對預(yù)測結(jié)果準確性的影響，通常用于評估預(yù)測模型預(yù)測結(jié)果的可靠性和精度，式（5）和式（6）：

其中，為二手車價格的預(yù)測值；y為相應(yīng)二手車價格真實值；m是價格預(yù)測實驗的次數(shù)（本文m＝29 319）。

準確率（Accuracy5）通常表示模型預(yù)測正確的樣本在實驗總樣本中所占比例，式（7）：

其中，0.05 表示相對誤差比例，APE≤0.05 表示相對誤差小于5%，即預(yù)測值相對于真實值的誤差比例不超過0.05，故而Accuracy5又稱為5%誤差準確率。

基于數(shù)據(jù)預(yù)處理所得到的數(shù)據(jù)集，利用多元線性回歸預(yù)測模型和多元線性回歸（自然對數(shù)）預(yù)測模型分別對二手車交易價格進行預(yù)測分析，對比結(jié)果見表5。每一次價格預(yù)測實驗都會對應(yīng)產(chǎn)生一個APE值，一共進行了29 319次價格預(yù)測實驗。由表5 中結(jié)果可知，基于自然對數(shù)處理過的數(shù)據(jù)集而建立的預(yù)測模型，其準確率和平均相對誤差都要優(yōu)于基于原數(shù)據(jù)集而建立的預(yù)測模型，模型的整體性能提升了1 倍多。

表5 不同模型評估對比結(jié)果Tab. 5 Comparison results between different models

為了進一步對比分析本文所建回歸預(yù)測模型的性能，利用MATLAB 軟件工具箱中集成的神經(jīng)網(wǎng)絡(luò)模型，設(shè)計并建立了一個基于監(jiān)督學習的神經(jīng)網(wǎng)絡(luò)模型，其中訓練集、測試集和檢驗集的比例分別是60%，20%和20%，隱藏層神經(jīng)元取27 個，同時選擇庫函數(shù)trainlm 作為訓練函數(shù)，并使用MATLAB 自帶的Levenberg-Marquardt 算法求解生成的神經(jīng)網(wǎng)絡(luò)模型。

基于數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)集，利用MATLAB中集成的神經(jīng)網(wǎng)絡(luò)建模工具，得到了一個基于神經(jīng)網(wǎng)絡(luò)模型的二手車交易價格預(yù)測模型，模型的擬合誤差效果如圖6 所示。由圖6 可知，最佳擬合結(jié)果出現(xiàn)在第72 次迭代，此時驗證集誤差為3.507 4。神經(jīng)網(wǎng)絡(luò)不同訓練集擬合結(jié)果如圖7 所示，圖7（a）中藍線代表神經(jīng)網(wǎng)絡(luò)訓練出的擬合模型，黑色氣泡點代表訓練集輸入的數(shù)據(jù)，氣泡點越靠近藍線則代表訓練結(jié)果越好，可見大部分氣泡點都圍繞在擬合線附近，僅存在少部分孤立點，由此可知該模型訓練集的擬合程度較好；圖7（b）圖中數(shù)據(jù)占總數(shù)據(jù)集的20%，綠線表示其擬合模型，可見雖然黑色氣泡點存在部分孤立點，但數(shù)據(jù)整體基本都在擬合線附近；圖7（c）中有較多的氣泡點偏離紅色擬合線較多；圖7（d）中數(shù)據(jù)集綜合擬合程度較高，網(wǎng)絡(luò)訓練整體效果較好。

圖6 神經(jīng)網(wǎng)絡(luò)擬合誤差Fig. 6 Fitting errors of neural network

圖7 神經(jīng)網(wǎng)絡(luò)不同訓練集擬合結(jié)果Fig. 7 Fitting degree of different training sets for neural netwok

基于自然對數(shù)處理后的數(shù)據(jù)集而建立的回歸模型具有更好的預(yù)測效果，因此在神經(jīng)網(wǎng)絡(luò)模型中利用自然對數(shù)對原數(shù)據(jù)集進行相關(guān)變換和處理，得到了基于神經(jīng)網(wǎng)絡(luò)經(jīng)自然對數(shù)處理后的二手車交易價格預(yù)測模型，該模型的相關(guān)擬合結(jié)果如圖8 和圖9中所示。由圖8 可知迭代僅需要55 次便達到最優(yōu)，較數(shù)據(jù)優(yōu)化前模型計算成本有一定程度的降低，驗證集誤差僅為0.014 701，較優(yōu)化前模型誤差降低了300 多倍，模型的準確性有了極大的改進。

圖8 基于自然對數(shù)的神經(jīng)網(wǎng)絡(luò)擬合誤差Fig. 8 Fitting error of neural network based on natural logarithm

圖9 基于自然對數(shù)的神經(jīng)網(wǎng)絡(luò)不同訓練集擬合結(jié)果Fig. 9 Fitting degree of different training sets for neural network based on natual logarithm

神經(jīng)網(wǎng)絡(luò)預(yù)測模型和神經(jīng)網(wǎng)絡(luò)（自然對數(shù)）預(yù)測模型的性能結(jié)果也與多元線性回歸預(yù)測模型和多元線性回歸（自然對數(shù)）預(yù)測模型的相關(guān)結(jié)果進行了對比分析，相關(guān)對比結(jié)果見表5。由表5 可知，基于對數(shù)的多元線性回歸（自然對數(shù)）模型的效果要優(yōu)于神經(jīng)網(wǎng)絡(luò)模型，其MAPE是神經(jīng)網(wǎng)絡(luò)的一半，且Accuracy5有20%的提升。數(shù)據(jù)的相關(guān)結(jié)果亦表明，基于自然對數(shù)處理過的數(shù)據(jù)而建立的模型具有較好的預(yù)測性能。

3 結(jié)束語

二手車交易價格的預(yù)測與制定對二手車交易市場的良序發(fā)展具有重要的指導作用。本文基于2021 年58 同城二手車交易平臺中的部分脫敏數(shù)據(jù)集，分別建立了多元線性回歸和神經(jīng)網(wǎng)絡(luò)二手車交易價格預(yù)測模型，數(shù)值測試的結(jié)果表明基于神經(jīng)網(wǎng)絡(luò)建立的預(yù)測模型相比于基于多元線性回歸建立的預(yù)測模型，準確性和精確性整體提高了近1 倍，同時在對數(shù)據(jù)進行自然對數(shù)歸一化處理后的預(yù)測模型，平均相對誤差降為原模型的1／5，精確度提升為原模型的2-3 倍，即利用經(jīng)過自然對數(shù)歸一化處理的數(shù)據(jù)集，基于神經(jīng)網(wǎng)絡(luò)建立的價格預(yù)測模型具有更好的擬合和預(yù)測效果。相關(guān)研究成果對于探討二手車市場中的不同定價模型及其優(yōu)缺點，指導二手車交易價格的合理制定和預(yù)測以及二手車交易市場的健康發(fā)展具有重要的現(xiàn)實意義。