劉擁華, 段瑞坤, 段莉珍,, 申科, 秦雅琴
(1.昆明理工大學(xué)交通工程學(xué)院, 昆明 650504; 2.云南省交通科學(xué)研究院, 昆明 650011)
近年來(lái),受疫情和經(jīng)濟(jì)下滑的影響。一些原本在高速公路上通行的車輛(尤其是收費(fèi)較高的貨運(yùn)車輛)為了降低出行成本,轉(zhuǎn)而選擇普通公路進(jìn)行出行。不僅給普通公路造成交通擁堵,還造成普通公路管理維護(hù)壓力過(guò)大,也導(dǎo)致了一些地區(qū)的高速公路資源存在嚴(yán)重浪費(fèi)的現(xiàn)象[1]。面對(duì)如此困境,2016年由交通部提出的高速公路差異化收費(fèi)政策將是解決此困境最有效的手段[2]。差異化收費(fèi)主要是通過(guò)經(jīng)濟(jì)杠桿作用,調(diào)整貨車司機(jī)的出行時(shí)間和路徑選擇。以起到改善路網(wǎng)流通質(zhì)量、提高物流運(yùn)輸效率和降低物流運(yùn)輸成本的作用[3]。目前,常見(jiàn)的差異化收費(fèi)方式主要有分路段、分時(shí)段、分方向、分支付方式和分車型等多種方式。
既有研究已對(duì)高速公路差異化收費(fèi)政策下的合理收費(fèi)費(fèi)率和差異化收費(fèi)政策下貨車司機(jī)出行路徑選擇進(jìn)行了探討。Cheng等[4]研究了考慮交通流動(dòng)態(tài)演化過(guò)程,提出了最小最大后悔模型來(lái)解決擁堵?tīng)顟B(tài)下不平衡交通流的動(dòng)態(tài)費(fèi)率。王林等[5]根據(jù)湖北省目前的分車型收費(fèi)情況,提出了一種有效降低出行成本,同時(shí)確保高速公路運(yùn)營(yíng)企業(yè)能夠獲得一定利潤(rùn)的分路段分車型的差異化收費(fèi)模式。Politis等[6]分析了高速公路與平行公路之間選擇行為特征,從中發(fā)現(xiàn)出行時(shí)間會(huì)對(duì)貨車司機(jī)的出行決策產(chǎn)生重大影響??椎聦W(xué)等[7]將多項(xiàng)Logit模型、巢式Logit與潛在類別模型相結(jié)合,刻畫(huà)出了出行方式之間的相關(guān)性與貨車司機(jī)出行選擇的偏好性。
既有研究多關(guān)注如何合理有效地確定差異化收費(fèi)政策下高速公路的收費(fèi)費(fèi)率和差異化收費(fèi)政策下貨車從高速公路轉(zhuǎn)向平行公路或者從平行公路轉(zhuǎn)向高速公路的車輛比例。較少關(guān)注差異化收費(fèi)政策對(duì)貨車司機(jī)出行路徑選擇的影響程度。此外,現(xiàn)有的研究多是基于傳統(tǒng)的統(tǒng)計(jì)模型分析差異化收費(fèi)對(duì)貨車司機(jī)路徑選擇行為的影響,其模型結(jié)果僅給出差異化收費(fèi)變量與貨車司機(jī)出行路徑選擇之間的統(tǒng)計(jì)顯著性。無(wú)法量化各個(gè)屬性變量對(duì)貨車司機(jī)出行路徑選擇的影響程度[8-9]。因此,有必要構(gòu)建目前正處于如火如荼的機(jī)器學(xué)習(xí)模型來(lái)量化捕捉差異化收費(fèi)變量對(duì)貨車司機(jī)出行路徑選擇的影響程度,從而為差異化收費(fèi)政策的有效實(shí)施提供有效的理論依據(jù)[10]。
對(duì)銀昆高速(G85)昭通至水富段實(shí)行分路段差異化收費(fèi)方式,其具體措施是在該路段原費(fèi)率的基礎(chǔ)上進(jìn)行打折活動(dòng)。為了確定分路段差異化收費(fèi)條件下,貨車司機(jī)出行路徑選擇的影響因素,對(duì)銀昆高速(G85)昭通至水富段及麻水線與昭麻二級(jí)路等相關(guān)道路上展開(kāi)問(wèn)卷意向調(diào)查。在調(diào)查過(guò)程中發(fā)現(xiàn)銀昆高速(G85)的平行路段麻水線與昭麻二級(jí)路在不同的地點(diǎn)道路條件存在較大的差異。為了得到更加真實(shí)反映差異化收費(fèi)條件下,貨車司機(jī)的出行意向選擇。分別在昭通南站、靖安站、大關(guān)站、岔河站與廟口站展開(kāi)問(wèn)卷調(diào)查。本次調(diào)查分別在每個(gè)站點(diǎn)發(fā)放問(wèn)卷132份,發(fā)放問(wèn)卷合計(jì)660份,有效問(wèn)卷636份,問(wèn)卷有效率為96.36%[11-12]。有效問(wèn)卷統(tǒng)計(jì)性描述如表1所示。

表1 問(wèn)卷統(tǒng)計(jì)描述信息Table 1 Statistical description of questionnaire
從貨車駕駛員出行選擇行為產(chǎn)生的內(nèi)在動(dòng)力和外生環(huán)境出發(fā),車貨屬性特征和出行特征作為內(nèi)在因素影響其出行選擇行為,而分路段差異化收費(fèi)政策則作為貨車駕駛員出行選擇行為的外部因素,因此將解釋變量分為分路段差異化收費(fèi)變量和非分路段差異化收費(fèi)變量?jī)深?共同納入研究的范疇。其中,車貨屬性特征和出行特征指標(biāo)依據(jù)現(xiàn)有的分路段差異化收費(fèi)條件下貨車出行行為研究選取[1,7,10],分路段差異化收費(fèi)的描述指標(biāo)則選取優(yōu)惠折扣、收費(fèi)費(fèi)率、出行費(fèi)用、出行距離和是否關(guān)注差異化收費(fèi)政策這五項(xiàng)指標(biāo),其變量描述性統(tǒng)計(jì)結(jié)果如表2所示。
由于影響因素的單位和數(shù)量級(jí)等存在較大的差異,傳統(tǒng)的統(tǒng)計(jì)模型很難估計(jì)出分路段差異化收費(fèi)變量對(duì)被解釋變量的影響程度[13]?,F(xiàn)構(gòu)建隨機(jī)森林(random forest,RF)模型來(lái)分析分路段差異化收費(fèi)對(duì)貨車司機(jī)路徑選擇行為的影響程度。RF是在Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)變量。RF模型在特征變量重要度選擇方面具有高精度、高效率等特點(diǎn)[14]。以及能反向評(píng)估各個(gè)輸入?yún)?shù)對(duì)目標(biāo)值的相對(duì)重要性,對(duì)于各變量之間的多重共線性具有一定的包容性。同時(shí),RF模型對(duì)噪聲數(shù)據(jù)和不平衡數(shù)據(jù)具有很好的預(yù)測(cè)效果。十分符合本研究數(shù)據(jù)類型和模型構(gòu)建的思想。

表2 變量描述表Table 2 Variable description table
隨機(jī)森林是由多棵決策樹(shù){h(X,θk),k=1,2,3,…}組成的集成算法,其中h()為聯(lián)合熵;X、θk為隨機(jī)變量,決定了訓(xùn)練集的隨機(jī)抽取和候選分裂屬性的隨機(jī)選擇。隨機(jī)森林算法的具體過(guò)程如圖1所示[14-15]。
(1)將原始數(shù)據(jù)集按照8∶2的比例劃分成為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。

圖1 隨機(jī)森林構(gòu)建過(guò)程Fig.1 Random forest construction process
(2)從劃分好的訓(xùn)練數(shù)據(jù)集中隨機(jī)選取N個(gè)訓(xùn)練數(shù)據(jù)集樣本,得到一個(gè)自助訓(xùn)練集L[14]。
(3)用L作為訓(xùn)練數(shù)據(jù),建立決策樹(shù)T。然后針對(duì)每個(gè)分析節(jié)點(diǎn),在M個(gè)特征屬性中隨機(jī)選取m個(gè)特征屬性,作為候選分裂的屬性。根據(jù)Gini指數(shù),在m個(gè)特征或?qū)傩宰兞恐羞x取一種加以拆分。然后重復(fù)以上步驟,直到樹(shù)可以對(duì)所有測(cè)試數(shù)據(jù)作出正確劃分[14]。
以銀昆高速(G85)昭通至水富段及麻水線與昭麻二級(jí)路問(wèn)卷調(diào)查數(shù)據(jù)為基礎(chǔ)進(jìn)行實(shí)證分析。分路段差異化收費(fèi)條件下,貨車司機(jī)選擇高速公路進(jìn)行出行的意向在模型中體現(xiàn)為肯定類別的發(fā)生概率,當(dāng)概率越接近1時(shí),分路段差異化收費(fèi)條件下,貨車司機(jī)選擇高速公路出行的意愿越強(qiáng)烈[15]。
模型超參數(shù)的選取會(huì)極大地影響模型的預(yù)測(cè)效果。在現(xiàn)有的研究中,模型超參數(shù)的選取主要依賴于經(jīng)驗(yàn)[15-16],這可能會(huì)影響模型的整體效果。為了得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果,采用網(wǎng)格搜索法對(duì)所有超參數(shù)組合進(jìn)行交叉驗(yàn)證,并以錯(cuò)誤率為判斷依據(jù)[17]。對(duì)RF模型的樹(shù)的數(shù)量和最大特征值這兩個(gè)超參數(shù)進(jìn)行優(yōu)化。調(diào)參過(guò)程如圖2所示。從圖2中可以看出最佳超參數(shù)取值為樹(shù)的數(shù)量191、最大特征值2。
本文討論的對(duì)象為分路段差異化收費(fèi)條件下貨車司機(jī)出行路徑選擇意愿,為二分類變量,RF模型在python中的Scikit-learn庫(kù)中求解。模型的整體結(jié)果如表3所示。

圖2 超參數(shù)調(diào)整過(guò)程Fig.2 Super parameter adjustment process

表3 模型整體結(jié)果Table 3 Overall results of the mode
從相對(duì)重要度的角度來(lái)看,優(yōu)惠折扣是影響貨車司機(jī)出行路徑選擇的重要因素,其貢獻(xiàn)程度為38.56%,其次是出行費(fèi)用和出行距離,其貢獻(xiàn)程度分別為13.55%和10.06%,這表明大多數(shù)貨車司機(jī)在出行路徑選擇時(shí),首要考慮其經(jīng)濟(jì)性和時(shí)效性。出行時(shí)段和車貨總重的相對(duì)重要度相近,在5%~7.1%之間,這表明出行時(shí)段和車貨總重對(duì)貨車司機(jī)出行路徑的選擇會(huì)產(chǎn)生較為重要的影響。其次是車輛類型(3.45%)、不走高速公路的原因(3.14%)、收費(fèi)費(fèi)率(2.89%)和是否關(guān)注差異化收費(fèi)政策(2.85%)。
通過(guò)調(diào)用RF模型中的部分函數(shù)依賴PDP (partial dependence plot)方法,來(lái)探討解釋變量與貨車司機(jī)出行路徑選擇之間的關(guān)系。
3.3.1 出行費(fèi)用
從圖3可以看出,出行費(fèi)用與貨車司機(jī)出行路徑選擇之間存在著明顯的閾值效應(yīng),當(dāng)出行費(fèi)用大于200元時(shí),貨車司機(jī)選擇高速公路出行的概率明顯降低;當(dāng)出行費(fèi)用在0~600元時(shí),出行費(fèi)用對(duì)貨車司機(jī)出行路徑選擇影響較為明顯,而當(dāng)出行費(fèi)用達(dá)到600元以上時(shí),出行費(fèi)用對(duì)貨車司機(jī)出行路徑選擇影響不明顯。
3.3.2 出行距離
從圖4可以看出,出行距離與貨車司機(jī)出行路徑選擇之間存在明顯的閾值效應(yīng),當(dāng)出行距離大于200 km時(shí),貨車司機(jī)選擇高速公路出行的概率明顯降低;當(dāng)出行距離在0~160 km時(shí),出行距離對(duì)貨車司機(jī)出行路徑選擇影響較為明顯,而當(dāng)出行距離達(dá)到160 km以上時(shí),出行距離對(duì)貨車司機(jī)出行路徑選擇影響不明顯。

圖3 出行費(fèi)用與貨車司機(jī)出行路徑選擇的關(guān)系Fig.3 The relationship between travel cost and truck driver’s travel route choice

圖4 出行距離與貨車司機(jī)出行路徑選擇的關(guān)系Fig.4 The relationship between travel distance and truck driver’s travel route choice
3.3.3 優(yōu)惠折扣
從圖5可以看出,優(yōu)惠折扣與貨車司機(jī)出行路徑選擇之間存在明顯的閾值效應(yīng),當(dāng)優(yōu)惠折扣為5~6折,貨車司機(jī)選擇高速公路進(jìn)行出行的概率高達(dá)89.3%和81.6%,而當(dāng)優(yōu)惠折扣為8折和9折時(shí),貨車司機(jī)選擇高速公路出行的概率僅為35.5%和22.6%。該分析結(jié)果與整體效應(yīng)分析的結(jié)果相一致,優(yōu)惠折扣對(duì)貨車司機(jī)出行路徑選擇會(huì)產(chǎn)生較大。

圖5 優(yōu)惠折扣與貨車司機(jī)出行路徑選擇的關(guān)系Fig.5 The relationship between preferential discount and travel route choice of truck drivers
為得到最準(zhǔn)確預(yù)測(cè)貨車司機(jī)出行路徑選擇的方法,選擇目前最為常用的隨機(jī)森林法(RF)、迭代算法(AdaBoost)、梯度提升迭代決策樹(shù)(gradient boosting decision tree,GBDT)和傳統(tǒng)Logit模型,通過(guò)使用相同的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集來(lái)訓(xùn)練這些模型并評(píng)估其性能。
AdaBoost在處理分類問(wèn)題時(shí),首先會(huì)給不同的樣本附上一個(gè)不同的權(quán)重,被分錯(cuò)樣本的權(quán)重在Boosting過(guò)程中會(huì)被放大,因此新得到的模型會(huì)更加關(guān)注這些被分錯(cuò)的樣本。而被分正確的樣本的權(quán)重在Boosting過(guò)程中會(huì)變小。接下來(lái)AdaBoost算法會(huì)將新得到的權(quán)重輸入新的模型中進(jìn)行訓(xùn)練,從而得到基模型。最后AdaBoost將這些基模型組合起來(lái),并根據(jù)錯(cuò)誤率賦予不同的權(quán)重集合成新模型[18]。
GBDT算法與AdaBoost算法不同,GBDT算法會(huì)在加權(quán)的基礎(chǔ)上定義一個(gè)損失函數(shù),并對(duì)損失和機(jī)器學(xué)習(xí)所得到的函數(shù)進(jìn)行求導(dǎo),新生成的模型都是沿著基模型負(fù)梯度方向進(jìn)行優(yōu)化,直到找到最優(yōu)的模型。
NL模型是一種統(tǒng)計(jì)回歸分析模型,它會(huì)給出每個(gè)選項(xiàng)的選擇概率,作為所有選項(xiàng)的效用函數(shù)。本文中采用最大似然法來(lái)對(duì)模型進(jìn)行估計(jì)。
為了更加科學(xué)地進(jìn)行模型性能比較,使用精確率(precision)、召回率(recall)和AUC(area under curve)值對(duì)模型的性能進(jìn)行比較?;诨煜仃囉?jì)算這3個(gè)性能度量指標(biāo)[19]。
(1)混淆矩陣?;煜仃囀菣C(jī)器學(xué)習(xí)模型的原始基礎(chǔ)之一,也是推導(dǎo)后續(xù)一系列評(píng)估指標(biāo)的基礎(chǔ)。其具體的混淆矩陣如表4所示[18]。

表4 混淆矩陣Table 4 Confusion matrix
(2)精確率。根據(jù)混淆矩陣,很容易計(jì)算出精確率。計(jì)算公式為

(1)
(3)召回率。根據(jù)混淆矩陣,計(jì)算公式為

(2)
(4)AUC指標(biāo)。在坐標(biāo)軸中繪制的ROC(receiver operating characteristic)曲線依賴FPR、TPR這兩個(gè)指標(biāo),其計(jì)算公式為

(3)

(4)
將FPR值作為橫坐標(biāo),TPR值作為縱坐標(biāo),可得到一個(gè)二維坐標(biāo)系。將機(jī)器學(xué)習(xí)模型得到的FPR值與TPR值映射到這個(gè)二維坐標(biāo)系中,用一條曲線將其連接起來(lái)便得到了ROC曲線,而AUC值則是ROC曲線與橫坐標(biāo)圍成的面積[19]。
圖6所示為RF模型、AdaBoost模型、GBDT模型和傳統(tǒng)Logit模型的性能對(duì)比結(jié)果圖,可以觀察到RF模型的精確率(precision)、召回率(recall)、AUC值高于AdaBoost模型、GBDT模型和傳統(tǒng)Logit模型。

圖6 模型性能對(duì)比結(jié)果圖Fig.6 Comparison results of model performance
因此,本文構(gòu)建的分路段差異化收費(fèi)條件下貨車出行路徑選擇的RF模型具有較高的可靠性。
(1)以銀昆高速(G85)昭通至水富段及麻水線與昭麻二級(jí)路問(wèn)卷調(diào)查數(shù)據(jù)為基礎(chǔ),對(duì)分路段差異化收費(fèi)條件下,貨車司機(jī)出行路徑選擇進(jìn)行建模,模型整體結(jié)果表明,所構(gòu)建的RF模型具有較高的預(yù)測(cè)精度,同時(shí)非線性模型也能夠很好的捕捉分路段差異化收費(fèi)條件下,貨車司機(jī)選擇高速公路出行的變化趨勢(shì)。
(2)相對(duì)重要度方面,優(yōu)惠折扣是影響貨車司機(jī)出行路徑選擇最重要的因素(38.56%),其次是出行費(fèi)用(13.55%),出行距離(10.06%)以及出行時(shí)段(7.08%)對(duì)貨車司機(jī)出行路徑選擇的影響也較為顯著。
(3)邊際效應(yīng)分析表明,當(dāng)出行費(fèi)用大于200元時(shí),貨車司機(jī)選擇高速公路進(jìn)行出行的概率將明顯降低;當(dāng)出行距離在0~160 km時(shí),貨車司機(jī)選擇高速公路進(jìn)行出行的概率波動(dòng)較大;當(dāng)優(yōu)惠折扣大于7折,貨車司機(jī)選擇高速公路進(jìn)行出行的概率將明顯提升。
(4)模型性能對(duì)比結(jié)果表明。本文所構(gòu)建的分路段差異化收費(fèi)條件下貨車司機(jī)出行路徑選擇的RF模型的分類準(zhǔn)確率優(yōu)于AdaBoost模型、GBDT模型和傳統(tǒng)Logit模型。