基于面板混合Logit模型的中長途高速客運方式分擔率預測

2021-02-03 11:53:06盛冬冬孫明妹

山東科學 2021年1期

關鍵詞：模型

盛冬冬,孫明妹

(北京交通大學軌道交通控制與安全國家重點實驗室，北京 100044)

目前，我國的高鐵(high-speed railway, HSR)發展迅速，截至2019年底，高鐵里程達到3.5萬公里。高鐵的迅猛發展極大地提高了鐵路在中長途高速客運(即出行距離在800～1200 km的旅客運輸)中的競爭力。高鐵和民航(civil aviation,CA)的方式分擔率模型是其競爭網絡研究、定價研究等的重要基礎，因此，對方式分擔率模型的研究很有必要。

對方式分擔率的模擬以離散選擇模型為主，一般通過構建效用函數，使用個體數據對效用函數中的未知參數進行估計，繼而計算出選擇項被選中的概率。傳統Logit模型是離散選擇模型的基礎模型，但傳統Logit模型本身存在的IIA特性會對模型的預測結果產生很大的影響。何宇強等[1]、Hensher[2]、葉玉玲等[3]選擇經濟、快速、方便、舒適、安全5個指標建立傳統Logit模型，并使用該模型對方式分擔率進行預測。為了解決傳統Logit模型中存在IIA特性問題，又提出嵌套Logit(Nested Logit, NL)模型。NL模型將相近的備選方案列入同一子集，子集內部仍存在IIA特性，但子集間的IIA特性不復存在。Adler等[4]和Wen等[5]分別建立NL模型，并使用數據對參數進行估計。然而傳統Logit模型和NL模型都忽略了個體異質性，且沒有完全解決IIA特性，混合Logit(Mixed Logit, ML)模型的出現，解決了上述兩個問題。常見的混合Logit模型指的是考慮了個體異質性的橫截面混合Logit模型(Cross-Sectional Mixed Logit, CML)，可使用橫截面數據對其參數進行估計。Abdel-Aty等[6]使用具有正態分布的CML模型刻畫在交通信息誘導下駕駛員對于路線選擇的問題，得出旅行時間及其變化等因素會對路線選擇產生影響。Li等[7]在北京地鐵系統中進行了意向調查(stated preference, SP)，建立了考慮價格內生性的出發時間選擇CML模型，得出票價和發車時間的變化對乘客出發時間選擇的影響大于擁擠程度的結論。Behrens等[8]使用倫敦—巴黎客運市場的橫截面數據估計了CML模型，結果表明，出行時間和頻率是出行行為的主要決定因素。不同于CML模型，面板混合Logit模型(Panel Mixed Logit, PML)使用面板數據估計其參數，不僅考慮了個體異質性，同時也考慮了同源數據的相關性。車國鵬[9]通過建立PML模型，研究擁擠收費對城市交通方式分擔率的影響。Guo等[10]使用沈陽的居民調查數據建立了PML模型，捕捉居民的交通方式選擇的個體異質性。Chen等[11]使用PML模型研究了駕駛環境對碰撞頻率的影響。

針對方式分擔率的研究以傳統Logit模型和NL模型為主，考慮到數據的收集難度，一般又以SP數據對參數進行估計，但很少有文獻考慮到選擇個體的異質性以及SP數據中同一數據源間的相關性。本文針對高鐵和民航的方式分擔率問題，建立了傳統Logit模型、考慮個體異質性的CML模型和考慮個體異質性及同源數據間相關性的PML模型，使用北京—南京客運通道的SP數據進行參數估計，通過對比參數估計結果，發現PML模型具有更好的行為解釋能力和預測精度。最后，在PML模型的基礎上，利用仿真分析預測了高鐵和民航的方式分擔率隨旅程費用差(民航與高鐵票價差)和時間差(高鐵與民航旅程時間差)的變化趨勢。該結果能夠指導運營商合理地調整票價和旅程時間，以在競爭中取得優勢。

1 PML模型

1.1 ML模型闡述

ML模型是非常靈活的模型，可以近似成所有隨機效用模型[12-13]，其參數可以指定服從某種分布，突出不同個體的選擇偏好。

假設在情景k(k=1,2,…,K)下，個體i(i=1,2,…,I)面臨選擇j(j=1,2,…,J)時，i在考慮了所有備選方案后會選擇效用最大的方案。一般形式的效用表達式如下：

(1)

式中，Uijk指i在情景k下選擇j的效用；xijk指與方案j有關的特性變量組成的向量；β′和εijk指無法觀測的隨機影響，εijk服從同一Gambel分布，備選方案間不存在相關性。解決方法是通過β′將備選方案間異方差和相關性的隨機元素引入效用函數，如式(2)所示(首先以橫截面數據集為例，因此忽略k下標)：

β′=βij+ηij，

(2)

式中，βij為非隨機參數；ηij是隨機參數，表示效用函數集中除εijk外的隨機影響的向量，隨選擇而變化，可能會引起備選方案間的相關性，可以指定分布，常見的有正態、對數正態、均勻分布等。

使用f(η|θ)來表示其概率密度函數，給定η值，選擇j的條件概率為

(3)

但η的值并不知道，不能以η為已知條件得到條件概率，故，非條件概率應求解Lij(η)在所有可能的η值上的積分。

(4)

由式(4)得知，ML模型的選擇概率可看作為多項Logit模型概率的加權平均值，f(η|θ)決定權重，θ是描述f(η|θ)的參數，以正態分布為例，θ指均值和標準差。

1.2 PML模型

常見的數據結構為橫截面數據，其最大的特點是數據收集中存在的時間或情景差別很小。而面板數據是由數據集中每一個橫截面單位的一個時間序列組成，這里的時間序列可以是不同時間也可以是不同情景。PML模型可以捕捉到不同情景下同一個體觀測間可能存在的相關性。

決策者在情景k(k=1,2,…,K)序列下的選擇條件概率為式(5)，PML模型的非條件選擇概率同公式(4)。

(5)

1.3 參數估計

仿真的方法特別適合用于估計ML模型的參數，指定分布，其仿真概率如式(6)所示：①給定θ，從f(η|θ)抽取一個η值，記為ηr，表示第r次抽取；②計算Lij(ηr)；③重復①②步驟R次(R足夠大)，將均值作為Lij(ηr)的仿真值。

(6)

求出使LL(η)得到最大值的θ。

2 問卷設計

本文將用到旅客各種情境下的選擇數據，故SP方法更加適合。問卷內容包括受訪者的基本信息、中長途出行特性及出行情景的方式選擇意向。受控的動態變化試驗因子包括高鐵和民航的程前程后費用和時間以及旅程費用和時間4個變量。

假想的出行情景如圖1所示，每種方式的費用和時間都是由程前(即出發地A至高鐵站A高鐵或機場A機場)費用和時間、旅程費用和時間、程后(即高鐵站B高鐵或機場B機場至目的地B)費用和時間組成。

圖1 假想出行情景

借鑒已有研究[14]：出行距離在800～1200 km時，高鐵和民航的競爭最激烈。故選擇北京—南京客運通道作為研究對象。問卷使用正交試驗法，試驗因子設置為四因素三水平，參考文獻[15]、12306官網及北京—南京航班信息，確定高鐵和民航的旅程費用和時間的高、中、低三水平。依據L9(34)正交表設計了9種情景，如表1所示。該設計在保證數據可靠性和有效性的基礎上，節省了大量人力物力。

表1 情景設置

本次調查共回收問卷221份，有效問卷202份，合格率達91.4%，能有效地應用于后續的建模與分析。

3 數據分析與建模

3.1 統計分析

問卷中基本信息及中長途的出行特性分析結果如表2和圖2所示。受訪對象中男性占52%，女性占48%；年齡分布主要集中在(24，49]歲；月收入分布以[4000，10 000)元居多，占53%；出行目的以公務出行居多，占43%。而出行特性方面，高鐵的程前程后平均時間1.6 h，民航的程前程后平均時間2.2 h；高鐵的程前程后平均費用為35元，民航的程前程后平均費用為72元，該分布特征與實際情況基本相符。

表2 問卷基本屬性統計

(a)程前程后時間分布 (b)程前程后費用分布

3.2 模型構建

使用PML模型對樣本數據進行建模，選擇性別、年齡、月收入、出行目的、優先考慮因素、程前程后時間和費用、旅程費用和時間作為模式選擇的特性變量，變量設置參見表3。根據上述變量描述，個體i選擇j的效用函數可以表示為(以高鐵作為參考)：

表3 特性變量表

UCA=Con+mx1+a24x2+a49x3+i4x4+i10x5+sx6+trx7+vx8+ox9+csx10+bx11+txt_s2+ctxt_ts2+fxp2+jtxt2，

(7)

UHSR=txt_s1+ctxt_ts1+fxp1+jtxt1，

(8)

式中，UCA表示民航效用函數；UHSR表示高鐵效用函數；xp2、xp1分別指民航和高鐵的旅程費用。xt_s2、xt_s1、xt_ts2、xt_ts1、xt2、xt1以此類推。

在建模過程中，通過仿真方法計算蒙特卡洛積分，該計算涉及到“偽隨機序列”生成，選擇了Halton法完成η的抽取，相較于標準偽隨機序列法，極大地提升收斂性。接著，把數據整理成長型數據，導入NLOGIT，編寫程序，對參數進行估計。

利用NLOGIT對1818(202×9)條有效數據進行建模。首先確定性別、年齡、月收入、出行目的、優先考慮因素為常系數，而兩種交通方式的程前程后時間和費用、旅程費用和時間這4個變量具體的值也不同，要捕獲個體異質性，就需要在這些變量中選取某些變量的系數作為隨機系數。因此對這些變量進行了許多組合，在此基礎上進行參數估計，并且對參數估計結果進行了評估，在這些組合中，有許多的組合參數估計結果違反了實際情況，多數參數的顯著性檢測無法達到95%的置信水平。在符合實際情況和顯著性檢測達標的組合中，通過比較麥克法登似然率來判斷模型對出行選擇行為的解釋能力，最終將程前程后時間和費用、旅程費用和時間這4個特性變量的系數指定為隨機系數并且服從正態分布。

3.3 參數估計結果

本文建立了傳統Logit模型、CML模型及PML模型，使用SP數據進行參數估計，結果如表4所示，經對比，可以更全面地考察PML模型的效果。

由表4得，傳統Logit模型、CML模型和PML模型的參數估計結果符號基本一致，這說明考慮了個體異質性和同源數據相關性后并未改變特性變量對方式選擇影響的正負效應。3個模型的似然函數值分別為-801.153 0、-676.129 2和-532.525 6，通過該值可以計算出對應的麥克法登似然率。可以發現，傳統Logit模型的麥克法登似然率為0.364 2，擬合優度不算高。考慮異質性后的CML模型的麥克法登似然率為0.463 4，說明CML模型相較傳統Logit模型更適合模式選擇行為的建模分析。而考慮了個體異質性和同源數據相關性的PML模型的麥克法登似然率為0.577 4，高于傳統Logit模型和CML模型，說明PML模型具有更好的行為解釋能力，擬合優度更高，在該數據集下的預測能力更好。

表4 參數估計結果

3.4 PML結果分析

由表4所示，所有參數的符號均符合邏輯。在95%的置信水平下，除性別、年齡(49，+∞)、優先考慮因素(時間因素)外，其他特性變量均顯著。在95%置信水平下，年齡在(0，24]的個體符號為負，說明了相較于(24，49]歲的中青年，年齡在(0，24]的個體更傾向選擇高鐵出行；月收入[0，4000)元的個體較月收入[4000，10 000)元的個體更不愿意選擇民航出行，月收入在[10 000,+∞)元以上的個體更愿意選擇民航出行；而以上學、旅游、走親訪友和其他為目的的出行者較公務出行者更傾向選擇高鐵出行；時間主導者或時間費用主導者較費用主導者更傾向選擇民航出行。其中隨機參數均在99%的置信水平下顯著，即t～N(-2.845 7,0.665 2)、ct～N(-0.029 5,0.010 1)、f～N(-0.021 8,0.009 7)、jt～N(-1.827 3,0.338 9)，而程前程后時間和旅程時間的標準差相對較大，說明了不同個體對時間的敏感程度有較大的差異，異質性明顯，并且4個隨機參數在兩個標準差范圍內符號均為負，說明了程前程后時間和費用及旅程費用和時間越大，這種交通工具被選擇的概率越低，這符合實際情況。

使用參數估計得到的結果對原始數據的選擇進行仿真，得出基于PML模型的兩種交通方式的選擇概率，選擇概率大的作為模型的預測結果，通過與實際選擇結果對比，得出模型的準確率，部分結果如表5所示。表中ID指受訪者的序號，相同的序號表示數據來源于同一受訪者經仿真結果統計；選擇欄為受訪者的實際選擇。PML模型的準確率達85.37%，其中，高鐵的準確率為88.58%，民航的準確率為81.38%，模型擬合效果良好，具有較高的預測精度。

表5 部分仿真結果

4 模型應用

為進一步研究旅程費用和時間對中長途高速客運方式分擔率的影響，使用PML模型仿真分析在不同旅程費用差和時間差下的方式分擔率。采用集計預測中的樣本枚舉法[16]進行預測，如式(9)所示，該方法是把總體中的一個隨機樣本作為 “代表”，樣本中選擇某一選項的比例作為總體中選擇該選項的一個無偏估計。使用NLOGIT軟件中的simulation功能，在SP數據的基礎上，不改變性別、年齡等基本屬性，改變旅程費用差和時間差得出個體的選擇概率后，使用式(9)得出該總體的估計值。

(9)

方式分擔率隨旅程費用差和旅程時間差的變化趨勢如圖3所示，圖中紅線部分為高鐵方式分擔率與民航方式分擔率相等的情況。由圖3可以得到，高鐵的方式分擔率隨著旅程費用差的增大而提升，隨著旅程時間差的增大而降低，且在高鐵和民航方式分擔率相同時，旅程費用差對高鐵分擔率的影響比旅行時間差要更加顯著。高鐵和民航方式分擔率相同時，伴隨著旅行時間差的縮小，旅程費用差由最初的150元降低到40元。當高鐵和民航的旅程費用差和時間差在紅線周圍時，二者的競爭最為激烈。以旅程時間差達到2 h為例，旅程費用差超過110元時，高鐵和民航的競爭中，高鐵處于優勢地位，且旅程費用差在[110，280]元區間時，高鐵方式分擔率的提升速率最快。

圖3 方式分擔率仿真結果

5 結論

本文針對高鐵和民航的方式分擔率問題，建立了傳統Logit、CML和PML模型，使用旅客SP數據對模型參數進行估計，通過對比參數估計結果，得出PML模型較傳統Logit和CML模型，具有更好的行為解釋能力和更高的預測精度。PML模型的估計結果說明，個體對時間因素的敏感度有比較大的差異，個體異質性明顯，且隨機參數在兩個標準差范圍內符號均為負，說明程前程后時間和費用及旅程費用和時間越大，該交通工具被選擇的概率越小。在基于PML模型的仿真分析中，得到高鐵的方式分擔率隨旅程費用差的增大而增加，隨時間差的增大而減小，民航恰好相反，且旅程費用差對方式分擔率的影響比旅程時間差更加顯著。仿真分析結果能有效指導運營商改變票價和旅程時間，以在競爭中取得優勢。此外，PML模型可以在交通規劃、交通方式競爭等研究中廣泛使用。

本文問卷的正交設計雖節省了人力物力，但限制了數據的全面性，且收集到的SP數據量不夠充足，會對模型參數估計結果產生影響。此外，為了簡化模型，未將安全性、舒適性、方便性等影響因素納入模型中，這些問題都是繼續完善PML模型的主要方向。