錢劍培,邵春福*,李 軍,2,蔡 楠,黃士琛
(1.北京交通大學綜合交通運輸大數據應用技術交通運輸行業重點實驗室,北京100044;2.中國交通通信信息中心交通運輸信息化標準研究所,北京100011;3.南通市規劃設計院有限公司,江蘇南通226004)
Gong[4]指出現有工作可分為基于規則的方法、概率方法和機器學習3 類,其中,機器學習日益成為主流.一般研究多從個體單次出行視角出發,基于單日數據挖掘個體人口統計[5]、出行時間[6]、目的地[7]等特征與出行目的潛在關系.Allahviranloo[8]從個體出行序列視角出發,考慮前后活動類型的次序信息.上述方法同屬于有監督分類,參數標定需要輔以回訪調查,以提供真實出行目的.為在標簽缺失場景下實現出行目的推斷,Han[9]考慮其在出行鏈中的轉換模式,將隱含狀態解釋為出行目的,得到的結果與經驗相符.Wang[10]引入隱含狄利克雷分配(Latent Dirichlet Allocation,LDA),對起訖點周邊興趣點聚類,得到若干主題,并將主題隱含語義與出行目的建立聯系.LDA 主題模型已在諸多交通問題中得到應用,作為無監督方法,可以充分發揮海量數據對復雜行為模式的發現作用,突破將出行活動人為預設為幾種規律性較強目的之局限.
上述研究面向的是市內居民日常出行,對于復雜的城際旅客出行,由于獲取的票務數據等只能追蹤上下車站點,無法沿用目的地空間信息和活動持續時間等特征.Janzen[11]提取頻率和工作日占比等歷史經驗特征識別出4類目的;基于城際出行常見的結伴現象,Lu[12]引入成員人數、兒童及成年人比例等團體特征;Lin[13]考慮到成員信息中隱含社會網絡關系,提出“同行網絡”的概念,并引入復雜網絡指標區分商務及旅游團.
本文面向城際團體旅客,考慮歷史經驗和結伴現象等特征,基于LDA 框架推斷出行目的.首先,在LDA中嵌入出發時間生成模塊,為推斷提供額外信息并間接驗證模型有效性;其次,提出團體旅客重建和語義化特征設計方法,通過計算特征共現得到主題聚類;再次,結合主題特征分布和出發時間分布標注出行目的;最后,利用票務數據對不同區域道路客運團體旅客出行目的構成及出行量演化影響因素開展案例研究.
采用LDA框架推斷出行目的關鍵在于將團體旅客出行決策過程與文本主題生成過程類比.LDA本質是包含文檔—主題生成過程和主題—詞生成過程的概率圖模型.有別于監督學習或聚類模型根據詞計算損失或距離函數,LDA 通過直接計算不同主題下詞共現規律,即主題—詞分布實現主題聚類,同時得到每個文檔主題分布.
受“同行網絡”[13]啟發,由于出行目的影響出行決策,不同出行目的將導致同行網絡中產生不同成員組合.基于該視角,將文檔、主題和詞延伸為團體旅客(簡稱:團體),出行目的(標注前仍稱主題)和個體特征(簡稱:特征).由于特征可直接觀察,只要能夠識別同屬一個團體的成員,即可以通過特征共現規律反推出行決策中對成員的選擇是基于何種出行目的.
LDA 中主題標注依賴于主題—詞分布.考慮到成員特征各異,團體具有統一出發時間,而兩者均與出行目的相關,因此,在LDA框架內嵌入出發時間生成模塊,將主題—詞分布的外延擴展為主題—特征分布及主題—出發時間分布,共同為出行目的標注提供信息.使用“盤子表示法”描述主題、特征及出發時間生成過程,如圖1所示.

圖1 嵌入出發時間的主題模型生成過程Fig.1 Generation process of topic model with start time embedded
假設主題數為K,團體數為M,團體m中第n個特征為wm,n,共Nm個,出發時間為tm.圖1中,兩個觀察變量wm,n和tm均由隱變量主題k決定.首先對主題采樣,特征wm,n對應主題記作k=zm,n,出發時間tm對應主題,兩者服從同一個多項式分布,記為Multi(θm),假設分布參數θm服從先驗參數為α的狄利克雷分布Diri(α).得到各自主題后對wm,n和tm采樣,wm,n有V個取值,任意v服從Multi(φk),假設分布參數φk服從先驗參數為β的分布Diri(β);tm有L個取值,任意l服從Multi(ψk),假設分布參數ψk服從先驗參數為γ的分布Diri(γ).將wm,n和tm對應的觀察變量樣本集合記為W和T,對應的隱變量樣本集合記為Z和Z′.
但是,在教學過程中,學生對中藥標本利用率不高,存在以下問題:(1)不能較好地保管中藥實物,因為中藥固有的自然屬性,學生不知道怎么保存,常有學生課上用完、課后就扔;(2)有的學生雖然將實物保存起來,但因保存方法不對,很快就會變質,加之學生嫌臟怕麻煩,課余時間也很少拿出來用;(3)在課后復習時學生也常拿出實物使用,但由于缺乏好的學習方法,常常看過即忘,學習效果不佳。
鑒于存在隱變量,采用馬爾可夫蒙特卡洛模擬中的吉布斯采樣算法(Gibbs Sampling)進行參數估計.算法核心是根據觀察變量和隱變量的聯合分布構造完全條件概率,進行J輪隨機采樣,在滿足馬爾科夫鏈收斂定理的前提下模擬真實分布.根據貝葉斯定理,zm,n和的完全條件概率分別為

式中:下標i=(m,n);?i(或?m)為當前采樣維度i(或m)以外的維度,不同維度間采樣過程相互獨立;和為當前主題k中特征和出發時間的計數值;和為當前團體m中特征和出發時間對應主題k的計數值.
由于多項式分布Multi(θm)、Multi(φk)、Multi(ψk)均與其先驗狄利克雷分布Diri(α)、Diri(β)、Diri(γ)構成共軛分布,因此,參數θm、φk和ψk對應的后驗分布服從狄利克雷分布,其中,上標為k、v、l的參數采用極大似然法估計,即

基于式(5),給定新的團體,假設特征為,則出發時間的后驗概率可以在主題分布預測結果基礎上計算,即

算法流程如圖2所示.

圖2 Gibbs 采樣算法流程Fig.2 Flowchart of parameter estimation by Gibbs sampling
采用經脫敏的北京市省際道路客運實名制聯網售票數據(簡稱:票務數據),包含2014—2018年3月出京購票記錄.其中:實名制信息僅保留旅客辨識碼、年齡和性別;其余所用字段包括檢票日期、班次號、下單時間及目的地編號,旅客發送量年平均降低13.6%.選取目的地為山西省的樣本進行案例研究,包含1 047 520 名旅客,共1 944 241條出行記錄.
結伴出行通常由1人購買所有車票,故將具有一致毫秒級下單時間和班次號的2 名及以上旅客判定為團體旅客.利用上述算法共識別出320 474個團體,占所有記錄的38.4%.主題模型采用詞袋式特征,利用前述7 個字段提取3 類信息,計算成員特征后作離散化處理,使每個取值具有獨立語義,結果如表1所示(刪除少量相對特定出行目的傾向性不強的取值).其中,“年齡—性別二元組合”表示旅客社會關系,“上下文”衡量旅客關于某個目的地的歷史經驗,“潛在同伴數”借鑒復雜網絡節點度的概念,表征同行網絡規模.將出發時間分為6種:春運、節假日、周末、工作日、暑運周末及暑運工作日.

表1 特征設計及描述Table 1 Feature design and description
為驗證主題模型相較于既有方法在出行目的推斷中的優勢,于2020年1月依托某互聯網平臺實施面向道路客運團體旅客的出行調查.其中,出行目的劃分為公務商務、放假返鄉、旅游休閑及一般私務;其余問項參照票務數據所含信息進行設計.調查共獲得540 份有效數據(簡稱:調查數據),上述4 類出行目的分別占12.2%、34.4%、39.3%及14.1%.
按70%和30%將調查數據劃分為訓練集和測試集,選取神經網絡(ANN)和梯度提升決策樹(GBDT)作為基準模型.為反映樣本分布不平衡條件下分類性能,采用受試者特征曲線下方面積(AUC)評價,如表2所示.

表2 基于AUC 值的模型對比Table 2 Model comparison using AUC values
ANN和GBDT等監督學習方法雖然能較好識別公務商務等目的,但對出行特征典型性較差的一般私務近似隨機猜測(AUC為0.500);相比而言,嵌入出發時間的主題模型分類效果更均衡,且除放假返鄉外均優于基準模型.
超參數K決定聚類精細程度.主題模型多以困惑度衡量最優K值:困惑度越小,對下一特征預測不確定程度越低,聚類效果越好.由于模型具備對出發時間預測能力,而這一能力強弱取決于聚類效果,故綜合困惑度及預測精度確定K值,并間接驗證聚類效果.由式(6),以概率最高1 項和前2項出發時間作為輸出,對應精度記為p1和p2.如圖3所示.
當K=50 時,p1和p2同時取最大值,即0.638和0.909;困惑度隨K增加而降低,在K<35 時,下降較快,此后趨于平緩.為避免K過大時泛化能力不足,取K=50.
為縮短訓練時間,取20%的票務數據訓練模型.Gibbs 算法經歷J輪采樣完成老化過程后,按式(4)和式(5)計算,得到每個主題特征分布和出發時間分布,綜合兩者完成主題標注.過程及結果如圖4所示.
圖4中,左側樹狀圖將50 個主題分層聚類并標注為5種主要、9種次要類型出行目的,下方括號內數字為基于剩余80%數據得到的對應團體比例,任意團體m賦予唯一主題k=arg max;中間柱狀圖為每個主題特征分布;簡化起見,右側條形圖僅列舉主要類型中1 個典型主題的出發時間分布和最主要8項特征的取值概率.

圖3 不同主題數取值情況下模型困惑度及出發時間預測精度Fig.3 Perplexity and precision of start time prediction in case of different values of K

圖4 出行目的推斷結果Fig.4 Result of trip purpose inference
如圖4所示,將青壯年為主且出行頻率較高或出行間隔較短,出發時間多為工作日的主題標注為公務商務;具有初次出行時間較早、多次等特征,且以春運和節假日為主的出行標注為放假返鄉;此前從未去過概率較高,且以節假日或暑運為主的出行標注為旺季旅游.不滿足以上3類典型特征的出行標注為一般私務.有2 種例外情況,其一以老年夫婦結伴1年以上為特征,標注為探親訪友;其余被識別為非常規模式.主題17 和31 反映多人持續1年以上僅在暑運的頻繁出行,主題30和42 反映最短間隔為1 個月且持續1年以上僅在節假日的頻繁出行.因此,放假返鄉和旅游休閑是北京—山西道路客運團體主要出行需求,占比大約為30%;一般私務和公務商務占比較低,非常規模式為7.3%.
計算詹森-香農散度(JS)比較訓練集與測試集的主題分布得知,JS 為0.000 15,表明訓練結果具有極強的可靠性.
2012年底,北京—太原高鐵通車;2014年7月,太原—西安高鐵通車.考慮高鐵開通時序,將目的地區、縣分為3類,即先開通區域(太原),后開通區域(晉西南)和未開通區域.對比各區域出行目的構成情況,如圖5所示.

圖5 3 類區域出行目的構成對比Fig.5 Comparison of trip purpose configuration in three areas
先開通及后開通區域出行目的構成相似,表現出失衡態勢,僅有例外返鄉和旺季、淡季旅游這類非強制出行;而未開通區域仍保留多元化出行目的構成,不存在明顯占主導的出行目的.
以后開通區域5 個區、縣為對象,采用固定效應面板回歸模型,研究在高鐵開通前(2014年),高鐵開通后(2015—2017年)各目的出行量演化影響因素.列出通過F檢驗的6 類出行目的分析結果,如表3所示.

表3 固定效應面板回歸模型結果Table 3 Result of fixed effects panel regression model
由表3可知,各目的出行量均呈萎縮趨勢,但受各因素影響程度不一.其中,例外返鄉受高鐵開通和轎車保有量增加的抑制作用最為顯著,旺季、淡季旅游和私人事務次之,典型返鄉和學生放假抑制作用較小;城鎮化率的增加有助于提升道路客運團體旅客出行量;國內生產總值(GDP)的影響均不顯著.
本文構建嵌入出發時間的主題模型可以在不依賴回訪調查前提下推斷團體旅客出行目的.模型對于主題標注具有同時考慮特征分布和出發時間分布的優勢,對出發時間預測精度為90.9%,證明了模型的有效性;與監督學習方法相比,可以更好地識別私務出行.基于票務數據,模型將50個主題標注為4種常規出行目的,以及無法用既有模型發現和概括,但卻不容忽視的非常規類型.案例分析發現,道路客運出行目的構成呈現顯著地區差異;面板模型分析表明,高鐵開通情況和轎車保有量對6類目的出行量存在負向影響,城鎮化率則具有正向影響.