999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機(jī)的低收入通勤者出行方式預(yù)測(cè)*

2016-08-29 05:45:06陳學(xué)武王海嘯
關(guān)鍵詞:分類模型

程 龍 陳學(xué)武 楊 碩 王海嘯

(東南大學(xué)城市智能交通江蘇省重點(diǎn)實(shí)驗(yàn)室1) 南京 210096)(現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心2) 南京 210096)

?

基于支持向量機(jī)的低收入通勤者出行方式預(yù)測(cè)*

程龍1,2)陳學(xué)武1,2)楊碩1,2)王海嘯1,2)

(東南大學(xué)城市智能交通江蘇省重點(diǎn)實(shí)驗(yàn)室1)南京210096)(現(xiàn)代城市交通技術(shù)江蘇高校協(xié)同創(chuàng)新中心2)南京210096)

為了研究支持向量機(jī)(SVM)在出行行為分析中的適用性,分析低收入通勤者的出行方式選擇,構(gòu)建了基于支持向量機(jī)的出行方式選擇預(yù)測(cè)建模流程,并對(duì)模型求解.基于撫順市居民出行調(diào)查數(shù)據(jù),統(tǒng)計(jì)結(jié)果表明低收入通勤者與非低收入通勤者的社會(huì)經(jīng)濟(jì)屬性特征和活動(dòng)特征具有顯著差異.選取分方式的分類預(yù)測(cè)準(zhǔn)確率、總體分類預(yù)測(cè)準(zhǔn)確率和平均絕對(duì)百分比誤差3個(gè)指標(biāo),通過(guò)與傳統(tǒng)的多項(xiàng)Logit模型對(duì)比,發(fā)現(xiàn)支持向量機(jī)對(duì)分類數(shù)據(jù)具有較好的擬合能力,出行方式選擇的預(yù)測(cè)準(zhǔn)確率更高.

出行方式選擇;支持向量機(jī);預(yù)測(cè)能力;低收入通勤者

0 引  言

研究分類變量選擇較常用的方法是離散選擇模型,但傳統(tǒng)的統(tǒng)計(jì)建模方法有一定不足,如要求樣本數(shù)據(jù)呈正態(tài)分布的假設(shè)、假設(shè)效用函數(shù)中自變量間呈線性關(guān)系等.當(dāng)數(shù)據(jù)不能滿足上述假設(shè)時(shí),傳統(tǒng)的建模方法得出的結(jié)論將會(huì)產(chǎn)生偏差.為了克服傳統(tǒng)方法的不足,有學(xué)者提出非參數(shù)建模方法來(lái)分析交通選擇問(wèn)題,支持向量機(jī)(SVM)則是其中一種用于解決分類和回歸問(wèn)題比較新的方法[1],近年來(lái)被廣泛應(yīng)用于交通研究中.

Zhang等[2]運(yùn)用支持向量機(jī)對(duì)高速公路短時(shí)交通流量進(jìn)行預(yù)測(cè),認(rèn)為支持向量機(jī)能夠克服數(shù)據(jù)過(guò)度擬合和局部極小解的問(wèn)題,具有更好的預(yù)測(cè)能力.Chen等[3]基于加州I-880號(hào)公路的交通事故數(shù)據(jù),發(fā)現(xiàn)支持向量機(jī)在交通事故檢測(cè)方面具有較強(qiáng)的能力.Li等[4]證明支持向量機(jī)比傳統(tǒng)負(fù)二項(xiàng)回歸模型在事故嚴(yán)重等級(jí)預(yù)測(cè)方面的準(zhǔn)確性更高,且收斂速率快.通過(guò)佛羅里達(dá)州326處高速公路分流區(qū)交通事故數(shù)據(jù)的分析,Li等[5]發(fā)現(xiàn)支持向量機(jī)在事故嚴(yán)重等級(jí)預(yù)測(cè)準(zhǔn)確率比有序Probit模型高.可以看出,支持向量機(jī)在處理數(shù)據(jù)分類問(wèn)題時(shí),比傳統(tǒng)的統(tǒng)計(jì)模型有較高的數(shù)據(jù)擬合能力[6].

以往的研究多聚焦在交通流預(yù)測(cè)、交通事故分析等,較少研究出行方式選擇行為.低收入通勤者作為社會(huì)的構(gòu)成的重要階層,在“交通公平性”的背景下,研究低收入者的出行行為具有重要意義.本研究基于支持向量機(jī)分析低收入通勤者出行方式選擇行為,探討其在出行行為分析方面的適用性,以豐富和增強(qiáng)交通需求預(yù)測(cè)的基礎(chǔ)理論.

1 數(shù)據(jù)來(lái)源及描述性統(tǒng)計(jì)

數(shù)據(jù)來(lái)自2014年10月29日(星期三)的遼寧省撫順市居民出行調(diào)查.調(diào)查內(nèi)容分為2部分:(1)家庭和個(gè)人特征;(2)被調(diào)查者的1天出行記錄.在對(duì)調(diào)查數(shù)據(jù)校核和篩選后,最終獲得了8 585個(gè)有效個(gè)體樣本.經(jīng)濟(jì)合作與發(fā)展組織提出的國(guó)際貧困線標(biāo)準(zhǔn)為當(dāng)?shù)厝司芍涫杖氲?0%[7].由此,2014年撫順市的貧困標(biāo)準(zhǔn)為1.4萬(wàn)元/年.然后基于職業(yè)屬性,1 973個(gè)樣本被識(shí)別為低收入通勤者.

通過(guò)對(duì)比,發(fā)現(xiàn)低收入和非低收入通勤者的社會(huì)經(jīng)濟(jì)屬性和活動(dòng)屬性特征具有差異性,見(jiàn)表 1.低收入通勤者具有如下特征:家庭規(guī)模較大,小汽車(chē)擁有率較低,公交卡擁有率高,受教育水平較低;全日較少組織多個(gè)出行鏈,生存型活動(dòng)(指上班和上學(xué))時(shí)耗較長(zhǎng),機(jī)動(dòng)化出行以公共交通為主,小汽車(chē)的出行比例較低.低收入和非低收入者選擇自行車(chē)和電動(dòng)車(chē)出行的比例都較低,這是因?yàn)閾犴樖形挥谖覈?guó)東北地區(qū),受氣候和地形地貌的限制(天氣冷、道路坡度大),騎行環(huán)境較差.

表1 社會(huì)經(jīng)濟(jì)屬性和活動(dòng)屬性特征差異

由于本研究涉及個(gè)體社會(huì)經(jīng)濟(jì)屬性、活動(dòng)屬性和方式選擇之間的關(guān)系,變量數(shù)量眾多,相互之間關(guān)系層次復(fù)雜,為了提高初始模型設(shè)定的準(zhǔn)確性和有效性,需要對(duì)各變量間的關(guān)系進(jìn)行顯著性檢驗(yàn).表1中的離散變量有家庭規(guī)模,自行車(chē)、電動(dòng)車(chē)、小汽車(chē)擁有率,性別,駕照和公交卡擁有率,年齡,受教育程度,出行鏈個(gè)數(shù).連續(xù)變量有出行時(shí)耗和生存型活動(dòng)時(shí)耗.卡方檢驗(yàn)(Pearson’s chi-squared)用于檢驗(yàn)離散變量與出行方式選擇之間的顯著性,單因素方差分析(ANOVA)用于檢驗(yàn)連續(xù)變量與出行方式選擇之間的顯著性.從檢驗(yàn)結(jié)果發(fā)現(xiàn),表 1中的變量都與出行方式選擇顯著相關(guān),因此在建模時(shí)均予考慮.

2 研究方法

2.1支持向量機(jī)

支持向量機(jī)是從觀測(cè)樣本數(shù)據(jù)出發(fā)運(yùn)用統(tǒng)計(jì)學(xué)的方法,對(duì)樣本數(shù)據(jù)規(guī)律進(jìn)行學(xué)習(xí),研究其內(nèi)在的相互關(guān)聯(lián)聯(lián)系,同時(shí)利用該規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)估計(jì).支持向量機(jī)的模型定義為特征空間上間隔最大的線性分類器,基本思想是尋找能夠?qū)⑷坑?xùn)練樣本點(diǎn)正確分類的最優(yōu)分類面,同時(shí)保證距離該分類面最近的樣本點(diǎn)與其間隔最大.學(xué)習(xí)策略是間隔最大化,最終轉(zhuǎn)化為凸二次規(guī)劃求解問(wèn)題.

式中:w為分類面的法向量;b為常數(shù)項(xiàng).

當(dāng)訓(xùn)練樣本集在低維空間不可分時(shí),可以通過(guò)添加核函數(shù)K(xi,xj)將數(shù)據(jù)映射到高維空間中,以求解在原始空間中線性不可分的問(wèn)題.當(dāng)數(shù)據(jù)存在噪聲,可引入非負(fù)松弛變量εi≥0和懲罰因子C作為綜合權(quán)重來(lái)處理,則式(1)的最優(yōu)化問(wèn)題變?yōu)?/p>

2.2建模流程

基于支持向量機(jī)的低收入通勤者出行方式選擇預(yù)測(cè)建模流程如下.

1) 選擇影響低收入通勤者出行方式選擇的變量,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)造訓(xùn)練樣本數(shù)據(jù)集.基于變量間的相關(guān)性檢驗(yàn)結(jié)果,表 1中的所有變量均作為預(yù)測(cè)模型的輸入.

3) 構(gòu)造優(yōu)化問(wèn)題,如式(2)所示,并對(duì)參數(shù)進(jìn)行求解.

4) 求得最優(yōu)解構(gòu)建的決策函數(shù),用測(cè)試樣本數(shù)據(jù)集預(yù)測(cè)其他低收入通勤者出行方式選擇結(jié)果.

模型建立后,采用5折交叉驗(yàn)證來(lái)評(píng)價(jià)模型精度.也就是將原始數(shù)據(jù)均分成5組,將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的4組子集數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到5個(gè)模型,用這5個(gè)模型驗(yàn)證集的分類準(zhǔn)確率的平均值作為分類器的性能指標(biāo).5折交叉驗(yàn)證可以有效的避免過(guò)學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果具有說(shuō)服力.

對(duì)訓(xùn)練樣本集學(xué)習(xí)過(guò)程中,需要確定兩個(gè)參數(shù),即懲罰因子C和核函數(shù)參數(shù)r.采用網(wǎng)格搜索算法對(duì)參數(shù)尋優(yōu),網(wǎng)格搜索算法屬于啟發(fā)式算法,不必遍歷區(qū)間內(nèi)所有的參數(shù)組就能找到全局最優(yōu)解,具有收斂速度快的特性.

3 分析結(jié)果

3.1支持向量機(jī)

使用LIBSVM軟件包[8]來(lái)進(jìn)行支持向量機(jī)模型的標(biāo)定,事先將總體樣本按照4∶1的比例隨機(jī)分成訓(xùn)練樣本集和測(cè)試樣本集.為了減少數(shù)據(jù)隨機(jī)分配產(chǎn)生的誤差,做了6次試驗(yàn)以對(duì)低收入通勤者出行方式選擇進(jìn)行訓(xùn)練和測(cè)試.

以第1次試驗(yàn)為例,詳細(xì)介紹SVM的訓(xùn)練和測(cè)試過(guò)程.首先按4∶1的比例將總體數(shù)據(jù)分成1 578個(gè)訓(xùn)練樣本和395個(gè)測(cè)試集樣本.然后,采用5折交叉驗(yàn)證和網(wǎng)格搜索法進(jìn)行參數(shù)(C,r)尋優(yōu),最終結(jié)果見(jiàn)圖 1.當(dāng)訓(xùn)練集驗(yàn)證分類準(zhǔn)確率最高時(shí),C=147.033 4,r=0.006 8,此時(shí)的訓(xùn)練集驗(yàn)證分類準(zhǔn)確率是62.29%.這樣就得到了對(duì)訓(xùn)練樣本學(xué)習(xí)過(guò)程的模型,該模型是一個(gè)結(jié)構(gòu)體,由該結(jié)構(gòu)體中參數(shù)可以得到?jīng)Q策函數(shù),該決策函數(shù)將用于測(cè)試樣本集數(shù)據(jù)的預(yù)測(cè).

圖1 支持向量機(jī)參數(shù)尋優(yōu)結(jié)果

6次試驗(yàn)的分類準(zhǔn)確率匯總情況見(jiàn)表 2.可以發(fā)現(xiàn),支持向量機(jī)在訓(xùn)練樣本集上分類準(zhǔn)確率要大于測(cè)試樣本集.訓(xùn)練樣本數(shù)據(jù)分類準(zhǔn)確率平均值是68.59%,測(cè)試樣本數(shù)據(jù)分類準(zhǔn)確率平均值是64.66%.此外,對(duì)于大樣本量的數(shù)據(jù),支持向量機(jī)有很好的分類能力,如步行和公共交通,兩者在測(cè)試樣本中分類準(zhǔn)確率分別是68.96%和76.84%.但對(duì)于小樣本量的數(shù)據(jù),支持向量機(jī)的分類能力較差,如自行車(chē)和電動(dòng)車(chē),兩者在測(cè)試樣本中分類準(zhǔn)確僅為16.34%和10.73%.這是因?yàn)橹С窒蛄繖C(jī)在工作過(guò)程中為提高整體分類準(zhǔn)確率,會(huì)忽視小樣本量數(shù)據(jù)提供的信息.這個(gè)問(wèn)題廣泛存在于多分類技術(shù)手段中,如分類樹(shù)、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)[9].

表2 支持向量機(jī)的分類準(zhǔn)確率

3.2與多項(xiàng)Logit預(yù)測(cè)能力的對(duì)比

為了對(duì)比支持向量機(jī)與多項(xiàng)Logit(MNL)模型在低收入通勤者出行方式選擇的預(yù)測(cè)能力,基于相同的數(shù)據(jù)用MNL模型也做了6次試驗(yàn),首先用訓(xùn)練樣本數(shù)據(jù)對(duì)MNL模型中的參數(shù)求解,然后基于求解的參數(shù)模型對(duì)測(cè)試樣本集中數(shù)據(jù)進(jìn)行預(yù)測(cè).選取3個(gè)指標(biāo)進(jìn)行對(duì)比,分別是分方式的分類預(yù)測(cè)準(zhǔn)確率、總體預(yù)測(cè)準(zhǔn)確率和平均絕對(duì)百分比誤差.

1) 分方式的分類預(yù)測(cè)準(zhǔn)確率是指某種交通方式預(yù)測(cè)準(zhǔn)確的樣本量占選擇該交通方式總樣本量的比例,結(jié)果見(jiàn)表 3.可以看出,各方式的平均預(yù)測(cè)準(zhǔn)確率SVM均比MNL高,特別對(duì)于樣本量較小的自行車(chē)和電動(dòng)車(chē)兩種出行方式,SVM準(zhǔn)確率比MNL高很多,約10%,表明MNL模型在小樣本量數(shù)據(jù)上分類能力更差.

表3 分方式平均預(yù)測(cè)準(zhǔn)確率 %

2) 總體分類預(yù)測(cè)準(zhǔn)確率是指所有交通方式預(yù)測(cè)準(zhǔn)確的樣本量占總體樣本量的比例.SVM的總體分類預(yù)測(cè)準(zhǔn)確率高于MNL,兩者分別為64.66%和61.94%.此外,6次試驗(yàn)中SVM預(yù)測(cè)準(zhǔn)確率的方差為1.67,而MNL的方差為4.82,說(shuō)明SVM在出行方式選擇方面的預(yù)測(cè)能力較為穩(wěn)定,方差較小.

3) 平均絕對(duì)百分比誤差為預(yù)測(cè)值與實(shí)際值的差值占實(shí)際值百分比的算術(shù)平均數(shù),公式為

(3)

(4)

式中:PEi為第i種交通方式選擇的百分比誤差;n為交通方式種類,本研究有5種;Xi為第i種交通方式實(shí)際選擇的樣本數(shù);Fi為第i種交通方式預(yù)測(cè)的樣本數(shù).指標(biāo)對(duì)比結(jié)果見(jiàn)表 4,除第3次試驗(yàn)外,SVM的預(yù)測(cè)平均絕對(duì)百分比誤差均小于MNL模型.而且從6次試驗(yàn)整體看,SVM的預(yù)測(cè)平均絕對(duì)百分比誤差要小于MNL模型.

表4 平均絕對(duì)百分比誤差 %

從3個(gè)指標(biāo)的對(duì)比可以看出,支持向量機(jī)比MNL模型在出行方式選擇的預(yù)測(cè)能力要好,支持向量機(jī)具有較高的處理數(shù)據(jù)分類問(wèn)題的能力,在出行行為分析中具有較好的適用性.

4 結(jié) 束 語(yǔ)

基于撫順市居民出行調(diào)查數(shù)據(jù),發(fā)現(xiàn)低收入通勤者與非低收入通勤者的社會(huì)經(jīng)濟(jì)屬性特征和活動(dòng)特征具有顯著差異.構(gòu)建了基于支持向量機(jī)的出行方式選擇預(yù)測(cè)建模流程,然后對(duì)低收入通勤者的出行方式選擇行為進(jìn)行分析,通過(guò)與MNL模型預(yù)測(cè)能力的對(duì)比,發(fā)現(xiàn)支持向量機(jī)在處理分類數(shù)據(jù)方面具有較高的擬合能力,在出行行為分析中具有較好的適用性.研究結(jié)論將為居民出行行為分析提供新的研究思路,豐富和增強(qiáng)交通需求預(yù)測(cè)分析的理論基礎(chǔ).但是,本研究?jī)H分析了支持向量機(jī)與MNL模型預(yù)測(cè)能力的對(duì)比,以后的研究可進(jìn)一步考慮與其他傳統(tǒng)統(tǒng)計(jì)模型,如巢式Logit、混合Logit等的預(yù)測(cè)能力對(duì)比.

[1]鄭文昌,陳淑燕,王宣強(qiáng).面向不平衡數(shù)據(jù)集的SMOTE-SVM交通事件檢測(cè)算法[J].武漢理工大學(xué)學(xué)報(bào),2012,34(11):58-62.

[2]ZHANG Y L, XIE Y C. Forecasting of short-term freeway volume with v-support vector machines[J]. Transportation Research Record: Journal of the Transportation Research Board,2007,2024:92-99.

[3]CHEN S Y, WANG W, HENK J Z. Construct support vector machine ensemble to detect traffic incident[J]. Expert Systems with Applications,2009,36(8):10976-10986.

[4]LI X G, LORD D, ZHANG Y L, ME Y C. Predicting motor vehicle crashes using support vector machine models[J]. Accident Analysis and Prevention,2008,40(4):1611-1618.

[5]LI Z, LIU P, WANG W, et al. Using support vector machine models for crash injury severity analysis[J]. Accident Analysis and Prevention,2012,45:478-486.

[6]ALLAHVIRANLOO M, RECKER W. Daily activity pattern recognition by using support vector machines with multiple classes[J]. Transportation Research Part B: Methodological,2013,58:16-43.

[7]莫泰基.香港貧困與社會(huì)保障[M].香港:中華書(shū)局,1993.

[8]CHANG C C, Lin C J.LIBSVM: A library for support vector machines[EB/OL]. https://www.csie.ntu.edu.tw/~cjlin/libsvm/,2007.

[9]CHANG L Y, WANG H W. Analysis of traffic injury severity: an application of non-parametric classification tree techniques[J]. Accident Analysis and Prevention,2006,38(5):1019-1027.

Mode Choice Prediction of Low Income Commuters Based on Support Vector Machine

CHENG Long1,2)CHEN Xuewu1,2)YANG Shuo1,2)WANG Haixiao1,2)

(JiangsuKeyLaboratoryofUrbanITS,SoutheastUniversity,Nanjing210096,China)1)(JiangsuProvinceCollaborativeInnovationCenterofModernUrbanTrafficTechnologies,Nanjing210096,China)2)

To explore the applicability of support vector machine (SVM) in travel behavior analysis and shed light on mode choice of low income commuters, model specification scheme of mode choice prediction based on SVM is established. Statistics indicate that low income commuters have distinct socio-economic characteristics and activity characteristics from non-low income commuters based on the travel survey data of Fushun. SVM possesses high fitting ability on categorical data and provides better prediction accuracy of mode choice than traditional Multinomial Logit model from three indicators including the individual percentage of correct predictions, overall percentage of correct predictions and mean absolute percentage error.

mode choice; support vector machine; prediction ability; low income commuters

2016-07-07

U491.1

10.3963/j.issn.2095-3844.2016.04.010

程龍(1989- ):男,博士生,主要研究領(lǐng)域?yàn)閺氖陆煌ǔ鲂行袨榉治雠c需求建模

*國(guó)家自然科學(xué)基金項(xiàng)目(51178109、51338003)、國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃項(xiàng)目(973計(jì)劃)(2012CB725402)資助

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产精品女在线观看| 国产网友愉拍精品| 久久久无码人妻精品无码| 色悠久久久久久久综合网伊人| 国产精品免费电影| 国产精品v欧美| 亚洲丝袜第一页| 二级特黄绝大片免费视频大片| 色悠久久久久久久综合网伊人| 美女国产在线| 无码精品一区二区久久久| 久久久久中文字幕精品视频| 国产又粗又爽视频| 亚洲成网777777国产精品| 波多野结衣亚洲一区| 欧美精品1区| 欧美一级夜夜爽www| 国产靠逼视频| 国产精品3p视频| 国产女人水多毛片18| 婷婷色婷婷| 久久精品免费看一| jizz在线免费播放| 亚洲福利一区二区三区| 欧美一级大片在线观看| 18禁高潮出水呻吟娇喘蜜芽| 亚洲欧洲自拍拍偷午夜色| 国产人成在线视频| 亚洲侵犯无码网址在线观看| julia中文字幕久久亚洲| 国产一区二区人大臿蕉香蕉| www.亚洲一区二区三区| 精品国产网| 亚洲日韩精品综合在线一区二区| 777午夜精品电影免费看| 人人妻人人澡人人爽欧美一区| 久久精品这里只有精99品| 免费av一区二区三区在线| 国产91全国探花系列在线播放| 国产网站免费| 国产精品区网红主播在线观看| 老司机aⅴ在线精品导航| 无码精品福利一区二区三区| 久久99热这里只有精品免费看| 国产精品人成在线播放| 97青草最新免费精品视频| 亚洲国产AV无码综合原创| 片在线无码观看| 9啪在线视频| 99精品影院| 亚洲无限乱码| 国产女人在线| 专干老肥熟女视频网站| 强奷白丝美女在线观看| 国产成人无码播放| 18禁影院亚洲专区| 国产99视频精品免费视频7| 国产精品免费久久久久影院无码| 在线国产毛片| 麻豆国产原创视频在线播放| 亚洲午夜天堂| 久青草网站| 亚洲成a∧人片在线观看无码| 欧美乱妇高清无乱码免费| 一本二本三本不卡无码| 国产粉嫩粉嫩的18在线播放91| 欧美午夜网| 久久久久人妻一区精品| 国产精品无码AⅤ在线观看播放| 亚洲欧洲日韩久久狠狠爱| 色亚洲成人| 国产中文一区a级毛片视频| 婷婷六月激情综合一区| 国产极品美女在线播放| 国产va免费精品观看| 亚洲第一黄色网址| 亚洲第一视频网| 色呦呦手机在线精品| 波多野结衣一二三| 色婷婷狠狠干| 色屁屁一区二区三区视频国产| 久久久久亚洲精品成人网 |