999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

EM方法對缺失數據的處理及對MNL模型的影響

2017-06-01 11:29:32李綱周海軍郭姝娟左忠義
大連交通大學學報 2017年3期
關鍵詞:差異方法模型

李綱, 周海軍, 郭姝娟,左忠義

(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*

EM方法對缺失數據的處理及對MNL模型的影響

李綱1,2, 周海軍1, 郭姝娟2,左忠義1

(1.大連交通大學 交通運輸工程學院,遼寧 大連 116028; 2.大連海事大學 交通運輸管理學院,遼寧 大連 116026)*

以印度尼西亞首都雅加達都市圈居民個人出行調查數據為例,研究EM數據修補方法對數據以及MNL模型的影響.首先,以原始數據為基礎,通過人為刪除和EM修補分別獲得缺失數據和修補數據.其次,通過Z檢驗,驗證EM修補后的數據更貼近原始數據特征.最后,以三組數據分別建立三組MNL模型,通過Z檢驗等對比分析,表明EM數據修補方法能很好地修正數據缺失對構建模型造成的偏差,為交通政策的制定提供良好的數據基礎.

數據修補方法;期望最大化(EM)算法;MNL模型;交通方式劃分;雅加達都市圈

0 引言

居民個人出行數據是城市交通規(guī)劃、設計、控制和研究工作的重要基礎,但由于調查中的各種原因,獲得的個人出行數據通常是不完整的,這可能會給數據分析和研究結果帶來不利的影響,所以利用數據修補方法對其進行矯正變得非常重要.韓衛(wèi)國[1]等人敘述了數據的缺失方式和常用的修補方法,根據交通流量數據時間上的周期性和空間上的相關性,采用平均值方法、最大期望法和數據增量法等確定性和隨機性方法修補缺失數據,分析了這些方法的優(yōu)缺點,并對修補結果進行比較.鄒曉芳[2]對交通流的故障數據進行有效識別及分析的基礎上,利用自適應權重的兩階段故障數據修復組合模型,研究對故障數據進行修復的方法.Henrickson等[3]基于鏈式方程的多重插補對美國華盛頓州際公路車檢器缺失數據進行處理,結果表明該方法對隨機缺失、日缺失和月缺失數據的修補效果均優(yōu)于傳統(tǒng)線性回歸法.目前對缺失數據修補方法的研究主要針對交通流檢測缺失數據展開[4],但針對居民出行數據的修補仍極為有限.

1 數據修補理論

1.1 數據缺失原因

調查中數據缺失產生的原因主要由兩個方面,其一是調查中由于各種因素形成的無回答,另外是在調查中得到不可使用的信息[5].

1.2 數據缺失機制

數據缺失機制描述的是獲取到的數據集中變量值和缺失數據之間的關系,是將缺失數據視為一個隨機變量并且有指定分布.其主要分為隨機缺失,完全隨機缺失和非隨機缺失三種形式.本文假定數據為隨機缺失[6].

1.3 數據缺失模式

數據缺失模式研究的主要內容是缺失數據 R 的分布.主要有單變量缺失、多變量缺失、單調缺失、任意缺失、文件匹配和因素分析六種模式[6].

1.4 EM修補方法

在統(tǒng)計上對數據缺失值的處理方法有三種:刪除法,填補法和不處理.刪除法對于缺失數據占較大比例時會導致錯誤的結論[7];而不處理的方法對一個沒有任何認知的總體情況下是不實用的,于是如何填補缺失的數據成為大量研究的對象.

EM(expectation maximization)數據修補方法是以觀測數據為基礎,利用缺失數據與未缺失數據的內在聯(lián)系等輔助信息以及缺失值的性質,給數據集中的缺失值提供一種預測分布的方法[8].一般分為E步和M步兩個步驟:

p(θ/Y) 表示參數θ基于觀測數據的觀測后驗分布;p(θ/Y,Z)表示添加數據Z后的關于θ的添加后驗分布;p(Z/θ,Y)表示在參數θ和觀測數據Y一定時,數據Z的條件分布.

假設θ(t)是經過t次迭代之后第(t+1)步開始時后驗分布參數θ的估計值,則第(t+1)次的迭代為

E步:對p(θ/Y,Z)或者logp(θ/Y,Z) 關于Z的條件分布求期望值,目的是把Z積分掉:

(1)

M步:將E步中積分得到的Q(θ/θ(t),Y) 極大化,即求最大值,也即尋找一個值θ(t+1),使得:

(2)

經過以上的E步和M步就會形成一次迭代θ(t)→θ(t+1),θ(t+1)∈M(θ(t)),M(θ(t))是在整個參數空間內使得Q(θ/θ(t) ,Y)取得最大值的θ的每次迭代值所組成的集合.將E步和M步一直循環(huán),直至│θ(t-1)-θ(t)│或者│Q(θ((t+1)/θ(t),Y)-Q(θ(t)/θ(t),Y)│充分小而停止循環(huán)[9].相對于多重修補法,EM修補在實際中更加容易操作[10].

2 個人出行數據修補

本次研究選擇由JICA提供的印度尼西亞首都雅加達都市圈的居民個人出行調查數據作為研究基礎數據,對其先分別隨機刪除實際中容易出現(xiàn)缺失值的4個變量,形成缺失數據,再運用EM方法修補得到修補數據,最后對三組數據進行對比分析.

2.1 完整數據

原始數據包括出行者特征和出行特征共37個變量,21 157條數據.

2.2 缺失數據

利用SPSS隨機生成功能產生含有缺失值的數據集,即對原始數據中的年齡、性別、私家車的出行費用和出行時間分別隨機選擇10%,將其刪除,形成缺失數據集.缺失數據集的樣本數為13 943個,缺失率為34.1%.

2.3 修補數據

根據缺失數據的特性將其分為兩部分分別進行修補,對出行者特性中的缺失數據,即家庭收入和出行者年齡,運用家庭類別、家庭成員數、每月支出、交通費用占支出比、職業(yè)、性別、個人收入變量進行修補.對出行特性中的缺失數據,即小汽車的出行時間和費用,利用過路費和停車費以及各種交通方式的出行費用和時間進行修補.

2.4 修補前后數據對比分析

將完整數據、缺失數據和修補數據進行比較,如表1所示:

表1 修補前后數據對比分析

從期望值可以看出修補數據要比缺失數據更貼近原始數據,標準差也是如此,說明修補數據離散度等統(tǒng)計特性比缺失數據更接近原始數據.

為更為準確的驗證數據修補前后的整體差異,本文采用獨立大樣本情況下的兩個總體均值之差的檢驗方法,即Z檢驗法對數據整體特征進行檢驗.

假設他們兩兩之間期望值無顯著差異, 當兩個方差未知,分別用樣本方差替代,此時的檢驗統(tǒng)計量為:

(3)

表2 修補前后均值Z檢驗

完整數據和缺失數據在變量小汽車出行費用上Z值顯著(Z>1.96),說明缺失對數據估計帶來的明顯偏差.缺失數據和修補數據在出行費用上差異同樣顯著,但完整數據和修補數據均無顯著差異,這說明EM修補數據對缺失數據有很好地矯正作用,相比直接刪除缺失數據,能更好地反映總體特征.

3 EM修補方法對MNL模型的影響

本次研究采用出行方式劃分中的非集計多項Logit模型(MNL)為研究對象.MNL模型采用隨機效用理論,即假設每個出行者都會選擇效用最高的選擇肢,其效用函數由兩部分組成:

(4)

Unj為個人n關于選擇枝j的效用;Vnj為能夠觀測到的因素構成的效用確定項;εnj為不能觀測到的因素構成的效用隨機項.假設每一個隨機εnj項彼此獨立且服從Gumbel分布,則第i個選擇肢被選中的概率為:

(5)

Xik為交通方式i的第k個說明要素(所需時間、費用等);ak為待定參數;j為交通方式個數;Ui為交通方式i的效用函數;Pi為分擔率[11].

3.1 MNL模型的對比分析

以原始完整數據、缺失數據和修補數據為基礎,分別建立三個MNL模型,進行參數標定,結果如表3所示.

表3 三組數據模型參數對比

三個模型整體上標定效果都很好,且整體特征大體一致.以摩托車為參照,對于公交車、小汽車和出租車,這三種交通方式的常數項均99%顯著.相對于摩托車,年齡越小的人越喜歡乘坐公交車,而年齡大的人更喜歡乘坐小汽車.家庭收入可以顯示出收入高的人群更愿意乘坐小汽車和出租車,其次是摩托車,最后是公交車.

與缺失數據模型相比,部分修補數據模型參數的期望值更接近原始數據模型.從標準差看,完整模型到缺失模型變量參數離散程度變大了,缺失數據修補后,變量參數離散程度明顯更接近原始數據,反映出EM方法對模型較好的修補性.

3.2 修補前后MNL模型參數差異性檢驗

從統(tǒng)計意義上對其兩兩分別進行模型參數估計值的差異的顯著性檢驗,即Z檢驗,如表4所示.

以完整數據建立的模型和缺失數據建立的模型參數差異皆顯著,說明數據缺失對模型標定已產生顯著性地影響,產生了不可忽視的偏差.修補數據模型和缺失數據模型在各個變量上的參數都具有顯著性差異,說明數據修補對構建MNL模型產生了積極的影響.修補模型與完整模型也存在差異,這可能是因為EM修補法作為單一修補方式未考慮修補方法本身帶來的誤差.修補數據和原始數據的參數估計差異與缺失數據和原始數據的參數估計差異大部分方向相反,說明EM修補有效地修正了缺失數據對模型估計值產生的偏差,修補趨勢是趨于接近原始數據模型的,修補后的參數估計的標準差也證明了這一點.未來研究中,可以采用多重修補方法考慮數據修補所帶來的偏差.

4 結論

經過對原始數據、缺失數據和修補數據的總體特征及以其分別建立的三個MNL模型參數的對比分析可知,在數據特征方面,EM修補方法對缺失數據所引起的偏差有較好的修正作用,可以在一定程度上還原原始數據的特征.比如在本文分析中,由于小汽車出行費用值的部分缺失,導致了整體出行費用均值顯著偏低,EM修補方法很好地對其進行修正.數據缺失對數據的整體特征的估計產生顯著性的影響,EM修補方法對其有明顯的修正作用.

在模型構建方面,以缺失數據和修補數據所建的MNL模型的參數均與完整數據所建立的MNL模型參數有顯著性的差異,但從參數差異顯著性檢驗統(tǒng)計量Z值來看,修補數據和原始數據的差異與缺失數據和原始數據的差異方向相反,說明EM修補出有效地修正了缺失數據對模型估計值產生的偏差,修補趨勢是趨于貼近原始數據模型的,由此可知,數據缺失對MNL模型的參數估計產生顯著地偏差,而EM修補可以有效地緩解這一偏差.

無論從實踐還是原理方面,相對于簡單地刪除缺失數據的處理方法,EM修補方法可以挽救大量有價值的信息,為交通政策的制定提供良好的數據基礎.

[1]韓衛(wèi)國,王勁峰,胡建軍.交通流量數據缺失值的插補方法[J].交通信息與安全,2005(1):39- 42.

[2]鄒曉芳.城市快速路交通流故障數據修復方法研究[D].北京:北京交通大學,2014.

[3]HENRICKSONK,ZOUY,WANGY.FlexibleandRobustMethodforMissingLoopDetectorDataImputation[J].JournaloftheTransportationResearchRecord,2015(2527):29- 36.

[4]錢超,陳建勛,羅彥斌,等.基于隨機森林的公路隧道運營缺失數據插補方法[J].交通運輸系統(tǒng)工程與信息,2016(3):81- 87.

[5]馮麗紅.調查數據缺失值常用修補方法比較的實證分析[D].石家莊:河北經貿大學,2014.

[6]LITTLE,RUBIN.StatisticalAnalysiswithMissingData[M].NewYork:JohnWiley&Sons,Inc.,2002.

[7]KALTONGRAHAM.CompensatingforMissingSurveyData[M].AnnArbor:SurveyResearchCenter,1983.

[8]LIYB,LIZH,LIL.Missingtrafficdata:comparisonofimputationmethods[J].IETIntell.Transp.Syst.,2014(8)1:51- 57.

[9]龐新生.缺失數據插補處理方法的比較研究[J].統(tǒng)計與決策,2012(24):18- 22.

[10]李昌利,沈玉利.期望最大算法及其應用[J].計算機工程與應用,2008(29):61- 64.

[11]DUSˇANTEODOROVICANDMILANJANIC.TransportationEngineering-Theory,Practice,andModeling[M].London:Butterworth-Heinemann,2016.

EM Imputation to Missing Data and Its Effect on the MNL Model

LI Gang1,2,ZHOU Haijun1,GUO Shujuan2,ZUO Zhongyi1

(1.School of Traffic and Transportation Engineering,Dalian Jiaotong University,Dalian 116028,China; 2.College of Transportation Management,Dalian Maritime University,Dalian 116026,China)

This paper explores the influences of EM imputation on data and MNL models based on personal trip data collected in Jabodetabek metropolitan area, Indonesia. First, missing dataset and imputed dataset are obtained by manually deleting the cases of complete original data and EM imputation, respectively. Secondly, dataset by EM imputation is verified to be more close to the original dataset by statisticsZtest.Finally,theanalysissuchasZtestisconductedtocomparethreeMNLmodelsbuiltonoriginaldataset,missingdatasetandimputeddataset.TheresultrevealsthatEMimputationcaneffectivelycorrectthebiascausedbymissingdatainmodelingbuilding,whichcouldofferagooddatabaseforpolicymaking.

data imputation;expectation maximization (EM) algorithm;multinomial logit model;modal split;Jabodetabek metropolitan area

1673- 9590(2017)03- 0007- 05

2016- 10- 18

中央高校基本科研業(yè)務費專項資金資助項目(3132016213)

李綱(1982-),男,高級工程師,博士,主要從事交通規(guī)劃和出行行為方面的研究E-mail:LIGangPE2012@hotmail.com.

A

猜你喜歡
差異方法模型
一半模型
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
找句子差異
生物為什么會有差異?
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产亚洲精久久久久久无码AV| 国产主播福利在线观看| 亚洲AV无码乱码在线观看代蜜桃| 黄色网址手机国内免费在线观看| 波多野结衣一区二区三区88| 青草精品视频| 日韩专区欧美| 欧美a级在线| 国产欧美中文字幕| 亚洲一道AV无码午夜福利| 久久综合干| 久久国产精品嫖妓| 欧美另类图片视频无弹跳第一页| 国产真实自在自线免费精品| 日本一区二区三区精品国产| 曰AV在线无码| 欧美成一级| 国产日韩久久久久无码精品| 亚洲AⅤ无码国产精品| 99这里精品| 欧美五月婷婷| 国产欧美日韩精品第二区| 99久久精品国产精品亚洲| 亚洲精品无码AV电影在线播放| 久久狠狠色噜噜狠狠狠狠97视色| 国产精品视屏| 欧美亚洲欧美| 久久无码av一区二区三区| 麻豆精品在线| 国产女同自拍视频| 日本三级欧美三级| 综合天天色| 国产迷奸在线看| 波多野结衣久久精品| 无码福利日韩神码福利片| 美女一级免费毛片| 国产一级小视频| 亚洲国产综合精品一区| 国产在线自在拍91精品黑人| 国产成人亚洲无吗淙合青草| 精品久久高清| 国产日韩欧美一区二区三区在线 | 四虎永久在线视频| 欧美成人日韩| 不卡无码h在线观看| 欧美亚洲一二三区| 国产 日韩 欧美 第二页| 国产三级成人| 99久久国产综合精品女同| 亚洲v日韩v欧美在线观看| 亚洲伊人久久精品影院| 精品一区二区三区无码视频无码| 思思99思思久久最新精品| 国产丝袜无码精品| 精品99在线观看| a毛片免费看| 人人91人人澡人人妻人人爽| 日韩美毛片| 青青热久免费精品视频6| 国产素人在线| 国产成人精品免费av| 国内精品自在欧美一区| 亚洲欧美精品在线| 亚洲av日韩av制服丝袜| 欧美a√在线| 日韩欧美成人高清在线观看| 91亚洲精选| 麻豆a级片| 亚洲精品第五页| 欧美高清国产| 潮喷在线无码白浆| 四虎影视库国产精品一区| 久操线在视频在线观看| 亚洲va在线观看| 久久成人国产精品免费软件| 国产又黄又硬又粗| 国产网站一区二区三区| 国产精品自在线天天看片| 夜精品a一区二区三区| 亚洲综合片| 精品国产一区91在线| 青青青亚洲精品国产|