苗 旭, 王忠宇, 鄒亞杰, 吳 兵
(1.同濟大學 道路與交通工程教育部重點實驗室,上海 201804;2.上海海事大學 交通運輸學院,上海 201306)
固定交通檢測器的數據采集缺失現象對交通數據分析和挖掘等均帶來不利的影響,因此有必要進行缺失數據修復.常見的數據修復方法有歷史均值法[1-3]、插值法[4-5]、主成分分析法[6-8]、時間序列法[9]及機器學習算法[10-11].歷史均值法是最早發展起來的數據修復方法.陸化普等[1]提出了基于歷史數據和當前數據加權平均的數據修復方法.姜桂艷等[2]利用相鄰時段及路段數據對故障數據進行修復.孫玲等[3]基于缺失數據的時空相關性將相關數據加權重構作為缺失數據的修復值.插值法主要分為指數平滑法、樣條插值法及回歸方法.Smith等[4]基于相鄰時段數據的指數平滑值進行故障數據修復.Boyles[5]比較了簡單線性回歸模型、多元線性回歸模型、局部和全局回歸模型、非正態貝葉斯線性回歸模型等方法后指出,雖然回歸算法簡單且容易構建,但是數據修復結果在不同交通狀態下不可靠.Qu等[6-7]和Li等[8]提出了概率主成分分析法、貝葉斯主成分分析法及核概率主成分分析法,指出該類方法數據修復精度優于歷史均值法及樣條插值法.ARIMA(autoregressive integrated moving average model)是常用的時間序列數據修復方法.Ghosh等[9]比較了ARIMA與Holt-Winters指數平滑數據修復方法及隨機游走算法,指出ARIMA是一種有效的數據修復方法.近幾年,機器學習模型也逐漸應用于缺失數據修復.Tang等[10]提出基于模糊C均值與遺傳算……