范藝璇 闞秀 曹樂 沈頡



摘 要: 針對城市道路上輕型車的行駛工況問題,分析福建省莆田市某實際道路采集的行駛數據和道路交通運行特征,對實采數據進行清洗并劃分成運動學片段,根據車輛運行機制和運動學片段統計分布特點,采用PCA方法對特征參數進行降維處理,設計改進的PSO-K-means算法構建車輛行駛工況,并從10個主要特征參數角度與實際工況進行對比,結果表明所構建工況能夠準確反映車輛在實際道路上的行駛特征,說明使用改進PSO-K-means算法構建輕型車行駛工況的合理性和有效性。
關鍵詞: PCA分析; 數據清洗; 改進PSO-K-means算法; 行駛工況
文章編號: 2095-2163(2021)07-0080-07中圖分類號:TP391文獻標志碼: A
Application of improved PSO-K-means algorithm in the estimation of driving cycle
FAN Yixuan, KAN Xiu, CAO Le, SHEN Jie
(School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai 201620, China)
【Abstract】Aiming at the driving cycle of light vehicles on urban roads, the driving data and road traffic operation characteristics collected from a real road in Putian City, Fujian Province are analyzed. The collected data are cleaned and divided into kinematic segments. According to the vehicle operation mechanism and the statistical distribution characteristics of kinematic segments, PCA method is used to reduce the dimension of the characteristic parameters, and the improved PSO-K-means algorithm is designed to construct vehicle driving cycle. The paper compares the constructed driving cycle and actual driving cycle from the perspective of 10 main characteristic parameters. The results show that the constructed driving cycle can accurately reflect the driving characteristics of the vehicle on the actual road, which shows the rationality and effectiveness of using the improved PSO-K-means algorithm to construct the driving cycle of light vehicles.
【Key words】PCA analysis; data cleaning; improved PSO-K-means algorithm; driving cycle
0 引 言
近年來,隨著乘用車保有量的迅猛增長,道路交通、能源消耗和排放污染等一系列問題隨之出現,行駛工況作為衡量車輛能耗、排放測試和行駛特征的重要標準,其構建問題一直受到相關領域學者的廣泛關注[1-5]。由于各城市發展背景和環境不同,采用統一的行駛工況標準進行汽車能耗/排放等認證顯然不合適,因此,依據不同城市的實際汽車行駛數據,構建反映實際道路行駛工況具有重要的研究意義。
為適應不同地區的車輛行駛特征和道路條件,現有行駛工況研究大多針對具體的地區展開。劉燕[6]應用K-means聚類方法研究了具有山地道路特性的重慶市行駛工況。高建平等人[7]采用主成分分析和改進的模糊聚類(FCM)方法構建了符合鄭州市交通特征的行駛工況。Amirjamshidi等人[8]運用多目標遺傳(MOGA)算法構建了多倫多市卡車的行駛工況,并進行了車輛排放試驗。宋怡帆[9]使用改進的AP聚類方法針對深圳市的輕型車進行行駛工況分析。劉子譚等人[10]從估計區間的角度改進K-means聚類方法,并研究了廣州市的輕型車行駛工況。
本文基于莆田市某型號汽車的行駛數據,利用改進的PSO-K-means算法構建了適應該地區該車型的行駛工況,論文的具體內容結構如圖1所示。第2節介紹了基于改進的PSO-K-means算法的流程。第3節闡述了數據清洗的過程和運動學片段的劃分。第4節根據運動學片段分布特點和車輛行駛特征,提取典型特征參數,通過 PCA對典型特征降維,得到4個主要成分。第5節基于改進的PSO-K-means算法,構建汽車行駛工況,并結合車輛實際運行情況,評估所構建行駛工況的合理性。
1 改進PSO-K-means算法
粒子群優化算法[11](PSO) 是一種進化計算技術,具有易實現、收斂快和精度高等優點,且對初始值要求不高,而K-means聚類方法具有聚類效果好但對初始中心點敏感的特點,本文將PSO算法和K-means方法結合,使得改進后的PSO-K-means算法實現對行駛工況的精確快速估計。PSO-K-means算法的流程如下所示:
(1)初始化粒子群:隨機生成m個粒子,每個粒子的位置由k個樣本的d個特征信息決定,即初始聚類中心位置。
(2)利用適應度函數計算每個粒子的個體極值和全局最優值的適應度值,適應度定義如下:
其中,Cj為k個聚類中心對應的k個類別;Si為類Cj中的其他所有點;Zj為聚類中心。初始化粒子速度vi(t),計算個體適應值,確定個體極值位置xBesti和種群達到的全局最優位置xgBest。
(3)設置最大迭代次數tmax,當前迭代次數t=1。設置判斷粒子群收斂速度的適應度方差閾值為θ,方差σ2計算公式如下:
其中, f(xi)為粒子i的適應度值, favg為所有粒子的適應度均值。
(4)根據每個粒子的個體極值位置xBesti和全局最優位置xgBest,按以下公式更新粒子的速度與位置信息:
其中,xi(t)為第i個粒子所在的位置; vi(t)為第i個粒子的速度;c1,c2分別為慣性因子和約束因子ρ1和ρ2為取值[0,1]區間的隨機數;ω(t)為慣性權重。
針對理想PSO算法中前期全局搜索強后期局部搜索強的特點,對ω(t)值采用如下公式刻畫的自適應操作[12]:
其中,ωmax為最大慣性權重,ωmin為最小慣性權重。
(5)判斷當前迭代次數t是否等于最大迭代次數tmax,如果t=tmax則輸出適應度值最小的粒子為k個聚類中心;如果t
(6)計算種群中每個個體與以上步驟中得到的聚類中心之間的距離,按照如下公式計算個體a與個體b第h個特征之間的距離:
將每個樣本歸為距離最近的中心點,更新每個數據簇的中心點。
(7)重復步驟(6)直至聚類中心不發生變化,算法結束。
2 數據清洗與運動學片段提取
行駛數據來自于車聯網管理平臺數據庫,車輛通過無線傳輸設備將車載傳感器數據信息發送至車聯網管理平臺數據庫,由于GPS信號丟失、環境因素或傳感器老化等因素會造成數據部分丟失、不連續和異常等現象,為盡可能真實地還原車輛實際行駛狀況,首先要對原始數據進行清洗,本文通過對汽車行駛時相應參數變化的分析,對原始數據的丟失或異常部分進行插值擬合、替換和剔除等清洗處理操作,具體清洗處理流程如圖2所示。
2.1 缺失數據值處理
(1)若信號丟失前車速>10 km/h,且GPS車速不為0,采用如下插值方法將丟失數據補齊,此時需用到的公式為:
xi,...,xi+n-1=xi,...,xi+n-1三次樣條插值傅里葉插值0n=00<n≤100100<n≤300n>300i=0,1,...,k (7)
其中,n為丟失數據點,數據點的間隔以s為單位。
(2)若信號丟失前車速<10 km/h,則視為異常,將該信號缺失段的數據點刪除。
2.2 異常數據值處理
(1)存在汽車加、減速異常的數據(此型號輕型車一般情況下:0~100 km/h的加速度時間大于7 s,緊急剎車最大減速度在7.8~8? m/s2),因此針對2.1節中已經插補后的數據值的情況,通過雙樹復小波算法,查找加減速異常值,然后對異常值進行篩選和剔除。
將行駛工況看作一個隨時間變化的離散小波信號,基于雙樹復小波變換[13],默認汽車加速狀態下的加速度為平均加速度,剎車狀態下的最大減速度為瞬時減速度。以2017-12-18 18:01:50至2017-12-18 18:08:29中400組數據為例,選取時刻記為ti(i=1,2,…,400)。并截取其時間—車速圖像,設ti時刻速度vi數據異常,通過小波分析將異常點篩選,并按如下公式得到更正點v'i,數學公式可寫為:
其中,vi+a表示ti時刻前a個點的速度;vi-a表示ti時刻后a個點的速度;n為數據點數。
圖3為一段含異常點的時間-速度圖,虛線框處速度和加速度值出現異常,按照上述處理方式,可以得到更正后的時間-速度圖如圖4所示。
(2)調查表明福建省交通信號紅燈持續時間一般不大于180 s,因此設定車輛的最長怠速時間為180 s。對于車輛處于怠速且怠速時間超過180 s的時間段以及發動機轉速為0但采集設備仍運行的情況下的數據點進行刪除,對于怠速時間在180 s之內的數據段車速置為0。將車速跳變的地方用連線表示出來,其密集程度表示車速數據的連貫性。
經過2.1節和2.2節對原始數據清洗處理后,處理前后數據如圖5和圖6所示,具體就是車速密連貫性圖,序列號為數據的編號,但是時間并非連續的,所以縱軸的尺度較之橫軸大。圖5中,顏色越深處表示清洗處理前數據缺失量越大。由圖6可以看出,清洗處理后數據較為均勻,能夠反映真實的行駛狀況,為后續構建合理的行駛工況提供依據。
2.3 運動學片段的提取
運動學片段是指汽車從一個怠速狀態開始至下一個怠速狀態開始之間的車速區間,且一個標準的運動學片段需要包括加速狀態、減速狀態、巡航/勻速狀態和怠速狀態[14]。提取步驟為:將車速較慢且時間不長的片段進行降噪處理,將片段時間小于20 s的剔除,遍歷所有數據點,遇到速度為0的點即記錄該位置為起始點,當速度從非0點跳至0的時刻,記該位置為結束點,結束點與起始點之間的時間片段大于20 s則保留為運動學片段,重復此過程操作,具體運動學片段提取算法流程如圖7所示。
基于所給行駛數據,按照上述步驟提取出3 408個運動學片段。
3 特征參數
3.1 提取有效特征參數
分析車輛行駛機制和運動學片段分布特點,選取10個主要特征參數,見表1。
表1中,S=∑ki=1Vi,j=1,2,3,...,k,是該運動學片段所有數據點速度的總和,T代表該運動學片段的總點數,Ti為速度為0的數據點的總個數,Ta為該運動學片段中加速度不小于0.1 m/s2的總點數,Td為該運動學片段中加速度小于-0.1 m/s2的總點數。
3.2 PCA降維處理
上述過程選取的10個特征參數間存在一定的相關性,PCA方法在保持數據信息的前提下,將特征參數進行組合,形成新的相互獨立的參數,降低估計行駛工況的計算復雜度[15]。根據處理后的3 408個運動學片段和選取的10個特征參數,可構成如下運動學特征值參數矩陣:
設λi∑10j=1λj為第i個主成分的貢獻率,∑lr=1λr∑10j=1λj為前r個成分的累計貢獻率,經驗表明累計貢獻率大于80%的成分為工程上所需求的主成分。統計結果見表2。分析表2,發現前三個主成分的特征值均大于1,所以選擇前三個主成分作為特征參數數據的代表,由于第四個主成分的累計貢獻率為81.99%,超過了一般工程應用需求的80%,故最終選用4個主成分。
特征參數所對應的主成分上的相關系數絕對值越大,該成分與這些特征參數的相關性就越高,對表3中各特征參數與4個主成分的相關系數進一步分析可知:
(1)第一主成分與減速時間比、加速度標準差、速度標準差、平均速度、平均行駛速度這幾個特征參數的載荷系數最高,因此主要代表減速時間比、加速度標準差、速度標準差、平均速度和平均行駛速度的特征值信息。
(2)第二主成分與平均加速度、平均減速度的載荷系數絕對值都超過了0.6,相關性較高,因此主要代表平均加速度、平均減速度。
(3)第三主成分與加速時間比、怠速時間比的載荷系數的絕對值較大,因此主要代表加速時間比、怠速時間比。
(4)第四主成分與最大速度的載荷系數非常高,因此主要代表最大速度的特征值。
4 行駛工況估計
根據城市交通狀況,可將車輛行駛狀態分為3類:
(1)擁堵行駛工況:交通狀況擁堵,車輛行駛速度緩慢,車輛需經常啟停。
(2)穩態流動行駛工況:沒有擁堵,車流數目較多,平均行駛速度較低。
(3)暢通行駛工況:路面交通狀況良好,車流數目較少,怠速狀態少。
將其特征參數降維后的3 408個運動學片段進行分類。依據經驗設定初始K值為3,把所有的運動學片段劃分成上述3種狀態,得到擁堵行駛工況的數目有426個,穩態流動行駛工況的數目有2 130個,暢通行駛工況的數目有852個。
應用改進PSO-K-means算法,將低速工況、高速工況、中速工況進行連接,合成持續時間1 289 s的道路行駛工況,構建成如圖8所示的由八段數據組成的汽車行駛工況曲線。
實際工況總速度占比和構建工況總速度占比基本吻合,表4給出構建工況與實際工況中各項參數值,可以看出對應參數差距很小,說明所估計的行駛工況科學合理。圖9為構建工況和實際工況相關雷達圖,表明實際工況和構建工況在特征參數中相關性較高,進一步說明所估計行駛工況的合理性和有效性。
5 結束語
本文根據福建省莆田市某型號輕型車的行駛數據,研究了其在實際道路上的行駛工況估計問題。根據行駛道路特征和數據采集傳輸原理,清洗原始數據并進行運動學片段劃分,分析車輛運行機制和運動學片段分布特點,提取主要特征參數并使用PCA方法降維處理,利用改進的PSO-K-means算法估計車輛行駛工況,并從10個主要特征參數角度對比構建工況與實際工況,數據顯示各項特征參數值占比相近,進一步說明所估計行駛工況的科學性和有效性。
參考文獻
[1]ANDRE M. Driving cycles development: Characterization of the methods[J]. SAE S pecial Publications , 1996 , 1201 (12) :312,322.
[2]LEE T C, JUDGE G G, ZELLNER A. Estimating the parameters of the Markov probability model from aggregate time series data[J]. Journal of the American Statistical Association, 1970, 66(335):653.
[3]LIN J, NIEMEIER D A. An exploratory analysis comparing a stochastic driving cycle to California's regulatory cycle[J]. Atmospheric Environment, 2002, 36(38):5759-5770.
[4]Pacheco A F, et al. New European Drive Cycle (NEDC) simulation of a passenger car with a HCCI engine: Emissions and fuel consumption results[J]. FUEL -GUILDFORD-, 2013.
[5]彭育輝,楊輝寶,李孟良,等. 基于K-均值聚類分析的城市道路汽車行駛工況構建方法研究[J]. 汽車技術,2017(11):13-18.
[6]劉燕. 基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 智能計算機與應用,2018,8(6):37-39,43.
[7]高建平,高小杰. 改進模糊C均值聚類法的車輛實際行駛工況構建[J]. 河南科技大學學報(自然科學版),2017,38(6):21-27,4-5.
[8]AMIRJAMSHIDI G, ROORDA M J. Development of simulated driving cycles for light, medium, and heavy duty trucks: Case of the Toronto Waterfront Area[J]. Transportation Research Part D, 2015, 34(1):255-266.
[9]宋怡帆. 基于聚類和Python語言的深圳市城市道路車輛行駛工況構建[D]. 西安:長安大學,2018.
[10]劉子譚,朱平,劉旭鵬,等. K均值聚類改進與行駛工況構建研究[J]. 汽車技術,2019(11):57-62.
[11]于仲安,褚彪,葛庭宇. 基于HPSO-BP神經網絡融合的鋰電池SOC預估研究[J]. 汽車技術,2019(6):20-24.
[12]謝秀華,李陶深. 一種基于改進PSO的K-means優化聚類算法[J]. 計算機技術與發展,2014,24(2):34-38.
[13]王盟,余粟,馮益林.改進小波閾值對熱泵電機振動信號的去噪研究[J]. 智能計算機與應用,2020,10(4):17-21.
[14]石琴,鄭與波,姜平. 基于運動學片段的城市道路行駛工況的研究[J]. 汽車工程,2011,33(3):256-261.
[15]鄭與波,石琴,王世齡. 合肥市汽車行駛工況的研究[J]. 汽車技術,2010(10):34-39.
作者簡介: 范藝璇(1997-),女,碩士研究生,主要研究方向:數據處理; 闞 秀(1983-),女,博士,副教授,主要研究方向:智能控制、路徑規劃、網絡化系統建模等; 曹 樂(1986-),男,博士,講師,主要研究方向:慣性傳感器、組合導航技術、先進傳感技術等; 沈 頡(1993-),男,碩士,主要研究方向:智能控制。
通訊作者: 闞 秀Email:xiu.kan@sues.edu.cn
收稿日期: 2021-04-08