倪思宇 黃凌峰 夏歡
吉利汽車研究院 浙江 慈溪 315336
隨著國(guó)內(nèi)汽車“新四化”的提出,傳統(tǒng)的汽車制造企業(yè)將向出行服務(wù)方向進(jìn)行轉(zhuǎn)型,以滿足客戶對(duì)可靠、安全、優(yōu)質(zhì)的出行服務(wù)的需求。因此,一些企業(yè)開始瞄準(zhǔn)汽車互聯(lián)網(wǎng)機(jī)遇,探索電動(dòng)化、智能化所驅(qū)動(dòng)的汽車革命。
在車聯(lián)網(wǎng)技術(shù)高速發(fā)展的背景下,車聯(lián)網(wǎng)數(shù)據(jù)同時(shí)在爆炸性增加。RVS(Remote Vehicle Service)數(shù)據(jù)是車聯(lián)網(wǎng)產(chǎn)生的遠(yuǎn)程汽車服務(wù)數(shù)據(jù)。通過對(duì)極大數(shù)據(jù)量的RVS數(shù)據(jù)進(jìn)行高質(zhì)量的數(shù)據(jù)分析與治理,一方面將為廣大車主提供更加智能,更加優(yōu)質(zhì)的出行服務(wù),一方面可以為車企提供真實(shí)可靠的RVS數(shù)據(jù)進(jìn)行分析與研發(fā),做出更精準(zhǔn)的決策和產(chǎn)品設(shè)計(jì)。因此,RVS數(shù)據(jù)治理問題是車聯(lián)網(wǎng)發(fā)展的關(guān)鍵性問題之一。
在車聯(lián)網(wǎng)系統(tǒng)中,汽車終端采集的傳感器RVS數(shù)據(jù)通過車輛的CAN總線,匯集到車載ECU進(jìn)行控制管理,再利用車載終端T-box將RVS數(shù)據(jù)收集并打包上傳:包括車輛的靜態(tài)數(shù)據(jù),動(dòng)態(tài)數(shù)據(jù)[1]。收集到車輛狀態(tài)數(shù)據(jù)后,通過通信模塊將采集到的信息按約定的傳輸協(xié)議打包發(fā)送給云端服務(wù)器進(jìn)行數(shù)據(jù)分析。采集的信息包含車輛狀態(tài),行駛里程,能耗狀態(tài),車輛位置,診斷信息等數(shù)據(jù)。
然而,各ECU的傳感器單元會(huì)不可避免地受到外界環(huán)境、信號(hào)干擾等因素的影響,時(shí)常導(dǎo)致采集到RVS數(shù)據(jù)不準(zhǔn)確或存在較大偏差,甚至數(shù)據(jù)缺失等情況。因此在對(duì)RVS數(shù)據(jù)的分析治理過程中,產(chǎn)生了數(shù)據(jù)精確性、一致性、時(shí)效性等數(shù)據(jù)質(zhì)量問題。
以RVS數(shù)據(jù)中的車輛位置、速度、加速度等參數(shù)的測(cè)量為例,由于車輛顛簸,行駛環(huán)境高溫、潮濕等問題將導(dǎo)致部分?jǐn)?shù)據(jù)測(cè)量誤差增大[2]。另外,車聯(lián)網(wǎng)系統(tǒng)中的數(shù)據(jù)可能因?yàn)閿?shù)據(jù)采集設(shè)備故障、數(shù)據(jù)網(wǎng)絡(luò)傳輸中斷等其他原因使車輛運(yùn)行過程中的某些參數(shù)可能無法完整記錄或傳輸,導(dǎo)致原始真實(shí)數(shù)據(jù)缺失或損壞。例如,在以下典型場(chǎng)景下:車輛行駛過程中,通過某一隧道路段,此期間GPS無信號(hào),導(dǎo)致行程中該隧道部分的定位信息缺失,將對(duì)整個(gè)路段的車聯(lián)網(wǎng)數(shù)據(jù)分析造成影響。
在車聯(lián)網(wǎng)系統(tǒng)內(nèi)部進(jìn)行整體數(shù)據(jù)分析操作時(shí),不同關(guān)聯(lián)模塊之間的RVS數(shù)據(jù)沒有保持操作上的一致性,或者存在邏輯上的矛盾。例如,在計(jì)算車輛剩余電量時(shí),根據(jù)車端測(cè)得的電流和電壓計(jì)算得到的剩余電量和實(shí)際剩余電量不一致。
車聯(lián)網(wǎng)系統(tǒng)中的數(shù)據(jù)可能因?yàn)楦滤俣嚷蚱渌麜r(shí)間延遲的因素而存在時(shí)效性問題。例如發(fā)送出錯(cuò)、網(wǎng)絡(luò)抖動(dòng)、數(shù)據(jù)高峰等原因,均可造成數(shù)據(jù)延遲上報(bào)、延時(shí)處理,帶來業(yè)務(wù)判斷延遲的影響。
由于車輛的行駛狀態(tài)、行駛環(huán)境受到路面狀況和周圍環(huán)境狀況的影響難以避免,且RVS數(shù)據(jù)的精確性作為車聯(lián)網(wǎng)數(shù)據(jù)分析的基礎(chǔ)問題,如果能被妥善解決,也將對(duì)其他數(shù)據(jù)問題的改善起到很大的作用[3]。因此,如何針對(duì)在復(fù)雜多變的環(huán)境路況下采集的RVS數(shù)據(jù)進(jìn)行數(shù)據(jù)治理,使其最大限度地弱化特殊駕駛環(huán)境下帶來的對(duì)數(shù)據(jù)精確性的影響,是本文要分析的重點(diǎn)問題。
由于傳感器測(cè)量誤差的不可避免,所以本研究中只能將測(cè)量誤差降低到可接受范圍內(nèi),超出該范圍時(shí)可以將其視為異常值。而針對(duì)傳感器測(cè)量的異常值數(shù)據(jù),數(shù)據(jù)使用方一般采用濾波的形式先對(duì)原始的采集數(shù)據(jù)進(jìn)行預(yù)處理以消除異常值。而傳統(tǒng)的濾波方法是直接將所有的輸入進(jìn)行濾波處理后直接作為輸出,但這樣會(huì)損失真實(shí)數(shù)據(jù)的大部分細(xì)節(jié)[4]。例如均值濾波、中值濾波方法分別將輸入數(shù)據(jù)的平均值和中位數(shù)作為濾波后的輸出,但異常值將大幅度拉高或者拉低平均值,集中分布的異常值也將影響中位數(shù)的分布。由此可見,如果在進(jìn)行濾波預(yù)處理時(shí)將異常值和正常值一并而論,會(huì)造成大部分真實(shí)數(shù)據(jù)的輸出上下浮動(dòng),損失了真實(shí)數(shù)據(jù)的細(xì)節(jié)。在另一方面,車聯(lián)網(wǎng)數(shù)據(jù)的實(shí)時(shí)性要求較高,而對(duì)于傳統(tǒng)的均值濾波和中值濾波,需要選取一組數(shù)據(jù)進(jìn)行處理后輸出一個(gè)有效數(shù)據(jù),這將導(dǎo)致獲取一個(gè)有效數(shù)據(jù)的時(shí)間大大加長(zhǎng)。針對(duì)以上兩個(gè)方面的問題,筆者提出了針對(duì)超出了正常范圍的異常值的滑動(dòng)窗口中值濾波方法。
筆者首先根據(jù)專家經(jīng)驗(yàn)和先驗(yàn)知識(shí)為原始數(shù)據(jù)的正常范圍設(shè)定一個(gè)合理的上下閾值,并設(shè)置滑動(dòng)窗口的長(zhǎng)度,即同時(shí)進(jìn)行濾波操作的數(shù)據(jù)長(zhǎng)度。每采樣一個(gè)新數(shù)據(jù),就將最早采集的那個(gè)數(shù)據(jù)丟掉,因此每進(jìn)行一次采樣,就可計(jì)算出一個(gè)新的中位值,從而加快了數(shù)據(jù)處理的速度,提高了實(shí)時(shí)性[5-6]。當(dāng)獲取到ECU收集到的原始數(shù)據(jù)后,將設(shè)置好長(zhǎng)度的滑動(dòng)窗口在輸入序列數(shù)據(jù)上滑動(dòng),如果識(shí)別到有不在正常范圍的異常數(shù)據(jù),則選擇該異常數(shù)據(jù)之前的滑動(dòng)窗口長(zhǎng)度的數(shù)據(jù),填充進(jìn)滑動(dòng)窗口進(jìn)行中值濾波操作,輸出的值替換此異常數(shù)據(jù),并以此類推,進(jìn)行后續(xù)數(shù)據(jù)的滑動(dòng)中值濾波操作[7]。這種做法不僅能保持正常原始數(shù)據(jù)的真實(shí)性,又能修復(fù)異常值數(shù)據(jù),而且能適應(yīng)車聯(lián)網(wǎng)數(shù)據(jù)實(shí)時(shí)分析的需求。
為了驗(yàn)證所提方法的有效性,筆者選取了RVS數(shù)據(jù)中小電池的電量數(shù)據(jù)作為原始數(shù)據(jù)集。由于復(fù)雜惡劣的環(huán)境等客觀因素,該RVS原始數(shù)據(jù)集一般都存在數(shù)據(jù)缺失、數(shù)據(jù)異常等問題,這些問題將在進(jìn)行小電池?cái)?shù)據(jù)分析時(shí)造成數(shù)據(jù)精確性方面的影響[8]。因此,筆者選取了數(shù)據(jù)缺失異常較嚴(yán)重的某一時(shí)段的242組數(shù)據(jù),其具體情況如圖1所示。利用針對(duì)異常值的滑動(dòng)中值濾波方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,得到的結(jié)果如圖2所示。

圖1 原始數(shù)據(jù)分布

圖2 處理后數(shù)據(jù)分布
隨著車聯(lián)網(wǎng)技術(shù)的高速發(fā)展,各汽車主機(jī)廠獲取車聯(lián)網(wǎng)數(shù)據(jù)的全面性大大提高,車聯(lián)網(wǎng)數(shù)據(jù)的體量正在爆炸式地增長(zhǎng),數(shù)據(jù)質(zhì)量也不可避免地出現(xiàn)了參差不齊的問題。因此,本文對(duì)RVS數(shù)據(jù)中精確性、一致性、時(shí)效性等常見的質(zhì)量問題進(jìn)行了分析,并針對(duì)其中關(guān)鍵性的精確性問題提出了新的解決方案與治理模型,該模型對(duì)RVS數(shù)據(jù)治理的精確性和實(shí)時(shí)性做了優(yōu)化,將為RVS數(shù)據(jù)分析治理提供更好的性能表現(xiàn)。