隨著汽車朝著智能化的方向進行發展,大數據分析技術在汽車領域的應用也越來越普遍。本文介紹幾種大數據在汽車相關方面的應用。
通過無線連接的汽車數據傳輸通信技術,能夠支持車載遠程信息技術服務。該項技術能夠在合理的時間范圍內有效處理大量的控制器區域網絡(CAN)總線數據。這些數據對于很多聯網汽車的應用程序來說是必不可少的,因此通過Hadoop框架查詢和提取有用信息將有助于提高安全性和駕駛性能體驗。通過實施分布式計算系統模式分析CAN總線數據,產生托管在云里的有效數據。此外,利用一個移動應用服務程序對總線數據進行收集和傳輸,并將數據傳輸到遠程數據中心。目前遠程數據中心包括應用服務器和Hadoop生態系統蜂窩數據倉庫。通過實驗進一步表明,相對于統計分析系統(SAS)框架和HiveQL聲明性語言,MapReduce連接算法是高度可伸縮的,并針對分布式模式進行了優化計算。
車輛數據的收集與分析可以讓對汽車生態系統感興趣的汽車制造商、汽車維修商、道路和運輸部們對服務機構進行支持。這些都會提高汽車的安全駕駛性能,但車主訂閱了這項服務,也許將產生一定的費用。

Figure 4.Processing vehicle’s engine data using Hadoop and MapReduce based on the proposed Monitoring and Analytics framework.
隨著Hadoop平臺項目的開發,使用Hadoop集成的開源軟件,構建大數據解決方案是目前來看是可以實現的。在這篇文章中,基于大數據技術,作者創建了一個監視和分析框架,通過Hadoop處理汽車相關數據,例如處理發動機數據(見文中Figure 4),實現處理結果有效。對汽車制造商、運輸、緊急服務等第三方服務,允許通過網絡訪問有用的信息。使用MapRe?duce編程模型和Apache蜂巢與SAS程序。未來的研究重點將集中在評價遠程車輛的性能,診斷遠程車輛以及特定的聯網汽車應用程序等方面。
互聯智能汽車的連通性可以概括為車輛到車輛(V2V)、車輛到基礎設施(V2I)和車輛到一切(V2X)三個方面提供。V2X的整體概念是在車輛和所有其他實體之間進行通信,包括行人和移動設備等,V2X涵蓋了智能汽車連通性的廣泛方面,由于IEEE 802.11p和DSRC的短距離連接的限制性,促使研究人員探索新的通信技術。據作者經驗,最快的無線網絡是LTEAdvanced(LTE-A),5G網絡是一個全球正在進行的研究領域。此外,預計5G技術將為車輛智能連接帶來新的功能寬帶,包括超低延遲和無限連接。作者提出了互聯系統架構和設計方案(文中Figure 4),這為大數據分析提供了基礎。通過eNB實現V2V和V2I,再經過LTE EPC與另一eNB連通實現V2X,包括V2P、V2D、V2H。其中演進分組核心(EPC)是一種向4G LTE網絡提供數據和融合語音的框架,eNB是實現與移動設備通訊的基站,RSU是實現與車連通的路邊裝置。

NREL的研究人員使用一組8個指標來描述每一個驅動循環,通過聚類分析,主要成分分析(PCA)和交叉相關分析,用來確定其中的哪8個指標提供了最多的信息支持細分車輛驅動模式。集群分析被用來確定車輛行駛的最優分組周期指標。最后,重新抽樣方案是研究了樣本偏差對其可能產生的影響,車隊DNA數據建立在結果分割的基礎上。在這個分析中,NREL每天使用從913輛車中的16,250個驅動循環。在這些車輛中,108(5 071個周期)是有臥鋪的長途卡車,754(10 765)如文中FIGURE 1所示的職業車輛。也包含了在數據庫中有51輛車(414個周期)被分類為未知職業,但擁有驅動循環數據。

FIGURE 1 Sample composition
在這項研究中,車隊DNA數據庫繼續進行生長。執行分析,為了支持未來的分析,已經開始開發在車隊DNA大數據應用程序編程接口中,它提供了簡化的存儲、聚合和分析,使用行業標準大數據框架的函數,利用分布式處理庫Spark和Hadoop分布flesystem。研究展示了一種新的分析方法驅動循環動力學的結構和模式。因此,利用了一個可擴展的數據框架和一個大的以及不同的數據集,913個獨特的商業車輛的驅動循環數據,包括16,250天的操作。作者的方法利用聚合特征提取、k-medoid聚類、以及NREL驅動工具來實現基本模式在這個群體的駕駛特性中車輛。結果描述了代表性的驅動周期在兩個(或三個)的職業車輛中。
考慮到有效的動力系統控制和實施駕駛輔助功能,司機的駕駛行為及駕駛特性的影響起著越來越大的作用。面對一個廣泛的駕駛特性,現代智能汽車必須能夠在各種情況下做出正確回應,駕駛模式不僅依賴于司機的駕駛行為,同時和道路特征、環境邊界條件和其他方面有很強的關系。駕駛模式主要受交通信號燈控制的樞紐密度、速度限制、街道功能和類型等控制。因此,為了全面分析某駕駛員的駕駛模式,盡可能的考慮駕駛情況是非常必要的。現如今,在考慮駕駛情況和環境邊界條件下,有效的大數據技術可以用來支撐駕駛模式的調查研究。
在考慮驅動模式相關參數如加速度等額外因素的驅動模式下,提出了一種用于集群和評估的方法。在所引入的計算方法的第一步驟中,對所涉及的車輛的訪問數據進行收集,并對每隔一公里的驅動段進行分段。這些信息包括車輛行駛路程、行駛速度、加速度以及汽車所處的經緯度。第二步,基于駕駛段,建立反應駕駛環境的初始特征矩陣。隨后,為了減少計算的復雜度,在這個初始特征矩陣上進行主要成分分析,從而減少矩陣的維數。第三步,通過K值平均算法將駕駛環境分成三個類別,分別是山地路形、曲折路形、以及平坦路形。最后,將加速度、減速度的標準偏差對當前汽車所處的駕駛模式進行區分。標準偏差用于將集群驅動模式分為三個集群(例如,平靜、標準和侵略性等三個模式)。
研究結果表明,駕駛環境受到許多變量的影響。描述司機和車輛的周邊環境包括道路等級、交通狀況和司機的行為本身。根據駕駛環境的不同類型和特點,駕駛模式“數值解”也非常多樣化。駕駛情況信息以及駕駛驅動模式有助于動力總成優化和控制策略的制定,并能夠向高級驅動程序控制輔助系統提供更多的更準確的反饋信息。此外,這些信息還可以支持車輛的安全處理和控制。通過這種引入的方法提供一組精確的識別駕駛的客觀標簽模式,支持未來智能汽車的發展和控制。
把汽車周圍環境中可用的各種數據源作為輸入,以預測駕駛員的意圖和行為。作為調查這些潛在的數據源的一部分,作者進行了大量的電子日歷上的實驗,并回顧了一些可用的地理參考系統。通過統計分析,計算位置識別精度結果,探討了日歷位置數據的潛在利用率來檢測駕駛員意圖。為了利用在現代車輛中可用的多種多樣的數據輸入,提出了一種新的模糊計算建模方法。因為大數據和物聯網的優勢,開發利用智能系統和計算技術的需求越來越大,這可以降低復雜性以及在獲取和處理大量的信息方面的認知負擔。研究結構如下:
第一步,識別各種信號和輸入,這些信號和輸入可以被計算機系統利用,以便自動識別駕駛員的意圖和行為。
第二步,詳細地研究了這些數據源中的一個。使用多個統計度量,借助于分類性能分析,研究利用電子日歷和地理位置信息來識別駕駛員的位置的潛力。通過這一分析,以揭示司機的意圖旅行到某些目的地。
第三步,提出了一種新的模糊計算建模方法,應對和處理來自多個和多種數據源的大量數據。研究了在新興的大數據和物聯網技術革命的范圍內預測駕駛員意圖和行為。
這項研究可以通過技術增強和相互關聯的環境來實現,無論是在現代車輛內部還是外部,都提供了包含大量信息的多個數據源。確定并突出數據源,重點在預測駕駛員的預期目的地、行為、情感/認知狀態和偏好的領域。其中的研究范圍之一是探索不同輸入源的利用潛力。
為了實現這一目標,詳細調查了其中一個來源,即電子日歷,電子日歷作為數據源來探索,這有助于預測駕駛員的下一個目的地。為了實現這一目標,分析了來自美洲虎路虎員工使用的群件日歷的數據,這些數據提供了關于一般電子日歷使用的一些有趣的統計事實。還研究了準確地識別地理位置的潛力,借助于詞匯來描述從電子日歷條目中獲取的事件的位置??偨Y這些結果,可以得出結論,利用電子日歷信息可以提高預測駕駛員下一個目的地的準確性,實驗的數據融合成功率保持在92%以上。
為增強預測駕駛員意圖和偏好的能力,提出了一個最先進的模糊計算模型。其目的是整合多個數據源,如電子日歷數據,并利用現代連通性增加的優點,使車輛能夠訪問豐富的信息源,如社交網絡、其他智能車等。所提出的框架有可能導致對社會、經濟和個體駕駛員產生重大影響。這可以通過開發應用程序來實現,該應用程序(流程圖見文中Fig.2)利用預測的駕駛員意圖、特征,現代車輛的性能和汽車的能力與其他外部、數字實體通信。這些應用有望改變駕駛員與車輛交互的方式,優化車輛的整體性能,甚至有助于改善交通管理和智能城市內的能源資源。這些功能可以通過先發制人的衛星導航系統來實現?;旌蟿恿囕v電動列車運行的優化配置、降低CO2排放量、超前車輛預處理(加熱/冷卻/除冰)、電動車輛充電優化和有效的電網管理,駕駛員識別和車輛個性化。

Fig.2.Predicting destination based on user and activity data[43].