張興波 石朝俠 王燕清
(1.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
(2.南京曉莊學(xué)院信息工程學(xué)院 南京 211171)
自動(dòng)駕駛能有效地減少交通事故的發(fā)生,合理利用交通資源,緩解交通壓力。傳統(tǒng)的自動(dòng)駕駛方法會(huì)將任務(wù)劃分為路徑規(guī)劃、目標(biāo)檢測、目標(biāo)跟蹤、車道線識(shí)別等多個(gè)子任務(wù)來解決,這種方法可解釋性強(qiáng)但同時(shí)也存在著系統(tǒng)復(fù)雜、計(jì)算量大和對硬件要求高的缺點(diǎn)[1]。近年來基于強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的方法成為自動(dòng)駕駛領(lǐng)域的研究熱點(diǎn)。在基于深度學(xué)習(xí)的方法中,神經(jīng)網(wǎng)絡(luò)的輸入是傳感器輸出信息,網(wǎng)絡(luò)輸出是車輛控制信息,神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)人類專家的示范來進(jìn)行學(xué)習(xí)這種映射關(guān)系,能夠較快達(dá)到較高自動(dòng)駕駛水平。而基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛算法則依靠自己探索環(huán)境做出正確決策,最通用的構(gòu)造方法是構(gòu)造一個(gè)列表存儲(chǔ)所有的狀態(tài)-動(dòng)作對的獎(jiǎng)勵(lì)值。但是這種方法對于自動(dòng)駕駛這種狀態(tài)-動(dòng)作空間較大的情況難以奏效,因此基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛算法一直未出現(xiàn)較大規(guī)模的應(yīng)用[2]。
2005 年,Lecun 等[3]構(gòu)建了具有6 層卷積神經(jīng)網(wǎng)絡(luò)的端到端模型DAVE,采用監(jiān)督學(xué)習(xí)的方式進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,研究表明該模型在野外環(huán)境下具有很好的魯棒性。2016 年NVIDIA 通過采集實(shí)車數(shù)據(jù)訓(xùn)練了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型預(yù)測方向盤角度,該模型能夠根據(jù)前置攝像頭傳輸?shù)膱D像得到轉(zhuǎn)向角度,可以在多種路況下行駛,這一成果證明了端到端控制方法的可行性,這一成果命名為DAVE-2[4]。……