文 / 黎野
馬斯克喊了兩年的取消雷達,據說已經打算在中國實施了。
具體計劃可能是這樣:取消所有雷達的新款Model 3,9月開始在上海日產1200輛左右,定價將下調至20萬元。而其算力平臺是HW3.5,而非HW4.0。
上個月還在傳說新款Model 3的升級版本,從9個攝像頭增加到12個,增加一個4D毫米波雷達,取消超聲波雷達。這一較早版本的說法,與其3月份向北美監管機構提供材料的措辭是一致的。
難道短短幾個月之間,特斯拉的純視覺FSD有了真正突破?
雖然馬斯克本人是眾所周知的純視覺原教旨主義者,但2022年晚些時候,北美監管機構對多起“幽靈剎車”的調查,難免讓人認為,特斯拉迫于壓力,必然回到比較保守的FSD方案上。
中國的監管與美國風格不同,但事后問責并不手軟。特斯拉沒有把握,似乎不會采取激進態度。
兩年來,自動駕駛技術已經發生了很大變化。
2021年特斯拉宣布FSD為純視覺方案的時候,采用的是局部高精圖+Transformer算法(一種自然語言翻譯系統)。這其實和去年開始爆火的大模型的思路是一類的。
準確地說,該算法可以被納入到后者的一個應用分支。一旦這個算法發展到轉移模型的地步,可能會形成“端到端”的自動駕駛系統,前提是大模型參與訓練。但當時提出這一技術的時候,還沒有大模型工具。
馬斯克說過,在毫米波雷達的波長下,現實街景看上去像一個奇怪的幽靈世界。除了金屬,幾乎所有東西都是半透明的。當雷達和視覺感知不一致,系統將采信哪一個?和航空常用的表決系統不同,自動駕駛必須100%確定“占位”。而毫米波雷達調校的一個基本原則,就是忽略靜物,將其交給視覺系統,否則會不斷與攝像頭信息發生沖突。
人能靠純視覺開車,因為人類的可見光波信號傳輸速度尚可,數據帶寬也還行,但實時數據處理能力相當弱。
人類大腦的應對做法,是將大多數視覺信息棄之不用——并非視而不見,而是壓根沒翻譯成頭腦中的圖像元素。但人類基本上可以應付所有長尾場景。事實證明,正是這種忽略大多數信息的做法,有助于人將有限的算力資源,集中在高價值任務上面。
顯然,人類的預訓練系統(熟悉駕駛技術的過程),逐漸形成了對任務價值的評估體系。其實這就是一種“蒸餾”數據方法。
AI很蠢,不能和人類的大腦相比。因為前者無法有效評估價值,無法對抗信息沖突,無法依據經驗(預訓練系統)穿透表象,抽出事物的物理特征,決定某些東西可以忽略。
一旦純視覺方案被證實具備可靠的實用性,那么激光雷達產業鏈可能灰飛煙滅。特斯拉在自動駕駛的領袖地位,也將變得無可置疑。

在大模型還沒有實際應用的時候,特斯拉構建了“殘差神經網絡”和“金字塔網絡”。我們無意解釋這兩個“多任務神經網絡”的運作細節。簡單說,就是這兩個網絡對同一組攝像頭傳過來的數字圖像,提取出不同精度的特征,打上時間標簽,進而構建出三維空間+時間的虛擬數據(模擬真實道路),用來訓練FSD。這就是“局部高精圖”的數據源頭。
而現在,大模型已經橫空出世,不在自動駕駛上利用,完全是暴殄天物。
現在特斯拉也和其它車企、自動駕駛企業一樣,用大模型來自動標注+人工審核,生成預訓練數據。大模型讓業內第一次看到了解決長尾場景問題的希望。
這個技術強大的地方在于,不同于地圖,只要數據足夠精準,和攝像頭捕捉的數據相吻合,就不需要額外的高圖維護。
不過代價也是有的,這套流程需要強大算力。特斯拉因此部署了超級算力中心,其訓練模型和數據,都存在這個超算中心里面。訓練得差不多了,就將轉移模型注入到車端。這個過程,汽車人在《大模型:汽車的自我革命》一文中,有所討論。
目前來看,這套系統實際工作起來,存在問題。簡單說,就是對與背景區分度小的障礙物,有“較小的概率”致其輪廓沒有被辨識出來。在大量的駕駛實踐中,這種事只要發生一次,如果不能人工及時介入,就可能釀成事故。
特斯拉被迫“拄拐”(添一顆4D雷達,強化占位辨識),但這是對現實能力的暫時妥協。純視覺作為大方向來推進,特斯拉方面仍然堅持。
今年以來,特斯拉的策略是,不斷改善純視覺精度,不是提升攝像頭分辨率,而是采用“原始光子計算”(提升動態適應范圍)。這樣一來,壓力就來到軟件算法和車端算力上來。當然,只要不用激光雷達(點云融合需要更強大的車端預解算),特斯拉面臨的車端算力壓力,并沒有大于競爭對手。
不管怎么變換手法,車端的圖像處理能力是根本。特斯拉必須讓算力芯片硬件能夠支持未來的擴張的算力需求。
同樣道理,特斯拉也認為純視覺能夠取代超聲波雷達(主要功能是泊車)。雖然用戶普遍認為特斯拉的泊車能力是“災難”,但特斯拉仍然砍掉了超聲波雷達。至于激光雷達,從未在特斯拉產品上出現。
這套預訓練系統最大的問題是提前提取街景數據。這種行為被監管認定為測繪活動,根據《中華人民共和國測繪法》規定,沒有測繪資質的特斯拉,FSD無法在中國落地。
特斯拉的應對辦法是在貴州建立數據中心,數據不出境,訓練也在中國進行。但這只解決了數據安全的問題,如果掃描街景作為預訓練系統,仍被認定為測繪行為,測繪資質這個坎,還是繞不過去。
之所以國外普遍裝備的HW4.0硬件,這次可能換成HW3.5,因為前者用的是海外訓練模型,在中國可能連高速NOA(自動輔助導航駕駛)都費勁。相當于硬件升級了,功能卻給升沒了。所以還不如回到老一點的版本,在中國訓練。但這樣一來,又回到上一個問題,死循環了。
一個固態車規雷達的成本,可以相當于特斯拉40個攝像頭,足夠裝備5輛車。特斯拉方案的成本優勢是顯然的,但是幾百元的超聲波雷達都砍掉(對成本幾乎影響太小了),只能再次表明特斯拉的技術信心。
自從大模型用在自動駕駛上之后,純視覺方案的現實性也大為增強。其背后就是收集大量數據的預訓練模型,硬件支持是超算中心和云服務體系。
兩者對特斯拉來說都不是問題,但就是收集數據這一塊還有問題,如果相關法規沒有得到新解釋,特斯拉要么拉著有資質的圖商伙伴,去合法獲取數據,要么改變掃描街景的方式。
盡管這件事還有懸念,但《汽車人》可以預想一下,如果這條路走通了,即法律上合規,技術上訓練模型的精度,能與現在主流的高速和城市NCA抗衡,那么純視覺路線將無條件勝出。原因是擁有成本優勢。
很多新勢力、傳統車企,也包括華為這樣的供應商,都對激光雷達產業鏈條有或多或少的投資。華為甚至直接控股,并下場造固態激光雷達。一旦純視覺方案被證實具備可靠的實用性(而不是像以前總是有無法解釋的故障,并遭到監管的關注),那么這條產業鏈可能灰飛煙滅。
至于毫米波雷達和超聲波雷達,倒是能幸存。一是兩者除了汽車都有別的用途;二是投資價值無法與激光雷達相比。
特斯拉在自動駕駛的領袖地位,也將變得無可置疑。自從Waymo跌下王座之后,這個位置懸置已久。這也將對市場銷量的競爭,產生直接的影響。不僅相當于特斯拉打價格戰的彈藥更多了,而且其技術聲望將勝過10年前的巔峰時刻。對于直接對手們來說,這絕不是好消息。
