特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」
北京時間 6 月 4 日凌晨,CVPR 2026(計算機視覺頂會)在美國丹佛開幕。特斯拉自動駕駛與 Optimus 雙線負責人 Ashok Elluswamy 在「具身智能基礎模型部署」專題工作坊登臺,題目只有一句話:Building Foundational Models for Robotics at Tesla。
其實這是特斯拉的老題目和老slides了,那么這次CVPR特斯拉Ashok Elluswamy 又透露了什么新東西?Jack為你根據CVPR現場最新的圖片解讀。
「我們不是在造一個駕駛產品,而是在為所有機器人構建一個統一的基礎模型。同一套模型,今天開車,明天就在工廠里搬箱子。」—— Ashok Elluswamy,特斯拉 AI 軟件副總裁
以下是這場演講的完整內容還原和解讀。
一句話總結:把整個機器人問題,壓成「2 個 token 的輸出」。
01 使命:用通用機器人,創造「極度豐裕」
演講一開場,Elluswamy 把特斯拉的 AI 版圖攤在一張幻燈片上:三條線,同一個內核。Self-Driving(可規模化的車輛自治)、Optimus(面向物理世界的人形機器人)、以及 Digital Optimus(端到端的電腦操作智能體——演示里它直接聽懂「幫我清空 first touch 收件箱」并自己點完)。
他強調,這三件事看起來是三個產品,本質卻是同一個基礎模型在不同身體上的投影。目標只有一個:通過通用機器人把人類從重復性體力勞動中解放出來,創造「Amazing Abundance(極度豐裕)」。

三條線、一個內核:Optimus、Self-Driving、Digital Optimus。Optimus 已能用自然語言被指揮學習新任務(現場為 1.5 倍速畫面)。
所以,可以總結,特斯拉將基礎模型當作不管是物理還是數據AI的底層了。
02 規模:130 萬輛車,已經在全球路上跑
這次slides的更新是,他給出當前的部署版圖:
全球已有約 130 萬輛具備監督式自動駕駛能力的特斯拉在路上。
北美(美國、加拿大、墨西哥)已交付,歐洲的荷蘭、愛沙尼亞、立陶宛,亞太的中國、韓國、澳新等地或已交付、或在等待監管放行。

綠色為已交付客戶的市場,黃色為等待監管批準。中國位列已交付區域。
規模意味著數據。截至演講時,FSD 累計行駛里程已超過 108 億英里,其中城市道路約 40.7 億英里——這正是后面所有論證的燃料。
1.3M全球監督式自動駕駛車輛108 億FSD 累計行駛英里數
03 證據:前沿技術正在讓道路更安全
Elluswamy 用「發生一次重大碰撞前能開多少英里」這個指標做對比——數字越大越安全。無論高速還是城市道路,開啟 FSD(監督版)的特斯拉,里程都顯著高于手動駕駛、也遠高于全美平均水平。這算是廣告了,但也確實給人類自動駕駛帶來了信仰,確實自動駕駛安全性高于人。

高速 vs 非高速:FSD 監督版(藍)每 890 萬 / 290 萬英里才發生一次重大碰撞,遠高于全美平均的 150 萬 / 50.5 萬英里。

北美全路況口徑:重大碰撞前里程 510 萬英里(FSD)對 69.9 萬英里(全美平均)。數據來源 tesla.com/fsd/safety。
04 硬件:跑在自研 AI4 芯片上,雙腦互檢
目前特斯拉的這套模型跑在特斯拉自研的 AI4 推理芯片上,關鍵詞是「完整的故障切換冗余」——兩臺計算機并行運行、互相校驗,一臺出問題,另一臺瞬間接管。而且,同一顆芯片,既驅動車上的 FSD,也驅動 Optimus 機器人。

Tesla AI4:車與機器人共用的同一顆推理芯片,雙計算機并行互檢。
所以,這意味著,特斯拉所有的車子當前計算方面都是考慮冗余的,這也就是為什么說特斯拉表示以后自己的特斯拉可以出租加入Robotaxi編隊,當然這個哪位技術大拿,從硬件和軟件上進行詳細拆解。
05 架構:一個端到端的「機器人基礎模型」
接下來是核心。特斯拉一直宣稱的端到端大模型:一個大模型,海量數據訓練,超長上下文,以 36Hz 運行,直接吐出控制動作。
輸入端把攝像頭視頻、導航與指令、車輛運動學、音頻等等一股腦喂進去;輸出端就是「下一個動作」。沒有手寫規則,沒有中間表示的硬切分。

端到端基礎模型:多模態輸入 → 大型神經網絡 → 直接產生下一步動作。
為什么非要端到端?這是這次演講中一直提出的問題,這個大家也都熟悉了,因為人類的價值觀,幾乎無法用代碼窮舉。
他舉了個「微型電車難題」:前方一個小水坑,是從水坑上壓過去,還是短暫越過中線借對向車道繞開?沒有標準答案,取決于水坑大小、對向有沒有車、路面情況……這種判斷只能從海量真實數據里「學」出來,而不是寫死在 if-else 里。

「微型電車難題」:壓過小水坑,還是借對向車道?真實道路上全是這種沒有標準答案的取舍。
然后他拋出全場的主線——把整套端到端的方法做成現實,要跨過三道關卡。
關卡一 維度災難(Curse of Dimensionality)
Elluswamy 表示自動駕駛的輸入上下文,長到驚人。
Elluswamy 現場算了一筆自動駕駛需要的數據賬:7 路攝像頭 × 36 FPS × 500 萬像素 × 30 秒歷史,再除以 5×5 的像素塊——輸入上下文約 20 億個 token。再加上導航地圖、100Hz 的運動數據、48kHz 的音頻。
而輸出呢?
只有 2 個 token:下一步的轉向和加速度。
模型要做的,是學會這 20 億 → 2 的正確因果映射。

「超長上下文是駕駛的最低門檻」:約 20 億輸入 token,僅 2 個輸出 token。
特斯拉表示應對維度災難的唯一解,是規模化的車隊數據。
海量數據帶來兩樣東西:極強的泛化能力,以及「主動安全」——模型在罕見、危險的長尾場景里也能提前預判。
他放了一段畫面:城市道路上,一個孩子騎車突然摔倒滾向車道,系統提前減速避讓。這種場景人工根本造不全,只能靠真實車隊「撈」回來。

大數據帶來極致泛化與主動安全:左為騎車孩童突然摔入車道的長尾場景。
關卡二 可解釋性與安全保證
端到端最大的質疑是「黑箱」。Elluswamy 的回應是:用思維鏈(Chain-of-Thought)和過程驗證來破解。基礎模型在輸出動作的同時,還會預測一大堆「可被人讀懂」的中間結果。
模型同時吐出的可解釋信號:· 3D 占據與流(3D occupancy & flow)· 車輛、行人、騎行者等物體· 交通管制(信號燈、標志)· 道路邊界、車道語義、限速· 各交通參與者的交互概率· 以及——用自然語言表達的決策理由
同一個大網絡,旁路輸出全景分割、3D 占據、3D 高斯、語言與推理,讓動作變得「可審查」。

可解釋輸出清單:從 3D 占據、物體、交通管制到「以自然語言表達的決策」。
所以,特斯拉也采用自然語言推理。
現場畫面里,車輛遇到「前方道路施工封閉 + 改道標志」的長尾情況,系統用一問一答的鏈條自我推理:「能直行走導航路線嗎?→ 不行,前方有改道牌和施工護欄。→ 那該怎么走?→ 在這個路口左轉。→ 為什么不右轉繞?→ 因為改道牌指示向左。」每一步都打了對勾或叉。
這個和我們之前文章《黃仁勛GTC Taipei 2026 Taipei完整解密:科普Agent、升級物理AI基座模型Cosmos 3、重構PC!》講到的英偉達Alpamayo 一樣的。

自然語言推理應對長尾:模型像答題一樣,把「為什么這樣開」一步步講清楚。
所以,特斯拉給的答案,不管什么模型,語言這個東西去不掉,你不用他輸入,你也要用他輸出,畢竟交互的是人,人最直觀通用的就是語言。
關卡三 評估(三道關卡里最難的一道)
他直言,評估是三者中最難的。原因很反直覺:
· 數據集再好,loss 也不足以代表真實性能· 開環(open-loop)表現好,不保證閉環(closed-loop)也好· 避免一次事故有很多種正確解法,指標必須能容納這種「多模態」· 一種思路是評估「行動后果」的預測· 需要均衡且全面的評測集· 工作枯燥,但極其重要
評估為何最難:好的開環不等于好的閉環,指標必須捕捉「多種正確做法」。
那么如何解呢,特斯拉的解法,是再訓練一個神經網絡世界模擬器(World Sim NN)。
它吃進「當前狀態 + 動作」,預測「下一時刻的狀態」(攝像頭畫面、導航、運動學、音頻……一應俱全),再把狀態喂給策略網絡(Policy NN)產生下一個動作——形成一個完全在神經網絡里跑的閉環模擬器。

閉環模擬:World Sim NN 生成下一狀態 → Policy NN 產生下一動作 → 再回灌,形成回路。

世界模擬器可用「便宜易得的狀態-動作數據」訓練:t 時刻狀態 + 動作 → t+1 時刻狀態。
采用這套模擬器能用來做策略評估、回歸測試,甚至主動注入新問題和對抗場景;壓縮算力后還能實時運行。
更關鍵的是——同一套神經模擬方法,能從 FSD 直接遷移到 Optimus,把工廠、室內等場景一并生成出來。

神經模擬從 FSD 規模擴展到 Optimus:同一方法生成工廠與室內場景。
06 結語:特斯拉,是做「現實世界 AI」的地方
三道關卡講完,特斯拉自動駕駛的邏輯閉環了:
維度災難靠車隊數據解,
黑箱靠思維鏈解,
評估靠神經世界模擬器解。
而這一切的終點,是把駕駛訓練出來的同一個基礎模型,擴展到所有機器人身上——車、人形機器人、數字智能體。
最后一頁,是招募。這也是特斯拉常做的事情。

收尾頁:Tesla is the place for real-world AI & Robotics(tesla.com/AI)。
Vehicle 觀察|對中國同行意味著什么
這場演講給中國汽車的輔助駕駛/自動駕駛的啟發,不是「特斯拉有多強」,而是它把自動駕駛重新定義成了「具身智能的一個子集」——車只是第一個身體。
對于輔助駕駛/自動駕駛行業的開發和部署講,已經不是一個算法和算力能夠取勝,而是正在從「算法」轉向「數據飛輪 + 閉環評估體系」的全體系競爭:誰能更便宜地做好各種輔助工具,造出可信的閉環評測,誰就能更快迭代。這恰恰是國內擁有海量真實路況數據的玩家,最有機會發力,也最容易被忽視的環節。
來源:Ashok Elluswamy(特斯拉 AI 軟件副總裁)在 CVPR 2026 的演講《Building Foundational Models for Robotics at Tesla》,2026 年 6 月 3 日于美國丹佛(同款內容亦曾在 Scaled ML 2026 發表);演講頁圖片由公開現場拍攝整理、已裁去上下黑邊。安全里程數據引自 tesla.com/fsd/safety。本文為「Vehicle」據現場幻燈片與公開資料整理還原,部分表述為編輯轉譯,不代表演講者逐字原話。
*未經準許嚴禁轉載和摘錄-
原文標題 : 特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
精彩回顧立即查看>> 【線下會議】恩智浦創新技術峰會·深圳
-
精彩回顧立即查看>> 【在線直播】可視化神器!VisionSym 賦能汽車光學原型開發
-
精彩回顧立即查看>> 12月16-17日 AMD 嵌入式峰會
-
精彩回顧立即查看>> 恩智浦創新技術峰會
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術在線大會
-
精彩回顧立即查看>> Works With 開發者大會深圳站
推薦專題
- 1 特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」
- 2 特斯拉CEO馬斯克又放狠話:2026年無人車開遍全美,十年后自己開車成“小眾愛好”
- 3 深圳立法放開自動駕駛全域通行,7月1日正式實施
- 4 中美自動駕駛“雙人舞”:中國靠“基建狂魔”,美國賭“單車戰神”,誰將贏下未來?
- 5 「豆包汽車」要來了?賽力斯藍電改名賽豆,字節跳動深度上車
- 6 特斯拉監督版FSD登陸中國被廣泛關注,技術架構有啥特點?
- 7 2026年無人車突然滿大街跑了?三大拐點疊加,行業悶聲發大財的時代真的來了
- 8 2026年5月國內汽車質量投訴指數分析報告
- 9 地平線股價年內大跌44%:都怪比亞迪自研芯片?
- 10 50輛無人車排著隊闖進亞特蘭大小區,居民用一張兒童路牌把Waymo“逼瘋了”


分享










