特斯拉 CVPR 2026 演講全文和詳解：把自動駕駛，做成「所有機器人的基礎模型」

2026-06-05 10:02

北京時間 6 月 4 日凌晨，CVPR 2026（計算機視覺頂會）在美國丹佛開幕。特斯拉自動駕駛與 Optimus 雙線負責人 Ashok Elluswamy 在「具身智能基礎模型部署」專題工作坊登臺，題目只有一句話：Building Foundational Models for Robotics at Tesla。

其實這是特斯拉的老題目和老slides了，那么這次CVPR特斯拉Ashok Elluswamy 又透露了什么新東西？Jack為你根據CVPR現場最新的圖片解讀。

「我們不是在造一個駕駛產品，而是在為所有機器人構建一個統一的基礎模型。同一套模型，今天開車，明天就在工廠里搬箱子。」—— Ashok Elluswamy，特斯拉 AI 軟件副總裁

以下是這場演講的完整內容還原和解讀。

一句話總結：把整個機器人問題，壓成「2 個 token 的輸出」。

01　使命：用通用機器人，創造「極度豐裕」

演講一開場，Elluswamy 把特斯拉的 AI 版圖攤在一張幻燈片上：三條線，同一個內核。Self-Driving（可規模化的車輛自治）、Optimus（面向物理世界的人形機器人）、以及 Digital Optimus（端到端的電腦操作智能體——演示里它直接聽懂「幫我清空 first touch 收件箱」并自己點完）。

他強調，這三件事看起來是三個產品，本質卻是同一個基礎模型在不同身體上的投影。目標只有一個：通過通用機器人把人類從重復性體力勞動中解放出來，創造「Amazing Abundance（極度豐裕）」。

三條線、一個內核：Optimus、Self-Driving、Digital Optimus。Optimus 已能用自然語言被指揮學習新任務（現場為 1.5 倍速畫面）。

所以，可以總結，特斯拉將基礎模型當作不管是物理還是數據AI的底層了。

02　規模：130 萬輛車，已經在全球路上跑

這次slides的更新是，他給出當前的部署版圖：

全球已有約 130 萬輛具備監督式自動駕駛能力的特斯拉在路上。

北美（美國、加拿大、墨西哥）已交付，歐洲的荷蘭、愛沙尼亞、立陶宛，亞太的中國、韓國、澳新等地或已交付、或在等待監管放行。

綠色為已交付客戶的市場，黃色為等待監管批準。中國位列已交付區域。

規模意味著數據。截至演講時，FSD 累計行駛里程已超過 108 億英里，其中城市道路約 40.7 億英里——這正是后面所有論證的燃料。

1.3M全球監督式自動駕駛車輛108 億FSD 累計行駛英里數

03　證據：前沿技術正在讓道路更安全

Elluswamy 用「發生一次重大碰撞前能開多少英里」這個指標做對比——數字越大越安全。無論高速還是城市道路，開啟 FSD（監督版）的特斯拉，里程都顯著高于手動駕駛、也遠高于全美平均水平。這算是廣告了，但也確實給人類自動駕駛帶來了信仰，確實自動駕駛安全性高于人。

高速 vs 非高速：FSD 監督版（藍）每 890 萬 / 290 萬英里才發生一次重大碰撞，遠高于全美平均的 150 萬 / 50.5 萬英里。

北美全路況口徑：重大碰撞前里程 510 萬英里（FSD）對 69.9 萬英里（全美平均）。數據來源 tesla.com/fsd/safety。

04　硬件：跑在自研 AI4 芯片上，雙腦互檢

目前特斯拉的這套模型跑在特斯拉自研的 AI4 推理芯片上，關鍵詞是「完整的故障切換冗余」——兩臺計算機并行運行、互相校驗，一臺出問題，另一臺瞬間接管。而且，同一顆芯片，既驅動車上的 FSD，也驅動 Optimus 機器人。

Tesla AI4：車與機器人共用的同一顆推理芯片，雙計算機并行互檢。

所以，這意味著，特斯拉所有的車子當前計算方面都是考慮冗余的，這也就是為什么說特斯拉表示以后自己的特斯拉可以出租加入Robotaxi編隊，當然這個哪位技術大拿，從硬件和軟件上進行詳細拆解。

05　架構：一個端到端的「機器人基礎模型」

接下來是核心。特斯拉一直宣稱的端到端大模型：一個大模型，海量數據訓練，超長上下文，以 36Hz 運行，直接吐出控制動作。

輸入端把攝像頭視頻、導航與指令、車輛運動學、音頻等等一股腦喂進去；輸出端就是「下一個動作」。沒有手寫規則，沒有中間表示的硬切分。

端到端基礎模型：多模態輸入 → 大型神經網絡 → 直接產生下一步動作。

為什么非要端到端？這是這次演講中一直提出的問題，這個大家也都熟悉了，因為人類的價值觀，幾乎無法用代碼窮舉。

他舉了個「微型電車難題」：前方一個小水坑，是從水坑上壓過去，還是短暫越過中線借對向車道繞開？沒有標準答案，取決于水坑大小、對向有沒有車、路面情況……這種判斷只能從海量真實數據里「學」出來，而不是寫死在 if-else 里。

「微型電車難題」：壓過小水坑，還是借對向車道？真實道路上全是這種沒有標準答案的取舍。

然后他拋出全場的主線——把整套端到端的方法做成現實，要跨過三道關卡。

關卡一　維度災難（Curse of Dimensionality）

Elluswamy 表示自動駕駛的輸入上下文，長到驚人。

Elluswamy 現場算了一筆自動駕駛需要的數據賬：7 路攝像頭 × 36 FPS × 500 萬像素 × 30 秒歷史，再除以 5×5 的像素塊——輸入上下文約 20 億個 token。再加上導航地圖、100Hz 的運動數據、48kHz 的音頻。

而輸出呢？

只有 2 個 token：下一步的轉向和加速度。

模型要做的，是學會這 20 億 → 2 的正確因果映射。

「超長上下文是駕駛的最低門檻」：約 20 億輸入 token，僅 2 個輸出 token。

特斯拉表示應對維度災難的唯一解，是規模化的車隊數據。

海量數據帶來兩樣東西：極強的泛化能力，以及「主動安全」——模型在罕見、危險的長尾場景里也能提前預判。

他放了一段畫面：城市道路上，一個孩子騎車突然摔倒滾向車道，系統提前減速避讓。這種場景人工根本造不全，只能靠真實車隊「撈」回來。

大數據帶來極致泛化與主動安全：左為騎車孩童突然摔入車道的長尾場景。

關卡二　可解釋性與安全保證

端到端最大的質疑是「黑箱」。Elluswamy 的回應是：用思維鏈（Chain-of-Thought）和過程驗證來破解。基礎模型在輸出動作的同時，還會預測一大堆「可被人讀懂」的中間結果。

模型同時吐出的可解釋信號：· 3D 占據與流（3D occupancy & flow）· 車輛、行人、騎行者等物體· 交通管制（信號燈、標志）· 道路邊界、車道語義、限速· 各交通參與者的交互概率· 以及——用自然語言表達的決策理由

同一個大網絡，旁路輸出全景分割、3D 占據、3D 高斯、語言與推理，讓動作變得「可審查」。

可解釋輸出清單：從 3D 占據、物體、交通管制到「以自然語言表達的決策」。

所以，特斯拉也采用自然語言推理。

現場畫面里，車輛遇到「前方道路施工封閉 + 改道標志」的長尾情況，系統用一問一答的鏈條自我推理：「能直行走導航路線嗎？→ 不行，前方有改道牌和施工護欄。→ 那該怎么走？→ 在這個路口左轉。→ 為什么不右轉繞？→ 因為改道牌指示向左。」每一步都打了對勾或叉。

這個和我們之前文章《黃仁勛GTC Taipei 2026 Taipei完整解密：科普Agent、升級物理AI基座模型Cosmos 3、重構PC！》講到的英偉達Alpamayo 一樣的。

自然語言推理應對長尾：模型像答題一樣，把「為什么這樣開」一步步講清楚。

所以，特斯拉給的答案，不管什么模型，語言這個東西去不掉，你不用他輸入，你也要用他輸出，畢竟交互的是人，人最直觀通用的就是語言。

關卡三　評估（三道關卡里最難的一道）

他直言，評估是三者中最難的。原因很反直覺：

· 數據集再好，loss 也不足以代表真實性能· 開環（open-loop）表現好，不保證閉環（closed-loop）也好· 避免一次事故有很多種正確解法，指標必須能容納這種「多模態」· 一種思路是評估「行動后果」的預測· 需要均衡且全面的評測集· 工作枯燥，但極其重要

評估為何最難：好的開環不等于好的閉環，指標必須捕捉「多種正確做法」。

那么如何解呢，特斯拉的解法，是再訓練一個神經網絡世界模擬器（World Sim NN）。

它吃進「當前狀態 + 動作」，預測「下一時刻的狀態」（攝像頭畫面、導航、運動學、音頻……一應俱全），再把狀態喂給策略網絡（Policy NN）產生下一個動作——形成一個完全在神經網絡里跑的閉環模擬器。

閉環模擬：World Sim NN 生成下一狀態 → Policy NN 產生下一動作 → 再回灌，形成回路。

世界模擬器可用「便宜易得的狀態-動作數據」訓練：t 時刻狀態 + 動作 → t+1 時刻狀態。

采用這套模擬器能用來做策略評估、回歸測試，甚至主動注入新問題和對抗場景；壓縮算力后還能實時運行。

更關鍵的是——同一套神經模擬方法，能從 FSD 直接遷移到 Optimus，把工廠、室內等場景一并生成出來。

神經模擬從 FSD 規模擴展到 Optimus：同一方法生成工廠與室內場景。

06　結語：特斯拉，是做「現實世界 AI」的地方

三道關卡講完，特斯拉自動駕駛的邏輯閉環了：

維度災難靠車隊數據解，

黑箱靠思維鏈解，

評估靠神經世界模擬器解。

而這一切的終點，是把駕駛訓練出來的同一個基礎模型，擴展到所有機器人身上——車、人形機器人、數字智能體。

最后一頁，是招募。這也是特斯拉常做的事情。

收尾頁：Tesla is the place for real-world AI & Robotics（tesla.com/AI）。

Vehicle 觀察｜對中國同行意味著什么

這場演講給中國汽車的輔助駕駛/自動駕駛的啟發，不是「特斯拉有多強」，而是它把自動駕駛重新定義成了「具身智能的一個子集」——車只是第一個身體。

對于輔助駕駛/自動駕駛行業的開發和部署講，已經不是一個算法和算力能夠取勝，而是正在從「算法」轉向「數據飛輪 + 閉環評估體系」的全體系競爭：誰能更便宜地做好各種輔助工具，造出可信的閉環評測，誰就能更快迭代。這恰恰是國內擁有海量真實路況數據的玩家，最有機會發力，也最容易被忽視的環節。

來源：Ashok Elluswamy（特斯拉 AI 軟件副總裁）在 CVPR 2026 的演講《Building Foundational Models for Robotics at Tesla》，2026 年 6 月 3 日于美國丹佛（同款內容亦曾在 Scaled ML 2026 發表）；演講頁圖片由公開現場拍攝整理、已裁去上下黑邊。安全里程數據引自 tesla.com/fsd/safety。本文為「Vehicle」據現場幻燈片與公開資料整理還原，部分表述為編輯轉譯，不代表演講者逐字原話。

*未經準許嚴禁轉載和摘錄-

原文標題 : 特斯拉 CVPR 2026 演講全文和詳解：把自動駕駛，做成「所有機器人的基礎模型」