Waymo世界模型在CVPR 2026上首次曝光：自動駕駛正在進入“Genie時代”

2026-06-08 11:03

最近的CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT，透露了其下一代自動駕駛系統最重要的技術方向。

這張題為《How we built our World Model》的頁面雖然只有寥寥幾行字的一頁，卻揭示了Waymo構建世界模型的完整訓練框架：

預訓練（Pre-training）→ 中期訓練（Mid-training）→ 后訓練（Post-training）

更重要的是，它表明Waymo正在全面借鑒大語言模型（LLM）的訓練范式，將自動駕駛從傳統的軟件工程問題，轉變為基礎模型（Foundation Model）問題，甚至暗示整個自動駕駛行業都會轉向這種新范式。

下面我們拿大語言模型的發展來看看基礎模型如何轉變成駕駛模型。

第一階段：站在DeepMind肩膀上

在流程圖最頂部，Waymo給出的基礎模型并不是自己研發的模型，而是：Google DeepMind Genie 3 （當然這是waymo的母公司或著反正有關系的公司）。

這意味著Waymo并沒有選擇從零開始訓練世界模型，而是直接利用Google DeepMind已經構建完成的大規模世界模型能力。

過去幾年，谷歌的DeepMind 一直持續推進其 Genie 系列模型的發展：

Genie 1：從單張圖片生成可交互游戲世界；

Genie 2：從文本、圖片和視頻生成動態3D環境；

Genie 3：進一步具備長期時序預測、物理規律建模以及場景演化能力。

本質上，Genie 3已經不再只是一個生成模型，而是一個能夠理解現實世界運行規律的“世界模擬器”。

它學習的不僅僅是圖像內容，而是：物體如何運動；行人如何行動；光照如何變化；場景如何演化；物理規律如何約束世界。

而這些能力，恰恰是自動駕駛最需要的能力。

這與今天大模型的發展路徑高度相似：

GPT → 醫療GPT

GPT → 法律GPT

GPT → 金融GPT

Waymo選擇的是：

Genie 3 → Driving Genie 先獲得世界規律理解能力，再將其轉化為自動駕駛能力。

第二階段：讓Genie學會駕駛

然而，僅有Genie還遠遠不夠。

因為Genie本質上是一個通用世界模型。

它看到的是：圖片、視頻、文本

而Waymo車輛看到的是完全不同的數據形式。

在第二階段中，Waymo寫道：Add Waymo-specific sensors and properties

即：加入Waymo專屬傳感器和屬性。

例如：多攝像頭（Multi-camera）、激光雷達（LiDAR）、毫米波雷達（Radar）、高精地圖（HD Map）、這是整個系統最關鍵的一步。

從視覺世界到駕駛世界

DeepMind的世界模型理解的是：

“這個世界長什么樣”。

而Waymo需要理解的是：

“這個世界對于駕駛意味著什么”。

例如同樣一個行人：

對于普通視頻模型來說：

一個正在移動的人

而對于自動駕駛系統來說：速度是多少？是否會橫穿？是否會進入本車道？多久會與車輛產生沖突？這是完全不同的任務。

因此Waymo需要通過海量自動駕駛數據進行中期訓練（Mid-training），讓Genie建立新的認知體系。

模型需要學會理解：攝像頭圖像；激光雷達點云；雷達速度信息；地圖車道拓撲；

以及這些信息之間的對應關系。

這一步其實非常像GPT向GPT-4o演進的過程：語言模型加入視覺能力 → 多模態模型

而Waymo則是：通用世界模型 → 加入自動駕駛傳感器 → 自動駕駛世界模型

第三階段：讓世界模型學會開車

在最后階段，Waymo寫道：Fine-tune and distill to the task at hand

即：針對具體任務進行微調和蒸餾。

其重點應用包括：Long Sensor Simulation、Planning

長時序仿真

自動駕駛最困難的問題之一，是預測未來。

車輛需要知道：1秒后發生什么；5秒后發生什么；10秒后發生什么；30秒后發生什么。

例如：行人是否會突然橫穿；前車是否會加塞；紅綠燈是否即將變化；路口是否會出現新的沖突目標。

傳統系統通常采用：感知 → 預測 → 規劃的串行架構。

而世界模型則嘗試直接模擬未來世界的演化過程。如果模型能夠準確預測未來，那么自動駕駛決策將變得更加可靠。

從預測走向規劃

但Waymo并不滿足于預測。

他們還希望模型能夠直接參與規劃。

傳統規劃系統關注的是：別人會怎么動

而世界模型進一步思考：我應該怎么動

例如：是否應該變道；是否應該減速；是否應該繞行；是否應該禮讓。

一個被忽視的重要關鍵詞：蒸餾

很多人會注意到預訓練和微調，卻忽略了最后一個詞：

Distillation（蒸餾）這是Waymo未來量產落地的關鍵。

訓練階段的世界模型可能擁有數百億甚至上千億參數。但車端算力無法直接運行這樣的模型。

因此需要：Teacher Model → Distillation → Student Model

將大模型的能力遷移到車端模型。

這與今天大模型行業的發展路徑完全一致：

GPT-4 → GPT-4o mini

Gemini Ultra → Gemini Nano

未來Waymo車端運行的，很可能并不是完整世界模型，而是經過蒸餾后的輕量化版本。

Waymo真正想做什么？

如果把這張圖放到整個自動駕駛技術演進歷史中看，會發現一個非常明顯的趨勢。

過去十年，自動駕駛行業主要采用模塊化架構：感知 → 預測 → 規劃 → 控制每個模塊獨立開發、獨立優化。

在到端到端喂長尾數據不斷優化再到今天，包括Waymo、Tesla、理想、NVIDIA在內的頭部玩家，正在逐漸走向統一架構：

World Model → Simulation → Planning

不再依賴大量人工設計的模塊接口，而是讓模型自己學習世界規律、預測未來并完成決策。

換句話說：

自動駕駛正在從“軟件工程時代”，邁向“基礎模型時代”。

結語

這張看似簡單的PPT，其實透露了Waymo下一代技術路線的核心邏輯：

利用DeepMind Genie 3獲得通用世界理解能力，通過Waymo專屬傳感器數據完成自動駕駛領域訓練，再針對仿真與規劃進行微調和蒸餾，最終形成面向Robotaxi和量產自動駕駛的基礎模型。

未來自動駕駛競爭的核心，或許不再是誰擁有更復雜的模塊化系統，而是誰擁有更強大的世界模型。

而這也可能是整個輔助駕駛、自動駕駛的新范式。所以，現在正歡的各家自動駕駛算法公司或許千萬要小心，打敗你的可能真不是你熟悉的同行，未來這些科技基礎模型公司的降維打擊才是致命的。

來源：CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT。

*未經準許嚴禁轉載和摘錄-

原文標題 : Waymo世界模型在CVPR 2026上首次曝光：自動駕駛正在進入“Genie時代”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

行業報告

2025年激光雷達應用市場調研及前景預測報告
2025年中國光電傳感器市場發展現狀及投資前景分析
2025年中國汽車電子行業市場發展現狀及投資前景分析
2025年新能源汽車充電樁市場分析報告

新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

發表評論

登錄