Waymo世界模型在CVPR 2026上首次曝光:自動駕駛正在進入“Genie時代”
最近的CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT,透露了其下一代自動駕駛系統最重要的技術方向。
這張題為《How we built our World Model》的頁面雖然只有寥寥幾行字的一頁,卻揭示了Waymo構建世界模型的完整訓練框架:
預訓練(Pre-training)→ 中期訓練(Mid-training)→ 后訓練(Post-training)
更重要的是,它表明Waymo正在全面借鑒大語言模型(LLM)的訓練范式,將自動駕駛從傳統的軟件工程問題,轉變為基礎模型(Foundation Model)問題,甚至暗示整個自動駕駛行業都會轉向這種新范式。
下面我們拿大語言模型的發展來看看基礎模型如何轉變成駕駛模型。
第一階段:站在DeepMind肩膀上
在流程圖最頂部,Waymo給出的基礎模型并不是自己研發的模型,而是:Google DeepMind Genie 3 (當然這是waymo的母公司或著反正有關系的公司)。
這意味著Waymo并沒有選擇從零開始訓練世界模型,而是直接利用Google DeepMind已經構建完成的大規模世界模型能力。
過去幾年,谷歌的DeepMind 一直持續推進其 Genie 系列模型的發展:
Genie 1:從單張圖片生成可交互游戲世界;
Genie 2:從文本、圖片和視頻生成動態3D環境;
Genie 3:進一步具備長期時序預測、物理規律建模以及場景演化能力。
本質上,Genie 3已經不再只是一個生成模型,而是一個能夠理解現實世界運行規律的“世界模擬器”。
它學習的不僅僅是圖像內容,而是:物體如何運動;行人如何行動;光照如何變化;場景如何演化;物理規律如何約束世界。
而這些能力,恰恰是自動駕駛最需要的能力。
這與今天大模型的發展路徑高度相似:
GPT → 醫療GPT
GPT → 法律GPT
GPT → 金融GPT
Waymo選擇的是:
Genie 3 → Driving Genie 先獲得世界規律理解能力,再將其轉化為自動駕駛能力。
第二階段:讓Genie學會駕駛
然而,僅有Genie還遠遠不夠。
因為Genie本質上是一個通用世界模型。
它看到的是:圖片、視頻、文本
而Waymo車輛看到的是完全不同的數據形式。
在第二階段中,Waymo寫道:Add Waymo-specific sensors and properties
即:加入Waymo專屬傳感器和屬性。
例如:多攝像頭(Multi-camera)、激光雷達(LiDAR)、毫米波雷達(Radar)、高精地圖(HD Map)、這是整個系統最關鍵的一步。
從視覺世界到駕駛世界
DeepMind的世界模型理解的是:
“這個世界長什么樣”。
而Waymo需要理解的是:
“這個世界對于駕駛意味著什么”。
例如同樣一個行人:
對于普通視頻模型來說:
一個正在移動的人
而對于自動駕駛系統來說:速度是多少?是否會橫穿?是否會進入本車道?多久會與車輛產生沖突?這是完全不同的任務。
因此Waymo需要通過海量自動駕駛數據進行中期訓練(Mid-training),讓Genie建立新的認知體系。
模型需要學會理解:攝像頭圖像;激光雷達點云;雷達速度信息;地圖車道拓撲;
以及這些信息之間的對應關系。
這一步其實非常像GPT向GPT-4o演進的過程:語言模型 加入視覺能力 → 多模態模型
而Waymo則是:通用世界模型 → 加入自動駕駛傳感器 → 自動駕駛世界模型
第三階段:讓世界模型學會開車
在最后階段,Waymo寫道:Fine-tune and distill to the task at hand
即:針對具體任務進行微調和蒸餾。
其重點應用包括:Long Sensor Simulation、Planning
長時序仿真
自動駕駛最困難的問題之一,是預測未來。
車輛需要知道:1秒后發生什么;5秒后發生什么;10秒后發生什么;30秒后發生什么。
例如:行人是否會突然橫穿;前車是否會加塞;紅綠燈是否即將變化;路口是否會出現新的沖突目標。
傳統系統通常采用:感知 → 預測 → 規劃的串行架構。
而世界模型則嘗試直接模擬未來世界的演化過程。如果模型能夠準確預測未來,那么自動駕駛決策將變得更加可靠。
從預測走向規劃
但Waymo并不滿足于預測。
他們還希望模型能夠直接參與規劃。
傳統規劃系統關注的是:別人會怎么動
而世界模型進一步思考:我應該怎么動
例如:是否應該變道;是否應該減速;是否應該繞行;是否應該禮讓。
一個被忽視的重要關鍵詞:蒸餾
很多人會注意到預訓練和微調,卻忽略了最后一個詞:
Distillation(蒸餾)這是Waymo未來量產落地的關鍵。
訓練階段的世界模型可能擁有數百億甚至上千億參數。但車端算力無法直接運行這樣的模型。
因此需要:Teacher Model → Distillation → Student Model
將大模型的能力遷移到車端模型。
這與今天大模型行業的發展路徑完全一致:
GPT-4 → GPT-4o mini
Gemini Ultra → Gemini Nano
未來Waymo車端運行的,很可能并不是完整世界模型,而是經過蒸餾后的輕量化版本。
Waymo真正想做什么?
如果把這張圖放到整個自動駕駛技術演進歷史中看,會發現一個非常明顯的趨勢。
過去十年,自動駕駛行業主要采用模塊化架構:感知 → 預測 → 規劃 → 控制每個模塊獨立開發、獨立優化。
在到端到端喂長尾數據不斷優化再到今天,包括Waymo、Tesla、理想、NVIDIA在內的頭部玩家,正在逐漸走向統一架構:
World Model → Simulation → Planning
不再依賴大量人工設計的模塊接口,而是讓模型自己學習世界規律、預測未來并完成決策。
換句話說:
自動駕駛正在從“軟件工程時代”,邁向“基礎模型時代”。
結語
這張看似簡單的PPT,其實透露了Waymo下一代技術路線的核心邏輯:
利用DeepMind Genie 3獲得通用世界理解能力,通過Waymo專屬傳感器數據完成自動駕駛領域訓練,再針對仿真與規劃進行微調和蒸餾,最終形成面向Robotaxi和量產自動駕駛的基礎模型。
未來自動駕駛競爭的核心,或許不再是誰擁有更復雜的模塊化系統,而是誰擁有更強大的世界模型。
而這也可能是整個輔助駕駛、自動駕駛的新范式。所以,現在正歡的各家自動駕駛算法公司或許千萬要小心,打敗你的可能真不是你熟悉的同行,未來這些科技基礎模型公司的降維打擊才是致命的。
來源:CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT。
*未經準許嚴禁轉載和摘錄-
原文標題 : Waymo世界模型在CVPR 2026上首次曝光:自動駕駛正在進入“Genie時代”
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
精彩回顧立即查看>> 【線下會議】恩智浦創新技術峰會·深圳
-
精彩回顧立即查看>> 【在線直播】可視化神器!VisionSym 賦能汽車光學原型開發
-
精彩回顧立即查看>> 12月16-17日 AMD 嵌入式峰會
-
精彩回顧立即查看>> 恩智浦創新技術峰會
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術在線大會
-
精彩回顧立即查看>> Works With 開發者大會深圳站
推薦專題
- 1 特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」
- 2 特斯拉CEO馬斯克又放狠話:2026年無人車開遍全美,十年后自己開車成“小眾愛好”
- 3 深圳立法放開自動駕駛全域通行,7月1日正式實施
- 4 中美自動駕駛“雙人舞”:中國靠“基建狂魔”,美國賭“單車戰神”,誰將贏下未來?
- 5 「豆包汽車」要來了?賽力斯藍電改名賽豆,字節跳動深度上車
- 6 特斯拉監督版FSD登陸中國被廣泛關注,技術架構有啥特點?
- 7 2026年無人車突然滿大街跑了?三大拐點疊加,行業悶聲發大財的時代真的來了
- 8 2026年5月國內汽車質量投訴指數分析報告
- 9 地平線股價年內大跌44%:都怪比亞迪自研芯片?
- 10 50輛無人車排著隊闖進亞特蘭大小區,居民用一張兒童路牌把Waymo“逼瘋了”


分享










