新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

侵權投訴
訂閱
糾錯
加入自媒體

Waymo世界模型在CVPR 2026上首次曝光:自動駕駛正在進入“Genie時代”

2026-06-08 11:03
vehicle公眾號
關注

最近的CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT,透露了其下一代自動駕駛系統最重要的技術方向。Image

這張題為《How we built our World Model》的頁面雖然只有寥寥幾行字的一頁,卻揭示了Waymo構建世界模型的完整訓練框架:

預訓練(Pre-training)→ 中期訓練(Mid-training)→ 后訓練(Post-training)

更重要的是,它表明Waymo正在全面借鑒大語言模型(LLM)的訓練范式,將自動駕駛從傳統的軟件工程問題,轉變為基礎模型(Foundation Model)問題,甚至暗示整個自動駕駛行業都會轉向這種新范式。

下面我們拿大語言模型的發展來看看基礎模型如何轉變成駕駛模型。

第一階段:站在DeepMind肩膀上

在流程圖最頂部,Waymo給出的基礎模型并不是自己研發的模型,而是:Google DeepMind Genie 3 (當然這是waymo的母公司或著反正有關系的公司)。

這意味著Waymo并沒有選擇從零開始訓練世界模型,而是直接利用Google DeepMind已經構建完成的大規模世界模型能力。

過去幾年,谷歌的DeepMind 一直持續推進其 Genie 系列模型的發展:

Genie 1:從單張圖片生成可交互游戲世界;

Genie 2:從文本、圖片和視頻生成動態3D環境;

Genie 3:進一步具備長期時序預測、物理規律建模以及場景演化能力。

本質上,Genie 3已經不再只是一個生成模型,而是一個能夠理解現實世界運行規律的“世界模擬器”。

它學習的不僅僅是圖像內容,而是:物體如何運動;行人如何行動;光照如何變化;場景如何演化;物理規律如何約束世界。

而這些能力,恰恰是自動駕駛最需要的能力。

這與今天大模型的發展路徑高度相似:

GPT → 醫療GPT

GPT → 法律GPT

GPT → 金融GPT

Waymo選擇的是:

Genie 3 → Driving Genie 先獲得世界規律理解能力,再將其轉化為自動駕駛能力。

第二階段:讓Genie學會駕駛

然而,僅有Genie還遠遠不夠。

因為Genie本質上是一個通用世界模型。

它看到的是:圖片、視頻、文本

而Waymo車輛看到的是完全不同的數據形式。

在第二階段中,Waymo寫道:Add Waymo-specific sensors and properties

即:加入Waymo專屬傳感器和屬性。

例如:多攝像頭(Multi-camera)、激光雷達(LiDAR)、毫米波雷達(Radar)、高精地圖(HD Map)、這是整個系統最關鍵的一步。

從視覺世界到駕駛世界

DeepMind的世界模型理解的是:

“這個世界長什么樣”。

而Waymo需要理解的是:

“這個世界對于駕駛意味著什么”。

例如同樣一個行人:

對于普通視頻模型來說:

一個正在移動的人

而對于自動駕駛系統來說:速度是多少?是否會橫穿?是否會進入本車道?多久會與車輛產生沖突?這是完全不同的任務。

因此Waymo需要通過海量自動駕駛數據進行中期訓練(Mid-training),讓Genie建立新的認知體系。

模型需要學會理解:攝像頭圖像;激光雷達點云;雷達速度信息;地圖車道拓撲;

以及這些信息之間的對應關系。

這一步其實非常像GPT向GPT-4o演進的過程:語言模型 加入視覺能力 → 多模態模型

而Waymo則是:通用世界模型 → 加入自動駕駛傳感器 → 自動駕駛世界模型

第三階段:讓世界模型學會開車

在最后階段,Waymo寫道:Fine-tune and distill to the task at hand

即:針對具體任務進行微調和蒸餾。

其重點應用包括:Long Sensor Simulation、Planning

長時序仿真

自動駕駛最困難的問題之一,是預測未來。

車輛需要知道:1秒后發生什么;5秒后發生什么;10秒后發生什么;30秒后發生什么。

例如:行人是否會突然橫穿;前車是否會加塞;紅綠燈是否即將變化;路口是否會出現新的沖突目標。

傳統系統通常采用:感知 → 預測 → 規劃的串行架構。

而世界模型則嘗試直接模擬未來世界的演化過程。如果模型能夠準確預測未來,那么自動駕駛決策將變得更加可靠。

從預測走向規劃

但Waymo并不滿足于預測。

他們還希望模型能夠直接參與規劃。

傳統規劃系統關注的是:別人會怎么動

而世界模型進一步思考:我應該怎么動

例如:是否應該變道;是否應該減速;是否應該繞行;是否應該禮讓。

一個被忽視的重要關鍵詞:蒸餾

很多人會注意到預訓練和微調,卻忽略了最后一個詞:

Distillation(蒸餾)這是Waymo未來量產落地的關鍵。

訓練階段的世界模型可能擁有數百億甚至上千億參數。但車端算力無法直接運行這樣的模型。

因此需要:Teacher Model → Distillation → Student Model

將大模型的能力遷移到車端模型。

這與今天大模型行業的發展路徑完全一致:

GPT-4 → GPT-4o mini

Gemini Ultra → Gemini Nano

未來Waymo車端運行的,很可能并不是完整世界模型,而是經過蒸餾后的輕量化版本。

Waymo真正想做什么?

如果把這張圖放到整個自動駕駛技術演進歷史中看,會發現一個非常明顯的趨勢。

過去十年,自動駕駛行業主要采用模塊化架構:感知 → 預測 → 規劃 → 控制每個模塊獨立開發、獨立優化。

在到端到端喂長尾數據不斷優化再到今天,包括Waymo、Tesla、理想、NVIDIA在內的頭部玩家,正在逐漸走向統一架構:

World Model → Simulation → Planning

不再依賴大量人工設計的模塊接口,而是讓模型自己學習世界規律、預測未來并完成決策。

換句話說:

自動駕駛正在從“軟件工程時代”,邁向“基礎模型時代”。

結語

這張看似簡單的PPT,其實透露了Waymo下一代技術路線的核心邏輯:

利用DeepMind Genie 3獲得通用世界理解能力,通過Waymo專屬傳感器數據完成自動駕駛領域訓練,再針對仿真與規劃進行微調和蒸餾,最終形成面向Robotaxi和量產自動駕駛的基礎模型。

未來自動駕駛競爭的核心,或許不再是誰擁有更復雜的模塊化系統,而是誰擁有更強大的世界模型。

而這也可能是整個輔助駕駛、自動駕駛的新范式。所以,現在正歡的各家自動駕駛算法公司或許千萬要小心,打敗你的可能真不是你熟悉的同行,未來這些科技基礎模型公司的降維打擊才是致命的。

來源:CVPR 2026上Waymo 的Vincent Vanhoucke 主題演講Lessons from Driving 200 Million Fully Autonomous Miles 中的一頁PPT。

*未經準許嚴禁轉載和摘錄-

       原文標題 : Waymo世界模型在CVPR 2026上首次曝光:自動駕駛正在進入“Genie時代”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    在線客服

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號