新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

侵權投訴
訂閱
糾錯
加入自媒體

CVPR 2026 Li Hongyang 演講的World Engine解讀 :可能就是華為說的WE

2026-06-09 10:45
vehicle公眾號
關注

還記得華為最新的自動駕駛算法架構叫什么嗎?WEWA - World engine and World Action。

在最近的 CVPR 2026 Workshop(丹佛)上,香港大學計算與數據科學學院助理教授,OpenDriveLab 的Li Hongyang 李弘揚先生做了一場名為《Simulation at Scale for Production-level Autonomous Driving》的演講。其中主題就是采用WE(World Engine)世界引擎來仿真攻克自動駕駛長尾。

所以,本文在演講內容基礎上,結合其團隊公開論文對論文中的World Engine 這個自動駕駛仿真技術的方法和邏輯進行解讀,希望給大家帶來一些信息和啟發。

1. 問題的來源:長尾分布與「最后 20%」

演講中,Li hongyang 先生用給演講內容做了一個鋪墊,量產自動駕駛面臨的核心困難,用一條概率分布曲線概括:

日常行駛中,絕大多數情形是常規事件——直行、跟車、正常通過路口;

少數是「安全關鍵事件」,例如近距離接近、加塞、緊急制動;

而真正的事故屬于極小概率事件,發生頻率通常在每百萬公里乃至更低的量級。

但是,自動駕駛系統能力越是要覆蓋這條曲線的尾部,可用于學習的真實數據就越稀缺。

所以,目前業界的主流做法,本質上是兩條規模化路徑:

一是數據規模化,依靠大規模車隊采集行駛數據;

二是算力規模化,用更大的集群訓練更大的模型。

這條路徑在特斯拉等公司的實踐中被廣泛采用,對常規場景行之有效。但演講指出,它在長尾場景上會遇到收益遞減的問題——這正是本次演講試圖回答的核心。

需要明確的是,「最后 20%」是一個描述性的說法,用來指代那部分難以通過常規數據采集覆蓋、卻對安全至關重要的尾部場景,并非一個精確的量化指標。

2. 核心論點:把「后訓練」范式遷移到自動駕駛

Li hongyang 提出的主要思路,是借用大語言模型的訓練范式來重新審視自動駕駛算法的訓練。

大語言模型的能力提升通常分兩步:

先在大規模文本上做預訓練,再通過基于人類反饋的強化學習(RLHF)等手段做后訓練(post-training)。后訓練并不顯著增加模型「知道多少」,但對把模型調整到「可用、可控、符合期望」起關鍵作用。

Li hongyang在演講中的類比是:

自動駕駛模型在某種意義上已經完成了「預訓練」——海量真實路采數據相當于它的訓練語料;但它缺少一個有效的「后訓練」環節。

大語言模型的后訓練,可以直接引入人的反饋feedback做reward獎勵訓練。但是對于自動駕駛,卻很難,因為自動駕駛所在的物理世界的約束:無法讓車輛反復發生真實碰撞、再據此給出獎勵信號去優化策略。換言之,自動駕駛缺的不是數據本身,而是一個能夠交互、能夠提供反饋、并可安全試錯的環境。

這個類比有其啟發性。語言模型的「環境」是文本和人類評價,反饋廉價且可大量獲取;自動駕駛的環境是物理世界,反饋昂貴且涉及安全。

因此演講推出了他們的關鍵工作,構造一個替代性的數字環境——World Engine世界引擎。

3. World Engine 的三個組成部分

首先,指明一點World Engine 不是單一模型,而是由三個相互銜接的部分構成的系統:像素級的場景重建、場景中多個代理的行為世界模型、最后強化后訓練。

1. 像素級重建:構造視覺環境

第一部分基于 3D 高斯潑濺(3D Gaussian Splatting)構建像素級、可渲染的場景,對應其團隊的 MTGS論文(多次遍歷高斯潑濺,arXiv:2503.12552)工作。

其特點是支持視角外推:將同一地點多次穿行采集的數據融合后,可以從訓練時未直接覆蓋的位置和角度重新渲染圖像。這一部分解決的是「視覺觀測是否逼真、是否可控生成」的問題,和當前大家的虛擬simulator差別不大。

2. 行為世界模型(Nexus):生成交通參與者的行為

第二部分是一個多智能體行為生成模型,對應論文 Nexus(《Decoupled Diffusion Sparks Adaptive Scene Generation》,arXiv:2504.10485),也是本演講的重點。

這個多智能體行為生產模型要同時滿足兩個相互沖突的需求:

一是反應性(reactivity),即對環境的實時變化做出響應;

二是目標導向(goal orientation),即能被預設的未來狀態精確引導,從而可控地生成帶有明確結局的安全關鍵場景。

此前的兩類方法各有短板:全序列擴散模型可控性好,但難以實時響應交互;自回歸式的逐幀預測響應及時,卻缺乏對目標狀態的感知。

Nexus 的做法是「解耦擴散」——讓序列中每個 token 擁有獨立的噪聲狀態,并以噪聲水平作為一種連續的軟掩碼:低噪聲 token 承擔已知條件或目標的約束作用,高噪聲 token 則保留對環境變化的響應能力。由此,可控生成與實時反應被統一在同一個去噪過程中。

傳統的仿真,可能就是重構環境,然后算法修改看自車運動之后問題是否復現,效率低,而且不符合世界物理的發展,因為自車變化,演員車或者叫做智能體也會變化行為的。

現在,這樣做的好處是支持閉環場景生成,為自主智能體提供交互式環境。智能體使用生成的場景進行規劃,而 Nexus 則根據智能體的動作實時更新場景。為了評估場景生成器的真實性。

3. 強化后訓練:在環境中優化策略

第三部分是在上述環境中進行強化學習后訓練。演講強調兩點設計:

一是行為正則化強化學習(behaviour-regularized RL),用 KL 約束將后訓練后的策略限制在預訓練先驗附近,避免強化學習把策略推向異常或不安全的行為分布。

二是經驗混合(experience mixing),將真實路采日志與世界引擎生成的合成 rollout 混合進同一訓練池。演講對二者關系的概括是:模仿學習學習「人類會如何駕駛」,強化學習則補上「不應如何駕駛」。

這樣就形成了World Engine高效生成場景進行對抗學習的訓練方法。

4、實驗結論與解讀:數據效率

其實在演講中Li hongyang 透露的WorldEngine 還給出了目前仿真對比,以及量產級驗證。

仿真驗證中,為彌補公開數據中危險場景稀少的問題,團隊還構建了 Nexus-Data:通過 MetaDrive 仿真器生成,交通流以對抗方式合成,并經自動有效性校驗篩選。論文報告中指出仿真測試的主要結果包括(這些數字來自 Nexus 論文的基準測試,而非獨立復現):

仿真數據規模約 540 小時,覆蓋匯入、加塞、碰撞等高風險交互;

相對所對比的方法,位移誤差降低約 40%;

通過數據增強,閉環規劃性能提升約 20%。

此外據他們研究的主頁披露:在某工業級閉環仿真平臺(超 1 萬個場景)上碰撞率下降約 45.5%;在 AITO M9 上做約 200 公里實車路測(上海城快、高架、居民區,含一次夜間)實現零接管;底座是基于 8 萬多小時真實路采日志訓練的量產系統。合作方包括港大 OpenDriveLab、華為、上海創智學院,以及 NVIDIA、圖賓根大學、valeo.ai、清華等。這些數字來自團隊自身的項目主頁與報告,正式論文尚未發布。

這里就回到文章開頭講到的,華為最新的自動駕駛算法架構叫WEWA - World engine and world action(可以看我們之前文章《深度分享和分析華為2026乾崑技術大會:大家如何應招?》),所以根據上面論文參與機構和測試透露的信息,華為自動駕駛應該也采用此項量產技術。

寫在最后

這場演講指向一個對產業有現實意義的判斷:輔助駕駛/自動駕駛如我們之前文章《從各家出行報告看:中國智駕第一梯隊的用戶成績》講到,已經從敢用走向了常用愛用的階段,那么大家比拼的就是誰能夠高效解決長尾問題。

Li hongyang 先生提出的World Engine能夠生產模擬人類駕駛的物理世界,也就是真是多智能體互動的模型,這就猶如給自動駕駛多了一個真實虛擬世界對抗訓練的場地,可以極大高效通過后訓練快速的提升算法能力。

當然,作為一項研究方向,World Engine 可能仍有若干尚未解決或需要獨立驗證的問題,這也是評估其落地價值時應保持審慎的原因:

仿真到現實的差距(sim-to-real gap)始終存在。重建場景與合成行為再逼真,與真實道路之間仍可能有系統性差異,模型在仿真中的收益未必能等量遷移到實車。

合成的危險場景是否真正覆蓋了真實世界長尾的分布,難以完全驗證。對抗生成有可能產生「看似危險但不真實」的樣本。仿真指標與真實安全之間不能簡單畫等號。開環、閉環的成功率提升,距離量產所需的安全性論證仍有距離。

深度創作不易,您的點贊、愛心和轉發是我們不懈創造提供優質信息的動力,

當然對自動駕駛感興趣的也可以購買我們的書籍

參考資料以及圖片演講:《Simulation at Scale for Production-level Autonomous Driving》,李弘揚,CVPR 2026 Workshop(丹佛)。

Nexus:Zhou et al.,Decoupled Diffusion Sparks Adaptive Scene Generation, arXiv:2504.10485, 2025。

MTGS:Li et al.,MTGS: Multi-traversal Gaussian Splatting, arXiv:2503.12552, 2025。

*未經準許嚴禁轉載和摘錄-

       原文標題 : CVPR 2026 Li Hongyang 演講的World Engine解讀 :可能就是華為說的WE

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    在線客服

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號