“絕影開悟”世界模型：從輔助駕駛走向具身智能的工程進(jìn)階

2025-07-28 16:35

芝能科技出品

在WAIC 2025上，商湯絕影推出了升級(jí)版的“絕影開悟”世界模型，并展示了其在自動(dòng)駕駛數(shù)據(jù)生成、仿真訓(xùn)練及具身智能交互方面的多項(xiàng)能力。

雖然整體展示內(nèi)容覆蓋面廣，系統(tǒng)集成度較高，但在表象之下，我們更應(yīng)關(guān)注其核心建模能力是否經(jīng)得起推敲，以及其產(chǎn)品平臺(tái)在高階交互和實(shí)際落地過(guò)程中的適用性與邊界，我們更關(guān)心的是從技術(shù)角度分析“絕影開悟”在輔助駕駛和具身智能領(lǐng)域的核心機(jī)制與潛力。

01 輔助駕駛方法革新：效率與控制力的雙重權(quán)衡

“絕影開悟”最大的技術(shù)亮點(diǎn)在于它提供了一種相對(duì)高效、可控的合成數(shù)據(jù)生成方式，用于緩解當(dāng)前輔助駕駛領(lǐng)域?qū)φ鎸?shí)采集數(shù)據(jù)的重依賴。

通過(guò)將大模型能力引入數(shù)據(jù)生成流程，它試圖解決傳統(tǒng)仿真工具中長(zhǎng)期存在的幾個(gè)問(wèn)題：缺乏多樣性、場(chǎng)景難以定制、生成效率低。從物理建模角度看，“絕影開悟”展示出對(duì)真實(shí)駕駛環(huán)境的良好抽象能力。

系統(tǒng)不僅能在視覺(jué)維度上逼近真實(shí)采集畫面，還通過(guò)多模態(tài)控制對(duì)場(chǎng)景邏輯關(guān)系做出可接受的建模（如動(dòng)態(tài)交通行為、光照與視角變化的響應(yīng)）。

以當(dāng)前的A100 GPU生成速度估算，其效率確實(shí)優(yōu)于多數(shù)手動(dòng)采集方式，尤其在高頻次需求的訓(xùn)練周期中具有現(xiàn)實(shí)價(jià)值。

數(shù)據(jù)“真實(shí)度”依舊受限于訓(xùn)練模型的語(yǔ)義深度和物理因果邏輯建構(gòu)能力。在復(fù)雜邊緣場(chǎng)景中，如交通事故、非標(biāo)道路結(jié)構(gòu)、夜間突發(fā)事件等，是否具備足夠泛化能力仍需通過(guò)大規(guī)模實(shí)測(cè)驗(yàn)證。

平臺(tái)支持提示詞生成與圖像點(diǎn)擊生成的功能雖便于產(chǎn)品化，但也可能造成使用者對(duì)“真實(shí)可用性”的認(rèn)知誤差。簡(jiǎn)化交互和增強(qiáng)定制性的同時(shí)，可能弱化開發(fā)者對(duì)底層模擬邏輯準(zhǔn)確性的關(guān)注。

因此，“絕影開悟”的適用邊界更適合作為算法早期訓(xùn)練和策略預(yù)驗(yàn)證工具，而非作為替代實(shí)車驗(yàn)證的終極手段。

商湯基于該模型開發(fā)的數(shù)據(jù)集“WorldSim-Drive”，在數(shù)據(jù)量級(jí)與標(biāo)簽種類上的覆蓋相對(duì)完備，達(dá)到了百萬(wàn)級(jí)片段的規(guī)模，并標(biāo)明了多視角、光照、交通標(biāo)識(shí)等變量標(biāo)簽，有助于訓(xùn)練階段算法的魯棒性提升。

以目前情況來(lái)看，它更像是一個(gè)適用于快速模型預(yù)熱和泛化能力打底的“數(shù)據(jù)引擎”。

“絕影開悟”在輔助駕駛場(chǎng)景中的價(jià)值不在于徹底替代真實(shí)測(cè)試，而在于構(gòu)建一套低成本、可控、高覆蓋率的訓(xùn)練數(shù)據(jù)系統(tǒng)，補(bǔ)足現(xiàn)有測(cè)試體系中的“長(zhǎng)尾場(chǎng)景”缺口。真正的挑戰(zhàn)仍在于模型在未見過(guò)的真實(shí)復(fù)雜交通行為中的泛化能力。

02 邁向具身智能的構(gòu)型實(shí)驗(yàn)：從環(huán)境建模走向交互邏輯生成

如果說(shuō)輔助駕駛的數(shù)據(jù)生成屬于靜態(tài)空間與單維交互建模，那么具身智能對(duì)世界模型的要求則更加復(fù)雜，涉及高頻率的實(shí)時(shí)交互、因果鏈構(gòu)建、多視角對(duì)齊與物理反饋仿真。

“絕影開悟”試圖從三維空間走向四維時(shí)空構(gòu)建，打造一個(gè)具備實(shí)時(shí)響應(yīng)能力的4D訓(xùn)練環(huán)境。其最具技術(shù)含量的部分，是將3DGS（即三維高保真重建）與語(yǔ)義建模融合，形成一個(gè)支持1km²級(jí)別的實(shí)時(shí)仿真環(huán)境，并且允許策略模型與模擬環(huán)境實(shí)時(shí)交互。

這種1:1閉環(huán)測(cè)試機(jī)制，對(duì)于強(qiáng)化學(xué)習(xí)等交互式學(xué)習(xí)方法來(lái)說(shuō)非常關(guān)鍵，它意味著可以在虛擬空間中完成大量策略驗(yàn)證和安全性評(píng)估，減少對(duì)真實(shí)物理實(shí)驗(yàn)的依賴。

系統(tǒng)可以生成具備第一視角（即感知視角）與第三視角（觀察者視角）的同步數(shù)據(jù)，并保持它們的時(shí)空一致性。

過(guò)去在機(jī)器人訓(xùn)練中，往往只能獲得單一視角數(shù)據(jù)，使得訓(xùn)練模型難以兼顧空間規(guī)劃與動(dòng)作細(xì)節(jié)。

雙視角數(shù)據(jù)不僅提升了訓(xùn)練反饋的豐富度，也在一定程度上提供了具身智能體“自我評(píng)估”的能力。具身智能的復(fù)雜性遠(yuǎn)非高精度建模與視角對(duì)齊即可解決。

在實(shí)際工程部署中，問(wèn)題往往出現(xiàn)在動(dòng)作決策鏈條的尾部——即如何讓模擬動(dòng)作在現(xiàn)實(shí)硬件上落地。即使世界模型在仿真中生成了可行的策略路徑，也很難保證機(jī)器人在真實(shí)環(huán)境中執(zhí)行時(shí)具備同等的魯棒性與安全性。Sim2Real的問(wèn)題仍然存在，只是部分被緩解。

商湯提出了構(gòu)建具身3D資產(chǎn)庫(kù)的路徑，涵蓋多種空間、對(duì)象與任務(wù)（如廚房、辦公桌、機(jī)械臂作業(yè)等），為世界模型提供素材支撐。這種資產(chǎn)級(jí)的系統(tǒng)組織形式，在構(gòu)建任務(wù)圖譜與動(dòng)作路徑預(yù)測(cè)中具有較大優(yōu)勢(shì)。

結(jié)合高保真數(shù)據(jù)生成與動(dòng)作軌跡抽象，能構(gòu)建更通用的交互行為基礎(chǔ)。

當(dāng)前展示內(nèi)容仍偏向任務(wù)“可生成”與“可預(yù)演”，在“策略推理”“動(dòng)作冗余壓縮”“任務(wù)錯(cuò)誤容忍”等實(shí)際工程場(chǎng)景中，尚未顯示足夠系統(tǒng)化的能力。

因此，更合理的看法是，“絕影開悟”為具身智能提供了訓(xùn)練前期的環(huán)境層支撐，但要構(gòu)建完整的交互模型體系，還需補(bǔ)足認(rèn)知層建模與反饋處理的中層橋梁。

“絕影開悟”在具身智能中的應(yīng)用展示了從空間建模走向交互反饋的技術(shù)意圖，4D空間構(gòu)建與多視角數(shù)據(jù)生成的能力較具前瞻性，但其作為具身訓(xùn)練的“全流程解決方案”仍不完整。

未來(lái)的發(fā)展關(guān)鍵在于構(gòu)建具備可遷移性與實(shí)際推理能力的策略模型層，而不只是環(huán)境層的構(gòu)建。

小結(jié)

在Physical AI的技術(shù)熱潮中，“世界模型”這個(gè)概念正被不斷擴(kuò)大與泛化，從工程角度看，其價(jià)值仍應(yīng)回歸到一個(gè)根本問(wèn)題：是否真正幫助智能體“理解”了所處的世界，并能夠以可驗(yàn)證的方式做出反應(yīng)。

從認(rèn)知世界，到在世界中行動(dòng)，AI真正的挑戰(zhàn)不是生成一個(gè)世界，而是理解世界背后的規(guī)則與變量，并在不確定中作出正確決策。這需要的不只是生成力，更是推理力與適應(yīng)力。

原文標(biāo)題 : “絕影開悟”世界模型：從輔助駕駛走向具身智能的工程進(jìn)階