訂閱
糾錯
加入自媒體

DreamZero:從語言理解到世界建模-具身智能的WAM新范式

在具身智能的發展進程中,機器人要實現從“語言理解”到“物理交互”的跨越,仍面臨泛化能力不足、物理機理建模困難以及跨場景、跨本體遷移性差等核心挑戰。以視覺-語言-動作模型(VLA)為代表的主流技術方案,借助預訓練視覺-語言模型(VLM)強大的語義先驗,在指令跟隨與簡單物體操作任務上取得了顯著進展。然而,其在未知環境下的場景泛化能力,尤其是在新技能學習與運動模式生成方面的適應性,依然存在明顯局限。英偉達推出的DreamZero,作為基于預訓練視頻擴散主干構建的新一代世界動作模型(WAM),以140億參數的自回歸擴散 Transformer 架構為核心,通過聯合建模視頻與機器人動作,有效繼承了海量視頻數據中蘊含的物理與時空先驗,突破了VLA的多項固有局限,實現了跨任務、跨環境、跨具身的零樣本/小樣本泛化,同時通過多維度技術優化,達成了機器人控制所需的實時閉環控制效果。DreamZero整體概覽(圖片來源:英偉達論文)

01

當前VLA模型的核心困境:懂語義,卻不懂物理VLA模型的核心思路在于,將預訓練的VLM所蘊含的視覺-語義知識遷移至機器人動作學習領域,從而使機器人能夠理解自然語言指令、感知視覺場景并執行相應的物理操作。經過多年發展,VLA模型逐漸形成了模塊化組合與端到端一體化兩種主流架構。然而,這兩類架構所依賴的VLM主要實現了語義層面的泛化能力,尚未能真正建模和理解物理世界的動力學規律,這成為制約VLA模型在實際機器人任務中落地的關鍵瓶頸。

1. 分模塊VLA:依賴固定技能庫,易產生跨模塊誤差累積

分模塊VLA是早期VLA的典型架構形式,其核心設計為解耦“高層規劃”與“底層執行” 兩個環節:將預訓練VLM作為 “黑箱推理器” 負責語義推理與任務規劃,再由專用的底層機器人策略或控制器完成動作執行。該模塊化設計雖簡化了復雜任務的規劃流程,提升了初期開發效率,但存在相關局限性。

1)高度依賴預先構建的底層技能庫,泛化能力受限

分模塊VLA的底層執行高度依賴語言條件運動基元庫——即一組將語言指令與固定運動模式綁定的動作模塊(如抓取、放置、插入等)。在該范式下,VLM的核心作用僅限于“聽指令選模塊”,其泛化能力僅體現在語義理解層面;而底層執行的泛化范圍則完全受限于技能庫的覆蓋邊界。然而,現實世界的物理交互具有多樣性與復雜性,預設的動作模板難以覆蓋全部應用場景。例如,機器人可執行訓練過的“將可樂罐移至桌面”指令,卻無法完成“解開鞋帶”或“按壓烤面包機杠桿”等新技能操作。若要實現新任務的跨環境泛化,往往需要針對不同場景收集數百組人類遙操作數據進行重訓,整體開發成本高昂,難以適配開放世界。

2)跨模塊誤差易累積,對接口穩健性要求嚴苛

上層VLM與底層控制器之間通過指令序列、視覺軌跡、功能性感知結果 三類信號交互,但這一接口本身是“不可微”的 —— VLM的規劃誤差會傳遞到底層執行,底層執行的物理誤差又會反饋給上層規劃,形成跨模塊誤差累積 。同時,抽象的語義規劃與具體的物理執行之間需要極強的接口穩健性,一旦場景稍有變化,就容易出現規劃與執行的錯位問題。

2. 端到端 VLA:缺乏物理與時空先驗,新技能新環境泛化薄弱

模塊化 VLA 因模塊接口復雜、誤差逐級傳遞、依賴人工定義技能庫等問題難以實現高效泛化。為從架構層面突破上述瓶頸,端到端一體化 VLA被提出。這類模型擺脫了規劃-控制的分層結構,將語言條件語義與底層機器人動作融合在同一個模型中,由大規模預訓練VLM初始化,實現了 “視覺 + 語言→動作” 的端到端映射,在 視覺- 語義知識遷移 上取得了前沿進展。但端到端VLA 的底層底座仍是在靜態圖像 - 文本數據集上預訓練的 VLM,這一本質特征讓其存在先天難以從根本上彌補的短板: 缺乏學習時空先驗的能力。所謂物理與時空先驗 ,是模型從視頻、機器人交互等連續時序數據中學到的物理規律,讓機器人理解“空間結構是什么、動作會帶來什么變化”,是從 “懂語義” 升級到 “懂物理” 的核心。而靜態圖文數據僅能讓 VLM 學會 “識別物體、理解指令”,卻無法讓其掌握重力、碰撞、運動動力學等物理知識,也無法匹配精準的空間感知、幾何結構與運動控制。因此,端到端VLA 的泛化能力仍僅局限在 物體層面與語義層面 ,在全新運動技能、全新開放環境上的泛化能力依然比較弱。若不專門收集大規模面向特定任務與環境的動作數據,端到端VLA 既無法適應新環境,也無法在專家演示分布之外的新任務上實現泛化?傊瑹o論是分模塊還是端到端VLA,其核心問題均可歸結為: 僅繼承了VLM 的語義先驗,卻缺乏物理與時空先驗,即物理世界的動力學先驗。 盡管VLM先驗在語義層面編碼了要執行什么操作,但它們缺乏如何依托精準空間感知來執行動作的表征,無法與幾何結構、動力學特性及運動控制相匹配。這種“ 語義- 物理 ”的鴻溝,讓 VLA 始終難以擺脫對大規模特定任務數據的依賴,也無法實現真正意義上的開放世界泛化。而要破解這一問題,核心思路是讓模型從連續時序數據中學習物理動力學規律,而視頻數據因其天然的時序屬性和對物理過程的完整記錄,成為該研究方向的關鍵數據載體。

02

從視頻生成到WAM:具身智能的全新解決方案

視頻數據包含連續的視覺幀變化,天然編碼了物理世界的時空規律、運動因果與動力學特性,成為彌補VLA物理先驗缺失的關鍵。隨著視頻生成模型的發展,研究者開始探索將視頻生成與機器人動作生成結合,最終誕生了 世界動作模型(WAM) ,成為突破VLA困境的新一代技術范式。

1. 機器人領域的視頻生成:從隱式世界模型到動作映射

在WAM誕生之前,視頻生成模型就已應用于機器人領域,其核心作用是作為隱式的“世界模型”,通過合成機器人操作的視覺軌跡——即模型學習視覺時空先驗,預測未來幀中機器人/物體的視覺運動路徑——來模擬物理交互的動態過程。隨后,再通過多種方式將這一視覺預測轉化為機器人可執行的物理動作,主要包括三種方法:

逆動力學模型: 

從視頻預測的末端執行器3D軌跡出發,首先通過逆運動學解算為期望的關節空間軌跡(含位置、速度)。隨后,基于機器人動力學模型,通過逆動力學計算實現該期望運動所需的關節力矩,并將其作為底層轉矩指令發送至執行器進行跟蹤。

光流作為稠密對應: 

利用視頻連續幀間的像素級運動向量(光流),建立從當前到目標狀態的稠密像素對應關系。這種方法能捕捉物體的非剛性形變和精細運動,尤其適用于需要隱式理解物體幾何與物理屬性的操作,如抓取可變性物體或高精度裝配。

軌跡預測作為高層規劃:

 該方法應用于模塊化系統設計,視頻生成模型充當高層規劃器,輸出參考軌跡(如一系列運動基元或關鍵路徑點);而底層則由一個專用的運動控制器負責,通過閉環控制實現對參考軌跡的精確跟蹤與實時修正。這一階段的研究證明,視頻生成模型能隱式學習豐富的物理動態先驗,為機器人提供視覺運動引導。然而,該范式本質上是開環的:模型僅負責從觀測預測未來,其輸出的視覺軌跡與機器人的底層動作執行相互割裂。這種“感知-預測”與“動作”的分離,導致模型無法從執行結果中學習因果關聯,難以應對真實世界中復雜的接觸動力學和未預見的干擾,因此其泛化能力,尤其是在新物體、新場景下的零樣本執行能力,仍然存在根本性局限。

2. 視頻與動作聯合生成:WAM 的誕生邏輯

為實現視覺理解與動作執行的深度融合,研究者提出了視頻生成與動作生成聯合學習的范式,旨在通過統一的模型實現端到端的世界建模與動作預測。最后,經研究證明,在動作預測的同時引入世界建模目標(即預測未來視覺狀態),能顯著提升模型的多任務性能、樣本效率以及對新場景、新物體的泛化能力。早期的聯合建模嘗試,無論是采用"先視頻生成、后逆動力學反推"的分階段方法,還是嘗試在同一雙向擴散架構中聯合學習視頻與動作,均面臨視頻-動作對齊失效、時間流扭曲或動力學先驗不足等根本性挑戰。近期的研究突破則選擇以 預訓練視頻擴散模型作為基礎骨干 ,讓模型直接繼承海量互聯網視頻數據中隱式編碼的豐富視覺動力學先驗(如重力、接觸、形變等)。WAM 的核心設計便是 學習視頻與動作的聯合分布 ,這也是其區別于VLA和傳統世界模型的關鍵。所謂視頻與動作的聯合分布,即模型同時學習「機器人動作」和「畫面時序變化」之間的因果綁定關系,實現雙向映射:已知動作,能精準預測未來的視覺畫面(世界建模);已知目標視覺畫面,能反推出對應的機器人動作(動作生成)。在這一機制中,視頻預測扮演了 隱式視覺規劃器 的角色—— 模型不輸出任何文字步驟、符號指令等顯式規劃信息,而是通過預測未來的連續視覺幀,間接引導動作生成,讓動作始終與物理世界的變化保持對齊。這種隱式規劃方式,讓 WAM 擺脫了固定規劃模板的限制,更適配開放世界的復雜場景。值得注意的是,研究者將其命名為"世界動作模型(WAM)"而非"視頻動作模型(VAM)" 。這一命名的深意在于:視頻只是世界建模的一種稠密表示形式。未來的WAM可將動作與觸覺感知、力反饋、隱空間表征等其他預測模態進行對齊,從而實現對物理世界更全面的建模,具備更強的擴展性與跨具身遷移能力。

03

DreamZero:WAM的全新技術范式

英偉達 DreamZero是基于預訓練圖像轉視頻擴散主干網絡構建的140億參數規模的機器人基礎模型,采用自回歸擴散 Transformer(DiT)架構,通過教師強制分塊視頻去噪目標訓練,實現了視頻與動作的深度聯合建模。

1.DreamZero 核心設計:三大轉化挑戰與針對性解決方案

預訓練視頻擴散模型從互聯網規模數據中習得并繼承了豐富的時空先驗,成為構建機器人策略主干網絡的優質選擇。但將這類模型轉化為可實際落地的有效世界動作模型(WAM),仍面臨三大核心技術挑戰:

1)視頻-動作模態對齊 :

 聯合預測視頻與動作的核心要求是實現視覺未來狀態與運動指令的緊密耦合,若簡單拼接獨立的視頻頭與動作頭,極易導致二者模態錯位,無法實現有效聯動。

2)架構設計選型 : 

雙向架構與自回歸架構對WAM 的適配性尚未形成明確結論,而架構的選擇會直接影響模態對齊效果、推理過程中的誤差累積程度以及整體推理效率。

3)實時推理效率 : 

視頻擴散模型的推理需在高維隱空間中完成迭代去噪操作,這一特性導致模型推理延遲過高,無法直接應用于機器人閉環控制場景。針對上述三大挑戰,DreamZero 通過三項針對性的設計策略實現了技術突破,成功將預訓練視頻擴散模型轉化為高效可用的 WAM:

構建單一端到端模型:

采用共享目標函數對視頻與動作模態進行聯合去噪,從模型底層架構上確保二者的深度融合與精準對齊。

選用自回歸架構并結合閉環執行設置:

在每個動作塊執行完成后,將KV 緩存中的預測幀替換為真實視覺觀測值,從根源上消除自回歸推理中的誤差累積;同時借助 KV 緩存實現高效推理,且能保留視頻原生幀率,進一步保障視頻與動作的模態對齊精度。

系統、實現、模型三層面優化:

通過多維度的技術優化實現了38倍的推理加速,最終讓模型支持以7Hz的頻率完成機器人實時閉環控制。

2. DreamZero 模型架構:三輸入 + 單主干 + 雙輸出的端到端設計

DreamZero采用端到端自回歸架構,以預訓練視頻擴散模型(Wan2.1-I2V-14B)為骨干,僅引入少量新增參數(如動作解碼器、狀態編碼器)實現視頻與動作的聯合預測。其架構可概括為: 三類輸入(視覺觀測、語言指令、本體狀態) 、 一個自回歸DiT主干 、 視頻與動作雙輸出頭 。核心設計在于"條件輸入下的視頻-動作聯合生成",通過自回歸生成與KV緩存回灌機制,實現視覺演變與動作指令的深度耦合。

DreamZero模型架構:模型訓練和模型推理(圖片來源:英偉達論文)

1 )三類條件輸入:全方位感知任務與環境信息

DreamZero 的輸入覆蓋了 視覺、語言、機器人自身狀態 三大維度,所有輸入均經過專屬編碼器處理為低維隱變量,確保模型能全面理解任務指令、視覺場景與自身狀態,為聯合預測提供充足的條件信息。

視覺上下文 :

即機器人當前與歷史的視覺觀測幀序列,通過 VAE 編碼器 壓縮為低維隱變量,在保留視覺細節的同時大幅降低計算量,是模型學習物理規律的核心輸入;

語言指令 :

即自然語言形式的任務描述(如“把橙子放進南瓜里”“按壓電梯按鈕”),通過 文本編碼器 轉化為語義條件向量,告訴模型“需要完成什么任務”;

本體感受狀態 :

即機器人自身的物理狀態,包括關節角度、末端執行器位姿、夾爪狀態等,通過 狀態編碼器 轉化為狀態條件向量,告訴模型“當前在哪里、處于什么姿態”。對于多視角的機器人訓練數據,DreamZero 僅將所有視角拼接為單幀,無需對主干網絡做架構修改,最大程度保留了預訓練視頻模型的泛化能力。

2 ) 自回歸DiT主干網絡:流匹配 + 自回歸架構

所有編碼后的輸入均送入采用流匹配方法的自回歸擴散Transformer(DiT)主干網絡,這是 DreamZero 的核心計算模塊:

流匹配:

 學習從"噪聲分布"到"真實數據分布"的連續向量場,支持視頻與動作的聯合去噪,保證二者對齊;

自回歸架構 :

確保模型僅依賴過去信息生成未來內容,符合物理時序邏輯。借助KV緩存實現高效推理,保留原始視頻幀率,保證幀與動作的精準對齊。

3 ) 雙解碼器:聯合輸出未來視覺幀與可執行動作序列

經過自回歸DiT 主干網絡處理后,模型通過 VAE解碼器 和 動作解碼器 兩個獨立解碼器,實現 未來視頻幀 與 連續動作序列 的聯合預測:

VAE 解碼器:

將視頻隱變量還原為未來視覺幀,作為隱式視覺規劃器引導動作生成;

動作解碼器:

將動作隱變量還原為機器人可執行的連續動作塊,其時間跨度與視頻分塊完全對齊,確保動作執行后能產生與預測視頻相一致的視覺變化。這種“單主干 + 雙解碼器” 的設計,既實現了視頻與動作的深度融合,又保證了兩類輸出的獨立性,避免了模態之間的干擾。

3. DreamZero 訓練方式:教師強制下的分塊視頻-動作聯合去噪

DreamZero的訓練核心是以真實歷史為條件,對 分塊視頻與動作 進行聯合流匹配去噪。這一范式結合了 分塊處理、教師強制、流匹配 三大技術。

1 ) 分塊處理:適配長時序任務

DreamZero將長時序的視頻與動作序列拆分為多個固定長度的分塊(Chunk)。每個視頻分塊包含固定數量的隱式幀,且與動作分塊的時間跨度完全對齊。這種分塊方式讓模型能對可變長度的序列進行訓練,類似于大語言模型對文本Token的處理,既避免了長時序訓練的梯度消失/計算爆炸,又能適配復雜的長時程機器人任務。

2) 教師強制:用真實數據引導穩定訓練

在訓練過程中,DreamZero采用教師強制(Teacher Forcing) 策略:模型始終以干凈的真實歷史數據(前序視頻幀、動作、狀態)為條件,對含噪聲的當前分塊(視頻/動作隱變量)進行聯合去噪。這一設計確保模型在訓練初期始終基于真實的物理狀態進行預測,避免了因自身預測偏差累積導致的訓練崩潰,大幅提升了訓練的穩定性和收斂速度。

3 ) 聯合流匹配去噪:共享 去噪 時間步,實現視頻-動作深度對齊

DreamZero以流匹配為核心訓練目標,對視頻和動作隱變量進行聯合去噪,并在兩模態間共享去噪時間步,使模型在訓練初期即能學習二者的因果綁定。形式化地,模型將干凈的視頻/動作隱變量與隨機噪聲線性插值,得到含噪隱變量,再預測從含噪狀態到干凈狀態的聯合速度場,通過最小化預測速度與真實速度的誤差更新參數。同時,模型施加因果注意力掩碼,確保當前分塊僅能關注前序分塊的干凈上下文,嚴格遵循時序邏輯。注: 針對實時控制的加速版本DreamZero-Flash采用解耦噪聲調度,允許視頻和動作處于不同的噪聲水平,以實現單步推理。

4. DreamZero 實時推理優化:38倍加速,實現7Hz閉環控制

基于擴散模型的WAM雖具備強大的泛化能力,但迭代去噪過程帶來的 高延遲 ,使其與機器人的反應式控制存在本質矛盾—— 原始 DreamZero 在單 GPU 上生成一個動作塊需要約5.7秒,難以實現實時閉環控制。為解決這一問題,DreamZero 從 系統、實現、模型 三個層面進行了全方位的優化,最終實現了 38 倍的推理加速 ,將單動作塊的推理延遲從5.7 秒降至150毫秒,支持以7Hz的頻率實現實時閉環控制。

1 ) 系統層面優化:并行化 + 緩存優化推理吞吐量

將模型推理與機器人動作執行解耦,運動控制器持續執行最新的動作塊,推理程序基于最新觀測并行運行,將延遲約束從“推理必須在運動前完成”轉變為“推理必須在當前動作塊耗盡前完成” 。 在異步執行框架下,通過并行化與緩存優化推理吞吐量 :

CFG 并行 :

將無分類器引導的兩次前向傳播(條件/無條件)分配到兩張GPU上并行執行,單步推理延遲降低47%;

DiT 緩存 :

利用流匹配中速度預測的方向一致性,當連續速度的余弦相似度超過閾值時 , 復用緩存的速度,將有效DiT步數從16步減少到4步,且幾乎不損失動作預測質量。

2 ) 實現層面優化:編譯器+量化+內核優化,降低硬件開銷

Torch Compile + CUDA Graph :

利用PyTorch編譯工具消除CPU開銷,并通過 CUDA Graph 實現算子融合 。 靜態形狀 僅在第一條軌跡時觸發重新編譯,大幅提升推理速度;

訓練后量化 :

在Blackwell架構上將模型權重與激活量化為 NVFP4 格式,僅將 QKV、Softmax 等敏感操作保留在FP8,非線性操作保留在 FP16,在幾乎不損失精度的前提下大幅降低顯存占用和計算量;

內核與調度器優化 :

使用cuDNN 后端實現注意力計算,并將調度器相關操作遷移到GPU,消除CPU-GPU 同步阻塞,提升硬件利用率。

3 ) 模型層面優化:DreamZero-Flash,解耦噪聲調度實現單步去噪

擴散步數仍是延遲的核心瓶頸,而簡單減少步數會導致視覺噪聲傳導到動作預測,降低動作質量。為此,英偉達提出了 DreamZero-Flash ,通過在訓練時, 解耦視頻與動作的噪聲調度 來 解決這一問題。其核心思路是 :訓練時讓視頻噪聲偏向高噪聲狀態(通過Beta分布采樣),同時保持動作噪聲為均勻分布,讓模型學習 從含噪的視覺上下文直接預測干凈的動作 。這一設計讓模型在推理時即使僅用1 步去噪,也能生成高質量的動作,最終將擴散步數從4步降至1步,推理時延從約350ms降至約 150ms,且性能幾乎沒有損失。此外,DreamZero 還通過 動作塊平滑處理 (上采樣+ Savitzky - Golay 濾波 + 下采樣)抑制生成動作中的高頻噪聲,讓機器人的運動更平滑、更穩定。

5. DreamZero : 三項核心技術

突破經過上述架構設計與技術優化,DreamZero在具身智能的核心指標上實現了顯著突破,性能顯著優于當前SOTA的VLA模型與早期WAM相關研究,其實驗結果在真實機器人實驗和 Genie Sim 3.0、PolaRiS 等權威仿真基準上得到驗證。

1 ) 泛化能力提升超2倍,實現跨環境、跨任務、跨具身泛化

DreamZero實現了超越傳統VLA和以往世界動作模型的全新泛化能力 —— 跨環境、跨任務、跨具身。與當前最先進的預訓練VLA模型 (GR00T N1.6與π 0.5 ) 相比,在環境與任務泛化基準測試中,其平均任務進度提升超過2倍。

2 ) 從多樣化異構數據中高效學習,打破對重復演示的依賴

DreamZero證明了通用機器人策略可以從多樣化、異構數據中高效學習,打破了“通用策略需要為每個任務提供多次重復演示”的傳統認知。盡管已有研究表明,世界動作模型從視頻預測中習得的先驗相比VLA模型能提升動作學習的樣本效率,但絕大多數相關工作仍聚焦于重復演示數據。正是這種多樣化數據的預訓練,讓模型習得了不受特定場景干擾的通用物理先驗——因此,即便經過面向特定任務的后訓練,DreamZero的環境泛化能力依然得以保留,在平均任務進度上比當前最優的VLA模型高出10%。這表明模型不僅學習效率高,且學到的知識具備持久性與遷移性。

3 ) 跨具身遷移能力,純視頻學習+小樣本適配新機器人

DreamZero 實現了 兩種跨具身遷移形式 :

純視頻跨具身學習 :

僅使用10–20分鐘來自其他機器人(YAM)或人類的純視頻演示,就能讓目標機器人(AgiBot G1)在未見過的任務上性能相對提升超過 42%;

小樣本具身自適應 :

在AgiBot G1上預訓練的 DreamZero,僅用 30 分鐘的交互數據 ,就能快速適配全新的機器人形態(YAM),且適配后仍能保留其零樣本泛化能力。

04

未來展望

DreamZero證明了預訓練視頻擴散模型可以成為機器人通用基礎模型的優秀底座。通過聯合建模視頻與動作,它使機器人能夠從海量互聯網視頻中繼承通用的物理時空先驗,大幅降低對真實機器人訓練數據的依賴,實現高效的通用技能學習與泛化。然而,DreamZero僅是這一技術路徑的初步探索。從未來發展來看,以下方向值得深入研究:

1)  WAM的縮放定律

使用更大的視頻主干模型、在更多樣化的數據上訓練,能夠顯著提升下游性能。但目前我們仍缺乏針對機器人基礎模型——尤其是世界動作模型(WAM)——的系統性縮放定律證據。與大語言模型類似,WAM的縮放規律取決于模型規模、數據規模與訓練算力三者之間的協同關系。研究人員推測,WAM的縮放趨勢將與VLA不同,可能呈現出更直接、更貼近動作任務需求的縮放特性。對這一規律的深入探究,將是決定WAM能否持續擴展能力邊界的關鍵。

2) 從真實場景人類數據中學習

本研究初步驗證了利用人類第一人稱數據可提升未見任務的性能,但實驗仍局限于小規模實驗室數據(僅12分鐘)。近期,大量分布更廣、與機器人操作相關的人類視頻數據集已陸續公開。由于WAM本身就在多樣化互聯網視頻上預訓練,研究人員認為:利用這些大規模人類第一人稱視頻,有望讓WAM比現有VLA更高效地遷移至下游機器人任務。這一方向將成為后續研究的重點。

3) 更快的推理速度

通過模型與系統優化,DreamZero已在2塊GB200上實現7Hz頻率的閉環控制。但與消費級GPU上可運行至20Hz以上的現有VLA相比,DreamZero因參數量大、視頻模型需迭代去噪,計算開銷仍然較高。未來,若更小的視頻主干模型也能具備強泛化能力,WAM有望在輕量邊緣設備上作為實時System1(快系統)模型部署,拓展其應用場景。

4) 長時程推理

當前DreamZero架構主要作為System1模型工作。盡管具備視覺記憶機制,但其記憶跨度目前僅為短時程(約6秒)。要實現穩健的長時程任務執行,存在兩條技術路徑:一是引入System 2(慢系統)規劃器,構建模塊化雙系統架構;二是將WAM的上下文窗口大幅延長,借鑒視頻生成模型中長時序一致性的相關技術。兩條路徑均具潛力,值得并行探索。

5) 高精度任務

盡管DreamZero在多樣化的任務與環境中展現出廣泛的泛化能力,但在鑰匙插入、精細裝配等亞厘米級精度要求的任務上,它仍帶有行為克隆方法的固有局限。當前的多樣化預訓練策略以任務廣度為優先,可能導致對高精度操作所需的密集演示數據覆蓋不足。值得關注的是,近期研究表明:世界動作模型在毫米級公差的高精度操作任務中反而具備潛在優勢。這一積極信號提示,泛化廣度與精細靈巧之間的權衡,有望通過進一步研究實現調和。

6) 面向WAM的機器人具身設計

研究人員提出,未來WAM的發展將對機器人具身形態提出新的設計要求,其中兩大核心因素值得關注:

自由度:

 高自由度機器人需要更多自由探索數據,才能學習精準的隱式逆動力學模型——因為從未來視覺狀態到電機控制指令的映射,會隨運動學復雜度呈組合式增長。如何量化隱式逆動力學模型的精度,仍是待解的行業難題。

擬人度: 

與人類形態更接近的具身結構(如具備靈巧操作能力的人形機器人),盡管自由度更高,但其遷移效率反而更優。原因在于,這類機器人能夠同時復用兩大資源:視頻預訓練中習得的運動先驗,以及海量人類第一人稱視角視頻數據。這兩大因素的影響方向看似相悖,但類人具身結構最終可能占據優勢——它以犧牲一定的機械簡潔性為代價,換取了訪問全網規模人類數據的資格。而這些數據,正是下一代機器人基礎模型的核心燃料。

       原文標題 : DreamZero:從語言理解到世界建!呱碇悄艿腤AM新范式

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號