訂閱
糾錯
加入自媒體

定義下一代機器人訓練,智元 SOP:VLA 模型真實世界分布式在線后訓練的關鍵突破

當前,VLA模型通過大規模預訓練具備了出色的泛化能力,但在實際場景部署時,除了需要廣泛的通用性,還需達到專家級的任務執行水平。以家庭機器人為例:它必須能夠折疊衣物、整理貨架、組裝家具,同時展現出堪比專用設備所要求的可靠性與精確性。

要讓機器人實現能真正干活的目標,剩余的挑戰就在于:如何在不犧牲通過大規模預訓練所獲得的通用性的前提下,賦予這些模型專家級的熟練度。

那么,問題的關鍵就在于后訓練—— 使預訓練模型適應特定的下游部署場景。在大型語言模型(LLMs)等領域,通過在線強化學習(RL)和人類反饋進行的后訓練已被證明非常有效,使模型能夠通過大規模分布式訓練持續改進。然而,對于物理世界中的VLA后訓練,結合分布式數據收集的在線學習的系統級實現,在很大程度上仍未得到充分探索。

現有針對VLA 模型的后訓練方法多為離線式、單機器人適配或特定任務專用。在這種模式下,數據收集與策略改進在結構上是脫節的。

對預先收集的演示數據進行離線訓練,不可避免地會遭受分布偏移的影響,微小的執行誤差會在長時程任務中不斷累積。這限制了模型在現實交互過程中的高效在線策略適配與可擴展學習。

為此,智元機器人提出一種可擴展在線后訓練系統 —— SOP(Scalable Online Post-training),這是一套閉環智能體- 學習器架構,能夠依托異構機器人集群的持續真實場景交互數據,對預訓練的VLA模型進行適配優化。

SOP系統工作流程

機器人集群在各類任務中持續采集經驗數據,將交互數據實時傳輸至中心化云端服務器,并異步接收更新后的控制策略—— 使 VLA 模型在保持通用性的同時,提升各任務的執行熟練度。

一、什么是SOP?

SOP 系統采用閉環架構,將執行與學習環節緊密耦合:機器人集群與中心化云端學習器之間持續交互 —— 前者向后者傳輸在線策略軌跡數據與人工干預信號,后者則向前者異步下發更新后的控制策略。這種 “采集 - 訓練 - 部署” 的閉環模式,可實現低延遲的模型適配,且適配效率隨機器人集群規模的擴大而自然提升。

SOP 框架包含三個核心模塊:

由機器人智能體執行的分布式在線策略數據采集;

基于在線- 離線混合數據的集中式云端優化;

向智能體端回傳的低延遲模型同步機制。

SOP系統架構

SOP 采用 Actor–Learner 異步架構:

1)Actor(機器人側)并行經驗采集

多臺部署了同一policy模型的機器人(actors)在不同地點同時執行多樣任務,持續采集成功、失敗以及人類接管產生的交互數據。每臺機器人的經驗數據被匯總傳輸至云端 Experience Buffer中。

2)Learner(云端)在線學習

所有交互軌跡實時上傳至云端learner,形成由在線數據與離線專家示教數據組成的數據池。

系統通過動態重采樣策略,根據不同任務的性能表現,自適應調整在線/離線數據比例,以更高效地利用真實世界經驗。

3)即時參數同步

更新后的模型參數在分鐘級別內同步回所有機器人,實現集群一致進化,維持在線訓練的穩定性。

SOP 是一套可擴展的Actor–Learner 框架,適用于通用策略的在線多任務后訓練。機器人集群會將在線策略軌跡采樣數據實時傳輸至云端學習器。

當系統出現故障或判定結果存疑時,將觸發可選的人工干預流程,人工修正后的軌跡或動作會被納入緩存區。云端學習器通過融合在線緩存區與靜態離線緩存區的數據,生成任務均衡的更新參數;隨后接入插件式后訓練模塊(如HG-DAgger/RECAP),并將更新后的權重異步廣播至所有Actor(智能體),從而形成低延遲的在線訓練閉環。

二、SOP的實現效果如何?

值得注意的是,SOP 具備算法無關性:該框架僅定義系統級的數據流與同步規則,具體的參數更新方法可替換為任意后訓練算法。

在本研究中,智元團隊基于兩種現有后訓練方法——HG-DAgger 與 RECAP —— 搭建 SOP 的實例化模型,并通過持續輸入實時交互經驗、執行高頻異步模型更新,驗證 SOP 可將這兩種方法升級為可落地的在線策略式在線后訓練方案。

在一系列現實操作任務(包括布料折疊、箱體組裝和雜貨補貨)的測試中,智元機器人驗證了SOP 系統能夠顯著提升大規模預訓練 VLA 模型的性能,同時維持跨任務的單一共享策略。僅需數小時的現實交互即可完成高效的后訓練,且模型性能與機器人集群的規模呈近似線性正相關。上述結果表明,將在線學習與集群級部署緊密結合,是實現通用型機器人策略在物理世界中高效、可靠、可擴展后訓練的關鍵技術路徑。

整體來看,研究團隊圍繞三個問題系統評估SOP:

1)SOP 能為預訓練 VLA 帶來多大性能提升?

2)機器人規模如何影響學習效率?

3)不同預訓練規模下SOP 是否穩定有效?

1. SOP 能為預訓練 VLA 帶來多大性能提升

實驗結果說明,在各類測試場景下,結合SOP的后訓練方法均得到了顯著的性能提升。相比預訓練模型,結合SOP的HG-Dagger方法在物品繁雜的商超場景中實現了33%的綜合性能提升。對于靈巧操作任務(疊衣服和紙盒裝配),SOP 的引入不僅提升了任務的成功率,結合在線經驗學習到的錯誤恢復能力還能明顯提升策略操作的吞吐量。

結合SOP的HG-Dagger方法讓疊衣服的相比HG-Dagger吞吐量躍升114%。SOP讓多任務通才的性能普遍提升至近乎完美,不同任務的成功率均提升至94%以上,紙盒裝配更是達到98%的成功率。

SOP性能提升

為了進一步測試真機SOP訓練后VLA模型是否達到專家級性能,研究團隊讓SOP訓練的VLA模型進行了長達36小時的連續操作,模型展現出了驚人的穩定性和魯棒性,能夠有效應對真實世界中出現的各種疑難雜癥。

2. 機器人規模如何影響學習效率

智元使用了三種機器人隊伍數量(單機、雙機、四機配置),在同樣的數據傳送總量的基礎上,進行了比較。實驗結果表明,在相同的總訓練時間下,更多數量的機器人帶來了更高的性能表現。在總訓練時間為3小時的限制下,四機進行學習的最終成功率達到了92.5%,比單機高出12%。

研究團隊認為,多機采集可以有效阻止模型過擬合到單機的特定特征上。同時,SOP 還將硬件的擴展轉化為了學習時長的大幅縮短,四機器人集群相比單機能夠將模型達到目標性能的訓練速度增至2.4倍。

SOP學習效率提升

3. 不同預訓練規模下SOP 是否穩定有效?

研究團隊把總量為160小時的多任務預訓練數據分為了三組:20小時,80小時和160小時,分別訓練一組初始模型后再進行 SOP。

研究發現,預訓練的規模決定了基座模型和后訓練提升的軌跡。SOP 能為所有初始模型帶來穩定的提升,且最終性能與VLA預訓練質量正相關。

同時,對比80小時和160小時實驗效果,也可以明顯注意到,在解決特定失敗情況時,在軌策略經驗帶來了非常顯著的邊際效果。

SOP 在三小時的在軌經驗下就獲得了約30%的性能提升,而80小時額外人類專家數據只帶來了4%的提升。這說明在預訓練出現邊際效應遞減的情況下,SOP 能夠高效突破VLA性能瓶頸。

SOP在不同預訓練數據規模下的對比

三、未來展望

智元機器人的本次研究結果表明,執行與學習的系統級耦合對于后訓練的成功而言,其重要性與底層算法不相上下。通過讓機器人集群持續上傳在線策略經驗數據,并反向接收更新后的策略模型,SOP 框架將傳統的階段性微調模式,升級為可規模化擴展的閉環學習模式。

研究發現,在線策略修正產生的邊際效用,顯著高于新增離線數據的效用增益,這一結論印證了一個業內普遍共識:靜態數據集無法完全預判部署后策略所觸發的狀態分布變化 。而SOP 則在系統層面,將這一結論轉化為了可落地的技術方案。

盡管已展現出優異性能,SOP 目前仍需依賴人工干預或任務專屬獎勵信號開展訓練。未來的重要研究方向在于,通過習得獎勵模型或基于基礎模型的任務成功檢測技術,降低此類監督成本。

此外,兩個亟待探索的開放性問題仍有待解答:

一是當前近乎線性的擴展效率能否延伸至規模更為龐大的機器人集群;

二是如何在實現新技能持續習得的同時,避免出現災難性遺忘現象。

展望未來,智元機器人構想了這樣一幅圖景:機器人集群可依托實際部署過程中的經驗數據,共同維護一套共享且持續迭代的策略模型。

從這個角度來看,機器人部署規模的擴大,等同于學習算力的擴充—— 每新增一臺機器人,都會進一步加速策略模型的優化進程。

       原文標題 : 定義下一代機器人訓練?智元 SOP:VLA 模型真實世界分布式在線后訓練的關鍵突破

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號