訂閱
糾錯
加入自媒體

RL Token:破解 VLA “最后一厘米”精度難題,在線強化學習機器人精準操控

一臺機器人拿起螺絲刀并不難,難的是讓它在幾秒鐘內,精準地把刀頭對準一枚細小的螺絲。

這不是未來世界的科幻場景,而是今天機器人操作中最現實、也最棘手的問題。

當前,VLA模型在疊衣服、沖泡咖啡、制作烤奶酪三明治這類多樣化任務中已經表現出令人印象深刻的通用能力。但真正走進工廠、實驗室,甚至家庭,人們很快發現——通用能力并不等于好用。

原因很簡單:真正實用的物理操作還需要精度、靈巧性和速度。而VLA模型在執行“最后一毫米”的高精度操作時,往往會變得猶豫不決、動作遲緩,甚至反復失敗。這是為什么呢?因為高精度操作天然對微小誤差極度敏感。而這類誤差,僅靠專家示范數據很難覆蓋。示范數據能教會機器人“怎么做”,卻很難教會它“怎么做得又快又準”。

于是,一個自然的思路浮出水面:讓機器人在實踐中自己學。這正是強化學習的強項。

但問題又來了。

現實中的機器人學習,每一輪嘗試都要耗費時間,每一次失敗都伴隨著設備的磨損。理想情況下,我們希望機器人能在數小時甚至數分鐘內,完成對某一關鍵技能的優化。然而,直接對整個VLA模型進行強化學習微調,計算成本高、樣本效率低,根本不現實。

而如果用傳統的強化學習方法只訓練一個小模型,雖然速度快,但VLA那強大的泛化能力就白白犧牲了。

這就陷入了一個兩難:既要VLA的泛化能力,又要在線強化學習的速度和樣本效率。

近日,Physical Intelligence(PI)團隊在最新研究論文《RL Token: Bootstrapping Online RL with Vision-Language-Action Models》中,提出了 RL Token(RLT)方法。該方法通過構建 VLA 與輕量級強化學習之間的緊湊接口,僅需數小時真實交互數據,即可讓機器人完成精密操作的在線優化,有效解決了通用模型難以兼顧泛化性與精確性的行業痛點,為機器人靈巧操作提供了全新技術路徑。

一、RL Token 實現方案

RL Token(RLT)的核心設計理念,是凍結VLA模型主體,通過緊湊表征接口,用輕量級網絡完成在線強化學習微調,實現泛化能力與精密優化的兼顧。整套方案無需定制化開發,可直接對接預訓練 VLA模型,快速適配各類精密操作任務。

RL Token工作機制(PI論文,見參考資料)

1. RL Token 的生成機制

RL Token是VLA 與輕量級強化學習網絡之間的緊湊信息接口,通過添加一個編解碼Transformer對 VLA 模型進行適配來實現:

編碼器負責將VLA 的高維內部表征壓縮為低維向量,即 RL Token,濃縮任務核心信息(包括視覺感知、語義理解與動作先驗等);

解碼器通過重構VLA原始嵌入,確保RL Token保留完整的任務關鍵信息,形成信息瓶頸,避免有效特征丟失。

訓練完成后,凍結VLA 參數,RL Token 作為輕量級Actor-Critic 網絡的狀態輸入,讓小型網絡也能利用VLA的豐富感知知識,實現高效強化學習。

2. 輕量級強化學習設計基于 RL Token,方案采用樣本高效的 off-policy Actor-Critic 在線強化學習算法,僅訓練輕量級策略頭(Actor)與價值頭(Critic),可直接在機器人端本地運行,每秒完成數百次參數更新,實現實時策略優化。

為保證訓練穩定性與效率,方案在三大關鍵設計上進行了如下優化調整:

1)動作空間對齊

強化學習策略直接預測動作塊(Action Chunks),與底層 VLA 的動作結構保持完全一致,而非在單步控制層面逐幀執行。通過優化連續動作序列,使在線策略能夠有效調整任務中關鍵的時間擴展性運動模式,滿足精密操作對時序一致性的需求。

2)正則化約束錨定行為

策略網絡(Actor)將 VLA 預測的動作作為輸入,學習對參考動作進行修正而非替代。在策略更新中引入朝向參考動作的正則化約束,約束 Actor網絡貼近 VLA 的參考動作:

當VLA 行為已較為合理時,動作與VLA一致,訓練穩定;

當動作偏離VLA 時,約束作用增強,引導網絡貼近合理動作;

僅當Critic 判定偏離能獲得更高獎勵時,才允許有限探索,避免無效試錯。

同時,為防止策略在訓練初期單純復制VLA 動作,引入參考動作隨機丟棄機制(reference-action dropout),強制策略網絡維持一條獨立的動作生成路徑,充分利用先驗知識的同時保留自身優化能力。

3)可選的人工干預融合

方案可選擇性地將人工干預信號直接融入強化學習更新過程:當機器人出現停滯或執行錯誤時,人工修正信號可被回傳至訓練流程,進一步提升策略的魯棒性與任務適應性。

上述設計使在線強化學習成為一套可直接附加于預訓練 VLA 的通用方案,無需針對具體任務進行工程化改造,即可實現穩定、高效的實時策略優化。

3. 端到端落地流程

整套流程將在線強化學習轉化為VLA行為的局部精調,而非無約束探索,完美平衡了效率、穩定性與性能。

RL Token 的實際應用分為兩步,流程簡潔高效:

VLA 適配階段:在少量任務專屬演示數據上對VLA 進行微調。這樣做有兩個目的:一是提高 VLA 在目標任務上的初始執行能力;二是讓它能夠輸出一個專門用于強化學習的特征(RL Token),供后續訓練使用。

在線RL 優化階段:凍結VLA 參數,并在線訓練輕量級的Actor與Critic 網絡。網絡以 RL Token 表征和 VLA 參考動作作為條件輸入,并對學習到的策略施加正則化約束,使其與 VLA 模型保持相近。

這套方法不是讓機器人在黑暗中盲目摸索(無約束搜索),而是讓它在已經具備一定操作能力的預訓練模型基礎上,僅進行局部微調。它只訓練兩個輕量級的小網絡,因此運行速度快,同時充分利用了預訓練模型已有的理解能力和操作經驗,做到了“站在巨人肩膀上”進行高效學習。

RL Token的提。≒I論文,見參考資料)

二、實驗驗證

為全面驗證RLT(RL Token 架構)在高精密操作任務中的有效性,研究人員在四項兼具精度與速度要求的亞毫米級任務上開展了系統實驗,包括螺絲安裝 (用電動螺絲刀將 M3 螺絲擰入螺紋孔)、扎帶緊固、以太網接頭插接和充電器插入。實驗結果表明,該方案在任務成功率與執行速度上實現了雙重突破,并展現出卓越的樣本效率與泛化能力。

1. 實驗設置

每項任務均包含抓取、重定位與對準環節,總時長為 30-120 秒(控制頻率 50Hz,對應約 1500-6000 個控制步)。針對每項任務,研究人員劃定了關鍵階段——即插入、緊固或旋轉環節,該階段精度要求最高,也是基礎 VLA 模型最常出現卡頓或執行失敗的環節。關鍵階段的時長通常為 5-20 秒(對應 250-1000 個控制步)。

強化學習策略的輸入包括:RL Token(由兩路腕部相機圖像與一路基座相機圖像生成),以及額外的本體感受狀態。根據任務不同,輔助狀態信息有所差異:螺絲安裝任務中輔助狀態為關節位置;扎帶緊固、以太網接頭插接、充電器插接任務中,輔助狀態為末端執行器位姿。

實驗采用π0.6 作為基礎VLA模型,機器人的控制頻率為50Hz。單時間步動作空間維度為14 維,對應強化學習Actor網絡的分塊動作維度為140維。

2. 實驗結果

1)在線強化學習相較基礎VLA策略存在性能提升

在兩種設置下評估本方法:隔離關鍵階段的受控設置,以及要求強化學習策略具備更強魯棒性的全任務設置。在線強化學習在兩種設置下均能提升基礎模型的成功率與執行速度。

在受控設置中,RLT 對四項任務的關鍵階段均實現穩定提升。即便在基礎策略已具備良好可靠性的相對簡單任務(充電器插接、以太網接頭插接)中,RLT 學到的策略在關鍵階段的執行速度提升約3倍。在難度更高的扎帶緊固與螺絲安裝任務中,成功率的提升更為顯著。

在全任務評估中,由于任務前期環節(抓取、抬升物體等)帶來誤差累積,整體成功率有所下降,但RLT 仍使螺絲安裝任務成功率提升40%,扎帶緊固任務成功率提升60%。

全任務與關鍵階段受控設置任務評估(PI論文,見參考資料)

備注:1)ScrewDriver:螺絲安裝 2)Zip Tie:扎帶緊固   3)Ethernet:以太網接頭插接  4)Charger:充電器插入

2)相較于基線方法,RLT 帶來吞吐率的顯著提升

在以太網接頭插接任務中,將RLT 與四種基線方法進行對比:

HIL-SERL 與 PLD:均為單步在線強化學習方法,在這一跨數百步、采用稀疏獎勵的任務上無法有效學習。若無動作分塊,任務時程極長,價值函數更新難以有效傳導稀疏獎勵信號。

DAgger 與 DSRL:可達到與 RLT 相近的成功率,但在速度提升上效果遠弱于 RLT。DAgger 屬于模仿學習方法,執行速度受限于人類演示與干預的速度;DSRL 是一種將策略嚴格約束在基礎VLA 附近的強化學習方法,雖能保證訓練穩定,但性能提升潛力相對有限。

RLT與其他強化學習算法的對比(PI論文,見參考資料)

備注:將RLT 與近期強化學習相關文獻中的多種基線方法進行對比。僅采用單步動作而非動作塊的方法(HIL-SERL、PLD)表現較差。DSRL 雖能實現較高的成功率,但在任務吞吐率上顯著落后于 RLT。

3)RL Token、動作塊、BC 正則項、參考動作直通四項組件缺一不可

實驗通過消融測試驗證RL Token、動作塊、BC 正則項、參考動作直通四項設計的核心價值,任一組件缺失均會導致性能明顯下降:

用ResNet-10 編碼器替代 RL Token 會使吞吐率下降50%,證明本文提出的Token編碼了與操作任務相關的結構信息,這是在標準計算機視覺任務上訓練的通用編碼器無法提供的。

將動作塊(C=10)替換為單步動作,會大幅拉長任務的有效時程,因為價值函數需要在更長的序列上完成信用分配,同時也會導致基于RL Token的方法無法可行運行。在實際實驗中,單步變體的性能無法穩定達到基礎策略水平。

移除BC正則項(β=0)帶來單次最大的性能下跌,因為這會迫使Actor網絡僅依靠Q函數的梯度,在完整動作空間中進行探索。

移除參考動作直通會減慢學習速度,導致早期探索偏移,偶爾出現退化行為。盡管在該簡單任務上,該消融組最終能達到RLT 的性能,但在訓練過程中失敗次數更多。

以太網接頭插接任務訓練過程中不同階段的吞吐量(PI論文,見參考資料)

備注:1)w/o BC Regularizer:無BC正則項   2)w/o Chunk:無動作分塊   3)w/o RL Token : 無 RL Token    4)w/o Pass-Through:無參考動作直通 

消融研究表明:本方法的各個組成部分均對實現優異性能至關重要,且完整系統的學習速度最快,最終性能表現最佳。值得注意的是,僅在任務關鍵部分消耗5分鐘數據后,RLT的性能就超越了替代策略(整個實驗時長約 40 分鐘)。將參考動作從Actor網絡輸入中移除(“無直通機制” 配置)雖仍能達到最優的最終性能,但代價是學習速度變慢,且在整個訓練過程中出現的失敗次數顯著增多。

以太網插接任務訓練過程中的成功率評估(PI論文,見參考資料)

在以太網接頭插接任務中,RLT 能夠快速達到與VLA策略相當的成功率,同時提升任務吞吐率。若不采用參考動作直通機制,或不使用 RL Token,均會導致模型學習速度變慢。

4)RLT產生超越人類演示的高效行為

實驗結果顯示:在線強化學習使機器人的任務執行方式發生了根本性變化。

針對以太網插接任務的關鍵階段,研究人員可視化呈現了人類遙操作演示、基礎VLA模型與RLT策略的速度分布(如上圖所示):

基礎VLA模型在接近接觸目標時,常表現出 “試探” 行為:靠近目標、小幅回撤、重新調整,而后再次嘗試 —— 有時需多次循環此類嘗試才能成功。

RLT策略會直接靠近接口,并以流暢的動作完成接頭插接。即便首次嘗試失敗,RLT也會施加一定壓力并輕微擺動接頭,利用機械柔順性完成更快插接。該行為并未出現在演示數據中,完全源于在線探索,這表明該方法能夠超越對人類策略的簡單模仿。

三、未來展望

具身智能模型的能力迭代通常遵循一條漸進的技術路徑:首先通過大規模預訓練,構建通用的感知與基礎動作能力,為后續優化提供穩固的模型基座;隨后在真實場景部署中,利用任務特定的交互數據對模型進行局部微調,提升關鍵動作的精度與穩定性;在此基礎上,結合人類反饋與強化學習,進一步增強模型在復雜任務中的高層推理與決策能力。

RL Token 正是這一路徑中第二階段的核心實現方法之一 —— 它作為連接 VLA 大模型與在線強化學習的橋梁,將在線 RL 轉化為對 VLA 高潛力行為的局部精調,而非無約束探索,從而實現快速高效的學習。在當前方案中,還可以選擇性引入人工干預,當機器人執行受阻或出現操作偏差時,通過人工修正信號輔助策略更新,進一步保障訓練穩定性。

未來,結合獎勵模型、進度預測等技術,有望實現完全自主的強化學習優化流程—— 這恰與路徑的第三階段(基于人類反饋的強化學習(RLHF))相呼應,使機器人無需人工介入即可持續自我進化。當模型能夠通過真實場景的持續交互,打通 “預訓練 — 場景微調 — 人類反饋優化” 這一閉環時,其在實際任務中的表現將實現持續迭代與穩定提升。

RL Token 不僅是一項重要技術方法創新,更是推動機器人從 “被動執行指令” 向在線自主優化、持續自適應演進的關鍵技術支撐。通過讓通用機器人大模型具備高效在線自優化能力,該方案顯著提升了機器人在精細操作場景下的精度、效率與泛化適應性,為智能制造、精密裝配等領域的自動化升級提供了可行路徑。

       原文標題 : RL Token:破解 VLA “最后一厘米”精度難題,在線強化學習實現機器人精準操控

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號