訂閱
糾錯
加入自媒體

VLA模型如何重塑具身智能 —— 8家國內外典型具身智能VLA模型梳理與分析

一、國外典型具身智能VLA架構

國外4家典型的具身智能VLA模型:谷歌DeepMind RT-2、Physical AI 

π0 、Figure AI Helix 、英偉達GR00T N1。

1. 谷歌DeepMind —— RT2

2023年7月,谷歌DeepMind發布具身智能視覺-語言-動作模型(VLA)RT-2(Robotics Transformer 2)。其核心設計是使用互聯網規模的網絡數據和機器人動作軌跡數據對預訓練好的視覺-語言模型(VLM)進行聯合微調生成VLA模型。核心目標是將VLM模型的知識遷移到機器人控制中,實現端到端的語義推理與動作生成。

1)模型架構

RT-2以預訓練的視覺-語言模型為核心骨干,通過動作Token 化將機器人控制任務統一到自然語言生成框架中,形成端到端單一模型架構。該模型分別以PaLI-X 和 PaLM-E 兩種VLM 架構構建了對應的實例模型RT-2-PaLI-X 與 RT-2-PaLM-E 。

谷歌RT-2模型架構(圖片來源:谷歌論文)

2)聯合微調(Co-Fine-Tune)

將機器人動作數據(來自RT-1)與網絡數據混合,共同輸入模型進行聯合微調。其中,網絡數據內容包括視覺問答(VQA)、圖像描述、非結構化圖文交織樣本等。機器人動作數據為13臺機器人持續(歷經)17個月采集的辦公環境中的廚房場景數據(與RT-1訓練所使用的數據相同)。

在具體實現方案中,谷歌DeepMind通過提高機器人動作數據集的采樣權重,以平衡每批次訓練數據中機器人動作數據與網絡數據的比例。

模型聯合微調的關鍵步驟在于建立模型現有詞匯表與離散動作空間之間的映射關系。為此,需要預先保留256 個標記(tokens)作為專用的動作標記。具體選擇哪些標記作為動作標記,取決于所使用的視覺語言模型(VLM)的分詞方案:

PaLI-X:由于其分詞方案為每個不超過 1000 的整數分配了唯一的標記,因此可直接將 action bins 映射到對應的整數標記上。

PaLM-E:該模型的分詞方案不包含數字的直接表示,因此需要覆蓋詞匯表中 256個使用頻率最低的標記,將它們重新定義為動作詞匯表。

DeepMind通過實驗證明 —— 提升機器人性能的關鍵訓練技巧在于:將機器人數據與原始網絡數據進行聯合微調,而非僅對機器人數據實施簡單微調。聯合微調能生成泛化能力更強的策略,因為在此過程中,策略同時接觸網絡規模數據的抽象視覺概念和微調過程中的低層級機器人動作,而非僅局限于機器人動作。

3)動作Token化機制

RT-2 的動作 Token 化機制是其實現語義 - 動作對齊的核心技術,通過離散化編碼、共享詞匯表空間和VLM語義賦能三個層面的創新,將機器人控制信號轉化為可被視覺 - 語言模型(VLM)直接處理的離散標記。

其中,動作離散化編碼采用與RT-1相同的離散化方案。比如,將連續動作空間(如機械臂6自由度位姿)均勻量化為256個離散區間。

另外,使用共享詞匯表空間。比如,在預訓練VLM(如PaLI-X)的文本詞匯表中新增512個專用動作Token,動作Token被嵌入預訓練VLM的詞匯表,通過同一Transformer解碼器自回歸生成混合序列,實現語言與動作的符號統一。

RT-2 與標準VLM模型的核心區別在于:RT-2必須輸出有效的動作token才能在真實機器人上執行。為確保 RT-2 在解碼過程中輸出有效動作標記,通過以下方式約束其輸出詞匯表:

機器人動作任務場景:當模型接收到機器人動作任務提示時,僅允許采樣有效的動作tokens。

標準視覺語言任務:模型仍然被允許輸出所有可能的自然語言tokens(如問答、圖像描述等)。

2. Physical Intelligence(PI)—— π0模型

2024 年10月 ,Physical Intelligence(PI)正式發布機器人領域端到端視覺-語言-動作(VLA)模型 π0。

2025年2月,PI宣布開源基礎版π0與快速推理版π0-FAST,開源內容涵蓋預訓練模型參數、任務微調檢查點及全流程推理代碼,為學術界與產業界提供完整的具身智能開發框架。

1)模型整體架構

π0 模型整體架構示意圖(圖片來源:PI論文)

π0 模型包括一個預訓練的VLM 模型和一個采用條件流匹配技術的動作專家模型(Action expert)。

其中,VLM 直接基于谷歌開源的30億參數規模的PaliGemma 模型構建;動作專家模型采用獨立部署的3億參數權重,通過全層雙向跨模態注意力交互機制與 VLM 深度交互。

該模型基于雙模塊架構實現端到端控制。在具體的數據處理與動作生成流程中:

VLM 主干網絡(PaliGemma)負責處理圖像與文本輸入并提取語義特征,機器人本體感知數據(如關節角度、力反饋)通過獨立編碼器嵌入;兩類信息經跨模態投影層映射至統一空間,形成視覺 - 語言 - 物理信號的融合表征。

動作專家模塊以該融合表征為條件,依托條件流匹配技術與動作分塊算法,以50Hz 高頻生成連續動作分布,直接驅動機器人精準執行復雜靈巧任務。

2)模型訓練

在訓練策略上,π0模型采用了預訓練+ 后訓練(微調)的模式。先在多樣性的大規模數據上進行預訓練,再用高質量數據進行后訓練,從而達到所需的精細控制能力。

π0模型的預訓練和后訓練(圖片來源:PI論文)

a. 預訓練階段

在預訓練階段,預訓練數據集應覆蓋多樣化任務,并使模型構建跨任務、跨本體的通用動作生成范式,實現從“單一任務模仿” 到 “動態場景泛化” 的能力躍升。

VLM預訓練使用數據:大規模的互聯網數據(圖像、視頻以及文本)。實際上,PI團隊應該是直接使用Google開源 VLM —— PaliGemma的預訓練權重。

動作專家模型預訓練使用數據:開源真機數據集Open X-Embodiment 和 PI自己基于遙操作采集的真機數據(涵蓋7種機器人本體和68項任務),數據總時長超過10000小時。

b. 后訓練階段

在后訓練階段,針對特定任務,依靠PI自己收集的高質量真機數據集去訓練模型。通過模仿學習框架,進一步提高模型在特定任務上的成功率,目標是支持完成疊衣服、清理餐桌等復雜靈巧的下游任務。

3. Figure AI —— Helix模型

2025年2月,Figure AI發布了通用具身基礎模型Helix ,該模型采用雙系統架構:系統S1(快思考系統)+ 系統S2 (慢思考系統)。

Helix系統架構(圖片來源:Figure AI)

1)S1系統:一個80M參數規模的Transformer模型,依賴一個完全卷積的多尺度視覺骨干網絡進行視覺處理。

S系統以 200Hz的頻率輸出完整的上半身人形控制,包括期望的手腕姿態、手指彎曲和外展控制,以及軀干和頭部方向目標。

該系統模型的訓練主要依賴于機器人真機數據。

2)S2系統:一個7B參數規模的預訓練VLM模型,用于處理機器人單目視覺圖像和機器人狀態信息(包括手腕姿態和手指位置),并將它們投影到視覺語言嵌入空間中。

S2 系統將所有語義任務相關信息提煉為一個連續的潛在向量,以7-9 Hz的頻率傳遞給 S1系統 ,為機器人的行為決策提供高層次的指導。

該系統模型的訓練主要依賴于大規模的互聯網文本、圖片以及視頻數據。

3)兩者之間的關聯:系統1與系統2兩者之間解耦,每個系統不僅能夠進行獨立迭代,而且,每個系統都可以在其最佳時間尺度上運行。比如,S2系統可以「慢慢思考」高層次目標,而S1系統可以「快速思考」機器人實時執行以及需要調整的動作。

S1系統與 S2系統分別部署于機器人上的兩塊獨立專用 GPU上,二者對GPU要求不同:

S1系統需以 200Hz 高頻輸出連續動作,要求低延遲和高能效,以確保實時控制;

S2系統需要部署7B參數的 VLM模型, 對算力需求更高,適合部署在高顯存、高算力的GPU上。

在演示視頻中,兩臺采用相同Helix 模型權重的人形機器人,無需訓練或角色分配,即可通過自然語言協作實現零樣本雜貨存放。

Helix 通過架構創新、數據效率提升與硬件適配優化,突破了傳統機器人模型依賴多任務獨立訓練的技術局限,這種設計使其在家庭服務、工業協作等場景中,具備任務快速遷移與場景拓展的潛力。

4. 英偉達 —— GR00T N1

在2025年3月的GTC開發者大會上,英偉達推出全球首個開源、可定制的通用人形機器人模型 GR00T N1。

GR00T N1是一個雙系統架構的視覺-語言-動作(VLA)模型,采用流匹配(Flow-Matching)技術來學習動作生成。

GR00T N1模型架構簡化版(圖片來源:英偉達論文)

(1)“系統2”是基于視覺-語言模型(VLM)的推理模塊,負責深度推理與規劃,類似人類的"思考中樞",運行頻率較低(10Hz)。

在英偉達L40 GPU上運行預訓練的視覺語言模型(如 Eagle-2 VLM),處理機器人的視覺感知圖像信息和語言指令,以解釋環境并理解任務目標以及語言指令。

圖像輸入→ 使用圖像編碼器(Vision Encoder)編碼為Image Tokens 

語言指令輸入→ 使用文本分詞器(Text Tokenizer)轉化為文本標記

(2)“系統1”是基于擴散變換器(DiT)的動作模塊,負責快速動作生成,類似人類的"運動中樞",運行頻率更高(120Hz)。

DiT處理機器人的本體感知狀態和動作,這些信息隨后與經過Eagle-2 VLM主干網絡處理后輸出的圖像標記(image tokens)和文本標記(text tokens)進行交叉注意力運算,最終輸出去噪后的電機動作。

輸入:系統2的輸出Tokens(Image Tokens 和 Text Tokens)+ 機器人本體狀態(如關節位置等)+ 帶噪聲的動作向量。

處理:通過交叉注意力機制融合多源輸入,逐步去噪生成動作序列。

輸出:去噪后的運動動作(如抓取軌跡)。

GR00T N1模型架構詳情版(圖片來源:英偉達論文)

備注:英偉達公開發布的GR00T-N1-2B 模型總參數為22億,其中視覺 - 語言模型(VLM)包含13.4 億參數。在 L40 GPU 上使用 bf16 精度時,采樣16個動作片段的推理時間為63.9毫秒。

“系統1”和“系統2”都是基于Transformer構建的神經網絡,二者在訓練過程中緊密耦合、聯合優化,以實現推理與執行的高效協同。

GR00T N1模型預訓練所使用的數據類型:真實機器人演示數據、合成數據(Omniverse生成)以及互聯網上的人類視頻數據。

用于機器人基礎模型訓練的“數據金字塔”(圖片來源:英偉達論文)

應用案例:1X Technologies、Agility Robotics、Boston Dynamics、傅利葉等機器人公司已接入GR00T N1,利用該基礎模型及其配套工具鏈開發新一代機器人產品,并在不同的應用場景中進行落地實踐。

二、國內典型具身智能VLA模型

國內4家典型的具身智能VLA模型:星動紀元ERA-42、銀河通用GraspVLA、智元機器人Genie Operator-1(GO-1)、靈初智能Psi-R1。

1. 星動紀元 —— ERA-42

2024年12月,星動紀元推出端到端原生機器人大模型ERA-42。該模型采用高層次規劃和低層次控制的雙系統架構。系統之間使用latent變量進行通信連接,實現了兩者之間的高效信息傳遞和協同工作。

ERA-42模型架構(初版)

a. 高層次規劃系統:采用7B參數的Instructblip視覺語言模型,負責將視覺信息與語言指令轉化為蘊含常識知識的潛在特征,支持長期場景理解(含任務規劃與糾錯)。

它相當于是人類的“慢思考”系統,可以對任務指令進行深入理解,生成高層次的動作規劃,為機器人的行為提供戰略指導。

其中,InstructBLIP 由預訓練視覺編碼器(采用ViT架構)、大語言模型(LLM)、可學習查詢 tokens 以及 Q-Former 組成。

b. 低層次控制系統:采用40M參數的緊湊型視覺驅動動作策略的Transformer網絡,處理短期場景認知,融合歷史觀測與視覺語言模型的潛在特征。

它相當于是人類的“快思考”系統,根據高層次規劃系統的輸出結果以及實時的環境反饋,它可以實現高頻地精確控制機器人的動作,確保動作的準確性和實時性。

工作原理:指令經由視覺語言模型(VLM)轉化為連續潛在表征(continuous latent),并與采樣視覺觀測數據共同緩存至潛在緩沖區(latent buffer)。在推理的每一步:

預訓練視覺編碼器基于最新潛在表征對視覺觀測進行條件化編碼;

降維后的視覺語言標記(reduced vision-language tokens)通過條件化動作頭(conditioned action head)解碼為底層動作。

ERA-42 初版基于 HiRT 架構構建,而在后續的迭代版本中通過集成動作預測擴散器(PAD)升級了世界模型,形成以 HiRT 為基礎框架、PAD 為預測模塊的復合架構。

2)模型訓練

模型訓練使用數據類型:大規模視頻數據(預訓練)+少部分基于遙操作的真機數據(后訓練)。

預訓練階段:由于采用融入世界模型的方式,ERA-42直接利用未標注的原始視頻數據進行預訓練,使模型聚焦于原始視頻本身的預測,而非對物體姿態、關鍵點等處理后的信息進行預測。此舉旨在最大程度保留信息完整性,規避因人為定義的規則、范式或先驗知識導致的信息損耗。

后訓練階段:ERA-42 引入強化學習技術,通過構建獎勵機制引導模型探尋最優動作策略。此階段的模型訓練主要采用基于遙操作方式獲取的真機數據。

ERA-42模型訓練使用數據(圖片來源:星動紀元)

應用效果:基于ERA-42的能力, 星動紀元自研的五指靈巧手星動X HAND1可使用包括不限于螺釘鉆、錘子、取液槍等多種多樣的工具,完成更通用、靈巧性更強、復雜度更高的百種以上操作任務。并且,可以持續在同一個模型下學習新的技能。

2. 銀河通用 —— GraspVLA

2025年1月,銀河通用聯合北京智源人工智能研究院(BAAI)及北京大學和香港大學研究人員發布端到端具身抓取基礎大模型GraspVLA。

1)模型整體架構

GraspVLA 由一個自回歸視覺語言骨干網絡(VLM)和一個基于流匹配的動作專家模型組成,兩個模塊通過漸進式動作生成(PAG)機制連接。

其中,VLM模塊包括一個大語言模型(InternLM2 1.8B版本)一個視覺編碼器(融合了凍結參數的DINO-v2和SigLIP模型提取的特征)以及一個負責將視覺特征空間映射到語言特征空間的可訓練投影器。

GraspVLA系統架構(圖片來源:銀河通用)

主要作用:VLM的作用是獲取觀察圖像和文本指令,用于視覺-語言聯合感知。動作專家模塊的主要作用是進行細粒度的末端執行器的動作生成。

工作原理:在數據層面,模型利用互聯網基礎數據與合成動作數據的協同效應,流程為:首先為合成數據和網絡數據生成目標物體的2D 邊界框;隨后,僅針對合成數據集,由 VLM 在機器人基坐標系中進一步預測目標的抓取姿態;最終,動作專家基于 VLM 處理輸入及中間推理令牌(tokens) 時產生的鍵值緩存(key-value cache),為合成數據集生成動作塊(action chunk)。

2)模型訓練

GraspVLA的模型訓練包含預訓練和后訓練兩部分。其中,預訓練是針對通用需求,主要采用大規模合成數據去訓練。后訓練是針對專用需求,主要基于少部分真機數據訓練。

a. 預訓練

在沒有大規模真實數據的條件下,銀河通用以10億級規模的仿真合成數據(SynGrasp-1B)為基礎對GraspVLA進行預訓練,實現了支持通用需求的基礎模型 —— “通才”,掌握了包括高度泛化、平面位置泛化、物體類別泛化、光照泛化、干擾物泛化、背景泛化和閉環能力在內的七大泛化能力,能夠在真實場景中實現零樣本抓取,無需額外訓練即可應對未見過物體的復雜擺放和動態環境變化。

SynGrasp-1B —— 10億級規模的合成數據(圖片來源:銀河通用)

備注:SynGrasp-1B 是基于先進光線追蹤渲染技術與物理模擬系統構建的十億幀級抓取數據集。該數據集涵蓋 240個物體類別、10680 個實例,依托160 張 NVIDIA 4090 GPU 組成的計算集群,歷時10天完成十億幀數據的生成工作。

b. 后訓練

針對專用需求,需要再對基礎模型進行后訓練,即進一步通過小樣本真機數據進行微調,可使其成長為特定場景應用下的“專才”。例如,面向工業場景中抓取接線座、三角板等特殊零部件的需求,僅需少量真實數據后訓練,模型就能快速掌握工業術語,實現特定零部件的精準抓取,進而實現基礎能力的快速遷移。

3. 智元機器人 —— 智元啟元大模型GO-1

2025年3月,智元機器人正式發布基于ViLLA(Vision-Language-Latent-Action)架構打造的通用具身基座大模型:智元啟元大模型 —— Genie Operator-1(簡稱GO-1 )。

Genie Operator-1模型架構(圖片來源:智元機器人)

其中,ViLLA架構由VLM(視覺-語言多模態大模型) + MoE(混合專家)組成。其中,MoE包含混合專家1 —— Latent Planner(隱式規劃器)和混合專家2 —— Action Expert(動作專家)兩部分組成。

1)VLM模型:采用InternVL-2B多模態大模型,接收多視角視覺圖片、力覺信號、自然語言等多模態信息的輸入,實現通用的場景感知和理解以及語言指令的理解。

該模型訓練所使用的數據主要來自大規模的互聯網圖像和文本數據。

2)混合專家1 —— Latent Planner(隱式規劃器):模型架構采用與VLM 主干網絡相同的Transformer 結構,但使用兩套獨立的FFN(前饋神經網絡)和Q/K/V/O(查詢、鍵、值、輸出)投影矩陣。

它的主要作用為基于VLM的中間層輸出預測Latent Action Tokens作為CoP(Chain of Planning,規劃鏈),以實現通用動作的理解和規劃。

該模型訓練所使用的數據:主要為大量人類操作和跨本體操作視頻,目的在于將異構數據源中真實世界的動作知識遷移到通用操作任務中。

3)混合專家2 ——Action Expert(動作專家):在結構設計上與Latent Planner類似,也是與VLM 主干網絡共享相同的 Transformer 結構。

它的作用在于基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細動作序列。

該模型訓練所使用的數據是高質量的真機數據。

簡單來說:VLM模型負責“看懂”世界和任務,Latent Planner在“腦海”中構思出達成目標的步驟(做什么),Action Expert則將這些步驟轉化為機器人身體能執行的具體動作(怎么做)。三者形成“感知→規劃→執行”的閉環。

4. 靈初智能 —— Psi-R1

2025年4月,靈初智能正式推出基于強化學習(RL)的端到端具身VLA模型Psi-R1。

Psi R1模型采取了“快慢腦”的分層架構,其中,快腦S1專注操作,慢腦S2專注推理,此架構支持機器人在開放環境下實現自主推理決策和長程靈巧操作的能力。

上層規劃Planner(即慢腦S2系統):采用基于自回歸生成機制的Causal VLM架構,負責場景抽象理解、任務規劃決策。

下層控制Controller(即快腦S1系統):采用DiT 模塊,專注于高精度的控制執行操作。

Psi-R1模型架構(圖片來源:靈初智能)

Psi-R1模型通過 Action Tokenizer 將慢腦S2輸出的高層動作規劃離散化為可執行指令,供快腦S1解析執行,實現動作空間的統一表征。該機制協同視覺—語言模態編碼器,共同完成跨模態對齊與融合。

據了解,Psi-R1模型是構建了首個支持「動作感知 - 環境反饋 - 動態決策」全閉環的VLA模型,實現機器人操作的視覺-語言-動作多模態協同的的CoAT思維鏈。再通過真機強化學習訓練,搭載R1模型的機器人能夠在多數靈巧操作任務中展現出接近人類水平的目標泛化能力與長程任務操作穩定性。

應用場景:麻將作為策略性博弈棋牌,兼具高度隨機性與交互性。在這一場景中,搭載R1 模型的機器人能夠完整進行一局時長超 30 分鐘的國標麻將:不僅能精準完成翻牌、抓牌、理牌、出牌等操作,展現出接近人類的靈巧操作水平;還能理解麻將規則,動態制定出牌、碰杠等策略,實現從規則理解到實時博弈的全流程推理與執行。

該機器人完成了時長30分鐘以上的CoAT長線思維鏈,打破了傳統機器人在復雜任務中面臨的時間與思考瓶頸。

參考資料:

1.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2.π0: A Vision-Language-Action Flow Model for General Robot Control

3.Figure AI 官網 

4.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

5.HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

6.GraspVLA: a Grasping Foundation Model Pre-trained on Billion-scale Synthetic Action Data

7.AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

8. 靈初智能官網

       原文標題 : VLA模型如何重塑具身智能 —— 8家國內外典型具身智能VLA模型梳理與分析

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號