人形機(jī)器人有了通用運(yùn)動"小腦", 這有什么用?
銀河通用前幾天發(fā)了一個叫AstraBrain-WBC 0.5的模型,給人形機(jī)器人的身體配上了一個能零樣本學(xué)會新動作的Transformer控制器。
論文被CVPR 2026接收,代碼和數(shù)據(jù)都開源了。這個模型的論文標(biāo)題叫Humanoid-GPT。
跟文字領(lǐng)域的GPT一樣,它也試圖證明一件事:把數(shù)據(jù)堆到足夠大、把模型換成Transformer,Scaling Law在物理世界同樣管用。
演示視頻里一臺宇樹G1機(jī)器人跟著視頻里的人類動作跳舞,動作連貫流暢,沒有預(yù)編程,沒有針對具體動作做微調(diào)。論文數(shù)據(jù)也扎實,零樣本運(yùn)動追蹤成功率92.58%,推理延遲壓到了0.39毫秒。

01
什么是機(jī)器人"小腦",
跟"大腦"有什么區(qū)別
銀河星腦把機(jī)器人的智能拆成了三層。
大腦管感知和任務(wù)規(guī)劃,知道面前是個箱子,箱子要搬到B區(qū)。神經(jīng)控制管末端的精細(xì)操作,手指怎么捏住一顆螺絲。夾在中間的小腦,管全身運(yùn)動協(xié)調(diào)。重心在哪,哪條腿先邁,手臂和軀干怎么配合,速度多快。
這個分工不是銀河通用發(fā)明的,人腦本身就長成這樣。
大腦皮層做規(guī)劃,腦橋把指令傳給下面,小腦做協(xié)調(diào)和執(zhí)行。機(jī)器人行業(yè)一直以來最頭疼的問題就是小腦。
大腦的感知能力靠視覺大模型每年都在跳級,末端的靈巧手也越來越精細(xì)了,就夾在中間的這一層,要讓一臺雙足人形機(jī)器人在任何姿勢下都能穩(wěn)定地站著、走起來、做出指定動作,一直沒有一個通用解。
以前的思路是針對每個動作單獨訓(xùn)練一個控制器。教會機(jī)器人走路,需要專門采集一批走路的動捕數(shù)據(jù),標(biāo)好關(guān)節(jié)角度,用強(qiáng)化學(xué)習(xí)訓(xùn)一個策略。教會它跑步,再訓(xùn)第二個。
有多少種動作就訓(xùn)多少個控制器,每個控制器換場景就失效。機(jī)器人學(xué)會了一套熟練的行走策略,換到斜坡上可能就不靈了。
AstraBrain-WBC 0.5想試的是另一條路。能不能像一個GPT模型處理各種文字任務(wù)一樣,一個模型處理所有動作。
銀河通用的團(tuán)隊把人類手動捕捉領(lǐng)域幾乎所有公開數(shù)據(jù)集全扒出來了,AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion,再加上自己錄的超過一千小時動作數(shù)據(jù)。合并、篩選、增強(qiáng)以后,得到了20億幀經(jīng)過宇樹G1關(guān)節(jié)空間重定向的動作數(shù)據(jù)。
同類研究此前最大的訓(xùn)練集大約是1億幀級別。英偉達(dá)當(dāng)時做的SONIC大概堆到了1億幀。銀河通用這個,是它的200倍。
02
Transformer接住
MLP撐不住的盤子
此前人形機(jī)器人運(yùn)動追蹤的主流架構(gòu)是MLP。MLP做運(yùn)動控制有一個先天的短板:它每次只能"看"一個時刻的狀態(tài)切片。
步伐和重心之間的關(guān)系跨了十幾幀甚至幾十幀,MLP沒辦法天然地建模這種長距離依賴,只能靠"把歷史數(shù)據(jù)拼接到輸入向量里"這種臨時方案來湊。
MLP在多模態(tài)、高動態(tài)的動作數(shù)據(jù)上訓(xùn)練,到了一定規(guī)模以后邊際收益越來越小。Transformer的自注意力機(jī)制不同。
模型在序列中每個位置都能同時"回望"此前任意長度的歷史幀,捕捉到"當(dāng)前動作和32幀前的某個姿態(tài)"之間的關(guān)聯(lián)。
對于人形機(jī)器人,這種跨幀的連貫性直接決定了走路像不像人、跳舞會不會突然僵住。
銀河通用的團(tuán)隊做了很干凈的消融實驗。
同樣是20億幀訓(xùn)練數(shù)據(jù),MLP在大約50K步以后損失曲線進(jìn)入平臺期,Transformer在200K步以后還在往下走。Transformer最終穩(wěn)定在約0.06的水平,MLP停在約0.08。這0.02的差距在真機(jī)上的表現(xiàn),就是走路的步態(tài)有沒有人味。
訓(xùn)練時,MLP每次只能處理一個時間步,想覆蓋一條長序列得循環(huán)N次。Transformer一次前向就能處理整條序列所有位置,訓(xùn)練吞吐量在20億幀這個數(shù)據(jù)規(guī)模下直接拉開了數(shù)量級差距。
如果仍然用MLP,同樣20億幀數(shù)據(jù)需要多出幾倍的計算資源和時間才能跑完一輪。
工程部署上,團(tuán)隊做了TensorRT編譯和C++流水線優(yōu)化,推理延遲0.39毫秒,控制回路50Hz。對比TWIST系統(tǒng)的2.79毫秒,速度快了約5倍。更大的模型反而跑得更快,靠的是因果注意力和MLP融合算子的專項內(nèi)核優(yōu)化。

03
300多個專家交給一個模型
直接用一個Transformer從20億幀的原始數(shù)據(jù)端到端訓(xùn)練是不現(xiàn)實的。團(tuán)隊先用強(qiáng)化學(xué)習(xí)PPO在約300個動作族群上分別訓(xùn)練了384個"運(yùn)動專家"。
每個專家只負(fù)責(zé)自己那個風(fēng)格的動作,走路專家不管跳舞,跳舞專家不管沖刺。每個專家能把自己的風(fēng)格做到很高的保真度。
然后用DAgger蒸餾框架,讓一個統(tǒng)一的Transformer通才模型同時向384個專家學(xué)習(xí)。
384個專家的知識被蒸餾到了一個8040萬參數(shù)的模型里。蒸餾完成以后,部署時只需要這一個大模型。
論文的消融實驗顯示,簇類數(shù)量不能太少也不能太多。
128個簇,每個專家管得太雜,單個專家的訓(xùn)練質(zhì)量上不去,蒸餾出來的通才也弱。1024個簇,相鄰專家之間的監(jiān)督信號開始互相干擾,學(xué)生模型不知道到底該聽誰的。大概384個是當(dāng)前數(shù)據(jù)規(guī)模下多樣性、質(zhì)量和成本的最優(yōu)折中點。
整個訓(xùn)練過程耗費大約15000個GPU小時。75%用在專家訓(xùn)練上,跑的是RTX 4090;25%用在Transformer蒸餾上,跑的是H100。這個成本放在學(xué)術(shù)論文里算合理,放在商業(yè)化部署里也不算貴。
04
到底有沒有用?
AstraBrain-WBC 0.5回答了三個問題。
◎ 第一,動作數(shù)據(jù)可以堆到20億幀。
◎ 第二,Transformer架構(gòu)可以接住這個規(guī)模的數(shù)據(jù)并持續(xù)從中學(xué)到東西。
◎ 第三,蒸餾以后的模型在真機(jī)上能實時運(yùn)行。
● 第一個,它是一個純運(yùn)動追蹤模型。
論文原文寫得很清楚,下一步方向是和視覺-語言-動作模型對接,加入視覺、觸覺和語言多模態(tài)信息。
現(xiàn)在的AstraBrain-WBC 0.5只理解關(guān)節(jié)角度。地上有個箱子,桌子有個杯子,它不知道。別人把運(yùn)動序列喂給它,它照著做。沒有人告訴它去哪、拿什么、怎么拿。它是小腦,不是大腦。
● 第二個,演示環(huán)境是平整地面的空曠空間。
這種環(huán)境下的高動態(tài)動作和工廠里堆滿托盤、走道狹窄的實際場景之間有巨大的驗證鴻溝。論文沒有提供在非結(jié)構(gòu)化環(huán)境下的測試數(shù)據(jù)。
● 第三個,也是業(yè)界最關(guān)心的問題。
銀河通用目前主打的商業(yè)化方向是即時零售的機(jī)器人倉儲,用的是輪式底盤加雙臂操作。輪式底盤不需要翻跟斗也不需要跳舞。小腦GPT的能力對于輪式機(jī)器人的實際商業(yè)價值有多大,目前沒有直接的量化數(shù)據(jù)。
小結(jié)
機(jī)器人運(yùn)動控制的Scaling Law驗證到了20億幀的規(guī)模。
這個驗證結(jié)果對行業(yè)的指導(dǎo)意義是方法論層面的:過去覺得"機(jī)器人的動作數(shù)據(jù)不容易堆大,Scaling Law不一定管用",現(xiàn)在有人證明管用了。Transformer加足夠大的數(shù)據(jù),就能做出通用小腦。
機(jī)器人小腦從一個"每個技能都需要單獨手搓"的手藝活,推向了一個"堆數(shù)據(jù)和算力就能出效果"的工程問題。手搓和堆料之間的區(qū)別,就是能不能規(guī)模化的區(qū)別。
原文標(biāo)題 : 人形機(jī)器人有了通用運(yùn)動"小腦",這有什么用?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月30日立即報名>> 【直播】 AI X 6G無線智能與下一代通信測試論壇
-
6月30日立即申請試用>> 【免費試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會
推薦專題
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會
- 2 SpaceX計劃今日確定IPO條款,6月12日掛牌上市,AI業(yè)務(wù)成增長新引擎
- 3 Agnes AI 發(fā)布三大模態(tài)核心模型:文本、圖像、視頻
- 4 騰訊云宣布調(diào)價:DeepSeek-V4降價97%
- 5 SpaceX上市拒絕中港投資者:資本開啟地緣政治時代
- 6 2026上半年具身智能復(fù)盤,瘋狂融資潮背后誰才是“印鈔機(jī)”
- 7 支付寶推出全球首個Token Pay服務(wù),AI時代的支付要變天了?
- 8 我們體驗了胡彥斌Vibe Coding的App:方向是對的,細(xì)節(jié)有點糙
- 9 AI生態(tài)之戰(zhàn)打響:微信做入口,騰訊來托底
- 10 3000字深度|物理AI有何魔力?讓孫正義、黃仁勛、孫宇晨同時“上頭”
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享













