人形機(jī)器人有了通用運(yùn)動"小腦", 這有什么用？

2026-06-22 12:04

芝能科技

關(guān)注

銀河通用前幾天發(fā)了一個叫AstraBrain-WBC 0.5的模型，給人形機(jī)器人的身體配上了一個能零樣本學(xué)會新動作的Transformer控制器。

論文被CVPR 2026接收，代碼和數(shù)據(jù)都開源了。這個模型的論文標(biāo)題叫Humanoid-GPT。

跟文字領(lǐng)域的GPT一樣，它也試圖證明一件事：把數(shù)據(jù)堆到足夠大、把模型換成Transformer，Scaling Law在物理世界同樣管用。

演示視頻里一臺宇樹G1機(jī)器人跟著視頻里的人類動作跳舞，動作連貫流暢，沒有預(yù)編程，沒有針對具體動作做微調(diào)。論文數(shù)據(jù)也扎實，零樣本運(yùn)動追蹤成功率92.58%，推理延遲壓到了0.39毫秒。

什么是機(jī)器人"小腦"，

跟"大腦"有什么區(qū)別

銀河星腦把機(jī)器人的智能拆成了三層。

大腦管感知和任務(wù)規(guī)劃，知道面前是個箱子，箱子要搬到B區(qū)。神經(jīng)控制管末端的精細(xì)操作，手指怎么捏住一顆螺絲。夾在中間的小腦，管全身運(yùn)動協(xié)調(diào)。重心在哪，哪條腿先邁，手臂和軀干怎么配合，速度多快。

這個分工不是銀河通用發(fā)明的，人腦本身就長成這樣。

大腦皮層做規(guī)劃，腦橋把指令傳給下面，小腦做協(xié)調(diào)和執(zhí)行。機(jī)器人行業(yè)一直以來最頭疼的問題就是小腦。

大腦的感知能力靠視覺大模型每年都在跳級，末端的靈巧手也越來越精細(xì)了，就夾在中間的這一層，要讓一臺雙足人形機(jī)器人在任何姿勢下都能穩(wěn)定地站著、走起來、做出指定動作，一直沒有一個通用解。

以前的思路是針對每個動作單獨訓(xùn)練一個控制器。教會機(jī)器人走路，需要專門采集一批走路的動捕數(shù)據(jù)，標(biāo)好關(guān)節(jié)角度，用強(qiáng)化學(xué)習(xí)訓(xùn)一個策略。教會它跑步，再訓(xùn)第二個。

有多少種動作就訓(xùn)多少個控制器，每個控制器換場景就失效。機(jī)器人學(xué)會了一套熟練的行走策略，換到斜坡上可能就不靈了。

AstraBrain-WBC 0.5想試的是另一條路。能不能像一個GPT模型處理各種文字任務(wù)一樣，一個模型處理所有動作。

銀河通用的團(tuán)隊把人類手動捕捉領(lǐng)域幾乎所有公開數(shù)據(jù)集全扒出來了，AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion，再加上自己錄的超過一千小時動作數(shù)據(jù)。合并、篩選、增強(qiáng)以后，得到了20億幀經(jīng)過宇樹G1關(guān)節(jié)空間重定向的動作數(shù)據(jù)。

同類研究此前最大的訓(xùn)練集大約是1億幀級別。英偉達(dá)當(dāng)時做的SONIC大概堆到了1億幀。銀河通用這個，是它的200倍。

Transformer接住

MLP撐不住的盤子

此前人形機(jī)器人運(yùn)動追蹤的主流架構(gòu)是MLP。MLP做運(yùn)動控制有一個先天的短板：它每次只能"看"一個時刻的狀態(tài)切片。

步伐和重心之間的關(guān)系跨了十幾幀甚至幾十幀，MLP沒辦法天然地建模這種長距離依賴，只能靠"把歷史數(shù)據(jù)拼接到輸入向量里"這種臨時方案來湊。

MLP在多模態(tài)、高動態(tài)的動作數(shù)據(jù)上訓(xùn)練，到了一定規(guī)模以后邊際收益越來越小。Transformer的自注意力機(jī)制不同。

模型在序列中每個位置都能同時"回望"此前任意長度的歷史幀，捕捉到"當(dāng)前動作和32幀前的某個姿態(tài)"之間的關(guān)聯(lián)。

對于人形機(jī)器人，這種跨幀的連貫性直接決定了走路像不像人、跳舞會不會突然僵住。

銀河通用的團(tuán)隊做了很干凈的消融實驗。

同樣是20億幀訓(xùn)練數(shù)據(jù)，MLP在大約50K步以后損失曲線進(jìn)入平臺期，Transformer在200K步以后還在往下走。Transformer最終穩(wěn)定在約0.06的水平，MLP停在約0.08。這0.02的差距在真機(jī)上的表現(xiàn)，就是走路的步態(tài)有沒有人味。

訓(xùn)練時，MLP每次只能處理一個時間步，想覆蓋一條長序列得循環(huán)N次。Transformer一次前向就能處理整條序列所有位置，訓(xùn)練吞吐量在20億幀這個數(shù)據(jù)規(guī)模下直接拉開了數(shù)量級差距。

如果仍然用MLP，同樣20億幀數(shù)據(jù)需要多出幾倍的計算資源和時間才能跑完一輪。

工程部署上，團(tuán)隊做了TensorRT編譯和C++流水線優(yōu)化，推理延遲0.39毫秒，控制回路50Hz。對比TWIST系統(tǒng)的2.79毫秒，速度快了約5倍。更大的模型反而跑得更快，靠的是因果注意力和MLP融合算子的專項內(nèi)核優(yōu)化。

300多個專家交給一個模型

直接用一個Transformer從20億幀的原始數(shù)據(jù)端到端訓(xùn)練是不現(xiàn)實的。團(tuán)隊先用強(qiáng)化學(xué)習(xí)PPO在約300個動作族群上分別訓(xùn)練了384個"運(yùn)動專家"。

每個專家只負(fù)責(zé)自己那個風(fēng)格的動作，走路專家不管跳舞，跳舞專家不管沖刺。每個專家能把自己的風(fēng)格做到很高的保真度。

然后用DAgger蒸餾框架，讓一個統(tǒng)一的Transformer通才模型同時向384個專家學(xué)習(xí)。

384個專家的知識被蒸餾到了一個8040萬參數(shù)的模型里。蒸餾完成以后，部署時只需要這一個大模型。

論文的消融實驗顯示，簇類數(shù)量不能太少也不能太多。

128個簇，每個專家管得太雜，單個專家的訓(xùn)練質(zhì)量上不去，蒸餾出來的通才也弱。1024個簇，相鄰專家之間的監(jiān)督信號開始互相干擾，學(xué)生模型不知道到底該聽誰的。大概384個是當(dāng)前數(shù)據(jù)規(guī)模下多樣性、質(zhì)量和成本的最優(yōu)折中點。

整個訓(xùn)練過程耗費大約15000個GPU小時。75%用在專家訓(xùn)練上，跑的是RTX 4090；25%用在Transformer蒸餾上，跑的是H100。這個成本放在學(xué)術(shù)論文里算合理，放在商業(yè)化部署里也不算貴。

到底有沒有用？

AstraBrain-WBC 0.5回答了三個問題。

◎ 第一，動作數(shù)據(jù)可以堆到20億幀。

◎ 第二，Transformer架構(gòu)可以接住這個規(guī)模的數(shù)據(jù)并持續(xù)從中學(xué)到東西。

◎ 第三，蒸餾以后的模型在真機(jī)上能實時運(yùn)行。

● 第一個，它是一個純運(yùn)動追蹤模型。

論文原文寫得很清楚，下一步方向是和視覺-語言-動作模型對接，加入視覺、觸覺和語言多模態(tài)信息。

現(xiàn)在的AstraBrain-WBC 0.5只理解關(guān)節(jié)角度。地上有個箱子，桌子有個杯子，它不知道。別人把運(yùn)動序列喂給它，它照著做。沒有人告訴它去哪、拿什么、怎么拿。它是小腦，不是大腦。

● 第二個，演示環(huán)境是平整地面的空曠空間。

這種環(huán)境下的高動態(tài)動作和工廠里堆滿托盤、走道狹窄的實際場景之間有巨大的驗證鴻溝。論文沒有提供在非結(jié)構(gòu)化環(huán)境下的測試數(shù)據(jù)。

● 第三個，也是業(yè)界最關(guān)心的問題。