新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

人形機(jī)器人有了通用運(yùn)動"小腦", 這有什么用?

銀河通用前幾天發(fā)了一個叫AstraBrain-WBC 0.5的模型,給人形機(jī)器人的身體配上了一個能零樣本學(xué)會新動作的Transformer控制器。

論文被CVPR 2026接收,代碼和數(shù)據(jù)都開源了。這個模型的論文標(biāo)題叫Humanoid-GPT。

跟文字領(lǐng)域的GPT一樣,它也試圖證明一件事:把數(shù)據(jù)堆到足夠大、把模型換成Transformer,Scaling Law在物理世界同樣管用。

演示視頻里一臺宇樹G1機(jī)器人跟著視頻里的人類動作跳舞,動作連貫流暢,沒有預(yù)編程,沒有針對具體動作做微調(diào)。論文數(shù)據(jù)也扎實,零樣本運(yùn)動追蹤成功率92.58%,推理延遲壓到了0.39毫秒。

01

什么是機(jī)器人"小腦",

跟"大腦"有什么區(qū)別

銀河星腦把機(jī)器人的智能拆成了三層。

大腦管感知和任務(wù)規(guī)劃,知道面前是個箱子,箱子要搬到B區(qū)。神經(jīng)控制管末端的精細(xì)操作,手指怎么捏住一顆螺絲。夾在中間的小腦,管全身運(yùn)動協(xié)調(diào)。重心在哪,哪條腿先邁,手臂和軀干怎么配合,速度多快。

這個分工不是銀河通用發(fā)明的,人腦本身就長成這樣。

大腦皮層做規(guī)劃,腦橋把指令傳給下面,小腦做協(xié)調(diào)和執(zhí)行。機(jī)器人行業(yè)一直以來最頭疼的問題就是小腦。

大腦的感知能力靠視覺大模型每年都在跳級,末端的靈巧手也越來越精細(xì)了,就夾在中間的這一層,要讓一臺雙足人形機(jī)器人在任何姿勢下都能穩(wěn)定地站著、走起來、做出指定動作,一直沒有一個通用解。

以前的思路是針對每個動作單獨訓(xùn)練一個控制器。教會機(jī)器人走路,需要專門采集一批走路的動捕數(shù)據(jù),標(biāo)好關(guān)節(jié)角度,用強(qiáng)化學(xué)習(xí)訓(xùn)一個策略。教會它跑步,再訓(xùn)第二個。

有多少種動作就訓(xùn)多少個控制器,每個控制器換場景就失效。機(jī)器人學(xué)會了一套熟練的行走策略,換到斜坡上可能就不靈了。

AstraBrain-WBC 0.5想試的是另一條路。能不能像一個GPT模型處理各種文字任務(wù)一樣,一個模型處理所有動作。

銀河通用的團(tuán)隊把人類手動捕捉領(lǐng)域幾乎所有公開數(shù)據(jù)集全扒出來了,AMASS、LAFAN1、Motion-X++、PHUMA、MotionMillion,再加上自己錄的超過一千小時動作數(shù)據(jù)。合并、篩選、增強(qiáng)以后,得到了20億幀經(jīng)過宇樹G1關(guān)節(jié)空間重定向的動作數(shù)據(jù)。

同類研究此前最大的訓(xùn)練集大約是1億幀級別。英偉達(dá)當(dāng)時做的SONIC大概堆到了1億幀。銀河通用這個,是它的200倍。

02

Transformer接住

MLP撐不住的盤子

此前人形機(jī)器人運(yùn)動追蹤的主流架構(gòu)是MLP。MLP做運(yùn)動控制有一個先天的短板:它每次只能"看"一個時刻的狀態(tài)切片。

步伐和重心之間的關(guān)系跨了十幾幀甚至幾十幀,MLP沒辦法天然地建模這種長距離依賴,只能靠"把歷史數(shù)據(jù)拼接到輸入向量里"這種臨時方案來湊。

MLP在多模態(tài)、高動態(tài)的動作數(shù)據(jù)上訓(xùn)練,到了一定規(guī)模以后邊際收益越來越小。Transformer的自注意力機(jī)制不同。

模型在序列中每個位置都能同時"回望"此前任意長度的歷史幀,捕捉到"當(dāng)前動作和32幀前的某個姿態(tài)"之間的關(guān)聯(lián)。

對于人形機(jī)器人,這種跨幀的連貫性直接決定了走路像不像人、跳舞會不會突然僵住。

銀河通用的團(tuán)隊做了很干凈的消融實驗。

同樣是20億幀訓(xùn)練數(shù)據(jù),MLP在大約50K步以后損失曲線進(jìn)入平臺期,Transformer在200K步以后還在往下走。Transformer最終穩(wěn)定在約0.06的水平,MLP停在約0.08。這0.02的差距在真機(jī)上的表現(xiàn),就是走路的步態(tài)有沒有人味。

訓(xùn)練時,MLP每次只能處理一個時間步,想覆蓋一條長序列得循環(huán)N次。Transformer一次前向就能處理整條序列所有位置,訓(xùn)練吞吐量在20億幀這個數(shù)據(jù)規(guī)模下直接拉開了數(shù)量級差距。

如果仍然用MLP,同樣20億幀數(shù)據(jù)需要多出幾倍的計算資源和時間才能跑完一輪。

工程部署上,團(tuán)隊做了TensorRT編譯和C++流水線優(yōu)化,推理延遲0.39毫秒,控制回路50Hz。對比TWIST系統(tǒng)的2.79毫秒,速度快了約5倍。更大的模型反而跑得更快,靠的是因果注意力和MLP融合算子的專項內(nèi)核優(yōu)化。

03

300多個專家交給一個模型

直接用一個Transformer從20億幀的原始數(shù)據(jù)端到端訓(xùn)練是不現(xiàn)實的。團(tuán)隊先用強(qiáng)化學(xué)習(xí)PPO在約300個動作族群上分別訓(xùn)練了384個"運(yùn)動專家"。

每個專家只負(fù)責(zé)自己那個風(fēng)格的動作,走路專家不管跳舞,跳舞專家不管沖刺。每個專家能把自己的風(fēng)格做到很高的保真度。

然后用DAgger蒸餾框架,讓一個統(tǒng)一的Transformer通才模型同時向384個專家學(xué)習(xí)。

384個專家的知識被蒸餾到了一個8040萬參數(shù)的模型里。蒸餾完成以后,部署時只需要這一個大模型。

論文的消融實驗顯示,簇類數(shù)量不能太少也不能太多。

128個簇,每個專家管得太雜,單個專家的訓(xùn)練質(zhì)量上不去,蒸餾出來的通才也弱。1024個簇,相鄰專家之間的監(jiān)督信號開始互相干擾,學(xué)生模型不知道到底該聽誰的。大概384個是當(dāng)前數(shù)據(jù)規(guī)模下多樣性、質(zhì)量和成本的最優(yōu)折中點。

整個訓(xùn)練過程耗費大約15000個GPU小時。75%用在專家訓(xùn)練上,跑的是RTX 4090;25%用在Transformer蒸餾上,跑的是H100。這個成本放在學(xué)術(shù)論文里算合理,放在商業(yè)化部署里也不算貴。

04

到底有沒有用?

AstraBrain-WBC 0.5回答了三個問題。

◎ 第一,動作數(shù)據(jù)可以堆到20億幀。

◎ 第二,Transformer架構(gòu)可以接住這個規(guī)模的數(shù)據(jù)并持續(xù)從中學(xué)到東西。

◎ 第三,蒸餾以后的模型在真機(jī)上能實時運(yùn)行。

● 第一個,它是一個純運(yùn)動追蹤模型。

論文原文寫得很清楚,下一步方向是和視覺-語言-動作模型對接,加入視覺、觸覺和語言多模態(tài)信息。

現(xiàn)在的AstraBrain-WBC 0.5只理解關(guān)節(jié)角度。地上有個箱子,桌子有個杯子,它不知道。別人把運(yùn)動序列喂給它,它照著做。沒有人告訴它去哪、拿什么、怎么拿。它是小腦,不是大腦。

● 第二個,演示環(huán)境是平整地面的空曠空間。

這種環(huán)境下的高動態(tài)動作和工廠里堆滿托盤、走道狹窄的實際場景之間有巨大的驗證鴻溝。論文沒有提供在非結(jié)構(gòu)化環(huán)境下的測試數(shù)據(jù)。

● 第三個,也是業(yè)界最關(guān)心的問題。

銀河通用目前主打的商業(yè)化方向是即時零售的機(jī)器人倉儲,用的是輪式底盤加雙臂操作。輪式底盤不需要翻跟斗也不需要跳舞。小腦GPT的能力對于輪式機(jī)器人的實際商業(yè)價值有多大,目前沒有直接的量化數(shù)據(jù)。

小結(jié)

機(jī)器人運(yùn)動控制的Scaling Law驗證到了20億幀的規(guī)模。

這個驗證結(jié)果對行業(yè)的指導(dǎo)意義是方法論層面的:過去覺得"機(jī)器人的動作數(shù)據(jù)不容易堆大,Scaling Law不一定管用",現(xiàn)在有人證明管用了。Transformer加足夠大的數(shù)據(jù),就能做出通用小腦。

機(jī)器人小腦從一個"每個技能都需要單獨手搓"的手藝活,推向了一個"堆數(shù)據(jù)和算力就能出效果"的工程問題。手搓和堆料之間的區(qū)別,就是能不能規(guī)模化的區(qū)別。

       原文標(biāo)題 : 人形機(jī)器人有了通用運(yùn)動"小腦",這有什么用?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號