中國公司開團,挑戰最強具身智能大腦

編者按:具身智能并非單一技術的突破,而是一場由資本、工程與場景合力推動的全球浪潮。這正如五百年前的地理大發現,我們正在智能的驅動下,重新繪制物理世界的邊界。
星河頻率特別策劃「具身智能大航海」系列文章,立足全球視野,錨定通用機器人、陪伴機器人、機器狗、機器人大模型等核心賽道,深度剖析行業內的頭號玩家們。
以「大航海」為名,記錄探索者們如何駕馭算法、硬件與資本的浪潮,尋找屬于自己的新大陸。
正如每一次大航海都重塑世界格局,具身智能的征程也在重新定義機器與人的關系、技術與社會的關系。在這個系列里,我們不僅關注誰能率先靠岸,更關心誰在指引航向、如何穿越泡沫、何處才有真正值得登陸的未來。
往期文章:《具身智能百億俱樂部,全球已有 10 位玩家》《「中國版 Figure AI」,殺出四位候選玩家》
作者 | 毛心如
時隔 7 個月,Physical Intelligence 接連放出兩條重磅消息:先是推出了新模型 π*0.6,隨后又宣布完成 6 億美元的新一輪融資。
繼 4 月份發布的π0.5 讓機器人在陌生環境里做家務后,新一代的 π*0.6 進一步具備了更智能的自我進化能力。
為實現這一突破,PI 團隊采用了一種名為 Recap 的全新方法,該方法基于優勢條件策略,通過經驗回放與糾錯機制進行強化學習,從而對原有的端到端 VLA 模型進行了升級。
Recap 融合了三個類似人類的學習階段:初始演示、機器人出錯時的實時專家糾正,以及通過自主試驗中的強化學習進行自我改進。
這有效解決了模仿學習在機器人學中的關鍵缺陷:避免小錯誤在現實世界交互中像滾雪球一樣累積,從而降低可靠性。
從結果來看,π*0.6 在處理高難度任務時,吞吐量翻倍,故障率降低了 2 倍以上。機器人甚至能數小時不間斷連續運行,挑戰包括全天 18 小時內制作意式濃縮咖啡、在新的家庭環境里折疊 50 件新衣物等等。
從π0 到π0.5 再到這次的π*0.6,Physical Intelligence 展示了一套極為清晰的范式:
先用大規模跨機器人數據,教會機器人「會干活」
再用異構同訓,讓它能在陌生環境里也能「看懂局」
最后把機器人丟回現實世界里,讓它通過糾錯和自我練級,慢慢長成一個 Embodied Agent
這次升級十分迅速,不少科研人士表示,剛開源的π0.5 還沒玩透徹,又出了 0.6。
毫不夸張的講,在具身智能行業,Physical Intelligence 是造機器人大腦領域當之無愧的佼佼者,甚至有公司直接對其開源模型進行微調,再對外宣稱是「技術升級」。
在這一背景下,也有四家中國公司在今年模型性能的對外宣傳上直接對標了 PI,分別是星海圖、自變量機器人、智平方和千訣科技。
行業頭部 PI,天然的參照系
截至目前,在這場以中美為核心的具身智能競賽里,美國的 Figure AI 以 390 億美元的估值位列全球第一,緊隨其后的 Physical Intelligence,估值已達 56 億美元。
作為被 OpenAI、紅杉資本以及亞馬遜創始人貝索斯共同押注的公司,Physical Intelligence 已經收獲了 10.7 億美元的融資。
與 Figure AI 以及中國的頭部公司打造全棧式軟硬一體的產品路線不同,Physical Intelligence 選擇只做機器人大腦。
選擇這樣獨特的路徑離不開其創始團隊強悍的學術背景。
團隊 5 名核心成員中,1 名是知名科技投資人,另外 4 名則是來自斯坦福、加州伯克利等名校的科學家,曾深度參與過谷歌 RT 系列機器人模型研發、谷歌 Aloha 機器人等項目。
作為初創公司,Physical Intelligence 選擇聚焦軟件,是想通過提供通用的機器人智能解決方案,快速適配不同硬件和應用場景,實現技術的規模化應用。
PI 團隊認為,行業的真正瓶頸在軟件而不在硬件,專注軟件更能集中資源攻克算法和數據難題。
現階段,PI 模型展示采用「機械臂+輪式」的機器人形態,這被團隊視為現有技術中比較成熟,且具備完成復雜任務基礎能力的硬件組合。
盡管成立不足兩年,PI 已經發布了端到端 VLA 模型 π0、π0.5 和 π*0.6。前兩款模型都已經開源,其中 π0 更是被稱為開源領域最強的 VLA 模型之一。
π0 和π0.5 同樣作為端到端 VLA 模型,核心區別主要在架構設計、訓練策略和泛化能力上。
π0 采用的是 VLM+Action Expert 的基礎架構,前者負責理解場景和指令,后者通過流匹配技術預測連續動作序列。
值得一提的是,流匹配是擴散模型的一種變體,因其簡單、好用的特點,已成為機器人底層操作策略的主流手段,并被廣泛應用在先進的 VLA 模型里。
無論是π0、π0.5,還是 LeRobot 的 SmolVLA,英偉達的 GR00T,均采用了這一技術。
訓練策略上,π0 主要依賴機器人演示數據,通過端到端訓練優化動作預測,其動作表示全程依賴連續動作空間,通過流匹配生成動作軌跡。
盡管π0 模型在已知任務和環境里表現不錯,但在開放環境里泛化能力有限。
為了突破這一核心瓶頸,PI 團隊推出了π0.5,通過分層推理機制和多源數據協同訓練,首次實現了在陌生家庭環境里執行長時序任務。
π0.5 在π0 的基礎上引入了分層推理機制,其中高層推理負責預測抽象語義子任務,例如拿起盤子、打開抽屜這樣的指令,底層推理則基于子任務生成關節級連續動作。
通過整合多種類型的機器人數據、網絡多模態數據、語言指導數據及語義標簽,機器人訓練不再依賴單一的演示數據,學會了從多元數據中汲取養分。
除此之外,π0.5 在動作表示上也采用了離散與連續動作結合的方式,機器人預訓練用離散動作來提升效率,后訓練引入流匹配來生成高精度連續動作,以平衡訓練速度與控制精度。
目前,PI 也與中國公司建立了合作。硬件端,其機械臂由方舟無限提供,軟件端其與智元機器人、星塵智能有深度合作。
此外,廣和通的開發平臺 Fibot 也已應用在模型π0.5 的數據采集中。
4 家中國公司公開對標 PI
隨著中國公司在具身智能領域的崛起,多家企業紛紛推出了各自的基礎模型,并在性能宣傳上表示超越了 PI 的π0、π0.5。
星海圖 G0 模型:評測結果在多個基準任務上全面優于π0 模型
自變量機器人 Wall-OSS 模型:在多個維度上對標并超越了π0
智平方開源模型 FiS-VLA:在三方評測中綜合性能超越π0 達 30%
千訣科技類腦大模型:機器人接收模糊指令,可自主決策執行任務,執行時間遠超π0.5
總的來看,目前具身智能行業已基本形成以 VLA 范式為核心的技術共識。
在這一共識下,五位玩家也依據自身優勢,形成了差異化的定位:PI 是結果導向、技術驅動的典范;星海圖代表了數據驅動+開源生態的路徑;自變量深耕軟硬一體協同發展;智平方是場景優先派,注重模型實際應用價值;千訣科技則是前沿理論派。
從模型架構的頂層設計來看,這些模型呈現出統一端到端與分層決策兩種鮮明路徑。
PI 的π0、π0.5 體現了前者追求簡潔高效的思路,即通過一個統一模型直接輸出從高級動作文本到低級關節控制的完整指令,在單一框架內完成從語義理解到物理執行的映射。
自變量的 WALL-OSS 則更注重深層次的統一性,其共享注意力與專家分流架構讓語言、視覺和動作在同一個表示空間中交叉處理,從根本上減少多階段流程中的誤差累積。
與之相對,分層路徑則更注重模仿人類認知中的專業分工。
星海圖的 G0 模型和智平方的 FiS-VLA 模型均采用了雙系統架構,將復雜的任務規劃與高頻的實時控制分而治之。
G0 模型通過明確的快慢系統分離,使機器人在鋪床這類長周期任務中能穩定協調 23 個自由度。
智平方的 FiS-VLA 更進一步,它將快系統直接嵌入到預訓練好的慢系統內部,通過復用慢系統末層的 Transformer 模塊,讓快系統天然繼承慢系統的語義理解能力,實現了思考與行動在單一模型內的有機統一。
千訣科技的類腦大模型,則以前瞻性的思路,將生物大腦的神經推理機制引入機器人大模型,開辟出一條更為差異化的技術路徑。
其模型通過重構輸入與決策過程,賦予機器人更接近生物的主動適應能力。
而在這些技術差異的背后,也折射出各家公司不同的發展理念與市場定位。
首先,開源成為了大多玩家的共同選擇。像π0、π0.5、WALL-OSS 、FiS-VLA 以及 G0 都采取了開源策略,既加速了技術推廣,也通過開發者社區反哺模型迭代,形成「開源-反饋-優化」的良性循環。
在共性之外,五位玩家在應用場景與商業化節奏的差異更為明顯。
Physical Intelligence 的π系列更側重技術驗證與泛化能力展示,商業化落地相對有限;中國模型則實現了技術與商業的深度綁定。
智平方通過開源生態積累開發者資源,已在工業場景實現降本增效,星海圖聚焦科研教育市場。
自變量機器人主打軟硬一體解決方案,千訣科技則以 API 服務賦能機器人廠商,形成了覆蓋工業、消費、端側等多場景的商業化布局。
這種差異本質上源于市場需求的不同,海外市場更重視技術的通用性與前瞻性,而中國市場則強調技術落地的實際價值與投資回報,這種需求導向的分化也將持續影響未來模型的優化方向。
具身智能的 ChatGPT 時刻何時到來
今年以來,各大論壇中被頻繁討論的問題之一便是:具身智能的「ChatGPT 時刻」何時到來?
面對這一問題,業內玩家的態度各不相同,有的樂觀,有的審慎。
宇樹的王興興表示,目前機器人大模型的發展階段類似于 ChatGPT 發布前的 1-3 年,這一時刻或許并不遙遠;星動紀元的陳建宇則認為,要達到高標準的 ChatGPT 時刻,仍需 3 年以上時間。
銀河通用的王鶴指出,盡管人形機器人全面應用的呼聲很高,但其發展至 ChatGPT 時刻仍有很長距離。
樂聚機器人的冷曉琨則提出,大語言模型的 ChatGPT 時刻在具身智能領域可能難以完全復制。
在 AI 深度融入日常的今天,像 ChatGPT、Deepseek 等大語言模型 AI 已經能給我們提供很大的便捷,人類向 AI 提問,AI 能給到不錯的回答。
而將這一標準套入具身智能領域,則意味著:將一臺機器人置于任意場景中,用戶要求它完成各種雜活,機器人都能較好地執行。
顯然,以現階段的技術而言,實現這一目標仍面臨三大瓶頸。
首先是數據瓶頸。具身智能行業「缺數據」,已是老生常談的話題。
打個比方,ChatGPT 喂給模型的學習數據量相當于人不停學了 40 萬年,但具身智能行業里的有效數據差不多僅相當于人不停學了 1 年。
行業需要大量多模態數據來訓練,但真實場景數據采集成本高、效率低,且不同機器人硬件數據難以復用。仿真數據雖然可以批量生成,但容易產生 Sim2Real Gap,影響模型泛化能力。
因此,當前業界普遍采用仿真+真實數據+開源數據集組合的方式來擴充數據規模。
數量是基礎,質量則是另一大挑戰。
盡管越來越多的公司開始進行數據采集,但數據質量缺乏有效的評估標準,即便采集了數據,若質量不高,仍難以用于訓練機器人。
此外,面對海量的互聯網視頻數據,其物理正確性無法保證,很難直接用于機器人訓練。
其次就是模型瓶頸。現有的模型架構還不夠成熟,泛化能力有很大障礙,缺乏統一且高效的模型。
同時,在機器人強化學習領域,尚未出現像大語言模型那樣的 scaling law,導致機器人學習新技能效率低,投入和產出回報并不完全形成正比。
最后是系統工程問題。模型泛化能力不足,進而導致機器人進入陌生、非結構化環境后,任務成功率大幅下降。
而且,不同機器人的關節自由度、驅動技術、材料選擇等缺乏統一標準,不同硬件架構的數據與模型難以通用,增加了研發與部署成本。
目前,機器人本體能承載的功耗有限,無法部署大規模算力,云端計算又面臨延遲挑戰,這也構成了算力部署上的限制。
總的來說,具身智能要迎來 ChatGPT 時刻,需要機器人實現適應非結構化真實環境、多感官聯動,以及類人的思考能力。
相應地,機器人也需要突破機械執行的局限,提升元認知,賦予其反思與持續學習的能力,從而能夠適應新環境與新任務。
「對標 PI」,本質上是中國具身智能行業在技術追趕過程中的一個必然階段——通過明確的參照系快速定位差距、集中資源突破瓶頸。
但當 PI 已迭代至 π*0.6 并積極開源構建生態時,中國玩家需要超越單純的性能對標,尋找差異化的破局路徑。
無論是星海圖的數據先行,還是智平方的場景綁定,其實都已展現出帶有中國特色的發展思路。
不同的路徑雖然各有側重,但都指向同一個核心,具身智能的競爭最終是技術-數據-場景的協同競爭,而非單一模型的性能比拼。
正如業內人士所言,ChatGPT 的爆發不是因為單一模型的突破,而是語言數據、算法架構、算力支撐的三重共振,具身智能的拐點同樣需要這種協同效應。
或許,具身智能的 ChatGPT 時刻離我們并不遙遠,但這個關鍵節點,更可能在一次次模型迭代與機器調試中,悄然降臨。
原文標題 : 中國公司開團,挑戰最強具身智能大腦
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













