具身智能“數(shù)據(jù)荒”，空間大腦來(lái)破局

2025-07-29 10:43

作者｜毛心如

今年 WAIC 創(chuàng)記錄了。

不僅有 40 余款大模型、50 余款 AI 終端產(chǎn)品、60 余款智能機(jī)器人以及 100 余款「全球首發(fā)」「中國(guó)首秀」的重磅新品，場(chǎng)館內(nèi)還有超過(guò) 150 臺(tái)人形機(jī)器人同臺(tái)亮相。

跟去年只有 18 個(gè)人形機(jī)器人，而且其中大多需要帶著安全繩不同，今年的機(jī)器人都在整花活，打拳擊、玩架子鼓、端茶倒水、快遞分揀樣樣精通。

這些脫離安全繩、在真實(shí)場(chǎng)景中協(xié)作的機(jī)器人，標(biāo)志著具身智能正從「技術(shù)演示」邁向「任務(wù)執(zhí)行」的新階段。而這一變化背后，是行業(yè)對(duì)數(shù)據(jù)驅(qū)動(dòng)范式的集體突破。

在此次 WAIC 上，商湯科技、騰訊、智元、群核科技等都發(fā)布了新項(xiàng)目，各家技術(shù)路徑不同，但都直指同一目標(biāo)：讓機(jī)器人學(xué)會(huì)在物理世界中「高效犯錯(cuò)」。

然而要讓機(jī)器人在復(fù)雜的物理世界中真正「學(xué)會(huì)」犯錯(cuò)并從中成長(zhǎng)，其前提是海量、高質(zhì)量、多樣化的訓(xùn)練數(shù)據(jù)，業(yè)內(nèi)缺的恰恰就是這些數(shù)據(jù)。

數(shù)據(jù)成具身智能「卡脖子」問(wèn)題

具身智能，無(wú)疑是當(dāng)前科技領(lǐng)域最炙手可熱的概念之一。

據(jù)不完全統(tǒng)計(jì)，2025 年上半年具身智能領(lǐng)域融資事件達(dá) 130 起，是 2024 年全年的 1.9 倍，明確披露金額 96.68 億元，已超過(guò) 2024 年全年總額 89.33 億元。

如果計(jì)入未公開(kāi)金額的交易，總規(guī)模保守估計(jì)也已超 230 億元。

然而，商業(yè)化落地的現(xiàn)實(shí)困境與資本熱度形成鮮明反差。人形機(jī)器人訂單目前仍集中在教育、展示和政府類項(xiàng)目三大范疇，工業(yè)與家庭場(chǎng)景滲透緩慢。

在美國(guó)明星具身智能公司 Physical Intelligence 與紅點(diǎn)創(chuàng)投的萬(wàn)字對(duì)談中，研究者表明了落地難的三大難關(guān)：復(fù)雜任務(wù)執(zhí)行能力、環(huán)境泛化能力與高可靠性性能。

其中最后一項(xiàng)「性能」成為當(dāng)前從實(shí)驗(yàn)室走向商用的最大障礙，「它們?nèi)越?jīng)常失敗，目前狀態(tài)更像是『演示就緒』而非『部署就緒』。」

而數(shù)據(jù)短缺，正是橫亙?cè)诩夹g(shù)理想與商業(yè)現(xiàn)實(shí)之間的「卡脖子」難題，主要體現(xiàn)在三方面：

「數(shù)據(jù)荒」嚴(yán)重：人形機(jī)器人發(fā)展僅約 5 年，有效數(shù)據(jù)積累遠(yuǎn)低于大語(yǔ)言模型所需的 PB 級(jí)規(guī)模。一個(gè)簡(jiǎn)單動(dòng)作如抓取杯子，需要 5000 次真實(shí)操作數(shù)據(jù)，而新場(chǎng)景往往需要從零積累，形成「現(xiàn)實(shí)鴻溝」。

采集成本高企：真實(shí)世界訓(xùn)練中，機(jī)器人每 1000 次動(dòng)作調(diào)試的成本高達(dá)數(shù)十萬(wàn)元，且需高精度動(dòng)捕設(shè)備和專業(yè)操作員。多傳感器時(shí)序?qū)R要求毫秒級(jí)精度，進(jìn)一步推高門檻。

「數(shù)據(jù)孤島」林立：企業(yè)將數(shù)據(jù)視為核心競(jìng)爭(zhēng)力，私有數(shù)據(jù)集封閉；開(kāi)源社區(qū)數(shù)據(jù)集又局限于簡(jiǎn)單任務(wù)，復(fù)雜場(chǎng)景數(shù)據(jù)稀缺且缺乏統(tǒng)一質(zhì)量標(biāo)準(zhǔn)。

數(shù)據(jù)困境的本質(zhì)源于物理世界的復(fù)雜性，與自動(dòng)駕駛不同，機(jī)器人需主動(dòng)與環(huán)境發(fā)生接觸，而接觸使問(wèn)題難度指數(shù)級(jí)上升，當(dāng)前行業(yè)正探索兩條破局路徑，真機(jī)數(shù)據(jù)采集和仿真數(shù)據(jù)合成。

真機(jī)數(shù)據(jù)派以智元機(jī)器人為代表，其建立了百萬(wàn)級(jí)真機(jī)數(shù)據(jù)集 AgiBot World，覆蓋家居、餐飲、工業(yè)、商超和辦公五種真實(shí)場(chǎng)景。

仿真數(shù)據(jù)派則是通過(guò)算法生成合成數(shù)據(jù)，降低采集成本，目前呈現(xiàn)多元化格局，包括物理仿真、視頻遷移、空間重建等。

將合成數(shù)據(jù)拆解，可以分為場(chǎng)景生成與模擬兩個(gè)關(guān)鍵部分。相比之下，豐富多樣的室內(nèi)空間生成已經(jīng)成為系統(tǒng)性能瓶頸，目前主要有兩種技術(shù)路徑。

一種是合成視頻+3D 重建，基于像素流驅(qū)動(dòng)，先生成視頻或圖像，再重建為點(diǎn)云或 mesh 等非結(jié)構(gòu)化 3D 數(shù)據(jù)，最終轉(zhuǎn)為結(jié)構(gòu)化語(yǔ)義模型，以群核科技、李飛飛 World Models 為代表。

另一種是 AIGC 直接合成 3D 數(shù)據(jù)，利用圖神經(jīng)網(wǎng)絡(luò)、擴(kuò)散模型、注意力機(jī)制等方法，直接合成結(jié)構(gòu)化空間數(shù)據(jù)以 ATISS、LEGO-NET 等為代表。

當(dāng)前，訓(xùn)練適應(yīng)復(fù)雜物理世界的智能體，亟需大量真實(shí)、可交互的三維環(huán)境數(shù)據(jù)作為基礎(chǔ)。

這恰恰是當(dāng)前的瓶頸——傳統(tǒng)仿真環(huán)境構(gòu)建成本高、效率低，而真實(shí)世界數(shù)據(jù)采集又極其困難。

智能體訓(xùn)練需要高質(zhì)量數(shù)據(jù)，尤其是能反映復(fù)雜空間關(guān)系、物理屬性和任務(wù)邏輯的三維空間數(shù)據(jù)。

現(xiàn)在 3D 圈正在探索新的數(shù)據(jù)獲取方式和呈現(xiàn)方式。其中，3D Gaussian Splatting 技術(shù)是其中的熱點(diǎn)，它能夠快速地從多視角圖像重建出高真實(shí)感、具備基礎(chǔ)物理屬性的動(dòng)態(tài) 3D 場(chǎng)景，其高效的數(shù)據(jù)生成能力和逼真的渲染效果為三維數(shù)據(jù)生產(chǎn)提供了新范式。

3D Gaussian Splatting 場(chǎng)景數(shù)據(jù)給機(jī)器人訓(xùn)練提供了新思路。這相當(dāng)于將前沿圖形學(xué)技術(shù)生成的高質(zhì)量、低成本、可編輯的三維動(dòng)態(tài)環(huán)境數(shù)據(jù)，直接「喂」給機(jī)器人學(xué)習(xí)算法，能大幅降低仿真環(huán)境構(gòu)建門檻，并提升訓(xùn)練數(shù)據(jù)的豐富性與真實(shí)性。

作為「杭州六小龍」之一的群核科技，正在進(jìn)行這條技術(shù)路線的探索。

3D 高斯語(yǔ)義數(shù)據(jù)集，為機(jī)器人裝上「空間大腦」

WAIC 開(kāi)幕前夕，群核科技旗下的空間智能平臺(tái) SpatialVerse 發(fā)布最新高質(zhì)量 3D 高斯語(yǔ)義數(shù)據(jù)集 InteriorGS，旨在為機(jī)器人和 AI 智能體提升空間感知能力。

InteriorGS 數(shù)據(jù)集包含 1000 個(gè) 3D 高斯語(yǔ)義場(chǎng)景，涵蓋超 80 種室內(nèi)環(huán)境，賦予智能體「空間大腦」，以提高其環(huán)境理解和交互能力，是全球首個(gè)適用于智能體自由運(yùn)動(dòng)的大規(guī)模 3D 數(shù)據(jù)集。

近年來(lái)，3D 高斯濺射憑借「掃描即可重建場(chǎng)景」的優(yōu)勢(shì)，已在文物保護(hù)、空間設(shè)計(jì)等領(lǐng)域落地使用。此次發(fā)布的 InteriorGS 數(shù)據(jù)集，首次將這一技術(shù)引入 AI 空間訓(xùn)練領(lǐng)域。

而 SpatialVerse 區(qū)別于傳統(tǒng) 3D 技術(shù)廠商的關(guān)鍵分水嶺，是稀缺的「重建-語(yǔ)義-仿真」全鏈路閉環(huán)能力。絕大多數(shù)廠商聚焦于單點(diǎn)突破，或精于 3D 重建算法，產(chǎn)出精美但無(wú)生命的靜態(tài)模型；或?qū)９ノ锢矸抡嬉妫瑓s缺乏高質(zhì)量、帶語(yǔ)義的輸入場(chǎng)景。

當(dāng)下，空間智能與具身智能發(fā)展存在兩大基礎(chǔ)性難題。

首先是高質(zhì)量、大規(guī)模且可交互的三維場(chǎng)景數(shù)據(jù)極度匱乏。這并不是指簡(jiǎn)單的數(shù)據(jù)量不足，而是指具備真實(shí)世界復(fù)雜性、支持智能體進(jìn)行感知、決策與行動(dòng)驗(yàn)證的沉浸式環(huán)境數(shù)據(jù)的稀缺。

其次是現(xiàn)有三維數(shù)據(jù)，包括時(shí)下熱門的 3D 高斯場(chǎng)景，普遍存在物理屬性的系統(tǒng)性缺失這個(gè)缺點(diǎn)。無(wú)論是靜態(tài)模型還是渲染模型，如果缺乏對(duì)重力、碰撞、材質(zhì)摩擦、物體運(yùn)動(dòng)狀態(tài)等物理規(guī)律的編碼，智能體便無(wú)法在其中學(xué)習(xí)推門、避障、抓取等依賴物理交互的基礎(chǔ)能力，訓(xùn)練價(jià)值會(huì)大打折扣。

面對(duì)這兩個(gè)行業(yè)痛點(diǎn)，群核科技依托其深耕室內(nèi)空間數(shù)字化積累的經(jīng)驗(yàn)，通過(guò) SpatialVerse 開(kāi)辟出一條具有獨(dú)家優(yōu)勢(shì)的道路：以難以復(fù)制的場(chǎng)景數(shù)據(jù)沉淀為起點(diǎn)，打通「重建-語(yǔ)義-仿真」全鏈路，構(gòu)建自增強(qiáng)的「數(shù)據(jù)飛輪」，最終打造空間智能基座平臺(tái)。

以酷家樂(lè)平臺(tái)為核心，群核科技構(gòu)建了全球規(guī)模最大、細(xì)節(jié)最豐富的室內(nèi)空間結(jié)構(gòu)化數(shù)據(jù)集 InteriorNet。這是少有的由可交互三維數(shù)據(jù)構(gòu)成的數(shù)據(jù)集，包含了大量真實(shí)戶型、精細(xì)化家具陳設(shè)、材質(zhì)紋理以及預(yù)設(shè)可交互邏輯，為智能體提供了近乎真實(shí)的虛擬訓(xùn)練場(chǎng)。

此前，谷歌與斯坦福在具身智能領(lǐng)域的重要論文《FireAct》中，就明確致謝了 SpatialVerse 提供的高質(zhì)量數(shù)據(jù)。

除此之外，群核科技也已形成了一個(gè)高效運(yùn)轉(zhuǎn)、自我強(qiáng)化的「數(shù)據(jù)飛輪」系統(tǒng)：

數(shù)據(jù)層：以 InteriorNet 為代表的海量可交互三維數(shù)據(jù)，提供初始燃料

模型層：以 SpatialLM 空間大模型為代表，基于海量數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練與精調(diào)，SpatialLM 擁有空間理解與推理能力，能從復(fù)雜場(chǎng)景中解析結(jié)構(gòu)、識(shí)別物體、理解關(guān)系。其開(kāi)源版本曾登頂 Hugging Face 趨勢(shì)榜前三。

工具層：以空間智能平臺(tái) SpatialVerse 為代表，將 SpatialLM 等模型的理解能力融入仿真平臺(tái)，使其能生成更智能、更符合物理規(guī)律的場(chǎng)景，或?yàn)楝F(xiàn)有場(chǎng)景動(dòng)態(tài)添加更豐富的語(yǔ)義與交互可能性。智能體在 SpatialVerse 中的訓(xùn)練行為數(shù)據(jù)，又能反饋回?cái)?shù)據(jù)層和模型層，用于優(yōu)化仿真規(guī)則、提升模型精度。

數(shù)據(jù)驅(qū)動(dòng)模型優(yōu)化，模型反哺工具迭代，工具產(chǎn)生新數(shù)據(jù)，以此形成一條成熟的閉環(huán)邏輯。

3D界的 ImageNet，加速 Sim2Real 進(jìn)化

有意思的是，WAIC 今年參展的機(jī)器人企業(yè)里，多數(shù)都已經(jīng)跟 SpatialVerse 達(dá)成合作，其中包括智元機(jī)器人、銀河通用等國(guó)內(nèi)具身智能頭部企業(yè)。在機(jī)器人現(xiàn)場(chǎng)花式整活的背后，藏著不少 SpatialVerse 的身影，比如給機(jī)器人學(xué)習(xí)搓麻將提供「仿真道場(chǎng)」。

不過(guò)，缺數(shù)據(jù)的不光是機(jī)器人，所有 AI 智能體都需要海量 3D 數(shù)據(jù)，來(lái)學(xué)習(xí)復(fù)雜的物理世界。

透過(guò)此次發(fā)布的 3D 高斯語(yǔ)義數(shù)據(jù)集，群核提供的不僅是一個(gè)新數(shù)據(jù)集，更代表了一種應(yīng)對(duì)空間智能核心挑戰(zhàn)的系統(tǒng)性解決方案。

SpatialVerse 目標(biāo)是成為空間智能領(lǐng)域的「ImageNet」——就像 ImageNet 推動(dòng)計(jì)算機(jī)視覺(jué)爆發(fā)一樣，為 AIGC、XR、具身智能等領(lǐng)域提供「數(shù)字道場(chǎng)」。

SpatialVerse 平臺(tái)作為空間智能基座，從「根技術(shù)」上屬于空間智能和物理 AI，天然可以驅(qū)動(dòng) XR 產(chǎn)業(yè)激活以及 AIGC 工作流革新。

XR 體驗(yàn)的核心在于構(gòu)建沉浸感、交互性強(qiáng)的虛擬、混合空間。SpatialVerse 的優(yōu)勢(shì)在于可以構(gòu)建高保真虛擬環(huán)境、錨定混合現(xiàn)實(shí)空間和提高物理交互可信度。

針對(duì) AIGC 領(lǐng)域，傳統(tǒng) 3D 內(nèi)容創(chuàng)作高度依賴專業(yè)人才與工具，而且存在效率低、成本高的情況。SpatialVerse 的海量高質(zhì)量空間數(shù)據(jù)與結(jié)構(gòu)化信息，可為生成式 AI 模型提供訓(xùn)練素材。

將其與 AIGC 技術(shù)結(jié)合，可實(shí)現(xiàn)自動(dòng)化 3D 場(chǎng)景、物體生成，物理可信的內(nèi)容仿真以及多模態(tài)內(nèi)容聯(lián)動(dòng)。

空間智能讓智能體「看見(jiàn)」并理解世界的幾何結(jié)構(gòu)；物理 AI 讓智能體「懂得」世界的運(yùn)行規(guī)則；具身智能讓智能體能夠利用對(duì)世界結(jié)構(gòu)和規(guī)則的理解，通過(guò)一個(gè)身體在真實(shí)環(huán)境中主動(dòng)交互、學(xué)習(xí)和完成任務(wù)。

SpatialVerse 的價(jià)值具體體現(xiàn)在，加速 Sim2Real 快速進(jìn)化，縮小「虛擬」與「現(xiàn)實(shí)」：

海量高保真預(yù)訓(xùn)練：SpatialVerse 提供涵蓋家居、商業(yè)、工業(yè)、城市等多元場(chǎng)景的海量、高精度空間與物理仿真數(shù)據(jù)，提升具身智能模型基礎(chǔ)的空間認(rèn)知與物理常識(shí)。

安全高效的空間交互訓(xùn)練場(chǎng)：在 SpatialVerse 構(gòu)建的虛擬環(huán)境中，智能體可以進(jìn)行無(wú)限次的任務(wù)嘗試與強(qiáng)化學(xué)習(xí)，在零風(fēng)險(xiǎn)、低成本下快速迭代優(yōu)化策略。

群核科技的下一步戰(zhàn)略核心是構(gòu)建開(kāi)放、繁榮的空間智能生態(tài)，并持續(xù)攻克未來(lái)挑戰(zhàn)。

通過(guò)吸引硬件廠商、算法開(kāi)發(fā)者和行業(yè)應(yīng)用伙伴參與，共同打造標(biāo)準(zhǔn)化的數(shù)據(jù)接口、工具鏈和解決方案庫(kù)，打造開(kāi)放平臺(tái)同時(shí)完善生態(tài)協(xié)作。

其次，持續(xù)提升仿真精度、探索多智能體協(xié)同仿真、強(qiáng)化 AI 在仿真環(huán)境中的主動(dòng)探索與元學(xué)習(xí)能力、優(yōu)化 Sim2Real 遷移效率，攻克技術(shù)深水區(qū)。在構(gòu)建龐大空間數(shù)據(jù)庫(kù)的同時(shí)，建立嚴(yán)格的數(shù)據(jù)隱私保護(hù)機(jī)制和空間數(shù)據(jù)使用的倫理規(guī)范。

其最終目標(biāo)是讓「理解物理世界」成為每一個(gè)智能體的基本能力。

無(wú)論是家中的服務(wù)機(jī)器人、工廠的物流機(jī)械臂、虛擬世界的數(shù)字人，還是手機(jī)里的 AR 助手，都能基于對(duì)空間結(jié)構(gòu)的精準(zhǔn)感知、對(duì)物理規(guī)則的深刻理解，實(shí)現(xiàn)從「感知環(huán)境-理解規(guī)則-創(chuàng)造價(jià)值」的閉環(huán)。

當(dāng)智能體真正獲得感知物理世界的能力，人機(jī)協(xié)同將邁入新階段。

在這場(chǎng)關(guān)乎未來(lái)的科技競(jìng)逐中，誰(shuí)能率先突破具身智能的「奇點(diǎn)」，誰(shuí)就將掌握智能時(shí)代的主導(dǎo)權(quán)。

原文標(biāo)題 : 具身智能“數(shù)據(jù)荒”，空間大腦來(lái)破局