訂閱
糾錯
加入自媒體

具身智能,正在打一場“數據戰”

2026-03-02 13:54
星河頻率
關注

編者按:具身智能有三座大山需要跨越:模型、數據、量產。

模型決定能力上限,量產決定能否走向現實,而數據連接著二者,是目前最難補齊的一環。

無論模型多先進、硬件多復雜,具身智能能否真正學會如何在真實世界中行動,最終都取決于是否擁有高質量、可規模、可復用的數據作為底層燃料。

數據從何而來、如何生成、如何使用,正在深刻影響技術路線的選擇,也直接塑造著企業的商業化節奏,成為當下競爭中最關鍵的變量。

基于此,星河頻率特別策劃「具身智能數據專題」,系統拆解遙操作、仿真、人類視頻、UMI 等核心數據采集技術路徑,梳理代表性玩家的技術取舍與商業邏輯,觀察數據廠商如何參與構建這一輪具身智能的底層基礎設施。

我們將持續跟蹤這一核心領域的演進,剖析數據如何驅動智能進化,并探索行業突破瓶頸、構建協同生態的可能路徑。

作者 | 向欣

春晚過后,具身智能行業迎來了一波融資高峰。

智平方、千尋智能先后宣布融資超 10 億與近 20 億,估值均突破百億;自變量機器人最近也完成數億元融資,成為今年已披露融資中估值最高的具身公司。

舞臺上機器人的密集亮相點燃了資本市場,也改變了大眾的關注焦點。從機器人真厲害,變成了它什么時候能進我家?

但現實是,具身機器人仍無法進入真實生活場景。

問題的關鍵,已經不在「身體」。

春晚已經證明機器人的瞬時爆發、抗沖擊等硬件能力基本成熟。但機器人真正的瓶頸在「大腦」。

盡管模型層面不斷進步,但受限于數據規模與多樣性,泛化能力仍不足。

未來三年,真正拉開差距的,將是能持續、規;a出高質量數據的能力。

目前,具身智能數據領域已分化出四條主流技術路線,并由此形成了被稱為「具身數據四小龍」的市場格局:遙操作采集:智元機器人;仿真合成:銀河通用;人類操作視頻:它石智航;UMI:鹿明機器人。

需要說明的是,雖然劃分為了四條路線,但玩家們并不會只押注一個方案。

真實實踐中,多數公司都會組合使用多種數據來源,只是在資源配置與技術重心上有所側重,才逐漸形成了各自更具代表性的路徑。

一場圍繞具身數據的卡位戰,也就此拉開序幕。

質量派:遙操作,用成本換取真實度

在所有具身智能數據采集路徑中,通過遙操作獲得的數據,被普遍認為是最高質量的一類。

在整套數據體系中,遙操作是打基礎的高質量樣本來源,缺陷則是成本高,很難單獨支撐大規模數據供給。

這條路線可以視為是具身智能數據生產的「重工業模式」,拼的是資金耐力與工程組織能力。

所謂遙操作,是指由人類遠程操控機器人本體完成具體任務。常見方式包括 VR 設備、動作捕捉系統、主從機械臂以及外骨骼等。

特斯拉遙操作數據采集與仿真或視頻不同,遙操作發生在真實物理環境中,人類動作可以被完整映射到機器人執行層面,使機器人直接經歷現實世界的力學約束與環境干擾。

在這一過程中,遙操作設備不僅記錄下關節軌跡、力反饋、觸覺信息和視覺畫面,還同步保留了人類在復雜、不確定環境中的決策過程,包括如何判斷、取舍并不斷修正動作。

這等同于人類在現場「手把手」教機器人做事,精度高、信息密度大,也最接近真實可用能力。

正因如此,不少企業選擇以遙操作作為早期真機數據的核心來源,智元機器人是其中最具代表性的一家公司。

一方面,智元是國內較早系統性投入遙操作數據采集的企業,并率先將這一過程工業化。

2024 年 9 月,智元在上海啟用了一座面積超過 4000 平方米的數據采集工廠,復刻了家居、餐飲、工業、商超和辦公五類核心場景,配置 3000 多種真實物品,并支持上百臺機器人并行作業。

基于這一體系,智元在 2024 年 12 月開源了百萬級真機數據集 AgiBot World,成為當時全球規模最大的公開遙操作數據集之一。

AgiBot World 由 100 臺機器人執行、累計超過 100 萬條示范軌跡構成,總時長約 595 小時,覆蓋 80 余種家庭與工業操作任務。

據了解,智元的數據工廠目前日均可產出 3 萬至 5 萬條高質量數據,在規模與效率上均處于行業前列。

另一方面,遙操作還有著技術門檻,需要滿足高精度、低延遲的要求。

智元的遙操作技術也經過公開驗證。在智元精力 G2 的發布會上,北京的技術人員控制上海發布會現場的機器人精準射中飄動的氣球,操作延遲低于 10ms,軌跡復現精度達 99%。

從數據采集到使用數據訓練模型的過程中,還需要經歷數據上傳、清洗、標注等一系列流程。智元機器人很早就搭建起了一套數據處理的系統。

2024 年 8 月,其發布了具身智能數據系統 AIDEA,覆蓋從數據采集到模型部署、再到數據回傳的全鏈路;2025 年 4 月推出的 Genie Studio,則進一步打通了「數據采集—模型訓練—仿真評測—模型推理」的一體化流程,單機單日產能高達 1000 條,數據采集與使用效率顯著提升。

智元機器人的雄厚資本與量產經驗,也使得其在遙操作路線上,具備長線作戰的能力。

智元自 2023 年 2 月成立以來,以平均每 3 個月一輪的融資節奏快速崛起,目前已完成 11 輪融資,估值已攀升至 150 億元人民幣,2025 年出貨量達 5168 臺。

盡管遙操作數據質量極高,但其代價同樣明顯,體現為「高成本、低泛化」。

首先,成本極其高昂。

建立一個數據工廠,涉及多項巨額開支:硬件成本:高自由度機器人本體(單價普遍超 50 萬元)、精密動捕設備(單套數十萬元)是基礎投入;場景與人力成本:搭建逼真的物理場景需要場地、物料;操作和維護設備需要雇傭專業團隊,培訓周期長;時間與效率成本:數據采集速度受限于人工操作,難以爆發式增長。

僅僅是建設一個規;瘮祿S,都需要數千萬元乃至更高的前期投入,運營維護也是一筆不菲的支出。

此外,遙操作數據與具體機器人本體高度綁定。

由于動作映射、結構參數和控制接口存在差異,這類數據往往難以直接遷移到其他本體上使用,泛化能力受限。

綜合來看,遙操作是一條用高昂代價換取最高質量數據的路徑,能夠為企業訓練模型提供最扎實的地基。

但由于是一種重資產、重投入、重運營的路徑,也對企業的資金實力、工程化能力以及長期投入的耐力提出了極高要求。

這些現實約束,推動行業不斷尋找更低成本、更高效率的替代方案。

規模派:仿真&視頻,數據海量,存在遷移誤差

仿真數據與人類視頻數據,正在成為被寄予厚望的技術路徑。

兩條路線的共同特點是,不依賴大量真實機器人,成本更低、效率更高,規模極大。它們共同的缺陷則是不夠真實。

由于它們都不是機器人本體直接產生的數據,都存在從訓練環境到真實執行環境的遷移誤差,即「Sim-to-Real Gap」。

仿真數據,指的是通過物理仿真引擎,在虛擬環境中生成機器人與環境交互的數據。

仿真數據的優勢在于:單條數據成本更低、可規模化、環境高度可控、場景幾乎無限擴展。

在仿真環境中,機器人不需要真實硬件,也無需人工參與,只受算力和參數設定約束。

虛擬機器人可以 7×24 小時在仿真環境中訓練,場景參數、物理條件和任務難度都能被精確控制,非常適合進行大規模訓練與算法驗證。銀河通用是仿真合成數據路線的堅定支持者。

目前銀河通用約 90% 的訓練數據來自仿真合成。

團隊在這一方向持續投入多年,自研了一套完整的仿真數據生成管線,能夠在一周內生成 10 億級別的數據,數據生成效率是傳統真機采集的上千倍,單條數據成本僅為真實采集的 1/100。

基于這套數據生成方案,銀河通用聯合北京智源人工智能研究院等共同發布了全球首個端到端具身抓取基礎大模型 GraspVLA,其預訓練完全基于合成大數據,展現了七大卓越的泛化能力,包括高度、平面位置、物體類別、光照、干擾物、背景的泛化以及閉環能力。

銀河通用創始人王鶴認為,在人形機器人仍停留在千臺級出貨規模的現實下,真實數據的產出能力與自動駕駛動輒百萬級車隊所產生的數據量,存在數量級差距。

僅靠真機數據,難以支撐具身大模型所需的訓練規模,仿真因此成為補齊數據缺口的現實選擇。

但仿真數據也有局限性。

虛擬環境的狀態過于理想化,物理參數與感知反饋高度穩定;而現實世界充滿傳感器延遲、光照變化、硬件誤差等各類干擾。

模型在仿真中學到的往往是最優策略,但遷移到實體機器人時性能容易衰減。

同時,機器人本體的虛擬模型與實際硬件在關節精度、動力響應等方面的差異,也導致動作軌跡難以精確復現。

Agility Robotics 使用仿真數據訓練機器人如果要追求更高的真實度,讓仿真環境無限逼近物理世界,其成本優勢又會開始動搖。

高精度物理建模、復雜場景重建和參數標定,對高端人才、算力資源與工程投入的要求不斷上升,成本甚至可能超過直接進行真實采集。

仿真數據的種種問題,歸根結底都源于虛擬環境的理想化,與真實世界復雜性之間難以消除的差距。

在多數人眼中,仿真數據更適合作為探索與輔助工具,而難以獨立支撐機器人在真實場景中的性能上限。

于是,另一類更貼近現實的數據信息開始受到重視——人類視頻數據。

相比仿真,人類視頻更加貼近真實世界,保留了真實場景中的行為邏輯和任務流程。

人類視頻按照來源可分為兩類:一是場景極其豐富但缺乏標注的互聯網海量視頻;二是針對特定任務錄制的高質量示范視頻。

人類操作視頻的缺陷在于,視頻內信息不夠完整,單純的視覺信息不足以支撐精細操作。

如何在保持規模優勢的同時,引入更完整的動作與物理交互信息,成為這一路線能否真正落地的關鍵。

特斯拉、它石智航、逐際動力、千尋智能、Skild AI 等公司均在持續投入。

其中,它石智航給出了更加工程化、體系化的解法。它石提出了 Human-Centric 數據采集范式,核心思路是讓真實勞動者佩戴一套簡易的數據采集設備,在真實場景中自然完成工作。

它石自研了一套數據采集設備:SenseHub 數采套件,由輕便的采集手套(TARS Glove,包含五指、兩指兩個版本)與一個全景相機(TARS Vision)組成。

設備同步記錄視覺、動作與力觸覺信息,自動化數據引擎 TARS Datacore 會全程對數據進行自動標注,將數據拆解為機器人可理解的操作單元與任務邏輯。

這種方式實現了兩項突破:首先,數據源自真實的生產生活場景,而非人為搭建的實驗室環境;其次,成本結構大幅優化,采集成本降至遙操作的 1/100。

基于這一系列數據采集系統,它石智航僅用幾個月,就收集了超過 10 萬條以上的真實人類操作視頻,并將其整理開源為 WIYH 數據集,并部分開源。

已開源的 WIYH 數據集包含 40 余種任務類型、100 多種人類技能,覆蓋了含 520 余種真實物品,真實還原商超、酒店、餐飲、工業、辦公、家居等多行業的 10 種核心場景全鏈路任務。

依托該數據集訓練的 AWE2.0 模型,已能使機器人完成刺繡等高難度精細動作。

盡管人類視頻極大擴展了數據規模,但它始終存在幾項難以回避的限制。

一是純視覺信息難以還原完整物理交互數據;ヂ摼W人類視頻雖然規模大且豐富,但缺失力覺、觸感、關節狀態等關鍵控制變量,使模型對精細操作的理解存在先天不足。

二是數據噪聲。它石智航式的示范視頻雖然真實,但由于場景非結構化,存在大量的遮擋與冗余信息。這要求后端 AI 必須具備極強的感知與清洗能力,才能從雜亂的人類操作中提取出有效樣本。

總體而言,仿真與人類視頻的核心價值在于「規模」,但在物理精度與真實執行一致性上,仍需與高價值的真機數據互為補充。

平衡派:UMI 范式,在成本與質量之間求解

如果遙操作是重工業,仿真是自動化生產線,那么 UMI 更像是分布式采集網絡。它是行業找到的一種折中方案,既不依賴昂貴機器人本體,又能采集到足夠真實的操作數據,還具備規;瘽摿Α

UMI 它的特點是低成本、便攜、效率高、可規;⒉⑶遗c硬件解耦,可跨本體遷移。

目前其工程化優勢已經顯現,但真實落地效果仍需要更長周期、更廣泛的實踐支撐。

UMI 全稱是 Universal Manipulation Interface,即通用操作接口,是 2024 年斯坦福大學、哥倫比亞大學與豐田研究所聯合提出的低成本數據收集與策略學習框架。

在最初被提出時,UMI 的優點只是低成本與便攜。

其數據采集設備非常簡易,僅由手持夾爪、集成相機與 IMU 的傳感模塊、數據記錄系統三大部分組成,整套成本約 400 美元。

操作時,使用者佩戴設備,在真實世界完成任務,無需機器人本體參與。

真正讓 UMI 這一范式火起來的,是是美國具身智能公司 Generalist 與 Sunday Robotics 對 UMI 技術的應用,他們分別驗證了 UMI 技術路線的規模性與有效性。

Generalist 基于 UMI 范式,采集了 27 萬小時的數據,當前每周可采集約 1 萬小時數據,數據采集效率還在不斷上升,并在此基礎上訓練出具身基礎模型 GEN-0,實現了復雜、長時序操作任務的零樣本泛化。

Sunday Robotics 則是利用 UMI 范式采集的數據,訓練出了 ACT-1 模型,并做出一個極致的 demo。

其輪式機器人 Memo 能夠圍繞「清理桌面」的簡單指令,自主規劃并執行數十個連續任務,包括收納杯子、刀具、碗筷、清理垃圾。此外它還會疊襪子、使用手沖咖啡機,執行從填粉、壓粉到啟動萃取的完整流程。

值得注意的是,Sunday Robotics 的聯合創始人就是 UMI 的一作遲宬。

海外團隊驗證了 UMI 的可行性,而真正將這一路線推向工程化與規模復制的,是國內的鹿明機器人。鹿明機器人聯合創始人丁琰,是最早系統性研究 UMI 范式的研究者之一。

早在 2024 年初,他便啟動了相關項目,并在隨后主導研發了 FastUMI、FastUMI Pro,將原本偏科研的 UMI 升級為具備工程可用性的系統。

原始 UMI 存在兩個明顯限制:一是硬件綁定嚴重,只能適配特定夾爪和少數高端機械臂;二是數據處理流程冗長。

FastUMI 針對這兩點進行了系統性重構。通過統一的指尖套件,FastUMI 實現了數據與機器人本體的徹底解耦。

無論使用何種夾爪,只要安裝相同指尖模塊,機器人所「看到」的操作視角便可與人類采集時保持一致,使一份數據能夠復用于多種不同構型的機器人,大幅提升了數據通用性。

同時,FastUMI 將原本事后完成的軌跡計算,前置到采集階段,通過獨立的實時追蹤模塊,實現「數據采完即可使用」,顯著提升了效率與精度。

在此基礎上,鹿明進一步升級,推出了 FastUMI Pro,使其具備工業級部署能力。

與傳統遙操作相比,FastUMI Pro 將單條數據采集時間從約 50 秒縮短至 10 秒,效率提升 5 倍。

綜合人力與硬件成本后,FastUMI Pro 單位數據成本僅為遙操作的約 1/200。

鹿明設計了一套夾爪式采集設備,集成 RGB 魚眼相機,高精度深度相機,超高精度視覺里程計傳感器,高分辨率夾爪開合傳感器等,夾爪整體重量僅 600g,負載能力達 2kg,定位精度可達 1-3mm。

目前,鹿明已基于 FastUMI Pro 累積超過 1 萬小時數據,并完成了從采集、處理到模型訓練的完整閉環。最近,鹿明機器人還發布全球首款背包版 UMI 數采設備 FastUMI Pro(背包版),計劃在多個城市投放 1 萬臺背包版 FastUMI Pro 設備,開展系統性采集。

在丁琰看來,具身智能真正的壁壘,不只是采集方式,還在于那條冗長而復雜的數據 pipeline。數據處理、異常場景管理、質量控制與長期迭代經驗,本 身就是核心競爭力。

鹿明構建了六道數據檢測與校驗流程,使數據有效率從行業常見的約 70% 提升至 95% 以上。

經過一系列工程化升級,UMI 的優勢已不再局限于低成本、便攜,逐步擴展到精度高、效率高、可規;⒖蓮陀谩⒁约芭c硬件解耦的跨本體遷移能力。

需要說明的是,這里的「跨本體遷移」并不意味著 UMI 能夠適配所有機器人,而是指能夠在較短周期內完成對數十種不同構型機器人的適配。

鹿明機器人創始人喻超介紹,目前全球具身智能圈內有超過三分之二的頂尖團隊,正在使用 FastUMI Pro。

具身智能,需要萬億級數據

具身智能的競爭重心正在從本體參數轉向大腦智能,而機器人大腦的突破,最終繞不開數據供給。

可以預見,數據能力將會從競爭優勢,轉變為行業門檻。

無法持續產出高質量數據的企業,將很難進入下一階段的模型競賽;乜串斍熬呱碇悄艿臄祿w系,幾條技術路線各有邊界:遙操作的數據質量最高,最接近真實可用能力,但成本高、規模受限。

仿真數據可無限擴展,適合預訓練與探索,卻難以覆蓋真實世界的復雜噪聲。

人類視頻數據貼近現實、成本可控,但物理交互信息不完整。

UMI 則在成本、質量與規模之間取得平衡,不過其真實能力有待進一步檢驗。

因此,在真實實踐中,幾乎沒有公司押注單一路線。

千尋智能創始人韓峰濤直言,目前不存在一種數據類型可以獨立支撐具身大模型訓練,更合理的做法,是將不同數據用于不同階段。

智元在建設數據采集工廠的同時,也布局仿真路徑,開源仿真數據集 AgiBot Digital World,為模型提供仿真數據補充。

銀河通用則以仿真數據完成預訓練,再引入少量真機數據進行后訓練,降低虛實偏差。

它石智航創始人陳亦倫認為,具身智能真正可用,至少需要 1000 萬小時級別的數據量。

銀河通用團隊則判斷,若要實現跨任務、跨場景的泛化能力,所需數據規模可能達到萬億級別。

而現有具身智能數據集的數據總量僅幾十萬量級,且有效性受制于標準、硬件不統一。

深圳市人工智能與機器人研究院具身智能中心主任劉少山認為,數據困境的破解之道在于數據資產化與標準化,需要「三步走」:首先統一數據格式與接口,打破孤島實現對齊;其次將數據轉化為可評估、可定價的資產;最后建立共享與交易機制,讓數據在不同主體間流動。

在真正可用的人形機器人到來之前,具身智能的數據體系,注定是一場多路線并行、長期投入、不斷試錯的系統工程。

無論路線如何分化,數據都是所有具身智能能力得以成立的前提,其重要性必將在今年的競爭中被不斷放大。持續產出高質量數據的能力,會成為今年具身智能公司最突出的競爭力。

       原文標題 : 具身智能,正在打一場“數據戰”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號