具身智能終局是干活，但怎么才能干好活

2025-12-22 10:30

具身研習社

關注

作者：彭堃方

編輯：呂鑫燚

出品：具身研習社

具身智能的終局，必然指向“干活”。

這并非單一企業的片面判斷，而是產業確定性的方向。近日，波士頓動力副總裁Zack Jackowski 在公開訪談中系統性闡述了企業戰略轉型邏輯，從早年憑借 “病毒式跑酷傳播”，轉向構建適配場景的大小腦能力。

不可否認，跑酷、跳舞等高難度運控調試作為產業培育期的注意力錨點，具備初期市場啟蒙價值，但絕非產業演進的終極歸宿。作為在運控領域聞名遐邇的“古早網紅”，波士頓動力的轉舵向全行業釋放出明確信號：干活能力的構建，既是具身智能的未來方向，更是產業進階的必答題。

放眼全球產業實踐，頭部企業的布局已形成協同印證：特斯拉Optimus在自家超級工廠承擔電池模組分揀與裝配作業，Figure機器人進駐寶馬工廠開展汽車零部件裝配實訓，均以干活為核心錨點推進技術迭代。

國內產業脈絡同樣遵循這一邏輯，北京人形機器人憑借具身天工Ultra以全場唯一自主奔跑的方式斬獲人形機器人半程馬拉松賽事冠軍，通過極限場景驗證核心運控能力后，便迅速回歸干活；在人形機器人運動會中，不僅成為了首個全自主的人形機器人的百米“飛人”，更是在物料整理、搬運、酒店迎賓等場景賽事中斬獲1金3銀1銅的佳績，持續夯實場景適配基礎。

更關鍵的是，北京人形始終以“全自主、更好用”的干活場景為導向，貫穿技術落地全過程，在3D場景（Dangerous、Dirty、Dull）中，通過真實工況下的作業實踐驗證模型有效性，持續挖掘新質生產力價值。

從全球頭部企業的戰略布局與實踐路徑不難看出，具身智能的終極發展導向，必然指向干活能力的成熟落地。

當行業熱議人形機器人邁入萬億級市場爆發窗口期時，其核心破局點在于干活能力的實質性突破。唯有當人形機器人能在真實產業場景中創造可量化的商業價值與產業價值，才能推動產業從實驗室原型階段邁向規模化商業落地階段，真正激活萬億市場的增長潛力。

北京人形圍繞具身智能機器人“能干活，會干活”的核心訴求，破解了“單一場景落地”的瓶頸。其跨場景適配的背后，藏著技術路線的底層創新。

之所以能成為“多面手”，關鍵在于北京人形構建的具身“大小腦”：以WoW（我悟）世界模型與Pelican-VL（天鶘）多模態大模型構成的智能大腦為核心；搭配以XR-1模型為核心的具身操作“小腦”，通過大小腦協同，為具身天工、天軼等具身智能機器人賦予感知-決策-執行的完整能力閉環。

其中，“大腦”是支撐機器人自主決策的核心。WoW作為具身世界模型，能構建交互式虛擬世界，讓機器人在虛擬世界中實現“預測判斷和自我調試邏輯錯誤”，提前規避真實操作中的失誤；而Pelican-VL視覺語言模型則負責打通“看見”與“理解”的鏈路，使機器人能精準識別變形料箱、反光零部件等復雜目標，為操作提供決策依據。

具身大腦讓機器人知道該怎么做后，如何精準執行并輸出流暢動作則需具身小腦來完成。

XR-1是北京人形為機器人打造的具身“小腦”的核心，是目前國內首個且唯一一個通過具身智能國標測試的具身VLA大模型，能在多構型本體上精準完成多種場景下的多種任務。

具體來看，XR-1的核心優勢在于實現了“三跨”特性：

跨數據源學習，不僅能利用機器人真機和仿真數據進行訓練，甚至通過人類第一視角的視頻進行學習，解決各種應用場景數據稀缺的痛點；

跨模態對齊，通過獨創的統一視覺-運動編碼（UVMC）技術，用一套共享“詞典”翻譯視覺信息與動作指令，讓機器人形成某種本能反應；

跨本體控制，讓算法能適配雙足、輪式等不同構型、不同品牌的機器人。

從底層數據到指令再到適配，XR-1“三跨”解決了具身智能“由里到外”的痛點，當同一套模型能驅動不同機器人完成不同任務時，場景拓展成本將大幅降低。

XR-1的靈活性也源于其首創的結合數據的三段式訓練范式“先練內功再練招式”：

第一階段是依托海量自有多本體數據，結合互聯網人類操作視頻，不學習具體任務，只學習如何將復雜的視覺畫面與動作軌跡壓縮成一套統一的視覺-運動代碼字典。

第二階段是再用大規模跨機器人數據強化訓練，讓它理解物理世界的基本規律和通用操作規范。經過這一步，XR-1不再依賴具體場景的預設，而是能根據物理規律自主判斷動作。

第三階段針對特定場景用少量專項數據微調，讓其在具體崗位上更“專業”。

簡單來說就是模型兼具通用和專用，且不只是“照葫蘆畫瓢式”輸出動作，而是真正理解把一件事做對、干好活是意味著什么。

這不再是一個“有多少智能就有多少人工”的落地悖論，而是實打實的大規模部署。這種訓練范式帶來的領先性，在與行業頂尖模型的對比中尤為明顯。

北京人形將XR-1與當前世界先進的具身VLA模型（如PI0.5）在120項真實世界任務中測試，結果顯示XR-1的任務成功率全面領先，在部分任務上，成功率更是達到其他模型的2倍。此外，XR-1在具身天工2.0、UR、Franka等多種多構型的機器人本體上，都表現出了高成功率和強魯棒性。

XR-1的靈活性和泛化性離不開優質數據滋養，其數據養分為RoboMIND與ArtVIP。

其中，RoboMIND是一個大規模多構型機器人數據集與評測基準，旨在解決機器人訓練數據采集成本高昂、高質量數據稀缺的行業痛點。其最初版本于24年12月發布，目前累計下載量已超15萬。現在RoboMIND 2.0版本已升級至包含30萬條雙臂操作軌跡，覆蓋具身天工等6種機器人本體，并搭建了10余個場景、涵蓋739項任務，不僅為模型訓練提供了海量、多樣化的“實戰經驗”，其新增的1.2+萬條帶觸覺操作數據，更是為訓練更智能、更協作的機器人模型提供了關鍵養料。

當然，RoboMIND 2.0本身還有一創舉值得一提，即RoboMIND 2.0打通了虛實數據壁壘，將海量仿真數據與真機經驗深度熔鑄，使得模型性能大幅提升。據了解，在XR-1模型在數據調配中發現，當真機數據與仿真數據比例從1：0提升至1:5后，任務成功率平均提升超25%。

而RoboMIND中的仿真數據并非是習以為常的“抓取&放置”這類常規操作，它還包含了ArtVIP這類高保真，且針對復雜鉸接物體的操作數據。ArtVIP是北京人形與北京市建筑設計研究院聯合打造的高保真鉸接物體仿真資產庫，專注于攻克如轉椅、抽屜、冰箱等復雜靈巧操作難題。

通過極致還原物體的視覺外觀與物理特性，ArtVIP極大地縮小了Sim2Real的鴻溝，讓XR-1模型能在投入物理世界前，于虛擬空間中安全、高效地“預演”萬千復雜任務，錘煉出應對真實世界不確定性的強大泛化能力。目前其高保真數字孿生鉸接物品數量正持續增加至超1000個，是目前已開源的全球最精細的復雜鉸接物體仿真庫。

至此，一套“由ArtVIP高保真數據搭起可擴展的數據基礎，RoboMIND 2.0熔鑄仿真數據與真機數據，XR-1高效學習”的具身智能系統已經完備。在數據集的優質養分和靈活的具身“小腦”支撐下，具身天工2.0已經能做出點新東西。例如，在昏暗的酒吧環境中，無懼光照泛化，精準理解測試員的自然語言表達，再識別桌面不同的酒，拿起杯子倒酒后穩穩遞給測試員手中，整個過程一氣呵成，頭部和身體軌跡互相配合，有了點人類的“呼吸感”。

如今，兩大數據資源與首個國標具身VLA模型 XR-1都已同步開源，北京人形用已被驗證好用的應用落地“工具箱”，為產業注入了新動力。

相較于在領獎臺上摘得賽事桂冠、刷新紀錄的高光時刻，北京人形在多元場景中干活顯得略微有些低調，或說更加務實。

這里還有個從產業需求中衍生出的小插曲，北京人形在運動會取得的勝利，并非是單純的比賽，而是企業特意布置的考題。

作為世界經濟論壇認證的“燈塔工廠”，福田康明斯一直尋求適配其復雜生產場景的人形機器人生產力，但始終未找到和其核心需求匹配的人形機器人生產力。為此，其在2025世界機器人大會場景挑戰賽中，針對性設置了料箱規整、物料分類等貼合工廠日常作業的實操難題，這些正是真實工作場景中高頻出現且亟待解決的痛點。

經過多輪技術方案的深度比對，北京人形憑借對產業場景需求的深度解構與技術方案的精準適配，最終成為福田康明斯的合作方。

如今在福田康明斯昌平工廠，北京人形的具身天工2.0與天軼2.0在福田康明斯進入實訓，其中，天軼2.0能高效率完成物料轉運作業，面對使用3-5年的變形周轉箱，可通過視覺感知系統實時動態調整抓取角度，實現非結構化環境下的自適應操作。

福田康明斯的實踐并非孤例，北京人形的場景落地版圖始終聚焦于3D場景。此類場景既是人類勞動力亟待解放的核心領域，也是具身智能實現價值轉化的關鍵陣地，機器人的落地干活并非簡單替代，而是針對性解決產業痛點的“靶向性賦能”。

在福田康明斯的生產車間，天軼機器人承接了長期彎腰搬運的重負荷作業，而這類工序曾是導致工人頸椎、腰椎損傷的職業病高發誘因，其高負載承載與升降調節能力從源頭降低了勞動傷害風險；

在中國電力科學院的特高壓試驗場站，具身天工機器人替代人工完成高壓設備巡檢，將人員觸電風險歸零，實現高危場景的無人化作業；

在李寧運動科學實驗室，天工機器人僅需2-3天即可完成人類需1個月的跑步運動數據采集工作，將研究人員從高強度、重復性的奔跑測試和數據記錄工作中解放；

需要強調的是，北京人形落地的多場景絕非簡單的業務鋪陳。

汽車工廠的物料搬運需要應對動態障礙物，高壓巡檢依賴高精度環境識別，制藥場景則對操作精度有嚴苛要求。每種任務都對應著截然不同的模型能力與技能組合。

這種落地價值遠超炫技類技術演示，北京人形的實踐正在印證具身智能的產業化核心邏輯：當機器人脫離表演性動作范疇，切入能夠直接降低勞動風險、提升生產效率、保障作業精度的具象化產業場景時，具身智能才真正邁入產業化落地的實質性階段，其技術價值也隨之轉化為可量化的產業價值與商業價值。

2025年末，行業正在悄然進入一個新的階段。故事依然重要，但不再是免檢通行證。企業要思考回答一個更現實的問題：能不能干活，值不值錢，能不能規模化復用。在這個節點上，北京人形給出的選擇并不張揚，卻足夠清晰。

從產業視角來看，北京人形提供的XR-1并不是一個單純為了排行榜而生的模型。相較于“刷新指標”，它更像是一套面向真實產業世界的通用能力基座。

一方面，北京人形通過開放包含“國標適配具身小腦大模型”和“多場景遷移方案”在內的核心能力，XR-1能夠賦能產業鏈上下游的合作伙伴，使其能快速適配嚴格的行業標準與安全要求，顯著縮短了產品研發和部署的周期。

另一方面，XR-1的開源也顯著降低了中小企業與高校的研發成本。具身智能的現實困境在于：重復造輪子的人太多，而真正把輪子裝到車上的人太少。當底層能力可以復用，有限的工程資源才能被投入到更具體的場景問題中。從這個角度看，XR-1的價值并不只是北京人形多了一個強大模型，而是整個產業少走了一段彎路。

而且必須承認，在產業早期階段，頂尖的模型能力與高質量的數據通常被企業視為最核心的競爭壁壘和商業機密，嚴加守護。然而，北京人形卻反其道而行之，不僅開源了XR-1核心算法，更將支撐其強大泛化能力的RoboMIND數據集與ArtVIP仿真資產庫一并開放。這種開放的姿態在當下顯得尤為珍貴。它意味著北京人形致力于將自身的技術成果轉化為整個行業發展的“公共基石”，而非獨享的“護城河”。其目標是通過協作創新，共同把機器人應用的“蛋糕”做大，而非在存量市場中內卷。

如果從具身智能的終局反觀現在北京人形的做法，它是一種更務實的下注方式。當基礎能力被不斷復用、檢驗和修正，真正的差異化才會逐漸從系統工程、場景理解與規模交付中生長出來。具身智能也才能從“被反復講述的未來”，變成“已經開始運轉的現實”。

在宏大敘事與踏實做事之間，北京人形選擇了后者。很多時候，產業真正的拐點，并不誕生于最響亮的口號中，而是在這種持續把活兒干下去的選擇里，悄然成形。

原文標題 : 具身智能終局是干活，但怎么才能干好活？