訂閱
糾錯
加入自媒體

具身智能,是時候跳出“中國先研,國外帶火”的怪圈了

2026-02-02 11:44
星河頻率
關注

編者按:

讓 AI 像人類一樣思考并行動,曾是科幻小說中的終極幻想。如今,隨著通用大模型向物理世界的這一躍,具身智能大腦成為了科技競爭的絕對高地。

但技術的演進絕非一蹴而就的坦途,數據匱乏、泛化難題、甚至每一次微小的幻覺,都是橫亙在 Demo 與真實落地之間的鴻溝。

當端到端成為行業熱詞,當VLA模型不斷刷新上限,我們需要冷靜的思考:什么才是具身智能大腦的最佳架構?算力與數據的飛輪如何驅動物理智能的涌現?

在這個技術范式轉移的前夜,星河頻率特別策劃“具身智能大腦”系列文章,我們將深入演進中的技術范式,試圖穿透技術概念的表面熱潮,回歸系統與架構的本質思考,記錄智能體從有軀體到有智慧的進化歷程。

作者 | 毛心如

大多數人不知道,關于Scaling Law的原始研究來自百度,而不是OpenAI。

2014年,Anthropic 創始人 Dario Amodei在百度北美實驗室研究AI的這段時間,他摸到了大模型發展的圣杯——Scaling Law。

Dario Amodei離開百度后加入了OpenAI,最終Scaling Law在美國率先開花結果,催生了GPT-3.5。

但百度在2017年發表的《Deep Learning Scaling is Predictable, Empirically》論文里,就已經詳細討論了機器翻譯、語言建模等領域的Scaling現象。

當時百度的研究人員用 LSTM 代替了 Transformers,而且沒有將他們的發現命名為Laws。

后來,ChatGPT 3.5橫空出世,讓全球都認識了OpenAI,也讓LLM徹底開始了繁榮發展。

百度的這段往事,也成為了與Dario Amodei同期進入百度的MiniMax創始人閆俊杰心里的遺憾。

十年后的今天,當全球AI的聚光燈從大語言模型轉向更具挑戰的具身智能時,相似的歷史場景似乎正在重演。

中國研究者在關鍵架構上早有先見,卻常由海外團隊帶火并收獲掌聲。

但這一次,中國的具身智能玩家們已決心不再讓歷史重演。

從VLA模型、世界模型到強化學習,他們正在關鍵技術領域構建起完整的創新體系,以一種更系統、更深入的方式參與這場關于智能本質的競爭。

VLA,讓機器人擁有自主大腦

VLA模型的核心價值,是徹底打破了傳統機器人的被動困境,將機器人從只能完成專項任務的提線木偶,升級為具備自主理解、自主決策能力的智能體。

而中國團隊在這一領域的創新探索,其實也一直走在行業前列,卻被國外團隊的熱度掩蓋。

早年的機器人技術,核心依賴兩種驅動模式,固定程序編程和模塊化控制。

這兩種方式本質上都是人定義規則、機器人執行,機器人一直是被動的工具,缺乏了主動理解能力。

隨著LLM、VLM技術的爆發和突破實現了先理解后生成的范式突破,模型可以在大規模文本與圖像上學到語義、常識與推理能力。

基于此,一個技術直覺出現:既然能用同一種模型去理解語言和圖像,能不能把動作也放進同一套體系里,讓模型直接把看到、聽到的信息映射成要做什么。

所以VLA模型的崛起,本質上是LLM 與VLM技術溢出的必然結果。

2023年7月,谷歌DeepMind發布模型RT-2,第一次正式提出了VLA概念。

RT-2徹底改變了機器人編程的范式,不再需要工程師為每個任務編寫復雜的控制代碼,而是讓機器人通過觀察和學習,自主生成合適的動作。

盡管RT-2這類VLA可以處理一些基本任務,但還有兩個痛點,一是面對復雜任務,推理能力不足;二是在微調和推斷上,算力成本太高。

2024年6月,中國公司智平方聯合北大等機構,首次將狀態空間序列模型Mamba引入了VLA架構,推出了輕量化結構RoboMamba。

相比之前的VLA模型,RoboMamba不僅復雜度降低了,還顯著提升了長序列推理能力,直接實現了VLA模型效率與推理泛化能力的雙重提升。

這項論文當年入選了人工智能頂會NeurIPS 2024,也創造了中國具身公司在VLA領域國際舞臺的首次發聲。

如今,VLA模型已經成為具身智能大腦發展的主流路線,而在共識之下,許多玩家也開始了一些細分思路的分流。

在端到端VLA模型的這個思路下,入局玩家大體上被分成了兩派,一派是采取分層端到端,另一派是純粹的端到端。

前者的代表玩家有Figure AI、星動紀元、星海圖、星塵智能等,后者的代表玩家則是Physical Intelligence、自變量機器人。

這里需要厘清的是,分層屬于端到端的一種實現路徑,二者并不是對立的關系。

純粹的端到端路線的核心在于用統一或少數大模型直接從感知映射到動作決策。而分層端到端則是在內部采用系統1、系統2的快慢腦方式來拆分理解任務和執行任務。

最近新發布的Sharpa的CraftNet、Figure AI的Helix02,還在這一基礎上加入了系統0,進一步提升機器人操作的精度和準確度,讓VLA模型的落地更具實用性。

然而,在目前的具身智能競爭里,要問某項技術工作誰最具有代表性,最先被提到的總是Physical Intelligence、Figure AI、谷歌等國外公司。

但其實中國公司在這一塊同樣付出了不少的努力,但大多陷入了中國團隊先行落地成果,最后由外國團隊帶火的情況。

例如,分層端到端架構徹底開始火源于2025年2月Figure的Helix01發布,但早在2024年9月星動紀元就已經推出了HiRT快慢分層架構,并且這一架構也應用到其自研端到端原生機器人大模型 ERA-42 中。

值得一提的是,ERA-42也是國內首個實現一個具身大腦VLA控制機器人四肢及末端靈巧手的模型。

而自變量機器人的王潛也有相似的經歷。2024年10-11月其團隊開始研發 any-to-any 模型,實現多模態輸入輸出,還同期完成具身思維鏈(COT)研發。

這與2025年年中PI發布的π0.5模型技術方向也存在著高度一致。

這種中國先發、海外帶火的模式,恰似LLM遺憾的重演,也是中國具身智能玩家必須突破的困局。

世界模型,讓模型真正理解物理世界

當VLA賦予機器人實時感知和響應的能力后,一個新的問題浮現,機器人如何像人類一樣,對物理世界有深刻的理解和預測能力。

即便最先進的VLA模型,本質上也屬于開環執行模式。即根據當下的視覺信息和語言指令預測動作,卻無法預判這個動作會引發什么后果,一旦出現意外情況,就難以調整策略。

正因這個技術痛點,讓世界模型成為具身智能領域炙手可熱的研究方向,甚至有不少學者認為,世界模型是實現AGI的終局關鍵。

簡單來說,世界模型就是讓機器人擁有提前推演的能力。

它通過對環境的動態感知與規律學習,構建起一個虛擬的環境模型,能預測出做出某個動作后,環境會發生怎樣的變化,從而為機器人提供前瞻性的決策依據。

目前行業對世界模型尚無統一定義,不同團隊基于對認知的不同理解,走出了條截然不同的技術路線。

以楊立昆為首的研究團隊,認為真正的智能必須像人一樣去理解為什么。

楊立昆本人對于LLM能夠實現AGI一直存在質疑,認為語言載體存在根本性缺陷,所以他提出了基于V-JEPA架構的世界模型。

這類模型不依賴語言文本,而是通過學習視頻和空間數據來理解物理世界,同時具備規劃、推理和長效記憶的能力。

以李飛飛為首的World Labs則聚焦空間智能,讓AI理解物體在三維空間中的關系、遮擋、透視和運動規律。

他們開發了能夠從2D圖像推斷3D結構的系統,這條路線強調幾何一致性和物理合理性,對于機器人導航、操作等任務有直接的應用價值。

谷歌DeepMind的Genie則代表了另一種思路,訓練一個能從圖像和文本生成可交互虛擬世界的模型。

目前最新的Genie3通過給定一段文本描述,就能生成相應的3D環境,這種方法通過創造多元訓練環境,讓AI在其中學習物理規律和互動策略。

從技術實現的角度分析:

楊立昆的方向最理想化,但也最難落地;

李飛飛的方式成本高,3D生成也存在對物理原理的理解缺失;

谷歌Genie的思路目前可執行性最高,也少不了仿真模擬到現實的Gap。

在這場外國玩家引領的世界模型激戰里,中國玩家并不是坐在場邊圍觀,而是早早地開始進行可操作的工程執行。

2024年12月,星動紀元了發布融合世界模型的算法框架VPP,這也是全球首個將世界模型與VLA框架深度融合的算法。

星動紀元在VPP里選用的世界模型思路跟谷歌2024年推出的Genie1相似,主打用視頻訓練 AI 來理解世界,因為一直以來互聯網視頻都是機器人數據的重要來源。

通過視頻擴散模型的預測視覺表征作為機器人策略的輸入,星動紀元團隊首次在生成式視頻模型上實現通用機器人策略。

除了幫助機器人理解物理世界外,世界模型的引入也降低了機器人學習的難度,同時也能作為一種監督和提前預知的未來,觀察機器人的策略學習效果。

讓機器人直接去執行指令可能會損壞機器,同時整個檢測的復雜度也會上升,通過先驗經驗預判,如果后續操作會失敗,機器人會選擇停止策略。

2025年10月,星動紀元也聯合PI團隊發布論文Ctrl-World,首次提出可控生成式世界模型,突破了傳統世界模型的單視角幻覺、動作控制不精細、長時一致性差三大瓶頸。

對于當下而言,世界模型更像輔助VLA模型提升綜合性能的一項技術工具。

但隨著技術路徑的不斷收斂,VLA模型的不斷提升,包括科研成果的進一步落地,世界模型很有可能會成為繼VLA之后的具身智能新的主流范式。

強化學習,從模仿經驗到自主進化

當VLA模型解決了能動的問題,世界模型補齊了能預判的短板,具身智能的下一個核心訴求,就是能優化。

而強化學習,正是實現這一訴求的關鍵技術,也是當前具身智能研究中備受關注的熱點領域。

它與VLA、世界模型形成完美互補:

VLA賦予機器人感知與理解的能力

世界模型賦予機器人預測與想象的能力

強化學習賦予機器人增強學習與優化的能力

強化學習的核心邏輯并不復雜,本質上是模擬人類試錯學習的過程。

通過試錯-獎勵的閉環機制,讓機器人自主探索動作策略,最終讓模型逐漸收斂到最優策略。

這種學習模式的最大優勢的在于,無需依賴海量的專家演示數據,也無需人工設計動作規則,機器人能通過自主探索適應未知場景,甚至發現人類未曾想到的高效策略。

早在2016年,AlphaGo憑借強化學習擊敗人類圍棋世界冠軍,就讓這項技術名聲大噪,但在具身智能領域,強化學習的落地卻長期面臨瓶頸。

早期機器人的硬件成本高昂,強化學習的試錯過程容易導致設備損耗,且真實環境中的變量復雜,難以設計合理的獎勵函數,導致強化學習在機器人領域的應用多局限于虛擬仿真場景。

最近一年,隨著VLA和世界模型的發展,以及強化學習算法的優化,這項技術再次成為具身智能領域的研究熱點。

同時,這一輪強化學習的熱潮,也離不開強化學習權威、Physical Intelligence創始人Sergey Levine的推動。

他帶領團隊發布的一系列成果,不僅驗證了強化學習與VLA結合的潛力,更重塑了行業對具身智能訓練范式的認知。

Sergey Levine的研究重心之一是離線強化學習,即利用已有的歷史數據訓練模型,無需機器人在真實環境中實時試錯,從而避免了設備損耗和安全風險,大幅降低了訓練成本。

其團隊最新發布的π*0.6模型,展現了VLA模型性能的又一個新高,甚至在Robot Olympic完成了剝橘子、翻襪子、拿鑰匙開鎖等高難度動作。

但π*0.6也反映出強化學習領域的一個核心痛點,那就是獎勵函數的設計難度太高。

復雜任務中,單個動作的價值難以量化,且不同場景下的獎勵標準差異巨大,所以π*0.6模型不得不引入監督學習的范式輔助訓練,沒有完全發揮強化學習自主探索的優勢。

這一局限也讓工程師們意識到,離線強化學習雖成本可控、安全性高,卻難以應對訓練數據之外的未知場景,泛化能力不足,需要引入在線強化學習,通過實時環境反饋動態優化策略。

在這個技術發展階段,中國團隊的技術突破展現出了獨特的價值。

星動紀元2025年5月發布的iRe-VLA框架,實現了全球首次將在線強化學習融入VLA模型,為解決強化學習的核心痛點提供了突破性解法。

該框架通過算法優化,在保證實時反饋的同時,將試錯風險和設備損耗降低到可接受范圍,讓機器人能在真實環境中自主探索、動態優化動作策略。

更值得一提的是,iRe-VLA的核心思路,成為π*0.6模型強化學習模塊的重要參考來源之一。

LLM和具身在RL上的區別

在iRe-VLA發布同時期,中國玩家靈初智能發布了分層端到端VLA+強化學習算法模型Psi-R1,R1能夠讓機器人基于CoAT框架的自主推理系統,攻克了開放場景下的長程復雜任務挑戰。

2025年11月,由智元推出的,全球首個具身智能機器人真機強化學習技術正式投入上海一家智能設備產線,將機器人訓練周期從數周縮短至十幾分鐘,任務完成率達到100%。

中國玩家在強化學習這一波浪潮里,并不是追隨者,而是貢獻者,不僅有學術成果的實際影響力,更有早于國外玩家的協同的產業落地。

回顧大語言模型的發展,一個深刻的教訓是,早期洞察并不等于最終成功,從理論認識到產業領先之間,有著漫長的工程化、產品化和生態化之路。

如今,在具身智能這一被認為是物理AI下一個突破口的領域,中國團隊在各個關鍵技術點上已展現出與全球同行并跑的態勢。

具身智能的競爭,本質上是原創能力與落地效率的雙重競爭,更是話語權的競爭。

要拒絕LLM式遺憾,我們需要做好兩件事:

一是加強學術成果的市場化傳播,讓中國團隊的技術創新被行業看見、被市場認可,打破國外團隊對賽道話語權的壟斷。

二是加速技術落地迭代,通過真實場景的應用反饋優化技術,形成學術創新-產業落地-迭代升級的閉環,讓原創成果真正轉化為產品競爭力。

歷史不會簡單重復,但會押著相似的韻腳。但至少現在成功概率,中美玩家都是五五開。

       原文標題 : 具身智能,是時候跳出“中國先研,國外帶火”的怪圈了

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號