世界模型： “造世界”可行，但不是具身智能要的未來

2026-06-23 16:04

作者：Vincent

編輯：呂鑫燚

出品：先驗實驗室

從VLA到WAM，一場被高估的革命和被低估的進化。

過去半年，具身智能領域有兩場最熱鬧的輿論狂歡。一場屬于屏幕：從Sora到各類視頻生成模型接連秀出肌肉，一杯水傾倒漫開的細節、連續空間里的人物運動，讓 “AI再造現實” 的敘事沖上頂峰，“世界模型來了” 的驚呼此起彼伏。另一場屬于墓碑：英偉達首席研究科學家 Jim Fan用一張WAM（World Action Model）站在VLA（視覺 - 語言 - 動作模型）墓碑前的 meme圖，宣告 “VLA已死，世界模型萬歲”，直接將路線之爭推到臺前。（本文僅討論具身智能的世界模型）

兩場狂歡共享同一個核心詞：世界模型。

但吊詭的是，在具身智能領域越多人談論它，它的面目就越模糊，有人把生成逼真視頻叫世界模型，有人把機器人動作預演叫世界模型，有人把自動駕駛仿真環境也叫世界模型。同一個概念下，裝著完全不同的技術目標與商業訴求。

當下世界模型最大的危險，從來不是 “定義不清”，而是所有人都在拿它最容易展示、最容易制造傳播爆點的一面，定義它的全部價值。當 “造世界” 的炫技蓋過 “用世界” 的本質，世界模型正在被最會講故事的人，帶離它真正該去的地方：Physical AI的真實物理場景。

世界模型當然需要 “造世界” 的能力。沒有那些驚艷的生成演示，它不會如此快速地走進公眾與資本的視野。但對 Physical AI產業而言，生成一個世界，從來都只是問題的開始。世界最終要被控制、被驗證、被修正，最終成為機器行動前的預演空間、決策依據。視頻生成可以推開世界模型的大門，但替它走不完通向真實物理世界的路。

我們從不缺新概念與新敘事，具身智能一定會走出自己的通用之路。屆時，至于這條路叫VLA、叫WAM，還是別的什么名字，或許將根本不再重要。

畢竟，它已嵌入我們的生活。

還記得Sora嗎？

當年，OpenAI發布Sora時，報告標題就是“Video generation models as world simulators”，其宣布視頻生成模型有望成為通向“物理世界通用模擬器”的可行路徑。Sora彼時展示出的長視頻中，鏡頭運動、局部3D一致性和物體狀態保持能力，讓公眾第一次直觀感受到：AI似乎真的在學習 “構建一個世界”。相比文本和圖片，視頻天然貼合人類對 “世界” 的直覺感知 —— 有時間、有空間、有運動、有連續變化，很容易讓人產生 “模型已經掌握物理規律” 的錯覺。

這類能力天然適合發布會展示，也最容易吸引資本與媒體的注意力。久而久之，“視頻生成 = 世界模型” 成了很多人默認的認知入口。

這當然不是錯。在數字原生場景里，視頻生成類路線本就是高效的解法，而且已經涌現了非常多獨角獸公司。它們的產品在游戲行業能用于實時生成動態場景，既降低美術成本，又提升玩家自由度；航空航天、高端制造等高試錯成本領域，用它擴展測試邊界、豐富仿真場景，同樣有明確的商業價值。此時生成的 “世界” 不是給觀眾看的畫面，而是可交互、可試錯的模擬環境。

真正的誤讀發生在跨界之時，當世界模型碰到具身智能時，很多人默認，模型能生成一個連續逼真的數字世界，就等于它掌握了物理世界的理解、預測與行動能力。

北京智源人工智能研究院院長王仲遠對此的判斷一針見血：當前被廣泛當作世界模型代表的視頻生成技術，本質只是像素級的世界模擬。“視頻生成模型可以生成一群豬在天上和飛機一起飛，因為它的訓練數據里包含大量科幻電影內容，它的目標從來就不是還原真實物理世界的規律。”

一個經典的具身場景足以說明差距：抓杯子。模型能從不同視角生成外觀一致的杯子，這是視覺一致性，是它能從視頻數據中學到的；但伸手觸碰后，摩擦力有多大？材質能否承受對應的握力？杯子落在桌面上，是因為模型記住了 “杯子通常在桌上”，還是真正理解了重力、支撐力與接觸約束？復雜的力學響應、接觸后的狀態變化、真實物理定律的因果約束，都不是一段生成視頻能夠覆蓋的。當一輛橫著走的汽車被生成出來，還未經校驗就放進自動駕駛的訓練鏈條，真實物理世界遲早會給出慘痛的反噬。

換句話說，視頻生成是世界模型的一種表現形式，已經在很多場景落地，但絕不是具身智能要的世界模型，更不是 Physical AI 語境下的核心形態。用 “造世界” 的視覺效果去定義具身智能的世界模型，本質是拿數字世界的標尺，去丈量物理世界的問題。

“VLA已死，WAM接班” 是產業內部最流行的敘事。

過去兩年，VLA一直是具身智能的主流路徑。它沿用大語言模型的預訓練思路，通過海量遙操作數據建立 “感知 - 指令 - 動作” 的映射，讓機器人從生硬的重復動作，轉向理解自然語言、拆解復雜任務。產業內所有主流玩家，都曾以VLA為核心技術底座。

但VLA的短板也非常明確：本質是模仿學習帶來的記憶與映射，缺乏對物理規律的底層理解，一旦遇到數據里沒見過的新場景、新物體，泛化能力就會快速失效。Jim Fan提出的WAM路線，恰恰瞄準了這個痛點。它的核心邏輯是從 “語義理解” 轉向 “物理預測”：不再直接輸出動作，而是先預測未來的世界狀態，再反推動作序列，相當于讓機器人在行動前先在腦子里 “預演” 一遍后果，以此提升對陌生場景的適應能力。

于是 “顛覆論” 迅速發酵，VLA是過時的舊范式，世界模型才是具身智能的下一代答案。但在真實的產業實踐里，事情遠非 “非生即死” 這么簡單。

行業正在分化出兩條清晰的路線，背后是不同的技術哲學與商業訴求：

一條是硅谷主導的 “替代派”。以英偉達、Google DeepMind為代表，依托充足的算力與數據儲備，追求徹底的范式重構。英偉達在 Cosmos 3 中將語言、圖像、視頻、動作序列納入同一套 Physical AI 世界模型框架，試圖讓生成、仿真、動作預測不再是割裂模塊；Waymo與谷歌DeepMind合作推出的Waymo World Model，借助Genie 3模型能力，不只是用來生成罕見天氣、動物闖入等長尾場景，重點是讓這些場景受駕駛動作、道路布局和語言條件控制，用來測試自動駕駛系統在反事實情境下的反應。

這條路野心最大，也最符合 “革命敘事”，但門檻極高，是頭部巨頭的游戲。

另一條是國內更普遍的 “融合派”。絕大多數玩家沒有選擇推倒重來，而是將世界模型作為VLA的能力補集，嵌入現有架構之中。智平方在2026年5月發布了VLA具身大模型AlphaBrain。它借鑒人腦“大腦-小腦-軀干”的分工機制，通過“快慢系統”配合，將世界模型的“預演”能力內嵌進VLA架構內部——慢系統負責環境態勢感知與高層行為規劃，快系統負責精細傳感與快速反饋。智平方創始人郭彥東的判斷很直接：“世界模型和VLA一點都不沖突，本來就是一套技術路線的一個分支。如果想做更加長程的推理任務，就需要世界模型+VLA，或者把世界模型與VLA合并。”

銀河通用走得也很遠，他們今年4月發布的LDA-1B模型，在統一框架內同時進行策略學習、物理預測和視覺感知，首次在工業級10億參數規模上實現了世界模型與動作模型的統一，相關成果已入選機器人頂會RSS，模型權重與訓練代碼已開源。他們不糾結于“選VLA還是世界模型”，而是更為務實地讓預測與執行共享同一個模型，各取所長，各補所短。

在我們看來，“替代” 與 “融合” 沒有絕對的對錯，只是不同階段的不同選擇。VLA不會真的 “死亡”，世界模型也不是顛覆一切的革命，它補上的是 VLA最缺失的物理預測能力。二者的終局關系，更可能是分層協作，而非你死我活。真正決定路線勝負的，從來不是概念夠不夠新潮，而是誰能先把數據、仿真、真機部署的鏈條跑通，讓機器人真正走進真實場景。

當概念熱度跑在技術落地前面，泡沫幾乎是必然產物。眼下的世界模型賽道，至少已經浮現出三重值得警惕的泡沫。

第一重是定義泡沫。今天的 “世界模型” 已經成了一個什么都能往里裝的筐。Yann LeCun認為它是抽象層的世界狀態預測，李飛飛將其定義為可交互的3D空間表征，英偉達把它定位成物理AI生成式模擬器，創業公司里有人拿視頻生成湊數，有人把傳統仿真引擎換個名字就叫世界模型。國內宣稱布局世界模型的公司已有數十家，但彼此說的可能根本不是同一件事。當一個技術概念可以被無限解釋，它往往就失去了技術標尺的意義。定義泛化的背后，是融資需求與營銷敘事的共同推動，畢竟，叫 “世界模型”，總比叫 “視頻生成工具” 或 “仿真優化方案” 更值錢。

第二重是算力泡沫。世界模型的主流訓練路線，建立在海量視頻數據與超大算力的基礎之上，而這恰恰是英偉達的主場。黃仁勛在GTC大會上直言，到 2027 年Blackwell和Rubin芯片、以及其為具身智能模型等設計的配套系統至少給英偉達帶來1萬億美元收入。某種意義上，硅谷頭部玩家力推 “全模態通用世界模型” 路線，本身就與英偉達 “賣算力基建” 的商業邏輯高度契合。但這條路線的投入門檻對絕大多數公司而言堪稱無底洞，過去押注 VLA 的中小團隊，尚且難以承擔如此規模的沉沒成本，更不用說從零切入世界模型賽道。當所有人都在討論同一條高算力路線，卻很少有人算得清投入產出比，這本身就是泡沫的信號。

第三重也是最致命的，是落地泡沫。所有概念敘事最終都要回答同一個問題：它到底能不能提升真機表現？而現實是，仿真到真實的遷移鴻溝，不會因為模型名字從VLA換成WAM就自動消失。視頻里一個細微的穿模、反重力、邊界模糊，放到機器人訓練里就會固化成錯誤的物理認知；一個看起來合理但違背物理規律的預測，對真機的誤導甚至比不用模型訓練更嚴重。

螞蟻靈波首席科學家沈宇軍曾點出核心差異：數字世界的生成模型可以追求高清逼真，慢一點沒關系；但物理世界的模型，首要要求是快、穩、準，要能實時輸出反饋、支撐動作。很多團隊執著于在數字世界里把場景渲染得越來越真實，卻忽略了真實物理交互的數據才是最稀缺的資源。世界模型可以在仿真里跑出漂亮的指標，但只要還沒在工廠產線、物流倉庫、開放道路上驗證出真實價值，它就依然是實驗室里的技術探索，而非產業級的基礎設施。

那么，面向Physical AI或具身智能要的世界模型，到底應該是什么樣子？答案從來不在發布會的演示視頻里，而在真實場景的需求里。它的核心評價標準，從來不是 “生成的世界夠不夠逼真”，而是 “能不能幫機器更好地在物理世界里行動”，能不能降低試錯成本、能不能提升泛化能力、能不能嵌入真實的業務閉環。

從目前產業的實踐來看，真正走在正確方向上的玩家，都在做同一件事：讓世界模型從 “展示導向” 轉向 “任務導向”，換句話說，世界模型的終極形態，不是一個獨立的 “產品”，而是內嵌在各類物理系統中的基礎能力。它藏在自動駕駛的仿真后臺，藏在機器人的動作規劃模塊里，藏在工廠產線的預判系統中，默默完成預判、試錯、修正的工作。大多數時候，用戶甚至感知不到它的存在。

那才是世界模型的時代，當然它也可以不叫世界模型。

原文標題 : 世界模型： “造世界”可行，但不是具身智能要的未來