世界模型: “造世界”可行,但不是具身智能要的未來

作者:Vincent
編輯:呂鑫燚
出品:先驗實驗室
從VLA到WAM,一場被高估的革命和被低估的進化。
過去半年,具身智能領域有兩場最熱鬧的輿論狂歡。一場屬于屏幕:從Sora到各類視頻生成模型接連秀出肌肉,一杯水傾倒漫開的細節、連續空間里的人物運動,讓 “AI再造現實” 的敘事沖上頂峰,“世界模型來了” 的驚呼此起彼伏。另一場屬于墓碑:英偉達首席研究科學家 Jim Fan用一張WAM(World Action Model)站在VLA(視覺 - 語言 - 動作模型)墓碑前的 meme圖,宣告 “VLA已死,世界模型萬歲”,直接將路線之爭推到臺前。(本文僅討論具身智能的世界模型)
兩場狂歡共享同一個核心詞:世界模型。
但吊詭的是,在具身智能領域越多人談論它,它的面目就越模糊,有人把生成逼真視頻叫世界模型,有人把機器人動作預演叫世界模型,有人把自動駕駛仿真環境也叫世界模型。同一個概念下,裝著完全不同的技術目標與商業訴求。
當下世界模型最大的危險,從來不是 “定義不清”,而是所有人都在拿它最容易展示、最容易制造傳播爆點的一面,定義它的全部價值。當 “造世界” 的炫技蓋過 “用世界” 的本質,世界模型正在被最會講故事的人,帶離它真正該去的地方:Physical AI的真實物理場景。
世界模型當然需要 “造世界” 的能力。沒有那些驚艷的生成演示,它不會如此快速地走進公眾與資本的視野。但對 Physical AI產業而言,生成一個世界,從來都只是問題的開始。世界最終要被控制、被驗證、被修正,最終成為機器行動前的預演空間、決策依據。視頻生成可以推開世界模型的大門,但替它走不完通向真實物理世界的路。
我們從不缺新概念與新敘事,具身智能一定會走出自己的通用之路。屆時,至于這條路叫VLA、叫WAM,還是別的什么名字,或許將根本不再重要。
畢竟,它已嵌入我們的生活。

還記得Sora嗎?
當年,OpenAI發布Sora時,報告標題就是“Video generation models as world simulators”,其宣布視頻生成模型有望成為通向“物理世界通用模擬器”的可行路徑。Sora彼時展示出的長視頻中,鏡頭運動、局部3D一致性和物體狀態保持能力,讓公眾第一次直觀感受到:AI似乎真的在學習 “構建一個世界”。相比文本和圖片,視頻天然貼合人類對 “世界” 的直覺感知 —— 有時間、有空間、有運動、有連續變化,很容易讓人產生 “模型已經掌握物理規律” 的錯覺。
這類能力天然適合發布會展示,也最容易吸引資本與媒體的注意力。久而久之,“視頻生成 = 世界模型” 成了很多人默認的認知入口。
這當然不是錯。在數字原生場景里,視頻生成類路線本就是高效的解法,而且已經涌現了非常多獨角獸公司。它們的產品在游戲行業能用于實時生成動態場景,既降低美術成本,又提升玩家自由度;航空航天、高端制造等高試錯成本領域,用它擴展測試邊界、豐富仿真場景,同樣有明確的商業價值。此時生成的 “世界” 不是給觀眾看的畫面,而是可交互、可試錯的模擬環境。
真正的誤讀發生在跨界之時,當世界模型碰到具身智能時,很多人默認,模型能生成一個連續逼真的數字世界,就等于它掌握了物理世界的理解、預測與行動能力。
北京智源人工智能研究院院長王仲遠對此的判斷一針見血:當前被廣泛當作世界模型代表的視頻生成技術,本質只是像素級的世界模擬。“視頻生成模型可以生成一群豬在天上和飛機一起飛,因為它的訓練數據里包含大量科幻電影內容,它的目標從來就不是還原真實物理世界的規律。”
一個經典的具身場景足以說明差距:抓杯子。模型能從不同視角生成外觀一致的杯子,這是視覺一致性,是它能從視頻數據中學到的;但伸手觸碰后,摩擦力有多大?材質能否承受對應的握力?杯子落在桌面上,是因為模型記住了 “杯子通常在桌上”,還是真正理解了重力、支撐力與接觸約束?復雜的力學響應、接觸后的狀態變化、真實物理定律的因果約束,都不是一段生成視頻能夠覆蓋的。當一輛橫著走的汽車被生成出來,還未經校驗就放進自動駕駛的訓練鏈條,真實物理世界遲早會給出慘痛的反噬。
換句話說,視頻生成是世界模型的一種表現形式,已經在很多場景落地,但絕不是具身智能要的世界模型,更不是 Physical AI 語境下的核心形態。用 “造世界” 的視覺效果去定義具身智能的世界模型,本質是拿數字世界的標尺,去丈量物理世界的問題。

“VLA已死,WAM接班” 是產業內部最流行的敘事。
過去兩年,VLA一直是具身智能的主流路徑。它沿用大語言模型的預訓練思路,通過海量遙操作數據建立 “感知 - 指令 - 動作” 的映射,讓機器人從生硬的重復動作,轉向理解自然語言、拆解復雜任務。產業內所有主流玩家,都曾以VLA為核心技術底座。
但VLA的短板也非常明確:本質是模仿學習帶來的記憶與映射,缺乏對物理規律的底層理解,一旦遇到數據里沒見過的新場景、新物體,泛化能力就會快速失效。Jim Fan提出的WAM路線,恰恰瞄準了這個痛點。它的核心邏輯是從 “語義理解” 轉向 “物理預測”:不再直接輸出動作,而是先預測未來的世界狀態,再反推動作序列,相當于讓機器人在行動前先在腦子里 “預演” 一遍后果,以此提升對陌生場景的適應能力。
于是 “顛覆論” 迅速發酵,VLA是過時的舊范式,世界模型才是具身智能的下一代答案。但在真實的產業實踐里,事情遠非 “非生即死” 這么簡單。
行業正在分化出兩條清晰的路線,背后是不同的技術哲學與商業訴求:
一條是硅谷主導的 “替代派”。以英偉達、Google DeepMind為代表,依托充足的算力與數據儲備,追求徹底的范式重構。英偉達在 Cosmos 3 中將語言、圖像、視頻、動作序列納入同一套 Physical AI 世界模型框架,試圖讓生成、仿真、動作預測不再是割裂模塊;Waymo與谷歌DeepMind合作推出的Waymo World Model,借助Genie 3模型能力,不只是用來生成罕見天氣、動物闖入等長尾場景,重點是讓這些場景受駕駛動作、道路布局和語言條件控制,用來測試自動駕駛系統在反事實情境下的反應。
這條路野心最大,也最符合 “革命敘事”,但門檻極高,是頭部巨頭的游戲。
另一條是國內更普遍的 “融合派”。絕大多數玩家沒有選擇推倒重來,而是將世界模型作為VLA的能力補集,嵌入現有架構之中。智平方在2026年5月發布了VLA具身大模型AlphaBrain。它借鑒人腦“大腦-小腦-軀干”的分工機制,通過“快慢系統”配合,將世界模型的“預演”能力內嵌進VLA架構內部——慢系統負責環境態勢感知與高層行為規劃,快系統負責精細傳感與快速反饋。智平方創始人郭彥東的判斷很直接:“世界模型和VLA一點都不沖突,本來就是一套技術路線的一個分支。如果想做更加長程的推理任務,就需要世界模型+VLA,或者把世界模型與VLA合并。”
銀河通用走得也很遠,他們今年4月發布的LDA-1B模型,在統一框架內同時進行策略學習、物理預測和視覺感知,首次在工業級10億參數規模上實現了世界模型與動作模型的統一,相關成果已入選機器人頂會RSS,模型權重與訓練代碼已開源。他們不糾結于“選VLA還是世界模型”,而是更為務實地讓預測與執行共享同一個模型,各取所長,各補所短。
在我們看來,“替代” 與 “融合” 沒有絕對的對錯,只是不同階段的不同選擇。VLA不會真的 “死亡”,世界模型也不是顛覆一切的革命,它補上的是 VLA最缺失的物理預測能力。二者的終局關系,更可能是分層協作,而非你死我活。真正決定路線勝負的,從來不是概念夠不夠新潮,而是誰能先把數據、仿真、真機部署的鏈條跑通,讓機器人真正走進真實場景。

當概念熱度跑在技術落地前面,泡沫幾乎是必然產物。眼下的世界模型賽道,至少已經浮現出三重值得警惕的泡沫。
第一重是定義泡沫。今天的 “世界模型” 已經成了一個什么都能往里裝的筐。Yann LeCun認為它是抽象層的世界狀態預測,李飛飛將其定義為可交互的3D空間表征,英偉達把它定位成物理AI生成式模擬器,創業公司里有人拿視頻生成湊數,有人把傳統仿真引擎換個名字就叫世界模型。國內宣稱布局世界模型的公司已有數十家,但彼此說的可能根本不是同一件事。當一個技術概念可以被無限解釋,它往往就失去了技術標尺的意義。定義泛化的背后,是融資需求與營銷敘事的共同推動,畢竟,叫 “世界模型”,總比叫 “視頻生成工具” 或 “仿真優化方案” 更值錢。
第二重是算力泡沫。世界模型的主流訓練路線,建立在海量視頻數據與超大算力的基礎之上,而這恰恰是英偉達的主場。黃仁勛在GTC大會上直言,到 2027 年Blackwell和Rubin芯片、以及其為具身智能模型等設計的配套系統至少給英偉達帶來1萬億美元收入。某種意義上,硅谷頭部玩家力推 “全模態通用世界模型” 路線,本身就與英偉達 “賣算力基建” 的商業邏輯高度契合。但這條路線的投入門檻對絕大多數公司而言堪稱無底洞,過去押注 VLA 的中小團隊,尚且難以承擔如此規模的沉沒成本,更不用說從零切入世界模型賽道。當所有人都在討論同一條高算力路線,卻很少有人算得清投入產出比,這本身就是泡沫的信號。
第三重也是最致命的,是落地泡沫。所有概念敘事最終都要回答同一個問題:它到底能不能提升真機表現?而現實是,仿真到真實的遷移鴻溝,不會因為模型名字從VLA換成WAM就自動消失。視頻里一個細微的穿模、反重力、邊界模糊,放到機器人訓練里就會固化成錯誤的物理認知;一個看起來合理但違背物理規律的預測,對真機的誤導甚至比不用模型訓練更嚴重。
螞蟻靈波首席科學家沈宇軍曾點出核心差異:數字世界的生成模型可以追求高清逼真,慢一點沒關系;但物理世界的模型,首要要求是快、穩、準,要能實時輸出反饋、支撐動作。很多團隊執著于在數字世界里把場景渲染得越來越真實,卻忽略了真實物理交互的數據才是最稀缺的資源。世界模型可以在仿真里跑出漂亮的指標,但只要還沒在工廠產線、物流倉庫、開放道路上驗證出真實價值,它就依然是實驗室里的技術探索,而非產業級的基礎設施。
那么,面向Physical AI或具身智能要的世界模型,到底應該是什么樣子?答案從來不在發布會的演示視頻里,而在真實場景的需求里。它的核心評價標準,從來不是 “生成的世界夠不夠逼真”,而是 “能不能幫機器更好地在物理世界里行動”,能不能降低試錯成本、能不能提升泛化能力、能不能嵌入真實的業務閉環。
從目前產業的實踐來看,真正走在正確方向上的玩家,都在做同一件事:讓世界模型從 “展示導向” 轉向 “任務導向”,換句話說,世界模型的終極形態,不是一個獨立的 “產品”,而是內嵌在各類物理系統中的基礎能力。它藏在自動駕駛的仿真后臺,藏在機器人的動作規劃模塊里,藏在工廠產線的預判系統中,默默完成預判、試錯、修正的工作。大多數時候,用戶甚至感知不到它的存在。
那才是世界模型的時代,當然它也可以不叫世界模型。
原文標題 : 世界模型: “造世界”可行,但不是具身智能要的未來
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 人形機器人“第一股”來了!宇樹科技即將上會
- 2 3000字深度|物理AI有何魔力?讓孫正義、黃仁勛、孫宇晨同時“上頭”
- 3 SpaceX計劃今日確定IPO條款,6月12日掛牌上市,AI業務成增長新引擎
- 4 深度 | 一天燒1億:第一次“Token大撤退”,來了
- 5 Agnes AI 發布三大模態核心模型:文本、圖像、視頻
- 6 騰訊云宣布調價:DeepSeek-V4降價97%
- 7 海清智元即將登陸港交所:收入大增利潤承壓,經營現金流惡化
- 8 SpaceX上市拒絕中港投資者:資本開啟地緣政治時代
- 9 2026上半年具身智能復盤,瘋狂融資潮背后誰才是“印鈔機”
- 10 支付寶推出全球首個Token Pay服務,AI時代的支付要變天了?


分享













