2026年，“AI新貴們”集體押注世界模型

2026-06-23 17:13

下一代AI公司未必只誕生在擁有最大參數、最多論文和最強算力的地方，也可能誕生在真實場景最密集、產業反饋最頻繁、工程迭代最快的地方。因為AI真正改變世界的方式，不是停留在屏幕里回答世界，而是進入產業現場，理解世界、模擬世界、行動于世界，并最終提升世界的運行效率。

作者|斗斗

編輯|皮爺

出品|產業家

AI似乎正在集體“逃離”純文本，全面挺進由重力、動量、幾何空間構成的真實物理世界。

1月8日，北京智源研究院發布《2026十大AI技術趨勢》，將世界模型列為通向AGI的重要共識方向，并提出從Next Token Prediction（預測下一個詞）向Next State Prediction（預測世界的下一個狀態）的范式遷移。

隨后幾個月里，產業界的動作密集得幾乎令人目不暇接。

首先是原本涌向具身智能的大額資金，開始對準有“世界模型”標簽的企業。

3月份，極佳視界完成約15億元融資，同月，極佳視界的GigaWorld-1在WorldArena評測中登頂，成為全球唯一綜合得分突破60分的具身世界模型，成績超過谷歌、英偉達和阿里。從今年3月份到如今，吸金35億，被市場稱為“國內首個世界模型獨角獸”；

除此之外，智平方（AI² Robotics）B 輪系列融資超 10 億元，估值過百億；具身基座公司千尋智能，2026 年開年三個月內完成四輪融資、吸金 45 億元；做世界模型 Fast-WAM 的星海圖，繼 2 月近 10 億元 B 輪后，4 月再拿近 20 億元 B+ 輪；

二級市場也表現出類似的“偏愛”。

4月17日，“物理 AI”新股群核科技，作為全球首家以空間智能為核心技術底座的上市公司，上市即獲得市場，上市首日大漲 144%；與此同時，生數科技兩個月累計融資26億元，投后估值超過120億元，并傳出最快于2026年啟動港股IPO的消息。

值得注意的是，這倆家企業的技術路線恰是通往世界模型的路徑之一。

各個領域的玩家們也蠢蠢欲動。4月16日，騰訊和阿里在同一天各自發布了一款世界模型產品。騰訊拿出的是開源的混元 3D 世界模型 2.0（HY-World 2.0），阿里端出的是主打實時交互的 HappyOyster。

車企的動作更加激進。吉利發布WAM世界行為模型，試圖統一智駕、智能座艙和底盤控制；華為乾崑公開拒絕 VLA，堅持其 WA（World Action）路線，車 BU 負責人直言"VLA 看著聰明，但不是自動駕駛的真正解"；Momenta 則把寶押在世界模型上。

機器人領域，英偉達Cosmos、DreamGen、DreamZero相繼推出，智元發布GE-2，星海圖也開始布局世界模型基礎設施。

海外同樣熱火朝天。

圖靈獎得主Yann LeCun，在執掌Meta AI多年后，于不久前選擇自立門戶，創立了專注于世界模型的 AMI Labs，并在2026年3月一舉斬獲了創紀錄的10.3億美元巨額種子輪融資。并放出話，“現有的LLM路線徹底錯了，單純靠預測文本，AI永遠無法觸及人類級別的智能。我們需要能理解物理現實的模型。”

李飛飛創立的World Labs于2月完成10億美元融資，累計融資額達到12.3億美元，估值約50億美元，首款商業產品Marble正式上線；就在最近，OpenAI也正式宣布進入機器人賽道。

一二級市場的資金、頂尖的科學家以及跨界巨頭，正以較高的密度向一個詞低頭，那就是世界模型。

而世界模型，又是為什么突然成為所有人的必爭之地？

一、Scaling Law 放慢，行業開始尋找語言之外的答案

AI 巨頭的新共識：只靠文本似乎到不了 AGI。

過去幾年，大語言模型遵循著一個簡單而有效的邏輯，那就是預測下一個詞。這種機制帶來了驚人的能力躍遷。模型不斷刷新認知能力邊界，也讓整個行業相信，只要繼續擴大參數、增加數據、堆積算力，AGI終將到來。

但2026年，一個越來越難以回避的問題出現了。那就是Scaling Law開始失靈。

以OpenAI為例，其在GPT-4.5系統卡中稱GPT-4.5是“largest and most knowledgeable model yet”，且“scales pre-training further”；但在SWE-bench Verified上，GPT-4.5 post-mitigation只有38%，只比GPT-4o高2%–7%，并且比Deep Research低30%。

這意味著，在其模型迭代中，“更大預訓練”仍有提升，但已不是最有效的能力來源。

與此同時，數據墻開始出現。互聯網高質量文本數據幾乎被采集殆盡。Epoch AI估計，可用于AI訓練的高質量、重復調整后的人類公共文本約300萬億token；若趨勢繼續，語言模型將在2026—2032年之間完全用盡這部分存量。

而即便擁有全世界最大的語料庫，其實也無法讓AI真正理解什么是重力、摩擦力、慣性和空間關系。

原因并不復雜，語料庫記錄的是人類如何描述世界，而不是物體如何在世界中運動。物理常識在文本中天然稀缺，因為人們通常不會反復寫下“杯子會掉下去”“輪子會滾動”“濕地會打滑”這樣的常識；這導致大型預訓練模型在這類物理常識題上能力較低。

多模態模型也沒有徹底解決這個問題。

BLINK基準顯示，人類幾乎一眼就能完成的深度、空間對應、多視角推理任務，GPT-4V平均只有51.26%，Gemini只有45.72%，離隨機猜測并不遠。

PhysBench進一步把測試擴展到摩擦、密度、張力、彈性、運動、碰撞、投擲和流體等真實物理維度；在75個視覺語言模型、10002條測試樣本上，研究者發現物理理解并不會隨著模型大小、訓練數據量或視頻幀數穩定提升。換言之，AI即使讀遍互聯網上關于“重力”的文字，仍可能不知道一個球為什么不能憑空消失、為什么物體不能穿墻、為什么運動必須連續。

這種局限性，最終體現為企業落地AI時最頭疼的問題，那就是幻覺。

一個事實是，在金融、醫療、工業等高容錯成本場景中，LLM依然無法建立穩定可靠的物理因果推理能力。這也是為什么許多企業級應用始終停留在輔助層，而無法成為核心決策系統的原因。

很明顯，從“語義理解”到“物理推理”之間，始終存在一道鴻溝。而這道鴻溝已經成為AI落地產業的第一攔路虎。

可以說這是世界模型被關注的底層原因，而更為直接的原因，其實是具身智能的發展已經到了瓶頸期。

作為AI進入真實世界，通往AGI的載體，該領域在近兩年可謂是香餑餑的存在，大量資金涌入，各個領域的玩家下場布局。這一局面下，市場和資本根本不會給他喘息的機會，其急需破局，尋找新的技術突破口。

而世界模型，給出了全新的解法，或者說一個新的技術敘事，讓企業繼續講好這個故事。

世界模型本質是一個“可學習的物理模擬器和渲染引擎”。AI不需要依靠文字，而是通過視覺、3D運動、甚至觸覺的“視覺思維鏈”，去預測如果采取行動A，物理環境會發生什么改變B。

可以說，LLM給AI帶來了人類積攢了幾千年的語言、邏輯與文明成果；而世界模型，則賦予了AI一雙能夠看懂時空、感受重力、理解現實的眼睛。是讓AI這門技術真正轉化為生產力的必經之路。

二、不同陣營的物理 AI 卡位戰，搶占下一份生產力入口

如果說上一階段的大模型競爭比的是文本的理解與生成，那么世界模型這一輪，競爭的核心已經演變為如何將AI帶進一個可計算、可交互、可訓練的物理世界。當前產業界對世界模型的集體押注，其實是各行各業在迫切尋找AI的下一份生產力入口。

然而必須承認，世界模型遠未成熟，它既非統一的技術路線，也非短期內能替代大語言模型的萬靈藥，甚至連定義都沒統一思想。

比如在最近的智源大會上，智源研究院院長王仲遠提出以語言為中心(LLM/VLM/VLA)、以像素為中心(視頻生成,如Sora的誤用源頭)、以三維結構為中心(3D重建)、以視覺表征為軸心的世界模型四大分類；

李飛飛及其World Labs團隊給出的分類方式則不同，在其發布文章中，提出了渲染器、模擬器、規劃器三類世界模型功能框架。

但即使如此，業內仍是處在一種由不同行業從各自優勢場景出發、向“理解物理世界”靠攏的產業初試階段。在這場由淺入深的遷徙中，不同背景的玩家正憑借各自的產業邏輯，欲想敲開世界模型的大門。

最先動起來的是視頻生成派。

這一派的底氣來自于手握全行業最強的視頻生成引擎。生數科技、阿里的 HappyOyster、快手可靈、字節 Seedance 以及海外的 Sora、Runway 構成了第一支力量。這種趨勢離不開AR-DiT 等實時交互技術的突破。過去，這類模型只能生成不可交互的“電影”，而隨著 AR-DiT 等實時交互技術的突破，視頻模型開始轉向動作驅動的逐幀生成，讓“文生視頻”往“可驅動的視頻世界”抬了一步。

不過，這一路線的隱患在于，它學到的是畫面連貫而非物理為真，背后缺乏真實的三維結構，時間一長極易穿幫。

空間智能玩家則針鋒相對，其主張“先重建，再理解”。

代表力量是李飛飛的 World Labs 和國內的群核科技。騰訊混元也憑借海量游戲數據切入這條路，將開放世界地圖的建模周期從數月壓到十幾分鐘，直接沖擊游戲工業。而群核科技則作為底層的“賣水人”，從十余年家裝軟件中沉淀出數億個物理正確的真實設計數據，為具身智能公司供給虛擬訓練場。

真正對世界模型表現出極度需求的，是具身智能領域。

要知道，機器人最大的痛點是真實數據匱乏，而世界模型恰好能讓機器人在“想象”里反復演練技能，再用少量真實數據微調。這也解釋了為何大額資金開始瘋狂對準有“世界模型”標簽的企業。

不過，這也是路線分歧最深的一支。比如極佳視界主張在虛擬空間里通過想象學技能；智元和星海圖致力于補齊仿真平臺等基礎設施；AMI Labs 試圖繞開像素、在抽象隱空間里預測未來；而千尋智能則明確反其道而行，放棄高能耗的逐幀預測，用更少參數做輕量化預訓練。目前，各條路線正走向技術融合，世界模型正在復制大語言模型的劇本，充當起具身智能的“預訓練”階段。

與機器人的長周期相比，車企與智駕廠商則把世界模型直接開上了路，成為了離錢最近的陣營。

智駕是最早握有海量真實路測數據和明確付費場景的領域。加上自動駕駛仿真已經是世界模型最成熟、且已落地的應用，用其批量合成罕見的危險場景做測試，效率比純堆路測高出一個數量級。

站在這個角度來看，視頻派從像素進、空間派從幾何進、具身派從動作進、車企從場景進，本質上是不同行業根據自身場景向物理AI收斂的幾個必然階梯。短期看創意設計最快變現，中期看智能駕駛拉開差距，長期看，世界模型的終局絕非某一個單一的產品，而是未來連接數據、仿真與行動的物理AI基礎設施。它是AI從數字世界走向物理世界時必須補上的關鍵中間層。

而當這些產業入口被逐一跑通，市場的競爭勢必會向產業鏈深處沉降。

三、下一代 AI 公司，理解世界、模擬世界、行動于世界

世界模型之所以重要，不只是因為它代表了一條新的模型路線，更因為它正在把AI的戰場從屏幕、文本和軟件界面，推向汽車、機器人、工廠、倉庫、建筑、城市和家庭。

大語言模型可以先在云端完成訓練，再通過API、辦公軟件、搜索、客服、代碼工具等入口擴散。它的主要戰場是數字世界。但世界模型的目標不是回答問題，而是預測、生成、干預和改造物理世界。它天然要進入汽車、機器人、工廠、倉庫、建筑、游戲引擎、空間設計軟件和XR設備。

這意味著，世界模型的競爭不會停留在誰的模型參數更大、誰的視頻更逼真、誰的榜單分數更高。真正的競爭會發生在產業鏈深處，比如誰擁有高質量物理數據，誰掌握仿真和評測平臺，誰能連接真實設備，誰能在真實場景中形成反饋閉環。

換句話說，世界模型是AI進入物理世界時必須重建的一套基礎設施。

過去的大模型產業棧相對清晰，底層是芯片和云，中間是基礎模型，上層是應用和Agent。但世界模型把這條鏈條拉長了。未來物理AI的技術棧，可能會變成物理數據采集、數據清洗與合成、世界表示層、世界基礎模型層、仿真與評測層、行動模型層、部署反饋層。

這條鏈條一旦形成，世界模型就不再只是“生成內容的AI”，而會成為物理AI時代的操作系統。它往下連接芯片、傳感器和機器人本體，往上連接Agent、行業軟件和企業業務系統；它一邊接收真實世界數據，一邊生成可訓練、可驗證、可部署的虛擬世界。它的位置，類似于大語言模型時代的基礎模型，但產業嵌入程度會更深，因為它必須和物理設備、工程流程、行業標準、安全驗證綁定在一起。

因此，世界模型的真正意義，其實是讓AI第一次具備系統性進入物理產業的可能。

這也讓中國公司在這一輪競爭中更值得關注。

在物理AI時代，競爭變量會發生變化。模型能力仍然重要，但場景密度、工程能力、供應鏈協同、本體制造、行業交付和客戶反饋同樣重要。

這恰恰是中國公司的優勢區間。中國擁有全球最完整的制造業體系、最復雜的城市交通場景、增長最快的機器人產業鏈、龐大的新能源車市場，以及大量真實空間和工業場景。這些都是世界模型最需要的物理數據來源和落地土壤。

換句話說，世界模型的競爭不會只發生在實驗室和云端，也會發生在車間、道路、倉庫、門店、住宅、工地和城市基礎設施中。誰能更快把模型接入這些場景，誰能更快獲得真實反饋，誰就有可能建立更強的工程閉環和數據飛輪。

這意味著，下一代AI公司未必只誕生在擁有最大參數、最多論文和最強算力的地方，也可能誕生在真實場景最密集、產業反饋最頻繁、工程迭代最快的地方。因為AI真正改變世界的方式，不是停留在屏幕里回答世界，而是進入產業現場，理解世界、模擬世界、行動于世界，并最終提升世界的運行效率。

原文標題 : 2026年，“AI新貴們”集體押注世界模型