新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

2026年,“AI新貴們”集體押注世界模型

2026-06-23 17:13
產業家
關注

 

圖片

 

下一代AI公司未必只誕生在擁有最大參數、最多論文和最強算力的地方,也可能誕生在真實場景最密集、產業反饋最頻繁、工程迭代最快的地方。因為AI真正改變世界的方式,不是停留在屏幕里回答世界,而是進入產業現場,理解世界、模擬世界、行動于世界,并最終提升世界的運行效率。

作者|斗斗

編輯|皮爺

出品|產業家

AI似乎正在集體“逃離”純文本,全面挺進由重力、動量、幾何空間構成的真實物理世界。

1月8日,北京智源研究院發布《2026十大AI技術趨勢》,將世界模型列為通向AGI的重要共識方向,并提出從Next Token Prediction(預測下一個詞)向Next State Prediction(預測世界的下一個狀態)的范式遷移。

隨后幾個月里,產業界的動作密集得幾乎令人目不暇接。

首先是原本涌向具身智能的大額資金,開始對準有“世界模型”標簽的企業。

3月份,極佳視界完成約15億元融資,同月,極佳視界的GigaWorld-1在WorldArena評測中登頂,成為全球唯一綜合得分突破60分的具身世界模型,成績超過谷歌、英偉達和阿里。從今年3月份到如今,吸金35億,被市場稱為“國內首個世界模型獨角獸”;

圖片

除此之外,智平方(AI² Robotics)B 輪系列融資超 10 億元,估值過百億;具身基座公司千尋智能,2026 年開年三個月內完成四輪融資、吸金 45 億元;做世界模型 Fast-WAM 的星海圖,繼 2 月近 10 億元 B 輪后,4 月再拿近 20 億元 B+ 輪;

二級市場也表現出類似的“偏愛”。

4月17日,“物理 AI”新股群核科技,作為全球首家以空間智能為核心技術底座的上市公司,上市即獲得市場,上市首日大漲 144%;與此同時,生數科技兩個月累計融資26億元,投后估值超過120億元,并傳出最快于2026年啟動港股IPO的消息。

值得注意的是,這倆家企業的技術路線恰是通往世界模型的路徑之一。

各個領域的玩家們也蠢蠢欲動。4月16日,騰訊和阿里在同一天各自發布了一款世界模型產品。騰訊拿出的是開源的混元 3D 世界模型 2.0(HY-World 2.0),阿里端出的是主打實時交互的 HappyOyster。

車企的動作更加激進。吉利發布WAM世界行為模型,試圖統一智駕、智能座艙和底盤控制;華為乾崑公開拒絕 VLA,堅持其 WA(World Action)路線,車 BU 負責人直言"VLA 看著聰明,但不是自動駕駛的真正解";Momenta 則把寶押在世界模型上。

機器人領域,英偉達Cosmos、DreamGen、DreamZero相繼推出,智元發布GE-2,星海圖也開始布局世界模型基礎設施。

海外同樣熱火朝天。

圖靈獎得主Yann LeCun,在執掌Meta AI多年后,于不久前選擇自立門戶,創立了專注于世界模型的 AMI Labs,并在2026年3月一舉斬獲了創紀錄的10.3億美元巨額種子輪融資。并放出話,“現有的LLM路線徹底錯了,單純靠預測文本,AI永遠無法觸及人類級別的智能。我們需要能理解物理現實的模型。”

李飛飛創立的World Labs于2月完成10億美元融資,累計融資額達到12.3億美元,估值約50億美元,首款商業產品Marble正式上線;就在最近,OpenAI也正式宣布進入機器人賽道。

一二級市場的資金、頂尖的科學家以及跨界巨頭,正以較高的密度向一個詞低頭,那就是世界模型。

而世界模型,又是為什么突然成為所有人的必爭之地?

一、Scaling Law 放慢,行業開始尋找語言之外的答案

AI 巨頭的新共識:只靠文本似乎到不了 AGI。

過去幾年,大語言模型遵循著一個簡單而有效的邏輯,那就是預測下一個詞。這種機制帶來了驚人的能力躍遷。模型不斷刷新認知能力邊界,也讓整個行業相信,只要繼續擴大參數、增加數據、堆積算力,AGI終將到來。

但2026年,一個越來越難以回避的問題出現了。那就是Scaling Law開始失靈。

以OpenAI為例,其在GPT-4.5系統卡中稱GPT-4.5是“largest and most knowledgeable model yet”,且“scales pre-training further”;但在SWE-bench Verified上,GPT-4.5 post-mitigation只有38%,只比GPT-4o高2%–7%,并且比Deep Research低30%。

圖片

這意味著,在其模型迭代中,“更大預訓練”仍有提升,但已不是最有效的能力來源。 

與此同時,數據墻開始出現。互聯網高質量文本數據幾乎被采集殆盡。Epoch AI估計,可用于AI訓練的高質量、重復調整后的人類公共文本約300萬億token;若趨勢繼續,語言模型將在2026—2032年之間完全用盡這部分存量。

圖片

而即便擁有全世界最大的語料庫,其實也無法讓AI真正理解什么是重力、摩擦力、慣性和空間關系。

原因并不復雜,語料庫記錄的是人類如何描述世界,而不是物體如何在世界中運動。物理常識在文本中天然稀缺,因為人們通常不會反復寫下“杯子會掉下去”“輪子會滾動”“濕地會打滑”這樣的常識;這導致大型預訓練模型在這類物理常識題上能力較低。

多模態模型也沒有徹底解決這個問題。

BLINK基準顯示,人類幾乎一眼就能完成的深度、空間對應、多視角推理任務,GPT-4V平均只有51.26%,Gemini只有45.72%,離隨機猜測并不遠。

圖片

PhysBench進一步把測試擴展到摩擦、密度、張力、彈性、運動、碰撞、投擲和流體等真實物理維度;在75個視覺語言模型、10002條測試樣本上,研究者發現物理理解并不會隨著模型大小、訓練數據量或視頻幀數穩定提升。換言之,AI即使讀遍互聯網上關于“重力”的文字,仍可能不知道一個球為什么不能憑空消失、為什么物體不能穿墻、為什么運動必須連續。

這種局限性,最終體現為企業落地AI時最頭疼的問題,那就是幻覺。

一個事實是,在金融、醫療、工業等高容錯成本場景中,LLM依然無法建立穩定可靠的物理因果推理能力。這也是為什么許多企業級應用始終停留在輔助層,而無法成為核心決策系統的原因。

很明顯,從“語義理解”到“物理推理”之間,始終存在一道鴻溝。而這道鴻溝已經成為AI落地產業的第一攔路虎。

可以說這是世界模型被關注的底層原因,而更為直接的原因,其實是具身智能的發展已經到了瓶頸期。

作為AI進入真實世界,通往AGI的載體,該領域在近兩年可謂是香餑餑的存在,大量資金涌入,各個領域的玩家下場布局。這一局面下,市場和資本根本不會給他喘息的機會,其急需破局,尋找新的技術突破口。

而世界模型,給出了全新的解法,或者說一個新的技術敘事,讓企業繼續講好這個故事。

世界模型本質是一個“可學習的物理模擬器和渲染引擎”。AI不需要依靠文字,而是通過視覺、3D運動、甚至觸覺的“視覺思維鏈”,去預測如果采取行動A,物理環境會發生什么改變B。

可以說,LLM給AI帶來了人類積攢了幾千年的語言、邏輯與文明成果;而世界模型,則賦予了AI一雙能夠看懂時空、感受重力、理解現實的眼睛。是讓AI這門技術真正轉化為生產力的必經之路。

二、不同陣營的物理 AI 卡位戰,搶占下一份生產力入口

如果說上一階段的大模型競爭比的是文本的理解與生成,那么世界模型這一輪,競爭的核心已經演變為如何將AI帶進一個可計算、可交互、可訓練的物理世界。當前產業界對世界模型的集體押注,其實是各行各業在迫切尋找AI的下一份生產力入口。

然而必須承認,世界模型遠未成熟,它既非統一的技術路線,也非短期內能替代大語言模型的萬靈藥,甚至連定義都沒統一思想。

比如在最近的智源大會上,智源研究院院長王仲遠提出以語言為中心(LLM/VLM/VLA)、以像素為中心(視頻生成,如Sora的誤用源頭)、以三維結構為中心(3D重建)、以視覺表征為軸心的世界模型四大分類;

李飛飛及其World Labs團隊給出的分類方式則不同,在其發布文章中,提出了渲染器、模擬器、規劃器三類世界模型功能框架。

圖片

但即使如此,業內仍是處在一種由不同行業從各自優勢場景出發、向“理解物理世界”靠攏的產業初試階段。在這場由淺入深的遷徙中,不同背景的玩家正憑借各自的產業邏輯,欲想敲開世界模型的大門。

最先動起來的是視頻生成派。

這一派的底氣來自于手握全行業最強的視頻生成引擎。生數科技、阿里的 HappyOyster、快手可靈、字節 Seedance 以及海外的 Sora、Runway 構成了第一支力量。這種趨勢離不開AR-DiT 等實時交互技術的突破。過去,這類模型只能生成不可交互的“電影”,而隨著 AR-DiT 等實時交互技術的突破,視頻模型開始轉向動作驅動的逐幀生成,讓“文生視頻”往“可驅動的視頻世界”抬了一步。

不過,這一路線的隱患在于,它學到的是畫面連貫而非物理為真,背后缺乏真實的三維結構,時間一長極易穿幫。

空間智能玩家則針鋒相對,其主張“先重建,再理解”。

代表力量是李飛飛的 World Labs 和國內的群核科技。騰訊混元也憑借海量游戲數據切入這條路,將開放世界地圖的建模周期從數月壓到十幾分鐘,直接沖擊游戲工業。而群核科技則作為底層的“賣水人”,從十余年家裝軟件中沉淀出數億個物理正確的真實設計數據,為具身智能公司供給虛擬訓練場。

真正對世界模型表現出極度需求的,是具身智能領域。

要知道,機器人最大的痛點是真實數據匱乏,而世界模型恰好能讓機器人在“想象”里反復演練技能,再用少量真實數據微調。這也解釋了為何大額資金開始瘋狂對準有“世界模型”標簽的企業。

不過,這也是路線分歧最深的一支。比如極佳視界主張在虛擬空間里通過想象學技能;智元和星海圖致力于補齊仿真平臺等基礎設施;AMI Labs 試圖繞開像素、在抽象隱空間里預測未來;而千尋智能則明確反其道而行,放棄高能耗的逐幀預測,用更少參數做輕量化預訓練。目前,各條路線正走向技術融合,世界模型正在復制大語言模型的劇本,充當起具身智能的“預訓練”階段。

與機器人的長周期相比,車企與智駕廠商則把世界模型直接開上了路,成為了離錢最近的陣營。

智駕是最早握有海量真實路測數據和明確付費場景的領域。加上自動駕駛仿真已經是世界模型最成熟、且已落地的應用,用其批量合成罕見的危險場景做測試,效率比純堆路測高出一個數量級。

站在這個角度來看,視頻派從像素進、空間派從幾何進、具身派從動作進、車企從場景進,本質上是不同行業根據自身場景向物理AI收斂的幾個必然階梯。短期看創意設計最快變現,中期看智能駕駛拉開差距,長期看,世界模型的終局絕非某一個單一的產品,而是未來連接數據、仿真與行動的物理AI基礎設施。它是AI從數字世界走向物理世界時必須補上的關鍵中間層。

而當這些產業入口被逐一跑通,市場的競爭勢必會向產業鏈深處沉降。

三、下一代 AI 公司,理解世界、模擬世界、行動于世界

世界模型之所以重要,不只是因為它代表了一條新的模型路線,更因為它正在把AI的戰場從屏幕、文本和軟件界面,推向汽車、機器人、工廠、倉庫、建筑、城市和家庭。

大語言模型可以先在云端完成訓練,再通過API、辦公軟件、搜索、客服、代碼工具等入口擴散。它的主要戰場是數字世界。但世界模型的目標不是回答問題,而是預測、生成、干預和改造物理世界。它天然要進入汽車、機器人、工廠、倉庫、建筑、游戲引擎、空間設計軟件和XR設備。

這意味著,世界模型的競爭不會停留在誰的模型參數更大、誰的視頻更逼真、誰的榜單分數更高。真正的競爭會發生在產業鏈深處,比如誰擁有高質量物理數據,誰掌握仿真和評測平臺,誰能連接真實設備,誰能在真實場景中形成反饋閉環。

換句話說,世界模型是AI進入物理世界時必須重建的一套基礎設施。

過去的大模型產業棧相對清晰,底層是芯片和云,中間是基礎模型,上層是應用和Agent。但世界模型把這條鏈條拉長了。未來物理AI的技術棧,可能會變成物理數據采集、數據清洗與合成、世界表示層、世界基礎模型層、仿真與評測層、行動模型層、部署反饋層。

圖片

這條鏈條一旦形成,世界模型就不再只是“生成內容的AI”,而會成為物理AI時代的操作系統。它往下連接芯片、傳感器和機器人本體,往上連接Agent、行業軟件和企業業務系統;它一邊接收真實世界數據,一邊生成可訓練、可驗證、可部署的虛擬世界。它的位置,類似于大語言模型時代的基礎模型,但產業嵌入程度會更深,因為它必須和物理設備、工程流程、行業標準、安全驗證綁定在一起。

因此,世界模型的真正意義,其實是讓AI第一次具備系統性進入物理產業的可能。

這也讓中國公司在這一輪競爭中更值得關注。

在物理AI時代,競爭變量會發生變化。模型能力仍然重要,但場景密度、工程能力、供應鏈協同、本體制造、行業交付和客戶反饋同樣重要。

這恰恰是中國公司的優勢區間。中國擁有全球最完整的制造業體系、最復雜的城市交通場景、增長最快的機器人產業鏈、龐大的新能源車市場,以及大量真實空間和工業場景。這些都是世界模型最需要的物理數據來源和落地土壤。

換句話說,世界模型的競爭不會只發生在實驗室和云端,也會發生在車間、道路、倉庫、門店、住宅、工地和城市基礎設施中。誰能更快把模型接入這些場景,誰能更快獲得真實反饋,誰就有可能建立更強的工程閉環和數據飛輪。

這意味著,下一代AI公司未必只誕生在擁有最大參數、最多論文和最強算力的地方,也可能誕生在真實場景最密集、產業反饋最頻繁、工程迭代最快的地方。因為AI真正改變世界的方式,不是停留在屏幕里回答世界,而是進入產業現場,理解世界、模擬世界、行動于世界,并最終提升世界的運行效率。

       原文標題 : 2026年,“AI新貴們”集體押注世界模型

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號