對話小馬智行樓天城：行業過去十年最大認知糾偏，是世界模型

2026-04-27 15:07

賽博汽車

關注

作者 | 章漣漪

編輯 | 邱鍇俊

“過去十年，自動駕駛行業最大的認知糾偏就是世界模型。”

4月24日，北京車展媒體日第一天，小馬智行宣布了兩大新產品動向：2027版Robotaxi成本降至23萬元以內、全球首款全車規全冗余L4級無人輕卡發布。與此同時，它還在技術上進行了迭代：世界模型1.0躍升至世界模型2.0，構建精度飛輪。

發布會后，創始人兼CTO樓天城坐下來跟媒體聊了起來。他說，2020年小馬智行就開始做世界模型，但當時被認為是另類，更多公司選擇采集真實數據做模仿學習。“今天所有人都在說世界模型，大家意識到人的不足，意識到人跟AI的配合應該怎么做。”

一個半小時的對話里，樓天城把世界模型2.0拆得很細。什么是“精度”？不是畫面逼真，而是概率分布。什么是“意圖層”？那是生成模型里可以制定的token，決定權在訓練方。

至于，L2的車跑在路上采集的海量數據對L4有沒有用？他說，過度依賴真實數據，甚至可能是負面的。高峰時段Robotaxi效率相對較低？他認為，這背后存在“雙標”，大家更不愿意接受無人車犯錯。

以下是樓天城在本次群訪中的對話實錄（略有刪減）。

Q、世界模型的精度是不是和真實世界越接近越好，它有沒有限制？

樓天城：世界模型精度最直接的表現，就是它訓練出來的AI司機表現的好壞，這就是判斷它精度的標準，本質確實是跟世界越接近越好。但是這個接近不光是極端場景能夠跟真實世界一樣，更多的是概率分布，就是一件事情出現的概率要和真實世界很接近。

還有大家的交互，開車是一個交互行為，互相之間擠一下車這種行為也要和真實世界很接近，這個我們叫精度高，是一個非常全面的定義。

其實2.0的本質是說這個世界模型精度有一些不太好的地方，人有的時候判斷不出來，但是AI可以做準確的判斷。比如說你的世界模型里其他車變道都太激進了，你應該稍微收一點，它能做出這樣的判斷，這是2.0日常工作的一部分，就是它自我判斷出哪里不好，然后改進。

它的限制其實也很明顯，比如說我要收集一下這個版本路上的情況，這件事情必須要人來做，因為它自己沒有辦法擁有這個車，不掌握車鑰匙，我要幫他做好這些測試，包括收集反饋的過程，他自己并沒有辦法完全完成，他是在人的輔助之下完成一些事。

這其實一開始對我有沖擊，但我已經接受很久了，各位可能還會有沖擊，就是說我們很多研發的關鍵部分是AI驅動的，它給我安排任務。當然這個更多只是在研發上，它需要在人的幫助下解決各種case，讓case跟實際情況完全一樣。它的上限至少我還沒有完全看到，它的上限是非常高的。

問：精度更多指什么？

樓天城：世界模型2.0強調的精度更多指：“世界模型1.0”的精度，即虛擬世界里面的駕駛環境能否跟真實世界一樣，比如其他車輛跟AI司機的交互是否真實。至于intention，這個是生成模型的中可以制定的token，決定權在訓練方。

Q：世界模型加了一個意圖層，這在架構方面是怎么做到的？

樓天城：意圖層指的是訓練過程當中的意圖層，而不是開車過程當中的意圖層，開車過程當中有在線強化學習，這也是新的技術，但是這個各家都會用一些，不是我們宣傳的主要內容，簡單來說是有的，但是亮點不在這。

我們的意圖層是一個生成型的意圖，因為在某些場景上，有很多其他的車、甚至是其他的人，我先強制說這些人、這些車是什么意圖，然后開始開。在這個場景當中，我可以窮舉所有其他物體的意圖組合，讓車在所有組合當中一個判斷，這個是我們世界模型做意圖層的關鍵。

這個好處有點像多元宇宙，就是人開車的時候我會對人周圍每個物體的意圖做一個判斷。但是其實我們自動駕駛車不是這樣開的，而是對所有的意圖組合做一個綜合評價，然后判斷怎么開。它腦子里會做組合，然后看哪些組合是我需要小心的，然后它去開，這也是它開的比人安全的另外一個表示。

但是有一點，這個意圖必須要在虛擬世界生成，因為我可以先生成意圖，然后反向說這個意圖下其他車要怎么開。

Q：如何理解“旁邊那輛車到底是要加塞還是讓行”這種模糊意圖的？

樓天城：可能要退一步。有3個模型，"車載模型"負責開車，"世界模型1.0"負責訓練"車載模型"，"世界模型2.0"負責驅動研發團隊改進"世界模型1.0"。理解和處理“旁邊那輛車到底是要加塞還是讓行”，指的是"車載模型"的能力。生成加塞或讓行用于訓練，是"世界模型1.0"的任務。"世界模型2.0"的任務是讓這個過程更符合實際道路上的情況。

Q：意圖是在訓練層，落到車端的執行層會有延遲嗎？

樓天城：車在執行的時候，只有車輛模型本身。它會以訓練時同樣的方式，估計出其他車的意圖分布，然后做出判斷。因為在訓練階段，系統也并不會被告知唯一確定的意圖，同樣是基于意圖分布來決策，所以兩者狀態是一致的。

我們覺得，意圖才是開車的更核心層面。人開車，其實就是靠意圖來決定怎么開，這一點大家根據日常開車習慣都能體會到。相比之下，語言并不是駕駛過程中最核心的東西。我相信很多年以后回過頭看，如果真的只能留下一個layer，那一定保留的是意圖層，而不是語言。因為人在開車的時候，并不會想著語言。—這也是意圖之所以重要的一個體現。意圖層本質上就是一個多元宇宙概念。

Q：如何看待，把稍大模型（幾千TOPS算力芯片）放車端，還是選擇小參數模型、用云端算力？

樓天城：我先拋開L4 和 L2 的差別，單說模型本身。對于自動駕駛來說，如果模型大小只差 3 到 5 倍，完全可以通過最頂尖的蒸餾技術，基本上做到看不出差別。大家覺得 DeepSeek 做得非常極致，它減少了 20 倍。也就是說，如果算力只差三五倍，本質上是一個“錢花在哪里”的問題，你是愿意多買芯片，還是愿意投入蒸餾。換句話說，你是選擇多招一些工程師把模型蒸餾好，還是索性把錢省下來直接買芯片。

如果真的差100 倍，那肯定有區別，因為蒸餾沒辦法蒸100 倍。算力差距在100倍這個量級上，會有質的差別；但如果只是三五倍，其實就是預算分配的問題。這個結論在各個領域都是如此。

Q：有用戶反饋，高峰時段Robotaxi效率相對低一些。這是一個技術問題還是其他？

樓天城：這正是我們過去半年到一年重點提升的方向。在上個季度財報中我們也提到，比如在廣州和深圳，單車盈利模型已經實現了轉正。這里最關鍵的一點是：在高峰期、市中心區域，用戶對車輛感到滿意，才愿意打我們的車。車輛的滿意度非常關鍵，因為它直接影響到單量，也就是大家愿不愿意選擇我們的車。這是我們近期最重要的提升方向之一。

簡單來說，這確實是一個需要技術攻克的點。最終在通行效率方面，不可能做到像安全性那樣遠超人類，基本上也就是達到差不多的水平，甚至有時會稍微差一點點。這是因為有一個因素，路上的人對無人車和有人車是存在“雙標”的，大家更不愿意接受無人車犯錯。因此無人車必須開得稍微謹慎一些，而這種謹慎可能會影響到通行效率。同樣一種開法，人開沒問題，但換成自動駕駛，可能就會被罵。所以效率確實會略微低一點，但不會低到讓大家感到不滿意。這也是為什么很多人都說能做自動駕駛、有幾輛車、能運營，但真實差距在商業層面就是巨大的差別。

Q：物理AI和自動駕駛差別？

樓天城：物理AI就是訓練具身的環境。目前具身相關的很多應用還處在早期階段，大家看到的很多機器人仍然停留在DEMO狀態。如果有一天它們要真正走向實際應用，具身同樣需要一個物理世界模型來進行訓練，最終也會發展到那一步。

你可以把自動駕駛看作最早期的具身應用之一，它更早地進入了應用世界模型的狀態。相比之下，具身的世界模型需要融入更多的物理定律。大家知道，自動駕駛只要保證車不發生碰撞就行，基本上不用太操心“撞了之后會怎樣”。但在具身場景中，物理接觸要復雜得多，而且明顯是多維度的。除了視覺，還包括聽覺等多種感知方式。因此，具身的發展需要更長時間，這也完全符合當前具身所處的發展階段。

Q：怎么看待英偉達年初開源了一個世界模型？

樓天城：世界模型也是不同的意思，世界模型也分為以生成為主的，以交互訓練為主和物理世界為主的，英偉達是生成為主的世界模型，而我們應用是用于訓練，所以我們不會直接買來用，但是有其他用于生成的人還是很有用的，還是因為它有不同的用途，它不是我們這一支的用途。

Q：越來越多了車企布局Robotaxi，他們會不會很快上量，會影響到小馬節奏嗎？

樓天城：首先，我們擁有多款車型也是平臺的一大優勢。同一套技術方案可以部署在不同車型上。大家也知道，Robotaxi 在不同地區會有一些本地化特點，比如本地用戶更傾向于乘坐本地品牌的車輛，這也是我們考慮的因素之一。

關于“量”的問題，確實現在有很多玩家開始進入 Robotaxi 市場。但從另一方面看，各家的技術路線其實很相似，大家都在提基于世界模型的強化學習，相信各位也聽過不少類似的說法。從發展路徑來看，大家走的也是傳統 Robotaxi 公司走過的路。換句話說，至少 L2 階段積累的經驗，并沒有為 L4 提供太多幫助。比如 L2 說有更多真實數據，但實際上，大家都在按照真正 L4 的發展路徑往前走。反過來說，即使是不做 L4 的公司，也可以走這條路。

另外，在當前L4 領域，真正決定能否大規模鋪開的關鍵是車的駕駛能力、AI能力以及安全性。造車的能力，我并不是說它容易，但從Knowhow 來看，它是一個相對更寬泛的領域。我認為造車本身可以通過合作來實現，造車能力并不是影響車隊規模能做多大的關鍵因素。

Q：它的關鍵因素是什么？

樓天城：真正決定能否部署大量車輛的關鍵，是車的AI駕駛能力以及安全性。而要提升安全駕駛能力，就必須走L4級別的強化學習，或者說世界模型這條技術路線。

大家都愿意往這個方向走，一方面說明行業得到了很多關注，但另一方面，所有玩家已有的積累其實幫不上太多忙，大家都要沿著這條路慢慢摸索。這是我們看到的趨勢。

換句話說，沒有任何道理能夠省略從0到1000之間的任何一個步驟。任何一家L4公司從0走到1000所必須經歷的所有階段，L2公司也全都得走一遍。

Q：Robotaxi什么時候能夠走進我們日常？

樓天城：這正是Robotaxi最有意義的特點。它和傳統APP、以及ChatGPT最大的不同在于，用戶的體驗需要通過物理接觸來完成。我說某個APP很好用，你打開網頁聊聊天就能感受到；但我說一輛車開得好不好，你必須真正坐上去體驗一下。這是所有物理世界應用的共性，并不會因為自動駕駛就有所不同。

這個特點帶來的結果，就像您提到的：占領用戶心智需要非常長的時間，不是一鋪開所有人就會立刻使用。所以我們才要一個一個城市去鋪，一步一步接觸用戶，這個過程是必須的。同時，這也意味著后來者想要進入這個領域，同樣需要經歷這個過程，無法像互聯網產品那樣一夜之間傳播到所有人面前。這是物理AI應用的一個典型特征，需要更長的時間來達到更大規模，但好處是一旦達到了，它的護城河也會更強。這本身就是它的特點。

我們所說的Robotaxi，都是指真正的無人駕駛。問題不在于你能不能生產出1000輛車，而是究竟有沒有本事做到幾百輛、幾千輛上路。根本還是在于你的車安全性夠不夠，放這么多車上路，能不能不出事故，能不能不被用戶和路人詬病，這才是關鍵。

Q：您還認為從底層技術來說L2和L4是不同的物種嗎？

樓天城：剛剛我是從產品角度來解釋的，說明了L2和L4在產品上的區別，以及L2做得好了反而容易出現的問題。下面我再從技術層面談談這兩者之間的差別。

技術上，大家只需要關注一點：很多人以為L2對L4的幫助，主要體現在數據上，L2車輛能采集大量真實數據，用來輔助L4。但問題也很明顯：到了L4后期，真正依賴的反而是虛擬數據、合成數據。在這種情況下，過度依賴真實數據反而可能帶來負面影響。這就導致L2積累的最關鍵優勢，其實幫助不到L4真正的進展。

如果你要做L4，就必須按照L4的方式，比如構建世界模型、做強化學習，把這些步驟完整走一遍。這一點上，任何一家公司來做，并沒有本質差別。

Q：小馬智行成立10年間，自動駕駛行業最大的認知糾偏是什么？

樓天城：我覺得核心就是世界模型。我們是2020年開始做世界模型的，第一次對外公開提到這件事是在2024年，中間那幾年因為疫情，并沒有說太多。當時我剛提出來的時候，很多人都覺得我像個異類——大家都在用采集真實數據做模仿學習，什么時候開始放棄模仿、轉向仿真，什么時候開始從模仿學習走向自我學習？但今天，已經沒有人再這么說了，所有人都在講世界模型。這也是越來越多行業外的同行愿意接納這個思路的過程，對大家幫助很大。

不過，這個過程對人的沖擊是很大的。你需要接受一件事：你作為一個老師教學生，教著教著，學生比你強了，你就不要再繼續“手把手”教了，最好的方式是創造一個環境、創造條件，讓學生自己去變好。這種認知上的轉變，對人是會有沖擊的。但這個行業很好，大家都比較開放，接受了這種沖擊，意識到人的局限性，也意識到人跟AI應該怎么配合。

說起來我也有些感慨，AI剛出現的時候，圖靈測試非常有名。圖靈測試的意思是一個人坐在中間，左右兩邊分別是一個AI和一個人，看他能不能分辨出哪邊是人、哪邊是AI。圖靈測試的本意是希望AI像人一樣。但我反過來想，如果AI超越了人類，那么圖靈測試其實應該能夠區分出AI和人，因為更好的那個是AI，更差的是人。這么多年過去，大家并沒有接受AI在很多方面能超越人類。但在自動駕駛這個領域，過去十年里，很多人接受了這件事。我對此非常感激，因為大家的心態確實很開放。今天圖靈測試其實是失效的——因為做得更好的那個，已經是AI，而不是人了。

Q：那就不能反過來嗎？

樓天城：人可以反過來判斷，就是說話突然之間會“腦抽”的是人，一直很有邏輯的是AI。今天大家跟聊天工具聊就會有感受，我問你一個什么問題，還不如問AI工具，這個現象很明顯。

Q：全車規、全冗余L4級無人駕駛輕卡的難點是什么？

樓天城：從根本上來講，我們意識到輕卡和Robotaxi之間存在很多相同之處。大家知道，我們所說的輕卡是指2到5噸級別的，不是那種非常小的車。輕卡實際運營的場景都是在正常的道路上，從集散地到集散地，這些道路條件與日常打車場景非常接近，走的是一樣的路，面臨一樣的要求，一樣的車流，一樣的下雨天，所有問題都高度相似。可以說，這是我們找到的、Robotaxi技術場景最好的延伸方向。兩者的難點和關鍵點，基本上是一致的。

至于車規和冗余的問題，是因為我們從Robotaxi的經驗中認識到：一臺車既然要在路上跑，大家對它的安全要求一定非常高，該做的事情都必須做到。所以我們決定一步到位，沒有選擇先做沒有冗余的版本去試錯，而是直接按照應有的安全標準來設計這款車。因此，輕卡可以說是很好地沿襲了小馬智行已有的優勢，是我們最直接的商業拓展方向。

Q：計劃怎么布局輕卡領域無人駕駛？

樓天城：提到無人物流車，我還是先從監管說起。現在物流車領域已經有了更加標準化的監管，最近也出臺了對物流車的相關管理規定，對什么樣的人可以上什么樣的道路，給出了更明確的要求。尤其是在物流行業，特別是城際物流，能夠上一定等級的快速路是非常重要的。這些車輛并不是走羊腸小道就能通行的，它們通常以40、60甚至80公里的時速在路面上運行。這就要求車輛本身是一輛足夠好的車，一輛正常人能開的車，也意味著它在穩定性、安全性驗證等各方面都必須通過標準。

因此，我們希望從具備車規級或符合標準的方式進入這個市場。我們也相信，隨著未來監管越來越嚴格、也越來越標準化，能夠合法開上這些道路的車輛，在整個運輸體系中會擁有更大的發揮空間。

Q：為什么沒有做更小的車？

樓天城：我們認為輕卡是最大的市場，我們也做過統計不同車型的數量，這個車其實是市場上運載量最大的，而且明顯比第二大很多。可能唯一能跟它比的就是卡車和Robotaxi。

Q：為什么現在布局Robovan？這一市場有沒有特殊技術問題需要解決？

樓天城：我們的Robotaxi和Robotruck在技術上有大約80%的共享部分。自動駕駛物流的共享比例只會更高，甚至可以說，絕大部分真正最難的部分都是共享的。那么最難的部分是什么呢？是路上的一些極端情況，比如突然的加塞、與周圍車輛的博弈、各種非常危險狀態的應對。這些難點跟開的是一輛轎車還是一輛大貨車，并沒有本質區別。核心難點都是共享的。正是因為我們看到了技術上的這種共享空間，所以才這樣去做。

另外，從商業角度來看，也有越來越多人開始相信這個故事。兩年前，很多人并不太相信這個方向，或者說不太相信它能帶來效率的提升。而今天，這是雙方互相推動、共同發展的一個過程。

Q：小馬智行新一代Robotaxi選擇用4顆Orin來等效1000TOPS的算力，而不是單顆的Thor-X為什么？

樓天城：關于算力芯片的問題，其實非常簡單。核心在于我們需要一個冗余系統。如果僅僅是一顆Thor 芯片，我會懷疑它是否構成一個完整的系統。因為自動駕駛本身是要求冗余的。

我們的方案是分成兩組，不是“2+2”，而是“3+1”。我們專門用一顆Orin芯片來做冗余，它的任務是當系統其他部分失效時，能夠保障最基本的安全，比如讓車輛穿過危險區域，安全地靠邊停車。因此，系統本身的獨立性非常重要。如果只用一顆Thor 芯片，一旦整顆芯片出了問題，系統就完全無法應對了。

當然，如果真的是單顆Thor-X芯片，那是另外一回事。但如果方案是一顆Thor加上一顆Orin，只是沒有把Orin單獨算出來，那也可以。不過，從技術角度來說，大家不會這樣去設計，我也沒有聽說過任何一家公司會用一顆Thor 加一顆 Orin 來做。這個層面的細節確實有點深了。

Q：四顆獨立芯片之間的通訊，相比單顆會不會受影響？

樓天城：這個很多工作能做好的話，能夠彌補這個缺陷。但是對方也不可能是一顆Thor，至少是兩顆Thor，但是如果說是兩顆Thor的話，那成本就非常高了。

Q：車端是什么架構，什么方案？

樓天城：首先我相信，車端各家基本都已經處于端到端的狀態了。如果不是端到端，也不好意思說自己是L4。單從高層面來看，彼此之間的差異其實已經不太明顯。因此，更多的不同點體現在訓練范式1.0和開發范式2.0上，這是主要的差別。所以我的重點也會放在那些能夠真正體現差異的地方。

說到車端的問題，剛才提到的意圖也是車端的一個特點，但它是得益于訓練范式1.0的不同所帶來的優勢。

如果單看車端的高層面，大家基本都已經實現了端到端，以Transformer為主。不過，很多訓練上的決策其實是由模型自己來完成的。雖然結構很多東西需要人來確認，但大量優化部分已經交給模型去做了。這種方法可以理解為“用模型來訓練模型”，比如先構建一個世界模型，再用它去訓練其他模型，其中的許多結構設計是由AI自主決定的，而不是人為設定的。

Q：圈內也有人把車端的模型叫做世界模型，怎么理解？

樓天城：我覺得這可能是一個誤解。確實存在某種在線的做法，但嚴格來說，那個東西是不是該叫世界模型，其實可以硬去那么叫。它更多體現的是一個Smart Agent的行為。因為世界模型除了和Smart Agent做交互之外，還需要包含評價的部分。但評價本身很難想象會放在車端，那樣會顯得很奇怪。

Q：世界模型的能力邊界在哪里？對未來路線選擇會有什么影響？

樓天城：技術路線本身也就是拿一個模型來開發，這已經是接下來的發展方向了。這件事不僅出現在自動駕駛領域，我們把它叫做Agent。現在很多領域已經在用Agent做研發，這已經是一種現實。所以用Agent做研發，就是自動駕駛接下來更加常見的技術路線。

至于能力邊界的問題，至少它已經證明了，Agent能夠超越由人來研發所達到的上限。但它自己的上限在哪里，目前AI還無法回答這個問題，我也只能去問AI本身。如果說有一天，它能做到虛擬世界和真實世界非常接近，并利用所有AI的能力進行訓練，那么在復雜場景下比人類高出很多，這一點是一定能做到的。但最終的上限在哪里，其實是應該由AI來回答的問題。

Q：從AI開車到AI評估開車，下一步會是AI來干什么？

樓天城：兩個方向。

第一是物理。物理世界中還有很多東西是AI尚未攻克的，尤其是真正理解物理世界的運作機制。今天我不太確定AI能不能在短時間內做到這一點。甚至如果有機會，我也愿意為此做一些貢獻，也就是通過AI的方式來理解物理世界究竟是如何運作的。這是一件非常有挑戰性的事情。

第二是，AI已經從“訓練模型”走向了“驅動研發”的階段。接下來，它能不能進一步去運行一個更大的團隊，或者運營一家公司，由AI來制定策略？再往后，它甚至有可能去管理一個社區。從AI發展的角度來看，有一種分級標準：Agent最開始是輔助人類完成工作，接著可以獨立完成某些任務，再進一步能夠自主創新。其實今天AI已經具備了一定的自主創新能力。下一個階段的關鍵，就是它能不能運行一個“社區”，也就是開始具備社會性能力。這會是AI發展的一個重要趨勢。

如果說大家會擔心人類有一天需要學會與AI共存，那其實就是在那個階段。到那時，人類確實需要認真思考：人和AI之間的關系到底是什么。

Q：怎么看待自動駕駛行業可能面臨著大模型公司的降維打擊這一說法？

樓天城：如果你指的是像OpenAI 這樣的大模型公司，這類東西的標準叫法其實是“基礎模型”，英文里并沒有“大模型”這個詞，只有基礎模型（Foundation Model）。它們其實都是自動駕駛公司進步的基礎，大家之間是合作關系。

但從另一個維度來看，真正要做到自動駕駛，遠不止有一個模型就夠了。首先，基礎模型本身本質上更像是Token 之間的“成語接龍”。在這個基礎模型之上，我們還需要完成很多后續工作，比如構建 Agent、做出產品、進行硬件適配、做好運營等等。這些都是在基礎模型的基礎上進一步完成的事情。因此，大家確實是合作關系。

即便你擁有一個非常完美的基礎模型，后面這些工作一樣也省不掉。簡單來說，如果只是一個模型，甚至任何新玩家進入這個市場影響也不會很大，或者說進入門檻依然很高。但如果說基礎模型越來越好，那確實會幫助到其他公司的進步，我們在這方面也得到了好處。所以說，大家更多是合作關系。自動駕駛不只是一個模型，而是一整套系統。

-END-

原文標題 : 對話小馬智行樓天城：行業過去十年最大認知糾偏，是世界模型