侵權投訴
訂閱
糾錯
加入自媒體

對話小馬智行樓天城:行業過去十年最大認知糾偏,是世界模型

2026-04-27 15:07
賽博汽車
關注

作者 | 章漣漪

編輯 | 邱鍇俊

“過去十年,自動駕駛行業最大的認知糾偏就是世界模型。”

4月24日,北京車展媒體日第一天,小馬智行宣布了兩大新產品動向:2027版Robotaxi成本降至23萬元以內、全球首款全車規全冗余L4級無人輕卡發布。與此同時,它還在技術上進行了迭代:世界模型1.0躍升至世界模型2.0,構建精度飛輪。

發布會后,創始人兼CTO樓天城坐下來跟媒體聊了起來。他說,2020年小馬智行就開始做世界模型,但當時被認為是另類,更多公司選擇采集真實數據做模仿學習。“今天所有人都在說世界模型,大家意識到人的不足,意識到人跟AI的配合應該怎么做。”

一個半小時的對話里,樓天城把世界模型2.0拆得很細。什么是“精度”?不是畫面逼真,而是概率分布。什么是“意圖層”?那是生成模型里可以制定的token,決定權在訓練方。

至于,L2的車跑在路上采集的海量數據對L4有沒有用?他說,過度依賴真實數據,甚至可能是負面的。高峰時段Robotaxi效率相對較低?他認為,這背后存在“雙標”,大家更不愿意接受無人車犯錯。

以下是樓天城在本次群訪中的對話實錄(略有刪減)。

Q、世界模型的精度是不是和真實世界越接近越好,它有沒有限制?

樓天城:世界模型精度最直接的表現,就是它訓練出來的AI司機表現的好壞,這就是判斷它精度的標準,本質確實是跟世界越接近越好。但是這個接近不光是極端場景能夠跟真實世界一樣,更多的是概率分布,就是一件事情出現的概率要和真實世界很接近。

還有大家的交互,開車是一個交互行為,互相之間擠一下車這種行為也要和真實世界很接近,這個我們叫精度高,是一個非常全面的定義。

其實2.0的本質是說這個世界模型精度有一些不太好的地方,人有的時候判斷不出來,但是AI可以做準確的判斷。比如說你的世界模型里其他車變道都太激進了,你應該稍微收一點,它能做出這樣的判斷,這是2.0日常工作的一部分,就是它自我判斷出哪里不好,然后改進。

它的限制其實也很明顯,比如說我要收集一下這個版本路上的情況,這件事情必須要人來做,因為它自己沒有辦法擁有這個車,不掌握車鑰匙,我要幫他做好這些測試,包括收集反饋的過程,他自己并沒有辦法完全完成,他是在人的輔助之下完成一些事。

這其實一開始對我有沖擊,但我已經接受很久了,各位可能還會有沖擊,就是說我們很多研發的關鍵部分是AI驅動的,它給我安排任務。當然這個更多只是在研發上,它需要在人的幫助下解決各種case,讓case跟實際情況完全一樣。它的上限至少我還沒有完全看到,它的上限是非常高的。

問:精度更多指什么?

樓天城:世界模型2.0強調的精度更多指:“世界模型1.0”的精度,即虛擬世界里面的駕駛環境能否跟真實世界一樣,比如其他車輛跟AI司機的交互是否真實。至于intention,這個是生成模型的中可以制定的token,決定權在訓練方。

Q:世界模型加了一個意圖層,這在架構方面是怎么做到的?

樓天城:意圖層指的是訓練過程當中的意圖層,而不是開車過程當中的意圖層,開車過程當中有在線強化學習,這也是新的技術,但是這個各家都會用一些,不是我們宣傳的主要內容,簡單來說是有的,但是亮點不在這。

我們的意圖層是一個生成型的意圖,因為在某些場景上,有很多其他的車、甚至是其他的人,我先強制說這些人、這些車是什么意圖,然后開始開。在這個場景當中,我可以窮舉所有其他物體的意圖組合,讓車在所有組合當中一個判斷,這個是我們世界模型做意圖層的關鍵。

這個好處有點像多元宇宙,就是人開車的時候我會對人周圍每個物體的意圖做一個判斷。但是其實我們自動駕駛車不是這樣開的,而是對所有的意圖組合做一個綜合評價,然后判斷怎么開。它腦子里會做組合,然后看哪些組合是我需要小心的,然后它去開,這也是它開的比人安全的另外一個表示。

但是有一點,這個意圖必須要在虛擬世界生成,因為我可以先生成意圖,然后反向說這個意圖下其他車要怎么開。

Q:如何理解“旁邊那輛車到底是要加塞還是讓行”這種模糊意圖的?

樓天城:可能要退一步。有3個模型,"車載模型"負責開車,"世界模型1.0"負責訓練"車載模型","世界模型2.0"負責驅動研發團隊改進"世界模型1.0"。理解和處理“旁邊那輛車到底是要加塞還是讓行”,指的是"車載模型"的能力。生成加塞或讓行用于訓練,是"世界模型1.0"的任務。"世界模型2.0"的任務是讓這個過程更符合實際道路上的情況。

Q:意圖是在訓練層,落到車端的執行層會有延遲嗎?

樓天城:車在執行的時候,只有車輛模型本身。它會以訓練時同樣的方式,估計出其他車的意圖分布,然后做出判斷。因為在訓練階段,系統也并不會被告知唯一確定的意圖,同樣是基于意圖分布來決策,所以兩者狀態是一致的。

我們覺得,意圖才是開車的更核心層面。人開車,其實就是靠意圖來決定怎么開,這一點大家根據日常開車習慣都能體會到。相比之下,語言并不是駕駛過程中最核心的東西。我相信很多年以后回過頭看,如果真的只能留下一個layer,那一定保留的是意圖層,而不是語言。因為人在開車的時候,并不會想著語言。—這也是意圖之所以重要的一個體現。意圖層本質上就是一個多元宇宙概念。

Q:如何看待,把稍大模型(幾千TOPS算力芯片)放車端,還是選擇小參數模型、用云端算力?

樓天城:我先拋開L4 和 L2 的差別,單說模型本身。對于自動駕駛來說,如果模型大小只差 3 到 5 倍,完全可以通過最頂尖的蒸餾技術,基本上做到看不出差別。大家覺得 DeepSeek 做得非常極致,它減少了 20 倍。也就是說,如果算力只差三五倍,本質上是一個“錢花在哪里”的問題,你是愿意多買芯片,還是愿意投入蒸餾。換句話說,你是選擇多招一些工程師把模型蒸餾好,還是索性把錢省下來直接買芯片。

如果真的差100 倍,那肯定有區別,因為蒸餾沒辦法蒸100 倍。算力差距在100倍這個量級上,會有質的差別;但如果只是三五倍,其實就是預算分配的問題。這個結論在各個領域都是如此。

Q:有用戶反饋,高峰時段Robotaxi效率相對低一些。這是一個技術問題還是其他?

樓天城:這正是我們過去半年到一年重點提升的方向。在上個季度財報中我們也提到,比如在廣州和深圳,單車盈利模型已經實現了轉正。這里最關鍵的一點是:在高峰期、市中心區域,用戶對車輛感到滿意,才愿意打我們的車。車輛的滿意度非常關鍵,因為它直接影響到單量,也就是大家愿不愿意選擇我們的車。這是我們近期最重要的提升方向之一。

簡單來說,這確實是一個需要技術攻克的點。最終在通行效率方面,不可能做到像安全性那樣遠超人類,基本上也就是達到差不多的水平,甚至有時會稍微差一點點。這是因為有一個因素,路上的人對無人車和有人車是存在“雙標”的,大家更不愿意接受無人車犯錯。因此無人車必須開得稍微謹慎一些,而這種謹慎可能會影響到通行效率。同樣一種開法,人開沒問題,但換成自動駕駛,可能就會被罵。所以效率確實會略微低一點,但不會低到讓大家感到不滿意。這也是為什么很多人都說能做自動駕駛、有幾輛車、能運營,但真實差距在商業層面就是巨大的差別。

Q:物理AI和自動駕駛差別?

樓天城:物理AI就是訓練具身的環境。目前具身相關的很多應用還處在早期階段,大家看到的很多機器人仍然停留在DEMO狀態。如果有一天它們要真正走向實際應用,具身同樣需要一個物理世界模型來進行訓練,最終也會發展到那一步。

你可以把自動駕駛看作最早期的具身應用之一,它更早地進入了應用世界模型的狀態。相比之下,具身的世界模型需要融入更多的物理定律。大家知道,自動駕駛只要保證車不發生碰撞就行,基本上不用太操心“撞了之后會怎樣”。但在具身場景中,物理接觸要復雜得多,而且明顯是多維度的。除了視覺,還包括聽覺等多種感知方式。因此,具身的發展需要更長時間,這也完全符合當前具身所處的發展階段。

Q:怎么看待英偉達年初開源了一個世界模型?

樓天城:世界模型也是不同的意思,世界模型也分為以生成為主的,以交互訓練為主和物理世界為主的,英偉達是生成為主的世界模型,而我們應用是用于訓練,所以我們不會直接買來用,但是有其他用于生成的人還是很有用的,還是因為它有不同的用途,它不是我們這一支的用途。

Q:越來越多了車企布局Robotaxi,他們會不會很快上量,會影響到小馬節奏嗎?

樓天城:首先,我們擁有多款車型也是平臺的一大優勢。同一套技術方案可以部署在不同車型上。大家也知道,Robotaxi 在不同地區會有一些本地化特點,比如本地用戶更傾向于乘坐本地品牌的車輛,這也是我們考慮的因素之一。

關于“量”的問題,確實現在有很多玩家開始進入 Robotaxi 市場。但從另一方面看,各家的技術路線其實很相似,大家都在提基于世界模型的強化學習,相信各位也聽過不少類似的說法。從發展路徑來看,大家走的也是傳統 Robotaxi 公司走過的路。換句話說,至少 L2 階段積累的經驗,并沒有為 L4 提供太多幫助。比如 L2 說有更多真實數據,但實際上,大家都在按照真正 L4 的發展路徑往前走。反過來說,即使是不做 L4 的公司,也可以走這條路。

另外,在當前L4 領域,真正決定能否大規模鋪開的關鍵是車的駕駛能力、AI能力以及安全性。造車的能力,我并不是說它容易,但從Knowhow 來看,它是一個相對更寬泛的領域。我認為造車本身可以通過合作來實現,造車能力并不是影響車隊規模能做多大的關鍵因素。

Q:它的關鍵因素是什么?

樓天城:真正決定能否部署大量車輛的關鍵,是車的AI駕駛能力以及安全性。而要提升安全駕駛能力,就必須走L4級別的強化學習,或者說世界模型這條技術路線。

大家都愿意往這個方向走,一方面說明行業得到了很多關注,但另一方面,所有玩家已有的積累其實幫不上太多忙,大家都要沿著這條路慢慢摸索。這是我們看到的趨勢。

換句話說,沒有任何道理能夠省略從0到1000之間的任何一個步驟。任何一家L4公司從0走到1000所必須經歷的所有階段,L2公司也全都得走一遍。

Q:Robotaxi什么時候能夠走進我們日常?

樓天城:這正是Robotaxi最有意義的特點。它和傳統APP、以及ChatGPT最大的不同在于,用戶的體驗需要通過物理接觸來完成。我說某個APP很好用,你打開網頁聊聊天就能感受到;但我說一輛車開得好不好,你必須真正坐上去體驗一下。這是所有物理世界應用的共性,并不會因為自動駕駛就有所不同。

這個特點帶來的結果,就像您提到的:占領用戶心智需要非常長的時間,不是一鋪開所有人就會立刻使用。所以我們才要一個一個城市去鋪,一步一步接觸用戶,這個過程是必須的。同時,這也意味著后來者想要進入這個領域,同樣需要經歷這個過程,無法像互聯網產品那樣一夜之間傳播到所有人面前。這是物理AI應用的一個典型特征,需要更長的時間來達到更大規模,但好處是一旦達到了,它的護城河也會更強。這本身就是它的特點。

我們所說的Robotaxi,都是指真正的無人駕駛。問題不在于你能不能生產出1000輛車,而是究竟有沒有本事做到幾百輛、幾千輛上路。根本還是在于你的車安全性夠不夠,放這么多車上路,能不能不出事故,能不能不被用戶和路人詬病,這才是關鍵。

Q:您還認為從底層技術來說L2和L4是不同的物種嗎?

樓天城:剛剛我是從產品角度來解釋的,說明了L2和L4在產品上的區別,以及L2做得好了反而容易出現的問題。下面我再從技術層面談談這兩者之間的差別。

技術上,大家只需要關注一點:很多人以為L2對L4的幫助,主要體現在數據上,L2車輛能采集大量真實數據,用來輔助L4。但問題也很明顯:到了L4后期,真正依賴的反而是虛擬數據、合成數據。在這種情況下,過度依賴真實數據反而可能帶來負面影響。這就導致L2積累的最關鍵優勢,其實幫助不到L4真正的進展。

如果你要做L4,就必須按照L4的方式,比如構建世界模型、做強化學習,把這些步驟完整走一遍。這一點上,任何一家公司來做,并沒有本質差別。

Q:小馬智行成立10年間,自動駕駛行業最大的認知糾偏是什么?

樓天城:我覺得核心就是世界模型。我們是2020年開始做世界模型的,第一次對外公開提到這件事是在2024年,中間那幾年因為疫情,并沒有說太多。當時我剛提出來的時候,很多人都覺得我像個異類——大家都在用采集真實數據做模仿學習,什么時候開始放棄模仿、轉向仿真,什么時候開始從模仿學習走向自我學習?但今天,已經沒有人再這么說了,所有人都在講世界模型。這也是越來越多行業外的同行愿意接納這個思路的過程,對大家幫助很大。

不過,這個過程對人的沖擊是很大的。你需要接受一件事:你作為一個老師教學生,教著教著,學生比你強了,你就不要再繼續“手把手”教了,最好的方式是創造一個環境、創造條件,讓學生自己去變好。這種認知上的轉變,對人是會有沖擊的。但這個行業很好,大家都比較開放,接受了這種沖擊,意識到人的局限性,也意識到人跟AI應該怎么配合。

說起來我也有些感慨,AI剛出現的時候,圖靈測試非常有名。圖靈測試的意思是一個人坐在中間,左右兩邊分別是一個AI和一個人,看他能不能分辨出哪邊是人、哪邊是AI。圖靈測試的本意是希望AI像人一樣。但我反過來想,如果AI超越了人類,那么圖靈測試其實應該能夠區分出AI和人,因為更好的那個是AI,更差的是人。這么多年過去,大家并沒有接受AI在很多方面能超越人類。但在自動駕駛這個領域,過去十年里,很多人接受了這件事。我對此非常感激,因為大家的心態確實很開放。今天圖靈測試其實是失效的——因為做得更好的那個,已經是AI,而不是人了。

Q:那就不能反過來嗎?

樓天城:人可以反過來判斷,就是說話突然之間會“腦抽”的是人,一直很有邏輯的是AI。今天大家跟聊天工具聊就會有感受,我問你一個什么問題,還不如問AI工具,這個現象很明顯。

Q:全車規、全冗余L4級無人駕駛輕卡的難點是什么?

樓天城:從根本上來講,我們意識到輕卡和Robotaxi之間存在很多相同之處。大家知道,我們所說的輕卡是指2到5噸級別的,不是那種非常小的車。輕卡實際運營的場景都是在正常的道路上,從集散地到集散地,這些道路條件與日常打車場景非常接近,走的是一樣的路,面臨一樣的要求,一樣的車流,一樣的下雨天,所有問題都高度相似?梢哉f,這是我們找到的、Robotaxi技術場景最好的延伸方向。兩者的難點和關鍵點,基本上是一致的。

至于車規和冗余的問題,是因為我們從Robotaxi的經驗中認識到:一臺車既然要在路上跑,大家對它的安全要求一定非常高,該做的事情都必須做到。所以我們決定一步到位,沒有選擇先做沒有冗余的版本去試錯,而是直接按照應有的安全標準來設計這款車。因此,輕卡可以說是很好地沿襲了小馬智行已有的優勢,是我們最直接的商業拓展方向。

Q:計劃怎么布局輕卡領域無人駕駛?

樓天城:提到無人物流車,我還是先從監管說起,F在物流車領域已經有了更加標準化的監管,最近也出臺了對物流車的相關管理規定,對什么樣的人可以上什么樣的道路,給出了更明確的要求。尤其是在物流行業,特別是城際物流,能夠上一定等級的快速路是非常重要的。這些車輛并不是走羊腸小道就能通行的,它們通常以40、60甚至80公里的時速在路面上運行。這就要求車輛本身是一輛足夠好的車,一輛正常人能開的車,也意味著它在穩定性、安全性驗證等各方面都必須通過標準。

因此,我們希望從具備車規級或符合標準的方式進入這個市場。我們也相信,隨著未來監管越來越嚴格、也越來越標準化,能夠合法開上這些道路的車輛,在整個運輸體系中會擁有更大的發揮空間。

Q:為什么沒有做更小的車?

樓天城:我們認為輕卡是最大的市場,我們也做過統計不同車型的數量,這個車其實是市場上運載量最大的,而且明顯比第二大很多?赡芪ㄒ荒芨鹊木褪强ㄜ嚭蚏obotaxi。

Q:為什么現在布局Robovan?這一市場有沒有特殊技術問題需要解決?

樓天城:我們的Robotaxi和Robotruck在技術上有大約80%的共享部分。自動駕駛物流的共享比例只會更高,甚至可以說,絕大部分真正最難的部分都是共享的。那么最難的部分是什么呢?是路上的一些極端情況,比如突然的加塞、與周圍車輛的博弈、各種非常危險狀態的應對。這些難點跟開的是一輛轎車還是一輛大貨車,并沒有本質區別。核心難點都是共享的。正是因為我們看到了技術上的這種共享空間,所以才這樣去做。

另外,從商業角度來看,也有越來越多人開始相信這個故事。兩年前,很多人并不太相信這個方向,或者說不太相信它能帶來效率的提升。而今天,這是雙方互相推動、共同發展的一個過程。

Q:小馬智行新一代Robotaxi選擇用4顆Orin來等效1000TOPS的算力,而不是單顆的Thor-X為什么?

樓天城:關于算力芯片的問題,其實非常簡單。核心在于我們需要一個冗余系統。如果僅僅是一顆Thor 芯片,我會懷疑它是否構成一個完整的系統。因為自動駕駛本身是要求冗余的。

我們的方案是分成兩組,不是“2+2”,而是“3+1”。我們專門用一顆Orin芯片來做冗余,它的任務是當系統其他部分失效時,能夠保障最基本的安全,比如讓車輛穿過危險區域,安全地靠邊停車。因此,系統本身的獨立性非常重要。如果只用一顆Thor 芯片,一旦整顆芯片出了問題,系統就完全無法應對了。

當然,如果真的是單顆Thor-X芯片,那是另外一回事。但如果方案是一顆Thor加上一顆Orin,只是沒有把Orin單獨算出來,那也可以。不過,從技術角度來說,大家不會這樣去設計,我也沒有聽說過任何一家公司會用一顆Thor 加一顆 Orin 來做。這個層面的細節確實有點深了。

Q:四顆獨立芯片之間的通訊,相比單顆會不會受影響?

樓天城:這個很多工作能做好的話,能夠彌補這個缺陷。但是對方也不可能是一顆Thor,至少是兩顆Thor,但是如果說是兩顆Thor的話,那成本就非常高了。

Q:車端是什么架構,什么方案?

樓天城:首先我相信,車端各家基本都已經處于端到端的狀態了。如果不是端到端,也不好意思說自己是L4。單從高層面來看,彼此之間的差異其實已經不太明顯。因此,更多的不同點體現在訓練范式1.0和開發范式2.0上,這是主要的差別。所以我的重點也會放在那些能夠真正體現差異的地方。

說到車端的問題,剛才提到的意圖也是車端的一個特點,但它是得益于訓練范式1.0的不同所帶來的優勢。

如果單看車端的高層面,大家基本都已經實現了端到端,以Transformer為主。不過,很多訓練上的決策其實是由模型自己來完成的。雖然結構很多東西需要人來確認,但大量優化部分已經交給模型去做了。這種方法可以理解為“用模型來訓練模型”,比如先構建一個世界模型,再用它去訓練其他模型,其中的許多結構設計是由AI自主決定的,而不是人為設定的。

Q:圈內也有人把車端的模型叫做世界模型,怎么理解?

樓天城:我覺得這可能是一個誤解。確實存在某種在線的做法,但嚴格來說,那個東西是不是該叫世界模型,其實可以硬去那么叫。它更多體現的是一個Smart Agent的行為。因為世界模型除了和Smart Agent做交互之外,還需要包含評價的部分。但評價本身很難想象會放在車端,那樣會顯得很奇怪。

Q:世界模型的能力邊界在哪里?對未來路線選擇會有什么影響?

樓天城:技術路線本身也就是拿一個模型來開發,這已經是接下來的發展方向了。這件事不僅出現在自動駕駛領域,我們把它叫做Agent,F在很多領域已經在用Agent做研發,這已經是一種現實。所以用Agent做研發,就是自動駕駛接下來更加常見的技術路線。

至于能力邊界的問題,至少它已經證明了,Agent能夠超越由人來研發所達到的上限。但它自己的上限在哪里,目前AI還無法回答這個問題,我也只能去問AI本身。如果說有一天,它能做到虛擬世界和真實世界非常接近,并利用所有AI的能力進行訓練,那么在復雜場景下比人類高出很多,這一點是一定能做到的。但最終的上限在哪里,其實是應該由AI來回答的問題。

Q:從AI開車到AI評估開車,下一步會是AI來干什么?

樓天城:兩個方向。

第一是物理。物理世界中還有很多東西是AI尚未攻克的,尤其是真正理解物理世界的運作機制。今天我不太確定AI能不能在短時間內做到這一點。甚至如果有機會,我也愿意為此做一些貢獻,也就是通過AI的方式來理解物理世界究竟是如何運作的。這是一件非常有挑戰性的事情。

第二是,AI已經從“訓練模型”走向了“驅動研發”的階段。接下來,它能不能進一步去運行一個更大的團隊,或者運營一家公司,由AI來制定策略?再往后,它甚至有可能去管理一個社區。從AI發展的角度來看,有一種分級標準:Agent最開始是輔助人類完成工作,接著可以獨立完成某些任務,再進一步能夠自主創新。其實今天AI已經具備了一定的自主創新能力。下一個階段的關鍵,就是它能不能運行一個“社區”,也就是開始具備社會性能力。這會是AI發展的一個重要趨勢。

如果說大家會擔心人類有一天需要學會與AI共存,那其實就是在那個階段。到那時,人類確實需要認真思考:人和AI之間的關系到底是什么。

Q:怎么看待自動駕駛行業可能面臨著大模型公司的降維打擊這一說法?

樓天城:如果你指的是像OpenAI 這樣的大模型公司,這類東西的標準叫法其實是“基礎模型”,英文里并沒有“大模型”這個詞,只有基礎模型(Foundation Model)。它們其實都是自動駕駛公司進步的基礎,大家之間是合作關系。

但從另一個維度來看,真正要做到自動駕駛,遠不止有一個模型就夠了。首先,基礎模型本身本質上更像是Token 之間的“成語接龍”。在這個基礎模型之上,我們還需要完成很多后續工作,比如構建 Agent、做出產品、進行硬件適配、做好運營等等。這些都是在基礎模型的基礎上進一步完成的事情。因此,大家確實是合作關系。

即便你擁有一個非常完美的基礎模型,后面這些工作一樣也省不掉。簡單來說,如果只是一個模型,甚至任何新玩家進入這個市場影響也不會很大,或者說進入門檻依然很高。但如果說基礎模型越來越好,那確實會幫助到其他公司的進步,我們在這方面也得到了好處。所以說,大家更多是合作關系。自動駕駛不只是一個模型,而是一整套系統。

-END-

       原文標題 : 對話小馬智行樓天城:行業過去十年最大認知糾偏,是世界模型

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號