理想的自動駕駛基座:MindVLA-o1在做什么?
芝能智芯出品
在 NVIDIA GTC 2026 上,理想汽車發布了新一代自動駕駛基座模型 MindVLA-o1。官方的描述是"自動駕駛進入物理智能體時代"。
這類表述在發布會上出現太多次,很容易被當成話術略過。
這意味在工程層面做了什么?自動駕駛這件事本身的問題定義正在被重寫。

Part 1問題變了,自動駕駛在解決什么
三次躍遷之后,卡在哪里了
過去十年,自動駕駛的技術路徑經歷了三次迭代。
◎ 第一代是規則驅動:工程師手寫規則,告訴系統什么情況下剎車、什么情況下變道。這套方法在結構化道路上能用,但規則寫不完,現實比規則復雜得多。
◎ 第二代是端到端:不再手寫規則,而是喂給模型海量數據,讓它自己學出駕駛策略。這解決了規則無法窮舉的問題,但新的問題出現了——模型學會的是數據里的模式,遇到訓練數據覆蓋不到的情況就容易崩。
◎ 第三代是 VLA,也就是把視覺、語言、行動整合進一個架構,讓系統具備跨任務的理解和泛化能力,不再只是一個駕駛專用的預測機器。
但 VLA 也有它自己的天花板。它能理解場景,能做出決策,但它對世界的理解是靜態的——它知道現在是什么狀態,但不能很好地推演這個狀態接下來會怎么變。
一個行人正在路邊站著,VLA 能識別他,但很難預判他下一秒會不會突然走出來。這不是感知精度的問題,而是對物理世界的因果結構缺乏理解。
◎ 第四次躍遷:從"開車"到"理解世界"

MindVLA-o1 想解決的正是這個缺口。
它的核心主張是:自動駕駛系統不應該只是一個駕駛任務執行器,而應該是一個能在物理世界中持續認知、預測和行動的智能體。
這個表述聽起來抽象,但落到工程上有一個很具體的含義:系統需要在內部建立一個關于世界"接下來會發生什么"的模型,而不只是對當前狀態做出反應。這就是"世界模型"(World Model)的意義所在。

過去一年,自動駕駛行業在 VLA 和世界模型之間存在一個技術路線的爭論,有人認為應該押注 VLA,有人認為世界模型才是未來。
理想給出的答案是:這兩件事不是競爭關系,而是分工關系:
◎ VLA 負責決策閉環,在車上實時運行;
◎ 世界模型負責認知和訓練,在云端生成數據、模擬場景、優化策略。
車端要的是快,云端要的是深,兩者承擔不同的職責,在不同的地方發揮價值。
這個分工聽起來合理,但把它真正做通,需要解決幾個過去沒有人徹底解決的工程問題。
Part 2
理想怎么做——
三個關鍵的工程選擇
讓模型學會"世界如何變化",而不是"當前是什么樣"
傳統自動駕駛的感知系統,處理的是空間問題:這里有什么,那里有什么,彼此的位置關系是什么。
這個問題被描述成一張鳥瞰圖——把三維世界壓平成二維平面,標注出障礙物和車道線。這套方法在很長時間里夠用,但它有一個根本性的局限:它丟失了時間。

MindVLA-o1 的第一個關鍵選擇,是從空間表示轉向時空表示,引入了一種叫做"下一幀預測"的訓練方式:模型不只是學習"當前世界是什么狀態",而是學習"這個狀態接下來會怎么變"。
同時,感知編碼器升級到了三維結構,融合了攝像頭和激光雷達的信息,保留了高度和動態關系——這些在鳥瞰圖里會被壓平的信息。
這個改變的意義在于:模型開始理解物理因果關系,而不只是識別靜態模式。
一輛車正在加速,下一幀它會在哪里;一個行人正在轉身,下一步他最可能走向哪個方向——這類判斷需要對世界的動態結構有理解,光靠感知精度是不夠的。
把"想象未來"的成本壓下來

有了對世界動態的理解,如何在車上實時使用這種理解。世界模型的計算代價很高,直接在車端運行幾乎不可能。
理想的解法是把預測過程壓縮到"隱空間"里進行。所謂隱空間,是模型內部的一種壓縮表示——不是真實世界的圖像或點云,而是經過編碼之后的抽象向量。
在隱空間里推演未來,比在原始感知數據層面推演要快得多、省得多。訓練的時候先用視頻數據學會如何壓縮和解壓縮這種表示,然后在隱空間里建立預測未來的能力,最后再把這種預測能力和駕駛決策聯合訓練。
結果是:系統獲得了"想象未來"的能力,但把這種能力的計算成本壓縮到了可以在車端實時使用的級別。
從預測軌跡到生成軌跡
傳統的自動駕駛規劃,做的是一個預測問題:給定當前狀態,預測出未來最可能的路徑點序列。MindVLA-o1 把這件事改造成了一個生成問題:用類似大語言模型生成文字的方式,生成駕駛軌跡。

這個轉變聽起來像換了個說法,但工程含義很不同。
◎ 生成模型可以同時考慮多種可能性,然后通過多輪迭代優化收斂到最好的解;
◎ 而傳統預測模型更像是沿著一條確定的路徑走下去。
具體實現上,理想用了三項技術的組合:混合專家模型(不同駕駛場景交給不同專家模塊處理)、并行解碼(所有軌跡點同時生成,避免順序生成帶來的延遲積累)、擴散優化(多輪迭代讓軌跡越來越平滑穩定)。
這三件事加在一起解決的是一個實際問題:在復雜場景里,軌跡生成既要快,又要穩,還要能覆蓋多種不同的處置策略。以前這三個要求很難同時滿足,現在有了一套組合解法。

模型結構之外,還有一個更根本的問題:數據從哪里來。
自動駕駛最難搞定的不是常見場景,而是長尾場景——那些在真實道路上出現概率很低、但一旦出現就很危險的情況。靠真實采集數據來覆蓋這些場景,成本極高,而且有些極端情況根本不可能在真實路測中主動制造。
MindVLA-o1 的解法是用世界模型生成仿真場景,再用強化學習在這些場景里讓模型自己探索最優策略。這套流程在效率上有一個關鍵改進:場景生成從逐步重建改成了前饋生成,速度快了約兩倍,訓練成本降低了約 75%。

更重要的是這套機制帶來的能力:系統不再只是被動地從人類標注數據里學習,而是可以主動生成從未見過的情況,然后在其中試錯、優化、迭代。這是一種質的變化——從"被教會"到"自己學會"。
最后一個工程選擇是軟硬件協同。模型再先進,如果在車端硬件上跑不起來,等于白做。
理想引入了一套叫做 Roofline 的分析框架,用來在模型結構和硬件性能之間建立精確的映射關系,再通過大規模架構搜索——測試了大約 2000 種不同的模型配置——找到在精度和延遲之間的最優平衡點。
一個有意思的發現是:在車端場景里,更"寬但淺"的模型結構優于深層結構。這與大語言模型的經驗相反,反映的是車端對實時性的要求比對參數規模更敏感。
這套探索過程,過去需要數月,現在壓縮到了數天。

Part 3這件事更大的意義
車,是目前最好的具身智能載體

MindVLA-o1 最值得關注的方向:自動駕駛正在成為通用物理 AI 的入口。
這件事的邏輯并不復雜。要訓練一個能在真實物理世界中行動的 AI,你需要三件東西:完整的感知系統、實時的決策需求、大規模的真實數據。
汽車恰好同時具備這三件東西,而且已經有數百萬輛在路上跑,每天產生海量的真實場景數據。
相比之下,機器人雖然是更通用的具身載體,但它的規模化部署還要等很多年。

誰在自動駕駛上建立了強大的感知、預測、決策和學習體系,誰就在通用物理 AI 的競爭中擁有了一個很難被繞過的先發優勢。
同一套模型,可以控制機器人

理想已經明確,MindVLA-o1 的架構不只用于駕駛,同一套 VLA 模型可以遷移到機器人控制上。這不是一個遙遠的路線圖,而是一個工程上已經在驗證的方向。
原因在于,駕駛和機器人在底層問題上高度相似:都需要感知三維空間,都需要理解物體的運動和意圖,都需要在實時約束下做出行動決策。兩者的差異更多在于執行器,一個是方向盤和油門,一個是機械臂和腿。
如果感知和決策的底層模型是通用的,那么遷移的成本會大幅降低。這是一個值得認真看待的技術判斷,自動駕駛的邊界可能比我們通常想的要寬得多。
過去幾年,自動駕駛的軍備競賽主要發生在兩個地方:傳感器數量和城市覆蓋里程。這兩件事當然重要,但它們正在快速成為行業基線,不再是真正的差異化來源。
小結
MindVLA-o1 所代表的方向,指向的是另一維度的競爭:數據閉環能力、仿真能力、強化學習基礎設施、系統工程整合能力。
這些東西都不是一兩年能追上的,它們依賴長期的技術積累和大規模的工程投入,本質上是組織能力,而不只是模型能力。
MindVLA-o1 的意義或許不在于它今天是否已經領先,而在于它標志著競爭維度的一次遷移,從"誰的感知更準"到"誰的系統進化更快"。后一場競爭,才剛剛開始。
原文標題 : 理想的自動駕駛基座:MindVLA-o1在做什么?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
6月12日立即預約>> 2026騰訊云長沙峰會,解鎖增長新動能
-
5月30日立即報名>> 2026激光行業應用創新發展藍皮書火熱招編中!
-
5月31日立即下載>> 【白皮書】村田室內外定位解決方案
-
即日-5.31立即申報>>> 維科杯·OFweek 2026光學行業年度評選
-
5月31日立即申報>>> 維科杯•OFweek 2026激光行業年度評選
-
即日-6.1立即參編>> 【企業參編】2026人工智能+場景化、圖譜化智能制造發展藍皮書


分享









