理想的自動駕駛基座：MindVLA-o1在做什么？

2026-03-18 13:50

芝能智芯

關注

芝能智芯出品

在 NVIDIA GTC 2026 上，理想汽車發布了新一代自動駕駛基座模型 MindVLA-o1。官方的描述是"自動駕駛進入物理智能體時代"。

這類表述在發布會上出現太多次，很容易被當成話術略過。

這意味在工程層面做了什么？自動駕駛這件事本身的問題定義正在被重寫。

Part 1問題變了，自動駕駛在解決什么

三次躍遷之后，卡在哪里了

過去十年，自動駕駛的技術路徑經歷了三次迭代。

◎ 第一代是規則驅動：工程師手寫規則，告訴系統什么情況下剎車、什么情況下變道。這套方法在結構化道路上能用，但規則寫不完，現實比規則復雜得多。

◎ 第二代是端到端：不再手寫規則，而是喂給模型海量數據，讓它自己學出駕駛策略。這解決了規則無法窮舉的問題，但新的問題出現了——模型學會的是數據里的模式，遇到訓練數據覆蓋不到的情況就容易崩。

◎ 第三代是 VLA，也就是把視覺、語言、行動整合進一個架構，讓系統具備跨任務的理解和泛化能力，不再只是一個駕駛專用的預測機器。

但 VLA 也有它自己的天花板。它能理解場景，能做出決策，但它對世界的理解是靜態的——它知道現在是什么狀態，但不能很好地推演這個狀態接下來會怎么變。

一個行人正在路邊站著，VLA 能識別他，但很難預判他下一秒會不會突然走出來。這不是感知精度的問題，而是對物理世界的因果結構缺乏理解。

◎ 第四次躍遷：從"開車"到"理解世界"

MindVLA-o1 想解決的正是這個缺口。

它的核心主張是：自動駕駛系統不應該只是一個駕駛任務執行器，而應該是一個能在物理世界中持續認知、預測和行動的智能體。

這個表述聽起來抽象，但落到工程上有一個很具體的含義：系統需要在內部建立一個關于世界"接下來會發生什么"的模型，而不只是對當前狀態做出反應。這就是"世界模型"（World Model）的意義所在。

過去一年，自動駕駛行業在 VLA 和世界模型之間存在一個技術路線的爭論，有人認為應該押注 VLA，有人認為世界模型才是未來。

理想給出的答案是：這兩件事不是競爭關系，而是分工關系：

◎ VLA 負責決策閉環，在車上實時運行；

◎ 世界模型負責認知和訓練，在云端生成數據、模擬場景、優化策略。

車端要的是快，云端要的是深，兩者承擔不同的職責，在不同的地方發揮價值。

這個分工聽起來合理，但把它真正做通，需要解決幾個過去沒有人徹底解決的工程問題。

Part 2

理想怎么做——

三個關鍵的工程選擇

讓模型學會"世界如何變化"，而不是"當前是什么樣"

傳統自動駕駛的感知系統，處理的是空間問題：這里有什么，那里有什么，彼此的位置關系是什么。

這個問題被描述成一張鳥瞰圖——把三維世界壓平成二維平面，標注出障礙物和車道線。這套方法在很長時間里夠用，但它有一個根本性的局限：它丟失了時間。

MindVLA-o1 的第一個關鍵選擇，是從空間表示轉向時空表示，引入了一種叫做"下一幀預測"的訓練方式：模型不只是學習"當前世界是什么狀態"，而是學習"這個狀態接下來會怎么變"。

同時，感知編碼器升級到了三維結構，融合了攝像頭和激光雷達的信息，保留了高度和動態關系——這些在鳥瞰圖里會被壓平的信息。

這個改變的意義在于：模型開始理解物理因果關系，而不只是識別靜態模式。

一輛車正在加速，下一幀它會在哪里；一個行人正在轉身，下一步他最可能走向哪個方向——這類判斷需要對世界的動態結構有理解，光靠感知精度是不夠的。

把"想象未來"的成本壓下來

有了對世界動態的理解，如何在車上實時使用這種理解。世界模型的計算代價很高，直接在車端運行幾乎不可能。

理想的解法是把預測過程壓縮到"隱空間"里進行。所謂隱空間，是模型內部的一種壓縮表示——不是真實世界的圖像或點云，而是經過編碼之后的抽象向量。

在隱空間里推演未來，比在原始感知數據層面推演要快得多、省得多。訓練的時候先用視頻數據學會如何壓縮和解壓縮這種表示，然后在隱空間里建立預測未來的能力，最后再把這種預測能力和駕駛決策聯合訓練。

結果是：系統獲得了"想象未來"的能力，但把這種能力的計算成本壓縮到了可以在車端實時使用的級別。

從預測軌跡到生成軌跡

傳統的自動駕駛規劃，做的是一個預測問題：給定當前狀態，預測出未來最可能的路徑點序列。MindVLA-o1 把這件事改造成了一個生成問題：用類似大語言模型生成文字的方式，生成駕駛軌跡。

這個轉變聽起來像換了個說法，但工程含義很不同。

◎ 生成模型可以同時考慮多種可能性，然后通過多輪迭代優化收斂到最好的解；

◎ 而傳統預測模型更像是沿著一條確定的路徑走下去。

具體實現上，理想用了三項技術的組合：混合專家模型（不同駕駛場景交給不同專家模塊處理）、并行解碼（所有軌跡點同時生成，避免順序生成帶來的延遲積累）、擴散優化（多輪迭代讓軌跡越來越平滑穩定）。

這三件事加在一起解決的是一個實際問題：在復雜場景里，軌跡生成既要快，又要穩，還要能覆蓋多種不同的處置策略。以前這三個要求很難同時滿足，現在有了一套組合解法。

模型結構之外，還有一個更根本的問題：數據從哪里來。

自動駕駛最難搞定的不是常見場景，而是長尾場景——那些在真實道路上出現概率很低、但一旦出現就很危險的情況。靠真實采集數據來覆蓋這些場景，成本極高，而且有些極端情況根本不可能在真實路測中主動制造。

MindVLA-o1 的解法是用世界模型生成仿真場景，再用強化學習在這些場景里讓模型自己探索最優策略。這套流程在效率上有一個關鍵改進：場景生成從逐步重建改成了前饋生成，速度快了約兩倍，訓練成本降低了約 75%。

更重要的是這套機制帶來的能力：系統不再只是被動地從人類標注數據里學習，而是可以主動生成從未見過的情況，然后在其中試錯、優化、迭代。這是一種質的變化——從"被教會"到"自己學會"。

最后一個工程選擇是軟硬件協同。模型再先進，如果在車端硬件上跑不起來，等于白做。

理想引入了一套叫做 Roofline 的分析框架，用來在模型結構和硬件性能之間建立精確的映射關系，再通過大規模架構搜索——測試了大約 2000 種不同的模型配置——找到在精度和延遲之間的最優平衡點。

一個有意思的發現是：在車端場景里，更"寬但淺"的模型結構優于深層結構。這與大語言模型的經驗相反，反映的是車端對實時性的要求比對參數規模更敏感。

這套探索過程，過去需要數月，現在壓縮到了數天。

Part 3這件事更大的意義

車，是目前最好的具身智能載體

MindVLA-o1 最值得關注的方向：自動駕駛正在成為通用物理 AI 的入口。

這件事的邏輯并不復雜。要訓練一個能在真實物理世界中行動的 AI，你需要三件東西：完整的感知系統、實時的決策需求、大規模的真實數據。

汽車恰好同時具備這三件東西，而且已經有數百萬輛在路上跑，每天產生海量的真實場景數據。

相比之下，機器人雖然是更通用的具身載體，但它的規模化部署還要等很多年。

誰在自動駕駛上建立了強大的感知、預測、決策和學習體系，誰就在通用物理 AI 的競爭中擁有了一個很難被繞過的先發優勢。

同一套模型，可以控制機器人

理想已經明確，MindVLA-o1 的架構不只用于駕駛，同一套 VLA 模型可以遷移到機器人控制上。這不是一個遙遠的路線圖，而是一個工程上已經在驗證的方向。

原因在于，駕駛和機器人在底層問題上高度相似：都需要感知三維空間，都需要理解物體的運動和意圖，都需要在實時約束下做出行動決策。兩者的差異更多在于執行器，一個是方向盤和油門，一個是機械臂和腿。

如果感知和決策的底層模型是通用的，那么遷移的成本會大幅降低。這是一個值得認真看待的技術判斷，自動駕駛的邊界可能比我們通常想的要寬得多。

過去幾年，自動駕駛的軍備競賽主要發生在兩個地方：傳感器數量和城市覆蓋里程。這兩件事當然重要，但它們正在快速成為行業基線，不再是真正的差異化來源。

小結

MindVLA-o1 所代表的方向，指向的是另一維度的競爭：數據閉環能力、仿真能力、強化學習基礎設施、系統工程整合能力。

這些東西都不是一兩年能追上的，它們依賴長期的技術積累和大規模的工程投入，本質上是組織能力，而不只是模型能力。

MindVLA-o1 的意義或許不在于它今天是否已經領先，而在于它標志著競爭維度的一次遷移，從"誰的感知更準"到"誰的系統進化更快"。后一場競爭，才剛剛開始。

原文標題 : 理想的自動駕駛基座：MindVLA-o1在做什么？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

發表評論

登錄