VLA與世界模型會讓自動駕駛汽車走多遠？ - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 操作系統 > 正文

VLA與世界模型會讓自動駕駛汽車走多遠？

2025-09-01 11:59

智駕最前沿

在一個雨夜的十字路口，你開車行駛到路中央，前方是一輛猶豫不決的電動車，左側有一臺打著轉向燈的出租車，右后方突然閃過一束遠光燈。這時候你會怎么做？經驗豐富的司機往往會迅速分析，電動車可能突然橫穿，出租車大概率要并線，后車逼得太緊不能急剎，最穩妥的辦法是先減速，給前后左右都留出余地�？此茙酌腌姷臎Q定，實際上包含了感知、預測、推理和取舍。

可如果把同樣的場景交給自動駕駛呢？傳統的系統更多是基于規則和簡單預測，它能看見電動車、檢測出租車、識別遠光燈，卻未必能像人類一樣“想明白”這些信號背后的意圖和邏輯。于是，車子要么顯得過度保守停在原地，要么冒進地沖出去，最終都和人類駕駛的直覺一定會有差距。也正因為如此，行業開始追問，能不能讓車也擁有“理解和推理”的能力？答案正是近年來興起的VLA（視覺—語言—動作模型）和世界模型。

其實過去十年，自動駕駛的發展像坐過山車一樣起伏。早期技術方案覺得靠感知、預測、規劃、控制的模塊化體系，把規則寫全，把數據堆夠，就能讓汽車自動開起來。但隨著項目規模擴大，越來越多從業者意識到，這套方法天然有天花板。模塊化的鏈條太長，每個環節之間的信息丟失嚴重，人工接口讓系統難以聯合優化，即使投入海量人力，也難以覆蓋長尾復雜場景。VLA和世界模型的出現，讓車子不只是“執行規則”，而是像人一樣“理解和推理”。

VLA的邏輯：從“會看”到“會想”

VLA的本質是把自動駕駛從單純的數據驅動，逐步引向知識驅動。過去的端到端嘗試大多直接把圖像輸入和車輛動作輸出綁定在一起，中間缺乏解釋能力。而VLA則引入了多模態大模型的優勢，把視覺、點云、地圖、傳感器信息都編碼進一個統一的語義空間，再通過語言模型來進行邏輯推理和高層決策。換句話說，它讓車不只是會“看”，更會“想”。視覺編碼器負責從圖像或點云中提取特征，對齊模塊把這些特征映射到語言空間，語言模型則像人腦的“推理區”，根據上下文和邏輯得出結論，最后生成器把這種高層意圖轉換成車輛可以執行的軌跡或動作�？梢哉f，VLA就是把人類駕駛的認知流程，第一次較完整地搬進了機器世界。

VLA模型的總體架構，包含編碼器、解碼器和輸出動作

要讓VLA真正工作起來，有三塊技術難點是繞不開的。首先是三維特征的表達。車面對的是一個三維世界，二維的圖像信息遠遠不夠。近年來被頻繁提到的3D Gaussian Splatting技術，正是為了解決這一問題。它用一系列高斯分布來顯式表示三維點，不僅比傳統的體素網格節省算力，還能達到實時渲染的水平。相比之下，像NeRF那樣的隱式場景表示雖然能渲染得極其逼真，但計算量過大，幾乎不可能放在車端使用。3D GS在效率和真實感之間找到了平衡，因此被很多團隊作為中間特征的候選方案。不過，它也有短板，比如對初始點云的質量非常依賴，這意味著在采集數據階段就要保證精度，否則渲染結果會受到較大影響。但從整體趨勢來看，3D GS已經成為讓車能更“立體”地理解世界的重要一步。

3D GS與其余三維重建技術的區別

第二個難點是記憶與長時序推理。駕駛是一項連續任務，不是單幀的反應動作。車需要記住前方幾秒鐘的交通參與者行為，才能判斷對方是要超車、掉頭還是直行。然而傳統Transformer在處理長序列時開銷太大，窗口一旦超過幾千步，計算就變得不可承受，同時信息還容易被稀釋掉。為了解決這個問題，有技術引入了稀疏注意力和動態記憶模塊。稀疏注意力通過只關注關鍵位置，顯著降低了計算復雜度，而動態記憶則像外掛的存儲器，把歷史中的關鍵信息提取、保存，在需要時重新調出。這種方式讓模型既能處理長時依賴，又不會在車端算力有限的環境下崩潰。像是小米的QT-Former就在長時記憶上做了優化，理想的Mind架構同樣在探索類似的思路，說明這已經成了產業界的共識。

小米QT-Former模型架構

第三個難點是推理效率。車端的算力和功耗都有限，不可能像云端一樣無限堆GPU。于是量化、蒸餾、裁剪等傳統模型壓縮手段，成了落地必備。理想采用GPTQ等后訓練量化方法，把大模型縮小到能實時運行的程度，同時探索混合專家模型MOE，通過只激活部分專家的方式來減少開銷。這樣的架構既能保持大模型的能力，又不會讓推理速度拖慢整個系統。智駕最前沿以為，未來車端的大模型必然是“稀疏+量化”的形態，否則在能耗和成本上都不現實。

世界模型：虛擬世界里的試煉場

如果說VLA是車子的“大腦”，那么世界模型就是它的“訓練場”。因為現實世界的數據再多，也不可能覆蓋所有情況，更不能無限試錯。高保真的世界模型能生成各種道路場景，補充長尾數據，還能提供一個低成本、安全的閉環環境，讓模型在虛擬世界里反復學習。理想的DriveDreamer4D就是一個典型案例，它能生成新軌跡視頻并和真實數據對齊，用來擴展數據集；ReconDreamer則通過漸進式數據更新來減少長距離生成里的假象；OLiDM針對激光雷達數據稀缺的問題，用擴散模型來生成點云。這些名字看起來很學術，但本質上都是在做一件事，用虛擬的方式去還原真實世界的復雜性，讓模型提前適應未來可能遇到的情況。

在訓練范式上，VLA和世界模型也發生了很多變化。過去大家依賴行為克隆，即讓模型模仿人類駕駛，但這種方法在遇到沒見過的情況時往往會失效�，F在更多采用三階段閉環，先用行為克隆做起步，保證模型有個基礎，再用逆強化學習從專家數據中學習獎勵函數，最后通過世界模型里的強化學習不斷迭代優化。這種方式讓模型不僅會模仿，還能自己探索更優解，逐漸超越人類示范的水平。

產業視角：車企為何搶跑？

把大語言模型放到自動駕駛里并不是把車變成聊天機器人那么簡單。VLA的核心在于“多模態”和“動作生成”，視覺編碼器要能把圖像、視頻、甚至點云編碼成對語言友好的中間表示；對齊模塊要把這些視覺表示映射到語言空間；語言模型承擔長時的推理和決策；解碼器則把高層意圖細化成車輛可執行的低層動作或者軌跡。其實汽車的任務比較單一，就是開車，場景也相對有規則，道路標線、交通燈、車輛行為都有明確約束。再加上車企自帶海量車隊和數據收集能力，這使得VLA更容易在車上形成規模效應。這也是為什么國內外廠商紛紛入局的原因。Waymo早期推出了EMMA系統，算是奠定了方向；國內理想正在構建完整的Mind架構，小米在量產車中測試QT-Former，小鵬在嘗試端到端引入大模型，華為則在MDC平臺上為未來預留了大模型接口。不同公司路線各異，但目標是一致的，讓車子具備更強的理解和推理能力。

EMMA模型架構

寫在最后

總的來說，VLA與世界模型的結合，標志著自動駕駛正在經歷一次認知層面的升級。它們不僅僅是算法改良，而是范式的轉變，從“能看會開”走向“能想會推理”。這條路當然不輕松，三維表征、記憶機制、算力約束和仿真保真度，每一項都是難題。但隨著架構逐步成熟、世界模型越來越逼真、閉環訓練越發完善，我們有理由相信，未來的自動駕駛不只是冷冰冰的感知與控制機器，而是一個能理解環境、能解釋行為、能與人類邏輯對接的“駕駛智能體”。誰能最先把這些技術變成大規模落地的體驗，誰就能在下一階段的競爭中拔得頭籌。

-- END --

原文標題 : VLA與世界模型，會讓自動駕駛汽車走多遠？

模型駕駛推理數據

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號