訂閱
糾錯
加入自媒體

為什么很多車企都青睞VLA模型?

2026-03-04 10:44
智駕最前沿
關注

就在最近,小鵬發布了第二代視覺—語言—動作(VLA)模型。其實隨著自動駕駛技術的發展,行業正處于從手工規則體系向物理世界大模型的深層跨越。早期的自動駕駛方案高度依賴于模塊化的架構設計,將感知、預測與規劃拆分為獨立的環節。

但隨著行駛場景復雜度的增加,模塊間信息流失和規則局限導致的瓶頸日益凸顯。其實不僅僅是小鵬,理想、吉利等車企也都將VLA模型用于量產車,為何那么多車企都依賴VLA模型?

相較于模塊化,VLA有何優勢?

傳統的自動駕駛架構采用級聯設計。傳感器采集數據后,由感知模塊進行目標檢測與語義分割,輸出物體標簽;隨后,預測模塊計算周圍參與者的可能軌跡;規劃模塊再根據預設的數學模型生成車輛的行駛路線。

在這種模式下,任何前端感知的微小誤差都會在后續環節中被放大,且由于各模塊之間采用的是預定義的手工接口,系統很難捕捉到環境中微妙的非結構化信息。

模塊化架構示意圖,圖片源自:網絡

VLA模型的引入徹底改變了這一流程。視覺—語言—動作模型(Vision-Language-Action,VLA)本質上是一種端到端的智能系統,它通過統一的神經網絡將多模態感知與高層邏輯推理、底層動作執行融為一體。

其核心價值是將原本相互獨立的感知模塊(看)、邏輯模塊(想)與執行模塊(做)在同一個語義空間內完成了對齊。與傳統的自動駕駛系統相比,VLA不僅能夠識別環境中的像素點或幾何結構,更能理解這些信號背后的語義邏輯。

VLA模型由視覺編碼器、大語言模型(LLM)骨干網絡以及動作解碼器三個核心組件構成。視覺編碼器將攝像頭采集的多視角圖像轉化為高維的特征向量,這些向量包含了環境的空間布局與物體特征;LLM骨干網絡則作為決策中心,利用預訓練過程中積累的海量世界知識對視覺特征進行邏輯加工;動作解碼器則將這些抽象的推理結果轉化為如轉向角度、加減速數值等具體的物理動作。

VLA架構示意圖,圖片源自:網絡

這種一體化的映射方式使得系統能夠以一種更接近人類認知的方式來處理駕駛任務。在人類駕駛過程中,大腦并不會先在意識里標出每一個行人的精確坐標再進行計算,而是基于對場景的整體理解(如“這個行人可能要過馬路”)直接產生避讓動作。VLA模型通過共享的Transformer架構,對語言、視覺和動作模態進行協同編碼,構建了統一的語義空間,實現了從感知理解到動作決策的無縫銜接。

語言轉譯重要嗎?

看到諸多文章介紹小鵬第二代VLA模型時,都提及其去掉了“語言轉譯”這一環節,那語言轉譯到底有什么作用?對于自動駕駛來說重要嗎?

所謂語言轉譯,是指將視覺信號“翻譯”成自然語言描述(例如“前方路口有交警在指揮”),然后再根據這段文字描述推導出動作指令。這種設計在早期是為了借用大語言模型的邏輯推理能力,但隨著技術向量產端推進,其弊端也愈發明顯。

自然語言雖然適合表達抽象邏輯,但在描述極其復雜的三維物理世界時,其精度可能不足。將高維的、連續的視覺流壓縮成離散的文字標簽,不可避免地會丟失大量的空間細節和運動趨勢。

此外,在VLA的訓練中,研發人員需要為海量的視頻數據配上詳盡的人工旁白,告訴模型畫面中發生了什么,以及為什么要做這個動作。這種“保姆式”的監督學習不僅成本高昂,且標注的速度遠遠無法滿足模型進化的需求。

小鵬第二代VLA模型之所以拆掉語言這根“拐杖”,轉向了更極致的自監督學習模式,是因為在這種體系下,模型可以直接從原始視頻和真實的駕駛軌跡中學習,只要有視頻輸入和對應的物理動作輸出,模型就能自主學習其中的因果關系,無需人工中間介入。

去語言化還可以大幅提升系統的實時性。在自動駕駛中,毫秒級的延遲決定了安全性。VLA模型因為存在多步推理(視覺->語言->動作),計算鏈路長,有時難以滿足毫秒級的響應要求。若將視覺信號直接映射為動作,則可以消除中間解碼和生成的耗時。

為了實現這一目標,動作的表征方式也將發生變化,將連續的軌跡預測轉化為離散的動作Token,并整合進大模型的詞表,是目前可行的路徑之一。通過這種方式,動作生成就像語言預測下一個單詞一樣,能夠充分復用大模型已有的序列建模能力。

這種從“語言理解”向“物理直覺”的轉變,實際上是自動駕駛向更高級智能形式的演化。它可以讓模型變成一個擁有多年駕齡、通過肌肉記憶進行決策的老司機。

VLA的優勢在哪里?

自動駕駛的技術發展,已經讓自動駕駛系統在高速路或城市路段有了較好的表現,現在最難處理的其實是“長尾場景”。所謂長尾,是指那些在正常行駛中極少出現、難以通過窮舉規則覆蓋的極端情況,像是馬路上突然出現的異形掉落物、復雜的施工路障、交警不規范的手勢指揮等都屬于長尾場景。

在傳統架構中,遇到此類未見過的場景,感知模塊可能會報錯,或者規控模塊會因為沒有匹配的規則而采取僵硬的緊急制動。

VLA模型的優勢在于它將“理解”引入駕駛決策;诖笠幠nA訓練的大模型擁有強大的知識庫和情景理解能力。舉個例子,即便模型沒有在訓練集中見過某種特定形狀的施工圍欄,但它通過在互聯網海量數據中學習到的通識知識,能夠理解“紅白相間的物體通常代表障礙物”或者“身穿反光背心的人通常是工作人員”。

這種基于知識的決策模式,使得VLA能夠處理復雜的交互邏輯。在潮汐車道或無圖小路等場景下,VLA可以分析周圍車輛的意圖和環境的細微變化,做出更擬人化的規劃。它不會僅是避讓障礙物,而是能夠理解“此時前車減速可能是為了禮讓行人”,從而提前做出預判,避免了傳統系統常見的頻繁急剎或頓挫感。

VLA模型還具備“雙系統思維”的能力。它既能通過快速路徑實現類似于本能的駕駛反應(快思考),也能在遇到極端復雜情況時,調動增強的推理邏輯進行深度分析(慢思考)。這種靈活性確保了系統在保證效率的同時,擁有處理高難度決策的上限。

為了解決長尾數據的稀缺性,有些技術方案還引入了“世界模型”(World Models)。世界模型可以被看作是自動駕駛系統的“模擬大腦”,它能夠預測動作對未來的影響,并仿真出大量極端的、在現實中難以收集的危險場景進行自我訓練。VLA與世界模型的結合,可以讓自動駕駛從“在現實中試錯”轉向“在想象中進化”。

這種能力的提升,意味著自動駕駛系統正在從一個“稱職的司機”向“智慧的駕駛專家”轉變。VLA不僅解決了“怎么開”的問題,更在底層邏輯上解決了“為什么這么開”的理解問題。

VLA落地的難點在哪里?

大模型一般需要擁有數十億甚至數百億的參數,要在車載嵌入式平臺上實現毫秒級的推理響應,需要非常多的工程優化。

混合專家架構(MoE)可以將模型拆分為多個專業領域的小模塊,在每一時刻僅激活最相關的部分專家,可以在不犧牲模型容量的前提下,大幅降低推理時的計算量。理想就將32B的大模型蒸餾為3.2B的MoE架構,成功部署在Thor芯片上。

推理步數的壓縮也很關鍵,傳統的路徑生成需要多次迭代(如Diffusion模型),而通過引入流匹配(Flow Matching)等算法,可以將原本10步的推理過程壓縮至2步甚至1步,從而在10Hz的幀率下實現完整的交互響應。此外,混合精度推理(如INT8/FP8/FP4)和底層算子魔改,也可以進一步利用硬件的有效性能。

雖然VLA模型作為“大腦”負責復雜的認知決策,但行業普遍共識是需要保留一個經過嚴格驗證的傳統控制系統作為“安全基座”。這種混合架構確保了即使大模型在某些罕見情況下出現幻覺或推理錯誤,底層的安全網也能守住最后一道防線。

最后的話

VLA的普及標志著自動駕駛數據競爭重心的轉移。以前,企業比拼的是人工標注的數據量;而現在,競爭的核心變成了算力儲備、世界模型的仿真效率以及對大規模無標簽視頻數據的利用能力。

VLA從邏輯理解到物理行動的閉環,不僅加速了端到端技術的成熟,也讓自動駕駛系統距離真正的“擬人化”更近了一步。隨著算法、算力和數據三要素的持續提升,基于VLA架構的物理人工智能將在更廣泛的移動場景中展現其價值,重塑未來出行的安全與效率標準。

-- END --

       原文標題 : 為什么很多車企都青睞VLA模型?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號