訂閱
糾錯
加入自媒體

英偉達 Alpamayo:基于推理的自動駕駛大模型設計與量產部署全解析

2026-03-26 11:08
vehicle公眾號
關注

GTC 2026 上英偉達對其開源的 Alpamayo VLA模型進行了進一步的闡述。其中Marco Pavone代表英偉達的研究團隊對就Alpamayo的模型設計和最新的因果鏈進行了分享,Patrick Liu曾今吳新宙在小鵬的老部下后來也來到英偉達,本次他代表量產端對Alpamayo落地量產的一些經驗方法進行了一些分享。

本文基于兩位的演講內容,對Alpamayo的模型設計和量產經驗進行總結和分享。

我們之前文章《智駕定型之戰:一文看透自動駕駛“端到端”的底層邏輯與架構演進》也分享過在自動駕駛的發展歷程中,如何讓AI不僅能“看”和“開”,還能像人類一樣“思考”和“解釋”,是經歷了端到端算法普及之后的第二個突破點。

英偉達推出的 Alpamayo的亮點就是具有推理能力。本次演講中Marco Pavone 表示Alpamayo 是一個100億(10B)參數的端到端、基于推理的視覺語言動作模型(VLA),他是基于英偉達基礎模型Cosmos Reason構建的。

第一部分:模型設計,讓 AI 學會“因果推理”與“知行合一”

和所有VLA模型類似,Alpamayo 1 接收多攝像頭圖像、用戶命令和導航指引,并輸出三個關鍵結果:推理軌跡、元動作和駕駛軌跡。

這個模型算法的第一大亮點是“具體推理” --產生類似于人類推理的軌跡,將空間理解和常識推理與物理動作聯系起來,為了構建這種“具體推理”能力,英偉達Alpamayo的采用多階段訓練流水線:

通用推理:從 Cosmos Reason 開始,利用互聯網規模數據訓練一般推理能力。這個基本上是基礎模型訓練的范疇。

軌跡預訓練:在海量駕駛數據上預訓練,賦予模型自動駕駛的軌跡生成能力。一般從通用基礎模型到專業自動駕駛模型的第一步訓練,就是專門的駕駛數據訓練。

監督微調(SFT):利用自動標注的駕駛相關推理軌跡進行微調,以引出顯式的推理能力。這一步主要是賦予VLA模型基于語言的顯式推理的能力。

強化學習(RL):在 Cosmos生產和修改的場景的 RL 基礎上,改善極具挑戰性情況下的推理,并促進各輸出模態之間的對齊。

經過以上步驟一個VLA大模型基本完成,我們之前文章《吳新宙帶領英偉達沖刺自動駕駛L4背后的VLA大模型算法》有詳細介紹。

最后模型上車采取知識蒸餾:將龐大的能力壓縮到適合車端部署的模型中。

整個訓練過程,有如下難點:

1. 如何突破純文本思維鏈(COT)自動標注的局限:因果鏈自動標注在 SFT 階段,最大的挑戰是如何大規模生成高質量的推理標簽。傳統的文本思維鏈(COT)自動標注存在三大致命缺陷:

一是因果混淆,推理軌跡可能會泄露未來信息,比如提前說“銀色SUV將在以后切入”;

二是行為描述模糊,無法給出具體的駕駛操作;

三是膚淺推理,描述缺乏與本車行為直接因果聯系的上下文。

為了解決這些問題,英偉達采用“因果鏈自動標注流水線”的方式,來擊破這個痛點:

錨定關鍵幀:將推理生成嚴格錨定在關鍵決策時刻(如交通燈變綠瞬間),確保推理過程只包含該關鍵幀之前的因素,杜絕未來信息泄露。

封閉決策詞匯表:將決策分為縱向和橫向類型,并建立明確的詞匯表,確保使用精確術語描述行為,消除模糊性。

因果鏈模板:引導模型確保每個語句都符合因果鏈邏輯,阻止膚淺的推理。 

英偉達的Marco Pavone表示通過從非結構化思維鏈切換到結構化因果鏈的方法,給顯式推理帶來了驚人的121% 的準確性提升。模型在處理捕捉復雜運動行為和分布外視覺上下文的“長尾場景”時,軌跡位移(平均ADE)減少了約12%,證明推理在復雜的邊緣場景中收益巨大。

2. 消除“具身不一致”:強化學習后訓練對齊模型會推理了,但如果“想的是向左,開的卻是向右”怎么辦?這種思維鏈推理與模型直接輸出的行動之間的潛在差異被稱為“具身不一致”(因為動作生成往往只是模仿訓練數據,并未真正理解背后原因)。 

為此,團隊引入了強化學習(RL),將可驗證的安全獎勵、教師模型反饋以及人類偏好聚合到一個統一的獎勵模型中。經過對齊后,模型生成的動作變得更符合相應的推理軌跡,不忠實的行動減少了近 60%。例如,當模型推斷要減速停止后再加速時,對齊后的模型會嚴格遵循完整的因果序列,同時顯著降低了接近碰撞率。

3. 前沿探索:從文本推理走向“潛在空間推理”雖然語言文本易于解釋,但在 token 數量和推理時間上并不是最高效的表示,這里算點出了VLA中L真的很耗token,這也是真正VLA當前工程落地的問題。英偉達正在探索在連續的潛在空間(Latent Space)中進行推理。這不僅能帶來2 到 4 倍的推理加速,還能使后訓練優化更加平滑。在復雜的局部可觀察場景(如應對隨時可能過馬路的行人)中,模型甚至展現出了反事實推理和自我調節“思考率”的能力——場景越難,它就會花越多時間進行推演更新,從而實現更好的駕駛性能。

這個就是隱式推理的方法,或者有人叫他世界模型,理想汽車在本次GTC 2026上的演講也分享了,他們下一代MindVLA也將采用,具體可以看我們文章《理想汽車下一代基座模型 Mind VLA-o1的架構和算法應用解析》。

第二部分:量產部署——跨越交互與實時計算的物理瓶頸

現實中,要將這樣一個強大的研究級推理模型真正部署到實車生產中,需要克服系統交互、數據質量以及極高實時性的三大支柱挑戰,因為車端的算力約束擺在前面。

量產中如何解決呢?英偉達的Patrick Liu就這些問題,給出了他們的答案:

1. 多任務產品功能與“模式專家(Mode Expert)”架構為了實現L4級別既能自動駕駛,又具備互動和可解釋性的體驗,量產模型在自主推理之外,新增了兩種模式:

用戶問答模式:為黑盒神經網絡增加了自然語言界面,用戶可以問“你在做什么”、“為什么要慢下來”,極大增強了信任度。

用戶控制模式:用戶可以直接下達“靠邊停車”、“下一條出口下高速”、“稍微快一點”等命令。

為了支撐這三種模式,系統層面引入了一個核心模塊——模式專家(Mode Expert)。它承擔兩大職責:

一是保護性攔截,如果用戶下達有害指令(如“撞上那個垃圾桶”),模式專家會先發制人地拒絕,根本不會傳遞給模型;

二是無縫路由,它將到底該執行哪種模式的決策編碼為一個“極其微小的單一模態 Token”強制輸入給模型。

這種MOE的設計避免了生成額外 Token 帶來的延遲,并且允許模型在必要時推翻原有的導航路線以服從用戶的控制指令。MOE的方法Deepseek在過去兩年中已經證明了其同等算力下的高效性。

2. 生產級別的數據流水線為了產生高質量、行動高度一致的“C數據集”,研發團隊花費了100多次迭代來平衡云端與車端的復雜數據混合結構。除了依賴視覺語言模型(VLM)和經典行為計劃堆棧進行自動標記并使用規則過濾器清理數據外,整個流水線中必須有“人機在環(Human-in-the-loop)的 QA”來嚴格審核所有標簽的準確性和真實性。

3. 實時部署:硬核的 4 倍實時加速技術這是量產最關鍵的一環。車端的重規劃預算是 100 毫秒(即 10 fps),而原始未優化的模型延遲超出了預算大約 4 倍。為了在嚴苛預算內生成所有推理和軌跡 Token,團隊采用了雙管齊下的技術突破:

語言端(推測解碼):對大語言模型使用了推測解碼(Speculative Decoding)技術。利用一個小型的“草稿模型”快速生成可能的 Token,再交由主模型進行并行驗證。因為驗證并行 Token 遠比直接生成快,這實現了 2 到 4 倍的加速。

視覺端(稀疏注意力與定制預訓練):將密集的注意力機制分解為多層稀疏注意力,從而在視覺處理上獲得了約四倍的加速。但由于這種架構改變無法直接使用 Dinov2 等預訓練的密集模型,團隊使用了定制的預訓練流水線(如 Nvidia 的 Radio)來訓練專門適應新架構的快速視覺模型。

最終特征對齊:視覺端的架構改變打破了微調階段語言和視覺原本的協同理解。因此,在多階段訓練配方中,團隊被迫增加了一個額外的對齊階段,將這些特征重新帶回,確保了在極致壓縮延遲的情況下,依然不降低推理和軌跡生成的質量。

結合上述針對模型設計的底層重構以及量產部署的極限工程優化,英偉達成功地將 Alpamayo 1 從前沿研究帶入了真實的汽車生產部署中。

最后,英偉達在本次GTC 2026宣布發布新的 Alpamayo 1.5 模型

最新發布的 Alpamayo 1.5 模型在保持原有 100 億參數規模的基礎上,主要新增了導航和語言對話可以控制輔助駕駛的功能。這個算是非常難的一點。當然除了這些這個公開模型還增加了專門的虛擬仿真套件以及上文提到的CoC自動標簽、推理標簽等數據集。

這些新功能的加入,進一步提升了該模型在實際應用中的靈活性和可控性,算是公版的L4安卓軟件了,可以幫助很多傳統主機廠開啟自研模式,畢竟互聯網公司很多也是這么開啟的。

最后,其實算法是自動駕駛重要的工具,但是自動駕駛產品卻是與大家應用場景交互最深刻的地方,有對自動駕駛產品感興趣的朋友可以點擊Vehicle聯合機械工業出版出品的《自動駕駛產品經理》一書,詳細介紹自動駕駛產品和運營的全流程。

參考資料以及圖片

From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development - 英偉達*未經準許嚴禁轉載和摘錄-

       原文標題 : 英偉達 Alpamayo:基于推理的自動駕駛大模型設計與量產部署全解析

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號