英偉達(dá) Alpamayo：基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析

2026-03-26 11:08

GTC 2026 上英偉達(dá)對(duì)其開源的 Alpamayo VLA模型進(jìn)行了進(jìn)一步的闡述。其中Marco Pavone代表英偉達(dá)的研究團(tuán)隊(duì)對(duì)就Alpamayo的模型設(shè)計(jì)和最新的因果鏈進(jìn)行了分享，Patrick Liu曾今吳新宙在小鵬的老部下后來(lái)也來(lái)到英偉達(dá)，本次他代表量產(chǎn)端對(duì)Alpamayo落地量產(chǎn)的一些經(jīng)驗(yàn)方法進(jìn)行了一些分享。

本文基于兩位的演講內(nèi)容，對(duì)Alpamayo的模型設(shè)計(jì)和量產(chǎn)經(jīng)驗(yàn)進(jìn)行總結(jié)和分享。

我們之前文章《智駕定型之戰(zhàn)：一文看透自動(dòng)駕駛“端到端”的底層邏輯與架構(gòu)演進(jìn)》也分享過(guò)在自動(dòng)駕駛的發(fā)展歷程中，如何讓AI不僅能“看”和“開”，還能像人類一樣“思考”和“解釋”，是經(jīng)歷了端到端算法普及之后的第二個(gè)突破點(diǎn)。

英偉達(dá)推出的 Alpamayo的亮點(diǎn)就是具有推理能力。本次演講中Marco Pavone 表示Alpamayo 是一個(gè)100億（10B）參數(shù)的端到端、基于推理的視覺(jué)語(yǔ)言動(dòng)作模型（VLA），他是基于英偉達(dá)基礎(chǔ)模型Cosmos Reason構(gòu)建的。

第一部分：模型設(shè)計(jì)，讓 AI 學(xué)會(huì)“因果推理”與“知行合一”

和所有VLA模型類似，Alpamayo 1 接收多攝像頭圖像、用戶命令和導(dǎo)航指引，并輸出三個(gè)關(guān)鍵結(jié)果：推理軌跡、元?jiǎng)幼骱婉{駛軌跡。

這個(gè)模型算法的第一大亮點(diǎn)是“具體推理” --產(chǎn)生類似于人類推理的軌跡，將空間理解和常識(shí)推理與物理動(dòng)作聯(lián)系起來(lái)，為了構(gòu)建這種“具體推理”能力，英偉達(dá)Alpamayo的采用多階段訓(xùn)練流水線：

通用推理：從 Cosmos Reason 開始，利用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)訓(xùn)練一般推理能力。這個(gè)基本上是基礎(chǔ)模型訓(xùn)練的范疇。

軌跡預(yù)訓(xùn)練：在海量駕駛數(shù)據(jù)上預(yù)訓(xùn)練，賦予模型自動(dòng)駕駛的軌跡生成能力。一般從通用基礎(chǔ)模型到專業(yè)自動(dòng)駕駛模型的第一步訓(xùn)練，就是專門的駕駛數(shù)據(jù)訓(xùn)練。

監(jiān)督微調(diào)（SFT）：利用自動(dòng)標(biāo)注的駕駛相關(guān)推理軌跡進(jìn)行微調(diào)，以引出顯式的推理能力。這一步主要是賦予VLA模型基于語(yǔ)言的顯式推理的能力。

強(qiáng)化學(xué)習(xí)（RL）：在 Cosmos生產(chǎn)和修改的場(chǎng)景的 RL 基礎(chǔ)上，改善極具挑戰(zhàn)性情況下的推理，并促進(jìn)各輸出模態(tài)之間的對(duì)齊。

經(jīng)過(guò)以上步驟一個(gè)VLA大模型基本完成，我們之前文章《吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法》有詳細(xì)介紹。

最后模型上車采取知識(shí)蒸餾：將龐大的能力壓縮到適合車端部署的模型中。

整個(gè)訓(xùn)練過(guò)程，有如下難點(diǎn)：

1. 如何突破純文本思維鏈（COT）自動(dòng)標(biāo)注的局限：因果鏈自動(dòng)標(biāo)注在 SFT 階段，最大的挑戰(zhàn)是如何大規(guī)模生成高質(zhì)量的推理標(biāo)簽。傳統(tǒng)的文本思維鏈（COT）自動(dòng)標(biāo)注存在三大致命缺陷：

一是因果混淆，推理軌跡可能會(huì)泄露未來(lái)信息，比如提前說(shuō)“銀色SUV將在以后切入”；

二是行為描述模糊，無(wú)法給出具體的駕駛操作；

三是膚淺推理，描述缺乏與本車行為直接因果聯(lián)系的上下文。

為了解決這些問(wèn)題，英偉達(dá)采用“因果鏈自動(dòng)標(biāo)注流水線”的方式，來(lái)?yè)羝七@個(gè)痛點(diǎn)：

錨定關(guān)鍵幀：將推理生成嚴(yán)格錨定在關(guān)鍵決策時(shí)刻（如交通燈變綠瞬間），確保推理過(guò)程只包含該關(guān)鍵幀之前的因素，杜絕未來(lái)信息泄露。

封閉決策詞匯表：將決策分為縱向和橫向類型，并建立明確的詞匯表，確保使用精確術(shù)語(yǔ)描述行為，消除模糊性。

因果鏈模板：引導(dǎo)模型確保每個(gè)語(yǔ)句都符合因果鏈邏輯，阻止膚淺的推理。

英偉達(dá)的Marco Pavone表示通過(guò)從非結(jié)構(gòu)化思維鏈切換到結(jié)構(gòu)化因果鏈的方法，給顯式推理帶來(lái)了驚人的121% 的準(zhǔn)確性提升。模型在處理捕捉復(fù)雜運(yùn)動(dòng)行為和分布外視覺(jué)上下文的“長(zhǎng)尾場(chǎng)景”時(shí)，軌跡位移（平均ADE）減少了約12%，證明推理在復(fù)雜的邊緣場(chǎng)景中收益巨大。

2. 消除“具身不一致”：強(qiáng)化學(xué)習(xí)后訓(xùn)練對(duì)齊模型會(huì)推理了，但如果“想的是向左，開的卻是向右”怎么辦？這種思維鏈推理與模型直接輸出的行動(dòng)之間的潛在差異被稱為“具身不一致”（因?yàn)閯?dòng)作生成往往只是模仿訓(xùn)練數(shù)據(jù)，并未真正理解背后原因）。

為此，團(tuán)隊(duì)引入了強(qiáng)化學(xué)習(xí)（RL），將可驗(yàn)證的安全獎(jiǎng)勵(lì)、教師模型反饋以及人類偏好聚合到一個(gè)統(tǒng)一的獎(jiǎng)勵(lì)模型中。經(jīng)過(guò)對(duì)齊后，模型生成的動(dòng)作變得更符合相應(yīng)的推理軌跡，不忠實(shí)的行動(dòng)減少了近 60%。例如，當(dāng)模型推斷要減速停止后再加速時(shí)，對(duì)齊后的模型會(huì)嚴(yán)格遵循完整的因果序列，同時(shí)顯著降低了接近碰撞率。

3. 前沿探索：從文本推理走向“潛在空間推理”雖然語(yǔ)言文本易于解釋，但在 token 數(shù)量和推理時(shí)間上并不是最高效的表示，這里算點(diǎn)出了VLA中L真的很耗token，這也是真正VLA當(dāng)前工程落地的問(wèn)題。英偉達(dá)正在探索在連續(xù)的潛在空間（Latent Space）中進(jìn)行推理。這不僅能帶來(lái)2 到 4 倍的推理加速，還能使后訓(xùn)練優(yōu)化更加平滑。在復(fù)雜的局部可觀察場(chǎng)景（如應(yīng)對(duì)隨時(shí)可能過(guò)馬路的行人）中，模型甚至展現(xiàn)出了反事實(shí)推理和自我調(diào)節(jié)“思考率”的能力——場(chǎng)景越難，它就會(huì)花越多時(shí)間進(jìn)行推演更新，從而實(shí)現(xiàn)更好的駕駛性能。

這個(gè)就是隱式推理的方法，或者有人叫他世界模型，理想汽車在本次GTC 2026上的演講也分享了，他們下一代MindVLA也將采用，具體可以看我們文章《理想汽車下一代基座模型 Mind VLA-o1的架構(gòu)和算法應(yīng)用解析》。

第二部分：量產(chǎn)部署——跨越交互與實(shí)時(shí)計(jì)算的物理瓶頸

現(xiàn)實(shí)中，要將這樣一個(gè)強(qiáng)大的研究級(jí)推理模型真正部署到實(shí)車生產(chǎn)中，需要克服系統(tǒng)交互、數(shù)據(jù)質(zhì)量以及極高實(shí)時(shí)性的三大支柱挑戰(zhàn)，因?yàn)檐嚩说乃懔s束擺在前面。

量產(chǎn)中如何解決呢？英偉達(dá)的Patrick Liu就這些問(wèn)題，給出了他們的答案：

1. 多任務(wù)產(chǎn)品功能與“模式專家（Mode Expert）”架構(gòu)為了實(shí)現(xiàn)L4級(jí)別既能自動(dòng)駕駛，又具備互動(dòng)和可解釋性的體驗(yàn)，量產(chǎn)模型在自主推理之外，新增了兩種模式：

用戶問(wèn)答模式：為黑盒神經(jīng)網(wǎng)絡(luò)增加了自然語(yǔ)言界面，用戶可以問(wèn)“你在做什么”、“為什么要慢下來(lái)”，極大增強(qiáng)了信任度。

用戶控制模式：用戶可以直接下達(dá)“靠邊停車”、“下一條出口下高速”、“稍微快一點(diǎn)”等命令。

為了支撐這三種模式，系統(tǒng)層面引入了一個(gè)核心模塊——模式專家（Mode Expert）。它承擔(dān)兩大職責(zé)：

一是保護(hù)性攔截，如果用戶下達(dá)有害指令（如“撞上那個(gè)垃圾桶”），模式專家會(huì)先發(fā)制人地拒絕，根本不會(huì)傳遞給模型；

二是無(wú)縫路由，它將到底該執(zhí)行哪種模式的決策編碼為一個(gè)“極其微小的單一模態(tài) Token”強(qiáng)制輸入給模型。

這種MOE的設(shè)計(jì)避免了生成額外 Token 帶來(lái)的延遲，并且允許模型在必要時(shí)推翻原有的導(dǎo)航路線以服從用戶的控制指令。MOE的方法Deepseek在過(guò)去兩年中已經(jīng)證明了其同等算力下的高效性。

2. 生產(chǎn)級(jí)別的數(shù)據(jù)流水線為了產(chǎn)生高質(zhì)量、行動(dòng)高度一致的“C數(shù)據(jù)集”，研發(fā)團(tuán)隊(duì)花費(fèi)了100多次迭代來(lái)平衡云端與車端的復(fù)雜數(shù)據(jù)混合結(jié)構(gòu)。除了依賴視覺(jué)語(yǔ)言模型（VLM）和經(jīng)典行為計(jì)劃堆棧進(jìn)行自動(dòng)標(biāo)記并使用規(guī)則過(guò)濾器清理數(shù)據(jù)外，整個(gè)流水線中必須有“人機(jī)在環(huán)（Human-in-the-loop）的 QA”來(lái)嚴(yán)格審核所有標(biāo)簽的準(zhǔn)確性和真實(shí)性。

3. 實(shí)時(shí)部署：硬核的 4 倍實(shí)時(shí)加速技術(shù)這是量產(chǎn)最關(guān)鍵的一環(huán)。車端的重規(guī)劃預(yù)算是 100 毫秒（即 10 fps），而原始未優(yōu)化的模型延遲超出了預(yù)算大約 4 倍。為了在嚴(yán)苛預(yù)算內(nèi)生成所有推理和軌跡 Token，團(tuán)隊(duì)采用了雙管齊下的技術(shù)突破：

語(yǔ)言端（推測(cè)解碼）：對(duì)大語(yǔ)言模型使用了推測(cè)解碼（Speculative Decoding）技術(shù)。利用一個(gè)小型的“草稿模型”快速生成可能的 Token，再交由主模型進(jìn)行并行驗(yàn)證。因?yàn)轵?yàn)證并行 Token 遠(yuǎn)比直接生成快，這實(shí)現(xiàn)了 2 到 4 倍的加速。

視覺(jué)端（稀疏注意力與定制預(yù)訓(xùn)練）：將密集的注意力機(jī)制分解為多層稀疏注意力，從而在視覺(jué)處理上獲得了約四倍的加速。但由于這種架構(gòu)改變無(wú)法直接使用 Dinov2 等預(yù)訓(xùn)練的密集模型，團(tuán)隊(duì)使用了定制的預(yù)訓(xùn)練流水線（如 Nvidia 的 Radio）來(lái)訓(xùn)練專門適應(yīng)新架構(gòu)的快速視覺(jué)模型。

最終特征對(duì)齊：視覺(jué)端的架構(gòu)改變打破了微調(diào)階段語(yǔ)言和視覺(jué)原本的協(xié)同理解。因此，在多階段訓(xùn)練配方中，團(tuán)隊(duì)被迫增加了一個(gè)額外的對(duì)齊階段，將這些特征重新帶回，確保了在極致壓縮延遲的情況下，依然不降低推理和軌跡生成的質(zhì)量。

結(jié)合上述針對(duì)模型設(shè)計(jì)的底層重構(gòu)以及量產(chǎn)部署的極限工程優(yōu)化，英偉達(dá)成功地將 Alpamayo 1 從前沿研究帶入了真實(shí)的汽車生產(chǎn)部署中。

最后，英偉達(dá)在本次GTC 2026宣布發(fā)布新的 Alpamayo 1.5 模型

最新發(fā)布的 Alpamayo 1.5 模型在保持原有 100 億參數(shù)規(guī)模的基礎(chǔ)上，主要新增了導(dǎo)航和語(yǔ)言對(duì)話可以控制輔助駕駛的功能。這個(gè)算是非常難的一點(diǎn)。當(dāng)然除了這些這個(gè)公開模型還增加了專門的虛擬仿真套件以及上文提到的CoC自動(dòng)標(biāo)簽、推理標(biāo)簽等數(shù)據(jù)集。

這些新功能的加入，進(jìn)一步提升了該模型在實(shí)際應(yīng)用中的靈活性和可控性，算是公版的L4安卓軟件了，可以幫助很多傳統(tǒng)主機(jī)廠開啟自研模式，畢竟互聯(lián)網(wǎng)公司很多也是這么開啟的。

最后，其實(shí)算法是自動(dòng)駕駛重要的工具，但是自動(dòng)駕駛產(chǎn)品卻是與大家應(yīng)用場(chǎng)景交互最深刻的地方，有對(duì)自動(dòng)駕駛產(chǎn)品感興趣的朋友可以點(diǎn)擊Vehicle聯(lián)合機(jī)械工業(yè)出版出品的《自動(dòng)駕駛產(chǎn)品經(jīng)理》一書，詳細(xì)介紹自動(dòng)駕駛產(chǎn)品和運(yùn)營(yíng)的全流程。

參考資料以及圖片

From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development - 英偉達(dá)*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

原文標(biāo)題 : 英偉達(dá) Alpamayo：基于推理的自動(dòng)駕駛大模型設(shè)計(jì)與量產(chǎn)部署全解析