智駕定型之戰:一文看透自動駕駛“端到端”的底層邏輯與架構演進
最近的GTC 2026不管是主機廠的理想、小米、吉利千里科技還是輔助駕駛供應商們元戎、大疆卓馭、文遠都在GTC分享了他們對于自動駕駛算法的研究和應用。
對于自動駕駛算法101高階的關鍵詞無非三個“端到端(End-to-End)”、“世界模型”、“VLA”。這三個詞基本上預示自動駕駛算法路線算是統一確立。
所以,Vehicle將基于本次GTC 2026 內容整理這些算法的邏輯和架構,幫大家看懂當前營銷話術拒絕忽悠,或著入門了解自動駕駛算法。
首先是“端到端”其實中國輔助駕駛從特斯拉在2024年年初推出FSD V12時候,就開始喊“我們也端到端了”。
但發展到2026年的現在,不少人會發現過去的輔助駕駛總讓人覺得像個“新手”,動不動就畫龍、急剎、遇到修路就懵圈?而現在的系統卻越來越像個老司機?這背后的核心秘密,就是端到端算法的全面普及。
今天,沒有枯燥的數學公式,而是用最直白的方式,把這個智駕圈最火的“黑科技”一次性講透。
一、 什么是自動駕駛的端到端(End-to-End, E2E)算法?
自動駕駛端到端大模型,是指基于大規模數據訓練的神經網絡系統,直接從多模態傳感器輸入(如攝像頭、激光雷達等),通過統一模型進行表征學習與決策推理,輸出車輛控制指令(如轉向、加速、制動)
本質上,它是一種將自動駕駛任務視為輸入到輸出的整體映射問題的模型范式,你也可以認為他們共享某種語言進行信息傳遞。所以,談論端到端的時候常常就看到如下一個大圖,一個大模型,光子進去動作出來。
從架構來說,常見的端到端就是一個視覺編碼器(Vision Encoder)加動作解碼器(Action Decoder)的架構。端到端具備快速直覺的響應特點,一般是通過模仿學習,能更好的學到這種擬人化的體驗。
這里就給端到端接下來的發展埋個伏筆,傳統端到端的弊端就是必須要見過的東西,沒見過的就蒙圈,所以一直要給他喂長尾數據,那何時是個頭?
所以后面就基于端到端的基礎上發展出VLA、世界模型等概念。發展出現在所謂的L2++算法可以拓展到L4的說法,因為他可以推理沒見過的,可以自我學習。
不管如何,自動駕駛算法端到端的這種演進背后的行業共識可以總結為:
自動駕駛行業徹底摒棄基于規則的規劃邏輯和人工設計的特征表達,因為人類世界真的太復雜了,即使是交通駕駛看似單一的任務都有規則寫不完的場景。
基于這個端到端的邏輯思維,可以創新算法應用,拓展出更加類人的算法思維可以拓展更好的產品形態。那“端到端”喊了這么久,“端到端”到底有哪些種類?又經歷了哪些迭代?
二、 端到端算法的發展與種類
雖然我們常在宣傳上聽到端到端,但,其實自動駕駛端到端架構在國內業內經歷了三種核心形態的演進。
最先開始的是,兩段式端到端雖然被稱為端到端(通常指整個網絡可以聯合求導和訓練),但它在結構上依然保留了傳統的“感知-規劃”兩段式串聯邏輯。當然沒有人說自己的算法是兩段式端到端,但是從2025年地平線喊一段式端到端之前,基本上不管是小鵬、Momenta叫的出名的量產端到端基本上都可能是兩段式。
他的算法組合架構:傳感器數據 -> 感知編碼器 -> 感知解碼器 -> 輸出顯式人能看懂的結果(如障礙物 Object、車道線 Lane 等) -> 規劃模塊 -> 自車軌跡。
架構特點:規劃模塊完全依賴感知網絡吐出的顯式物理級結果(也就是人類能看懂的目標級信息)來進行決策。
優劣勢:優勢是可解釋性強,出了事故或者畫龍,很容易排查是感知漏檢了還是規劃寫錯了;劣勢是存在嚴重的信息損耗(Information Loss),三維世界被壓縮成了幾個特定的標簽(比如只輸出框和類別),很多對駕駛有用的隱含信息(如行人的微小肢體動作、路面濕滑程度的視覺特征)無法傳遞給規劃模塊。
有人表示,其實嚴格上來講,兩段式端到端應該并不是端到端,只過不國內為了追求營銷效果硬貼上的。
帶顯式感知的一段式端到端,這是一種過渡形態,或者是目前許多追求安全與性能平衡的智駕團隊采用的混合架構。
他的算法組合架構:和兩段式的算法組合一致,不過,它的規劃模塊接收兩路輸入:一路來源于感知編碼器的底層高維特征(Features),另一路來源于感知解碼器的顯式結果(Object/Lane...)。
架構特點:規劃模塊不僅能“看”到傳統的障礙物和車道線,還能直接“看”到未經壓縮的底層神經網絡特征。
優劣勢:既保留了顯式感知帶來的結構化約束(作為一種安全冗余或輔助監督),又引入了豐富的隱式特征,打破了傳統兩段式的信息傳遞瓶頸。
目前這種應該是當前國內端到端的主流形態,一段式端到端輸出的軌跡添加結合顯式感知元素的后處理,大家唯一的區別是后處理多與少的問題,如果一段式做的不好,后處理給多了,不擬人,給少了出事故。
終極端到端,這是最“純粹”的端到端形態,也是目前業界探索的最終極方案(類似于 Tesla FSD V12 的理念)。
他的算法組合架構:傳感器數據 -> 感知編碼器(或基礎模型 Foundation Model)-> 視覺 Token(Visual Tokens) -> 規劃模塊 -> 自車軌跡。
架構特點:完全拋棄顯式感知輸入,規劃模塊直接消化高維的“視覺 Token”,跳過了人類定義的 Object/Lane 概念。此時,感知解碼器(Perception Decoder for HMI)被剝離,它僅僅是為了在車機屏幕上渲染給駕駛員看(HMI),完全不參與車輛的實際駕駛決策。
優劣勢:優勢是真正實現了“無損”的信息傳遞,理論上限極高,模型完全通過數據學習如何直接從像素映射到動作。劣勢是典型的“黑盒(Blackbox)”,可解釋性極差,如果車做了一個奇怪的動作,工程師很難像過去那樣通過 debug 代碼來定位和修復問題,只能靠喂更多針對性的數據來糾正。
這三種端到端的的核心差異在于規劃模塊輸入的信息維度不同,以及顯式感知在整個系統中所占的權重。
發展本質上是一個從“模塊化殘留”向“純粹數據驅動黑盒”演進的過程,原則上的發展趨勢是從上往下損失的信息越來越少。
三、 拆解端到端算法:感知的骨干網絡與感知解碼器
如上文講到的,端到端算法里面是由非常多不同的模塊組合而成,他們配合將傳感器捕獲的信息,盡可能保留進行傳遞,當然這里傳遞的東西可以統稱為視覺信息的Tokens,最終讓執行端精準執行。
那么里面有些什么模塊?這些模塊都是一些什么樣的算法?
其實自動駕駛感知系統處理流程通常是模塊化的接力賽,每個模塊負責不同,通過Tokens進行傳遞。
第一棒:主干網絡(Backbone)——負責“打地基”車上的多個攝像頭拍下原始的 2D 畫面后,首先交由 Backbone 處理,將原始像素點轉化為包含物體邊緣、紋理、顏色等高層語義信息的 2D 特征圖(Feature Maps),這部分常被稱為“視覺分詞器”。常見的主干網絡分為兩類:
基于 CNN(卷積神經網絡)的 Backbone:例如 ResNet 系列(如 ResNet-50, ResNet-101),是行業內最經典、最常用的打底網絡,算力消耗相對可控;還有 VovNet,其特征融合效率很高,是很多頭部智駕團隊在打榜或追求極致性能時非常喜歡的 Backbone。
基于 Transformer 的 Backbone:如 ViT (Vision Transformer) 或 Swin Transformer,具備全局注意力的特性,能提取出更優秀的全局上下文特征,是大模型時代的主流。工程師優化 Backbone 意味著換成感受野更大的版本,以提供高質量素材供后續進行 3D 目標檢測,這個當前的主流算法。
第二棒:感知框架(Neck/Head)——負責“建高樓”像 PETR 或 Sparse4D 這樣的算法負責將基本的圖像特征轉化為具有 3D 甚至 4D(含時間)空間和語義理解的深度特征,從而輸入到整個網絡架構中。
PETR(Position Embedding Transformation - 位置嵌入變換):由于攝像頭拍到的是 2D 圖像,自動駕駛需要知道物體在 3D 世界的具體位置,PETR 利用 3D 位置嵌入技術,直接將 3D 空間位置信息“融合”到 2D Backbone 輸出的圖像特征中。
Sparse 4D:這是一種基于查詢(Query-based)的稀疏感知方法,不顯式地將全圖轉為 3D,而是通過在特征空間中迭代地更新少量的“查詢點”(Queries)來逐漸聚焦和理解環境中的關鍵目標,極其高效地完成 3D 檢測、追蹤和建圖。
第三棒:感知解碼器(Perception Decoder)緊接在感知編碼器之后,任務是從特征中“解碼”出最終感知結果(車在哪、前方有無障礙等)。分為兩大流派:
稀疏頭(Sparse Head / Query-based 方案):核心邏輯是“按圖索驥”。它預先設定一組固定數量的“查詢向量”(Queries,比如 900 個虛擬探測點),投放到特征圖里主動尋找目標,匹配成功則直接輸出目標的 3D 邊界框。代表算法有 DETR3D、PETR、Sparse4D 系列。優點是極其節省算力(跳過空白區域)且擅長追蹤動態目標(如汽車、行人),缺點是無法很好地描述不規則物體(如碎磚塊、異形路障、連綿花壇)。
稠密頭(Dense Head / Dense BEV 方案):核心邏輯是“地毯式搜索”。把車輛周圍 3D 空間強制劃分為密密麻麻的網格(例如 20*20*20 cm的立方格),對每一個網格進行逐一掃描和全量卷積計算。代表算法有 BEVDepth、Occupancy Network(占據網絡)。優點是具備無死角的安全底線(只要占據空間就能掃出異形障礙物)且擅長靜態環境感知(車道線、可行駛區域),缺點是極其消耗算力,需要在大量無效的“空氣網格”上花費計算資源。
以上基本上就是當前端到端感知算法的骨干模塊了,他和規劃模塊的信息傳遞是繼續用token還是提取出了人類熟悉物體,就決定了這個算法是一段式還是兩段式端到端。
四、 拆解端到端算法:生成動作的規劃模塊(Planning)
規劃模塊(Planning Decoder)的核心任務是根據感知特征生成車輛未來幾秒的行駛軌跡(坐標點、速度和航向角)供執行機構執行。
目前主流有三大算法流派:
Reg(Regression / 回歸算法):核心思路是“一步到位”的全局預測。模型看一眼當前環境,一次性、同時輸出未來所有的軌跡點坐標(例如 $t_1, t_2, t_3$ 時刻的 $x,y$ 坐標),就像射箭一樣軌跡瞬間決定。
優缺點:優點是計算速度極快,延遲極低,非常適合車端部署。缺點是難以處理“多解”情況(多模態問題),例如遇到障礙物既能左繞也能右繞時,簡單的回歸算法會試圖“找平均”,畫出一條筆直撞向障礙物的致命軌跡。
AR(Autoregressive / 自回歸算法):核心思路是“走一步,看一步”的串行預測,類似大語言模型生成文字。模型預測出 $t_1$ 的點后,將其作為已知條件喂回給模型去預測 $t_2$,如同“摸著石頭過河”或“詞語接龍”。
優缺點:優點是符合時間序列因果邏輯,動作連貫,且能很好處理“多解”問題(每一步可輸出概率分布供采樣)。缺點是會產生誤差累積(Error Accumulation),“一步錯,步步錯”,且由于必須串行計算,生成速度較慢。
Diffusion(擴散模型):核心思路是“整體打磨”的迭代去噪,是目前最前沿且備受理想、小米等追捧的方案。它在路面上生成隨機毫無邏輯的“噪音軌跡”,然后結合環境特征,在多個步驟中一點一點地修正,像雕刻一樣把粗糙的石頭削去多余部分,最后呈現完美的軌跡。
優缺點:優點是完美解決“多解”博弈(能同時雕刻出截然不同但都合理的軌跡并挑出最好的),且生成的軌跡平順、極具人類質感,能很好滿足車輛動力學約束等物理規律。缺點是計算量大,需要反復迭代,通常需要采用并行解碼(Parallel Decoding)等技術進行加速以實現上車。
總結
有了這種端到端的算法模塊組合,從傳感器的輸入進來的信息,都會被編碼成Token在各個模塊中進行傳遞,這樣盡最大化的減少人為的信息傳遞篩選,之后被編碼成為動作執行。
而,訓練過程也更加簡單了,直接將數據喂給模型訓練,模型根據數據形成所謂的模型參數量,參數量可以簡單理解成“知識”量,知識量更多更細那么對應的模型理論上就越好,要承載更大的參數量那么必須更大的算力芯片。
所以,端到端算法的構建完成,必定會卷模型參數量,卷芯片算力,卷模型應用創新度比如說世界模型、VLA等。
最后,其實算法是自動駕駛重要的工具,但是自動駕駛產品卻是與大家應用場景交互深刻的地方,有對自動駕駛產品感興趣的朋友可以點擊Vehicle聯合機械工業出版出品的《自動駕駛產品經理》一書,詳細介紹自動駕駛產品。
參考資料以及圖片
VLA World Model for Autonomous Driving pdf- 大疆卓馭Xiaozhi Chen
UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽車詹錕
Redefining the Boundaries of Autonomous Driving with Foundation Model pdf - 元戎曹通易
*未經準許嚴禁轉載和摘錄-
原文標題 : 智駕定型之戰:一文看透自動駕駛“端到端”的底層邏輯與架構演進
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













