訂閱
糾錯
加入自媒體

為什么無圖智駕不使用SLAM建立局部語義地圖?

2026-04-29 10:51
智駕最前沿
關注

智駕無圖的概念已經在自動駕駛領域流傳頗深,過去幾年,自動駕駛高度依賴高精地圖,但現在更追求像人一樣開車,也就是在不依賴預設地圖的情況下,實時感知并理解周圍環境。

在這個過程中,BEV、Occupancy(占用網絡)和Transformer的組合成了主流,而曾經在機器人領域立下汗馬功勞的SLAM方案,卻沒有在智駕領域大放異彩。為什么無圖智駕不使用SLAM建立局部語義地圖?

為什么傳統的幾何建圖跟不上變化?

傳統的SLAM方案(即即時定位與地圖構建)核心邏輯是基于幾何約束的。它依賴于如系統提取出路邊建筑的邊緣、交通標志的轉角等特征點的匹配,然后通過復雜的數學公式計算這些點在三維空間中的坐標。這種方案在處理靜態、剛性的環境時會非常精確,但在城市交通這種動態、非剛性的環境下,幾何邏輯就會遭遇嚴重的挑戰。

因為SLAM方案在構建局部語義地圖時,本質上是在做一種拼圖工作。它需要先識別出圖像里的車、人、路緣石,然后嘗試把這些帶語義標簽的物體投影到地圖坐標系里。一旦圖像中出現了遮擋,或者是車輛在顛簸中導致相機角度發生了微小的偏移,幾何投影就會產生錯位,導致地圖里的物體出現重影或位置漂移。更關鍵的是,這種方案對算力的消耗分布不均,隨著環境復雜度的提升,維護一個精細的局部特征地圖會占用大量的內存和處理時間。

在此基礎上,語義斷層也是一個無法回避的問題。傳統的語義地圖方案要求系統必須先看懂物體,才能將其畫進地圖。但在實際駕駛中,我們會遇到各種無法被歸類的東西,比如路邊垂下的樹枝、灑在地上的建筑垃圾,或者是形狀怪異的特種車輛。SLAM方案如果無法給這些物體貼上準確的標簽,它們在局部地圖里可能就是缺失的,這對自動駕駛的高安全要求來說是一個巨大的隱患。

Transformer是如何重塑空間感的?

BEV方案之所以在自動駕駛領域崛起,核心在于它引入了Transformer這種能夠處理全局關聯的架構,其徹底改變了空間特征的轉化方式。在傳統的方案中,我們要把2D圖像轉為3D空間,需要依賴深度估計,也就是先猜每一個像素點離我有多遠,再把它投射出去。但猜深度本身就是一個極不穩定的過程,容易受到光影、雨霧的干擾。

Transformer引入了主動詢問的機制。在BEV空間里,算法會先預設好一張空的鳥瞰圖畫布,畫布上的每一個位置(我們稱之為Query,即查詢量)都會主動去向所有的攝像頭畫面打聽,在你們的視野里,有沒有哪個像素的信息是屬于我這個地理位置的?這種機制不再強求系統去精準計算深度,而是通過大規模數據的學習,讓系統建立起一種類似于人類的空間感。它知道當左側相機出現一個車頭,后側相機出現一個車尾時,它們在BEV畫布上應該匯聚成同一個物理實體的特征。

這種方式的最大優勢在于它能夠實現特征級的融合,而不是結果級的拼接。過去我們是把每個相機算出的結果強行湊在一起,現在我們是在最底層的特征階段就把360度的信息融為一體。由于Transformer具有全局注意力機制,它甚至可以利用道路的整體輪廓來推斷被遮擋區域的情況。如當一輛貨車擋住了側方視角時,系統可以結合前后的車道線走向,在BEV空間里腦補出貨車后方的道路結構,這種邏輯的連貫性是傳統SLAM方案難以企及的。

占用網絡如何解決感知死角?

如果說BEV和Transformer聯手解決了視野重構與空間還原的問題,讓車輛看清了世界長什么樣以及空間怎么分布,那么占用網絡存在的意義,就是通過判定空間是否被占據,繞過了傳統識別方案中必須先給物體分類的要求,解決了因為系統叫不出物體名字而造成的感知漏洞。

在SLAM語義地圖里,如果系統識別不出一個物體是什么,它可能就會忽略這個物體的物理存在。而占用網絡將空間細分為一個個微小的體素塊,它的任務極其純粹,即判斷每一個小方塊是被占據了,還是空的。

這種基于幾何占用而非語義識別的邏輯,為智駕系統提供了一層物理保底。它把世界看作是一個充滿障礙物的物理空間,而不是一張貼滿標簽的分類表。當車輛行駛在路上,無論前方是一個倒下的路標、一堆灑落的紙箱,還是一輛橫著的事故車,占用網絡都能實時反饋出那片空間是不可逾越的。它不需要知道那個東西叫什么,只需要知道那里的物理空間被占據了,從而引導車輛進行避讓。

同時,這種方案還帶來了極高的時空連續性。通過將Transformer處理后的特征注入到占用網絡中,系統可以存儲過去幾個幀的信息,形成帶記憶的4D空間感知。即使某個障礙物在某一瞬間被其他車輛遮擋了,系統依然記得在那個體素塊里曾經檢測到了物體,并能根據物體的運動趨勢預測它現在的位置。這種對物理世界的連續理解能力,讓無圖智駕方案在處理復雜路口和突發狀況時,表現得遠比依賴靜態語義地圖的方案要從容和安全。

為什么這種組合成為了必然選擇?

BEV、Transformer和Occupancy的結合,實際上是將原本支離破碎的感知環節統一到了同一個坐標系和同一種數學語言下。SLAM方案之所以沒有在智駕領域得到應用,本質上是因為它試圖在一個不斷變動的世界里建立一套永恒不變的坐標,這在復雜的城市環境中成本太高、容錯率太低。

自動駕駛需要擁抱不確定性,通過利用Transformer的強大擬合能力去處理相機間的視差和遮擋,利用BEV視角提供統一的決策基礎,再利用占用網絡補齊對未知物體的識別短板,可以讓自動駕駛實現老司機的駕駛能力。這種架構不僅對傳感器的安裝位置、型號具有更強的兼容性,更重要的是,它極大簡化了感知與下游規控環節的對接流程。

當規控系統拿到的不再是幾個飄忽不定的語義標簽和一堆散亂的點云,而是一張高清、實時、且包含了物理占用信息的3D鳥瞰圖時,路徑規劃就會變得像玩賽車游戲一樣直觀。這種從底層邏輯上的簡化與重構,正是無圖智駕能夠快速落地、并表現出超越人類司機反應潛力的根本原因,也是眾多車企敢于選擇無圖的原因。

-- END --

       原文標題 : 為什么無圖智駕不使用SLAM建立局部語義地圖?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號