占用網絡為什么讓自動駕駛感知更精準？

2026-01-19 11:56

自動駕駛技術的演進過程，本質上是人類試圖賦予機器“理解物理世界幾何結構”能力的過程。在過去很長一段時間里，感知系統高度依賴于對特定目標的“分類與識別”。如果系統在訓練集中見過某種車輛或行人，它就能在道路上通過拉出二維或三維的邊界框（Bounding Box）對其進行定位。然而，這種基于目標識別的方法在面對真實世界無窮無盡的“奇葩”障礙物時，逐漸顯露出疲態。

為了打破這一瓶頸，感知算法開始從識別目標轉向感知空間，占用網絡（Occupancy Network）便是在這種背景下應運而生的一種算法。它不再糾結于物體“是什么”，而是直接回答空間“是否被占用”，這種視角的轉變不僅將感知維度從2D升維至3D，更極大地提升了自動駕駛系統的泛化能力和安全性

為什么自動駕駛需要理解“空間”

在自動駕駛感知的早期階段，主要使用“HydraNet”的架構，利用多攝像頭融合以及Transformer技術將二維圖像轉化為對周圍環境的3D感知。雖然這種方式已經能夠生成鳥瞰圖（BEV）視角的感知結果，但它依然深受“方盒子”模型的束縛。

傳統的感知系統傾向于用規則的長方體包裹目標，但現實世界中的物體形狀極不規則，像是帶有細長吊臂的起重機、滿載貨物且形狀奇特的板車，或者是道路上散落的紙箱和破碎輪胎皮等非常常見。如果模型僅僅被訓練識別轎車和卡車，那么對于這些從未見過的異形障礙物，它很可能會因為無法分類而選擇視而不見，這就是行業內常說的感知漏檢問題。

此外，早期的BEV視角主要關注地面的橫向和縱向空間，卻在Z軸方向上缺失關鍵的高度信息。這導致車輛在面對如立交橋的邊緣、限高桿或者是傾斜的電線桿等半空中的物體時，難以做出精準的判斷。

占用網絡通過將世界劃分為微小的體素（Voxel），即三維空間里的像素點，徹底解決了這一痛點。系統會預測每一個微小體素是“空閑”狀態還是“被占用”狀態，這種基于體積感知的方式不僅能精準識別物體的運動狀態差異，還能捕捉到物體極其細微的幾何結構。可以說，占用網絡讓自動駕駛車輛擁有了一種“空間直覺”，即便它不認識眼前的物體到底是什么，但只要它占據了空間，系統就能感知到它的物理存在并進行避讓。

占用網絡與傳統邊界框感知方案優勢對比

這種從“目標導向”到“空間導向”的轉變，實際上是機器人學中占用網格映射（Occupancy Grid Mapping）思想在深度學習時代的體現。它不再追求對物體語義的完美解讀，而是確保對物理世界幾何連續性的準確把握。這種策略在處理“長尾場景”（Edge Cases）時可以表現出極強的韌性，因為無論外界環境如何變化，物理法則是不變的，即任何實體都必須占據一定的空間。

占用網絡的底層架構

要支撐起如此龐大的實時三維感知任務，占用網絡背后的神經網絡架構極其復雜。以特斯拉在AI Day 2022上公開的技術方案為例，其流程始于高效的骨干網絡（如RegNet）和特征融合模塊（如BiFPN），其從多個環視攝像頭中提取高維的二維圖像特征。隨后，模型通過引入空間注意力機制（Spatial Attention），利用帶有3D空間位置信息的空間查詢（Spatial Query）在多相機生成的圖像特征中進行跨相機融合。這個過程可以被視為一種數學上的升維操作，能將離散的、存在畸變的二維圖像數據重構到統一的三維向量空間中。

在這個3D向量空間內，系統引入了時序融合（Temporal Fusion）來處理動態環境。特斯拉的方案設計了兩套特征隊列，時序特征隊列每27毫秒更新一次特征，用于捕捉快速運動目標的連貫性；而空間特征隊列則根據車輛行駛的固定距離來更新，這在車輛停止（如等紅綠燈）時尤為重要，能防止模型因為靜止而“忘記”之前的空間信息。為了整合這些時序信息，通過使用空間RNN（Spatial RNN）模塊，將隱狀態（Hidden State）組織成一個二維或三維網格，隨著車輛的移動不斷更新周圍環境的“記憶”。

在解碼階段，占用網絡并不只是輸出一張體格化的地圖。為了打破固定分辨率的限制，模型引入了隱式坐標查詢（Implicit Queryable MLP Decoder）。這意味著，對于空間中的任意坐標(x, y, z)，模型都能解碼出該點的多種信息。這種設計賦予了感知系統極高的靈活性，它既能提供粗略的全景感知，也能在關鍵區域進行高密度的細粒度采樣。

除了特斯拉的路徑，還衍生出了如OccNet和TPVFormer等不同的變體。OccNet采用了級聯體素解碼器（Cascade Voxel Decoder），這種架構不再是一次性生成高分辨率的3D體積，而是通過多級細化的方式逐步豐富高度信息和體素細節，從而在計算效率和感知精度之間找到了平衡。它還使用了專門為3D空間優化的三維可變形注意力機制（3D Deformable Attention），這使得系統在處理行人、交通錐等細小障礙物時的mIoU（平均交并比）表現顯著優于傳統的BEV方法。

為了進一步提升感知的準確性，像是理想、華為等國內廠商則選擇了視覺與激光雷達的深度融合。理想的BEV融合算法在攝像頭采集的豐富語義基礎上，加入了激光雷達的高精度測距數據。激光雷達能夠在200米外提前探測到危險目標，并利用智能濾噪算法識別雨霧、前車尾氣等環境噪點，其反應速度通常僅為0.1秒，遠超人類駕駛員的0.6 秒。在這種融合架構下，占用網絡被賦予了更強的魯棒性，即便在黑夜、隧道煙霧或極端天氣下攝像頭失效時，基于激光雷達點云生成的空間占用信息依然能確保AEB等安全功能的正常觸發。

下表對比了主流占用網絡技術實現路徑的差異：

這些算法演進的背后，其實是在“計算成本”與“信息密度”之間進行取舍。雖然三維體素能提供最豐富的信息，但如果將空間劃分得太細，計算量會呈指數級爆炸。隱式查詢和級聯解碼等技術的出現，正是為了在有限的車載算力下，實現對三維世界的高質量重構。

占用網絡如何改變車輛的“大腦決策”

如果說感知是自動駕駛的“眼睛”，那么規劃與控制（PnC）就是車輛的“大腦”。在過去，感知與規控之間存在一條很深的鴻溝，感知輸出的是一堆帶有噪聲的標簽，而規控則基于一套硬編碼的邏輯規則。占用網絡的引入，正在通過一種“統一表征”的方式填補這一鴻溝。由于占用網絡直接輸出物理世界的幾何占用狀態，規劃模型可以利用這些數據生成代價地圖（Cost Map），而不再需要復雜的中間轉換層。

在局部路徑規劃中，系統需要評估成千上萬條候選軌跡的安全性。傳統的做法是針對每個識別出的物體進行碰撞檢測，這在物體數量眾多的擁堵路口將非常耗時。而基于占用網絡，規劃器可以使用時空占用網格圖（SOGM）來預測周圍空間在未來短時間內的狀態演變。這種預測不再是簡單的線性外推，而是結合了物體的運動流信息（Flow），能準確預判行人的走位或車輛的加塞。通過在Frenet坐標系中進行軌跡采樣，并結合動態占用地圖進行實時評估，車輛通過這種方式可以選出一條既舒適又安全的最佳路徑。

占用網絡帶來的更深層次的變革在于規劃算法的“物理化”。一些技術方案提出將人工勢場法（APF）作為物理啟發引導嵌入到神經網絡的訓練中。這意味著預測出的占用圖不僅要符合視覺特征，還要符合物理規律。例如，物體不能瞬間位移，兩個實體不能在同一時間占據同一空間。這種物理約束的加入，使得規劃生成的軌跡更加平滑且符合人類駕駛直覺。在復雜的城市環境中，系統甚至可以利用軟行為博弈（Soft Actor-Critic,SAC）算法，通過多頻道代價地圖觀察（M-COST）來學習處理不可預見的障礙物行為，從而實現在動態環境中的實時自適應規劃。

此外，占用網絡產生的連續幾何表示（如神經帶符號距離場ONDP）為避障提供了毫米級的精度。這種高精度的幾何反饋對于狹窄空間的穿行至關重要。規劃器通過差異化距離查詢，可以快速計算車輛邊緣與最近障礙物之間的梯度信息，引導控制系統做出微小的轉向修正，這在自動泊車或在狹窄巷道通行中具有巨大的應用價值。

占用網絡對規控系統的賦能主要體現在以下幾個環節：

統一的輸入源：將靜態道路結構（如護欄、馬路牙子）與動態障礙物（行人、車輛）統一在同一個體素空間中，消除了跨模塊處理產生的誤差累積。

預測與感知的解耦：感知模塊輸出的Flow信息直接包含了物體的速度和運動趨勢，使得規劃模塊在做短時預測（通常為2秒時域）時更加精準。

安全性閉環：通過物理啟發式學習，系統能識別出“不可通行區域”的邊界，即便這些區域是由未分類的異形物體構成的，也能確保車輛維持足夠的安全余量。

這種感知與規控的融合，正是端到端（End-to-End）自動駕駛的必經之路。在特斯拉的FSD V12架構中，占用網絡提供的3D空間理解作為底層基礎，支撐起了一個單一的深度學習模型，實現了從原始圖像輸入到駕駛指令輸出的直接映射。這種架構不再依賴于數百萬行的人寫規則，而是通過學習海量優秀人類駕駛員的行為數據，自動習得在復雜空間環境下的駕駛策略。

產業落地與未來圖景

占用網絡雖然在理論上極具吸引力，但在實際的大規模產業落地中，卻面臨著數據標注和實時算力的雙重挑戰。在傳統感知時代，人工拉框標注障礙物還是可行的，但對于三維空間的每一個體素進行分類標注，顯然超出了人工的極限。為此，行業開發出了4D自動標注技術。特斯拉利用Dojo超級計算機和定制的D1芯片，通過離線重構技術（如NeRF）對行駛過的歷史路徑進行全量3D重建，可以生成極高精度的真值（Ground Truth）來監督在線網絡的訓練。這種自動標注系統只需12小時就能處理10,000次駕駛行程的數據，其效率相當于500萬小時的人工勞動。

在硬件層面，運行高幀率的占用網絡需要極其強大的計算底座。特斯拉的FSD芯片通過分布式并行計算，將神經網絡執行分配到獨立的系統上，從而保證了實時性。而像理想等廠商采用的雙英偉達Orin-X平臺，則提供了高達508TOPS的總算力，為復雜的BEV融合算法和舒適度COST預測模型提供了充足的余量。這種“算力換空間理解”的邏輯，正是當前智能汽車硬件競賽的核心驅動力。

未來，自動駕駛的感知將進一步細粒度化與通用化。隨著OpenOcc等高質量3D占用基準測試集的發布，算法模型對細小物體的捕捉能力將持續提升。同時，占用網絡將不再局限于感知障礙物，而是會朝著語義占據（Semantic Occupancy）方向演進，即不僅可以知道車輛前方有東西，還知道那是草地、水坑還是堅硬的巖石，從而指導車輛在非鋪裝路面上進行決策。

最后的話

回望自動駕駛的發展史，我們正在經歷一個從“看圖識字”到“空間感知”的變革期。占用網絡不僅是一項技術的發明，更是一種人工智能解決物理世界問題方式的最新解法。其實想讓機器像人一樣駕駛，要做的就是要讓機器建立起對“存在”與“虛空”最直觀、最準確的把握。而在這一進程中，占用網絡無疑是那顆點亮3D世界感知的燈泡，讓自動駕駛普及成為可能。

-- END --

原文標題 : 占用網絡為什么讓自動駕駛感知更精準？