自動駕駛系統(tǒng)如何應對類似井蓋缺失的場景？

2026-01-22 10:34

最近有小伙伴提問，現(xiàn)階段智駕能否應對井蓋缺失場景，比如路上井蓋被盜，車輛開過去會陷下去，那么端到端能不能識別和避開？

其實在城市道路的復雜環(huán)境中，井蓋缺失、路面開裂或深坑等被稱為“負障礙物”的場景，這類場景始終是智能駕駛感知領域的頑疾。與行人、車輛、交通錐等高出地平面的“正障礙物”不同，井蓋缺失不僅在視覺特征上具有極強的隱蔽性，在物理探測原理上也存在天然的探測難度。對于目前的智能駕駛系統(tǒng)而言，能否識別并避開一個缺失的井蓋，不僅取決于硬件傳感器的精度，更涉及感知架構從規(guī)則驅動向數(shù)據(jù)驅動的根本性轉變。隨著端到端技術的廣泛應用，行業(yè)正試圖通過模仿人類駕駛員的整體決策邏輯，來化解這些傳統(tǒng)算法難以覆蓋的長尾場景。

負障礙物為什么難以探測？

智能駕駛系統(tǒng)識別缺失井蓋的首要難點在于物理層面的感知受限。在自動駕駛中，負障礙物指的是低于行駛平面的幾何空洞。像是激光雷達和攝像頭這類傳統(tǒng)的探測手段，在面對負障礙物這類物體時都會遭遇嚴重的“掠射角”問題。當車輛在道路上行駛時，傳感器安裝的高度通常在1.5米至2米之間，而需要探測的障礙物卻位于幾十米外的地面。這就導致傳感器發(fā)出的探測信號或光線只能以極小的角度照射向地面，這會導致感知不完全。

激光雷達在探測物體時依靠的是激光點的反射。當激光束照射到平整路面時，會形成連續(xù)的點云分布。如果前方出現(xiàn)一個缺失的井蓋，激光束理論上會穿過洞口射向坑底或坑壁，產(chǎn)生明顯的距離突變。然而，激光雷達的探測精度會隨著距離的增加呈現(xiàn)出平方級的衰減。

根據(jù)物理建模分析，正障礙物在傳感器視野中所占的張角與距離成反比，而負障礙物所占的張角則與距離的平方成反比。這意味著，一旦距離稍遠，缺失井蓋在激光雷達視野中可能只剩下寥寥數(shù)個點，甚至完全消失在點云的稀疏間隙中。此外，由于路面本身存在顛簸，許多點云處理算法為了保證系統(tǒng)的穩(wěn)定性，會使用濾波器來平滑掉微小的距離跳變。在這種情況下，真實的深坑風險往往會被算法誤認為是傳感器的隨機噪聲而被直接過濾掉。

視覺傳感器在面對缺失井蓋時同樣會出現(xiàn)很多問題。攝像頭主要依賴圖像的顏色對比度和紋理特征來識別障礙物。在理想光照條件下，缺失井蓋形成的暗色區(qū)域與灰色路面有一定區(qū)分度，像是卷積神經(jīng)網(wǎng)絡這類的深度學習模型可以學習這種特定的模式。

但在現(xiàn)實中，雨后路面的積水倒影、建筑物的深色陰影、新修補的路面瀝青，甚至是一個散落的黑色塑料袋，其視覺特征都與缺失的井蓋極其相似。這種視覺上的二義性導致單目攝像頭很難在遠距離給出確定的深度判斷。

此外，當車輛高速行駛時，視覺系統(tǒng)對地面幾何形狀的微小塌陷感知能力極弱，有時只有當車輛行駛到近處，陰影的幾何結構發(fā)生明顯變化時，系統(tǒng)才能意識到風險的存在，但此時留給車輛執(zhí)行制動或避讓的時間通常已經(jīng)不足1.5秒，這很難讓自動駕駛系統(tǒng)反應過來。

為了緩解物理層面的探測缺陷，有些技術方案提出了改進的硬件布置方案，如將激光雷達以40度左右的傾角向下安裝，將盲區(qū)從3米縮小到0.2米左右，并顯著提升地面點云的密度。然而，對于乘用車而言，這種布置會影響遠距離正障礙物的探測。因此，目前的智駕系統(tǒng)更多依賴于多模態(tài)傳感器融合，即利用激光雷達提供精確但稀疏的距離參考，再結合攝像頭捕捉到的高分辨率紋理，通過算法將兩者的優(yōu)勢互補。

從顯式識別到占用網(wǎng)絡的維度跨越

傳統(tǒng)的自動駕駛感知邏輯高度依賴于“白名單”，即需要為自動駕駛系統(tǒng)定義如汽車、行人、自行車、交通錐等各種障礙物類型。如果路面上出現(xiàn)了一個不在白名單內的物體，或者一個形狀怪異的井蓋缺失口，傳統(tǒng)的規(guī)則模型可能會將其歸類為“背景”而視而不見。這種基于目標檢測的模式在處理缺失井蓋這類“非標準障礙物”時表現(xiàn)就不盡如人意。

占用網(wǎng)絡（Occupancy Network）的引入標志著感知維度的一次跨越。這項技術不再試圖識別前方“是什么”，而是關注空間“是否被占用”。系統(tǒng)將車輛周圍的三維空間切分為數(shù)以萬計甚至百萬計的微小體素（類似于三維的像素點）。通過融合攝像頭和激光雷達的數(shù)據(jù)，系統(tǒng)會實時預測每一個體素被占據(jù)的概率。在一個平整的道路場景中，路面以上的體素應該是空的，而路面以下的體素是滿的。當路面出現(xiàn)井蓋缺失時，該區(qū)域的幾何平面就會發(fā)生坍縮，原本應該處于“路面層”的體素會顯示出不尋常的空缺或下陷。這種感知方式不依賴于預先定義的標簽，因此對于從未見過的深坑或道路損毀具有極強的通用性。

以華為的ADS 3.0系統(tǒng)為例，其核心的GOD（通用障礙物識別）神經(jīng)網(wǎng)絡已經(jīng)實現(xiàn)了從2D感知向3D語義占用的全面演進。該系統(tǒng)不僅能識別道路上的具體物體，還能對整個場景的幾何結構進行實時建模。通過GOD網(wǎng)絡，車輛能夠理解路面的連續(xù)性，識別出即便是極小尺寸的異常凸起或凹陷。如果系統(tǒng)檢測到前方的路面體素概率分布發(fā)生了異常跳變，即使無法確定那是缺失的井蓋還是路面裂縫，也會將其標記為不可通行的區(qū)域，從而觸發(fā)避讓或減速策略。

占用網(wǎng)絡的一個關鍵技術細節(jié)是深度估計的準確性。在純視覺方案中，像是特斯拉的占用網(wǎng)絡，系統(tǒng)需要通過連續(xù)的多幀圖像來推斷物體的三維占據(jù)情況。由于視頻流中包含了時間維度，系統(tǒng)可以利用車輛移動產(chǎn)生的視差來構建路面的深度圖。這種基于時序的深度感知能力，使智駕系統(tǒng)在面對一些視覺特征模糊的缺失井蓋時，能夠通過前后幀的關聯(lián)來修正判斷。例如，當一個遠處的陰影隨著車輛靠近而展現(xiàn)出特定的幾何深度特征時，占用網(wǎng)絡會迅速將其占用的體素概率從低置信度提升為高風險等級。這種能力的提升，使得車輛在非結構化道路（如沒有車道線的鄉(xiāng)村小路或施工區(qū)域）也能表現(xiàn)出較強的避障能力。

端到端架構在處理非標準障礙物時的邏輯重構

在感知技術不斷進化的同時，決策規(guī)劃層也在經(jīng)歷一場深刻的變革。傳統(tǒng)的自動駕駛架構是模塊化的，感知模塊將識別到的結果（如“左前方5米處有一個深坑”）以結構化數(shù)據(jù)的形式傳遞給規(guī)劃模塊。規(guī)劃模塊再根據(jù)預設的If-else規(guī)則決定是剎車還是繞行。在這種模式下，感知的一點點微小誤差可能會在后續(xù)環(huán)節(jié)被放大。如果感知模塊對井蓋缺失的識別置信度在50%上下波動，規(guī)劃模塊可能會在剎車和加速之間反復橫跳，導致車輛行駛極不穩(wěn)定。

端到端（End-to-End）架構則打破了這種模塊間的隔閡。在端到端模式中，系統(tǒng)不再依賴于顯式的數(shù)據(jù)接口，而是通過一個大型的神經(jīng)網(wǎng)絡，直接將攝像頭捕捉到的像素數(shù)據(jù)或激光雷達的點云數(shù)據(jù)映射為車輛的控制指令（如轉向、制動、油門）。這種架構最核心的優(yōu)勢在于“全局最優(yōu)”。系統(tǒng)在訓練過程中學習的是數(shù)以千萬公里的高質量人類駕駛數(shù)據(jù)。對于一個老司機來說，他不需要在腦子里先識別出“井蓋缺失”這四個字，而是通過視覺觀察到前方路面顏色或紋理的異常，結合對周圍交通流的判斷，下意識地打方向避讓。

模塊化與端到端示意圖，圖片源自：網(wǎng)絡

端到端模型通過模仿學習，能夠習得這種處理復雜環(huán)境的駕駛直覺。在處理井蓋缺失場景時，端到端系統(tǒng)展現(xiàn)出了更強的泛化能力。由于模型是在海量真實道路數(shù)據(jù)上訓練的，其中必然包含了各種人類避讓坑洼、積水或不明物體的案例。系統(tǒng)在學習過程中，會將“路面視覺異常”與“輕微轉向避讓”建立起高維的關聯(lián)。即便模型從未在訓練集中見過完全一模一樣的井蓋缺失樣本，但只要它識別到了路面完整性遭到破壞的特征，就能在隱空間中產(chǎn)生類似避讓動作的決策輸出。這種從數(shù)據(jù)中學習到的規(guī)律，比人工編寫的規(guī)則更能應對千變萬化的長尾場景。

當然，每當提到端到端，就不得不聊一下它最顯著的問題，即“黑盒”特性。由于決策過程完全發(fā)生在神經(jīng)網(wǎng)絡的內部權重中，開發(fā)者很難解釋為什么車輛在某個時刻選擇了避讓，而在另一個相似的時刻卻選擇了直沖。

為了解決可解釋性問題，目前行業(yè)內出現(xiàn)了“廣義端到端”或“模塊化端到端”的趨勢。這種方案在保持端到端全局優(yōu)化能力的同時，在內部保留了感知、預測等任務模塊的顯式輸出。通過這種方式，可以監(jiān)控模型內部的特征圖，確認系統(tǒng)是否真的“看”到了路面的深坑，從而為安全驗證提供依據(jù)。這種兼顧靈活性與可解釋性的架構，正是目前智駕系統(tǒng)應對極窄、極端場景的主流演進方向。

數(shù)據(jù)閉環(huán)與現(xiàn)實挑戰(zhàn)中的安全性驗證

理論上的技術領先并不能直接等同于現(xiàn)實中的完美操作。在實際應用中，井蓋缺失這類場景依然是智駕系統(tǒng)非常容易“翻車”的地方。同一系統(tǒng)在不同交通場景中，對于井蓋缺失這類場景也會有不一樣的表現(xiàn)。這種表現(xiàn)不一致的核心原因在于數(shù)據(jù)分布的偏差。

雖然端到端系統(tǒng)學習了海量數(shù)據(jù)，但其中絕大多數(shù)是正常行駛的數(shù)據(jù)。缺失井蓋在全量行駛數(shù)據(jù)中可能只占十萬分之一甚至更低。如果訓練集中缺乏足夠多的、覆蓋各種光照和角度的井蓋缺失樣本，神經(jīng)網(wǎng)絡就無法對這一特定的視覺模式產(chǎn)生足夠的敏感度。

此外，舒適度與安全性的平衡也是一大難點。如果系統(tǒng)對路面的微小特征過于敏感，頻繁地為了躲避小石子或色塊而大幅擺動方向盤，會極大地損害駕乘舒適性，甚至導致側向車輛的誤解和追尾風險。因此，智駕系統(tǒng)必須在內部進行精確的收益評估，是選擇承受一時的震動碾過去，還是冒著側碰的風險進行大角度避讓。

為了攻克這些難題，自動駕駛公司需建立一整套復雜的數(shù)據(jù)閉環(huán)體系。當一輛搭載智駕系統(tǒng)的車輛在現(xiàn)實中遭遇深坑導致劇烈顛簸時，車輛的加速度傳感器會捕捉到異常信號，并自動將前后的視頻片段回傳至云端。云端的大型計算集群會對這些失效案例進行自動標注和強化訓練。通過不斷向模型灌輸這些“負面案例”，系統(tǒng)識別井蓋缺失的置信度會隨著迭代而穩(wěn)步提升。

同時，像NVIDIA的Omniverse這類物理仿真平臺也可以用來生成大量的合成數(shù)據(jù)。在虛擬世界里，可以隨意放置上千種不同形狀、深度、位置的缺失井蓋，并模擬各種極端天氣條件，以此來訓練模型的幾何理解能力，這極大地彌補了真實世界數(shù)據(jù)的稀缺性。

此外，道路缺陷管理也可以融入智能駕駛的生態(tài)。通過移動激光掃描（MLS）數(shù)據(jù)，相關機構可以對城市數(shù)以萬計的井蓋進行自動化監(jiān)測。如果智能車輛在行駛過程中通過感知系統(tǒng)發(fā)現(xiàn)了井蓋丟失，這一地理坐標信息可以實時同步給云端地圖。當下一輛車經(jīng)過同一位置時，即使它的本地傳感器受限于視距無法看清深坑，系統(tǒng)也可以結合地圖提供的先驗信息提前預減速或繞行。這種單車智能與群體智慧的結合，或許是解決井蓋缺失等隱蔽性障礙物的最終途徑。

最后的話

綜上所述，現(xiàn)階段的智能駕駛系統(tǒng)，特別是采用了占用網(wǎng)絡和端到端感知的先進系統(tǒng)，已經(jīng)在技術路徑上解決了井蓋缺失的識別問題。通過將路面完整性作為感知目標，系統(tǒng)不再受限于特定物體的定義。然而，受限于傳感器在掠射角下的物理瓶頸、環(huán)境光影的強干擾以及數(shù)據(jù)訓練的覆蓋度，目前任何一家智駕系統(tǒng)都無法承諾百分之百的避讓成功率。在高速行駛或光線極差的極端條件下，井蓋缺失依然屬于可能導致陷車甚至事故的高危場景。對于用戶而言，理解智駕系統(tǒng)的物理局限性，并保持隨時接管的意識，依然是現(xiàn)階段安全出行的必要前提。隨著端到端模型權重的不斷優(yōu)化和數(shù)據(jù)閉環(huán)的加速滾動，機器對道路“負空間”的理解深度終將超越人類的視覺極限。

-- END --

原文標題 : 自動駕駛系統(tǒng)如何應對類似井蓋缺失的場景？