純視覺的上限真的比激光雷達更高嗎？

2026-06-10 10:11

最近小編看到一個蠻有意思的觀點，那就是純視覺的上限比激光雷達更高。在看到這個觀點后，小編仔細分析了下這個觀點中所謂的上限到底是指的什么？仔細揣摩后感覺，這個觀點并不是說純視覺比激光雷達好用，畢竟現在很多量產車上為了讓智駕更加安全，都會加上激光雷達，這個觀點的意思應該是，當自動駕駛發展到極致時，純視覺有可能達到激光雷達無法達到的高度，那這個觀點準確嗎？

攝像頭比激光雷達多看到了什么？

攝像頭和激光雷達雖然都是傳感器，但它們捕獲的信息類型完全不同。攝像頭是一種被動傳感器，它接收環境中已經存在的光線，產生的是帶有豐富紋理、顏色、明暗變化和語義信息的圖像。一張圖片里，不僅能看出那里有一輛車，還能讀出剎車燈有沒有亮起、交通標志上寫的是什么、行人的手勢是什么。這些信息在駕駛決策中至關重要。

特斯拉前深度學習負責人徐雷在訪談中就提到，攝像頭獲取道路場景信息的頻率和豐富程度都明顯高于激光雷達，視覺方案因此擁有更高的能力上限。攝像頭的幀率通常可以達到每秒30幀，而激光雷達一般為每秒10幀左右。

圖片源自：網絡

激光雷達作為主動傳感器，它主動發射激光脈沖并測量反射回來的時間，由此生成三維點云。點云中的每個點包含空間坐標信息，但不包含顏色（禾賽最近發布畢加索SPAD-SoC芯片，可讓激光雷達看到顏色，相關閱讀：激光雷達還能進行色彩識別？）、紋理或任何語義內容。激光雷達知道那里有一個形狀，但不知道這個形狀是紙箱還是行人，也不知道它背后是否有文字需要識別。其實，激光雷達與純視覺方案的本質差異在于能量利用范式的不同，激光雷達屬于有源探測，雖然能夠提供精準的三維數據，但也因此面臨能量消耗和硬件成本的制約。

將純視覺與激光雷達放在一起對比，其實可以發現，駕駛場景本身就是為視覺智能設計的。路牌用文字和顏色傳遞信息，交通信號燈用紅黃綠指示通行，交警用手勢引導車輛，這些信息天然是圖像化的。純視覺方案理論上能夠讀取所有這些信息，而激光雷達不可能從點云中讀出路牌上的字。這不是工程能力的差距，而是信息維度的天花板決定的。

只靠二維圖像，怎么構建出三維世界？

純視覺在自動駕駛中一直有一個繞不開的短板，那就是單張圖像是二維的，而自動駕駛需要在三維空間中做規劃和控制。早期的視覺方案在深度估計上存在嚴重缺陷，依賴逆透視映射將圖像投影到地平面，但這種方法假設路面是平坦的，在城市起伏路面或坡道上誤差會被急劇放大。也正因為這個原因，讓很多人認為純視覺無法在不依賴激光雷達的情況下達到足夠的安全水平。

2021年前后，以BEV和Transformer為核心的架構開始改變這一局面，BEV是將多個攝像頭采集到的圖像統一投影到一個以自車為中心的三維坐標系中，形成類似上帝視角的全局感知。如BEVFormer模型就通過時空Transformer，將多視角圖像信息和歷史時序特征融合，生成具有全局一致性的BEV特征圖，在nuScenes測試集上達到了56.9%的NDS，首次以純視覺方案匹配了激光雷達的性能。

Transformer引入的注意力機制更是整個架構的關鍵，傳統的模塊化架構中，感知、預測、規劃、控制各自獨立，信息在模塊之間通過接口傳遞，這個過程存在信息的損耗和誤差的積累。注意力機制允許模型在處理當前信息時關注到歷史幀中相關的特征，從而建立起時序關聯。

圖片源自：網絡

從技術實現上看，Transformer的自注意力層會計算當前幀中每個圖像塊與前后若干幀中所有圖像塊之間的關聯權重，權重越高表示這兩個區域在時間上的相關性越強。通過這種方式，模型能夠自動學習到前車剎車燈亮起之后，車輛間距會縮小這類時序因果關系，而不需要人工編寫任何規則。

再往后，占用網絡進一步解決了BEV的局限，因為BEV本質上仍然是二維的，它在空間建模時會丟失垂直維度上的信息，像是懸空的吊車吊臂、路面上方伸出的樹枝，在BEV表示中都沒有位置。占用網絡將三維空間劃分為體素單元，直接預測每個體素是否被物體占據，不需要顯式地識別物體類別就能感知到環境中存在的障礙物。

圖片源自：網絡

特斯拉默認采用的體素尺寸是33厘米，系統還可以動態調整，將靠近自車的體素縮小到10厘米，從而獲取更精細的形狀信息。除了判斷是否被占用，這個網絡同時還輸出每個體素的移動速度，以及一個粗略的語義標簽，用來指示該體素屬于車輛、行人還是路面。這種體素化建模將環境感知精度提升到了厘米級，能夠處理傳統方案難以識別的懸空障礙物。

2025年以來，3D高斯重建技術開始在純視覺系統中出現，這項技術的思路與體素網格不同，它用大量帶方向的高斯橢球體來描述場景中的幾何表面。每個高斯橢球體不僅記錄了空間位置和形狀，還包含了從圖像中學習到的顏色和紋理信息。在FSD V14的架構中，七路攝像頭視頻輸入后，網絡會同步輸出一組3D高斯重建特征，可以在毫秒級時間內完成三維場景的渲染。這套表征方式比體素網格更輕量，渲染速度更快，同時能夠提供新視角下的幾何一致性，為端到端訓練提供了密集的中間監督信號。

學術界也在快速跟進，2026年初哈工大與理想汽車聯合提出的DrivingScene框架，只需要連續兩幀環繞視圖，就能同時生成深度、場景流和高保真3D高斯點云，實現了動態場景的實時重建。

數據和算法能把純視覺推多遠？

純視覺路線之所以一直有很多人追捧，是因為工作邏輯更接近生物智能，這也是很多人認為其上限更高的原因。人類駕駛員依靠兩只眼睛就能應對各種復雜路況，這也證明了僅憑視覺信息就可以達到極高的駕駛水平。

純視覺方案的核心驅動力一直是數據，每一輛裝有攝像頭的車輛都是一個數據采集終端，不斷收集真實的駕駛場景。這些數據會被用來訓練模型，模型變得更好之后，又能采集到更豐富的數據，形成一個不斷加速的正反饋循環。特斯拉在2025年10月發布的FSD V14版本參數量較前代（V13）提升了約‌4.5至10倍‌，并配備了上下文記憶能力。這意味著模型能夠記住過去限定時間內觀察到的所有場景變化，其中包括其他車輛的速度變化趨勢、行人的移動軌跡、交通信號燈的狀態切換等，從而對接下來幾秒內可能發生的情況做出更準確的預判。

端到端架構在這種數據驅動下也實現了質的突破，FSD從V12版本開始就徹底轉向端到端神經網絡，內部被稱為Photon In, Control Out，端到端架構下，從攝像頭像素輸入到車輛控制輸出的全過程由單一網絡完成。在模塊化系統中，信息在每個接口處都被壓縮了一次，會損失不少細節，端到端則取消了這些人工設定的接口層，梯度信號也可以從最終的轉向角度一路反向傳播到最初的輸入圖像，整個網絡因此可以被聯合優化，這套系統具備更強的泛化能力，能夠處理那些沒有被工程師明確寫成規則的情況。

圖片源自：網絡

到了V14，架構進一步擴展為多模態大模型系統，從ICCV 2025上流出的技術信息來看，網絡的輸入包括七路高分辨率攝像頭視頻、車輛自身運動信息、導航與音頻信號；輸出則涵蓋語義分割、占用網格、3D高斯重建特征、語言表達以及最終的控制指令。

端到端模型面臨的核心難題其實是嚴重的輸入輸出維度不平衡，如過去24秒內36Hz幀率的多攝像頭視頻、導航和車速IMU信號疊加后，相當于數十億個輸入特征，而輸出只有方向盤轉角和加速度兩個控制指令。如何在高維輸入與低維輸出之間建立穩定的映射，是端到端訓練中需要解決的問題。特斯拉的解決方式是由全球車隊持續回傳異常接管和突發障礙物數據，系統自動篩選出有價值的訓練樣本，用這些樣本對模型進行針對性優化。

在端到端的基礎上，現階段智駕行業還在向VLA和世界模型的方向演進，VLA的核心思路是在感知和行動之間引入語言推理能力。小鵬在2026年3月正式量產了第二代VLA，其系統設計去掉了傳統VLA中的語言轉譯環節，直接從視覺輸入到動作輸出，縮短了從感知到執行的延遲。這套系統在處理道路封閉的標志時，不僅識別出文字內容，還能結合上下文推理出應該左側繞行，從而完成類人的判斷。

圖片源自：網絡

VLA教會模型在復雜交通環境中怎么行動，而世界模型則教會模型行動之后世界會怎么變化。世界模型借鑒了大語言模型中下一個Token預測的范式，只不過預測的對象不是詞語而是環境狀態。在海量的未標注駕駛視頻上進行下一幀或下一狀態的密集預測，模型能夠逐步學習物理世界的動力學結構，比如如果前車剎車燈亮起，那么它接下來大概率會減速、如果行人站在路沿上看著來車方向，那么他可能會橫穿馬路。CVPR 2026上，小鵬就展示了其世界模型的主動思考（模擬環境變量對未來狀態的影響）、可控生成（在云端合成大量極端場景用于訓練）和長時序推演（預測數秒甚至更長時間范圍內路況的演化趨勢）等三項核心能力。

激光雷達有沒有物理天花板？

之所以現階段很多車企沒有放棄激光雷達，是因為它在深度感知上具有天然的精確性，點云的幾何信息可靠穩定，不需要算法去猜測距離。在暴雨、濃霧、強逆光等攝像頭性能明顯下降的場景中，激光雷達的物理探測方式具備更好的魯棒性。在復雜路口場景中，激光雷達方案的誤報率也比純視覺方案低42%。可以說，激光雷達在當下提供了純視覺尚無法完全替代的安全保障。

但激光雷達的分辨率也受到激光波長、發射器陣列密度和掃描機制的共同制約。以192線激光雷達為例，在200米外探測時，回波信號強度和點云密度衰減到近距離的千分之一。905nm波長的激光雷達在200米距離下單次回波能量衰減至1%，1550nm雷達雖然探測距離更優，但成本高出三倍。而現如今的固態激光雷達方案，比如基于光學相控陣和調頻連續波的硅光集成芯片，橫向視場135°范圍內可以實現超過7000個可分辨點。這個數值聽起來不小，但與攝像頭動輒百萬像素級別的空間分辨率相比，差距依然明顯。

圖片源自：網絡

激光雷達的刷新率一般是每秒10幀，大約為攝像頭幀率的五分之一，當一輛車以120公里/小時行駛時，一個200米外的移動目標在兩次掃描之間會位移超過3米，影響了動態目標的跟蹤精度。在暴雨環境下，激光雷達的有效探測距離可能驟降至30米以內，近場噪點則增加五倍。當掃描到高反射率表面時，點云中可能產生虛假的鬼影輪廓或物體形狀失真，將導致系統誤判前方存在障礙物。

此外，激光雷達還無法提供語義信息，無論將線束增加到1024線還是將波長調整到更優范圍，都無法改變一個根本問題，它很難讀不出一塊路牌上的文字，雖然智駕最前沿曾討論過激光雷達能否讀到交通標識的內容（相關鏈接：自動駕駛激光雷達能看到交通標識嗎？），但從實際應用上看，想實現這個功能，還是比較難的，畢竟信息維度的天花板是物理性質的，不是工程優化可以跨越的。

兩條技術路線，終點會一樣嗎？

爭論至此，其實已經不只是技術和方案的對比，激光雷達提供了確定性，它的測距精確、可靠、不依賴猜測。在安全至上的自動駕駛場景中，確定性具有極高的優先級，這也是多傳感器融合方案在當下仍然被大多數車企選擇的原因。

純視覺路線則建立在另一個判斷上，自動駕駛本質上是一個人工智能問題，而不是傳感器工程問題，只要算法足夠好、數據足夠多，僅憑攝像頭就能達到甚至超越人類的駕駛水平，如果我們相信人工智能有潛力超越人類的認知能力，那么純視覺方案在理論上就沒有天然的天花板。

再回到今天的論點，上限更高不等于當下更好，純視覺路線在今天仍然面臨極端天氣適應性不足、復雜光照條件下識別能力下降等問題，為安全付費的消費者，選擇配備了激光雷達的車輛，是完全合理的決定。但拋開工程實現難度，僅從根本的技術原理來看，哪個方向代表著更長遠、更根本的可能性，或許純視覺上限更高的說法，還真有一定的依據。

-- END --

原文標題 : 純視覺的上限真的比激光雷達更高嗎？