自動駕駛自動化標注讓技術接管了人工？

2026-06-23 10:25

做自動駕駛的人都知道數據標注有多燒錢。

一輛測試車每天跑下來，產生的數據量動輒TB級別，但這些數據中，真正有價值的可能連5%都不到。為了把這5%的價值挖出來，企業需要雇傭成百上千名標注員，一幀一幀地在圖片上畫框、在點云里標目標。一位成熟的標注師一小時大概能完成240件數據，而一家自動駕駛企業訓練一個L4級感知模型，需要的標注數據量超過2000萬幀3D點云數據，精度要求還得到厘米級。

在這個需求下，標注成本就可以很直接的計算出來，在傳統模式下，標注一幀數據的成本大約17元，完成50萬幀標注就要花850萬元，需要100個人連續干4年半。更麻煩的是，不同標注員對同一場景的理解不一樣，比如車輛被遮擋到什么程度才算遮擋，光這一個判定標準，差異就能達到37%。這種不一致性將直接帶偏模型訓練，導致感知系統在實際道路上的表現忽好忽壞。

用人堆出來的標注，規模是有了，但精度和一致性很難保證，這個問題，在自動駕駛從輔助駕駛向高階自動駕駛演進的過程中變得尤為突出，行業迫切需要找到一條新路，自動化標注技術應運而生。

讓AI給自己做老師？

自動化標注技術探索其實很早就開始了，當時的的想法很簡單，既然AI最終要識別這些目標，能不能先讓它自己試著標一遍，然后人工來修正？而這就是預標注的基本思路。即先訓練一個模型，讓它對未標注的數據做初步識別，生成一套初始標注結果，人工只需要在此基礎上進行調整和確認。這樣一來，標注員的角色從從頭畫框變成了審核修正，效率自然上去了。

圖片源自：網絡

這個想法雖然很好，但在實際操作時卻遇到了不少麻煩，自動駕駛的傳感器數據是多模態的，攝像頭拍的是2D圖像，激光雷達打出的是3D點云，毫米波雷達提供的是測距信息。如果只是單獨標圖像或者單獨標點云，兩類數據之間很難對齊，一輛車在圖像里是一個矩形，在點云里是一團稀疏的點，怎么確認它們描述的是同一個目標？時間同步、空間配準、坐標系轉換，每一步都可能引入誤差。

還有一個問題來自于時間維度，自動駕駛算法訓練需要理解物體的連續運動，而不僅是單幀圖像里的靜態位置。傳統標注是將每一幀當成獨立任務來處理，前后幀之間的目標關系（如同一輛車在第1幀和第100幀之間的運動軌跡）完全要靠人工去關聯，工作量大不說，還容易出錯。

真正讓自動化標注成為現實的，是大模型的介入。

大模型入局，標注進入了新階段？

大模型給自動駕駛數據標注帶來的核心變化是，它不再只是看圖識物，而是具備了理解能力。

傳統的小模型做預標注，能認出路上有車、有行人，但認不出來這輛車的具體車型，也判斷不出來這個行人是不是在橫穿馬路。大模型不一樣，經過海量數據的預訓練，它積累了豐富的視覺和語言先驗知識，能夠生成更細粒度的語義描述，還能理解物體之間的關系。

圖片源自：網絡

多模態大模型的引入，就解決了2D圖像和3D點云的聯合理解問題。圖像提供了豐富的紋理和顏色信息，點云提供了精確的幾何位置和距離信息，大模型能把這兩路數據自動關聯起來，實現跨模態的語義對齊。武漢一家叫際數科技的公司，基于測繪領域的技術積累，自研了空間數據智能體，據稱能將高質量數據建設成本降低90%，數據質量提升10倍。這套系統可以讓AI同時處理衛星定位、遙感影像和地理信息系統等多源數據，在毫米級精度上完成對復雜場景的理解。

騰訊的數據閉環平臺則整合了激光和視覺的4D動態標注大模型以及多模態圖文檢索大模型，通過大模型自動標注+人工質檢修正替代了傳統純人工標注，據稱可將靜態真值標注環節的標注效率提升10倍，同時降低90%的標注成本。

從實際落地的效果來看，標貝科技入選國家數據局首批數據標注優秀案例的4D-BEV上億點云標注系統也很有代表性。這套系統深度兼容自動駕駛領域的4D-BEV感知算法，能從空間和時序兩個維度對車輛、行人、路標等目標進行多視角標注，輕松處理上億量級的點云數據。據其官方發布的數據，相比傳統標注方式，效率提升了約30%，準確性提高了約20%。

從三維到四維，把時間加進來？

如果說大模型解決的是認得更準的問題，那4D標注解決的就是看得更全的問題。

所謂4D，就是在傳統3D空間標注的基礎上增加了時間維度，4D標注不再只是標注每一幀數據，而是把一段時間內的連續幀作為一個整體來處理，為每個動態目標構建一條完整的時空軌跡。

圖片源自：網絡

在自動駕駛算法訓練中，模型需要學會預測物體的運動趨勢，如前面的車是要左轉還是右轉，側面的行人會不會突然橫穿馬路。這些信息在單幀數據里是看不到的，只有放在連續的時間序列里才能呈現出來。4D標注正好提供了這種帶時間標簽的真值數據。

自動化標注系統可以利用已知未來、標注過去的技術，通過離線的大規模神經網絡，結合后一時刻的信息來修正前一時刻的目標標注結果。如某個目標在某幾幀里被遮擋了，系統可以根據它消失前和重新出現后的軌跡來推斷它在遮擋期間的精確位置。這種方法的確可以提升標注精度，但多相機之間的曝光差異、不同傳感器的時間同步問題，都是需要持續攻克的難題。

4D標注的應用在行業內其實已經比較普遍，華為云的八爪魚平臺就提供了4D-BEV數據自動化預標注功能，能同時輸出點云動態物體檢測結果、2D圖像標注結果和矢量地圖。東風汽車則構建了大模型驅動的4D真值標注體系，支持2D、3D、4D全模態一體化標注。標貝科技的系統也兼容4D-BEV感知算法，能從空間和時序兩個維度進行標注。

從技術成熟度來看，4D標注已經從實驗室走向了工程應用，并且與視覺大模型、點云分割等技術深度結合，成為自動化標注體系中不可缺失的一環。

從標數據到造數據，合成數據的崛起？

其實對于自動駕駛來說，長尾場景一直是技術發展中必須考慮的問題，所謂長尾場景，就是指那些發生概率極低、但一旦出現就可能導致安全事故的極端情況，如路面突然出現的散落物、前方車輛忽然爆胎、雨霧中行人橫穿等等。這類場景在真實路測中幾乎不可能充分覆蓋，若只靠一臺車一輛車去跑，累積幾十萬公里也未必能遇到一次。

合成數據就是為了解決這個問題而出現的技術路線，它通過仿真引擎、數字孿生或生成式模型，可主動生成那些現實世界中難以采集到的場景，用虛擬數據來填補真實數據的空白。

圖片源自：網絡

佐思汽研發布的《2025年中國智能輔助駕駛數據閉環研究報告》顯示，2023年到2025年間，合成數據在自動駕駛訓練數據中的占比從20%-30%上升到了50%-60%，已經從一個補充手段變成了核心生產資料。英偉達在這個方向上持續布局，其推出的Alpamayo 2 Super推理模型能夠將數據標注周期從數月壓縮至數天，同時配合OmniDreams仿真工具，利用神經重建技術將真實世界的車隊影像轉換為可跨傳感器配置的3D場景。

學術界對此的探索也在同步推進，香港大學OpenDriveLab、中科院自動化所與小米汽車的聯合團隊提出的SimScale方案，通過真實世界仿真生成關鍵場景，提出了自動駕駛仿真數據的規模效應，即仿真數據的數量越多，端到端駕駛模型的性能上限就越高。這套方案基于3D高斯潑濺技術重建真實場景資產，通過在真實軌跡上施加合理范圍的擾動來生成那些現實中難以遇見的危險情形，并設計了基于恢復和基于規劃兩類偽專家策略來提供高質量的監督示范。

此外，虛實結合的訓練策略也在被逐步驗證，真實的駕駛數據提供了基礎的場景分布，合成數據則負責擴展模型的能力邊界，兩者互補能讓模型在面對未知場景時表現得更加穩健。

最后的話

回頭看這幾年，自動駕駛數據標注技術確實變了，AI預標注將人工修正量壓到了15%以下，4D標注在部分方案中節省了超過60%的人工成本，合成數據從實驗室走入了真實生產線。標注這件事，正在從一個純人力的手工作坊，轉向一個以AI為核心的自動化數據生產體系。

當然，技術迭代永遠不會有終點，大模型時代，標注不再只是告訴AI這是什么，而是告訴AI為什么是這樣，對標注的深度和廣度提出了更高的要求。長尾場景的數據覆蓋依然是個讓人頭疼的問題，多傳感器之間的精確同步和空間配準依舊在持續優化中。但至少，方向是明確的，即把數據標注做得更準、更快、更便宜，讓自動駕駛的迭代不再卡在數據這道關。

可以說，自動化標注正在做的，不只是幫自動駕駛企業省錢，而是在為整個行業掃清通往高階自動駕駛道路上最大的一塊石頭。

-- END --

原文標題 : 自動駕駛自動化標注讓技術接管了人工？