各智駕企業是如何進行數據飛輪工程落地的?
在自動駕駛領域,經常會聽到數據飛輪這個概念。為什么特斯拉的FSD能從頻繁接管進化到近乎老司機的能力,迭代速度甩開傳統開發模式幾個量級?為什么華為、小鵬這樣的廠商都在不計成本地鋪設數據閉環?答案就藏在飛輪這兩個字里。今天就和大家來聊聊企業是如何做好數據飛輪的。

這個飛輪是怎樣轉起來的?
數據飛輪簡單理解,就是一套讓自動駕駛系統從真實駕駛中自我學習、持續進化的工程閉環。它可以完成車輛采集數據、數據回傳云端、云端完成自動標注與模型訓練、新模型通過OTA部署回車端,車輛繼續采集新數據進入下一輪循環等一整個運轉鏈路。當這套鏈路中各環節的自動化程度足夠高時,飛輪就能夠在極短時間內完成發現問題、訓練改進、驗證上線的完整周期,周而復始地提升智駕能力。

圖片源自:智駕最前沿
當前行業對數據飛輪的競爭,已從誰有數據轉向誰的迭代效率更高。特斯拉從FSD V12的端到端模型與影子模式構建了業界效率最高的數據閉環,FSD累計行駛里程超過16億英里,且仍在加速。華為則通過八爪魚平臺將數據閉環能力封裝為可交付的產品,為車企提供數據、標注、訓練、仿真、合規等一站式工具鏈。Waymo沒有照搬行業流行的端到端大模型路線,而是構建了獨特的駕駛員、模擬器、評價者三位一體閉環架構,強調安全可驗證。英偉達則憑借Cosmos世界基礎模型與Omniverse仿真平臺,將數千英里真實駕駛數據擴展為數十億英里虛擬駕駛里程,用合成數據角度為飛輪提供動力,對于各企業的具體實施方案,將在第四章節與大家詳細聊一聊。

車端如何精準采集高價值數據?
數據采集是飛輪的起點,一輛具備高階智駕能力的車輛每天產生的傳感器數據可達TB級別,如果全量回傳,網絡成本和云端存儲成本難以承受。因此,車端必須具備在行駛中自動篩選高價值場景的能力,這是飛輪能否低成本運轉的第一道關卡。
特斯拉通過影子模式來實現這一環節,在人類駕駛員操控車輛時,FSD算法在后臺同步運行并獨立做出決策判斷,但不控制車輛。系統實時比對算法判斷與駕駛員實際操作,一旦兩者出現顯著分歧(如算法認為應該減速而駕駛員加速通過),就判定該場景為異常工況,自動觸發數據回傳。這種機制將人類駕駛員的日常操作作為免費的真值參照,系統無需任何人工干預就能自動發現模型表現不佳的場景。

圖片源自:網絡
影子模式是一種被動觸發策略,而主動學習則是云端主動向車隊發起數據采集請求的一種形式。當算法團隊識別出模型對某類場景處理能力不足時,會向全球車隊下發包含目標場景特征描述的輕量級觸發器。車輛在行駛中持續匹配這些特征,一旦命中,就可以將對應時段的數據打包上傳。這種缺什么、找什么的定向采集方式,在控制傳輸成本的同時大幅提升了進入訓練集的數據價值密度。
華為乾崑方案也采用了類似架構,通過量產車數據采集網絡與云基礎設施的配合,實現端云協同的定向數據篩選。其智駕數據閉環模型可以低成本、快速獲取高價值訓練和仿真數據,同時通過端云協同增強復雜場景的理解與決策能力。小鵬則將用戶干預行為作為關鍵觸發信號,車端回傳用戶干預時的操作、環境和系統狀態三維信息,以定點攻克接管場景。

數據上云后怎樣處理和訓練?
數據回傳后,首先要做的是標注環節,傳統標注方式大量依賴人工,一輛車一天產生的激光雷達點云可能需要上百名標注員處理數日。為支撐飛輪的高頻迭代,標注環節的自動化是必須解決的問題。
4D自動標注是當前行業的主流方案。4D意味著在3D空間坐標之上加入時間維度,對點云和圖像數據進行跨時序的連續標注,標注結果能更好地支撐BEV感知模型的訓練。阿里云的ADS 4D標注平臺就可以通過AI預標注技術對點云進行初步識別,再由人工做微調修正,同時引入自動化質檢邏輯,將標注精度從行業通用的98%提升到 9.2%,年度完成數億幀3D點云處理。標貝科技的4D-BEV上億點云標注系統則利用大模型進行多模態預識別,從空間和時序維度對車輛、行人和路標等目標進行多視角標注,將百億點云的標注周期從月級壓縮到周級。

圖片源自:網絡
學術界也在推進標注技術的底層探索,SAM4D方案引入統一多模態位置編碼(UMPE),將相機和激光雷達的特征在共享3D空間中對齊,實現跨模態提示與交互,能夠對相機和激光雷達流中的任意目標進行分割。這些技術共同方向是讓人的角色從標注操作者轉變為質量審核者。
標注完成后就會進入模型訓練環節,大模型時代下,算力基礎設施成為決定迭代速度的關鍵。小鵬在2025年科技日披露,其云端訓練集群規模達3萬卡,基座模型參數量達到720億,訓練數據接近1億clips,可實現每5天完成一次全鏈路迭代,等效覆蓋人類司機6.5萬年的極限場景。騰訊部署的車云一體方案則在數據管理層面發力,通過統一數據目錄管理、端到端數據血緣追蹤和分布式異構算力調度,將數據發現時間縮短90%,存儲成本降低50%,計算成本降低75%。火山引擎提出的全模態數據湖方案,通過引入Lance數據湖格式實現超大規模元數據描述和高級索引,解決了多模態數據異構處理和多團隊協同的效率瓶頸。

圖片源自:網絡
仿真驗證是模型上車前的最后一步,華為的仿真平臺預置了25萬以上仿真場景庫,覆蓋高速、城區、泊車等場景,并支持基于基礎場景庫泛化生成千萬級衍生場景,單日可完成千萬公里的并行仿真里程。阿里云則整合Omniverse仿真平臺與世界模型Cosmos,在虛擬環境中完成模型評測后再部署到邊緣設備。
還有一點要提的是,合成數據在飛輪中扮演的角色越來越重。隨著智駕系統能力的提升,實車采集的數據中有效信息密度持續降低,譬如系統已經能應付雨天場景后,雨天的絕大多數采集數據就失去了訓練價值,真正有價值的只剩暴雪、臺風等更極端的長尾場景,此時合成數據就起到了作用。2023年到2025年間,合成數據在訓練數據中的占比從20%~30%提升到了50%~60%,已成為補充長尾場景的主要方式。這也意味著飛輪的燃料來源正在從純實車采集向實車采集+合成生成的混合模式轉變。

幾家企業走的不同路線詳解
行業對數據閉環的必要性早已形成共識,但具體到實現路徑上,每家企業都給出了完全不同的解法。這些分歧背后,實質是各家對自身戰略定位的考量。
特斯拉作為數據飛輪模式的標桿,其核心優勢建立在一套垂直整合的全棧架構之上。全球數百萬輛能夠運行FSD的車輛組成了一個龐大的分布式數據采集網絡,在這個網絡中,影子模式和定向觸發機制負責高效篩選有價值的數據,當算法判斷與人類駕駛員的操作出現分歧時,系統會自動上傳相關場景數據,整個過程無需人工介入。近期更新的強制接管原因填寫功能,則為每一條接管數據賦予了明確的分類標簽,進一步提升了數據標注的質量。在云端,自研的Dojo超算與自動標注工具打通了訓練鏈路,新模型可通過OTA通道直接部署回車端。從芯片到算法再到數據,這條完整的鏈路全部掌握在特斯拉自己手里,省去了跨供應商協作的摩擦成本。

圖片源自:網絡
特斯拉提出的Data Engine框架將這一循環梳理得更加清晰。它首先采集特定場景的初始素材,然后向全球車隊請求擴充類似場景,接著對數據進行自動標注并投入訓練,通過影子模式驗證效果后,再啟動下一輪循環。這套框架讓數據飛輪的每一個環節都形成了明確的反饋鏈路。近期FSD V14的發布進一步釋放了技術潛力,模型參數規模擴展至V13的十倍,引入了專家混合架構和強化學習,推動智駕能力持續躍遷。
華為的打法與此不同,作為增量部件供應商,它通過八爪魚平臺為車企提供一站式的數據閉環工具鏈,覆蓋數據處理、場景挖掘、標注、模型訓練、仿真測試、合規服務等完整環節,底層硬件基于自研昇騰AI處理器,盤古預標注大模型為其提供AI能力支撐。這套方案的關鍵在于,數據閉環被封裝成一個可交付的產品,車企可按需集成,不必每家都從頭自研。在算法架構上,ADS 5.0搭載的WEWA架構選擇了另一條路,行業主流方向是VLA模型,華為則認為中間的語言層會引入延遲和信息損失,因此轉而采用WA模型,直接從多模態感知數據映射為行駛軌跡控制指令。云端的World Engine則以極高密度生成極端駕駛場景進行訓練,在正式上路前完成高強度的虛擬驗證。

圖片源自:網絡
Waymo的路線與前面兩家截然不同,它沒有押注更大的端到端模型,而是構建了一套以安全可驗證為優先級的AI生態系統,由駕駛員模型、模擬器和評價系統三個組件構成閉環。三者的底層由統一的Waymo基礎模型驅動,內部采用了快思考與慢思考的雙系統架構,一個負責融合多傳感器數據進行毫秒級實時決策,另一個則基于視覺語言模型對罕見復雜場景進行深度語義推理。
Waymo的飛輪可以理解為內外兩層,內環是基于強化學習的仿真到驗證再到上車的閉環,外環則是實車測試的反饋閉環。評價系統負責標記問題,系統據此生成改進行為,經過模擬器高強度的壓力驗證和安全框架審核后,才能部署到真實道路。這套架構讓Waymo的模型并不依賴人類經驗來學習,而是從自身超過一億英里的完全自動駕駛實際數據中直接進化,系統安全性相較人類駕駛提升十倍以上。
英偉達則從算力和仿真工具鏈的角度切入數據飛輪,在2026年GTC大會上,它發布了物理AI數據工廠藍圖,這是一個開放的參考架構,用于統一并自動化訓練數據的生成、增強與評估。藍圖的核心包含三個組件,Curator負責數據處理和標注,Transfer用于數據擴展和多樣化,Evaluator則執行自動評分和驗證。借助Cosmos世界基礎模型,開發者可以將有限的真實駕駛數據轉化為大規模多樣化的數據集,覆蓋現實中難以采集的長尾與邊緣場景。這套數據工廠模式的意義在于,它大幅降低了對實車采集數據的依賴,通過仿真生成的多樣化場景來加速端到端自動駕駛的開發。
小鵬汽車選擇了一條相對激進的技術路線。它在2025年科技日發布了第二代VLA大模型,并在2026年完成量產推送。該模型采用端到端架構,跳過了傳統的視覺識別、語言轉譯、動作執行分步流程,直接將視覺信號映射為駕駛指令,決策延遲被壓縮在80毫秒以內,響應速度較前代提升十二倍,百公里接管次數減少三分之一以上。與此同時,小鵬Robotaxi已正式量產下線,搭載四顆圖靈AI芯片,算力達到3000TOPS,采用純視覺方案搭配第二代VLA模型,實現了L4級自動駕駛能力。在數據層面,小鵬將物理世界模型比作引擎,將數據比作燃料,數據的數量和質量直接決定了引擎能否高效運轉。

圖片源自:網絡
Momenta自創立之初就提出了一個飛輪兩條腿的戰略,讓智能輔助駕駛與Robotaxi共享同一個數據閉環和模型底座,通過兩個應用方向的協同來加速飛輪運轉。在2026年北京車展上,Momenta宣布R7強化學習世界模型實現量產首發,CEO曹旭東曾打過一個比方,數據就像貧礦,原始數據只貢獻了價值源頭的十分之一,剩下的九成來自飛輪的體系能力,其中又包括架構能力和組織能力。目前搭載Momenta系統的量產車輛已超過八十萬臺,且增速持續加快,飛輪效應的加速趨勢正在數據層面得到驗證。
從整個行業來看,各家實現路徑雖有不同,但底層演進方向高度一致,那就是從模塊化架構走向統一的端到端模型,數據閉環的迭代周期從天級向小時級壓縮。隨著合成數據占比持續提升、全流程自動化工具鏈逐步部署,行業的核心矛盾正聚焦于長尾場景覆蓋與成本控制之間的平衡。
-- END --
原文標題 : 各智駕企業是如何進行數據飛輪工程落地的?
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
精彩回顧立即查看>> 【線下會議】恩智浦創新技術峰會·深圳
-
精彩回顧立即查看>> 【在線直播】可視化神器!VisionSym 賦能汽車光學原型開發
-
精彩回顧立即查看>> 12月16-17日 AMD 嵌入式峰會
-
精彩回顧立即查看>> 恩智浦創新技術峰會
-
精彩回顧立即查看>> 【工程師系列】汽車電子技術在線大會
-
精彩回顧立即查看>> Works With 開發者大會深圳站
推薦專題
- 1 特斯拉 CVPR 2026 演講全文和詳解:把自動駕駛,做成「所有機器人的基礎模型」
- 2 深圳立法放開自動駕駛全域通行,7月1日正式實施
- 3 特斯拉CEO馬斯克又放狠話:2026年無人車開遍全美,十年后自己開車成“小眾愛好”
- 4 特斯拉監督版FSD登陸中國被廣泛關注,技術架構有啥特點?
- 5 「豆包汽車」要來了?賽力斯藍電改名賽豆,字節跳動深度上車
- 6 2026年無人車突然滿大街跑了?三大拐點疊加,行業悶聲發大財的時代真的來了
- 7 2026年5月國內汽車質量投訴指數分析報告
- 8 地平線股價年內大跌44%:都怪比亞迪自研芯片?
- 9 無人配送車2026:別急著喊“跨過生死線”,但它確實從“能不能跑”跨越到“能不能賺錢”
- 10 一周股評|全球市場受挫,半導體開始收割市場


分享










