訂閱
糾錯
加入自媒體

世界模型 V-JEPA殺入輔助駕駛應用,準備顛覆物理人工智能。

2026-04-20 11:55
vehicle公眾號
關注

最近AI 大神Yann leCun在其個人linkedin 和x上都轉發一個叫基于其世界模型V-JEPA 2理論的新產品BADAS-2.0,并表示JEPA世界模型將拯救生命開始在Physical AI 應用。

所以本文就解碼分析:

BADAS-2.0是什么產品

他基于什么物理硬件

他能到達什么樣的性能

他是怎么利用V-JEPA2 的技術實現

他目前的發展和挑戰約束是什么

未來世界模型怎么幫助自動駕駛以及Physical AI的發展

希望給大家帶來一些信息和啟發

一、BADAS-2.0 是什么產品?

BADAS(Based on V-JEPA2AdvancedDriverAssistanceSystem)是 Nexar AI 推出的第二代"碰撞預判(collision anticipation)"模型家族。它通過世界模型識別碰撞風險,然后通過VLM進行可解釋化和交互提醒。

它的定位與傳統 ADAS 有本質區別:傳統 ADAS 是"反應式"的(物體出現在危險區內→告警/制動),而BADAS 是"預測式"的——在事故發生前 0.5–3 秒就輸出"本車即將被卷入事故"的概率。

所以,這個邏輯就有點像我們之前文章《自動駕駛的下半場,讓機器擁有“常識”和“推演能力”的世界模型》里面講到的世界模型,他預測未來將要發生的事情,當然這個模型沒有生成軌跡動作去執行,類似于主動安全的FCW。

V-JEPA2 世界模型理論在這個產品邏輯能跑通,基本上AEB此類碰撞,甚至輔助駕駛都能做,這也就是為什么Yann leCun在其個人linkedin 和x上都轉發宣傳。

在BADAS-2.0 論文中作者把這種范式稱為ego-centric incident anticipation,和 DAD/DADA-2000/DoTA 等學術基準相比,它只關心自車相關的事件,這樣可以把現實部署中 40–92% 的"他車事故誤報"過濾掉。

BADAS-2.0 產品落地沿著三條軸線推進了 1.0 的能力:

(i) 長尾精度——新引入 10 組罕見安全關鍵場景基準;

(ii) 端側蒸餾——把 300M 的ViT-L(ViT一種將圖像分割成小塊(小區域)并將它們輸入到 Transformer 中進行自然語言處理的方法。)大模型蒸餾到 86M/22M 兩檔;

(iii) 可解釋性——注意力熱圖 + 視覺語言模型(VLM)生成自然語言行動建議(BADAS-Reason)。

他的整體算法模型架構如下:

二、物理硬件依托

BADAS-2.0 不是一個可以脫離 Nexar 基礎設施單獨存在的模型——它的數據源和部署目標都是一體化設計的。

傳感端:Nexar 運營的約 35 萬臺互聯式行車記錄儀,覆蓋美國 94% 的道路,每月新增約 1 億英里原始視頻,累計沉淀 10B+ 英里 / 45PB 視頻 / 6000 萬條"邊緣案例"視頻。

這是 BADAS-2.0 訓練集擴展的物理基礎——論文把 BADAS-1.0 作為"active oracle"部署在這個集群上持續打分,把高風險片段篩選出來送去人工標注,從 40k 擴到 178,500 條(約 2M 窗口)。

再加上 Nexar Atlas 地理空間平臺的地理位置定向采集(例如針對某個事故高發路口采集),構成數據飛輪。

部署/推理端:論文明確測試了三類平臺——

云端 GPU:NVIDIA A100(訓練和基準評測)

車載/機器人級邊緣:NVIDIA Jetson Thor / DRIVE AGX Thor(66 ms 實時預算 @ 16 Hz)

端側 CPU:Flash-Lite 甚至能在純 CPU 上滿足實時

官方數據顯示 Flash-Lite 在 A100 上比旗艦快 12 倍,在 NVIDIA Thor 上快 5 倍。三檔模型全部落在 66 ms / 幀的硬實時預算之內——這個數字對應人類駕駛員反應時間的中位 1.70 秒再減去 OS 和通信鏈路開銷。

總結就是,一個普通的基于聯網和地圖的行車記錄儀(DVR或著Dash Camera)+ 普通的CPU或著輔助駕駛的AI推理芯片,外加算力訓練集群。

三、三檔模型與性能表現

BADAS-2.0 的一個關鍵設計是"同一架構,三檔部署":

關鍵性能指標(Sec. 4):

99.4% Average Precision,

在 4 個主流基準(DAD、DADA-2000、DoTA、Nexar)上全部排第一

Kaggle mAP 從 1.0 的 0.925 提升到 2.0 的 0.940,假陽性率(FPR)下降 74%

即便微調在相同數據上,BADAS-2.0 仍顯著超越 NVIDIA COSMOS-Reason2(2B 參數的基礎模型),差距在霧天、基礎設施等長尾類別最明顯

一個關鍵事實:22M 的 Flash-Lite(比 COSMOS 小 91 倍)在長尾基準上仍超過微調后的 COSMOS-BADAS,這是 JEPA 架構相對于自回歸 VLM 在安全關鍵預測任務上的架構優勢的硬證據

下面把幾個基準的 AP 橫向對比

四、如何利用 V-JEPA2 技術實現

這是理解 BADAS-2.0 為什么有效的核心問題。V-JEPA2(Meta FAIR 2025)的關鍵創新是 Yann LeCun 倡導的Joint-Embedding Predictive Architecture(JEPA)在視頻上的放大版——在潛空間預測被遮擋的視頻表征,而不是重建像素。

具體架構要素:

編碼器 E_θ:ViT-L/H/g(300M–1B 參數),把視頻切成 2×16×16 的 tubelet

預測器 P_φ:一個輕量 ViT-S(約 22M)預測被 mask 部分的潛空間表征

使用 3D-RoPE 位置編碼(時間+H+W)

約 90% 的高 mask 比率,L1 損失,EMA teacher 防止表征坍塌

訓練數據 VideoMix22M = 2200 萬視頻 ≈ 100 萬小時互聯網視頻

在 Something-Something v2 取得 77.3% top-1(運動理解),Epic-Kitchens-100 動作預測 39.7 R@5(SOTA)

為什么像素重建不適合碰撞預測,而潛空間預測適合?像素重建優化的是"下一幀長什么樣"(視覺保真度),潛空間預測優化的是"下一幀的抽象語義/物理狀態"(物理因果)。碰撞預判需要的是后者——不是"前方車輛的反光細節",而是"它的運動趨勢會不會與本車軌跡相交"。這是 JEPA 架構在安全關鍵場景上相對于視頻擴散模型(COSMOS)和自回歸 VLM(Gemini)的結構性優勢。

BADAS-2.0 的具體集成方式:

骨干遷移:取 V-JEPA2 的 ViT-L 編碼器(300M),端到端微調到 Nexar dashcam 數據。不是凍結后掛 probe,是全參數更新——論文 1.0 的消融顯示端到端微調把 AP 從 0.707 提升到 0.928,是最大的單一貢獻

未來預測分支:在編碼器后增加一個分支,預測 1 秒后的潛空間表征,與當前表征拼接后送入分類頭。這是 V-JEPA2-AC(action-conditioned)思想的簡化版——讓模型明確地"預看未來"而不是隱式推斷

注意力探針聚合:12 個可學習 query token 在 2048 patch × 1024 維的表征矩陣上做 cross-attention,聚合成固定長度的場景級特征

3 層 MLP 頭:輸出 [0,1] 的碰撞概率

對 Flash / Flash-Lite 的關鍵點:領域 SSL 預訓練是蒸餾的前置條件。論文最重要的消融揭示:

隨機初始化 ViT-S 直接在 BADAS 監督信號上訓練 → AP 接近隨機

在 2.25M 無標注 Nexar 視頻上做 V-JEPA 風格的 masked feature prediction → +28.1 pp AP(達到接近生產質量)

再加上從 ViT-L 教師的知識蒸餾 → 再 +1.0 pp AP,同時 FPR 從 20.6% 腰斬到 9.1%

換句話說,領域自監督是 28 倍的貢獻,蒸餾是 1 倍的貢獻。沒有 V-JEPA 風格的領域 SSL,小模型根本學不會這個任務。

一個有意思的反直覺發現:蒸餾后的 ViT-S/B 小模型在注意力定位上反而比 ViT-L 旗艦更精準。作者的解釋是,小模型在領域 SSL 階段從一開始就把表征對齊到"駕駛相關區域",而 ViT-L 是從通用視頻預訓練繼承過來,需要同時適應表征分布和學習碰撞線索,注意力因此更彌散。這對后續的架構取舍有啟示意義。

五、目前的挑戰與約束

從行業研究者角度,BADAS-2.0 的約束分布在幾個層面:

數據層:長尾類別雖然大幅改善,動物、極端天氣、罕見基礎設施等仍是最難類別;數據飛輪依賴已有部署規模——論文自己承認"最大的可遷移經驗是:已部署的模型本身就是最便宜的標注器",但這等于承認沒有 1.0 的量產規模,2.0 的數據擴展是不可能的,這對想復現這套范式的團隊形成門檻。

架構層:V-JEPA2 是 Meta 的外部依賴,后續 license 或路線漂移有傳導風險;ViT-L(300M)仍偏大,對純 IoT 攝像頭只能選 Flash-Lite 且依賴 CPU/GPU 混合,無法完全跑在低功耗 NPU 上。

方法論層:論文明確對比了自回歸 VLM 基線(Gemini-BADAS、COSMOS-BADAS)——即使在相同數據上微調,仍比 BADAS-2.0 落后 5+ 個百分點。這既是 BADAS 的差異化優勢,也暴露了行業問題:目前沒有便宜且容易復用的 VLM 替代范式,想入局這個賽道必須走完"大規模真實數據 + JEPA 自監督 + 端到端微調 + 領域 SSL + 蒸餾"這整套流水線。

可解釋性層:BADAS-Reason 依賴 Qwen3-VL-4B + QLoRA 在 8,680 條人工描述上微調,這部分的端側延遲和 OEM 合規性在主文實驗中未充分呈現;另外 FlashAttention 必須關閉(eager attention mode)才能導出權重做熱圖,這對推理優化有代價。

部署層:目前測試都在 Jetson Thor 和 A100,真正的車規級功能安全認證(ISO 26262 ASIL-D)、OEM 整車集成、與現有 FCW/AEB 通路的仲裁邏輯都還在產品化階段;66 ms 預算對 L2+ 足夠,對 L4 規劃閉環可能偏緊。

六、未來發展方向

綜合兩篇論文和 Nexar 官方 roadmap,我看到四條演進路徑:

1. BADAS World——從預測到仿真。V-JEPA2 原論文有 V-JEPA2-AC(action-conditioned predictor)和基于 MPC 的零樣本機器人規劃分支,Nexar 已經預告 "BADAS World" 走物理感知駕駛仿真路線,即在預測分支上嵌入 ego 動作條件,形成 JEPA 世界模型的閉環——這是 LeCun 派世界模型的主線敘事。

2. BADAS-Reason v2——推理前置化。當前 BADAS-Reason 是事后 VLM 解釋(先有碰撞概率再生成自然語言),未來可以把推理與預測合并——V-JEPA2 原論文已經展示了與 Llama 3.1-8B 對齊后在 PerceptionTest 取得 84.0 分的能力,把這套對齊方式移到 BADAS 上,可以生成"推理即預測"的聯合輸出。

3. Physical AI 泛化。Nexar 的官方通稿明確提到 BADAS-2.0 在分布外(out-of-distribution)的非駕駛物理碰撞場景仍能穩定預測。這意味著 "JEPA 架構 + 大規模真實邊緣數據 + 蒸餾" 這套范式可以遷移到工業安全、倉儲物流、醫療機器人等安全關鍵領域,而不止于自動駕駛。

4. OEM 前裝化。2.0 Flash 和 Flash-Lite 的延遲表現首次讓"真實碰撞語料訓出來的感知模型"具備進入量產車 ECU 的可能(之前 1.0 的 2.5 s/window 是無法接受的)。Nexar 已經與 Waymo、Lyft、IBM、NVIDIA 等形成合作網絡,下一步的看點是能否進入 Tier-1 供應鏈。

總結

站在行業研究者的視角做一個總結:

BADAS-2.0 的真正技術意義不在于"一個更準的前向碰撞告警",而在于它首次在生產規模上實證了一條完整范式

"JEPA 自監督世界模型骨干 + 大規模真實世界邊緣數據飛輪 + 領域 SSL + 端到端微調 + 蒸餾到端側"

在安全關鍵預測任務上可以同時打贏"參數更大的 VLM 基礎模型"和"更成熟的工業 ADAS"。

這條路徑組合了 LeCun 的 JEPA 理論路線和數據網絡壁壘,很有可能成為未來 Physical AI 在安全關鍵系統(駕駛、機器人、醫療、工業)上的通用技術模板。

參考資料以及圖片

Beyond the Beep: Scalable Collision Anticipation and Real-Time Explainability with BADAS-2.0.

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

*未經準許嚴禁轉載和摘錄-

       原文標題 : 世界模型 V-JEPA殺入輔助駕駛應用,準備顛覆物理人工智能

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號