世界模型 V-JEPA殺入輔助駕駛應用，準備顛覆物理人工智能。

2026-04-20 11:55

vehicle公眾號

關注

最近AI 大神Yann leCun在其個人linkedin 和x上都轉發一個叫基于其世界模型V-JEPA 2理論的新產品BADAS-2.0，并表示JEPA世界模型將拯救生命開始在Physical AI 應用。

所以本文就解碼分析:

BADAS-2.0是什么產品

他基于什么物理硬件

他能到達什么樣的性能

他是怎么利用V-JEPA2 的技術實現

他目前的發展和挑戰約束是什么

未來世界模型怎么幫助自動駕駛以及Physical AI的發展

希望給大家帶來一些信息和啟發

一、BADAS-2.0 是什么產品？

BADAS（Based on V-JEPA2AdvancedDriverAssistanceSystem）是 Nexar AI 推出的第二代"碰撞預判（collision anticipation）"模型家族。它通過世界模型識別碰撞風險，然后通過VLM進行可解釋化和交互提醒。

它的定位與傳統 ADAS 有本質區別：傳統 ADAS 是"反應式"的（物體出現在危險區內→告警/制動），而BADAS 是"預測式"的——在事故發生前 0.5–3 秒就輸出"本車即將被卷入事故"的概率。

所以，這個邏輯就有點像我們之前文章《自動駕駛的下半場，讓機器擁有“常識”和“推演能力”的世界模型》里面講到的世界模型，他預測未來將要發生的事情，當然這個模型沒有生成軌跡動作去執行,類似于主動安全的FCW。

V-JEPA2 世界模型理論在這個產品邏輯能跑通，基本上AEB此類碰撞，甚至輔助駕駛都能做，這也就是為什么Yann leCun在其個人linkedin 和x上都轉發宣傳。

在BADAS-2.0 論文中作者把這種范式稱為ego-centric incident anticipation，和 DAD/DADA-2000/DoTA 等學術基準相比，它只關心自車相關的事件，這樣可以把現實部署中 40–92% 的"他車事故誤報"過濾掉。

BADAS-2.0 產品落地沿著三條軸線推進了 1.0 的能力：

(i) 長尾精度——新引入 10 組罕見安全關鍵場景基準；

(ii) 端側蒸餾——把 300M 的ViT-L(ViT一種將圖像分割成小塊（小區域）并將它們輸入到 Transformer 中進行自然語言處理的方法。)大模型蒸餾到 86M/22M 兩檔；

(iii) 可解釋性——注意力熱圖 + 視覺語言模型（VLM）生成自然語言行動建議（BADAS-Reason）。

他的整體算法模型架構如下：

二、物理硬件依托

BADAS-2.0 不是一個可以脫離 Nexar 基礎設施單獨存在的模型——它的數據源和部署目標都是一體化設計的。

傳感端：Nexar 運營的約 35 萬臺互聯式行車記錄儀，覆蓋美國 94% 的道路，每月新增約 1 億英里原始視頻，累計沉淀 10B+ 英里 / 45PB 視頻 / 6000 萬條"邊緣案例"視頻。

這是 BADAS-2.0 訓練集擴展的物理基礎——論文把 BADAS-1.0 作為"active oracle"部署在這個集群上持續打分，把高風險片段篩選出來送去人工標注，從 40k 擴到 178,500 條（約 2M 窗口）。

再加上 Nexar Atlas 地理空間平臺的地理位置定向采集（例如針對某個事故高發路口采集），構成數據飛輪。

部署/推理端：論文明確測試了三類平臺——

云端 GPU：NVIDIA A100（訓練和基準評測）

車載/機器人級邊緣：NVIDIA Jetson Thor / DRIVE AGX Thor（66 ms 實時預算 @ 16 Hz）

端側 CPU：Flash-Lite 甚至能在純 CPU 上滿足實時

官方數據顯示 Flash-Lite 在 A100 上比旗艦快 12 倍，在 NVIDIA Thor 上快 5 倍。三檔模型全部落在 66 ms / 幀的硬實時預算之內——這個數字對應人類駕駛員反應時間的中位 1.70 秒再減去 OS 和通信鏈路開銷。

總結就是，一個普通的基于聯網和地圖的行車記錄儀（DVR或著Dash Camera）+ 普通的CPU或著輔助駕駛的AI推理芯片，外加算力訓練集群。

三、三檔模型與性能表現

BADAS-2.0 的一個關鍵設計是"同一架構，三檔部署"：

關鍵性能指標（Sec. 4）：

99.4% Average Precision，

在 4 個主流基準（DAD、DADA-2000、DoTA、Nexar）上全部排第一

Kaggle mAP 從 1.0 的 0.925 提升到 2.0 的 0.940，假陽性率（FPR）下降 74%

即便微調在相同數據上，BADAS-2.0 仍顯著超越 NVIDIA COSMOS-Reason2（2B 參數的基礎模型），差距在霧天、基礎設施等長尾類別最明顯

一個關鍵事實：22M 的 Flash-Lite（比 COSMOS 小 91 倍）在長尾基準上仍超過微調后的 COSMOS-BADAS，這是 JEPA 架構相對于自回歸 VLM 在安全關鍵預測任務上的架構優勢的硬證據

下面把幾個基準的 AP 橫向對比

四、如何利用 V-JEPA2 技術實現

這是理解 BADAS-2.0 為什么有效的核心問題。V-JEPA2（Meta FAIR 2025）的關鍵創新是 Yann LeCun 倡導的Joint-Embedding Predictive Architecture（JEPA）在視頻上的放大版——在潛空間預測被遮擋的視頻表征，而不是重建像素。

具體架構要素：

編碼器 E_θ：ViT-L/H/g（300M–1B 參數），把視頻切成 2×16×16 的 tubelet

預測器 P_φ：一個輕量 ViT-S（約 22M）預測被 mask 部分的潛空間表征

使用 3D-RoPE 位置編碼（時間+H+W）

約 90% 的高 mask 比率，L1 損失，EMA teacher 防止表征坍塌

訓練數據 VideoMix22M = 2200 萬視頻 ≈ 100 萬小時互聯網視頻

在 Something-Something v2 取得 77.3% top-1（運動理解），Epic-Kitchens-100 動作預測 39.7 R@5（SOTA）

為什么像素重建不適合碰撞預測，而潛空間預測適合？像素重建優化的是"下一幀長什么樣"（視覺保真度），潛空間預測優化的是"下一幀的抽象語義/物理狀態"（物理因果）。碰撞預判需要的是后者——不是"前方車輛的反光細節"，而是"它的運動趨勢會不會與本車軌跡相交"。這是 JEPA 架構在安全關鍵場景上相對于視頻擴散模型（COSMOS）和自回歸 VLM（Gemini）的結構性優勢。

BADAS-2.0 的具體集成方式：

骨干遷移：取 V-JEPA2 的 ViT-L 編碼器（300M），端到端微調到 Nexar dashcam 數據。不是凍結后掛 probe，是全參數更新——論文 1.0 的消融顯示端到端微調把 AP 從 0.707 提升到 0.928，是最大的單一貢獻

未來預測分支：在編碼器后增加一個分支，預測 1 秒后的潛空間表征，與當前表征拼接后送入分類頭。這是 V-JEPA2-AC（action-conditioned）思想的簡化版——讓模型明確地"預看未來"而不是隱式推斷

注意力探針聚合：12 個可學習 query token 在 2048 patch × 1024 維的表征矩陣上做 cross-attention，聚合成固定長度的場景級特征

3 層 MLP 頭：輸出 [0,1] 的碰撞概率

對 Flash / Flash-Lite 的關鍵點：領域 SSL 預訓練是蒸餾的前置條件。論文最重要的消融揭示：

隨機初始化 ViT-S 直接在 BADAS 監督信號上訓練 → AP 接近隨機

在 2.25M 無標注 Nexar 視頻上做 V-JEPA 風格的 masked feature prediction → +28.1 pp AP（達到接近生產質量）

再加上從 ViT-L 教師的知識蒸餾 → 再 +1.0 pp AP，同時 FPR 從 20.6% 腰斬到 9.1%

換句話說，領域自監督是 28 倍的貢獻，蒸餾是 1 倍的貢獻。沒有 V-JEPA 風格的領域 SSL，小模型根本學不會這個任務。

一個有意思的反直覺發現：蒸餾后的 ViT-S/B 小模型在注意力定位上反而比 ViT-L 旗艦更精準。作者的解釋是，小模型在領域 SSL 階段從一開始就把表征對齊到"駕駛相關區域"，而 ViT-L 是從通用視頻預訓練繼承過來，需要同時適應表征分布和學習碰撞線索，注意力因此更彌散。這對后續的架構取舍有啟示意義。

五、目前的挑戰與約束

從行業研究者角度，BADAS-2.0 的約束分布在幾個層面：

數據層：長尾類別雖然大幅改善，動物、極端天氣、罕見基礎設施等仍是最難類別；數據飛輪依賴已有部署規模——論文自己承認"最大的可遷移經驗是：已部署的模型本身就是最便宜的標注器"，但這等于承認沒有 1.0 的量產規模，2.0 的數據擴展是不可能的，這對想復現這套范式的團隊形成門檻。

架構層：V-JEPA2 是 Meta 的外部依賴，后續 license 或路線漂移有傳導風險；ViT-L（300M）仍偏大，對純 IoT 攝像頭只能選 Flash-Lite 且依賴 CPU/GPU 混合，無法完全跑在低功耗 NPU 上。

方法論層：論文明確對比了自回歸 VLM 基線（Gemini-BADAS、COSMOS-BADAS）——即使在相同數據上微調，仍比 BADAS-2.0 落后 5+ 個百分點。這既是 BADAS 的差異化優勢，也暴露了行業問題：目前沒有便宜且容易復用的 VLM 替代范式，想入局這個賽道必須走完"大規模真實數據 + JEPA 自監督 + 端到端微調 + 領域 SSL + 蒸餾"這整套流水線。

可解釋性層：BADAS-Reason 依賴 Qwen3-VL-4B + QLoRA 在 8,680 條人工描述上微調，這部分的端側延遲和 OEM 合規性在主文實驗中未充分呈現；另外 FlashAttention 必須關閉（eager attention mode）才能導出權重做熱圖，這對推理優化有代價。

部署層：目前測試都在 Jetson Thor 和 A100，真正的車規級功能安全認證（ISO 26262 ASIL-D）、OEM 整車集成、與現有 FCW/AEB 通路的仲裁邏輯都還在產品化階段；66 ms 預算對 L2+ 足夠，對 L4 規劃閉環可能偏緊。

六、未來發展方向

綜合兩篇論文和 Nexar 官方 roadmap，我看到四條演進路徑：

1. BADAS World——從預測到仿真。V-JEPA2 原論文有 V-JEPA2-AC（action-conditioned predictor）和基于 MPC 的零樣本機器人規劃分支，Nexar 已經預告 "BADAS World" 走物理感知駕駛仿真路線，即在預測分支上嵌入 ego 動作條件，形成 JEPA 世界模型的閉環——這是 LeCun 派世界模型的主線敘事。

2. BADAS-Reason v2——推理前置化。當前 BADAS-Reason 是事后 VLM 解釋（先有碰撞概率再生成自然語言），未來可以把推理與預測合并——V-JEPA2 原論文已經展示了與 Llama 3.1-8B 對齊后在 PerceptionTest 取得 84.0 分的能力，把這套對齊方式移到 BADAS 上，可以生成"推理即預測"的聯合輸出。

3. Physical AI 泛化。Nexar 的官方通稿明確提到 BADAS-2.0 在分布外（out-of-distribution）的非駕駛物理碰撞場景仍能穩定預測。這意味著 "JEPA 架構 + 大規模真實邊緣數據 + 蒸餾" 這套范式可以遷移到工業安全、倉儲物流、醫療機器人等安全關鍵領域，而不止于自動駕駛。

4. OEM 前裝化。2.0 Flash 和 Flash-Lite 的延遲表現首次讓"真實碰撞語料訓出來的感知模型"具備進入量產車 ECU 的可能（之前 1.0 的 2.5 s/window 是無法接受的）。Nexar 已經與 Waymo、Lyft、IBM、NVIDIA 等形成合作網絡，下一步的看點是能否進入 Tier-1 供應鏈。