訂閱
糾錯
加入自媒體

自動駕駛中提到的WEWA架構是個啥?

2025-09-26 10:39
智駕最前沿
關注

最近有小伙伴在留言區留言,想讓我聊聊現在非;馃岬腤EWA架構,相較于VLA,WEWA有何區別,今天就簡單聊聊這個內容,也期待大家在評論區留言討論。

什么是WEWA?

WEWA全稱可以理解為“World Engine+World Action”。它把實現自動駕駛的思路拆成兩層,一層在云端,負責“造世界、訓練模型、把難題推演透”;另一層在車端,負責“看世界、理解世界、直接下決定并把車開出去”。云端是大腦的訓練工廠,車端是實時決策與執行的現場指揮。這樣做有一個好處,那就是可以把稀有但危急的邊緣場景用數據和模型在云端“補齊”,把實力更強的行為模型蒸餾、裁剪后放到車上,讓車能用盡可能低的延遲、盡可能接近人類的方式去處理突發狀況。

WEWA的“World Engine”其實更側重生成和仿真,尤其是長尾和“難例”場景的合成;“World Action”則是車端的行為模型,依賴多模態感知(攝像頭、毫米波/雷達/激光雷達、車內外麥克風等),并通過一種多專家(Mixture of Experts,MoE)機制在運行時選擇或組合最佳決策路徑。訓練在云,推理在車,這是它最核心的運作節奏。

WEWA和VLA有何區別?

與現在自動駕駛行業非;馃岬腣LA相比,WEWA有什么區別?VLA的核心思想是把視覺理解和語言推理聯系起來,讓模型用類似“語言”的中間表示來解釋、推理世界,進而生成動作。這種方式的優點是可解釋性更強,好的VLA系統在推理鏈路上能讓工程師更容易理解為什么會做出某個決策,也便于用文本/符號做高層規劃或嵌入人機交互。

WEWA則選擇跳過“語言”這一步,直接把世界狀態映射到動作。它不把感知到的信息先翻譯成符號化的語言再推理,而是把云端訓練出的世界模型(擅長物理推演與行為預測)蒸餾成車端可運行的行為模型,由多模態輸入直接驅動決策與軌跡輸出。這樣做的直接效果就是省去了從“感知→符號化語言→推理→動作”這段可能產生的精度損耗與時間延遲。

VLA路線通常更仰仗大規模真實路測數據,把大量實車里程當作模型上限的重要組成部分;而WEWA更強調用高質量的仿真與合成數據去補齊那些在現實中幾乎見不到但安全關鍵的邊緣場景。

WEWA的幾個技術優勢

汽車是高實時性、高安全邊界的系統,任何多一步的數據轉換或延遲都會放大風險。WEWA的設計選擇正是從這類工程約束出發的,因此它在幾個地方有明顯的工程優勢。

1)低延時更利于“車端即時控制”

WEWA把訓練好的行為模型蒸餾到車端并與多模態感知直接聯動,避免了把信息先翻譯成語言符號再做二次推理的過程。少一次轉換,就少一次可能的精度損失和延遲。華為ADS4就是采用WEWA技術架構,據其官方介紹,這一架構下的端到端時延降低了約一半,這種延時改進在高速與突發場景下直接等同于多一層安全緩沖。

2)更高效覆蓋長尾“難例”

真正危及安全的罕見場景在現實中其實非常稀少,單靠車隊跑數據很難在可接受的時間內覆蓋所有會導致嚴重后果的邊緣場景。WEWA把“難例擴散生成模型”放在云端,通過合成與仿真生成高密度的極端場景用于訓練,云端能在短時間內把非常多、非常罕見但具有代表性的危險場景喂給模型,提升模型在這些極端場景下的魯棒性。VLA路線雖也重視仿真,但往往更依賴真實路測去獲得臨界狀態數據,這會受限于采集效率和時間窗口。

3)蒸餾與MoE帶來資源與性能的折衷

WEWA架構下,云端可以訓練體量更大的“世界模型”,車端運行的是蒸餾后、經過剪枝和專門優化的“世界行為模型”。再結合MoE這種運行時只激活部分專家(而不是總調用全部模型)的策略,能在有限算力下實現接近大模型的決策能力。這能讓整套系統在車端對算力的需求更溫和,也讓軟硬件協同調優的可能性變多。

4)端云協同提升迭代效率

WEWA把復雜訓練放在云端,更新和能力提升可以通過OTA把改進快速推到車上;同時,云端的仿真與真實回放能形成閉環,理論上能更快把在車上發現的“新難例”補回到訓練集中去,這種端云的正反饋對能力加速很有幫助。

以上這些都是WEWA的技術賣點,但其也有一些潛在的問題。仿真生成的場景質量決定了訓練結果的上限,如果生成模型沒把物理細節或光學特性還原好,訓練出的行為模型在現實會遭遇分布偏差。還有就是跳過“語言”層,所帶來的可解釋性劣勢也是必須面對的事實,沒有清晰的中間符號,工程師在調試復雜失敗案例時會更難定位問題根源。再者,蒸餾雖能壓縮模型,但在極端態下有可能喪失一些細微但關鍵的決策能力,如何在壓縮與安全之間做平衡,是需要解決的問題。

體驗才是檢驗一切的標尺

無論架構上講得多漂亮,只有用戶體驗和道路實測才是判斷一個技術最好的場所。WEWA要保證的是在真實路況下“看起來順、開起來安全”。體驗好不好往往由系統在突發情境下反應是否自然、是否能避免過度干預、能否在復雜場景下給出穩定而可預測的行為等幾個直觀感受決定的。

VLA把語言中間表示作為橋梁,某些場景下能更容易解釋“為什么這么做”,這對用戶信任和工程調試有幫助。但解釋性并不等于效果好,解釋性強的推理若因延遲或精度損失導致決策遲鈍或不穩,用戶同樣不會買單。因此這兩條路線的終極較量,還是體現在“誰能在真實道路上、在成千上萬小時的運行中,把安全與舒適都做實”的能力。

其實用戶體驗是一個長期的迭代的過程。哪怕初期某個架構在某些場景表現更優,持續的場景采集、仿真增強、模型更新和OTA能力同樣決定最終勝負。廠商之間或會越來越多地把注意力放在閉環能力上,車上出了事情是否能快速回傳并被云端吸收?云端又是否能快速把改進推回車上?這個循環的快慢直接影響能力演進速率。

最后的話

WEWA的思路是把有限的車端資源和高實時性需求放在首位,用云端補齊真實世界難以采集的長尾場景,通過蒸餾和MoE在車端做出及時且穩健的決策。這樣做的好處在于延遲更低、能更系統地覆蓋難例、并且在量產與成本上有更現實的考量。VLA的長處在于解釋性、用真實數據打磨行為和把語言能力作為更高階的人機交互與推理工具。

其實對用戶而言真正有價值的,是在復雜路況下系統不會“慌”,在突發場景下決策既安全又合乎人的直覺。這意味著技術路線之爭的背后,本質是對“可信賴體驗”的追求,系統不僅不能出錯,更要讓人安心。無論是WEWA的實時響應還是VLA的行為可解釋,最終都是為了實現一種連貫、自然的駕駛風格,讓乘客在無意識中感受到技術的可靠性。也只有當系統能像人類一樣從容應對不確定性,才能真正贏得用戶的長期信任,推動自動駕駛從功能走向陪伴。

-- END --

       原文標題 : 自動駕駛中提到的WEWA架構是個啥?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號