訂閱
糾錯
加入自媒體

原生多模態統一架構比不過單模態專家模型?華為團隊出品的EMMA “Say No”

2025-12-10 17:01
AI生成未來
關注

作者:Xin He, Longhui Wei等

解讀:AI生成未來

背景與動機

當前多模態大模型已經成為大模型領域最為重要的研究熱點,尤其是隨著OpenAI的GPT-4O展現出極強的多模交互生成能力,以及谷歌GEMINI依靠原生多模架構打了一場漂亮的大模型翻身仗,如何構建多模態統一架構已經成為2025年多模態大模型領域最為關心的課題。

盡管構建多模態統一架構已經成為了業界幾乎所有大模型研究者的共識,但是如何構建多模態統一架構的路線目前仍然未收斂,比如1)直接利用開源的理解或生成專家模型然后中間設計橋接器來構建多模交互能力,典型代表工作比如UniWorldV1, Metaquery, OminiGen2等; 2)架構統一并進行端到端原生訓練以激發多模能力,但其理解與生成任務優化目標不同。代表工作如字節的BAGEL,Mogao以及Deepseek的JanusFlow 3) 追求完美統一,優化目標一致,比如EMU系列和D-DiT。但無論哪種路線,圍繞大家心中最為關鍵的一個問題就是,多模態統一架構所訓練激發的能力到底能不能超過單獨的多模態理解或者多模態生成模型,從而證明多模態統一架構所具備的優勢?華為近期發布的高效多模態統一架構EMMA就給出了相關答案,是可以的!

先上結果

我們先來看結果,一句話總結:EMMA以4B MOE規模的大小在多模態理解、生成、編輯等榜單上力壓當前各種7B大小的統一架構模型,遠超BAGEL

再來看看與單獨的專家模型對比。比如在多模態理解常常測評的11個榜單上,EMMA-4B模型要比Qwen3-VL-4B取得更好的結果。

同時,在圖像生成GenEval榜單上EMMA也獲得了超高的分數。

具體方法和實驗細節

我們來看看EMMA到底通過什么方案來取得這么好的效果呢? 核心方案:

高效壓縮,平衡理解與生成Token;采用32x高效壓縮的生成編碼器,使得與理解分支一致,保證理解與生成的token平衡,這個近期Meta的統一架構工作TUNA也提及到理解與生成token平衡。因此,1K分辨率的圖像理解和生成編碼器都會編碼成1024個視覺token。

Token Channel-wise拼接,降低視覺Token數;理解token 和生成token 直接通道拼接而不是token 數拼接,這樣在做信息融合的時候避免token爆炸,有利于多模交互場景;

采用共享及解耦網絡機制;在原生多模知識共享(這點大家可以參考對照生成需要REPA loss)的同時滿足任務特異性建模(理解語義建模,生成需要語義和高頻信息建模)

理解編碼器siglip2改成專家混合架構mixpert,以應對多樣的輸入圖像類型。

其整體架構圖和訓練細節如下。 基于上述方案,EMMA在滿足高效的同時(例如編輯任務降低5倍視覺token)達到SOTA性能,相較于BAGEL7B有大幅提升。同時相較于Qwen3-VL-4B進行了對比在11個理解榜單取得了相當甚至更優的結果

可視化結果

最后我們再來看一些具體的可視化結果

是不是EMMA的生成能力相當能打?

總結

EMMA通過高效的編碼器設計融合策略和網絡結構語義共享及高層任務解耦機制,能夠高效地完成原生多模態統一架構訓練,最終配合上高質量的數據工程和訓練方案EMMA能夠在多模態理解、生成及編輯等榜單上大幅超過BAGEL。相較于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展現出具備競爭力的結果。EMMA進一步揭示了原生多模態統一架構的潛力,也證明了原生多模態統一架構是能夠超越專有模型的,為后續多模態統一架構研究奠定堅實的基礎。

參考文獻

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

       原文標題 : 原生多模態統一架構比不過單模態專家模型?華為團隊出品的EMMA “Say No”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號