原生多模態統一架構比不過單模態專家模型？華為團隊出品的EMMA “Say No” - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 正文

原生多模態統一架構比不過單模態專家模型？華為團隊出品的EMMA “Say No”

2025-12-10 17:01

作者：Xin He， Longhui Wei等

解讀：AI生成未來

背景與動機

當前多模態大模型已經成為大模型領域最為重要的研究熱點，尤其是隨著OpenAI的GPT-4O展現出極強的多模交互生成能力，以及谷歌GEMINI依靠原生多模架構打了一場漂亮的大模型翻身仗，如何構建多模態統一架構已經成為2025年多模態大模型領域最為關心的課題。

盡管構建多模態統一架構已經成為了業界幾乎所有大模型研究者的共識，但是如何構建多模態統一架構的路線目前仍然未收斂，比如1）直接利用開源的理解或生成專家模型然后中間設計橋接器來構建多模交互能力，典型代表工作比如UniWorldV1, Metaquery, OminiGen2等； 2）架構統一并進行端到端原生訓練以激發多模能力，但其理解與生成任務優化目標不同。代表工作如字節的BAGEL，Mogao以及Deepseek的JanusFlow 3) 追求完美統一，優化目標一致，比如EMU系列和D-DiT。但無論哪種路線，圍繞大家心中最為關鍵的一個問題就是，多模態統一架構所訓練激發的能力到底能不能超過單獨的多模態理解或者多模態生成模型，從而證明多模態統一架構所具備的優勢？華為近期發布的高效多模態統一架構EMMA就給出了相關答案，是可以的！

先上結果

我們先來看結果，一句話總結：EMMA以4B MOE規模的大小在多模態理解、生成、編輯等榜單上力壓當前各種7B大小的統一架構模型，遠超BAGEL

再來看看與單獨的專家模型對比。比如在多模態理解常常測評的11個榜單上，EMMA-4B模型要比Qwen3-VL-4B取得更好的結果。

同時，在圖像生成GenEval榜單上EMMA也獲得了超高的分數。

具體方法和實驗細節

我們來看看EMMA到底通過什么方案來取得這么好的效果呢？核心方案：

高效壓縮，平衡理解與生成Token；采用32x高效壓縮的生成編碼器，使得與理解分支一致，保證理解與生成的token平衡，這個近期Meta的統一架構工作TUNA也提及到理解與生成token平衡。因此，1K分辨率的圖像理解和生成編碼器都會編碼成1024個視覺token。

Token Channel-wise拼接，降低視覺Token數；理解token 和生成token 直接通道拼接而不是token 數拼接，這樣在做信息融合的時候避免token爆炸，有利于多模交互場景;

采用共享及解耦網絡機制；在原生多模知識共享（這點大家可以參考對照生成需要REPA loss）的同時滿足任務特異性建模（理解語義建模，生成需要語義和高頻信息建模）

理解編碼器siglip2改成專家混合架構mixpert，以應對多樣的輸入圖像類型。

其整體架構圖和訓練細節如下。基于上述方案，EMMA在滿足高效的同時（例如編輯任務降低5倍視覺token）達到SOTA性能，相較于BAGEL7B有大幅提升。同時相較于Qwen3-VL-4B進行了對比在11個理解榜單取得了相當甚至更優的結果

可視化結果

最后我們再來看一些具體的可視化結果

是不是EMMA的生成能力相當能打？

總結

EMMA通過高效的編碼器設計融合策略和網絡結構語義共享及高層任務解耦機制，能夠高效地完成原生多模態統一架構訓練，最終配合上高質量的數據工程和訓練方案EMMA能夠在多模態理解、生成及編輯等榜單上大幅超過BAGEL。相較于理解SOTA模型Qwen3-VL-4B以及Qwen-Image也能展現出具備競爭力的結果。EMMA進一步揭示了原生多模態統一架構的潛力，也證明了原生多模態統一架構是能夠超越專有模型的，為后續多模態統一架構研究奠定堅實的基礎。

參考文獻

[1] EMMA: Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture

原文標題 : 原生多模態統一架構比不過單模態專家模型？華為團隊出品的EMMA “Say No”

模態架構模型 EMMA

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號