訂閱
糾錯
加入自媒體

僅960M參數,不僅干翻百億大模型,速度還快了6倍!字節最新圖像編輯模型EditMGT開源啦

2025-12-26 14:45
AI生成未來
關注

作者:Wei Chow,Linfeng Li等

解讀:AI生成未來

亮點直擊

提出了EditMGT,這是首個基于MGT的圖像編輯模型,它通過利用MGT的令牌翻轉特性來顯式地保留與編輯無關的區域,從而從根本上解決了擴散模型中存在的虛假編輯泄露問題。

提出了結合區域保持采樣的多層注意力整合方法,以實現對編輯相關區域的自適應定位,從而解決了在無需手動預定義掩碼的情況下確定編輯應用位置的挑戰。

構建了CrispEdit-2M,這是一個包含7個不同類別、經過嚴格篩選的200萬樣本的高分辨率(≥1024)圖像編輯數據集。

在四個流行基準測試上進行的大量實驗驗證了我們方法的有效性,緊湊的960M參數模型實現了比同類方法快6倍的編輯速度。

總結速覽

解決的問題

擴散模型(DMs)在圖像編輯中存在全局去噪動態性問題,導致對非目標區域的意外修改(編輯泄露)。

現有解決方案(如依賴高質量數據、預定義掩碼或反轉技術)存在靈活性不足、無法顯式保證非相關區域不變或推理速度慢等局限。

提出的方案

提出了首個基于掩碼生成Transformer(MGTs)的圖像編輯框架——EditMGT。

構建了一個大規模高分辨率(≥1024)圖像編輯數據集CrispEdit-2M,涵蓋7個不同類別,用于訓練模型。

應用的技術

自適應定位:利用MGT的交叉注意力機制提供定位信號,并設計了一種多層注意力整合方案,以細化注意力圖,實現細粒度、精確的編輯相關區域定位。

顯式區域保留:提出了區域保持采樣技術,限制在低注意力區域進行令牌翻轉,以抑制偽編輯,從而將修改限制在目標區域內,并保持周圍非目標區域的完整性。

高效適配:通過注意力注入的方式,將預訓練的文本到圖像MGT模型適配為圖像編輯模型,無需引入額外參數。

達到的效果

性能領先:在四個標準基準測試上,模型(參數量<1B)取得了圖像相似度指標的最先進性能。在風格變更和風格遷移任務上分別提升了3.6%和17.6%。整體性能優于多個更大規模(6B-8B)的基線模型。

效率顯著:實現了6倍的編輯速度提升(編輯1024×1024圖像僅需2秒),同時內存占用僅為13.8 GB。

精確編輯:能夠自適應定位編輯區域,并顯式地保留非目標區域,有效解決了編輯泄露問題。

EditMGT:邁向基于MGT的圖像編輯

首先介紹基于 MGT 的編輯架構實現,該架構利用注意力注入(attention injection)在不引入額外參數的情況下實現圖像編輯。隨后闡述了推理過程。重點分析了 MGT 模型中的注意力機制,提出了多層注意力整合(multi-layer attention consolidation)結合區域保持采樣(region-hold sampling)的方法,以利用該機制確保在推理過程中保留無關區域。最后描述了 EditMGT 及其提出的 CrispEdit-2M 數據集的訓練過程。

圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監督編輯圖像的生成。 右圖說明了多模態轉換器塊內的token交互,而單模態塊則采用類似的架構。圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監督編輯圖像的生成。 右圖說明了多模態轉換器塊內的token交互,而單模態塊則采用類似的架構。

架構

預備知識。MGT 從一張所有視覺 token 都被掩蓋(masked)的空白畫布開始。在每次采樣迭代中,所有缺失的 token 都會并行采樣,并使用拒絕標準,模型似然度較低的 token 會被掩蓋,并在下一次細化迭代中重新預測。本文定義圖像和文本條件 token 分別為  和 ,其中  是嵌入維度, 和  分別是它們的 token 數量。

在 Meissonic 的實現中,每個 transformer 塊首先應用旋轉位置編碼(RoPE)來編碼 token。對于圖像 token ,RoPE 根據 token 在 2D 網格中的位置  應用旋轉矩陣:,其中  表示位置  處的旋轉矩陣。文本 token  經過相同的變換,其位置設置為 。多模態注意力機制隨后將連接后的位置編碼 token  投影為查詢(Query)、鍵(Key) 和值(Value) 表示。注意力權重計算如下:。然后, 和  的乘積在傳播到下一個模塊之前通過歸一化層。 被賦予了豐富的語義信息,隨后基于注意力權重納入額外的圖像條件,同時在推理過程中引入局部和全局引導。

**圖像條件集成 (Image Conditional Integration)**。為了讓原始圖像監督圖像生成過程,本文進一步定義了圖像條件 token ,其形狀與  相同。具體而言,本文設定 RoPE 矩陣滿足:,這確保了原始圖像與編輯后圖像在空間上的對齊。如圖 2 右側所示, 與  共享參數并經歷相同的迭代去噪步驟,但關鍵區別在于  的時間步長(timestep)在整個過程中始終固定為零。這一設計選擇防止了  發生漂移,從而使其保持作為穩定調節信號的作用。

在訓練階段,模型  的優化目標是在大規模圖像-文本數據集  上,最小化在給定未掩蔽(unmasked)token 和條件 token 的情況下重建被掩蔽 token 的負對數似然,其中  代表被掩蔽的 token:

其中 , 是應用于 token 的二進制掩碼,用于選擇索引  進行掩蔽, 指未被掩蔽的 token, 是 token  的預測概率。本文在訓練中使用余弦調度策略,掩蔽率  采樣自截斷反余弦分布,其密度函數為 。

為了在推理過程中控制  的強度,遵循 [41] 的方法,本文在注意力權重中引入偏置項 ,即 ,其中  是調節拼接后的 token  之間注意力的偏置矩陣。該過程可表述如下:

該公式保留了每種 token 類型內部的原始注意力模式,同時將  和  之間的注意力權重縮放 。在測試時,設置  會移除條件的影響,而  則會增強它。通過這種方法,本文利用注意力機制無縫嵌入了調節條件,從而在不引入額外參數的情況下實現了從文生圖(text-to-image)模型到圖像編輯模型的轉變。

推理

基于上述架構,本工作觀察到 EditMGT 中的交叉注意力機制自然地為編輯相關區域的自適應定位提供了信息豐富的線索。如下圖3所示,本工作研究了迭代圖像  和指令  之間的交叉注意力機制(由于篇幅限制,省略了原始圖像  與這兩種模態之間的交叉注意力可視化)。

圖3:EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應關系。本工作通過堆疊和過濾操作增強了其清晰度圖3:EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應關系。本工作通過堆疊和過濾操作增強了其清晰度

分析表明,MGT 模型中的每個文生圖注意力權重都包含豐富的語義信息,建立了文本指令與視覺區域之間的有效對應關系。值得注意的是,模型可以在初始迭代中預測編輯圖像中關鍵區域的樣式。例如,在“給狗戴上生日帽”的例子中,MGT 直接描繪了帽子形狀的輪廓。

多層注意力整合(Multi-layer Attention Consolidation)。來自單個中間塊的原始注意力權重表現出不夠突出且缺乏清晰焦點的問題,即使是從最連貫的層中提取也是如此。為了解決這一局限性,本工作提出了多層注意力整合,系統地增強注意力的清晰度。具體而言,聚合了從第 28 塊到第 36 塊的注意力權重,這些塊選自連貫的單模態處理層,以放大信號強度。然而,觀察發現聚合后的注意力權重仍然表現出不完整的激活區域,其特征是內部不連續和邊界定義不清,這可能導致對象內部的 token 分類錯誤。為了減輕這些偽影,本工作結合了自適應過濾(Adaptive Filtering)以實現增強的清晰度和空間精度。

區域保持采樣(Region-Hold Sampling)。在注意力機制的分析中,觀察到 MGT 的注意力權重表現出豐富的語義信息,實現了良好對齊的文圖對應關系。在圖像生成過程中,MGT 通過迭代 token 翻轉(token flipping)逐步細化目標圖像。如下圖4所示,EditMGT 準確地定位了編輯的關鍵區域。因此,本工作通過顯式地將低注意力區域翻轉回其原始 token 來保留未修改的區域。

定義  分別為第  層歸一化后的  和  的注意力圖。為了靈活控制翻轉頻率,引入閾值  來確定哪些 token 應恢復為原始圖像。具體來說,可以按如下方式獲取定位圖:

其中  表示矩陣  的第  行切片, 是要選擇的所有行索引的集合,且 (當且僅當選擇整個  時等號成立)。如果僅使用指令中的關鍵詞(例如特定對象),則可以使用  提取相應部分。在推理過程中,EditMGT 翻轉具有高置信度的 token,同時保留低置信度 token 作為 [MASK] 以供后續細化。通過引入的采樣方法,滿足  的 token 被恢復為其原始對應物,從而保持采樣調度器的完整性以及與源圖像的一致性。

下圖4 展示了編輯圖像與  之間的關系——當  超過某個閾值時,輸出變得與原始圖像完全相同。

圖4:不同閾值  下的編輯結果可視化、GEdit Bench 語義分數以及與原始圖像的 L1 距離圖4:不同閾值  下的編輯結果可視化、GEdit Bench 語義分數以及與原始圖像的 L1 距離

訓練細節

鑒于高分辨率圖像編輯數據集的稀缺,本工作構建了涵蓋 7 個不同類別的 CrispEdit-2M 數據集。CrispEdit-2M 包含 200 萬個短邊  像素的樣本,使用開源模型生成,并采用嚴格的過濾程序以確保數據質量。結合額外收集的 200 萬個高分辨率樣本,總共使用了 400 萬個圖像編輯數據樣本進行訓練。

EditMGT 基于 Meissonic 實現。由于 Meissonic 表現出生成卡通風格內容的偏好,且采用 CLIP 作為文本編碼器,缺乏強大的語言理解能力(這是編輯模型的關鍵要求),因此將 EditMGT 的訓練分為三個階段:

階段 1:基于 LLM 的基礎模型。利用約 100 萬個文本-圖像對,直接采用 Gemma2-2B-IT 作為文本編碼器,訓練 5,000 步。

階段 2:編輯模型全量微調。在完整的 400 萬圖像編輯數據集上進行 50,000 步的全量微調。

階段 3:高質量微調。使用更高質量的編輯數據對模型進行 1,000 步的微調,以增強模型輸出與人類偏好之間的對齊。實驗

為了驗證 EditMGT 的有效性,本工作在三個像素級基準測試(Emu Edit, MagicBrush, AnyBench)和一個基于 GPT 的評估基準(GEdit-EN-full)上進行了全面評估。

主要結果

本工作在四個基準數據集上對 EditMGT 與基線方法進行了定量比較。

Emu Edit & MagicBrush:如下表 1 所示,EditMGT 在圖像相似度(CLIP)方面在所有評估模型中取得了 SOTA 性能,在 MagicBrush 上有 1.1% 的顯著提升。在語義圖像相似度(DINO)方面,該方法分別取得了第二佳和 SOTA 的結果。指令依從性指標顯示了一致的強勁表現。盡管 L1 分數未顯示顯著優勢,但這可能歸因于 EditMGT 與預定目標圖像之間固有的多樣性差異。

AnyBench:如下圖 6(a)(b) 所示,按任務類型分類時,EditMGT 在 AnyBench 評估的所有任務中均取得了最佳或接近最佳的性能。特別是在風格更改(style change)任務中,EditMGT 比第二名的方法大幅提升了 3.6%。對于隱式指令(implicit instruction)任務,EditMGT 始終取得 SOTA 結果,超過第二名 1.7%,表明該模型在處理隱式指令引導方面具有卓越能力。詳細分數見表 6 和表 7。

GEdit-EN-full:如下表 2 所示,盡管模型大小僅為 960MB,但它實現了與 12B 參數量的 FluxKontext.dev 模型相當的競爭力,并表現出優于 VAREdit-8B、GoT-6B 和 OmniGen2 (7B) 的整體性能。值得注意的是,該模型在背景更改、顏色更改、人像編輯和風格遷移(style transfer)等幾個具有挑戰性的任務上優于 FluxKontext.dev,其中風格遷移提升了 17.6%。

定性結果

除定量指標外,如下圖 5 所示,本工作將 EditMGT 與 UltraEdit (SD3)、GoT-6B、OmniGen2-7B 和 VAREdit-8B 進行了定性比較。觀察結果如下:

卓越的指令理解能力:例如,對于“照片看起來有點發黃,請調整顏色”,其他模型錯誤地增加了黃色調,只有 EditMGT 正確地減少了暖色調以實現美白。

強大的對象屬性理解:在“點亮所有蠟燭”的例子中,只有 EditMGT 成功點亮了所有蠟燭;對于“添加黑色長筒襪”,它準確理解了形容詞“長”。

有效的結構保留:在生成皮克斯風格動畫時,EditMGT 不僅成功渲染了角色,還保持了拍攝對象的原始姿勢和位置。

深入分析

數據擴展(Data Scaling):如前圖 6 所示,不同訓練步驟的實驗表明,即使更換文本編碼器,模型架構也能保持一致的可擴展性。

架構消融(Architecture Ablation):主要研究了文本編碼器的選擇(見附錄表 5)。經驗分析表明,Gemma2-IT-2B 在評估的選項中取得了最佳性能。

推理算法有效性:如圖 4 所示,增加  值會逐漸減少圖像內的編輯區域。隨著  增加,L1 距離減小,而語義分數先略微提高后急劇下降,證明了閾值控制的有效性。

速度優勢:如下圖 1(b) 所示,在 1024×1024 分辨率下,EditMGT 實現了比性能相似的模型快 6 倍的編輯速度(每次編輯僅需 2 秒)。EditMGT 和 CrispEdit-2M 概述EditMGT 和 CrispEdit-2M 概述

結論

EditMGT,首個基于掩碼生成 Transformer(MGT)的圖像編輯框架,利用 MGT 的局部解碼范式來解決擴散模型中固有的編輯泄漏(editing leakage)問題。通過提出的多層注意力整合(multi-layer attention consolidation)和區域保持采樣(region-hold sampling),EditMGT 實現了精確的編輯定位,同時顯式地保留了非目標區域。盡管僅使用了 9.6 億(960M)參數,該模型在四個基準測試中均達到了最先進的圖像相似度性能,在風格更改和風格遷移任務上分別有 3.6% 和 17.6% 的顯著提升。此外,EditMGT 提供了 6 倍的編輯速度,證明了 MGT 為圖像編輯提供了一種極具競爭力的替代方案。

參考文獻

[1] EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

       原文標題 : 僅960M參數,不僅干翻百億大模型,速度還快了6倍!字節最新圖像編輯模型EditMGT開源啦

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號