ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”：基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA

2026-03-09 17:19

作者：Zihan Zhou，Shilin Lu等

解讀：AI生成未來

亮點(diǎn)直擊

首個(gè)基于 Diffusion Transformer（DiT）架構(gòu)量身打造的圖像精確區(qū)域編輯框架。

研究團(tuán)隊(duì)摒棄了傳統(tǒng)的“逐點(diǎn)追蹤”思路，創(chuàng)新性地使用“區(qū)域仿射監(jiān)督”范式，充分釋放了 FLUX.1 這類先進(jìn) DiT 模型的強(qiáng)大先驗(yàn)?zāi)芰Α?/p>

針對(duì)以往方法在復(fù)雜場(chǎng)景下的失真問題，該方法建立了圖像拖拽編輯的新標(biāo)桿。

為什么 DiT 時(shí)代的拖拽編輯需要新范式？

拖拽式圖像編輯（Drag-based Image Editing）允許用戶通過簡(jiǎn)單的“拖點(diǎn)”交互，實(shí)現(xiàn)對(duì)圖像內(nèi)容的精準(zhǔn)操控，通過提供直接的空間位置干預(yù)，該方法在編輯控制性上遠(yuǎn)超文本引導(dǎo)。然而，現(xiàn)有方法大多基于 UNet 架構(gòu)基礎(chǔ)模型，如 Stable Diffusion (SD)，普遍存在兩大瓶頸：

先驗(yàn)?zāi)芰Σ蛔悖篠D 生成先驗(yàn)較弱，優(yōu)化后的潛在向量（Latent）常常偏離真實(shí)圖像流形，使編輯后圖像出現(xiàn)扭曲、模糊等失真?zhèn)斡埃?/p>

架構(gòu)不匹配：隨著 DiT 架構(gòu)模型（如 FLUX）成為當(dāng)前視覺生成主流，其強(qiáng)大的生成先驗(yàn)為解決失真問題帶來了曙光。但我們發(fā)現(xiàn)，將傳統(tǒng)拖拽策略遷移到 DiT 架構(gòu)上難以帶來直接有效的性能提升。

研究結(jié)果認(rèn)為問題的根源在于 UNet 與 DiT 網(wǎng)絡(luò)層的特征圖粒度存在本質(zhì)差異：

通過可視化（如下圖）可以發(fā)現(xiàn)，UNet 的特征多是模糊的語義團(tuán)塊，這意味著我們即使在 UNet 使用“點(diǎn)”級(jí)別操作，依舊可以有效干預(yù)周遭語義信息；而相比之下縮放到同樣大小的 DiT 特征卻能夠清晰勾勒出物體的精細(xì)輪廓，如果依舊對(duì)后者進(jìn)行“點(diǎn)”級(jí)別的追蹤和約束，將難以有效帶動(dòng)區(qū)域特征編輯，如同盲人摸象。

提出的解決方案：DragFlow 編輯框架

為了攻克這一難題，我們提出了 DragFlow，一個(gè)專為 DiT 設(shè)計(jì)的基于區(qū)域監(jiān)督的 (region-based) 精確編輯框架。其核心創(chuàng)新包括：

區(qū)域級(jí)仿射監(jiān)督 (Region-Level Affine Supervision)：用整體區(qū)域的仿射變換替代脆弱的單點(diǎn)追蹤，為 DiT 提供更豐富、更穩(wěn)定的監(jiān)督信號(hào)，從根本上解決了特征不匹配問題，并最大化消除了點(diǎn)操作固有的交互歧義；

適配器增強(qiáng)的反演 (Adapter-Enhanced Inversion)：集成預(yù)訓(xùn)練的 IP-Adapter 等特征提取與適配器，通過額外注入 ID Embedding 顯著提升在 CFG-distilled 模型（如 FLUX.1）上的主體一致性與反演保真度;

硬約束背景保持 (Hard-Constrained Background Preservation)：摒棄使用掩碼損失函數(shù) (Mask Loss) 的經(jīng)典方案，通過自適應(yīng)梯度掩碼（Gradient Mask）對(duì)背景非編輯區(qū)域施加硬性保護(hù)，徹底避免了背景污染問題。

多模態(tài)大語言模型 (MLLM) 輔助交互：利用 MLLM 先行分析、理解用戶意圖，生成供用戶選擇的編輯提示詞和操作類型（如平移、形變、旋轉(zhuǎn)），提升交互精度并最大化減少用戶操作負(fù)擔(dān)。

DragFlow 的完整框架如下圖所示，它整合了 MLLM 輔助交互、IP-Adapter ID注入、Key & Value Caching，以及核心部分基于仿射的區(qū)域拖拽優(yōu)化工作流。

方法詳解 | DragFlow：區(qū)域?yàn)橥酰珳?zhǔn)掌控

DragFlow 的設(shè)計(jì)初衷是：將拖拽視為區(qū)域的整體變換，而非孤立點(diǎn)的位移。這套全新的范式，從監(jiān)督方式、背景處理到身份保持，都為 DiT 的特性進(jìn)行了深度定制。

① 區(qū)域級(jí)仿射監(jiān)督：告別“點(diǎn)追蹤”的煩惱

DragFlow 的核心是創(chuàng)新的區(qū)域級(jí)監(jiān)督策略。它不再依賴于在每一步迭代中追蹤手柄點(diǎn)的位置坐標(biāo)，而是將用戶指定的源區(qū)域（Source Region）作為一個(gè)整體，通過仿射變換逐步“移動(dòng)”到目標(biāo)位置。

1. 迭代式潛在向量?jī)?yōu)化 (Iterative Latent Optimization)

整個(gè)拖拽過程通過優(yōu)化噪聲化的潛在向量來實(shí)現(xiàn)。優(yōu)化的目標(biāo)是讓經(jīng)過仿射變換后的目標(biāo)區(qū)域的特征，與優(yōu)化開始前源區(qū)域的特征保持一致。

損失函數(shù)設(shè)計(jì)如下：

其中：

是從 DiT 中間層提取的特征。我們發(fā)現(xiàn)，DiT 的第 17 和 18 雙流塊（Double-stream Blocks）最適合用于拖拽優(yōu)化。是用戶指定的源區(qū)域掩碼，而是在第 k 次迭代中，通過仿射變換計(jì)算出的目標(biāo)區(qū)域掩碼。表示 Stop-gradient，確保梯度只流向待優(yōu)化的。

2. 仿射變換驅(qū)動(dòng)的掩碼傳播 (Affine Transformation for Mask Propagation)

目標(biāo)掩碼由源掩碼經(jīng)過一個(gè)逐步變化的仿射變換得到。變換參數(shù) 根據(jù)編輯類型（平移、形變或旋轉(zhuǎn)）和迭代步數(shù) 線性插值生成。

這種設(shè)計(jì)的兩大優(yōu)勢(shì)：

提供豐富的語義上下文：對(duì)整個(gè)區(qū)域的特征進(jìn)行匹配，相比單點(diǎn)特征，能為 DiT 提供更穩(wěn)定、更魯棒的梯度信號(hào)，有效避免局部最優(yōu)和偽影。消除追蹤需求：由于DragFlow通過漸進(jìn)式的幾何移動(dòng)監(jiān)督區(qū)域，而不是追蹤內(nèi)容點(diǎn)，該方法從根本上避免了傳統(tǒng)方法中因追蹤失敗而導(dǎo)致的編輯鏈?zhǔn)奖罎栴}，過程更加穩(wěn)定可靠。

② 背景與主體保真度：為 DiT 量身定制的策略

僅僅有好的監(jiān)督信號(hào)還不夠，在強(qiáng)大的 DiT 模型上，如何保持背景不變和主體身份一致，是更大的挑戰(zhàn)，尤其是在有“反演漂移”問題的 CFG-distilled 模型上。

1. 背景保持：從“軟約束”到“硬隔離”傳統(tǒng)方法使用輔助損失項(xiàng) 來約束背景區(qū)域，但這在 DragFlow 中效果不佳，因?yàn)樗鼤?huì)與拖拽損失相互競(jìng)爭(zhēng)，且對(duì)反演誤差敏感。

我們的方案是施加硬約束：在每次梯度更新后，直接將背景區(qū)域的潛在向量重置為原始未編輯分支的值：

其中：

是包含所有編輯軌跡的背景掩碼。則是來自一個(gè)純粹的重構(gòu)分支，代表了最保真的原始背景信息。這種“硬隔離”方法雖然增加少量計(jì)算開銷，但效果遠(yuǎn)超軟約束，能實(shí)現(xiàn)近乎完美的背景保真度。

2. 主體一致性：適配器增強(qiáng)反演

傳統(tǒng)的鍵值注入（KV injection）在 FLUX 這類 CFG-distilled 模型上效果不佳。我們發(fā)現(xiàn)，F(xiàn)LUX 的反演漂移問題比 SD 更嚴(yán)重（見下表）。

為此，我們引入了適配器增強(qiáng)反演：在反演和生成過程中，注入一個(gè)預(yù)訓(xùn)練好的開放域適配器（如 IP-Adapter）所提取的主體身份表征。這無需任何額外訓(xùn)練，就能顯著提升反演質(zhì)量和編輯后的主體一致性。

如下圖所示，通過額外在反演和取樣過程中加入 IP-Adapter Embedding 后，人物身份的保持效果遠(yuǎn)超單獨(dú)使用 KV 注入。

實(shí)驗(yàn) | 兩大基準(zhǔn)測(cè)試，全面 SOTA

為了全面評(píng)估 DragFlow，我們構(gòu)建了一個(gè)新的區(qū)域級(jí)拖拽基準(zhǔn) **ReD Bench**，它包含更豐富的區(qū)域-區(qū)域?qū)?yīng)、任務(wù)類型標(biāo)簽（平移、形變、旋轉(zhuǎn)）和意圖描述。同時(shí)，我們也在現(xiàn)有的 DragBench-DR 上進(jìn)行了兼容測(cè)試。

定量分析

如 Table 2 所示，DragFlow 在基于兩大基準(zhǔn)的多個(gè)指標(biāo)上取得了最佳表現(xiàn)：

**平均距離 (Mean Distance (MD))**：DragFlow 取得了最低的和，這兩套評(píng)估標(biāo)準(zhǔn)分別來源現(xiàn)有的 “點(diǎn)拖拽” 與 “塊拖拽” 方法，該結(jié)果意味著 DragFlow 的編輯結(jié)果與用戶指令的空間對(duì)齊精度達(dá)到了最高。**圖像保真度 (Image Fidelity (IF))**：DragFlow 在背景保真度（）、源區(qū)塊到目標(biāo)區(qū)塊的內(nèi)容保真度（）以及拖拽前后源區(qū)塊的內(nèi)容區(qū)分度（）上名列前茅，證明了其在精準(zhǔn)編輯指定區(qū)域的同時(shí)，能最大程度保留圖像質(zhì)量和主體特征。

定性分析

下圖展示了 DragFlow 與其他現(xiàn)有方法的視覺定性比較。無論是復(fù)雜的結(jié)構(gòu)（建筑），非剛性形變（動(dòng)物），還是精細(xì)內(nèi)容（鉆井平臺(tái)），DragFlow 都能精準(zhǔn)地執(zhí)行拖拽指令，同時(shí)保持場(chǎng)景的整體連貫性和真實(shí)質(zhì)感。相比之下，其他現(xiàn)有方法或伴隨嚴(yán)重結(jié)構(gòu)扭曲、變換失敗、或意圖誤解等失敗情況出現(xiàn)。

消融實(shí)驗(yàn)

我們通過逐一添加 DragFlow 的核心組件來驗(yàn)證其有效性。結(jié)果（見 Table 3 和 Figure 6）清晰地表明：

從點(diǎn)基線切換到區(qū)域級(jí)仿射監(jiān)督，MD 指標(biāo)大幅降低 (51.21 -> 31.26)，證明了區(qū)域監(jiān)督的優(yōu)越性；加入背景保持模塊后，從 0.757 飆升至 0.925，背景質(zhì)量顯著提升；最后引入適配器增強(qiáng)反演，進(jìn)一步提升，主體一致性得到加強(qiáng)，同時(shí) MD 也降至最低 (20.15)。

定性分析（如下圖）展示了各項(xiàng)消融操作的前后效果對(duì)比：

同時(shí)，消融實(shí)驗(yàn)中使用的多項(xiàng)量化指標(biāo)也證實(shí)了 DragFlow 的各組件都是不可或缺且協(xié)同增效的：

總結(jié) | DragFlow 開啟 DiT 精確編輯新紀(jì)元

DragFlow 是拖拽式編輯領(lǐng)域的一次范式革命，其貢獻(xiàn)與優(yōu)勢(shì)可總結(jié)為：

首創(chuàng) DiT 拖拽框架：首次成功將拖拽式編輯的能力從 UNet 遷移并適配到更強(qiáng)大的 DiT 架構(gòu)上，釋放了 FLUX 等模型的SOTA級(jí)生成先驗(yàn)。區(qū)域監(jiān)督核心：提出的“區(qū)域級(jí)仿射監(jiān)督”范式，用整體、魯棒的區(qū)域特征匹配替代了脆弱、稀疏的點(diǎn)特征追蹤，從根本上解決了 DiT 架構(gòu)下的編輯難題。系統(tǒng)性保真設(shè)計(jì)：結(jié)合適配器增強(qiáng)反演與硬約束背景保持，為存在反演漂移的 CFG-distilled 模型提供了兼顧主體一致性與背景純凈度的完整解決方案。構(gòu)建新基準(zhǔn)：推出的 ReD Bench 為區(qū)域級(jí)拖拽編輯的研究提供了更全面、更貼近真實(shí)意圖的評(píng)估標(biāo)準(zhǔn)。

DragFlow 不僅在各項(xiàng)指標(biāo)上全面超越現(xiàn)有方法，更重要的是，它為如何利用新一代 DiT 生成架構(gòu)的強(qiáng)大先驗(yàn)來進(jìn)行精細(xì)化、可控的圖像編輯，指明了一條清晰而有效的道路。

參考文獻(xiàn)

[1] DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

原文標(biāo)題 : ICLR 2026 | DragFlow 讓DiT也能“指哪打哪”：基于區(qū)域監(jiān)督的拖拽式圖像編輯新SOTA