訂閱
糾錯
加入自媒體

港中文&字節聯合推出DreamOmni3:解鎖“涂鴉+圖文”聯合輸入,重新定義多模態生成與編輯

2026-01-05 14:47
AI生成未來
關注

作者:Bin Xia等

解讀:AI生成未來

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

DreamOmni3 的效果展示,具備基于涂鴉的編輯和生成功能

亮點直擊

提出了兩項對統一生成與編輯模型極具實用價值的任務:基于涂鴉的編輯和基于涂鴉的生成。它們可以與語言指令和圖像指令相結合,增強統一模型的創作可用性,并為有針對性的優化和未來研究提供清晰的任務定義。

提出了一套流程,用于構建一個高質量、全面的基于涂鴉編輯與生成的數據集。

DreamOmni3,一個支持文本、圖像和涂鴉輸入并能夠處理復雜邏輯的框架。在保持編輯一致性的同時,能夠準確理解涂鴉所表達的意圖。還設計了位置編碼和索引編碼方案,用于區分涂鴉與源圖像,從而確保與現有統一生成與編輯架構的兼容性。

基于真實世界圖像數據構建了 DreamOmni3 基準。其在真實應用場景中具有顯著的有效性。

總結速覽

解決的問題

文本指令的局限性:現有統一生成與編輯模型依賴文本指令,難以準確描述用戶意圖的編輯位置、細節及空間關系。

交互靈活性不足:缺乏對用戶手繪草圖(如涂鴉、框選等)的理解能力,限制了在圖形界面中進行直觀、精細創作的可能。

數據缺失:缺乏結合草圖、圖像與文本的多模態編輯與生成訓練數據。

復雜編輯處理困難:傳統二值掩碼難以處理多草圖、多圖像與多指令結合的復雜編輯任務。

提出的方案

定義兩類新任務

草圖編輯:包括草圖+指令編輯、草圖+多模態指令編輯、圖像融合、涂鴉編輯。

草圖生成:包括草圖+指令生成、草圖+多模態指令生成、涂鴉生成。

構建數據合成流水線:基于 DreamOmni2 數據集,通過提取可編輯區域并疊加手繪圖形(框、圓、涂鴉)或裁剪圖像,自動生成訓練數據。

設計 DreamOmni3 框架

采用聯合輸入方案,同時輸入原始圖像與帶草圖的圖像,以顏色區分編輯區域,避免使用二值掩碼。

共享兩圖像的索引與位置編碼,確保草圖區域精準定位與編輯一致性。

建立基準測試:構建涵蓋上述任務的綜合評測基準,推動相關研究。

應用的技術

多模態數據合成:利用 Refseg 服務定位編輯對象,結合手繪標注、圖像裁剪與草圖生成技術構建數據集。

聯合編碼機制:對原始圖像與草圖圖像使用相同的索引和位置編碼,增強模型對草圖區域的感知與對齊能力。

統一架構設計:兼容 RGB 圖像輸入,延續 DreamOmni2 的位置偏移與索引編碼方案,支持多圖像輸入區分。

草圖理解與編輯:通過顏色區分的草圖輸入,實現多區域、多類型編輯意圖的聯合理解與生成。

達到的效果

提升交互靈活性:支持用戶通過草圖直觀指定編輯位置與內容,降低創作門檻。

增強編輯精度:模型能準確定位草圖區域,實現復雜多模態指令下的精細編輯與生成。

數據與模型開源:公開合成數據、模型與代碼,促進相關領域研究。

實驗性能優越:在構建的基準測試中,DreamOmni3 表現出色,驗證了框架的有效性與泛化能力。

方法

合成數據

基于涂鴉(Scribble-based)的編輯與生成面臨的最大挑戰在于數據的匱乏。本工作需要構建一個包含語言、圖像和涂鴉作為指令的數據集,并開發出能夠結合這三種指令類型進行復雜編輯的能力,從而實現更智能的編輯工具。研究發現 DreamOmni2 有效地統一了語言和圖像指令,并引入了多模態指令編輯與生成任務及其相應的訓練數據。因此,本工作直接以 DreamOmni2 的多模態指令編輯與生成數據為基礎,進一步將其擴展為包含涂鴉作為指令的數據集。

基于涂鴉的編輯任務:如下圖 2 (a) 所示,本工作將基于涂鴉的編輯細分為四個任務:

基于涂鴉和多模態指令的編輯 (Scribble and multimodal instruction-based editing): 利用 Refseg 服務定位參考圖像和目標圖像中的編輯對象。由于用戶繪制的形狀通常不完美,本工作手動創建了 30 種不同的方框和圓形作為涂鴉符號模板,通過隨機透視變換模擬人類的繪制習慣。

基于涂鴉和指令的編輯 (Scribble and instruction-based editing): 使用與步驟 (1) 相同的數據,但移除了參考圖像。

圖像融合 (Image fusion): 從參考圖像中提取編輯對象,并將其粘貼到源圖像的相應位置上。

涂鴉編輯 (Doodle editing): 從目標圖像中裁剪出編輯對象,生成素描(sketches),并將其放回源圖像中。

基于涂鴉的生成任務:如上圖 2 (b) 所示,本工作將基于涂鴉的生成細分為三個任務:

基于涂鴉和多模態指令的生成 (Scribble and multimodal instruction-based generation): 使用 Refseg 定位圖像中的編輯對象,并在空白畫布上標記圓圈或方框。

基于涂鴉和指令的生成 (Scribble and instruction-based generation): 移除步驟 (1) 數據中的參考圖像。

涂鴉生成 (Doodle generation): 方法與涂鴉編輯類似,將最終的素描放置在白色畫布上,讓模型根據素描和指令生成相應的對象和背景。

數據集規模:本數據基于 DreamOmni2 的多參考圖像生成和編輯訓練數據集創建。

基于涂鴉的編輯數據集: 包含約 32K 訓練樣本的涂鴉多模態指令編輯數據,約 14K 的涂鴉指令編輯數據,16K 的圖像融合數據,以及 8K 的涂鴉編輯數據。值得注意的是,前兩類涵蓋了廣泛的編輯類別(如設計風格、配色方案、發型等抽象屬性,以及添加、刪除或修改各種物體、人物和動物)。后兩類主要側重于向圖像中添加具體對象。

基于涂鴉的生成數據集: 包含 29K 的涂鴉多模態指令生成樣本,10K 的涂鴉指令生成樣本,以及 8K 的涂鴉生成樣本。前兩類涉及具體對象生成及抽象屬性參考,而涂鴉生成主要專注于具體對象的生成。

框架與訓練

目前的統一生成和編輯模型主要關注基于指令的編輯和主題驅動的生成。DreamOmni2 雖然將其擴展到了多參考圖像生成和編輯,但對于涂鴉(doodle)指令的輸入格式仍需探索。

在 DreamOmni3 中,本工作考慮了兩種輸入方案:一種是類似于修補(inpainting)的二進制掩碼(binary masks),另一種是源圖像與帶有涂鴉的源圖像的聯合輸入。由于涂鴉不可避免地會改變源圖像的部分內容,但編輯要求非編輯區域保持一致性,因此需要在輸入涂鴉信息的同時保留源圖像的細節。

相較于傳統的二進制掩碼方法,本工作提出的源圖像與涂鴉修改后的源圖像聯合輸入方案具有兩個關鍵優勢:

簡單高效: 聯合輸入更加簡潔。當參考圖像或源圖像中存在多個涂鴉時,二進制掩碼會變得非常棘手,因為每個涂鴉都需要一個單獨的掩碼,這顯著增加了計算負載。此外,使用二進制掩碼很難通過語言將兩幅圖像中的涂鴉聯系起來。相比之下,聯合輸入允許在繪制時使用顏色進行區分,簡單的語言指令即可利用圖像索引和涂鴉顏色建立對應關系。

更好的模型集成: 現有的統一生成和編輯模型是基于 RGB 圖像訓練的。聯合輸入方案在源圖像的原始 RGB 空間中使用掩碼,能夠更好地利用模型現有的圖像-文本理解能力,并與模型的原始能力無縫集成,從而創建一個更統一、更智能的創作工具。

框架設計:如前面圖 2 (c) 所示,本工作在 DreamOmni2 框架的基礎上進行了針對涂鴉指令輸入的適配。聯合輸入方案是可選的:

當編輯任務中的源圖像包含涂鴉時,將源圖像和帶有涂鴉的源圖像同時輸入到 MM-DIT 模型中。

如果參考圖像包含涂鴉,則不使用聯合輸入方案,因為參考圖像的非編輯區域無需保持像素級一致性,增加額外輸入會無謂地增加計算成本。

對于基于涂鴉的生成任務,由于無需像素級保留,也不使用聯合輸入方案。

編碼策略:使用聯合輸入方案引入了兩個挑戰:(1) 增加了一張額外的圖像,會影響后續輸入圖像的索引;(2) 模型必須正確映射源圖像與涂鴉修改后的源圖像之間的像素關系。 為了解決這些問題,本工作對源圖像和帶有涂鴉的源圖像使用相同的索引編碼(index encoding)和位置編碼(position encoding)。實驗表明,這種編碼方式有效地解決了上述問題,將涂鴉編輯能力無縫集成到了現有的統一框架中。

訓練細節:訓練過程中,使用了 DreamOmni2 的 VLM (Qwen2.5-VL 7B) 和 FLUX Kontext 的聯合訓練方案。采用 Rank 為 256 的 LoRA 進行訓練。通過利用 LoRA,保留了 Kontext 原始的指令編輯能力。由于 DreamOmni2 中的多參考生成和編輯能力是分別通過兩個 LoRA 訓練的,為了確保兼容性,本工作的生成和編輯模型也分別使用了獨立的 LoRA 進行訓練。整個訓練過程大約耗時 400 個 A100 小時。

基準與評估

本工作提出了整合語言、圖像和涂鴉指令的基于涂鴉的編輯與生成任務。為了促進該方向的發展,建立了 DreamOmni3 基準測試(Benchmark)。該基準測試由真實圖像組成,以準確評估模型在現實場景中的性能。測試案例涵蓋了本工作提出的四種編輯任務和三種生成任務,編輯類別多樣,包含抽象屬性編輯和具體對象編輯。

由于傳統的指標(如 DINO 和 CLIP)不足以評估這些復雜任務,本工作采用了基于 VLM 的評估標準,重點關注四個方面:

生成編輯中遵循指令的準確性。

人物外觀、物體和抽象屬性的一致性。

避免嚴重的視覺偽影。

生成或編輯的內容與指定涂鴉區域的對齊程度。

只有滿足所有這些標準,任務才被視為成功。通過將 VLM 評估與人工評估進行對比,結果顯示兩者具有高度一致性。

實驗

本節通過定量和定性實驗驗證了 DreamOmni3 在基于涂鴉的編輯和生成任務上的性能。

基于涂鴉的編輯評估

對比模型: 比較了 Omnigen2、Qwen-image-Edit-2509、DreamOmni2、Kontext 等開源模型,以及 GPT-4o 和 Nano Banana 等閉源商業模型。

定量結果: 如下表 1 所示,通過 Gemini 2.5、Doubao 1.6 和人工評估計算成功率。DreamOmni3 在人工評估中取得了最佳結果(0.5750),超過了 GPT-4o(0.5875,但在人工評估中略低)和 Nano Banana。相比之下,其他開源模型表現較差。

定性結果: 如下圖 3 所示,DreamOmni3 展示了更準確的編輯結果和更好的一致性。GPT-4o 常出現圖像泛黃和非編輯區域像素不匹配的問題,而 Nano Banana 則存在明顯的復制粘貼痕跡和比例錯誤。

基于涂鴉的生成評估

定量結果: 如下表 2 所示,DreamOmni3 在人工評估(0.5349)和模型評估中均優于 Nano Banana,并與 GPT-4o 性能相當,F有模型(包括 GPT-4o)常無法在生成結果中去除涂鴉痕跡,且未針對此類任務優化。

定性結果: 如下圖 4 所示,開源模型常在輸出中保留涂鴉,DreamOmni3 則能生成自然且符合指令的圖像。

消融實驗

聯合輸入 (Joint Input): 如下表 3 所示,對比了四種方案。結果表明,使用本工作的數據集訓練并結合聯合輸入(Scheme 4)對編輯任務提升顯著,因為涂鴉會遮擋源圖像信息,聯合輸入確保了像素級一致性。

索引與位置編碼 (Index and Position Encoding): 如下表 4 所示,對源圖像和涂鴉圖像使用相同的索引和位置編碼效果最佳。這有助于像素級對齊,并保持與后續參考圖像的索引一致性。

總結

當前的統一生成和編輯模型主要基于文本指令執行圖像編輯。然而,語言往往難以準確描述編輯位置并捕捉用戶意圖中的所有細節。為了增強這一能力,本工作提出了兩個任務:基于涂鴉的編輯和生成 (scribble-based editing and generation) ,允許用戶在圖形用戶界面(GUI)中簡單地使用畫筆進行編輯。這種方法能夠結合語言、圖像和涂鴉指令,提供了更高的靈活性。

在此基礎上介紹了 DreamOmni3,解決了訓練數據有限的挑戰。利用 DreamOmni2 數據,本工作開發了一套基于 Referseg 的數據創建方案,生成了集成了涂鴉、文本和圖像指令的高質量、精確數據集。

此外,本工作還解決了模型框架的問題,因為二進制掩碼(binary masks)無法滿足復雜的現實需求。當存在多個掩碼時,它們很難區分且難以用語言描述。為了解決這個問題,本工作提出了一種基于涂鴉的方法,通過畫筆顏色輕松區分不同的掩碼,從而能夠處理任意數量的掩碼。由于涂鴉可能會遮擋部分圖像細節,本工作引入了聯合輸入方案 (joint input scheme),將原始圖像和帶有涂鴉的圖像同時輸入模型。本工作進一步優化了該方案,通過使用相同的索引和位置編碼來保留細節,同時保持準確的編輯能力。

參考文獻

[1] DreamOmni3: Scribble-based Editing and Generation

       原文標題 : 港中文&字節聯合推出DreamOmni3:解鎖“涂鴉+圖文”聯合輸入,重新定義多模態生成與編輯

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號