訂閱
糾錯
加入自媒體

1步頂100步!TwinFlow:無需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

2025-12-11 15:37
AI生成未來
關注

作者:Zhenglin Cheng等

解讀:AI生成未來

亮點直擊

簡單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓練模型(GAN 判別器)或凍結的教師模型(不同的/一致性蒸餾),從而消除了 GPU 內存成本,允許在大模型上進行更靈活和可擴展的訓練。

基于任意步框架,TWINFLOW 僅使用 1-NFE 就實現了強大的文本到圖像性能,GenEval 分數達到 0.83。

將 1/2-NFE 生成能力引入到 Qwen-Image-20B。在 1-NFE 時實現了 0.86 的 GenEval 分數和 86.52 的 DPG 分數;在 2-NFE 時實現了 0.87 的 GenEval 和 87.64 的 DPG 分數,具有高度競爭力。

總結速覽

解決的問題

推理效率低下:主流多模態生成模型(擴散、流匹配、一致性模型)依賴多步采樣(40–100 NFE),導致高延遲與高計算成本,難以滿足實際部署需求;

現有少步方法存在顯著缺陷

蒸餾類方法(如漸進式/一致性蒸餾)在極低步數(<4 NFE)時生成質量嚴重下降;

對抗訓練類方法(如DMD、SANA-Sprint)引入判別器或凍結教師模型,導致訓練不穩定、架構復雜、GPU內存開銷大,難以擴展至大模型;

缺乏簡潔、穩定、可擴展的一步生成框架,尤其在20B級大模型上尚未實現1-NFE下的高質量生成。

提出的方案

提出 TWINFLOW——一種無需教師模型、無需對抗網絡的一步生成訓練框架,核心創新為:

雙軌跡(Twin Trajectory)設計:將時間維度擴展至 ,構建兩條對稱路徑:

正分支():噪聲 → 真實數據;

負分支():相同噪聲 → “偽”數據;

自監督速度場對齊目標:直接最小化兩條軌跡的速度場差異,迫使模型學習更魯棒、直接的噪聲→數據映射;

端到端訓練范式:全程無需凍結教師模型、無需判別器等輔助模塊,支持全參數訓練。

應用的技術

流匹配(Flow Matching)理論擴展:將標準  時間流拓展為對稱  雙流空間;

速度場一致性約束:通過最小化正負軌跡間速度場的  距離實現自監督優化;

大模型高效適配:應用于 Qwen-Image-20B(200億參數多模態生成模型),實現全參數微調與一步生成轉換;

評估體系:采用 GenEval(綜合生成質量)、DPG-Bench(圖像保真度與多樣性)等權威基準驗證效果。

達到的效果

推理效率飛躍:僅需 1-NFE 即可生成高質量圖像,計算成本降低100倍(相比原100-NFE模型);

生成質量領先:1-NFE:GenEval 0.86,DPG 86.52;2-NFE:GenEval 0.87,DPG 87.64;

→ 逼近原100-NFE模型性能(GenEval 0.87,DPG 88.32),質量損失極。

在文本到圖像任務中,1-NFE下 GenEval = 0.83,顯著優于 SANA-Sprint(0.72)與 RCGM(0.80);

工程優勢顯著:訓練穩定、架構簡潔、內存開銷低;首次驗證了20B級多模態大模型可高效實現一步生成,具備強可擴展性與工業落地潛力。

方法

當前任意步框架中的少數步驟方法在不依賴 GAN 損失的情況下難以實現高質量的一步生成,而 GAN 損失會顯著增加復雜性。為了解決這個問題,本文提出了 TWINFLOW,一種簡單且自包含的方法,可以在任意步流匹配框架內直接增強一步性能。本文的核心思想是引入雙軌跡,它創建了一個內部自對抗信號,從而消除了訓練過程中對外部 GAN 損失的需求。該方法通過最小化“假”和“真實”速度場之間的差異來實現,理想情況下該差異應為零。本文最后演示了如何將 TWINFLOW 集成到更廣泛的任意步框架中,并提供了實際設計。

用于自對抗訓練的雙軌跡

本文方法的一個關鍵創新是引入了雙軌跡,其時間步長以  對稱(參見下圖 2a)。這種結構創建了一個自包含、無判別器的對抗目標,旨在直接增強一步生成性能。

創建自對抗目標。 標準學習過程在時間間隔  上操作:真實數據  被  擾動,其中 , 。為了創建本文的自對抗目標(以及雙軌跡),本文將此時間間隔從  擴展到 。此間隔的負半部分,,指定用于學習從噪聲到模型自身生成的“假”數據的生成路徑。

具體來說,本文任務網絡學習到其自身輸出的生成路徑。本文采用模型生成的假樣本 ,即 ,并構建相應的“假軌跡”,其中其擾動版本定義為 ,,。這里  是不同的噪聲,不需要與  相同。然后,網絡在此軌跡上使用負時間輸入  進行以下流匹配目標訓練:

其中  是一個度量函數。最小化此損失教會網絡學習負時間條件和從噪聲到假數據分布的變換,為下一節中描述的校正損失奠定了基礎。

通過速度匹配校正真實軌跡

理想情況下,本文希望雙軌跡相互匹配。如前文所述,分布  和  分別對應由負時間和正時間間隔參數化的軌跡。受 DMD的啟發,本文可以將其視為一個分布匹配問題。對于任何擾動樣本 ,本文旨在最小化這兩個分布之間的 KL 散度:

速度匹配作為分布匹配。 對公式 (3) 求梯度,本文得到:

其中  是各自分布的分數。在線性傳輸下(),分數與速度場  的關系由下式給出:

將公式 (5) 中的此關系代入 KL 梯度 (4) 得到:

其中模型對于假軌跡以  為條件,對于真實軌跡以  為條件。為簡化起見,本文將此速度差(參見上圖 2a)表示為:

此推導將原始的分布匹配問題重鑄為一個更實用的速度匹配問題。本文現在展示如何將其表述為下面可處理的校正損失。

校正損失推導。 為了推導校正損失,本文首先使用第 3.1 節中的設置實例化梯度 (6)。在此設置中,網絡的預測  作為干凈的示例,因此,(6) 中的擾動變量  對應于假樣本 。因此,(7) 中定義的速度差  被實例化為 。

在此設置下,(6) 中的雅可比項實例化為  并簡化為:

因此,(6) 中的 KL 梯度采用內積  的形式。為了構建產生這種梯度結構的可處理損失,本文采用停止梯度算子 sg()。這激發了以下校正損失:

其中  是一個度量函數。最小化  鼓勵模型校直從噪聲到數據分布的生成軌跡。這種校正允許通過大步長精確近似整個積分過程,從而實現少步或 1 步生成。

TWINFLOW 目標與實際設計

與任意步框架的整合。 本文方法 TWINFLOW 訓練一個單一模型,使其在多步和少步生成方面都表現出色。這是通過結合兩個具有沖突需求的互補目標實現的:

自對抗損失 ( 在公式 (2) 中) 通過將訓練動態擴展到區間  來促進高保真度、多步生成。校正損失 ( 在公式 (9) 中) 通過直接校直從噪聲到數據的軌跡來優化少步效率,從而實現快速、高質量的合成。 這創建了一個雙重目標:模型必須既是一個精確的多步采樣器,又是一個高效的少步生成器。這導致了第 2 節中介紹的任意步框架的應用,該框架統一了 (2) 和 (9) 的要求。本文采用 (1) 的  公式來增強訓練穩定性。本文的最終損失結合了基本目標和本文提出的項,本文將其統稱為 。本文方法中的整體損失函數可以表示為:

混合損失的實際實現。 中的  和  目標在任意步公式下對目標時間  提出了不同的要求。具體來說, 要求  從  采樣,而  需要固定的目標時間 。為了在單個訓練步驟中同時滿足這兩個要求,本文將每個 mini-batch 分成兩個子集。平衡超參數  控制這些子集的相對大小。一部分批次用于計算  時的 ,而其余部分用于計算隨機采樣  時的 。因此, 的值平衡了兩個損失對梯度更新的影響。設置  禁用  項,而較大的值會增加其貢獻。關于  影響的消融研究可在下圖 4a 中找到。

實驗

本文通過兩個方面證明了本文方法 TWINFLOW 的有效性。首先,本文強調其多功能性和可擴展性,將 TWINFLOW 應用于統一的多模態模型,例如 Qwen-Image-20B,如下表 2 所示。其次,本文將其與最先進 (SOTA) 的專用文本到圖像模型進行基準測試,結果如下表 4 所示。

實驗設置

本節詳細介紹了本文提出的方法的實驗設置和評估協議。

多模態生成模型上的圖像生成。 本文對統一的多模態模型(即同時將文本和圖像作為條件并能夠生成文本和圖像)進行評估。(1) 網絡架構:本文在 Qwen-Image 上進行了 LoRA(上表 2)和全參數訓練(下表 3)的 TWINFLOW。本文還在 OpenUni-512上進行了全參數訓練實驗。(2) 基準:遵循近期工作,本文在文本到圖像生成任務中使用了基準。對于文本到圖像生成,本文使用了 GenEval、DPG-Bench和 WISE。

文本到圖像生成。 對于文本到圖像生成,本文在專用文本到圖像模型(即主要以文本作為條件并僅生成圖像)上進行評估。(1) 網絡架構:本文在實驗中使用了 SANA-0.6B/1.6B。(2) 基準:遵循 SANA 系列,本文使用了GenEval和 DPG-Bench作為評估指標。

多模態生成模型上的圖像生成

本文通過在 20B 參數的 Qwen-Image 系列上實現具有競爭力的 1-NFE 文本到圖像生成,展示了 TWINFLOW 的可擴展性。這一突破解決了該領域的一個關鍵空白,因為以前的少步方法由于 GAN 損失在規模上的不穩定性,很少應用于超過 3B 參數的模型。

本文方法比最先進的統一多模態生成模型具有兩個關鍵優勢: (a) TWINFLOW 在 Qwen-Image-20B 上以 1-NFE 保持 >0.86 的 GenEval 分數:超越了大多數多步模型(40-100 NFEs),例如 Bagel、MetaQuery。 (b) TWINFLOW 在沒有任何輔助組件或架構修改的情況下實現了這一點,這與需要蒸餾或專門訓練管道的競爭性少步方法不同。

本文評估了 Qwen-Image-TWINFLOW 在幾個標準基準測試上的文本到圖像生成能力:GenEval、DPG-Bench和 WISE。本文模型在所有基準測試中僅用 1-NFE 就表現出強大的性能,取得了既有競爭力又高效的結果。

在文本到圖像基準上進行評估。 如上表 2 所示,Qwen-Image-TWINFLOW 在 GenEval 上取得了 0.86 分,在 DPG-Bench 上取得了 86.52% 的分數,僅用 1-NFE 就與原始模型在 100-NFE 下的性能非常接近。與 Qwen-Image-Lightning (一個 4 步蒸餾模型)相比,本文模型在 GenEval 和 WISE 上僅用 1-NFE 就超越了它。此外,本文模型在 1-NFE 和 2-NFE 設置下,在 GenEval 和 DPG-Bench 上都優于 Qwen-Image-RCGM ,在 1-NFE 設置下,GenEval 顯著提高了 0.34,DPG-Bench 提高了 27.0%,WISE 提高了 0.25。

本文還將 Qwen-Image-TWINFLOW 與其他著名的多步統一多模態生成模型進行了基準測試,例如 MetaQuery-XL、BLIP3-o-8B和 Bagel。本文模型在所有評估指標上,以 1 或 2-NFE 始終超越這些基線。除了 Qwen-Image,本文還將 TWINFLOW 應用于 OpenUni,在 1-NFE 設置下取得了 0.80 的 GenEval 分數和 76.40 的 DPG-Bench 分數,這也接近其原始性能。這些發現強調了 TWINFLOW 在不同架構和規模上的多功能性和有效性。

對 Qwen-Image 進行 20B 全參數訓練的進一步探索。 上表 3 展示了 TWINFLOW 在大規模 Qwen-Image-20B 上進行全參數訓練的擴展性和性能優勢,F有的分布匹配方法,如 VSD、DMD  和 SiD,通常需要維護三個獨立的模型副本(生成器、真實分數和假分數),導致顯著的內存開銷。相比之下,TWINFLOW 通過統一設計脫穎而出: (a) 簡單性和效率: 通過將生成器、真實/假分數估計集成到一個模型中,TWINFLOW 消除了對冗余參數的需求。這允許在 20B 規模下進行全參數訓練。 (b) 性能優越性: 憑借這種統一設計,TWINFLOW 在 Qwen-Image-20B 上超越了所有基線。值得注意的是,與 8 NFE 下運行的 sCM和 MeanFlow相比,它僅用 1-2 NFE 就實現了卓越的生成質量。

如下圖 3 所示,是 Qwen-Image 和 Qwem-Image-TWINFLOW 在不同 NFE 下生成的圖像的可視化結果。Qwen-Image-TWINFLOW 能夠以 1 NFE 生成高質量圖像,其性能優于原始 Qwen-Image 在 16 NFE 下的表現。此外,將 2 NFE 的結果與 Qwen-Image 的 32 NFE 輸出進行比較時,本文方法在視覺細節方面表現出更好的效果。

關于開源社區工作的討論。 據本文所知,Qwen-Image-Lightning是唯一一款在大模型上的開源少步模型。它是使用 DMD2開發的,但去除了 GAN 損失。這也間接反映了使用 GAN 損失的高成本。然而,本文觀察到 Qwen-Image-Lightning 存在嚴重的模式崩潰:當給定相同的提示但不同的噪聲輸入時,生成的圖像在多次運行中幾乎保持一致。

圖像編輯的探索。 由于資源限制,本文對 TWINFLOW 在圖像編輯方面的能力進行了初步探索,使用了大約 15K 編輯對的小型微調數據集。盡管規模有限,本文的結果(參見下表 8)表明 TWINFLOW 可以將 Qwen-Image-Edit轉換為一個 4-NFE 編輯模型。這表明,如果能夠訪問更多樣化的編輯數據集,本文預計在編輯輸出的保真度和多功能性方面都會有實質性的進一步改進。

專用文本到圖像模型上的圖像生成

為了驗證本文方法的多功能性,本文還在傳統的文本到圖像生成任務上進行了基準測試。如上表 4 所示,本文首先與預訓練的多步模型(通常需要 >40-NFE)進行了基準測試。根據下表 1 中的分類,本文將與最先進的少步模型進行比較,根據它們對輔助組件的依賴性進行分組:使用輔助模型訓練的和不使用輔助模型訓練的。重要的是,SANA-0.6B/1.6B 骨干網上的全參數微調能夠在僅 1-2 NFE 內實現高保真圖像生成。

(a) 1-NFE 設置: 本文方法的效力在要求更高的 1-NFE 推理設置中尤為突出。在這里,本文的模型(0.6B:0.83,1.6B:0.81 在 GenEval 上)顯著優于其他領先的 1-NFE 方法,例如 SANA-RCGM (0.78)、SANA-Sprint (0.76) 、FLUX-Schnell (0.69) 和 SDXL-DMD2 (0.59)。值得注意的是,本文的 1-NFE TWINFLOW-0.6B (GenEval:0.83) 超過了 40-NFE SANA-1.5-4.8B模型的生成質量,同時提供了顯著更高的計算效率。 (b) 2-NFE 設置: 在 2-NFE 配置中,TWINFLOW-0.6B 實現了 6.50 樣本/秒的吞吐量和 0.26 秒的延遲,性能指標與最初報告的 SANA 值相當。在 GenEval 基準測試中,本文模型獲得了 0.84 分,不僅超越了 SANA-Sprint 系列(0.76 和 0.77),而且還超越了強大的多步模型,如 SANA-1.5 (0.81) 和 Playground v3 (0.76)。本文模型在 DPG-Bench 上也表現出有競爭力的性能,0.6B 變體和 1.6B 變體分別獲得了 79.7 和 79.6 的分數。

本文的 TWINFLOW-0.6B/1.6B 在 GenEval 基準測試上僅使用 1-NFE 就實現了最先進的文本到圖像生成性能,超越了 SANA-Sprint 和 RCGM。雖然本文在 DPG-Bench 上的性能略低于 SANA-Sprint,但這是因為 SANA-Sprint 依賴于廣泛的專有訓練數據。本文認為這一差距主要是數據驅動的,可以通過在更大、更高質量的數據集上進行訓練來有效彌補。

消融研究與分析

 的影響。 如前文所述, 旨在控制  和  的樣本分布。如上圖 4a 所示,本文可視化了 1-NFE 和 2-NFE 下 DPG-Bench 性能隨  的變化。本文觀察到,隨著  從 0 增加,DPG-Bench 的性能最初增加,然后下降,在大約  時達到峰值。這些結果表明,在局部批次中適當平衡樣本有助于提高模型性能。

 對不同模型的影響。 本文進行了一項消融研究,以分析在不同模型上使用  對文本到圖像性能的影響。如上圖 4b 所示,引入  顯著提高了性能:它改善了 OpenUni、SANA,尤其是 Qwen-Image(從 59.50 到 86.52)在文本到圖像任務上的 1-NFE 性能。

訓練步數與 NFE 的關系。 如上圖 4c 所示,實驗結果表明,隨著訓練步數的增加,最佳采樣步數的“舒適區”也相應地發生變化。值得注意的是,在 1 步和少步采樣場景中都觀察到了 GenEval 性能的改進,并且隨著訓練的進行,取得了顯著的收益,這表明了  的有效性。

結論與局限性

TWINFLOW,一個用于訓練大型少步連續生成模型的簡單而有效的框架。與 DMD 系列等其他少步方法相比,本文方法因其高度的簡單性而脫穎而出,因為它消除了對 GAN 判別器或凍結教師模型等輔助訓練組件的需求。這種設計允許對大模型進行直接的 1 步或少步訓練,使其特別易于訪問和高效。通過在不同規模和任務上進行的大量實驗,本文證明了 TWINFLOW 在大模型上的文本到圖像合成中提供了高質量的生成能力。盡管取得了這些有希望的結果,但仍有幾個局限性需要解決。首先,TWINFLOW 對圖像編輯等更多樣化任務的可擴展性尚未得到有效探索。其次,其對視頻和音頻生成等更多樣化模態的適應性需要進一步驗證。解決這些挑戰可以顯著提高 TWINFLOW 在更廣泛上下文中的適用性和性能,為更健壯和多功能的生成模型鋪平道路。

參考文獻

[1] TWINFLOW: REALIZING ONE-STEP GENERATION ON LARGE MODELS WITH SELF-ADVERSARIAL FLOWS

       原文標題 : 1步頂100步!TwinFlow:無需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號