僅用1張圖1小時(shí)，比肩FLUX.1和Qwen，推理狂飆5倍！Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型！

2025-12-05 16:41

作者：Zhuobai Dong等

解讀：AI生成未來(lái)

亮點(diǎn)直擊

極致高效的訓(xùn)練：僅需 1 個(gè)樣本，在 單張 V100 GPU 上不到 1 小時(shí) 即可完成訓(xùn)練。這與需要數(shù)千GPU小時(shí)（如 DMD2 需要 3840 小時(shí)）的傳統(tǒng)方法形成鮮明對(duì)比。

非均勻加速策略：提出了“慢-快”（Slow-Fast）的分階段加速策略，針對(duì)擴(kuò)散模型的語(yǔ)義生成階段和細(xì)節(jié)優(yōu)化階段采用不同的加速比，比均勻加速更符合模型特性。

即插即用：無(wú)需重新訓(xùn)練龐大的學(xué)生網(wǎng)絡(luò)，而是通過(guò)兩個(gè)輕量級(jí)的 LoRA適配器掛載在凍結(jié)的基礎(chǔ)模型上實(shí)現(xiàn)加速，且具有極強(qiáng)的泛化能力。圖1. 數(shù)據(jù)使用量與訓(xùn)練時(shí)長(zhǎng)對(duì)比。Glance僅需1個(gè)訓(xùn)練樣本并在1個(gè)GPU小時(shí)內(nèi)即可實(shí)現(xiàn)相當(dāng)?shù)纳少|(zhì)量，展現(xiàn)出極致的數(shù)據(jù)與計(jì)算效率。請(qǐng)注意橫軸采用對(duì)數(shù)刻度，因此零值無(wú)法在圖中直接表示。

解決的問(wèn)題

推理成本高：擴(kuò)散模型生成高質(zhì)量圖像通常需要大量的推理步驟（如 50 步），導(dǎo)致計(jì)算成本高昂，限制了應(yīng)用。

蒸餾成本高昂且難微調(diào)：現(xiàn)有的少步數(shù)蒸餾方法（如 LCM, DMD2 等）需要昂貴的重新訓(xùn)練成本和大規(guī)模數(shù)據(jù)集。此外，直接微調(diào)蒸餾后的模型往往會(huì)導(dǎo)致生成結(jié)果模糊。

泛化性與效率的平衡：如何在極少數(shù)據(jù)（甚至單樣本）和極低算力下，實(shí)現(xiàn)不損失質(zhì)量的推理加速。圖2：蒸餾與加速策略對(duì)比。現(xiàn)有蒸餾流程依賴大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練，而Glance僅需單一樣本即可獲得慢速與快速雙適配器，為基礎(chǔ)生成模型提供即插即用的加速方案。

提出的方案

Glance 框架：基于擴(kuò)散過(guò)程包含“早期語(yǔ)義階段”和“晚期冗余階段”的觀察，設(shè)計(jì)了分階段的加速方案。

Slow-Fast LoRA 專家：

Slow-LoRA：在早期階段以較低的倍率加速（保留更多步驟），確保全局結(jié)構(gòu)的準(zhǔn)確構(gòu)建。

Fast-LoRA：在晚期階段以較高的倍率加速（大幅跳步），快速完成紋理細(xì)化。

流匹配監(jiān)督：利用流匹配（Flow Matching）目標(biāo)函數(shù)，使 LoRA 適配器直接學(xué)習(xí)加速后的去噪軌跡速度場(chǎng)。圖3：慢-快范式可視化示意圖。在慢速階段，我們從前20個(gè)時(shí)間步中每?jī)刹讲蓸右淮危ü搏@得5個(gè)樣本）；在快速階段，則從剩余40個(gè)步中均勻采樣額外5個(gè)時(shí)間步。推理過(guò)程中，慢速階段的時(shí)間步將優(yōu)先于快速階段執(zhí)行。

應(yīng)用的技術(shù)

LoRA (Low-Rank Adaptation) ：利用低秩矩陣微調(diào)技術(shù)，避免全參數(shù)訓(xùn)練，極大降低顯存和計(jì)算需求。

Flow Matching (流匹配) ：直接回歸目標(biāo)速度場(chǎng)，相比于分?jǐn)?shù)匹配（Score Matching），在少樣本下能更高效地提取結(jié)構(gòu)知識(shí)。

Phase-Aware Strategy (階段感知策略) ：基于信噪比或時(shí)間步將去噪過(guò)程劃分為不同區(qū)域，分別訓(xùn)練專門的專家模型。

達(dá)到的效果

加速比：在 FLUX.1-12B 和 Qwen-Image-20B 模型上實(shí)現(xiàn)了 5 倍加速（8-10 步推理）。

質(zhì)量保持：在 OneIG-Bench、HPSv2 和 GenEval 等基準(zhǔn)測(cè)試中，性能分別達(dá)到教師模型的 92.60%、99.67% 和 96.71%，在視覺(jué)質(zhì)量上幾乎無(wú)損。

泛化能力：盡管僅用 1 張圖片訓(xùn)練，模型在未見(jiàn)過(guò)的提示詞和復(fù)雜場(chǎng)景（如文字渲染、不同風(fēng)格）上仍表現(xiàn)出驚人的泛化能力。

方法

Glance，這是一個(gè)階段感知（phase-aware）的加速框架，旨在通過(guò)“慢-快”（slow-fast）范式同時(shí)提高擴(kuò)散模型的效率和適應(yīng)性。首先一起回顧下擴(kuò)散模型和流匹配（flow-matching）的公式作為預(yù)備知識(shí)，然后描述本文提出的階段感知 LoRA 專家及其學(xué)習(xí)目標(biāo)。

預(yù)備知識(shí)

擴(kuò)散與流匹配 (Diffusion and Flow Matching)擴(kuò)散模型通過(guò)逐步將噪聲轉(zhuǎn)化為數(shù)據(jù)，學(xué)習(xí)通過(guò)參數(shù)化的去噪過(guò)程來(lái)擬合數(shù)據(jù)分布。流匹配公式將擴(kuò)散解釋為學(xué)習(xí)一個(gè)連續(xù)的速度場(chǎng)，該場(chǎng)將樣本從高斯噪聲傳輸?shù)角鍧崝?shù)據(jù) 。在時(shí)間步時(shí)，中間狀態(tài)定義為，模型在給定條件（例如文本嵌入）的情況下預(yù)測(cè)傳輸速度。目標(biāo)是預(yù)測(cè)速度與目標(biāo)速度之間的均方誤差：

其中是真實(shí)速度（groundtruth velocity）。為了獲得卓越的性能，擴(kuò)散模型通常設(shè)計(jì)有大量的網(wǎng)絡(luò)參數(shù)，并在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。顯而易見(jiàn)，為了減少步數(shù)而蒸餾如此巨大的模型在計(jì)算上是非常昂貴的。

低秩適應(yīng) (Low-Rank Adaptation)為了緩解上述困難，LoRA最近被應(yīng)用于目標(biāo)數(shù)據(jù)上的擴(kuò)散模型快速蒸餾。具體而言，LoRA 引入了一個(gè)額外矩陣的低秩分解，，其中表示凍結(jié)的預(yù)訓(xùn)練參數(shù)，而低秩矩陣和（其中）構(gòu)成了可學(xué)習(xí)的 LoRA 參數(shù)。

用于分階段去噪的階段感知 LoRA 專家

為了加速預(yù)訓(xùn)練擴(kuò)散模型的去噪過(guò)程，同時(shí)保持生成質(zhì)量，本文保留了預(yù)訓(xùn)練參數(shù) ，并引入了一種緊湊但有效的增強(qiáng)方案：一組階段特定的 LoRA 適配器（phase-specific LoRA adapters）。每個(gè)適配器專門負(fù)責(zé)去噪軌跡中的特定階段，使模型能夠在推理過(guò)程中根據(jù)不同的噪聲水平和語(yǔ)義復(fù)雜性進(jìn)行動(dòng)態(tài)調(diào)整。

超越均勻時(shí)間步劃分 (Beyond uniform timestep partitioning)先前的工作，如 Timestep Master，已經(jīng)展示了使用在不同時(shí)間步間隔上訓(xùn)練的多個(gè) LoRA 適配器的潛力。然而，均勻劃分假設(shè)所有時(shí)間步的貢獻(xiàn)是相等的，這與擴(kuò)散動(dòng)力學(xué)內(nèi)在的非均勻性相矛盾。實(shí)證分析以及先前的研究揭示了不同的時(shí)間步表現(xiàn)出明顯不同的語(yǔ)義重要性水平：在早期的、高噪聲機(jī)制中，模型主要重建粗糙的全局結(jié)構(gòu)和高級(jí)語(yǔ)義（低頻信息）；相比之下，后期的、低噪聲機(jī)制則專注于細(xì)化紋理和細(xì)節(jié)（高頻信息）。

基于 SNR 的階段感知?jiǎng)澐?(Phase-aware partitioning via SNR)為了更好地將專家專業(yè)化與擴(kuò)散過(guò)程的內(nèi)在動(dòng)力學(xué)對(duì)齊，我們引入了一種由信噪比（SNR）指導(dǎo)的階段感知?jiǎng)澐植呗浴Ｅc時(shí)間步索引不同，SNR 提供了一個(gè)物理上更有意義的信號(hào)與噪聲相對(duì)主導(dǎo)地位的度量，并且隨著去噪的進(jìn)行單調(diào)遞減。在過(guò)程開(kāi)始時(shí)（較大，高噪聲階段），潛在表示由低 SNR 的噪聲主導(dǎo)，使得粗糙結(jié)構(gòu)恢復(fù)成為主要目標(biāo)。相反，隨著減小且 SNR 上升，模型過(guò)渡到一個(gè)專注于紋理細(xì)化的低噪聲機(jī)制。

基于這一觀察，我們定義了一個(gè)對(duì)應(yīng)于 SNR 閾值（例如，初始 SNR 值的一半）的過(guò)渡邊界。然后采用兩個(gè)特定階段的專家：一個(gè)專門用于高噪聲階段（）的慢速專家，專注于粗糙語(yǔ)義重建；以及一個(gè)用于低噪聲階段（）的快速專家，用于增強(qiáng)細(xì)粒度細(xì)節(jié)。這種 SNR 引導(dǎo)的劃分允許每個(gè)專家在其最有效的機(jī)制中運(yùn)行，形成了去噪過(guò)程的語(yǔ)義上有意義的分解。

極小訓(xùn)練集的驚人有效性 (Surprising effectiveness of extremely small training sets)為了評(píng)估分階段 LoRA 是否可以恢復(fù)加速推理，我們最初使用僅 10 個(gè)訓(xùn)練樣本進(jìn)行了一個(gè)過(guò)擬合風(fēng)格的實(shí)驗(yàn)。出乎意料的是，模型迅速學(xué)習(xí)到了加速采樣軌跡的忠實(shí)近似。更為顯著的是，將數(shù)據(jù)集減少到僅單個(gè)訓(xùn)練樣本仍然產(chǎn)生了一種穩(wěn)定的加速行為。

我們將這種數(shù)據(jù)效率歸因于流匹配（flow matching）的本質(zhì)。通過(guò)直接預(yù)測(cè)沿?cái)U(kuò)散軌跡的目標(biāo)速度場(chǎng)，訓(xùn)練目標(biāo)繞過(guò)了冗余的分?jǐn)?shù)匹配（score-matching）步驟。因此，即使只有幾個(gè)示例，也能從中提取出用于快速推理的基本結(jié)構(gòu)知識(shí)。

精心設(shè)計(jì)的時(shí)間步跳過(guò)的必要性 (Necessity of carefully designed timestep skipping)盡管這種數(shù)據(jù)效率前景廣闊，但隨后的消融研究表明，時(shí)間步的跳過(guò)絕非任意的。雖然少步數(shù)的學(xué)生模型可以在總體上模仿教師模型的行為，但并非所有時(shí)間步對(duì)重建動(dòng)力學(xué)的貢獻(xiàn)都是相等的；天真的跳過(guò)策略可能會(huì)嚴(yán)重降低性能。為此，我們對(duì)不同的專門化方案進(jìn)行了全面調(diào)查。我們首先探索了為慢速階段 LoRA 適配器分配多個(gè)時(shí)間步，同時(shí)為快速階段保留單個(gè)適配器，反之亦然。我們還測(cè)試了一種退化配置，即在整個(gè)軌跡上訓(xùn)練單個(gè) LoRA。然而，這些變體要么缺乏表達(dá)能力來(lái)捕捉高噪聲的復(fù)雜性，要么未能利用低噪聲細(xì)化階段的時(shí)間局部性。

實(shí)驗(yàn)最終表明，將軌跡分離為專用的慢速區(qū)域和專用的快速區(qū)域會(huì)產(chǎn)生最穩(wěn)健的專門化效果。這種設(shè)計(jì)保留了足夠的容量來(lái)建模具有挑戰(zhàn)性的高噪聲動(dòng)力學(xué)，同時(shí)在后續(xù)步驟中實(shí)現(xiàn)輕量級(jí)細(xì)化，從而實(shí)現(xiàn)了一種緊湊而有效的加速機(jī)制。

流匹配監(jiān)督 (Flow-matching supervision)每個(gè)特定階段的 LoRA 專家都在流匹配監(jiān)督方案下進(jìn)行訓(xùn)練，該方案將其預(yù)測(cè)的去噪方向與底層數(shù)據(jù)流對(duì)齊。給定擴(kuò)散過(guò)程中獲得的噪聲潛在變量，模型預(yù)測(cè)一個(gè)速度場(chǎng) ，該速度場(chǎng)受到真實(shí)流向量的監(jiān)督。訓(xùn)練目標(biāo)定義為加權(quán)均方誤差：

其中表示可選的時(shí)間步相關(guān)加權(quán)函數(shù)。通過(guò)將每個(gè)專家的訓(xùn)練樣本限制在其分配的去噪階段，模型有效地學(xué)會(huì)了專注于不同的噪聲水平。由此產(chǎn)生的階段感知 LoRA 專家混合體共同提高了去噪速度和生成質(zhì)量，構(gòu)成了我們提出的慢-快（slow-fast）范式的基礎(chǔ)。

實(shí)驗(yàn)

本節(jié)介紹了 Glance 在文本到圖像生成任務(wù)上的綜合評(píng)估。首先報(bào)告與競(jìng)爭(zhēng)基線的定量結(jié)果比較，隨后是詳細(xì)的消融分析。然后討論模型的泛化行為及其對(duì)數(shù)據(jù)規(guī)模的敏感性。

實(shí)驗(yàn)設(shè)置

蒸餾設(shè)置 (Distillation Setup)。 將兩個(gè)大規(guī)模文本到圖像生成器 FLUX.1-12B和 Qwen-Image-20B蒸餾為緊湊的 Slow-Fast 學(xué)生模型。在蒸餾過(guò)程中，從教師繼承的基礎(chǔ)參數(shù)保持凍結(jié)，僅優(yōu)化 LoRA 適配器。遵循 Qwen-Image-Distill-LoRA，將適配器的放置擴(kuò)展到標(biāo)準(zhǔn)注意力投影之外。具體而言，LoRA 模塊不僅注入到查詢（query）、鍵（key）、值（value）和輸出投影中，還注入到視覺(jué)和文本分支的輔助投影層和模態(tài)特定的 MLP 中。這種更廣泛的集成使學(xué)生能夠更有效地捕捉跨模態(tài)依賴關(guān)系，并在容量緊湊的情況下保持生成保真度。

評(píng)估協(xié)議 (Evaluation protocol)。 對(duì)來(lái)自三個(gè)不同提示集的高分辨率圖像生成進(jìn)行全面評(píng)估：(a) 來(lái)自 COCO 2014 驗(yàn)證集的 10K 標(biāo)題，(b) 來(lái)自 HPSv2 基準(zhǔn)的 3200 個(gè)提示，(c) 來(lái)自 OneIG-Bench的 1120 個(gè)提示，(d) 來(lái)自 GenEval 基準(zhǔn)的 553 個(gè)提示，(e) 來(lái)自 DPG-Bench的 1065 個(gè)提示，以及 (f) 來(lái)自 LongText-Bench的 160 個(gè)提示。對(duì)于 COCO 和 HPSv2 集，我們報(bào)告常見(jiàn)指標(biāo)，包括 FID、補(bǔ)丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上，F(xiàn)ID 是針對(duì)真實(shí)圖像計(jì)算的，反映數(shù)據(jù)對(duì)齊。在 HPSv2 上，CLIP 和 VQAScore 衡量提示對(duì)齊，而 HPSv2 捕捉人類偏好對(duì)齊。對(duì)于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench，采用其官方評(píng)估協(xié)議并基于其各自的基準(zhǔn)指標(biāo)報(bào)告結(jié)果。

主要結(jié)果

性能曲線：Glance 的性能曲線（圖4）緊密貼合基礎(chǔ)模型，表明加速后的行為高度一致。

定量對(duì)比：在 OneIG-Bench、HPSv2 和 GenEval 上，Glance 分別達(dá)到了教師模型 92.60%、99.67% 和 96.71% 的性能。即使與需要數(shù)千 GPU 小時(shí)訓(xùn)練的方法（如 DMD2, Qwen-Image-Lightning）相比，僅訓(xùn)練 1 小時(shí)的 Glance 也展現(xiàn)出可比甚至更優(yōu)的效果。

視覺(jué)質(zhì)量：定性對(duì)比（圖5）顯示，Glance 在 8 步推理下保留了語(yǔ)義完整性，而其他 4 步模型（如 Lightning）可能在細(xì)節(jié)上有所欠缺。

消融研究

Slow-Fast 設(shè)計(jì)：對(duì)比了多種時(shí)間步分配策略，結(jié)果顯示“慢速階段3步 + 快速階段5步”的非對(duì)稱配置優(yōu)于均勻分布或單模型配置，證明了針對(duì)性加速的必要性。數(shù)據(jù)規(guī)模：將訓(xùn)練樣本從 1 個(gè)增加到 100 個(gè)并未帶來(lái)顯著提升，說(shuō)明數(shù)據(jù)的質(zhì)量和階段對(duì)齊比單純的數(shù)據(jù)量更關(guān)鍵。時(shí)間步覆蓋：更多的 LoRA 適配時(shí)間步能帶來(lái)更好的文本渲染和整體質(zhì)量。

結(jié)論

Glance框架采用輕量級(jí)蒸餾架構(gòu)，通過(guò)相位感知的"慢-快"設(shè)計(jì)加速擴(kuò)散模型推理。研究發(fā)現(xiàn)，LoRA適配器能夠有效區(qū)分去噪過(guò)程的不同階段，從而高效捕捉全局語(yǔ)義與局部細(xì)節(jié)。該框架僅需八步即可實(shí)現(xiàn)高質(zhì)量圖像生成，相比基礎(chǔ)模型獲得5倍加速。盡管僅使用單張圖像和數(shù)小時(shí)GPU訓(xùn)練，Glance仍能保持相當(dāng)?shù)囊曈X(jué)保真度，并對(duì)未見(jiàn)提示詞展現(xiàn)出強(qiáng)大泛化能力。這些結(jié)果表明，數(shù)據(jù)與算力高效的蒸餾方法能夠保持大型擴(kuò)散模型的表現(xiàn)力而不犧牲質(zhì)量。相信Glance可作為加速大規(guī)模擴(kuò)散模型的優(yōu)選方案，在數(shù)據(jù)稀缺場(chǎng)景中尤具應(yīng)用潛力。

參考文獻(xiàn)

[1] Glance: Accelerating Diffusion Models with 1 Sample

原文標(biāo)題 : 僅用1張圖1小時(shí)，比肩FLUX.1和Qwen，推理狂飆5倍！Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型！