僅用1張圖1小時(shí),比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型!
作者:Zhuobai Dong等
解讀:AI生成未來(lái)
亮點(diǎn)直擊
極致高效的訓(xùn)練:僅需 1 個(gè)樣本,在 單張 V100 GPU 上不到 1 小時(shí) 即可完成訓(xùn)練。這與需要數(shù)千GPU小時(shí)(如 DMD2 需要 3840 小時(shí))的傳統(tǒng)方法形成鮮明對(duì)比。
非均勻加速策略:提出了“慢-快”(Slow-Fast)的分階段加速策略,針對(duì)擴(kuò)散模型的語(yǔ)義生成階段和細(xì)節(jié)優(yōu)化階段采用不同的加速比,比均勻加速更符合模型特性。
即插即用:無(wú)需重新訓(xùn)練龐大的學(xué)生網(wǎng)絡(luò),而是通過(guò)兩個(gè)輕量級(jí)的 LoRA適配器掛載在凍結(jié)的基礎(chǔ)模型上實(shí)現(xiàn)加速,且具有極強(qiáng)的泛化能力。
圖1. 數(shù)據(jù)使用量與訓(xùn)練時(shí)長(zhǎng)對(duì)比。Glance僅需1個(gè)訓(xùn)練樣本并在1個(gè)GPU小時(shí)內(nèi)即可實(shí)現(xiàn)相當(dāng)?shù)纳少|(zhì)量,展現(xiàn)出極致的數(shù)據(jù)與計(jì)算效率。請(qǐng)注意橫軸采用對(duì)數(shù)刻度,因此零值無(wú)法在圖中直接表示。




解決的問(wèn)題
推理成本高:擴(kuò)散模型生成高質(zhì)量圖像通常需要大量的推理步驟(如 50 步),導(dǎo)致計(jì)算成本高昂,限制了應(yīng)用。
蒸餾成本高昂且難微調(diào):現(xiàn)有的少步數(shù)蒸餾方法(如 LCM, DMD2 等)需要昂貴的重新訓(xùn)練成本和大規(guī)模數(shù)據(jù)集。此外,直接微調(diào)蒸餾后的模型往往會(huì)導(dǎo)致生成結(jié)果模糊。
泛化性與效率的平衡:如何在極少數(shù)據(jù)(甚至單樣本)和極低算力下,實(shí)現(xiàn)不損失質(zhì)量的推理加速。
圖2:蒸餾與加速策略對(duì)比。現(xiàn)有蒸餾流程依賴大規(guī)模訓(xùn)練集和高成本重復(fù)訓(xùn)練,而Glance僅需單一樣本即可獲得慢速與快速雙適配器,為基礎(chǔ)生成模型提供即插即用的加速方案。
提出的方案
Glance 框架:基于擴(kuò)散過(guò)程包含“早期語(yǔ)義階段”和“晚期冗余階段”的觀察,設(shè)計(jì)了分階段的加速方案。
Slow-Fast LoRA 專家:
Slow-LoRA:在早期階段以較低的倍率加速(保留更多步驟),確保全局結(jié)構(gòu)的準(zhǔn)確構(gòu)建。
Fast-LoRA:在晚期階段以較高的倍率加速(大幅跳步),快速完成紋理細(xì)化。
流匹配監(jiān)督:利用流匹配(Flow Matching)目標(biāo)函數(shù),使 LoRA 適配器直接學(xué)習(xí)加速后的去噪軌跡速度場(chǎng)。
圖3:慢-快范式可視化示意圖。在慢速階段,我們從前20個(gè)時(shí)間步中每?jī)刹讲蓸右淮危ü搏@得5個(gè)樣本);在快速階段,則從剩余40個(gè)步中均勻采樣額外5個(gè)時(shí)間步。推理過(guò)程中,慢速階段的時(shí)間步將優(yōu)先于快速階段執(zhí)行。
應(yīng)用的技術(shù)
LoRA (Low-Rank Adaptation) :利用低秩矩陣微調(diào)技術(shù),避免全參數(shù)訓(xùn)練,極大降低顯存和計(jì)算需求。
Flow Matching (流匹配) :直接回歸目標(biāo)速度場(chǎng),相比于分?jǐn)?shù)匹配(Score Matching),在少樣本下能更高效地提取結(jié)構(gòu)知識(shí)。
Phase-Aware Strategy (階段感知策略) :基于信噪比或時(shí)間步將去噪過(guò)程劃分為不同區(qū)域,分別訓(xùn)練專門的專家模型。
達(dá)到的效果
加速比:在 FLUX.1-12B 和 Qwen-Image-20B 模型上實(shí)現(xiàn)了 5 倍加速(8-10 步推理)。
質(zhì)量保持:在 OneIG-Bench、HPSv2 和 GenEval 等基準(zhǔn)測(cè)試中,性能分別達(dá)到教師模型的 92.60%、99.67% 和 96.71%,在視覺(jué)質(zhì)量上幾乎無(wú)損。
泛化能力:盡管僅用 1 張圖片訓(xùn)練,模型在未見(jiàn)過(guò)的提示詞和復(fù)雜場(chǎng)景(如文字渲染、不同風(fēng)格)上仍表現(xiàn)出驚人的泛化能力。
方法
Glance,這是一個(gè)階段感知(phase-aware)的加速框架,旨在通過(guò)“慢-快”(slow-fast)范式同時(shí)提高擴(kuò)散模型的效率和適應(yīng)性。首先一起回顧下擴(kuò)散模型和流匹配(flow-matching)的公式作為預(yù)備知識(shí),然后描述本文提出的階段感知 LoRA 專家及其學(xué)習(xí)目標(biāo)。
預(yù)備知識(shí)
擴(kuò)散與流匹配 (Diffusion and Flow Matching)擴(kuò)散模型通過(guò)逐步將噪聲轉(zhuǎn)化為數(shù)據(jù),學(xué)習(xí)通過(guò)參數(shù)化的去噪過(guò)程來(lái)擬合數(shù)據(jù)分布。流匹配公式將擴(kuò)散解釋為學(xué)習(xí)一個(gè)連續(xù)的速度場(chǎng),該場(chǎng)將樣本從高斯噪聲 傳輸?shù)角鍧崝?shù)據(jù) 。在時(shí)間步 時(shí),中間狀態(tài)定義為 ,模型在給定條件 (例如文本嵌入)的情況下預(yù)測(cè)傳輸速度 。目標(biāo)是預(yù)測(cè)速度與目標(biāo)速度之間的均方誤差:

其中 是真實(shí)速度(groundtruth velocity)。為了獲得卓越的性能,擴(kuò)散模型通常設(shè)計(jì)有大量的網(wǎng)絡(luò)參數(shù),并在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。顯而易見(jiàn),為了減少步數(shù)而蒸餾如此巨大的模型在計(jì)算上是非常昂貴的。
低秩適應(yīng) (Low-Rank Adaptation)為了緩解上述困難,LoRA最近被應(yīng)用于目標(biāo)數(shù)據(jù)上的擴(kuò)散模型快速蒸餾。具體而言,LoRA 引入了一個(gè)額外矩陣的低秩分解,,其中 表示凍結(jié)的預(yù)訓(xùn)練參數(shù),而低秩矩陣 和 (其中 )構(gòu)成了可學(xué)習(xí)的 LoRA 參數(shù)。
用于分階段去噪的階段感知 LoRA 專家
為了加速預(yù)訓(xùn)練擴(kuò)散模型的去噪過(guò)程,同時(shí)保持生成質(zhì)量,本文保留了預(yù)訓(xùn)練參數(shù) ,并引入了一種緊湊但有效的增強(qiáng)方案:一組階段特定的 LoRA 適配器(phase-specific LoRA adapters)。每個(gè)適配器專門負(fù)責(zé)去噪軌跡中的特定階段,使模型能夠在推理過(guò)程中根據(jù)不同的噪聲水平和語(yǔ)義復(fù)雜性進(jìn)行動(dòng)態(tài)調(diào)整。
超越均勻時(shí)間步劃分 (Beyond uniform timestep partitioning)先前的工作,如 Timestep Master,已經(jīng)展示了使用在不同時(shí)間步間隔上訓(xùn)練的多個(gè) LoRA 適配器的潛力。然而,均勻劃分假設(shè)所有時(shí)間步的貢獻(xiàn)是相等的,這與擴(kuò)散動(dòng)力學(xué)內(nèi)在的非均勻性相矛盾。實(shí)證分析以及先前的研究揭示了不同的時(shí)間步表現(xiàn)出明顯不同的語(yǔ)義重要性水平:在早期的、高噪聲機(jī)制中,模型主要重建粗糙的全局結(jié)構(gòu)和高級(jí)語(yǔ)義(低頻信息);相比之下,后期的、低噪聲機(jī)制則專注于細(xì)化紋理和細(xì)節(jié)(高頻信息)。
基于 SNR 的階段感知?jiǎng)澐?(Phase-aware partitioning via SNR)為了更好地將專家專業(yè)化與擴(kuò)散過(guò)程的內(nèi)在動(dòng)力學(xué)對(duì)齊,我們引入了一種由信噪比(SNR)指導(dǎo)的階段感知?jiǎng)澐植呗浴Ec時(shí)間步索引不同,SNR 提供了一個(gè)物理上更有意義的信號(hào)與噪聲相對(duì)主導(dǎo)地位的度量,并且隨著去噪的進(jìn)行單調(diào)遞減。在過(guò)程開(kāi)始時(shí)( 較大,高噪聲階段),潛在表示由低 SNR 的噪聲主導(dǎo),使得粗糙結(jié)構(gòu)恢復(fù)成為主要目標(biāo)。相反,隨著 減小且 SNR 上升,模型過(guò)渡到一個(gè)專注于紋理細(xì)化的低噪聲機(jī)制。
基于這一觀察,我們定義了一個(gè)對(duì)應(yīng)于 SNR 閾值(例如,初始 SNR 值的一半)的過(guò)渡邊界 。然后采用兩個(gè)特定階段的專家:一個(gè)專門用于高噪聲階段()的慢速專家,專注于粗糙語(yǔ)義重建;以及一個(gè)用于低噪聲階段()的快速專家,用于增強(qiáng)細(xì)粒度細(xì)節(jié)。這種 SNR 引導(dǎo)的劃分允許每個(gè)專家在其最有效的機(jī)制中運(yùn)行,形成了去噪過(guò)程的語(yǔ)義上有意義的分解。
極小訓(xùn)練集的驚人有效性 (Surprising effectiveness of extremely small training sets)為了評(píng)估分階段 LoRA 是否可以恢復(fù)加速推理,我們最初使用僅 10 個(gè)訓(xùn)練樣本進(jìn)行了一個(gè)過(guò)擬合風(fēng)格的實(shí)驗(yàn)。出乎意料的是,模型迅速學(xué)習(xí)到了加速采樣軌跡的忠實(shí)近似。更為顯著的是,將數(shù)據(jù)集減少到僅單個(gè)訓(xùn)練樣本仍然產(chǎn)生了一種穩(wěn)定的加速行為。
我們將這種數(shù)據(jù)效率歸因于流匹配(flow matching)的本質(zhì)。通過(guò)直接預(yù)測(cè)沿?cái)U(kuò)散軌跡的目標(biāo)速度場(chǎng),訓(xùn)練目標(biāo)繞過(guò)了冗余的分?jǐn)?shù)匹配(score-matching)步驟。因此,即使只有幾個(gè)示例,也能從中提取出用于快速推理的基本結(jié)構(gòu)知識(shí)。
精心設(shè)計(jì)的時(shí)間步跳過(guò)的必要性 (Necessity of carefully designed timestep skipping)盡管這種數(shù)據(jù)效率前景廣闊,但隨后的消融研究表明,時(shí)間步的跳過(guò)絕非任意的。雖然少步數(shù)的學(xué)生模型可以在總體上模仿教師模型的行為,但并非所有時(shí)間步對(duì)重建動(dòng)力學(xué)的貢獻(xiàn)都是相等的;天真的跳過(guò)策略可能會(huì)嚴(yán)重降低性能。為此,我們對(duì)不同的專門化方案進(jìn)行了全面調(diào)查。我們首先探索了為慢速階段 LoRA 適配器分配多個(gè)時(shí)間步,同時(shí)為快速階段保留單個(gè)適配器,反之亦然。我們還測(cè)試了一種退化配置,即在整個(gè)軌跡上訓(xùn)練單個(gè) LoRA。然而,這些變體要么缺乏表達(dá)能力來(lái)捕捉高噪聲的復(fù)雜性,要么未能利用低噪聲細(xì)化階段的時(shí)間局部性。
實(shí)驗(yàn)最終表明,將軌跡分離為專用的慢速區(qū)域和專用的快速區(qū)域會(huì)產(chǎn)生最穩(wěn)健的專門化效果。這種設(shè)計(jì)保留了足夠的容量來(lái)建模具有挑戰(zhàn)性的高噪聲動(dòng)力學(xué),同時(shí)在后續(xù)步驟中實(shí)現(xiàn)輕量級(jí)細(xì)化,從而實(shí)現(xiàn)了一種緊湊而有效的加速機(jī)制。
流匹配監(jiān)督 (Flow-matching supervision)每個(gè)特定階段的 LoRA 專家都在流匹配監(jiān)督方案下進(jìn)行訓(xùn)練,該方案將其預(yù)測(cè)的去噪方向與底層數(shù)據(jù)流對(duì)齊。給定擴(kuò)散過(guò)程中獲得的噪聲潛在變量 ,模型預(yù)測(cè)一個(gè)速度場(chǎng) ,該速度場(chǎng)受到真實(shí)流向量 的監(jiān)督。訓(xùn)練目標(biāo)定義為加權(quán)均方誤差:

其中 表示可選的時(shí)間步相關(guān)加權(quán)函數(shù)。通過(guò)將每個(gè)專家的訓(xùn)練樣本限制在其分配的去噪階段,模型有效地學(xué)會(huì)了專注于不同的噪聲水平。由此產(chǎn)生的階段感知 LoRA 專家混合體共同提高了去噪速度和生成質(zhì)量,構(gòu)成了我們提出的慢-快(slow-fast)范式的基礎(chǔ)。
實(shí)驗(yàn)
本節(jié)介紹了 Glance 在文本到圖像生成任務(wù)上的綜合評(píng)估。首先報(bào)告與競(jìng)爭(zhēng)基線的定量結(jié)果比較,隨后是詳細(xì)的消融分析。然后討論模型的泛化行為及其對(duì)數(shù)據(jù)規(guī)模的敏感性。
實(shí)驗(yàn)設(shè)置
蒸餾設(shè)置 (Distillation Setup)。 將兩個(gè)大規(guī)模文本到圖像生成器 FLUX.1-12B和 Qwen-Image-20B蒸餾為緊湊的 Slow-Fast 學(xué)生模型。在蒸餾過(guò)程中,從教師繼承的基礎(chǔ)參數(shù)保持凍結(jié),僅優(yōu)化 LoRA 適配器。遵循 Qwen-Image-Distill-LoRA,將適配器的放置擴(kuò)展到標(biāo)準(zhǔn)注意力投影之外。具體而言,LoRA 模塊不僅注入到查詢(query)、鍵(key)、值(value)和輸出投影中,還注入到視覺(jué)和文本分支的輔助投影層和模態(tài)特定的 MLP 中。這種更廣泛的集成使學(xué)生能夠更有效地捕捉跨模態(tài)依賴關(guān)系,并在容量緊湊的情況下保持生成保真度。
評(píng)估協(xié)議 (Evaluation protocol)。 對(duì)來(lái)自三個(gè)不同提示集的高分辨率 圖像生成進(jìn)行全面評(píng)估:(a) 來(lái)自 COCO 2014 驗(yàn)證集的 10K 標(biāo)題,(b) 來(lái)自 HPSv2 基準(zhǔn)的 3200 個(gè)提示,(c) 來(lái)自 OneIG-Bench的 1120 個(gè)提示,(d) 來(lái)自 GenEval 基準(zhǔn)的 553 個(gè)提示,(e) 來(lái)自 DPG-Bench的 1065 個(gè)提示,以及 (f) 來(lái)自 LongText-Bench的 160 個(gè)提示。對(duì)于 COCO 和 HPSv2 集,我們報(bào)告常見(jiàn)指標(biāo),包括 FID、補(bǔ)丁 FID (pFID)、CLIP 相似度、VQAScore和 HPSv2.1。在 COCO 提示上,F(xiàn)ID 是針對(duì)真實(shí)圖像計(jì)算的,反映數(shù)據(jù)對(duì)齊。在 HPSv2 上,CLIP 和 VQAScore 衡量提示對(duì)齊,而 HPSv2 捕捉人類偏好對(duì)齊。對(duì)于 OneIG-Bench、GenEval、DPG-Bench 和 LongText-Bench,采用其官方評(píng)估協(xié)議并基于其各自的基準(zhǔn)指標(biāo)報(bào)告結(jié)果。
主要結(jié)果
性能曲線:Glance 的性能曲線(圖4)緊密貼合基礎(chǔ)模型,表明加速后的行為高度一致。

定量對(duì)比:在 OneIG-Bench、HPSv2 和 GenEval 上,Glance 分別達(dá)到了教師模型 92.60%、99.67% 和 96.71% 的性能。即使與需要數(shù)千 GPU 小時(shí)訓(xùn)練的方法(如 DMD2, Qwen-Image-Lightning)相比,僅訓(xùn)練 1 小時(shí)的 Glance 也展現(xiàn)出可比甚至更優(yōu)的效果。
視覺(jué)質(zhì)量:定性對(duì)比(圖5)顯示,Glance 在 8 步推理下保留了語(yǔ)義完整性,而其他 4 步模型(如 Lightning)可能在細(xì)節(jié)上有所欠缺。




消融研究
Slow-Fast 設(shè)計(jì):對(duì)比了多種時(shí)間步分配策略,結(jié)果顯示“慢速階段3步 + 快速階段5步”的非對(duì)稱配置優(yōu)于均勻分布或單模型配置,證明了針對(duì)性加速的必要性。數(shù)據(jù)規(guī)模:將訓(xùn)練樣本從 1 個(gè)增加到 100 個(gè)并未帶來(lái)顯著提升,說(shuō)明數(shù)據(jù)的質(zhì)量和階段對(duì)齊比單純的數(shù)據(jù)量更關(guān)鍵。時(shí)間步覆蓋:更多的 LoRA 適配時(shí)間步能帶來(lái)更好的文本渲染和整體質(zhì)量。



結(jié)論
Glance框架采用輕量級(jí)蒸餾架構(gòu),通過(guò)相位感知的"慢-快"設(shè)計(jì)加速擴(kuò)散模型推理。研究發(fā)現(xiàn),LoRA適配器能夠有效區(qū)分去噪過(guò)程的不同階段,從而高效捕捉全局語(yǔ)義與局部細(xì)節(jié)。該框架僅需八步即可實(shí)現(xiàn)高質(zhì)量圖像生成,相比基礎(chǔ)模型獲得5倍加速。盡管僅使用單張圖像和數(shù)小時(shí)GPU訓(xùn)練,Glance仍能保持相當(dāng)?shù)囊曈X(jué)保真度,并對(duì)未見(jiàn)提示詞展現(xiàn)出強(qiáng)大泛化能力。這些結(jié)果表明,數(shù)據(jù)與算力高效的蒸餾方法能夠保持大型擴(kuò)散模型的表現(xiàn)力而不犧牲質(zhì)量。相信Glance可作為加速大規(guī)模擴(kuò)散模型的優(yōu)選方案,在數(shù)據(jù)稀缺場(chǎng)景中尤具應(yīng)用潛力。
參考文獻(xiàn)
[1] Glance: Accelerating Diffusion Models with 1 Sample
原文標(biāo)題 : 僅用1張圖1小時(shí),比肩FLUX.1和Qwen,推理狂飆5倍!Glance用“快慢哲學(xué)”顛覆擴(kuò)散模型!
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來(lái)了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-

長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來(lái)·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國(guó)機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國(guó)機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來(lái)了!宇樹(shù)科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉(cāng)中國(guó)機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來(lái)iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國(guó)產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國(guó)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





