成人免费午夜精品一区二区-亚洲视频在线观看久久-国产原创自拍看在线视频-这里只有精品自拍偷拍亚洲色图-亚洲变态另类色图天堂网-国产欧美日韩亚洲一区-国产精品自拍35页-男人插入女人下面的真实视频-蜜桃臀一区二区三区精品视频

訂閱
糾錯(cuò)
加入自媒體

視覺(jué)AR逆襲!177M效果媲美675M最新SOTA擴(kuò)散模型,僅需一個(gè)“即插即用”的正則化reAR

作者:Qiyuan He等

解讀:AI生成未來(lái)

亮點(diǎn)直擊

將生成器和分詞器之間的不一致性,即分詞器無(wú)法解碼生成的 token 序列,確定為視覺(jué)自回歸生成的瓶頸;

reAR,一種即插即用的訓(xùn)練正則化方法,它引入了分詞器的視覺(jué)歸納偏置并減輕了暴露偏差以訓(xùn)練視覺(jué)自回歸模型;

證明了 reAR 顯著改善了不同分詞器上的視覺(jué)自回歸生成(例如,在 VQGAN 上,F(xiàn)ID 從 3.02 提高到 1.86),甚至使用更少的參數(shù)超越了更復(fù)雜的生成模型。

總結(jié)速覽

生成效果展示

解決的問(wèn)題

視覺(jué)自回歸(AR)生成模型在圖像生成方面的性能顯著落后于擴(kuò)散模型。研究人員發(fā)現(xiàn)其核心瓶頸在于生成器-分詞器之間存在不一致性。具體表現(xiàn)為:

生成器生成的 Token 序列分詞器難以有效解碼回圖像。

暴露偏差(Exposure Bias):AR 模型在訓(xùn)練時(shí)基于真實(shí)上下文預(yù)測(cè)下一個(gè) Token,但在推理時(shí)卻依賴自身可能存在錯(cuò)誤的預(yù)測(cè),導(dǎo)致生成訓(xùn)練中未曾出現(xiàn)的 Token 序列。這在視覺(jué) AR 中尤為明顯,一個(gè)早期錯(cuò)誤可能導(dǎo)致圖像結(jié)構(gòu)性偽影的傳播。

嵌入無(wú)感知(Embedding Unawareness):AR 模型在訓(xùn)練時(shí)僅優(yōu)化離散 Token 索引的正確性,而忽略了分詞器如何將這些 Token 嵌入到連續(xù)空間。即使 Token 預(yù)測(cè)錯(cuò)誤,若其嵌入與正確 Token 接近,圖像質(zhì)量也可能更高,但 AR 模型對(duì)此并不“感知”。這種無(wú)感知導(dǎo)致模型無(wú)法有效利用嵌入空間中的相似性信息,并可能使生成序列的嵌入偏離訓(xùn)練分布。

提出的方案

提出了 reAR,一種即插即用(plug-and-play)的訓(xùn)練正則化框架,旨在解決生成器-分詞器不一致性問(wèn)題,并使 AR 模型能夠生成對(duì)分詞器更“友好”的 Token 序列。reAR 引入了Token 級(jí)別的一致性正則化。

reAR 主要包含兩個(gè)互補(bǔ)的策略:

噪聲上下文正則化(Noisy Context Regularization):在訓(xùn)練期間,通過(guò)將模型暴露于擾動(dòng)的上下文(即對(duì)輸入 Token 序列施加均勻噪聲)來(lái)減少其對(duì)“干凈”真實(shí)上下文的依賴。這提高了模型在測(cè)試時(shí)對(duì)不完美預(yù)測(cè)歷史的魯棒性,從而緩解了暴露偏差導(dǎo)致的生成未見(jiàn) Token 序列的趨勢(shì)。

碼本嵌入正則化(Codebook Embedding Regularization):顯式地將生成器 Transformer 的隱藏狀態(tài)與分詞器的嵌入空間對(duì)齊。具體來(lái)說(shuō),通過(guò)訓(xùn)練 Transformer 在噪聲上下文中恢復(fù)當(dāng)前 Token 的視覺(jué)嵌入,并在淺層預(yù)測(cè)當(dāng)前 Token 的嵌入,在深層預(yù)測(cè)目標(biāo)(下一個(gè))Token 的嵌入。這鼓勵(lì)生成器感知 Token 如何被解碼為視覺(jué) Patch,即使生成了未見(jiàn) Token 序列,其對(duì)應(yīng)的嵌入序列也能與分詞器更兼容。

應(yīng)用的技術(shù)

reAR 框架不需要對(duì)現(xiàn)有視覺(jué) AR 模型的任何核心組件進(jìn)行修改,包括:

無(wú)需改變分詞器(Tokenizer)

無(wú)需改變生成順序(Generation Order)

無(wú)需改變推理流水線(Inference Pipeline)

無(wú)需引入外部模型(External Models)

其核心技術(shù)在于:

解碼器專用 Transformer:保持了 AR 模型原有的基于 Transformer 的架構(gòu),用于下一個(gè) Token 預(yù)測(cè)。

Token 級(jí)別的正則化目標(biāo):在傳統(tǒng)的下一個(gè) Token 預(yù)測(cè)損失之外,額外引入了對(duì)當(dāng)前 Token 視覺(jué)嵌入恢復(fù)和下一個(gè) Token 嵌入預(yù)測(cè)的正則化任務(wù)。

線性退火調(diào)度(Linear Annealing Schedule):用于控制噪聲上下文正則化中噪聲水平的逐漸變化,以確保訓(xùn)練穩(wěn)定性和模型暴露于不同噪聲程度。

**多層感知機(jī) (MLP)**:用于將 Transformer 的隱藏特征投影到目標(biāo)視覺(jué)嵌入空間,以便進(jìn)行嵌入正則化。

余弦距離(Cosine Distance):作為衡量生成器特征與分詞器嵌入之間距離的度量。

達(dá)到的效果

reAR 取得了顯著的性能提升,且具有優(yōu)秀的泛化能力和效率:

顯著提升圖像生成質(zhì)量:在 ImageNet 數(shù)據(jù)集上,使用標(biāo)準(zhǔn)光柵化分詞器,gFID 從 3.02 降低到 1.86,IS 提高到 316.9。在相同的模型大小和訓(xùn)練預(yù)算下,reAR 甚至超越了傳統(tǒng)的 MAR、VAR 和 SiT 等替代范式。

對(duì)不同分詞器的泛化能力強(qiáng):即使與 TiTok (雙向) 和 AliTok (單向) 等非標(biāo)準(zhǔn)分詞器結(jié)合,reAR 也能持續(xù)提高性能(例如,TiTok 上 FID 從 4.45 提升到 4.01,AliTok 上 FID 從 1.50 提升到 1.42)。

匹配最先進(jìn)擴(kuò)散模型的性能,同時(shí)參數(shù)量更少:結(jié)合高級(jí)分詞器 AliTok,reAR 以僅 177M 參數(shù)實(shí)現(xiàn)了 1.42 的 gFID,這與需要 675M 參數(shù)的更大規(guī)模、最先進(jìn)的擴(kuò)散模型 REPA 的性能相匹配。reAR-S 使用 14% 的參數(shù)量(201M vs. 1.4B)優(yōu)于 LlamaGen-XL,并在大小僅為 WeTok 的 13-15% 的情況下超越了它。

良好的縮放行為:隨著模型規(guī)模和訓(xùn)練迭代次數(shù)的增加,reAR 的 FID 持續(xù)下降,顯示出其在大規(guī)模視覺(jué) AR 模型中的潛力。

更快的采樣速度:與其他自回歸模型一樣,reAR 受益于 KV-cache,實(shí)現(xiàn)了比擴(kuò)散模型和 MAR 更高的采樣速度。reAR-B-AliTok 甚至比 Maskbit 等并行解碼方法能以更快的速度達(dá)到更低的 FID。

更高的泛化能力和魯棒性:reAR 縮小了訓(xùn)練數(shù)據(jù)和未見(jiàn)數(shù)據(jù)之間的性能差距,并在噪聲輸入下表現(xiàn)出更高的魯棒性,從而提高了泛化能力。

reAR: 視覺(jué) AR 中的一致性正則化

與自然語(yǔ)言不同, 不是視覺(jué)自回歸生成中的最終生成結(jié)果。因此,生成器和解碼器之間的不一致性可能導(dǎo)致不令人滿意的結(jié)果,即使自回歸模型訓(xùn)練良好。例如,當(dāng)采樣分詞器訓(xùn)練數(shù)據(jù)集中未見(jiàn)或稀有的序列  時(shí),序列  可能無(wú)法被解碼器 D 正確解碼并影響最終生成結(jié)果。本文假設(shè)分詞器和生成器之間的不一致性是性能的主要障礙。一個(gè)有前景的解決方案是訓(xùn)練 AR 模型,使其能夠生成對(duì)分詞器友好的 token 序列。

為了驗(yàn)證本文的假設(shè),研究并定量分析了現(xiàn)有視覺(jué)自回歸模型如何受到不一致性的影響;谶@些觀察,提出了 reAR:正則化視覺(jué)自回歸生成中的 token 級(jí)別一致性,這是一種為視覺(jué)自回歸模型設(shè)計(jì)的即插即用正則化訓(xùn)練方法。總之,reAR 將從離散分詞器中查找的視覺(jué)嵌入引入到噪聲上下文下生成器的隱藏特征中。盡管其很簡(jiǎn)單,但 reAR 允許自回歸模型利用與分詞器兼容的視覺(jué)信號(hào),并顯著減少不一致行為。

理解視覺(jué)自回歸生成的瓶頸

自回歸模型的性能可以通過(guò)生成 token  與真實(shí)序列  的正確 token 比率 (CTR) 來(lái)評(píng)估,其中 。雖然 CTR 被廣泛用于指示性能,但 token 序列只是視覺(jué)自回歸生成中的中間表示,最終輸出實(shí)際上是解碼圖像。為了評(píng)估端到端質(zhì)量,本文轉(zhuǎn)而測(cè)量?jī)蓚(gè) token 序列解碼圖像之間的 LPIPS。本文認(rèn)為訓(xùn)練和推理之間的不一致性可以從 CTR 和 LPIPS 之間的不一致性中觀察到。在下文中,兩個(gè)受控實(shí)驗(yàn)表明,具有相似 CTR 的生成 token 序列可以導(dǎo)致不同質(zhì)量的圖像。這種不一致性也通過(guò) AR 模型的其他指標(biāo)(例如困惑度)反映出來(lái),詳情見(jiàn)附錄B。

放大的暴露偏差。 暴露偏差是序列模型中一個(gè)眾所周知的問(wèn)題:在教師強(qiáng)制訓(xùn)練期間,模型在給定真實(shí)上下文的情況下預(yù)測(cè)下一個(gè) token,而在推理時(shí)它必須以自己的預(yù)測(cè)為條件,這可能包含錯(cuò)誤。在視覺(jué)自回歸生成中,本文假設(shè)視覺(jué)分詞器會(huì)放大這種效應(yīng),因?yàn)楸┞镀顣?huì)導(dǎo)致更多未見(jiàn) token 序列并在像素空間中傳播結(jié)構(gòu)錯(cuò)誤。為了驗(yàn)證它,考慮一個(gè)從圖像解碼的 token 序列 ,其真實(shí) token 比率 。本文比較了兩種解碼協(xié)議:(1) 完美上下文(前置)。將前  個(gè) token 固定為真實(shí)值,即 ,并讓 AR 模型生成其余部分。這在給定  的情況下最小化了暴露偏差,因?yàn)樯舷挛脑诓襟E  之前保持干凈。(2) 不完美上下文(均勻交錯(cuò))。均勻隨機(jī)采樣一個(gè)掩碼 ,其中 。在第  步解碼期間,如果 ,則使用真實(shí) token ,否則從 AR 模型中采樣 token。這引入了上下文的早期污染,從而增加了暴露偏差,與具有相似 CTR 的完美上下文相比。

由于兩種協(xié)議都將真實(shí) token 的數(shù)量固定為 ,因此下游質(zhì)量的任何差異都反映了對(duì)暴露偏差的敏感性,而不是 token 級(jí)別的準(zhǔn)確性。結(jié)果顯示在圖 3(a) 中。對(duì)于可比較的 CTR,不完美上下文始終比完美上下文產(chǎn)生更高的 LPIPS。從定性上看,不完美上下文導(dǎo)致圖像與原始圖像顯著偏離,而完美上下文產(chǎn)生更好的預(yù)測(cè),即狗的布局更相似。這突出表明緩解暴露偏差在視覺(jué)自回歸生成中至關(guān)重要。

嵌入無(wú)感知。 在訓(xùn)練期間,AR 模型僅針對(duì) token 正確性進(jìn)行優(yōu)化,而分詞器解碼器在嵌入空間中操作。本文假設(shè)即使預(yù)測(cè)的 token 不正確,如果其嵌入與正確 token 的嵌入接近,解碼圖像仍可能保持高視覺(jué)質(zhì)量。為了驗(yàn)證這一點(diǎn),本文引入了替換比率 。給定真實(shí)序列 ,AR 模型通過(guò)教師強(qiáng)制預(yù)測(cè) 。對(duì)于每個(gè)不正確的預(yù)測(cè) (),本文以  的概率將其替換為另一個(gè)不正確的 token ,其嵌入  在余弦相似度  下最接近正確嵌入 ,即 。此替換不會(huì)改變 CTR。

圖 3(b) 顯示了結(jié)果。隨著  的增加,平均嵌入相似度提高,LPIPS 顯著下降。從定性上看,如圖 3(b) 右側(cè)所示,這種在不改變 CTR 的情況下進(jìn)行的替換可以產(chǎn)生更忠實(shí)于真實(shí)值的解碼圖像(例如,更清晰地預(yù)測(cè)襯衫和人腿)。這表明將分詞器嵌入融入 AR 模型的訓(xùn)練中可能會(huì)提高它們之間的一致性。

增加生成器-分詞器不一致性的直接方法是在 AR 模型的嵌入層或預(yù)測(cè)頭中重用分詞器的碼本嵌入。然而,這種方法通常會(huì)導(dǎo)致次優(yōu)性能,除非分詞器設(shè)計(jì)復(fù)雜。本文假設(shè)這種僵硬的集成并不理想:它可能會(huì)限制大型 AR 模型與小型分詞器的可擴(kuò)展性,并且碼本嵌入本身可能不是下一個(gè) token 預(yù)測(cè)這一主要任務(wù)的最佳表示。需要以較少約束的方式將嵌入引入模型。

生成器-分詞器一致性正則化

這些發(fā)現(xiàn)揭示了訓(xùn)練-推理不一致性:僅最大化預(yù)測(cè) token 索引的正確性不足以用于視覺(jué) AR 模型。需要適當(dāng)?shù)臍w納偏置來(lái)訓(xùn)練生成器,使其生成的 token 序列在推理期間與分詞器更一致。

為了解決這種不一致性,reAR 在視覺(jué) AR 模型的訓(xùn)練期間引入了 token 級(jí)別一致性正則化。具體而言,解碼器專用 Transformer 被訓(xùn)練以在噪聲上下文下執(zhí)行下一個(gè) token 預(yù)測(cè),同時(shí)其隱藏表示通過(guò)淺層中正確當(dāng)前 token 的視覺(jué)嵌入和深層中正確下一個(gè) token 的嵌入進(jìn)行正則化。這鼓勵(lì) AR 模型像分詞器一樣解釋當(dāng)前 token,同時(shí)提高對(duì)暴露偏差的魯棒性,然后預(yù)測(cè)與解碼器兼容的下一個(gè) token 嵌入。

下面,本文將 AR 模型表示為 ,分詞器碼本表示為 ,訓(xùn)練數(shù)據(jù)集表示為 ,離散 token 序列表示為 。

噪聲上下文正則化。 盡管計(jì)劃采樣等技術(shù)可以緩解暴露偏差,本文選擇了一種簡(jiǎn)單的方法,保留了 Transformer 的并行訓(xùn)練。具體而言,本文對(duì)輸入應(yīng)用均勻噪聲,表示為 。形式上:

其中  是概率為  的伯努利隨機(jī)變量, 從碼本索引中均勻采樣。在實(shí)踐中, 的選擇強(qiáng)烈影響訓(xùn)練穩(wěn)定性。為了確保 AR 模型暴露于具有不同噪聲水平的序列,本文對(duì)每個(gè) token 序列采樣 ,其中  表示歸一化的訓(xùn)練進(jìn)度。這里, 是一個(gè)控制訓(xùn)練期間最大噪聲水平的退火調(diào)度。然后訓(xùn)練 AR 模型以基于噪聲上下文預(yù)測(cè)下一個(gè)正確 token。形式上:

經(jīng)驗(yàn)表明,與固定比率的噪聲增強(qiáng)相比,退火均勻噪聲增強(qiáng)可以穩(wěn)定訓(xùn)練。

碼本嵌入正則化。 本文不直接應(yīng)用碼本嵌入,而是提出添加一個(gè)正則化任務(wù),即恢復(fù)當(dāng)前嵌入并預(yù)測(cè)下一個(gè)嵌入。具體而言,本文應(yīng)用一個(gè)可訓(xùn)練的 MLP 層  將隱藏特征投影到與視覺(jué)嵌入相同維度的目標(biāo)空間。為簡(jiǎn)化符號(hào),本文使用  表示淺層  的特征,使用  表示深層  的特征。為了與解碼器專用 Transformer 的設(shè)計(jì)對(duì)齊,淺層  的目標(biāo)是預(yù)測(cè)當(dāng)前 token 的嵌入, 的目標(biāo)是預(yù)測(cè)下一個(gè) token。形式上:

其中  是余弦距離,用于評(píng)估不同特征之間的距離, 表示從第  個(gè)當(dāng)前 token 的特征到嵌入空間的映射, 是從碼本中查找的當(dāng)前 token 的嵌入, 是下一個(gè) token 的嵌入。在實(shí)現(xiàn)中,本文將正則化應(yīng)用于 vanilla AR 中最初最接近分詞器嵌入的層(即用于編碼正則化的第 1 層和用于解碼正則化的第 15 層),以避免與下一個(gè) token 預(yù)測(cè)這一主要任務(wù)發(fā)生潛在沖突。

生成器-分詞器一致性正則化。 結(jié)合噪聲上下文正則化和碼本嵌入正則化,reAR 的目標(biāo)是:

其中  是正則化項(xiàng)的權(quán)重。請(qǐng)注意,本文也將噪聲 token 的隱藏特征與真實(shí) token 的嵌入對(duì)齊,這進(jìn)一步鼓勵(lì)自回歸模型以穩(wěn)健的方式預(yù)測(cè)碼本嵌入。這種聯(lián)合效應(yīng)對(duì)于提高視覺(jué)自回歸生成的性能至關(guān)重要。

實(shí)驗(yàn)與分析

實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)設(shè)置摘要如下:

數(shù)據(jù)集和評(píng)估。 本文在 ImageNet-1K 256×256 分辨率上使用 ADM 協(xié)議評(píng)估 reAR。每個(gè)模型使用無(wú)分類器指導(dǎo)生成 50k 張圖像。本文報(bào)告 FID(越低越好)和 IS(越高越好),并通過(guò) epoch 數(shù)和達(dá)到相同質(zhì)量所需的參數(shù)量來(lái)比較訓(xùn)練效率;涵蓋擴(kuò)散模型、掩碼生成(連續(xù)和離散)、VAR、隨機(jī)順序 AR、高級(jí)分詞器 AR 和標(biāo)準(zhǔn)光柵 AR(參見(jiàn)表 1)。

模型配置。 本文使用 MaskGIT VQGAN(rFID= 1.97) 作為分詞器和 DiT 風(fēng)格AR 主干。本文報(bào)告了 reAR-S/B/L,分別具有 20/24/24 個(gè)因果 Transformer 層和 768/768/1024 的隱藏大小。為了評(píng)估 reAR 的泛化能力,本文還將其與 TiTok和 AliTok結(jié)合使用,并采用其原始設(shè)置。

訓(xùn)練。 所有模型都在 8 個(gè) A800 GPU 上訓(xùn)練 400 個(gè) epoch(批量大小 2048),使用 AdamW 、梯度裁剪(范數(shù)= 1)和累積。學(xué)習(xí)率在前 100 個(gè) epoch 預(yù)熱到 ,然后衰減到 ,持續(xù)剩余 300 個(gè) epoch。類別標(biāo)簽以 0.1 的概率丟棄,以便在推理時(shí)實(shí)現(xiàn)無(wú)分類器指導(dǎo)。

reAR 實(shí)現(xiàn)。 本文對(duì)退火噪聲增強(qiáng)應(yīng)用線性調(diào)度。嵌入正則化使用一個(gè) 2 層 MLP(隱藏大小 2048,權(quán)重 )實(shí)現(xiàn):淺層在  處正則化當(dāng)前嵌入,而深層在整個(gè) Transformer 的  深度處正則化解碼特征(reAR-S/B/L 分別為 )。

主要結(jié)果

生成質(zhì)量。 如表 1 所示,即使使用標(biāo)準(zhǔn)光柵順序 AR 模型和簡(jiǎn)單的二維 patch 分詞器,reAR 也取得了優(yōu)異的結(jié)果。reAR-S 優(yōu)于 LlamaGen-XL等先前的光柵 AR 模型(FID 2.00 vs. 2.34;IS 295.7 vs. 253.9),且僅使用 14% 的參數(shù)(201M vs. 1.4B),并超越了 WeTok等高級(jí)分詞器 AR 模型,其大小僅為后者的 13-15%。在相似的規(guī)模下,它與 RAR相當(dāng)并優(yōu)于 RandAR ,reAR-L 則超越了 MAR-L 和 VAR-d30。雖然擴(kuò)散模型和掩碼生成模型仍然強(qiáng)大,但 reAR 以更少的訓(xùn)練 epoch 縮小了差距。

泛化能力。 本文還在非標(biāo)準(zhǔn)分詞器 TiTok和 AliTok上評(píng)估了 reAR。與主要幫助雙向分詞的 RAR不同,reAR 始終改進(jìn)了雙向 (TiTok: 4.45 → 4.01) 和單向 (AliTok: 1.50 → 1.42) 分詞器的性能。值得注意的是,它接近基于擴(kuò)散的 REPA并優(yōu)于 Maskbit,同時(shí)使用更少的參數(shù)(177M vs. 675M/305M),具體數(shù)據(jù)如表 2 所示。

縮放效應(yīng)。 本文還研究了 reAR 是否能保持原始 AR 模型的縮放行為。具體而言,本文繪制了不同模型大小在不同訓(xùn)練 epoch 下的 FID。如圖 4 所示,隨著模型大小和訓(xùn)練迭代次數(shù)的增加,F(xiàn)ID 持續(xù)下降,這揭示了 reAR 在大規(guī)模視覺(jué) AR 模型上的潛力。

采樣速度。 如同其他自回歸模型,reAR 受益于 KV-cache 以實(shí)現(xiàn)高采樣速度。本文在單個(gè) A800 GPU 上測(cè)量了批量大小為 128 的吞吐量(如圖 5 所示)。通過(guò) KV-cache,自回歸模型的運(yùn)行速度比擴(kuò)散模型和 MAR 快得多。此外,reAR-B-AliTok 即使與 Maskbit、TiTok、VAR 和 RandAR 等并行解碼方法相比,也能以更快的采樣速度實(shí)現(xiàn)更低的 FID。

消融研究

本文對(duì) reAR 的關(guān)鍵組件進(jìn)行了消融研究,重點(diǎn)關(guān)注編碼/解碼正則化的加權(quán)和層選擇,以及噪聲增強(qiáng)策略。

正則化層。 本文使用訓(xùn)練 80 個(gè) epoch 且無(wú)分類器指導(dǎo)的 reAR-S 分析了嵌入正則化的最佳層(如表 3 所示)。本文對(duì)正則化的存在和位置進(jìn)行了消融,并與樸素的綁定嵌入策略進(jìn)行了比較。對(duì)于解碼正則化,早期層(例如,層 10)幾乎沒(méi)有益處,而層 15 表現(xiàn)最佳;應(yīng)用更深層會(huì)略微降低性能。對(duì)于編碼正則化,第一層是最佳的,因?yàn)樗c token 嵌入對(duì)齊最佳,而更深層會(huì)損害生成質(zhì)量。值得注意的是,將正則化應(yīng)用于 vanilla AR 中最接近目標(biāo)嵌入空間的層會(huì)產(chǎn)生最佳結(jié)果——在第 0 層編碼并在大約  深度處解碼。本文假設(shè)這種放置最小化了對(duì)下一個(gè) token 預(yù)測(cè)這一主要任務(wù)的干擾;谶@些發(fā)現(xiàn),本文對(duì) reAR-S 使用 EN@0 + DE@15,對(duì) reAR-B/L 使用 EN@0 + DE@18。

正則化權(quán)重。 如表 3 所示,正則化權(quán)重對(duì)生成質(zhì)量的影響可以忽略不計(jì),這可能是因?yàn)?AdamW 優(yōu)化器對(duì)損失的規(guī)模不敏感。為簡(jiǎn)單起見(jiàn),本文使用 。

噪聲增強(qiáng)。 本文進(jìn)一步消融了噪聲增強(qiáng)的設(shè)計(jì),探索了兩種策略:(1) 為每個(gè) token 序列分配不同的噪聲水平,以及 (2) 在訓(xùn)練期間退火最大噪聲水平。結(jié)果如表 4 所示,基于帶有碼本嵌入正則化的默認(rèn)設(shè)置(reAR-S 的 EN@0 + DE@15)。所有模型都訓(xùn)練了 400 個(gè) epoch 以評(píng)估不同調(diào)度的效果。本文發(fā)現(xiàn),固定噪聲水平  將 FID 從 2.12 提高到 2.08,而更高水平()導(dǎo)致訓(xùn)練崩潰(FID = 3.15)。將噪聲水平隨機(jī)化到 [0, 0.5] 范圍內(nèi)進(jìn)一步將 FID 提高到 2.05。結(jié)合退火調(diào)度,其中 ,產(chǎn)生了更強(qiáng)的結(jié)果(2.02 FID)。最后,使用截?cái)嗑性調(diào)度  實(shí)現(xiàn)了 2.00 FID 的最佳性能。這些結(jié)果突出表明了適當(dāng)退火噪聲增強(qiáng)的有效性。

一致性正則化的聯(lián)合效應(yīng)。 如表 4 所示,僅使用嵌入正則化()產(chǎn)生了 2.12 的 FID,而僅使用噪聲增強(qiáng)產(chǎn)生了 2.18。相比之下,將兩者結(jié)合進(jìn)一步提高了性能,將 reAR-S 的 FID 降低到 2.00。這表明噪聲上下文正則化和碼本嵌入正則化都很重要。

結(jié)論

本工作將視覺(jué)自回歸生成的關(guān)鍵瓶頸確定為生成器和分詞器之間的不匹配,即 AR 模型難以生成可以有效解碼回圖像的 token 序列。為了解決這個(gè)問(wèn)題,提出reAR,一種簡(jiǎn)單的正則化方法,它顯著提高了視覺(jué) AR 性能,同時(shí)與分詞器設(shè)計(jì)無(wú)關(guān)。本文希望這項(xiàng)工作能夠鼓勵(lì)未來(lái)在視覺(jué) AR 模型中統(tǒng)一生成器和分詞器,更廣泛地說(shuō),鼓勵(lì)開(kāi)發(fā)統(tǒng)一的多模態(tài)模型。

參考文獻(xiàn)

[1] REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization

       原文標(biāo)題 : 視覺(jué)AR逆襲!177M效果媲美675M最新SOTA擴(kuò)散模型,僅需一個(gè)“即插即用”的正則化reAR

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)