視覺AR逆襲！177M效果媲美675M最新SOTA擴散模型，僅需一個“即插即用”的正則化reAR

2026-03-19 14:10

AI生成未來

關注

作者：Qiyuan He等

解讀：AI生成未來

亮點直擊

將生成器和分詞器之間的不一致性，即分詞器無法解碼生成的 token 序列，確定為視覺自回歸生成的瓶頸；

reAR，一種即插即用的訓練正則化方法，它引入了分詞器的視覺歸納偏置并減輕了暴露偏差以訓練視覺自回歸模型；

證明了 reAR 顯著改善了不同分詞器上的視覺自回歸生成（例如，在 VQGAN 上，FID 從 3.02 提高到 1.86），甚至使用更少的參數超越了更復雜的生成模型。

總結速覽

生成效果展示

解決的問題

視覺自回歸（AR）生成模型在圖像生成方面的性能顯著落后于擴散模型。研究人員發現其核心瓶頸在于生成器-分詞器之間存在不一致性。具體表現為：

生成器生成的 Token 序列分詞器難以有效解碼回圖像。

暴露偏差（Exposure Bias）：AR 模型在訓練時基于真實上下文預測下一個 Token，但在推理時卻依賴自身可能存在錯誤的預測，導致生成訓練中未曾出現的 Token 序列。這在視覺 AR 中尤為明顯，一個早期錯誤可能導致圖像結構性偽影的傳播。

嵌入無感知（Embedding Unawareness）：AR 模型在訓練時僅優化離散 Token 索引的正確性，而忽略了分詞器如何將這些 Token 嵌入到連續空間。即使 Token 預測錯誤，若其嵌入與正確 Token 接近，圖像質量也可能更高，但 AR 模型對此并不“感知”。這種無感知導致模型無法有效利用嵌入空間中的相似性信息，并可能使生成序列的嵌入偏離訓練分布。

提出的方案

提出了 reAR，一種即插即用（plug-and-play）的訓練正則化框架，旨在解決生成器-分詞器不一致性問題，并使 AR 模型能夠生成對分詞器更“友好”的 Token 序列。reAR 引入了Token 級別的一致性正則化。

reAR 主要包含兩個互補的策略：

噪聲上下文正則化（Noisy Context Regularization）：在訓練期間，通過將模型暴露于擾動的上下文（即對輸入 Token 序列施加均勻噪聲）來減少其對“干凈”真實上下文的依賴。這提高了模型在測試時對不完美預測歷史的魯棒性，從而緩解了暴露偏差導致的生成未見 Token 序列的趨勢。

碼本嵌入正則化（Codebook Embedding Regularization）：顯式地將生成器 Transformer 的隱藏狀態與分詞器的嵌入空間對齊。具體來說，通過訓練 Transformer 在噪聲上下文中恢復當前 Token 的視覺嵌入，并在淺層預測當前 Token 的嵌入，在深層預測目標（下一個）Token 的嵌入。這鼓勵生成器感知 Token 如何被解碼為視覺 Patch，即使生成了未見 Token 序列，其對應的嵌入序列也能與分詞器更兼容。

應用的技術

reAR 框架不需要對現有視覺 AR 模型的任何核心組件進行修改，包括：

無需改變分詞器（Tokenizer）

無需改變生成順序（Generation Order）

無需改變推理流水線（Inference Pipeline）

無需引入外部模型（External Models）

其核心技術在于：

解碼器專用 Transformer：保持了 AR 模型原有的基于 Transformer 的架構，用于下一個 Token 預測。

Token 級別的正則化目標：在傳統的下一個 Token 預測損失之外，額外引入了對當前 Token 視覺嵌入恢復和下一個 Token 嵌入預測的正則化任務。

線性退火調度（Linear Annealing Schedule）：用于控制噪聲上下文正則化中噪聲水平的逐漸變化，以確保訓練穩定性和模型暴露于不同噪聲程度。

**多層感知機 (MLP)**：用于將 Transformer 的隱藏特征投影到目標視覺嵌入空間，以便進行嵌入正則化。

余弦距離（Cosine Distance）：作為衡量生成器特征與分詞器嵌入之間距離的度量。

達到的效果

reAR 取得了顯著的性能提升，且具有優秀的泛化能力和效率：

顯著提升圖像生成質量：在 ImageNet 數據集上，使用標準光柵化分詞器，gFID 從 3.02 降低到 1.86，IS 提高到 316.9。在相同的模型大小和訓練預算下，reAR 甚至超越了傳統的 MAR、VAR 和 SiT 等替代范式。

對不同分詞器的泛化能力強：即使與 TiTok (雙向) 和 AliTok (單向) 等非標準分詞器結合，reAR 也能持續提高性能（例如，TiTok 上 FID 從 4.45 提升到 4.01，AliTok 上 FID 從 1.50 提升到 1.42）。

匹配最先進擴散模型的性能，同時參數量更少：結合高級分詞器 AliTok，reAR 以僅 177M 參數實現了 1.42 的 gFID，這與需要 675M 參數的更大規模、最先進的擴散模型 REPA 的性能相匹配。reAR-S 使用 14% 的參數量（201M vs. 1.4B）優于 LlamaGen-XL，并在大小僅為 WeTok 的 13-15% 的情況下超越了它。

良好的縮放行為：隨著模型規模和訓練迭代次數的增加，reAR 的 FID 持續下降，顯示出其在大規模視覺 AR 模型中的潛力。

更快的采樣速度：與其他自回歸模型一樣，reAR 受益于 KV-cache，實現了比擴散模型和 MAR 更高的采樣速度。reAR-B-AliTok 甚至比 Maskbit 等并行解碼方法能以更快的速度達到更低的 FID。

更高的泛化能力和魯棒性：reAR 縮小了訓練數據和未見數據之間的性能差距，并在噪聲輸入下表現出更高的魯棒性，從而提高了泛化能力。

reAR: 視覺 AR 中的一致性正則化

與自然語言不同，不是視覺自回歸生成中的最終生成結果。因此，生成器和解碼器之間的不一致性可能導致不令人滿意的結果，即使自回歸模型訓練良好。例如，當采樣分詞器訓練數據集中未見或稀有的序列時，序列可能無法被解碼器 D 正確解碼并影響最終生成結果。本文假設分詞器和生成器之間的不一致性是性能的主要障礙。一個有前景的解決方案是訓練 AR 模型，使其能夠生成對分詞器友好的 token 序列。

為了驗證本文的假設，研究并定量分析了現有視覺自回歸模型如何受到不一致性的影響。基于這些觀察，提出了 reAR：正則化視覺自回歸生成中的 token 級別一致性，這是一種為視覺自回歸模型設計的即插即用正則化訓練方法。總之，reAR 將從離散分詞器中查找的視覺嵌入引入到噪聲上下文下生成器的隱藏特征中。盡管其很簡單，但 reAR 允許自回歸模型利用與分詞器兼容的視覺信號，并顯著減少不一致行為。

理解視覺自回歸生成的瓶頸

自回歸模型的性能可以通過生成 token 與真實序列的正確 token 比率 (CTR) 來評估，其中。雖然 CTR 被廣泛用于指示性能，但 token 序列只是視覺自回歸生成中的中間表示，最終輸出實際上是解碼圖像。為了評估端到端質量，本文轉而測量兩個 token 序列解碼圖像之間的 LPIPS。本文認為訓練和推理之間的不一致性可以從 CTR 和 LPIPS 之間的不一致性中觀察到。在下文中，兩個受控實驗表明，具有相似 CTR 的生成 token 序列可以導致不同質量的圖像。這種不一致性也通過 AR 模型的其他指標（例如困惑度）反映出來，詳情見附錄B。

放大的暴露偏差。暴露偏差是序列模型中一個眾所周知的問題：在教師強制訓練期間，模型在給定真實上下文的情況下預測下一個 token，而在推理時它必須以自己的預測為條件，這可能包含錯誤。在視覺自回歸生成中，本文假設視覺分詞器會放大這種效應，因為暴露偏差會導致更多未見 token 序列并在像素空間中傳播結構錯誤。為了驗證它，考慮一個從圖像解碼的 token 序列，其真實 token 比率。本文比較了兩種解碼協議：(1) 完美上下文（前置）。將前個 token 固定為真實值，即，并讓 AR 模型生成其余部分。這在給定的情況下最小化了暴露偏差，因為上下文在步驟之前保持干凈。(2) 不完美上下文（均勻交錯）。均勻隨機采樣一個掩碼，其中。在第步解碼期間，如果，則使用真實 token ，否則從 AR 模型中采樣 token。這引入了上下文的早期污染，從而增加了暴露偏差，與具有相似 CTR 的完美上下文相比。

由于兩種協議都將真實 token 的數量固定為，因此下游質量的任何差異都反映了對暴露偏差的敏感性，而不是 token 級別的準確性。結果顯示在圖 3(a) 中。對于可比較的 CTR，不完美上下文始終比完美上下文產生更高的 LPIPS。從定性上看，不完美上下文導致圖像與原始圖像顯著偏離，而完美上下文產生更好的預測，即狗的布局更相似。這突出表明緩解暴露偏差在視覺自回歸生成中至關重要。

嵌入無感知。在訓練期間，AR 模型僅針對 token 正確性進行優化，而分詞器解碼器在嵌入空間中操作。本文假設即使預測的 token 不正確，如果其嵌入與正確 token 的嵌入接近，解碼圖像仍可能保持高視覺質量。為了驗證這一點，本文引入了替換比率。給定真實序列，AR 模型通過教師強制預測。對于每個不正確的預測 ()，本文以的概率將其替換為另一個不正確的 token ，其嵌入在余弦相似度下最接近正確嵌入，即。此替換不會改變 CTR。

圖 3(b) 顯示了結果。隨著的增加，平均嵌入相似度提高，LPIPS 顯著下降。從定性上看，如圖 3(b) 右側所示，這種在不改變 CTR 的情況下進行的替換可以產生更忠實于真實值的解碼圖像（例如，更清晰地預測襯衫和人腿）。這表明將分詞器嵌入融入 AR 模型的訓練中可能會提高它們之間的一致性。

增加生成器-分詞器不一致性的直接方法是在 AR 模型的嵌入層或預測頭中重用分詞器的碼本嵌入。然而，這種方法通常會導致次優性能，除非分詞器設計復雜。本文假設這種僵硬的集成并不理想：它可能會限制大型 AR 模型與小型分詞器的可擴展性，并且碼本嵌入本身可能不是下一個 token 預測這一主要任務的最佳表示。需要以較少約束的方式將嵌入引入模型。

生成器-分詞器一致性正則化

這些發現揭示了訓練-推理不一致性：僅最大化預測 token 索引的正確性不足以用于視覺 AR 模型。需要適當的歸納偏置來訓練生成器，使其生成的 token 序列在推理期間與分詞器更一致。

為了解決這種不一致性，reAR 在視覺 AR 模型的訓練期間引入了 token 級別一致性正則化。具體而言，解碼器專用 Transformer 被訓練以在噪聲上下文下執行下一個 token 預測，同時其隱藏表示通過淺層中正確當前 token 的視覺嵌入和深層中正確下一個 token 的嵌入進行正則化。這鼓勵 AR 模型像分詞器一樣解釋當前 token，同時提高對暴露偏差的魯棒性，然后預測與解碼器兼容的下一個 token 嵌入。

下面，本文將 AR 模型表示為，分詞器碼本表示為，訓練數據集表示為，離散 token 序列表示為。

噪聲上下文正則化。盡管計劃采樣等技術可以緩解暴露偏差，本文選擇了一種簡單的方法，保留了 Transformer 的并行訓練。具體而言，本文對輸入應用均勻噪聲，表示為。形式上：

其中是概率為的伯努利隨機變量，從碼本索引中均勻采樣。在實踐中，的選擇強烈影響訓練穩定性。為了確保 AR 模型暴露于具有不同噪聲水平的序列，本文對每個 token 序列采樣，其中表示歸一化的訓練進度。這里，是一個控制訓練期間最大噪聲水平的退火調度。然后訓練 AR 模型以基于噪聲上下文預測下一個正確 token。形式上：

經驗表明，與固定比率的噪聲增強相比，退火均勻噪聲增強可以穩定訓練。

碼本嵌入正則化。本文不直接應用碼本嵌入，而是提出添加一個正則化任務，即恢復當前嵌入并預測下一個嵌入。具體而言，本文應用一個可訓練的 MLP 層將隱藏特征投影到與視覺嵌入相同維度的目標空間。為簡化符號，本文使用表示淺層的特征，使用表示深層的特征。為了與解碼器專用 Transformer 的設計對齊，淺層的目標是預測當前 token 的嵌入，的目標是預測下一個 token。形式上：

其中是余弦距離，用于評估不同特征之間的距離，表示從第個當前 token 的特征到嵌入空間的映射，是從碼本中查找的當前 token 的嵌入，是下一個 token 的嵌入。在實現中，本文將正則化應用于 vanilla AR 中最初最接近分詞器嵌入的層（即用于編碼正則化的第 1 層和用于解碼正則化的第 15 層），以避免與下一個 token 預測這一主要任務發生潛在沖突。

生成器-分詞器一致性正則化。結合噪聲上下文正則化和碼本嵌入正則化，reAR 的目標是：

其中是正則化項的權重。請注意，本文也將噪聲 token 的隱藏特征與真實 token 的嵌入對齊，這進一步鼓勵自回歸模型以穩健的方式預測碼本嵌入。這種聯合效應對于提高視覺自回歸生成的性能至關重要。

實驗與分析

實驗設置

本文的實驗設置摘要如下：

數據集和評估。本文在 ImageNet-1K 256×256 分辨率上使用 ADM 協議評估 reAR。每個模型使用無分類器指導生成 50k 張圖像。本文報告 FID（越低越好）和 IS（越高越好），并通過 epoch 數和達到相同質量所需的參數量來比較訓練效率。基線涵蓋擴散模型、掩碼生成（連續和離散）、VAR、隨機順序 AR、高級分詞器 AR 和標準光柵 AR（參見表 1）。

模型配置。本文使用 MaskGIT VQGAN(rFID= 1.97) 作為分詞器和 DiT 風格AR 主干。本文報告了 reAR-S/B/L，分別具有 20/24/24 個因果 Transformer 層和 768/768/1024 的隱藏大小。為了評估 reAR 的泛化能力，本文還將其與 TiTok和 AliTok結合使用，并采用其原始設置。

訓練。所有模型都在 8 個 A800 GPU 上訓練 400 個 epoch（批量大小 2048），使用 AdamW 、梯度裁剪（范數= 1）和累積。學習率在前 100 個 epoch 預熱到，然后衰減到，持續剩余 300 個 epoch。類別標簽以 0.1 的概率丟棄，以便在推理時實現無分類器指導。

reAR 實現。本文對退火噪聲增強應用線性調度。嵌入正則化使用一個 2 層 MLP（隱藏大小 2048，權重）實現：淺層在處正則化當前嵌入，而深層在整個 Transformer 的深度處正則化解碼特征（reAR-S/B/L 分別為）。

主要結果

生成質量。如表 1 所示，即使使用標準光柵順序 AR 模型和簡單的二維 patch 分詞器，reAR 也取得了優異的結果。reAR-S 優于 LlamaGen-XL等先前的光柵 AR 模型（FID 2.00 vs. 2.34；IS 295.7 vs. 253.9），且僅使用 14% 的參數（201M vs. 1.4B），并超越了 WeTok等高級分詞器 AR 模型，其大小僅為后者的 13-15%。在相似的規模下，它與 RAR相當并優于 RandAR ，reAR-L 則超越了 MAR-L 和 VAR-d30。雖然擴散模型和掩碼生成模型仍然強大，但 reAR 以更少的訓練 epoch 縮小了差距。

泛化能力。本文還在非標準分詞器 TiTok和 AliTok上評估了 reAR。與主要幫助雙向分詞的 RAR不同，reAR 始終改進了雙向 (TiTok: 4.45 → 4.01) 和單向 (AliTok: 1.50 → 1.42) 分詞器的性能。值得注意的是，它接近基于擴散的 REPA并優于 Maskbit，同時使用更少的參數（177M vs. 675M/305M），具體數據如表 2 所示。

縮放效應。本文還研究了 reAR 是否能保持原始 AR 模型的縮放行為。具體而言，本文繪制了不同模型大小在不同訓練 epoch 下的 FID。如圖 4 所示，隨著模型大小和訓練迭代次數的增加，FID 持續下降，這揭示了 reAR 在大規模視覺 AR 模型上的潛力。

采樣速度。如同其他自回歸模型，reAR 受益于 KV-cache 以實現高采樣速度。本文在單個 A800 GPU 上測量了批量大小為 128 的吞吐量（如圖 5 所示）。通過 KV-cache，自回歸模型的運行速度比擴散模型和 MAR 快得多。此外，reAR-B-AliTok 即使與 Maskbit、TiTok、VAR 和 RandAR 等并行解碼方法相比，也能以更快的采樣速度實現更低的 FID。

消融研究

本文對 reAR 的關鍵組件進行了消融研究，重點關注編碼/解碼正則化的加權和層選擇，以及噪聲增強策略。

正則化層。本文使用訓練 80 個 epoch 且無分類器指導的 reAR-S 分析了嵌入正則化的最佳層（如表 3 所示）。本文對正則化的存在和位置進行了消融，并與樸素的綁定嵌入策略進行了比較。對于解碼正則化，早期層（例如，層 10）幾乎沒有益處，而層 15 表現最佳；應用更深層會略微降低性能。對于編碼正則化，第一層是最佳的，因為它與 token 嵌入對齊最佳，而更深層會損害生成質量。值得注意的是，將正則化應用于 vanilla AR 中最接近目標嵌入空間的層會產生最佳結果——在第 0 層編碼并在大約深度處解碼。本文假設這種放置最小化了對下一個 token 預測這一主要任務的干擾。基于這些發現，本文對 reAR-S 使用 EN@0 + DE@15，對 reAR-B/L 使用 EN@0 + DE@18。

正則化權重。如表 3 所示，正則化權重對生成質量的影響可以忽略不計，這可能是因為 AdamW 優化器對損失的規模不敏感。為簡單起見，本文使用。

噪聲增強。本文進一步消融了噪聲增強的設計，探索了兩種策略：(1) 為每個 token 序列分配不同的噪聲水平，以及 (2) 在訓練期間退火最大噪聲水平。結果如表 4 所示，基于帶有碼本嵌入正則化的默認設置（reAR-S 的 EN@0 + DE@15）。所有模型都訓練了 400 個 epoch 以評估不同調度的效果。本文發現，固定噪聲水平將 FID 從 2.12 提高到 2.08，而更高水平（）導致訓練崩潰（FID = 3.15）。將噪聲水平隨機化到 [0, 0.5] 范圍內進一步將 FID 提高到 2.05。結合退火調度，其中，產生了更強的結果（2.02 FID）。最后，使用截斷線性調度實現了 2.00 FID 的最佳性能。這些結果突出表明了適當退火噪聲增強的有效性。

一致性正則化的聯合效應。如表 4 所示，僅使用嵌入正則化（）產生了 2.12 的 FID，而僅使用噪聲增強產生了 2.18。相比之下，將兩者結合進一步提高了性能，將 reAR-S 的 FID 降低到 2.00。這表明噪聲上下文正則化和碼本嵌入正則化都很重要。

結論

本工作將視覺自回歸生成的關鍵瓶頸確定為生成器和分詞器之間的不匹配，即 AR 模型難以生成可以有效解碼回圖像的 token 序列。為了解決這個問題，提出reAR，一種簡單的正則化方法，它顯著提高了視覺 AR 性能，同時與分詞器設計無關。本文希望這項工作能夠鼓勵未來在視覺 AR 模型中統一生成器和分詞器，更廣泛地說，鼓勵開發統一的多模態模型。

參考文獻

[1] REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization

原文標題 : 視覺AR逆襲！177M效果媲美675M最新SOTA擴散模型，僅需一個“即插即用”的正則化reAR