NeurIPS`25 | 清華提出模型驅動的生成式探索機制MoGE，助力強化學習算法突破性能上限

2026-02-25 16:32

AI生成未來

關注

作者：Likun Wang等

解讀：AI生成未來

本文介紹清華大學李升波教授課題組（iDLab）在NeurIPS 2025發表的《Off-policy Reinforcement Learning with Model-based Exploration Augmentation》。

論文題目： Off-policy Reinforcement Learning with Model-based Exploration Augmentation

收錄會議： 39th Conference on Neural Information Processing Systems (NeurIPS 2025)

作者單位：清華大學車輛與運載學院、人工智能學院

亮點直擊

條件擴散生成器驅動的高探索潛力狀態采樣：采用條件擴散生成器采樣具有高探索潛力的關鍵狀態，并從理論上證明回放緩沖區中的狀態分布漸近收斂于最優策略的平穩占用測度，通過持續微調生成器確保其學習分布與最優策略占用測度共享共同支撐集，從而生成符合狀態空間約束的可行狀態。

一步想象世界模型的動態一致性保障：設計了一階段想象世界模型來模擬環境動態，通過監督學習實現高效預訓練，既支持訓練經驗構建，又為基于條件擴散的關鍵狀態生成器提供分類器設計基礎，確保生成樣本在動力學層面的一致性。

異策略強化學習訓練框架：提出與現有算法無縫集成的MoGE訓練框架，通過重要性采樣混合生成的關鍵遷移與回放緩沖區樣本，在保持算法原始結構不變的前提下增強探索能力。在OpenAI Gym和DeepMind Control Suite等標準連續控制基準上的實驗表明，MoGE作為探索增強框架能夠持續提升基線異策略強化學習算法的最終性能與樣本效率。

背景：探索與利用——智能體的“選擇困難癥”

在在線強化學習中，每個智能體都在做一個看似簡單、卻極其困難的選擇：

“是繼續走熟悉、安全的老路，還是去嘗試未知、可能更好的新路？”

這就是著名的“探索與利用”難題。如果總是重復已經學會的行為，智能體雖然穩定，卻可能永遠發現不了更優的方案；但如果一直盲目嘗試新動作，又會浪費大量時間，甚至頻繁犯錯。如何在“穩妥”和“冒險”之間找到平衡，是強化學習中最關鍵的問題之一。

探索與利用難題

目前，研究者主要通過兩種方式來幫助智能體“探索世界”：

主動探索：靠“試錯”來學習：主動探索傾向于讓智能體多去嘗試不同選擇。比如，在做決策時加入一點隨機性（SAC, DSAC等），讓智能體勇敢嘗試新動作。就像給機器人一點“好奇心”，鼓勵它多走幾條沒走過的路。這種方法簡單直接，但也有明顯限制：首先，智能體只能在“走過的地方附近”探索，其次，收到初始化的影響，智能體很難跳出原有軌跡，進入真正陌生的區域，這使得在復雜環境中，很多關鍵狀態根本探索不到。

被動探索：靠“復盤”和“補充資料”學習：被動探索通過整理和擴充學習材料來進步。研究者會讓智能體反復回看重要經歷，甚至用生成模型“模擬”新的經驗，放進學習庫里，“人工地”讓智能體學習關鍵的樣本。這種方法提高了學習效率，但問題在于：生成的內容大多來自模仿已有經驗回放池，很難真正拜托已有數據中行為策略的限制，就像刷題時只做同類型題目，很難真正的突破水平瓶頸。

如何讓智能體不只依賴真實經歷，而是學會“提前想象”哪些數據是真正重要的？就像人類會在行動前思考：“如果我走這條路，會不會更好？”

動機：從“被動回放”樣本到“主動生成”樣本

現有的被動探索方法往往局限于模仿現有的數據分布，無法跳出行為策略（Behavior Policy）的覆蓋范圍。另一方面，直接使用世界模型生成長軌跡容易因誤差累積導致動力學失效，產生不符合物理規律的“幻覺”樣本。針對上述痛點，清華大學李升波老師課題組首次提出了世界模型生成式探索（Modelic Generative Exploration, MoGE）框架。其核心在于：與其隨意生成整段數據，或重復模仿過去的經驗，不如選擇直接尋找那些智能體還沒去過、卻很重要的潛在關鍵狀態，并用世界模型保證它們真實可信，從而為學習提供更有效的訓練樣本，從而擺脫行為策略的束縛。

核心亮點：MoGE 框架詳解

MoGE框架

與其他框架不同，MoGE能夠在不修改策略提升的前提下為算法持續提供關鍵訓練樣本，能夠結合幾乎所有的異策略（Off-policy）RL 算法（如 SAC, TD3, DSAC）中，主要包含兩大核心組件：

1．關鍵狀態生成(Critical State Generation)

作為整體模型的重要組成部分，MoGE 不再像以往方法那樣直接生成完整的狀態轉移數據，而是引入了一種擴散模型的條件生成器，專門用于生成強化學習訓練中的“初始狀態”。與普通生成模型不同，該生成器并非盲目地模仿已有的數據，而是在人工設計的探索效用函數（Utility Function）引導下進行生成。該效用函數融入了人類先驗知識，用于刻畫哪些狀態更可能對策略學習產生關鍵作用。通過這種條件引導機制，擴散生成器能夠主動聚焦于高價值區域，從而生成真正具有探索意義的關鍵狀態，為智能體提供更高質量的訓練樣本。在MoGE中，為了普遍性出發，利用策略熵（Policy Entropy）和 TD 誤差作為引導信號，指導生成器在高維空間中搜索那些包含高信息量或高不確定性的“關鍵狀態” 。

2．一步想象世界模型 (One-step Imagination World Model)

為了確保生成的樣本符合環境真實的物理規律，MoGE 設計了一個確定性的一步想象世界模型，與狀態生成器共用一個隱空間，保證學習一致性和耦合性，該世界模型可以通過預訓練進行學習，保證局部轉移的準確性。

一步想象世界模型

這種“高價值初始狀態生成 + 一步轉移樣本構造”的機制，使得 MoGE 既具備了脫離經驗回訪池數據分布的探索廣度，又保持了物理動力學的嚴謹性。在MoGE框架下，不用修改策略函數和價值函數，就能實現探索的增強。

MoGE框架下的強化學習算法更新

實驗結果：MoGE助力經典強化學習算法，刷新連續控制任務新基準

實驗結果

為了驗證MoGE框架對強化學習算法的探索增強能力，我們用DSAC和TD3作為基礎方法在 OpenAI Gym 和 DeepMind Control Suite (DMC) 的 10 個高難度連續控制任務中進行了廣泛測試，相比于原有的算法，使用MoGE增強探索后的DSAC展現了卓越的樣本效率和最終性能，超越了現有的所有探索增強的方法。

DMC Suite 表現： MoGE 在高維任務中表現驚人。在 Humanoid-walk 任務中，MoGE 取得了 891.7 的高分，相比基線算法 DSAC (146.5) 提升了 508.6% 。在整個 DMC 基準測試中，MoGE 平均得分比 DSAC 高出 43.8% 。

OpenAI Gym 表現： MoGE 同樣刷新了多項記錄。在復雜的 Humanoid-v3 任務中，MoGE 達到了 12151.1 分，比 DSAC 提升了 16.8%，顯著優于傳統的 TD3 和 PER 等方法。

對比優勢：實驗結果表明，MoGE 作為探索增強框架，能夠穩定地提升隨機策略（DSAC）和確定性策略（TD3）算法的性能，且效果優于現有的被動探索方法（如 PGR, PER）。

總結與展望

MoGE 提出了一種增強強化學習探索的新框架。通過將擴散模型的強大生成能力與世界模型的動力學約束相結合，MoGE 有效解決了高維空間中“去哪探索”和“如何保證真實性”的難題。未來，MoGE 還可以進一步擴展到更多類型的算法中，或結合更具表達能力的生成模型，為具身智能（Embodied AI）和復雜機器人控制任務提供更強大的探索引擎。

原文標題 : NeurIPS`25 | 清華提出模型驅動的生成式探索機制MoGE，助力強化學習算法突破性能上限

NeurIPS`25 MoGE 樣本