訂閱
糾錯
加入自媒體

告別時空崩壞,生成式游戲迎來“穩態”時刻!南大等StableWorld:打造無限續航虛擬世界

2026-01-26 16:22
AI生成未來
關注

作者:Ying Yang等

解讀:AI生成未來

亮點直擊

識別了長時交互式世界建模中不穩定性的根本原因:同一場景內的微小漂移會不斷累積,最終導致整體場景崩潰。

一種簡單而有效的方法 StableWorld,通過一種動態幀剔除機制(dynamic frame eviction),從源頭上有效防止誤差累積,同時保持運動的連續性。

在多種交互式世界模型上驗證了該方法的有效性,包括 Matrix-Game 2.0、Open Oasis 以及 Hunyuan-GameCraft 1.0,并覆蓋了多種場景條件(靜態場景、小/大幅運動以及顯著視角變化)。大量實驗結果表明,該方法在穩定性、長期一致性以及跨交互場景的泛化能力方面均取得了持續而顯著的提升。

圖 1.StableWorld:在自然景觀和游戲世界等不同環境中生成穩定且視覺一致的交互式視頻,同時保持連續運動控制并防止長期場景漂移圖 1.StableWorld:在自然景觀和游戲世界等不同環境中生成穩定且視覺一致的交互式視頻,同時保持連續運動控制并防止長期場景漂移

總結速覽

解決的問題

當前交互式視頻生成模型(如世界模型)在生成長時間序列時,存在嚴重的穩定性不足與時間不一致性問題,表現為空間漂移和場景崩塌。

即使在沒有交互或靜態場景下,模型也會因誤差累積導致生成幀逐漸偏離初始狀態,破壞時間一致性。

提出的方案

提出 StableWorld 框架,其核心是 動態幀淘汰機制。

在滑動窗口生成過程中,動態評估并保留幾何一致性的關鍵幀(尤其是早期較“干凈”的幀),淘汰退化或冗余的中間幀,從而從源頭抑制誤差累積。

應用的技術

使用 ORB + RANSAC 算法計算視角重疊度,以評估幀間幾何一致性。

采用 KV-cache 窗口擴展 分析作為技術依據,驗證引入更早、更干凈的參考幀能有效穩定生成。

通過 幀間均方誤差(MSE) 量化漂移積累,用于現象分析與驗證。

達到的效果

顯著提升穩定性與時間一致性:有效緩解長序列生成中的場景崩塌和空間漂移問題。

模型無關性:在多個交互式視頻生成框架(如 Matrix-Game, Open-Oasis, Hunyuan-GameCraft)上均驗證有效,具備良好泛化能力。

保持適應性:在抑制累積誤差的同時,不影響模型對大幅運動和場景轉換的響應能力。

方法

預備知識

視頻生成模型。視頻生成模型通常采用全序列生成方法,即在給定條件  下一次性從噪聲生成所有幀。形式上,生成過程可以定義為:

其中  表示第  幀在第  個去噪步的狀態,,  為生成的總幀數。在每個時間步 ,所有幀共享相同的噪聲方差  ,遵循統一的噪聲調度。盡管這種方法能獲得高質量的結果,但單次前向傳遞對整個序列建模會產生高昂的計算成本,并不適用于實時交互場景。

交互式視頻生成。與全序列模型不同,交互式視頻生成采用自回歸范式,每一幀  的生成都以部分歷史幀和當前動作  為條件。這種條件生成表示為 ,其中  表示保存在記憶緩沖區中的選定參考幀, 代表在第  步用戶發出或代理驅動的動作。這種范式允許模型根據用戶動作按順序生成幀,從而實現實時交互和動態場景控制。

大多數近期的方法進一步結合了擴散和自回歸范式:擴散模型用于幀內去噪,而自回歸用于捕捉幀間的時間依賴性。形式上,整體生成過程可以表示為:

其中  表示擴散時間步  下的第  幀。在每個擴散步 ,模型以先前生成的幀  和當前動作  為條件,將  去噪為 。該公式融合了每幀內的空間去噪和跨幀的時間依賴性,實現了高質量且實時的交互式視頻生成。

場景崩塌的原因

盡管交互式視頻生成模型可以產生連貫的短期序列,但在長時間生成過程中,它們仍傾向于出現漸進式的場景崩塌,特別是當場景在很長一段時間內保持高度相似時(如下圖2 所示)。相比之下,當場景頻繁切換、模型不斷遇到新的視覺條件時,這種崩塌很少發生(如下圖6 所示)。這種對比表明,崩塌在很大程度上并非由動作控制或運動復雜性引起,而是與視覺信息如何在同一場景隨時間推移的保存和傳播有關。

為了理解這一行為,本工作測量了幀間均方誤差(MSE)距離,以量化幀差異如何在單個靜態場景的序列推進中變化,如下圖3所示。左側兩圖展示了在潛在空間中不同間隔(1, 5, 10, 20)下的幀間漂移。觀察發現,雖然相鄰幀僅表現出微小的差異,但這些小漂移隨著序列的延長逐漸累積。在較大間隔(如 10 或 20)上比較的幀顯示出顯著更大的漂移。由于這種偏差已存在于潛在空間中,像素空間也表現出類似的漂移模式(如右側兩圖所示),最終表現為視覺不一致和場景崩塌(上圖2)。這些觀察表明,同一場景內的漂移隨時間累積并傳播,最終導致全局場景崩塌。

基于這一觀察,本工作假設使用累積漂移較小的幀作為參考,可以為后續幀的生成提供更可靠的基礎。為了驗證這一假設,本工作擴大了 KV-cache 的窗口大小,允許模型訪問更清晰的幀,如下圖4所示。檢查了在不同歷史窗口大小下,每個目標幀與第一幀之間的頻率幅度差異如何變化。在默認設置下(窗口大小=9,圖 (a)),所有頻段都出現了巨大的波動。隨著窗口大小增加到 36(圖 (b))和 90(圖 (c)),整體波動減緩,表明誤差累積部分減少。然而,這種改進是以更高的計算開銷和更慢的生成速度為代價的,這限制了其實用性。

進一步的分析表明,從較大窗口觀察到的穩定性主要源于在參考緩沖區中保留了若干清晰的早期幀。例如,在圖 (d) 中,在固定大小的窗口內保留少量可靠的早期幀會導致顯著更穩定的生成,后期幀相對于第一幀表現出極小的漂移。這一發現強調了早期清晰幀的質量和保存對于緩解累積誤差起著至關重要的作用。然而,當發生大幅度運動或劇烈的場景轉換時,始終保留初始幀會變得具有局限性。如下圖7 所示,盡管兩種設置遵循相同的動作指令,但嚴格保留早期幀的設置無法切換到新場景,這表明過度的保留阻礙了場景轉換。為了同時緩解累積漂移并保持生成新場景的靈活性,引入了 StableWorld,這是一個基于動態幀剔除機制(見下圖5)的簡單而有效的框架。

基于 ORB 幾何相似度的動態幀剔除

為了確定是否發生場景轉換,本工作采用 ORB 特征匹配結合基于 RANSAC 的幾何驗證來測量幀間相似度。當推理階段沒有顯式的相機外參時,ORB 提供了一種替代方案,可以生成快速且旋轉不變的局部特征,使其非常適合檢測小幅相機運動下的幾何一致性。通過將這種相似度估計與動態幀剔除策略相結合,本工作持續過濾掉退化的幀,同時保留幾何一致的幀,從而有效地防止跨動態場景的誤差累積。

當窗口需要滑動時,必須剔除一些幀。為簡單起見,假設每一幀對應一個 token,并且每次迭代生成一個 token。設  表示窗口內的潛在空間 token, 表示它們對應的像素空間幀,其中  是窗口大小。窗口中較早的幀定義為 ,其中 。這里, 被視為參考幀,而  被稱為中間幀。在每個更新步驟中,生成一個新幀,并相應地剔除一個舊幀。

本工作使用以下策略確定應剔除哪一幀。首先,通過從參考幀  和中間幀  中提取 ORB 特征來測量幾何相似度。設  和  分別表示從  和  提取的 ORB 描述符集,其中  和  是每幀中檢測到的特征數量。候選對應關系  通過描述符空間中的最近鄰匹配獲得,隨后進行 Lowe 比率測試:

其中  是用于過濾模糊匹配的比率測試閾值, 表示幸存的對應關系數量。

然后使用 RANSAC 結合單應性矩陣 (H) 和基礎矩陣 (F) 模型來驗證  中的匹配,以強制執行幾何一致性:

其中  和  分別表示在估計的單應性矩陣  和基礎矩陣  下評估的 Sampson 幾何誤差, 和  表示相應的內點對應集。 是用于內點確定的預定義容差,誤差越小表示幾何對齊越好。本工作計算內點比率:

其中  和  表示兩種模型下的內點對應數量。最終相似度分數定義為:

如果相似度分數  超過預定義閾值 ,則繼續對更遠的幀  進行檢查。一旦幾何相似度低于 ,過程停止。最后,如果所有中間幀都滿足閾值,則剔除最遠的幀 。否則,剔除第一次失敗之前的幀(例如 )。詳細過程和實現設置在附錄 A 中提供。

實驗

全面的實驗驗證了 StableWorld 在不同模型和場景下的有效性。

評估指標與設置

本工作在三個主要模型上進行了驗證:Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0。

數據集:涵蓋了自然場景、游戲場景以及包含小幅運動和大幅運動的多樣化視頻序列。

指標:

VBench-Long:用于評估視頻質量、美學質量、動態程度和時間一致性等多維度指標。

用戶研究 (User Study):邀請 20 位參與者對視頻質量、時間一致性和運動平滑度進行投票。

實現細節:對于不同的模型,設置了相應的 KV-cache 窗口大小和關鍵幀比較策略。ORB 相似度閾值統一設置為 0.75。

定量結果 (Quantitative Results)

VBench-Long 評分:如下表1所示,StableWorld 在所有三個模型上均顯著提升了圖像質量和美學質量。

在 Matrix-Game 2.0 上,美學質量提升了 14.61%。

在 Open-Oasis 上,圖像質量提升了 7.38%。

在 Hunyuan-GameCraft 1.0 上,美學質量提升了 9.06%。

雖然時間質量和物理理解指標變化不大(因為原版模型的崩塌往往導致靜態畫面,從而誤導了這些指標),但 StableWorld 在大多數指標上仍有一致提升,且計算延遲僅增加 1.00–1.02倍。

用戶研究:如下表2所示,StableWorld 在視頻質量、時間一致性和運動平滑度方面均獲得了絕大多數用戶的偏好(例如在 Open-Oasis 上,96.4% 的用戶認為 StableWorld 視頻質量更好)。

定性結果 (Qualitative Results)

下圖8展示了三個模型在加入 StableWorld 前后的對比。

結果顯示:

原版模型(Vanilla)在長序列生成中會出現嚴重的場景崩塌和漂移。

StableWorld 有效保持了場景的穩定性,減少了隨時間推移的漂移,同時保持了運動的連續性。

更多定性比較在附錄 C 中提供,證明了該方法在長序列(數千幀)和小/大運動場景下的魯棒性。

消融實驗

窗口大小 (Window Sizes):下圖9顯示,窗口過大(如 18 或 36)會引入舊場景的殘留偽影,干擾新場景生成;窗口適中(如 9)效果最佳。

相似度度量 (Similarity Metrics):圖10 和 圖11對比了 SSIM、余弦相似度和 ORB。

SSIM 對視角變化過于敏感,導致過早剔除清晰幀。

余弦相似度對空間變換不敏感,容易遺漏場景變化,導致舊幀殘留。

ORB 在兩者之間取得了最佳平衡。

ORB 相似度閾值:下圖12顯示,閾值設為 0.75 時效果最佳。過低會導致舊幀保留太久阻礙新場景生成,過高則導致清晰幀過早被剔除從而引入累積誤差。

結論

本文指出了當前交互式視頻生成模型面臨的一個普遍問題:場景崩塌。通過深入分析發現這種崩塌源于同一場景內相鄰幀之間發生的幀間漂移,這種漂移隨時間逐漸累積,最終導致與原始場景的巨大偏差。受此觀察啟發,本工作提出了一個簡單而有效的方法——StableWorld,這是一種動態幀剔除機制,能在保持運動一致性的同時顯著減少誤差累積。本工作在多個交互式視頻生成模型(包括 Matrix-Game 2.0、Open-Oasis 和 Hunyuan-GameCraft 1.0)上評估了該方法。大量實驗表明,本工作提出的方法大幅提高了長時生成的視覺質量,并顯示出與未來世界模型集成的巨大潛力。

參考文獻

[1] StableWorld: Towards Stable and Consistent Long Interactive Video Generatio

       原文標題 : 告別時空崩壞,生成式游戲迎來“穩態”時刻!南大等StableWorld:打造無限續航虛擬世界

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號