訂閱
糾錯
加入自媒體

國產首個開源、系統化的多模態世界模型HY-World 2.0:效果硬剛閉源商業模型

2026-04-28 11:26
AI生成未來
關注

作者:騰訊混元團隊

解讀:AI生成未來

亮點直擊

HY-World 2.0,一個多模態世界模型框架,它將3D世界生成與重建無縫統一。

支持文本提示、單視圖圖像、多視圖圖像和視頻等多樣化輸入模態,生成高保真、可導航的3D高斯輻射場(3DGS)場景。

引入了一系列關鍵創新,包括 HY-Pano 2.0(全景生成)、WorldNav(軌跡規劃)、WorldStereo 2.0(世界擴展)和 WorldMirror 2.0(世界構成及重建),以提升全景保真度、實現3D場景理解和規劃、并增強視圖生成及預測能力。

推出了 WorldLens,一個高性能的3DGS渲染平臺,支持交互式探索和角色支持。

在開源方法中取得了最先進的性能,與閉源模型 Marble 相比也具有競爭力,并發布了所有模型權重、代碼和技術細節以促進可復現性。HY-World 2.0的多功能應用

HY-World 2.0的多功能應用

總結速覽

解決的問題

當前3D世界建模領域普遍存在生成與重建任務的二元分離,現有解決方案通常專注于其中一個領域,導致生成方法難以保持嚴格的重建精度,而重建方法缺乏生成能力以幻化未見區域。

缺乏一個全面的、多模態的開源基礎世界模型來彌合生成與重建之間的鴻溝。

現有 HY-World 1.0 版本在全景保真度、3D場景理解和規劃以及視圖生成一致性方面存在局限。

提出的方案

引入了 HY-World 2.0,首個開源、系統化的多模態世界模型,通過統一的離線3D世界模型范式,無縫整合了“生成”和“重建”兩大功能。

該框架能夠適應文本、單視圖圖像、多視圖圖像和視頻等多種輸入模態,并根據可用條件動態調整其行為。

設計了一個新穎的四階段pipeline來驅動世界生成,并升級了前饋3D重建組件以支持世界重建。

應用的技術

核心建模: 3D高斯輻射場(3DGS)用于場景表示和渲染。

全景生成: HY-Pano 2.0,采用多模態擴散 Transformer (MMDiT) 和循環填充與像素混合策略。

軌跡規劃: WorldNav,基于 NavMesh、Dijkstra 算法以及五種啟發式軌跡模式(常規、環繞、重建感知、漫游、空中)。

世界擴展: WorldStereo 2.0,采用 Keyframe-VAE 和相機引導視頻擴散模型 (VDMs),并結合全局幾何記憶 (GGM) 和空間立體記憶 (SSM++) 機制,通過分布匹配蒸餾 (DMD) 進行加速。

世界重建: WorldMirror 2.0,采用統一的前饋Transformer骨干網絡和任務特定的 DPT 解碼器頭,引入了歸一化位置編碼、深度到法線的損失、深度掩碼預測頭、序列并行、BF16混合精度和FSDP等優化策略。

場景優化與網格提取: 基于截斷符號距離函數 (TSDF) 體和行進立方體算法提取網格。

達到的效果

在多個基準測試中,HY-World 2.0 的性能超越了現有開源方法,并與閉源模型 Marble 的結果相媲美。

生成了高保真、可導航的3D高斯輻射場場景,其視覺質量、幾何一致性和探索能力顯著提升。

實現了從文本、單視圖圖像、多視圖圖像和視頻等多樣化輸入生成和重建3D世界的能力。

WorldNav 軌跡規劃顯著提升了場景完整性和細節覆蓋。

WorldStereo 2.0 顯著提高了相機控制精度和多軌跡一致性。

WorldMirror 2.0 在點圖重建、相機姿態、深度和法線估計以及新視圖合成方面達到了最先進水平,并展現了出色的多分辨率泛化能力和推理效率。

生成的3D世界支持實時碰撞檢測和物理反饋,為游戲、虛擬現實和具身人工智能等下游應用奠定了基礎。

項目代碼、模型權重和技術細節已全部開源,促進了研究的可復現性。

架構方法

在如下圖2所示的HY-World 2.0總覽中,將其多模態世界模型介紹為一個四階段pipeline,模擬了理解、合成和重建世界的過程。具體而言,該pipeline始于全景生成,將任意文本或圖像輸入轉換為高保真的360°世界初始化。隨后,進行精細的軌跡規劃,以解析和理解初始化的世界,并推導出最優且信息豐富的觀察路徑。沿著這些規劃的路線,生成性的世界擴展利用記憶更新機制,確保在生成的關鍵幀中實現精確的相機控制和多視圖一致性。最后,通過將這些生成的序列輸入到WorldMirror 2.0進行魯棒的3D重建,并輔以量身定制的3DGS優化,從而實現沉浸式3D世界的世界構成。

世界生成階段一:全景生成

全景圖能從一個固定視點捕捉完整的360° × 180°視場角(FoV),提供整個場景的全面且信息豐富的表示。與僅提供有限物理世界視圖的標準透視圖像不同,360°全景圖保留了全局空間上下文和復雜的語義關系。因此,這種整體表示正日益被認為是大規模3D世界生成的基礎,為連貫的視點合成和沉浸式虛擬探索提供了必要的空間一致性。

在本階段,本文提出了HY-Pano 2.0,旨在從多模態條件(包括文本和單視圖圖像)合成高保真全景圖。為實現這一目標,本文從兩個正交維度優化了生成pipeline:(1)實施了一個先進的數據策展pipeline;(2)引入了一個專用的360°生成模型,該模型以無幾何方式隱式學習透視輸入與全景目標之間的空間映射。

為了構建高保真全景合成的堅實基礎,本文的數據策展pipeline在HY-World 1.0的既定框架上進行了擴展,同時顯著增加了訓練數據的豐富性和多樣性。具體而言,本文升級后的數據集整合了兩個主要數據源:(1)真實世界捕捉:包含了大量的、高分辨率的真實世界全景圖,以使模型具備真實的照明、復雜的紋理和自然的結構先驗。(2)合成資產:利用了通過虛幻引擎(UE)等高端引擎渲染的大規模合成環境數據集。這些資產提供了精確的幾何標簽和多樣化、富有想象力的場景配置,這些在野外很難獲得。為確保數據完整性,本文實施了嚴格的數據過濾階段,以消除低質量樣本,特別是那些表現出明顯拼接偽影或暴露了捕捉設備(例如全景相機)的樣本。這種混合數據策略有效拓寬了數據集的語義分布,并緩解了合成與真實世界分布之間的領域差距,使模型能夠在復雜的室內和室外環境中穩健泛化。

為實現從透視輸入到高保真全景圖的合成,本文超越了依賴顯式幾何扭曲的傳統方法,這是HY-World 1.0中曾采用的范式。傳統的pipeline通常需要精確的相機內參(例如焦距和視場角)來執行透視與等距柱狀投影(ERP)域之間的空間對齊。然而,此類元數據在真實世界場景中往往不可用或不準確。這個瓶頸固有地限制了HY-World 1.0框架的靈活性,并經常導致明顯的投影畸變。為解決此問題,本文采用了一種由多模態擴散 Transformer (MMDiT) 驅動的隱式、自適應映射策略,如下圖3所示。MMDiT不依賴顯式相機先驗,而是在統一的潛在空間中處理條件輸入和全景目標。通過將條件圖像潛在與全景噪聲潛在拼接成一個統一的 token 序列,MMDiT 利用其自注意力機制自主學習底層的透視到ERP轉換。這種純數據驅動的方法使網絡能夠直接在特征空間內建立空間對應關系,使其能夠靈活地幻化缺失的環境細節并保持全局結構一致性,即使在未校準和多樣化的輸入圖像下也能實現。

ERP生成中的一個常見挑戰是左右邊緣的不連續性。為消除這些邊界偽影,本文引入了一種結合了循環填充和像素混合的精修策略,如上圖3右側所示。在潛在層面,本文對潛在特征應用循環填充,在去噪過程中強制執行周期性邊界條件。填充后的潛在被解碼到像素空間,其中沿等距柱狀邊緣采用線性像素混合策略。這種組合協調有效平滑了360°環繞過渡,確保了完美無縫且結構連貫的全景輸出。

世界生成階段二:軌跡規劃

任務描述。 在高保真全景圖(第3節)合成之后,接下來的目標是推導探索軌跡,以最大化可導航空間的覆蓋范圍。為將其與即將到來的世界擴展階段連接起來,本文引入了WorldNav,一個全面的軌跡規劃策略。WorldNav不僅生成多樣化的相機路徑以確保廣泛的視點覆蓋,還將其與精確的文本指令配對,從而為下游生成過程提供明確指導。

給定全景網格、NavMesh和3D語義地標,本文為WorldNav設計了五種啟發式軌跡模式。這些軌跡從全景圖的中心開始,旨在全面覆蓋多樣化的視點,同時確保無碰撞移動,如如下圖5所示。

常規軌跡。 本文采用常規軌跡來普遍擴展全景空間固定原點之外的視覺覆蓋范圍,如上圖5(a)所示。

環繞軌跡。 為方便場景生成過程中前景的視覺質量,本文設計了環繞最顯著物體的軌跡,如如下圖5(b)所示。

重建感知軌跡。 為彌補后續3D重建的空白,本文引入了迭代重建感知軌跡,專門針對觀察不足的區域,如上圖5(c)所示。

漫游軌跡。 為最大化場景覆蓋并觸及場景的環境邊界,本文提出了漫游軌跡,如上圖5(d)所示。

空中軌跡。 最后,本文引入輔助空中軌跡以消除剩余的盲視點,如上圖5(e)所示。

WorldNav的軌跡詳細信息如如下表1所示。

世界生成階段三:世界擴展

任務描述。 在高質量全景圖和廣覆蓋相機軌跡的基礎上,本文提出了WorldStereo 2.0。作為WorldStereo 1.0 [62] 的升級版,它利用相機引導的視頻生成來合成大量新穎視圖,以實現世界擴展。如下圖6所示,訓練過程包含三個階段,分別旨在實現相機控制、基于記憶的一致性和高效推理。

WorldStereo 2.0 概述。 WorldStereo 2.0 通過在關鍵幀潛在空間中,利用幾何感知的記憶,實現一致的多軌跡視頻生成,從而連接了相機條件視頻擴散模型 (VDMs) 和3D場景重建,如如下表2所示并如下圖7所示。具體而言,本文首先重新審視了標準 Video-VAE 的局限性,其時空壓縮常常導致偽影,從而降低下游重建質量——取而代之的是,本文在關鍵幀潛在空間中構建了 WorldStereo 2.0,并通過精確的相機控制來保留高頻細節。這通過一種新穎的 Keyframe-VAE 實現,如如下圖9所示。

顯式相機控制。 遵循 [8, 62],WorldStereo 2.0 基于預訓練的視頻 DiT 構建,并集成了從頭開始訓練的輕量級基于 Transformer 的相機適配器,如上圖7(b)所示。形式上,WorldStereo 2.0 融合了相機 Plücker 射線和點云作為互補的相機引導,以實現后續3D重建的顯式和精確相機控制。在域適應階段,本文僅使用從參考視圖  提取的點云 (N ≤ HW,經過浮點過濾后),而不是全景點云。本文將其扭曲到每個目標視圖以獲得 ,表示為:

其中  和  分別表示目標視圖  的相機到世界坐標系矩陣和內參矩陣; 是在像素  處對參考視圖估計的單目深度,而  是齊次像素坐標。

中間訓練:記憶機制。全局幾何記憶 (GGM) 將擴展點云渲染成視頻,作為全局3D先驗,以生成多個一致的視頻,如如下圖7(b)所示。特別是在全景場景中,GGM 允許 WorldStereo 2.0 內化360°環境結構,顯著提高幾何一致性。本文使用通過擴展的全局點云  渲染的視頻來微調 WorldStereo 2.0,該點云超出了參考點 ,表示為:

其中  表示從  個新視圖中隨機采樣的附加點云,如下圖10(a)所示。

改進的空間立體記憶 (SSM++)。 在 WorldStereo 2.0 中,本文通過 SSM++ 改進了此設計,保留了水平檢索拼接的核心概念,同時引入了顯著改進。首先,本文摒棄了 WorldStereo 中使用的獨立記憶分支,而是將檢索到的關鍵幀直接整合到主 DiT 分支中(如上圖7a所示)。其次,如下圖11所示,本文修改了旋轉位置嵌入 (RoPE)以適應這種集成。每個目標視圖都與其檢索到的對應視圖水平拼接,共享相同的時間索引。最后,為了增強靈活性,本文將 WorldStereo 的顯式點圖引導替換為隱式相機嵌入。形式上,本文將所有輸入相機姿態歸一化為統一的世界坐標,并將其表示為7維向量(四元數和平移)。然后這些向量由一個3層 MLP 編碼為相機 token,通過零初始化添加到目標和檢索到的關鍵幀特征中,以提供幾何感知。

記憶庫和檢索策略。 在中間訓練階段,本文采用了不同的檢索策略來適應不同的數據特性,如上圖10(b)所示。本文采用時間錯位檢索來處理現有的多視圖數據。此外,本文使用 UE 構建了一個合成數據集,其中每個資產具有多個軌跡。對于這個合成數據,本文采用多軌跡檢索,根據3D視場角相似性從替代軌跡中選擇最相關的幀。

記憶增強。 為了減輕由于不完善的點云和檢索生成而可能產生的誤差累積,本文在中間訓練階段采用了全面的數據增強來提高記憶組件的魯棒性。

后期訓練:模型蒸餾。 在后期蒸餾階段,本文應用修改后的分布匹配蒸餾 (DMD)來加速 WorldStereo 2.0 的推理。DMD 擴展了變分分數蒸餾 (VSD)的思想,通過從凍結的真實分數函數  和可訓練的偽分數函數  之間的差異構建的近似 Kullback-Liebler (KL) 散度來蒸餾少步驟擴散學生 。DMD 的更新梯度可以寫為:

其中  表示給定隨機高斯噪聲  和  的學生生成,而  表示前向擴散過程。

世界重建:WorldMirror 2.0

在詳細介紹最終的世界構成階段之前,本文首先介紹了升級后的前饋3D重建模型 WorldMirror 2.0,它作為2D關鍵幀生成與3D世界構成之間的關鍵橋梁。世界生成旨在從稀疏輸入(例如單視圖圖像或文本)合成可探索的3D世界,而世界重建則側重于從密集的2D視覺觀測(即多視圖圖像或視頻)中恢復幾何精確的3D空間關系。在 HY-World 2.0 中,本文在 WorldMirror的基礎上構建了這種重建能力,它是一個用于全面3D幾何預測的統一前饋模型。本文解決了 WorldMirror 1.0 的三個關鍵局限性:(1)在非訓練分辨率下的性能下降,(2)由于缺乏顯式深度-法線耦合導致的深度幾何一致性有限,以及(3)擴展到大量視圖時內存和延遲過高。這些問題分別通過模型架構、訓練數據和監督以及訓練策略(第6.5節)的改進得以解決。如下圖12所示為整體模型架構,如下表3總結了 WorldMirror 1.0 和 WorldMirror 2.0 之間的主要區別。

回顧 WorldMirror 1.0。 WorldMirror是一個用于全面3D幾何預測的統一前饋模型(參見如上圖12)。其核心設計是“任意模態 token 化”,它將所有輸入模態,包括圖像、相機姿態、內參和深度圖,編碼為統一序列中的 token。

模型改進。 如上表3總結所示,本文在 WorldMirror 2.0 中引入了三項關鍵的模型級改進:用于靈活分辨率推理的歸一化位置編碼、通過深度到法線損失對深度進行顯式基于法線的監督,以及一個專用的深度掩碼預測頭,用于穩健處理無效像素。深度到法線損失  定義為:

其中  是預測的深度圖,而  和  分別是預測法線圖的 x 和 y 分量。深度掩碼預測頭輸出每個像素的有效性 logit ,并使用二元交叉熵損失進行訓練:

其中  表示地面真實有效性標簽, 是具有已知有效性的像素集合。

數據改進。 本文通過兩項關鍵的補充擴展了 WorldMirror 2.0 的訓練數據。首先,本文整合了來自虛幻引擎場景的高質量合成渲染,這些渲染提供了多樣化室內外環境中的像素級精確地面真實幾何。其次,本文對真實世界數據集采用了僅法線的偽標簽增強策略。

推理效率改進。 WorldMirror 2.0 引入了三種互補的加速策略,以實現可擴展的多 GPU 部署。首先,本文在兩個粒度上采用了序列并行:用于 Transformer 骨干網絡的 token 級并行以及用于 DPT 解碼器頭部的幀級并行。其次,遵循 VGGT-X [65],本文通過將大多數參數轉換為 BF16,同時將一小部分精度關鍵模塊保留在 FP32 中,應用了選擇性混合精度推理。第三,本文采用完全分片數據并行 (FSDP) 將模型參數分片到多個 GPU 上。

訓練策略改進。基于 token 的動態批量大小調整。 本文固定了每個 GPU 的最大 token 預算 (例如25,000個 token)。在每次迭代中,本文首先對每個圖像分辨率(可配置范圍內的像素數量,例如50K-500K)和寬高比進行采樣,然后計算每個圖像的 token 數量 。最大視圖數量然后推導為:

其中  是架構視圖計數上限。實際視圖計數從  中均勻采樣。當采樣的視圖計數小于  時,多個樣本被打包到同一個 GPU 以填充 token 預算,確保每個 GPU 的 token 計數嚴格受限:

其中  是一個 GPU 上的圖像總數。多階段課程學習。 在 WorldMirror 2.0 中,本文將幾何訓練進一步分解為兩個子階段,從而產生了一個三階段pipeline:階段1使用原生標注訓練所有幾何頭部;階段2引入深度到法線損失,同時顯著增加合成數據的比例;階段3凍結骨干網絡和所有幾何頭部,僅訓練從深度頭部權重初始化的3DGS頭部。

世界生成階段四:世界構成

任務描述。 本階段的輸入定義為一個元組,包含初始全景圖 (第3節)、其對應的全景點云 ,以及基于預定義軌跡 (第4節)由 WordExpand生成的所有  個新關鍵幀 。世界構成的目標是將這些輸入整合到一個統一的、可導航的3D表示中。這個過程包括兩個順序步驟:1)點云擴展:通過使用生成的關鍵幀擴展  來構建一個全局對齊的點云 。2)3D場景優化:訓練一個以擴展點云  初始化的3DGS,以合成完整的高保真3D世界。

通過 WorldMirror 2.0 進行重建。 本文首先從完全生成的  幀序列中下采樣一個  幀的子集。隨后,應用 WorldMirror 2.0 估算此子集的每幀深度圖和法線圖,并以其各自的相機姿態作為幾何先驗條件:

其中  表示 WorldMirror 2.0 網絡。

深度對齊。 本文提出了一種魯棒的對齊策略,利用全景點云  作為幾何指導,將 WorldMirror 深度  修正為對齊深度圖 。形式上,本文從  的視點渲染  以獲取稀疏引導深度 ,如下圖14所示。對齊過程被公式化為:

其中  表示視圖  的可靠性掩碼,指示應該強制執行對齊的有效重疊區域。本文將  定義為多個經驗掩碼的交集:

3D 場景優化。增長和稠密化。 本文將初始點云  分割為天空和場景子集,分別表示為  和 。標準增長策略僅應用于 ,從而在紋理豐富的區域實現必要的稠密化,同時嚴格防止天空產生浮點偽影。本文整合了 MaskGaussian。具體而言,對于第  個高斯點,通過 Gumbel-Softmax從可學習的掩碼 logits 中采樣一個二值掩碼 。然后將此掩碼通過掩碼渲染方案整合到基于瓦片的柵格化器中。對于給定像素 ,渲染顏色  和透射率演變  被重新公式化為:

其中  表示不透明度, 是按深度順序累積的第  個高斯點的透射率。為鼓勵稀疏性,平方損失對平均掩碼激活進行正則化:

優化與損失。 對于第  個訓練視圖,3DGS 渲染器生成一個 RGB 圖像  和一個深度圖 。對應的表面法線  通過  的歸一化空間梯度解析得出。光度目標定義為:

其中地面真實圖像  從全景圖和生成的關鍵幀分割的視圖并集中采樣。為了強制幾何一致性,本文引入了一個幾何損失:

其中  表示像素級余弦相似度。因此,總的3DGS訓練目標由以下公式給出:

網格提取。 為了支持下游應用,如碰撞檢測和物理模擬,本文進一步從優化的3DGS表示中提取網格。具體而言,本文從所有訓練視圖渲染RGB圖像和深度圖,并將其整合到截斷符號距離函數(TSDF)體中。最終網格通過行進立方體算法 [46] 提取。

實驗總結結果:多模態世界創建HY-Pano 2.0 的結果與分析

本文將HY-Pano 2.0的全景生成與文本到全景(T2P)和圖像到全景(I2P)任務中的幾種最先進方法進行了定性和定量比較。對于T2P,本文與DiT360、Matrix3D 和 HY-World 1.0 進行了比較。對于I2P,本文與CubeDiff、GenEx和 HY-World 1.0進行了比較。

定量結果。 如下表4展示了T2P和I2P任務的定量比較。使用多個互補指標評估生成的全景圖。CLIP-T (T2P) 和 CLIP-I (I2P) 分別衡量文本-圖像和圖像-圖像對齊。Q-Align根據與人類評分對齊的大型多模態模型提供感知質量(Qual)和美學(Aes)得分。如下表4所示,HY-Pano 2.0 在兩項任務的大多數指標上均取得了最佳分數。這些結果表明,與以往方法相比,HY-Pano 2.0 對輸入信號(文本提示或參考圖像)的遵循性更強,精細細節質量更高,美學得分也得到提升。

定性結果。 首先在如下圖16中展示了一些以圖像和文本輸入為條件生成的全景圖。然后,在如下圖17和如下圖18中分別展示了T2P和I2P的定性比較。與現有方法相比,HY-Pano 2.0 生成的全景圖具有更結構連貫的布局,在完整的360°視場角中表現出合理的空間排列和一致的幾何結構。值得注意的是,它生成了更精細的細節,包括更銳利的紋理、更清晰的物體邊界和更豐富的高頻內容,從而產生了更真實、更具視覺吸引力的全景圖。

WorldNav 的結果與分析

本文在如下圖19中進行了定性比較,以直觀地展示每個軌跡規劃組件的必要性。僅在全景視圖上訓練3DGS(如下圖19b)不可避免地會導致大量的幾何空洞和較差的渲染質量。通過順序整合來自不同軌跡的視圖,場景完整性逐步提高。從單視圖生成的3D重建點云結果如如下表5所示,該表評估了多種方法在Tanks-and-Temples和MipNeRF360數據集上的點云精度、召回率、F1-分數和AUC,其中WorldStereo 2.0及其DMD版本在大多數指標上表現優異。WorldNav 的軌跡細節如如下表1所示,該表概述了常規、環繞、重建感知、漫游和空中五種軌跡模式的最大數量及其特性。

WorldStereo 2.0 的結果與分析

相機控制能力的結果。 本文在如下表6中定量評估了WorldStereo 2.0的相機控制能力,同時在如下表7中進行了消融研究。這兩項評估均使用了從 [15] 中選取的100張具有挑戰性軌跡的域外圖像。WorldStereo 2.0 在所有相機指標上均以最低錯誤率優于所有基于視頻的競爭對手。此外,本文在如下圖8中提供了定性比較,進一步支持了這一結論,該圖展示了Keyframe-VAE在重建和新視圖生成方面比Video-VAE具有更好的外觀一致性和保真度。

記憶訓練和蒸餾的消融研究。 本文在如上表8中全面評估了記憶訓練和后期蒸餾。整合 GGM 和 SSM++(配置 A)顯著提高了光度質量和多軌跡一致性。最后,在應用 DMD 后期蒸餾(配置 G)后,模型不僅保持了可比的相機控制能力,甚至略微改善了光度和一致性指標。

世界構成的結果與分析

重建與對齊。 盡管前文證實了 WorldMirror 2.0 在已知相機姿態下點云擴展的有效性,但本文在如下圖20中進一步將整體構成pipeline與同時期的世界重建方法 video2world 進行了評估。為確保公平比較,兩種方法均在 WorldStereo 2.0 生成的300視圖圖像上進行評估。如如下圖20所示,盡管 video2world 通過特征匹配的迭代最近點(ICP)生成了令人印象深刻的點云,但該過程本質上難以并行化,導致每個場景的計算開銷高達約5小時。相比之下,本文的輕量級線性對齊充分利用了相機姿態先驗,在不到2分鐘內實現了可比的重建質量。

高斯輻射場。 本文對所提出的3DGSpipeline的每個組件在10個場景中進行了消融研究,并在20視圖驗證集上進行了評估(如下表9)。整合 MaskGaussian 解決了這一權衡問題:低頻區域中冗余的高斯點被剪枝,數量減少了73.7%(從5.254M減少到1.383M),而PSNR僅下降了-0.14 dB。

完整結果與 Marble 的比較

可探索和交互式世界。 如下圖21所示,HY-World 2.0 產生了全面的多模態3D資產,包括全景圖、用于3DGS初始化的對齊點云、高保真3DGS渲染以及提取的幾何網格。更重要的是,這些豐富的3D表示超越了靜態可視化,成為可探索和交互式3D世界的基礎環境(參見如下圖22),該圖展示了用戶在HY-World 2.0生成的3D世界中進行交互式探索,包括虛擬代理導航和實時碰撞檢測。

與最先進技術比較。 本文將方法與閉源商業世界模型 Marble進行了比較。比較在兩種設置下進行:使用相同的全景輸入(如下圖23)和使用相同的透視條件(如下圖24)。相比之下,本文的方法獲得了嚴格遵循所提供條件的高保真結果。此外,本文的生成在細節保留和新視圖的幾何一致性方面優于 Marble。

運行時分析。 在 NVIDIA H20 GPU 上評估了 HY-World 2.0 的整體運行時,如下表10所示,該表詳細列出了全景生成、軌跡規劃、世界擴展、重建與對齊以及3DGS等各個階段的時間開銷。通過整合系統化的效率優化,生成完整3D世界的端到端pipeline得到加速,僅需10分鐘。

從多視圖圖像或視頻重建世界

本文評估了 WorldMirror 2.0 作為獨立的重建基礎模型,在涵蓋點圖重建(如下表11)、相機姿態估計、深度估計、新視圖合成(如下表12)和表面法線估計(如下表13)的綜合基準上。所有任務均在三種推理分辨率下進行評估,即低(189×259)、中(378×518,WorldMirror 1.0 的默認設置)和高(756×1036),以驗證通過歸一化位置編碼實現的分辨率泛化能力。

WorldMirror 2.0 的結果與分析

點圖重建。 本文在場景級數據集(7-Scenes, NRGBD)和對象級數據集(DTU)上評估了點圖重建,遵循 [69] 的相同序列映射。如如下表11所示,WorldMirror 1.0 在中等分辨率下已超越所有基線。WorldMirror 2.0 在每個分辨率下均有進一步改進。整合幾何先驗帶來了額外的增益。

相機姿態、深度和新視圖合成。 在如上表12中,本文聯合報告了 RealEstate10K 上的相機姿態估計和深度估計,以及 RealEstate10K 和 DL3DV 上平均的新視圖合成。對于相機姿態,WorldMirror 2.0 在每個分辨率下都提高了 AUC@30 優于 WorldMirror 1.0。對于深度,WorldMirror 2.0 持續降低 AbsRel。對于新視圖合成,WorldMirror 2.0 在不同分辨率下保持了穩定的性能。

表面法線估計。 遵循 [3],本文在 ScanNet、NYUv2 和 iBims-1上評估了表面法線估計。如下表13所示,WorldMirror 2.0 在中等分辨率下在所有三個基準上都取得了最佳結果,超越了專用單任務方法。

定性結果。 本文在如下圖25和如下圖26中展示了 WorldMirror 1.0 和 2.0 之間的視覺比較。如下圖25所示,WorldMirror 2.0 生成了更銳利、幾何更連貫的表面法線,該圖直觀地展示了WorldMirror 2.0在表面法線和重建點云方面比WorldMirror 1.0具有更精細的結構細節和更高的一致性。如下圖26進一步檢查了多分辨率魯棒性,該圖顯示WorldMirror 1.0在高分辨率下出現嚴重的幾何退化,而WorldMirror 2.0在所有測試分辨率下都保持了穩定和連貫的重建。

推理時評估

幾何先驗注入。 WorldMirror 的一個顯著特點是其靈活整合幾何先驗的能力。本文在高分辨率下(如下圖27)比較了 WorldMirror 1.0 和 2.0 與先驗引導方法 Pow3R 和 MapAnything在不同先驗條件下的表現。WorldMirror 2.0 始終優于所有替代方案,在相機條件和所有先驗設置下表現出最大改進。

推理效率。 本文對前文中引入的 WorldMirror 2.0 推理效率優化進行了基準測試。如下表14報告了在 NVIDIA H20 GPU 上,518×378 分辨率下不同視圖數量的每 GPU 內存消耗(GB)和掛鐘推理時間(秒)。SP、BF16 和 FSDP 在4個 GPU 上的完整組合實現了最佳的權衡。

總結

HY-World 2.0,這是一個全面的多模態世界模型框架,彌合了3D世界生成與重建之間長期存在的鴻溝。通過動態適應多樣化的輸入模態——從稀疏文本和單幅圖像到密集的S多視圖視頻——本文的框架為離線3D世界建模建立了統一的范式。為實現這一目標,本文引入了一個四階段pipeline。本文升級了全景生成(HY-Pano 2.0)以實現高保真世界初始化,并設計了語義感知的軌跡規劃(WorldNav)以指導場景探索的最佳、無碰撞路線。此外,本文通過在具有空間一致性記憶的關鍵幀潛在空間中操作,顯著升級了生成性世界擴展(WorldStereo 2.0)。最后,通過增強的3D重建基礎(WorldMirror 2.0)進行世界構成,以生成幾何精確且可導航的3DGS資產。本文還提出了一個高性能的3DGS渲染平臺(WorldLens),以實現3D世界的交互式探索,并支持角色和光照控制。廣泛的評估表明,HY-World 2.0 在開源方法中取得了最先進的性能,其視覺質量、幾何一致性和探索能力與領先的閉源商業模型極具競爭力。

參考文獻

[1] HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

       原文標題 : 國產首個開源、系統化的多模態世界模型HY-World 2.0:效果硬剛閉源商業模型

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號