訂閱
糾錯
加入自媒體

多任務多模態全統一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA!

2025-12-12 14:45
AI生成未來
關注

作者:Jiehui Huang等

解讀:AI生成未來

亮點直擊

統一框架UnityVideo,一個統一的多模態、多任務視頻生成與理解框架。在基于DiT的架構中,實現了文本到視頻生成、可控視頻生成以及視頻模態估計(如深度、光流、骨骼等)的聯合學習。

雙向互促:通過聯合訓練,驗證了多模態學習不僅能實現任務的大一統,還能加速模型收斂,并增強模型對物理世界的理解能力(如物體折射、碰撞動力學)。

零樣本泛化:模型展現了強大的零樣本(Zero-shot)泛化能力,能夠處理訓練數據中未見過的物體和風格。

貢獻了大規模統一數據集 OpenUni(130萬對多模態樣本)和高質量評測基準 UniBench(包含Unreal Engine渲染的真值數據)。

解決的問題

單一模態的局限性:現有的視頻生成模型大多局限于單一模態(主要是 RGB),缺乏全面的世界理解能力(World-Awareness)。

物理常識的缺失:僅靠 RGB 視頻訓練,模型傾向于擬合分布而非進行物理推理,難以捕捉復雜的物理動態(如深度關系、運動規律)。

訓練范式的割裂:以往的研究通常將視頻生成、可控生成和模態估計作為獨立任務處理,或者僅進行單向交互,缺乏統一訓練帶來的協同效應。

提出的方案

全能型 DiT 架構:UnityVideo 將視頻生成(Video Generation)和視覺模態估計(Video Estimation)整合進同一個流匹配(Flow Matching)框架中。

動態噪聲調度:設計了一種動態噪聲注入策略,使得模型可以在單次訓練循環中同時處理條件生成、模態估計和聯合生成這三種不同的訓練目標。

模態自適應學習:引入了上下文學習器(In-Context Learner)和模態切換器(Modality Switcher),使模型能夠區分并處理多種異構模態信號。

應用的技術

動態任務路由 :根據學習難度為不同任務(條件生成、估計、聯合生成)分配不同的采樣概率 ,并對應不同的噪聲調度策略。

上下文學習器 :利用文本提示(如 "depth map", "human skeleton")來引導模型識別模態類型,而非僅描述視頻內容,從而激活模型的上下文推理能力。

模態自適應切換器:在 DiT 塊中引入可學習的模態嵌入列表 ,通過 AdaLN-Zero 機制生成模態特定的調制參數(scale , shift , gate )。

課程學習:將模態分為像素對齊(如深度、光流)和非像素對齊(如分割、骨骼)兩組,分階段進行混合訓練以確保穩定收斂。

達到的效果

性能優越:在 Text-to-Video 生成、可控生成和視頻深度/光流估計任務上,均達到或超越了現有 SOTA 方法(如 Kling1.6, HunyuanVideo, Aether 等)。

收斂速度提升:相比于單模態微調,聯合多模態訓練顯著降低了訓練損失,加速了收斂。

物理一致性增強:定性實驗顯示,UnityVideo 在生成涉及物理規律(如玻璃折射、水流)的視頻時,比現有商業模型更符合物理邏輯。

方法

UnityVideo 在單個 Diffusion Transformer 中統一了視頻生成和多模態理解。如圖 3 所示,該模型通過共享的 DiT 主干網絡  處理 RGB 視頻 、文本條件  和輔助模態 。在訓練過程中,本文動態采樣任務類型并應用相應的噪聲調度。為了在這個統一架構中處理多種模態,本文引入了上下文學習器 和 模態自適應切換器。通過漸進式課程訓練,模型在所有任務和模態上實現了同步收斂。

圖 3.UnityVideo 概述。 UnityVideo 通過應用于輸入標記的動態噪聲注入策略(左)實現任務統一,并通過提出的模態感知 AdaLN 表(中)實現模態統一。 具體來說, 分別表示 RGB 模態和輔助視頻相關模態(例如深度、光流、DensePose、骨架)的可學習參數表。  表示 RGB 視頻內容和上下文模態學習提示的提示條件,而  分別對應于 RGB 和輔助模態的標記序列。圖 3.UnityVideo 概述。 UnityVideo 通過應用于輸入標記的動態噪聲注入策略(左)實現任務統一,并通過提出的模態感知 AdaLN 表(中)實現模態統一。 具體來說,和 分別表示 RGB 模態和輔助視頻相關模態(例如深度、光流、DensePose、骨架)的可學習參數表。 和 表示 RGB 視頻內容和上下文模態學習提示的提示條件,而 和 分別對應于 RGB 和輔助模態的標記序列。

統一多任務

傳統的視頻生成模型通常孤立地針對特定任務進行訓練,限制了它們利用跨任務知識的能力。本文擴展了流匹配(flow matching)框架,以在單一架構中支持三種互補的訓練范式。UnityVideo 同時處理三個目標:從輔助模態生成 RGB 視頻 (),從 RGB 視頻估計輔助模態 (),以及從噪聲聯合生成兩者 ()。 和  token 沿寬度維度拼接,并通過自注意力模塊進行交互。遵循文獻 [18, 38],本文在 DiT 主干的自注意力中結合了 3D RoPE,以有效區分跨模態的時空位置。

動態任務路由 。為了實現這三種范式的并發優化,本文在訓練期間引入了概率任務選擇。在每次迭代中,以概率 、 和 (其中 )采樣一種任務類型,這決定了在時間步  應用于 RGB 和模態 token 的噪聲調度。對于條件生成(如圖 3 右側所示),RGB token 從噪聲逐漸去噪 (),而模態 token 保持干凈 ()。對于模態估計,RGB token 保持干凈,而模態 token 被加噪。對于聯合生成,兩種類型的 token 都獨立地被噪聲破壞。本文分配的任務概率與其學習難度成反比:。這種策略防止了順序階段式訓練中常見的災難性遺忘,允許模型并發地學習所有三種分布。

統一多模態

不同模態的聯合訓練可以顯著提升單個任務的性能,如圖 2 所示。然而,使用共享參數處理不同模態需要顯式的機制來區分它們。本文引入了兩種互補的設計:用于語義級模態感知的上下文學習器,和用于架構級調制的模態自適應切換器。

圖 2.統一模式的培訓有利于視頻生成。 統一的多模態和多任務聯合訓練在 RGB 視頻生成上實現了最低的最終損失,優于單模態聯合訓練和 RGB 微調基線。圖 2.統一模式的培訓有利于視頻生成。 統一的多模態和多任務聯合訓練在 RGB 視頻生成上實現了最低的最終損失,優于單模態聯合訓練和 RGB 微調基線。

上下文學習器 。為了利用模型固有的上下文推理能力,本文注入了描述模態類型(例如,“深度圖 (depth map)”、“人體骨骼 (human skeleton)”)而非視頻內容的模態特定文本提示 。這一設計與描述內容的標題  有根本區別。給定拼接的 RGB token  和模態 token ,本文分別執行雙分支交叉注意力: 用于帶有內容標題的 RGB 特征,以及  用于帶有類型描述的模態特征,然后再將它們重新組合以進行后續處理。這種輕量級機制引入的計算開銷可以忽略不計,同時實現了組合泛化。例如,使用短語“兩個人”進行訓練允許模型在分割任務期間泛化到“兩個物體”,因為模型學會了解釋模態級的語義,而不是記憶特定內容的模式。詳細分析在實驗部分提供。

模態自適應切換器 。雖然基于文本的區分提供了語義感知,但隨著模態數量的擴展,這種方式可能變得不足。因此,本文為  種模態引入了一個可學習的嵌入列表 ,以實現顯式的架構級調制。在每個 DiT 塊內,AdaLN-Zero基于時間步嵌入為 RGB 特征生成調制參數(縮放 ,平移 ,門控 )。本文通過學習模態特定參數來擴展這一機制:,其中  是模態嵌入, 是時間步嵌入。這一設計實現了推理過程中的即插即用模態選擇。為了進一步減少模態混淆并穩定輸出,本文初始化了模態專家輸入-輸出層,作為每種模態的專用編碼和預測頭。

訓練策略

多模態課程學習簡單地從頭開始聯合訓練所有模態會導致收斂緩慢和性能次優。我們將模態根據其空間對齊屬性分為兩組。像素對齊模態(光流、深度、DensePose)允許與 RGB 幀建立直接的像素到像素對應關系,而像素非對齊模態(分割掩碼、骨骼)則包含更抽象的幾何表示且需要額外的視覺渲染步驟。

采用兩階段課程策略:第一階段(Stage 1) 僅在經過篩選的單人數據上訓練 RGB 視頻和像素對齊模態,為空間對應關系的學習建立堅實基礎。第二階段(Stage 2) 引入所有模態以及多樣化的場景數據集,涵蓋以人為中心和通用的場景。這種漸進式策略使得模型能夠理解所有五種模態,同時支持對未見模態組合的魯棒零樣本(zero-shot)推理。

OpenUni 數據集我們的訓練數據包含 130 萬個視頻片段,涵蓋五種模態:光流、深度、DensePose、骨骼和分割。如圖 4 所示,我們從多個來源收集真實世界的視頻,并使用預訓練模型提取模態標注。數據集包括 370,358 個單人片段、97,468 個雙人片段、489,445 個來自 Koala36M的片段,以及 343,558 個來自 OpenS2V 的片段,共計 130 萬個樣本用于訓練。為了防止對特定數據集或模態的過擬合,我們將每個批次(batch)劃分為四個平衡的組,確保在所有模態和來源中進行均勻采樣。

圖4。OpenUni數據集。OpenUni包含130萬對統一的多模態數據,旨在豐富視頻模態,賦予更全面的世界感知圖4。OpenUni數據集。OpenUni包含130萬對統一的多模態數據,旨在豐富視頻模態,賦予更全面的世界感知

訓練目標

遵循條件流匹配(Conditional Flow Matching),本文框架采用一種動態訓練策略,通過選擇性地對不同模態添加噪聲,在三種模式之間自適應切換。特定模式的損失函數如下:

條件生成損失 (Conditional Generation Loss):

模態估計損失 (Modality Estimation Loss):

聯合生成損失 (Joint Generation Loss):

其中  和  表示在時間步  的插值潛變量(latents), 和  分別代表 RGB 視頻和輔助模態(如光流、深度)。速度場定義為  和 ,其中  是從真實數據編碼的純凈潛變量,而  是獨立的分布高斯噪聲。文本條件  從預訓練的文本編碼器獲得。

公式 (1) 實現了從輔助模態條件生成 RGB 視頻,公式 (2) 執行從 RGB 視頻進行模態估計,而公式 (3) 則從文本聯合生成兩種模態。

在訓練過程中,批次中的每個樣本被隨機分配到這三種模式之一,使得所有任務都能在單個優化步驟中貢獻梯度。這種統一的公式允許在單個架構內進行無縫的多任務學習。

實驗

為了驗證 UnityVideo 的有效性,本文在多個基準上進行了廣泛的實驗。

實驗設置

數據集:使用了本文提出的 OpenUni 數據集,包含 130 萬對多模態視頻數據。

評測指標

視頻生成:使用 VBench 評估,包括主觀一致性、背景一致性、美學質量、時間閃爍等指標。

深度估計:在 UniBench 數據集上評估,報告絕對相對誤差 (AbsRel) 和閾值準確率 ()。

視頻分割:報告平均精度 (mAP) 和平均交并比 (mIoU)。

主要結果

定量比較:如表 1 所示,UnityVideo 在文本生成視頻、可控生成和視頻估計任務上均取得了優異成績。

在 T2V 任務中,UnityVideo 在所有指標上均優于 Kling1.6、OpenSora2、HunyuanVideo-13B 等模型。

在可控生成方面,相比 ControlNet 類方法(如 VACE),在一致性和動態程度上表現更好。

在視頻估計方面,其深度估計和分割精度超越了專用模型(如 DepthCrafter, SAMWISE)。

定性比較

物理感知:相比其他模型,UnityVideo 能更準確地反映物理現象(如水的折射)。

細節與一致性:在深度引導生成中,UnityVideo 既忠實于深度信息,又保持了高視頻質量,避免了背景閃爍。具體見下圖5.圖5。與不同任務中SOTA方法的比較。UnityVideo展現出更優越的物理推理能力,更好地遵守控制條件,并對輔助模態有更深入的理解。圖5。與不同任務中SOTA方法的比較。UnityVideo展現出更優越的物理推理能力,更好地遵守控制條件,并對輔助模態有更深入的理解。

消融實驗

多模態的影響:表 2 顯示,聯合訓練多種模態(如深度+光流)比單獨訓練單一模態帶來了一致的性能提升,特別是在圖像質量和整體一致性上。

多任務訓練的影響:表 3 表明,如果僅訓練“可控生成”任務,性能會下降;而引入“聯合生成”的多任務訓練可以恢復甚至超越基線性能。

架構設計的影響:表 4 和圖 6 證明,上下文學習器模態切換器各自都能提升性能,而兩者結合使用效果最佳。

模型分析與用戶研究

泛化能力:圖 7 展示了上下文學習器使得模型能夠將針對“人”的訓練泛化到未見過的“物體”分割上。

用戶研究:在包含 70 個樣本的人工評估中,UnityVideo 在物理質量、語義質量和整體偏好上均獲得了最高評分(表 5)。

總結

UnityVideo,這是一個在單一 Diffusion Transformer 中對多種視覺模態和任務進行建模的統一框架。通過利用模態自適應學習,UnityVideo 實現了 RGB 視頻與輔助模態(深度、光流、分割、骨骼和 DensePose)之間的雙向學習,從而在兩類任務上都實現了相互增強。本文的實驗展示了其在不同基準上的最先進性能,以及對未見模態組合的強大零樣本泛化能力。為了支持這項研究,本文貢獻了 OpenUni,這是一個包含 130 萬同步樣本的大型多模態數據集,以及 UniBench,這是一個帶有真值標注的高質量評估基準。UnityVideo 為統一多模態建模鋪平了道路,是邁向下一代世界模型的重要一步。

參考文獻

[1] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

       原文標題 : 多任務多模態全統一!港科大&快手可靈等最新UnityVideo:生成、理解、控制多項SOTA!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號