訂閱
糾錯
加入自媒體

ICCV`25 | 視頻交互“隨心所欲”!復旦&通義萬相等開源DreamRelation:讓想象力從此無邊界

2025-11-28 16:11
AI生成未來
關注

作者:Yujie Wei等

解讀:AI生成未來

亮點直擊

首個關系導向的視頻定制框架:本工作首次嘗試解決“關系視頻定制”任務,即基于少量樣本視頻,生成具有特定交互關系(如握手、擁抱)但主體不同的新視頻。

可解釋的模型設計:通過深入分析 MM-DiT 架構中 Query (Q)、Key (K) 和 Value (V) 的特征,發現了它們在關系與外觀表征上的不同作用,并據此設計了最優的 LoRA 注入策略。

創新的解耦與增強機制:提出了“關系 LoRA 三元組”(Relation LoRA Triplet)和“混合掩碼訓練策略”來解耦關系與外觀;提出了“時空關系對比損失”來增強動態關系的建模。

解決的問題

現有的視頻生成和定制方法主要集中在主體外觀(Subject Appearance)或單物體運動(Single-object Motion)的定制上。然而,這些方法在處理 復雜的交互關系(如兩個主體之間的互動)時面臨巨大挑戰:

復雜性:關系包含復雜的空間排列、布局變化和細微的時間動態。

糾纏問題:現有模型往往過度關注無關的視覺細節(如衣服、背景),而無法準確捕捉核心的交互邏輯。

泛化性差:通用文生視頻模型(如 Mochi)即使有詳細的提示詞,也難以生成反直覺的交互(例如“熊擁抱老虎”)。圖 2. (a) 即使有詳細描述,Mochi等一般視頻 DiT 模型也往往難以生成非常規或反直覺的交互關系。(b) 我們的方法可以根據特定關系生成新主題的視頻。

圖 2. (a) 即使有詳細描述,Mochi等一般視頻 DiT 模型也往往難以生成非常規或反直覺的交互關系。(b) 我們的方法可以根據特定關系生成新主題的視頻。

提出的方案

本工作提出了 DreamRelation,通過兩個并發過程來解決上述問題:

關系解耦學習(Relational Decoupling Learning):利用設計的“關系 LoRA 三元組”將關系信息與主體外觀信息分離。通過分析 MM-DiT 的注意力機制,確定了 LoRA 組件的最佳放置位置。

關系動態增強(Relational Dynamics Enhancement):引入“時空關系對比損失”,通過拉近同類關系的動態特征并推遠單幀外觀特征,強制模型關注關系動態而非靜態外觀。

應用的技術

MM-DiT 架構:基于 Mochi(一種非對稱擴散 Transformer)作為基礎模型。

Relation LoRA Triplet:一組復合 LoRA,包括用于捕捉關系的 Relation LoRAs(注入 Q 和 K 矩陣)和用于捕捉外觀的 Subject LoRAs(注入 V 矩陣)。

Hybrid Mask Training (HMT) :利用 Grounding DINO 和 SAM 生成掩碼,指導不同 LoRA 關注特定區域。

Space-Time Relational Contrastive Loss (RCL) :一種基于 InfoNCE 的對比損失函數,利用幀差分提取動態特征。

達到的效果

定性效果:能夠生成具有特定交互關系的視頻,并成功泛化到新穎的主體(如“動物模仿人類交互”),且背景泄露更少,關系表達更準確。

定量指標:在構建的包含 26 種人類交互的數據集上,DreamRelation 在關系準確度(Relation Accuracy)、文本對齊度(CLIP-T)和視頻質量(FVD)方面均優于現有最先進方法(包括 Mochi 原生模型、MotionInversion 等)。

用戶評價:在人工評估中,DreamRelation 在關系對齊、文本對齊和整體質量上均獲得了最高的用戶偏好。

DreamRelation 架構方法

本工作旨在根據少量樣本視頻中表達的指定關系,生成符合文本提示且包含該關系的視頻,如圖 4 所示。

圖 4.DreamRelation 的整體框架。我們的方法將關系視頻定制分解為兩個并發過程。(1) 在關系解耦學習中,關系 LoRA 三元組中的關系 LoRA 捕捉關系信息,而主體 LoRA 則側重于主體外觀。這一解耦過程由基于相應掩碼的混合掩碼訓練策略指導。(2) 在關系動態增強中,所提出的時空關系對比損失將關系動態特征(錨特征和正特征)從成對差異中拉近,同時將其從單幀輸出的外觀特征(負特征)中推開。在推理過程中,主體 LoRA 會被排除,以防止引入不希望出現的表象并增強泛化效果。

圖 4.DreamRelation 的整體框架。我們的方法將關系視頻定制分解為兩個并發過程。(1) 在關系解耦學習中,關系 LoRA 三元組中的關系 LoRA 捕捉關系信息,而主體 LoRA 則側重于主體外觀。這一解耦過程由基于相應掩碼的混合掩碼訓練策略指導。(2) 在關系動態增強中,所提出的時空關系對比損失將關系動態特征(錨特征和正特征)從成對差異中拉近,同時將其從單幀輸出的外觀特征(負特征)中推開。在推理過程中,主體 LoRA 會被排除,以防止引入不希望出現的表象并增強泛化效果。

視頻 DiT 預備知識

由于文本到視頻擴散 Transformer(DiTs)能夠生成高保真、多樣化且長時長的視頻,其受到的關注日益增加。當前的視頻 DiTs(如 Mochi, CogVideoX)主要采用帶有全注意力機制(Full Attention)的 MM-DiT 架構,并在 3D VAE 的潛在空間中執行擴散過程。給定潛在代碼 (源自視頻數據 )及其文本提示 ,優化過程定義為:

其中  是來自高斯分布的隨機噪聲, 是基于  和預定義噪聲調度在時間步  的噪聲潛在代碼。本工作選擇 Mochi 作為基礎視頻 DiT 模型。

關系解耦學習

關系 LoRA 三元組 (Relation LoRA triplet)為了定制主體之間復雜的關系,本工作將樣本視頻中的關系模式分解為強調主體外觀和關系的獨立組件。形式上,給定展示兩個主體互動的少量視頻,將其關系模式表示為一個三元組 主體關系主體,簡記為 ,其中  和  是兩個主體, 是關系。

為了區分關系模式中的關系與主體外觀,本工作引入了 關系 LoRA 三元組,這是一組復合 LoRA 集合,包含用于建模關系信息的 Relation LoRAs 和兩個用于捕捉外觀信息的 Subject LoRAs(如圖 4 所示)。具體而言,本工作將 Relation LoRAs 注入到 MM-DiT 全注意力的 Query (Q) 和 Key (K) 矩陣中。同時,設計了兩個對應于關系中涉及的兩個主體的 Subject LoRAs,并將它們注入到 Value (V) 矩陣中。這一設計通過實證發現得到了支撐:Q、K 和 V 矩陣在 MM-DiT 全注意力中扮演著不同的角色。此外,還設計了一個 FFN LoRA 來優化 Relation 和 Subject LoRAs 的輸出,并將其注入到全注意力的線性層中。需要注意的是,MM-DiT 中的文本和視覺 Token 分支由不同的 LoRA 組處理。

混合掩碼訓練策略 (Hybrid mask training strategy)為了實現關系 LoRA 三元組中關系與外觀信息的解耦,本工作提出了混合掩碼訓練策略(HMT),利用相應的掩碼引導 Relation 和 Subject LoRAs 關注指定區域。首先使用 Grounding DINO 和 SAM 提取視頻中兩個個體的掩碼,標記為主體掩碼  和 。受代表性關系檢測方法的啟發(這些方法利用最小外接矩形來描繪主體-客體交互區域),本工作將關系掩碼  定義為兩個主體掩碼的并集,以指示關系區域。由于視頻 DiT 中的 3D VAE 在時間維度上進行了  因子的壓縮,因此對每  幀的掩碼進行平均以表示潛在掩碼。

隨后,本工作設計了 LoRA 選擇策略和基于掩碼的增強擴散損失,以便在訓練期間更好地進行解耦。具體來說,在每次訓練迭代中,隨機選擇 更新 Relation LoRAs 或其中一種 Subject LoRAs。當選擇 Relation LoRAs 時,兩個 Subject LoRAs 會同時進行訓練以提供外觀線索,協助 Relation LoRAs 專注于關系信息。這一過程促進了關系與外觀信息的解耦。FFN LoRAs 在整個訓練過程中始終參與,以優化所選 Relation 或 Subject LoRAs 的輸出。

在 LoRA 選擇之后,應用相應的掩碼來放大關注區域內的損失權重,定義如下:

其中  指示所選的掩碼類型, 是掩碼權重。通過采用 LoRA 選擇策略和增強擴散損失,鼓勵 Relation 和 Subject LoRAs 專注于其指定區域,從而促進有效的關系定制并提高泛化能力。

推理階段 (Inference)在推理過程中,為了防止引入不期望的外觀并增強泛化能力,本工作 排除 Subject LoRAs,僅將 Relation LoRAs 和 FFN LoRAs 注入到基礎視頻 DiT 中,以保持學習到的關系。

關于 Query、Key 和 Value 特征的分析

為了確定最佳的模型設計,本文通過可視化和奇異值分解(SVD)分析了 MM-DiT 全注意力機制(full attention)中的 query、key 和 value 特征及矩陣,揭示了它們對關系視頻定制化的影響。

可視化分析。本文從兩類視頻入手:一個包含多種屬性的單主體視頻,以及一個雙主體交互視頻,如圖 5(a) 所示。本文計算了第 60 時間步所有層和注意力頭中與視覺 token 相關的 query、key 和 value 的平均特征。隨后將這些特征重塑為  的格式,并將所有幀的特征進行平均,以可視化形狀為  的特征圖。基于圖 5(a) 的觀察,本文得出兩個結論:

1) 不同視頻中的 Value 特征包含了豐富的“外觀信息”,而“關系信息”往往與這些外觀線索交織在一起。 例如,在單主體視頻中,高 Value 特征響應出現在“藍色眼鏡”和“生日帽”等位置。在雙主體視頻中,在關系區域(如握手)和外觀區域(如人臉和衣物)均觀察到了高數值,這表明關系信息與外觀信息在特征中是糾纏在一起的。

2) Query 和 Key 特征表現出高度抽象但相似的模式,與 Value 特征截然不同。 與 Value 特征中明顯的外觀信息不同,Query 和 Key 特征在不同視頻間表現出同質性(homogeneity),明顯區別于 Value 特征。為了進一步驗證這一觀點,本文從定量角度對 query、key 和 value 矩陣進行了分析。

子空間相似度分析。本文進一步分析了由基礎視頻 DiT 模型 Mochi 的 query、key 和 value 矩陣權重及其奇異向量所張成的子空間的相似度。這種相似度反映了兩個矩陣所包含信息的重疊程度。對于 query 和 key 矩陣,本文應用奇異值分解獲得左奇異酉矩陣  和 。遵循文獻 [32, 52],本文選取  和  的前  個奇異向量,并基于 Grassmann 距離測量它們的歸一化子空間相似度,計算公式為 。其他相似度的計算方式與之類似。圖 5(b) 中的結果表明,query 和 key 矩陣的子空間高度相似,而它們與 value 矩陣的相似度極低。這表明 MM-DiT 中的 query 和 key 矩陣共享更多的公共信息,同時在很大程度上保持與 value 矩陣的獨立性。換言之,query 和 key 矩陣與 value 矩陣表現出強烈的非重疊(non-overlapping)關系,這有利于解耦學習的設計。這一觀察結果與圖 5(a) 中的可視化結果一致。為了進一步驗證該發現的泛化性,本文對多種模型進行了類似分析,例如 HunyuanVideo 和 Wan2.1。圖 5(b) 的結果表明,query 和 key 矩陣之間較高的相似度在不同的 MM-DiT 模型和其他 DiT 架構(如基于交叉注意力的 DiT)中是一致存在的。

基于這些觀察,本文從經驗上認為 query、key 和 value 矩陣在關系視頻定制化任務中扮演著不同的角色,這也是本文設計 Relation LoRA triplet(關系 LoRA 三元組) 的動機。具體而言,鑒于 value 特征富含外觀信息,本文將 Subject LoRAs(主體 LoRA) 注入 value 矩陣,以專注于學習外觀。相比之下,由于在 query 和 key 特征中觀察到的同質性及其與 value 矩陣的非重疊性質有利于解耦學習,本文將 Relation LoRAs(關系 LoRA) 同時注入 query 和 key 矩陣,以將關系從外觀中解耦出來。表 3 中的結果證實了本文的分析,顯示該設計實現了最佳性能。本文相信這些發現能夠推動基于 DiT 架構的視頻定制化研究。

關系動態增強

為了顯式地增強關系動態的學習,本文提出了一種新穎的 時空關系對比損失 (Space-time Relational Contrastive Loss, RCL) ,該損失在訓練過程中強調關系動態,同時減少對細節外觀的關注。具體而言,在每個時間步 ,本文計算模型輸出沿幀維度的成對差分(pairwise differences),記為 。然后,通過在空間維度上對這些差分進行平均來減少對像素級信息的依賴,從而得到一維關系動態特征 ,將其作為錨點特征(anchor features)。

隨后,本文從表現相同關系的其他視頻中采樣  個一維關系動態特征作為正樣本 。對于  中的每一幀,本文從單幀模型輸出  中采樣  個一維特征作為負樣本 ,這些特征捕獲了外觀信息但排除了關系動態。

本文的目標是學習包含關系動態的表征,方法是將描繪相同關系的不同視頻的成對差分拉近,同時將它們推離單幀輸出的空間特征,以減輕外觀和背景的泄露。遵循 InfoNCE損失,本文將提出的損失公式化為:

其中  是溫度超參數。

此外,本文維護一個記憶庫  來存儲和更新正負樣本,這些樣本均隨機選自當前批次視頻和先前見過的視頻的 1D 特征。這種在線動態更新策略可以擴充正負樣本的數量,增強對比學習的效果和訓練穩定性。在每次迭代中,本文將當前所有的錨點特征  和  的 1D 特征存入 。記憶庫采用先進先出(First In, First Out)隊列實現。

總體而言,訓練損失  由重建損失和對比學習損失組成,定義如下:

其中  是損失平衡權重。

實驗

實驗設置

數據集:從 NTU RGB+D 動作識別數據集中篩選了 26 種人類交互關系(如握手、擁抱)。

評估方案:設計了 40 個包含不同尋常主體交互(例如“狗與貓握手”)的文本提示,以評估模型向新領域的泛化能力。

基線模型

Mochi(基礎模型)。

直接 LoRA 微調(Direct LoRA finetuning)。

ReVersion(針對視頻任務復現/調整的關系圖像定制方法)。MotionInversion(針對 Mochi 架構調整的運動定制方法)。

評估指標

關系準確度:利用先進的 VLM (Qwen-VL-Max) 判斷生成視頻是否符合指定關系。

文本對齊:計算圖像-文本相似度。

時間一致性視頻質量(FVD) 。

實驗結果

定量比較:DreamRelation 在所有指標上均優于基線方法。特別是關系準確度達到 44.52%,顯著高于 MotionInversion (31.51%) 和 ReVersion (27.14%)。FVD 分數最低(越低越好),表明視頻質量最佳。

定性比較:Mochi 和 ReVersion 往往生成靜態場景或錯誤的交互,且經常出現嚴重的主體外觀混淆。MotionInversion 存在明顯的背景和外觀泄露問題。DreamRelation 能夠生成自然、準確的交互,并且成功將關系遷移到完全不同的主體(如動物)上。

注意力圖可視化:DreamRelation 的注意力圖清晰地聚焦于交互區域(如手部接觸點),而基礎模型的注意力圖則較為雜亂。

用戶研究:15 位評估者對 180 組視頻進行盲測,結果顯示 DreamRelation 在關系對齊、文本對齊和整體質量上均最受用戶青睞。

消融實驗

組件有效性:移除混合掩碼訓練策略 (HMT) 會導致背景泄露;移除時空關系對比損失 (RCL) 會降低關系準確度。兩者結合效果最好。

LoRA 位置:實驗證實,將 Relation LoRAs 放置在 Q 和 K 矩陣中效果最好。若放在 V 矩陣中,準確度顯著下降,證實了 V 矩陣主要包含外觀信息的假設。

RCL 的通用性:將 RCL 應用于 MotionInversion 方法中,也能提升其性能,證明了該損失函數的通用價值。

結論

DreamRelation,一種新穎的關系視頻定制方法,該方法通過利用少量的樣本視頻,能夠準確地建模復雜的關系并將其泛化到新的主體上。通過基于 MM-DiT 架構的分析,本工作揭示了 Query、Key 和 Value 矩陣的不同角色,從而指導了 關系 LoRA 三元組 (Relation LoRA triplet) 的設計,以實現關系和外觀的解耦。此外,本工作引入了 **時空關系對比損失 (Space-Time Relational Contrastive Loss)**,通過強調關系動態來增強對關系的理解。廣泛的實驗結果證明了本工作所提方法的優越性。本工作希望 DreamRelation 能為理解和生成復雜的現實世界交互提供有價值的見解。

參考文獻

[1] DreamRelation: Relation-Centric Video Customization

       原文標題 : ICCV`25 | 視頻交互“隨心所欲”!復旦&通義萬相等開源DreamRelation:讓想象力從此無邊界

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號