訂閱
糾錯
加入自媒體

AI自己當導演?KlingAvatar 2.0“聯合推理”黑科技:讓數字人不僅會演,更懂劇本!新SOTA!

2025-12-29 15:57
AI生成未來
關注

作者:快手Kling團隊

解讀:AI生成未來
圖1 KlingAvatar 2.0生成生動、保持身份的數字人類,具備精準的攝像頭控制、豐富的情感表達、高質量的動作以及精準的面部-唇部和音頻同步。它實現了音頻、圖像和文本指令之間的連貫對齊,推廣到多種開放域風格,并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態指令跟隨、全向時空級聯框架,實現高分辨率、長時長視頻生成。

圖1 KlingAvatar 2.0生成生動、保持身份的數字人類,具備精準的攝像頭控制、豐富的情感表達、高質量的動作以及精準的面部-唇部和音頻同步。它實現了音頻、圖像和文本指令之間的連貫對齊,推廣到多種開放域風格,并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態指令跟隨、全向時空級聯框架,實現高分辨率、長時長視頻生成。

亮點直擊

時空級聯框架:提出了一種漸進式生成的架構,支持長時長(長達5分鐘)、高分辨率的視頻生成,有效緩解了長視頻中的時間漂移問題。

協同推理導演:引入了由三個特定模態 LLM 專家組成的導演模塊,通過多輪對話進行推理,解決了多模態指令沖突問題,并引入了“負面導演”來優化生成質量。

多角色多音頻控制:利用深層 DiT 特征進行掩碼預測,實現了在復雜對話場景下對多個角色的獨立音頻驅動控制。

卓越的性能與泛化能力:在視覺質量、口型同步、情感表達及指令遵循方面達到了 SOTA(State-of-the-Art)水平。

解決的問題

生成效率與質量的平衡:之前的虛擬人視頻生成模型在生成長時長、高分辨率視頻時效率低下。

時間一致性差:隨著視頻長度增加,容易出現時間漂移(Temporal drifting)和視覺質量下降。

多模態指令遵循弱:在處理復雜的長視頻指令時,往往難以保持對文本、音頻和圖像指令的連貫響應。

多角色控制難題:在涉及多個角色的場景中,難以精確地將特定音頻驅動對應的角色而不產生干擾。

提出的方案

兩階段級聯生成:首先生成低分辨率的“藍圖”關鍵幀以捕捉全局語義和運動,然后通過“首尾幀策略”將其細化并上采樣為高分辨率、時間連貫的子片段。

多專家協同規劃:通過音頻、視覺、文本三個專家模型的協同推理(Chain-of-thought),將模糊的用戶輸入轉化為詳細的分鏡頭腳本。

ID 感知掩碼控制:利用 DiT 模塊深層的特征來預測角色掩碼,從而實現精確的局部音頻注入。

應用的技術

DiT (Diffusion Transformer) :作為基礎視頻生成骨干網絡。

MLLM (Multimodal Large Language Model) :用于構建協同推理導演模塊,進行多輪對話推理和腳本規劃。

時空超分辨率 (Spatio-Temporal Super-Resolution) :在空間和時間維度上對視頻進行上采樣。

軌跡保留蒸餾 (Trajectory-preserving Distillation) :用于加速視頻生成過程。

自動化數據標注流水線:結合 YOLO、DWPose 和 SAM 2 構建多角色視頻數據集。

達到的效果

視覺清晰度增強:生成結果具備電影級畫質。

逼真的細節渲染:實現了準確的唇齒同步和逼真的面部表情。

強身份保持能力:在長視頻生成中能保持角色身份的一致性。

復雜指令遵循:能夠理解并執行復雜的運鏡和動作指令(如“雙手在胸前交叉”)。

多角色互動:成功實現了多人在同一場景下的獨立說話與互動。

方法

KlingAvatar 2.0 擴展了 Kling-Avatar的流程。如圖 2 所示,給定參考圖像、輸入音頻和文本指令,該系統能高效生成高保真、長時長的數字人視頻,并具備精準的口型同步以及對多說話人和角色的細粒度控制。下文將詳細介紹時空級聯擴散框架、協同推理多模態劇情導演、多角色控制模塊以及加速技術。

圖2 KlingAvatar 2.0框架概述。在多模態指令下,共理導演以多回合對話方式推理并規劃層級化、細致的正負故事線,時空級聯流程則并行生成連貫的長篇高分辨率頭像視頻圖2 KlingAvatar 2.0框架概述。在多模態指令下,共理導演以多回合對話方式推理并規劃層級化、細致的正負故事線,時空級聯流程則并行生成連貫的長篇高分辨率頭像視頻

時空級聯建模

為了在計算高效的前提下支持長時長、高分辨率的數字人合成,KlingAvatar 2.0 采用了建立在預訓練視頻擴散模型之上的音頻驅動 DiT 時空級聯架構,如圖 2 所示。該流程包含兩個嵌套的級聯,共同處理長跨度的全局劇情規劃和局部的時空細化。

首先,一個低分辨率擴散模型生成捕捉全局動態、內容和布局的“藍圖視頻”;隨后,代表性的低分辨率關鍵幀由高分辨率 DiT 進行上采樣,在相同的協同推理導演的全局提示詞下,豐富細節并保持身份與場景構成。接著,低分辨率視頻擴散模型通過“首尾幀條件生成”(first-last-frame conditioned generation)將這些高分辨率錨點關鍵幀擴展為與音頻同步的子片段,其中的提示詞由藍圖關鍵幀增強,以細化微小的動作和表情。一種音頻感知的插值策略被用于合成過渡幀,以增強時間連接性、口型同步和空間一致性。最后,高分辨率視頻擴散模型對低分辨率子片段進行超分辨率處理,生成高保真、時間連貫的視頻片段。

協同推理導演

KlingAvatar 2.0 采用了一位協同推理導演,該導演建立在近期基于 MLLM 的虛擬人規劃器基礎之上,以多輪對話的方式聯合推理音頻、圖像和文本。該導演由三位專家實例化: (i) 音頻中心專家:執行轉錄和副語言分析(情感、韻律、說話意圖); (ii) 視覺專家:從參考圖像中總結外觀、布局和場景上下文; (iii) 文本專家:解釋用戶指令,結合其他專家的對話歷史,并合成邏輯連貫的劇情計劃。

這些專家通過思維鏈(Chain-of-Thought)進行多輪協同推理,展示中間思維過程以解決沖突(例如,憤怒的語調搭配中性的劇本),并補充未明確的細節,如隱含的動作或攝像機運動。導演輸出一個結構化的劇情線,將視頻分解為一系列鏡頭。此外,本工作還引入了一位負面導演(Negative Director),其中正面提示詞強調期望的視覺和行為屬性,而負面提示詞則明確降低不可信的姿態、偽影、細粒度的相反情緒(如悲傷 vs 快樂)或運動風格(如過快 vs 過慢)的權重。

對于長視頻,導演進一步將全局劇情細化為與音頻時間軸對齊的片段級計劃,這直接參數化了關鍵幀級聯和片段級細化模塊。這種高層級的多模態規劃將松散指定的指令轉化為擴散骨干網絡可以一致遵循的連貫腳本,大幅提高了語義對齊和時間連貫性。

多角色控制

KlingAvatar 2.0 將單說話人虛擬人設置推廣到了多角色場景和身份特定的音頻控制。本工作的設計遵循了近期多人對話虛擬人,如[33, 62, 63] 中使用的角色感知音頻注入范式。根據經驗,本工作觀察到一個重要的架構屬性:DiT 塊不同深度的隱藏特征表現出截然不同的特征表示。特別是,深層 DiT 層的潛在表示被組織成語義連貫且噪聲減少的空間區域,這些區域與個體角色和其他顯著物體對齊良好。

受此觀察啟發,本工作在選定的深層 DiT 塊上附加了一個掩碼預測頭(Mask-prediction head),如圖 3(a) 所示。具體而言,給定第一幀中的指定角色,使用相同的切片化方案對參考身份裁剪圖像進行編碼(不向參考 Token 添加噪聲)。然后計算視頻潛在 Token 與每個身份的參考 Token 之間的交叉注意力,并應用 MLP 模塊回歸每一幀的角色掩碼。真值(GT)掩碼被下采樣以匹配中間潛在特征的空間和時間分辨率。在訓練期間,DiT 視頻骨干網絡被凍結,僅優化掩碼預測模塊。在去噪過程中,預測的掩碼用于將身份特定的音頻流注入門控到相應的區域。

圖3(a)多字符視頻生成pipeline,帶有身份特定音頻控制。掩模預測頭連接到深度DiT特征,預測掩碼將特定ID的音頻注入到相應區域。(b)自動化多字符視頻注釋pipeline。圖3(a)多字符視頻生成pipeline,帶有身份特定音頻控制。掩模預測頭連接到深度DiT特征,預測掩碼將特定ID的音頻注入到相應區域。(b)自動化多字符視頻注釋pipeline。

為了促進大規模多角色訓練數據集的構建,本工作擴展了數據源,包括播客、訪談、多角色電視劇等。為了大規模收集 GT 角色掩碼,本工作開發了一套自動化的標注流水線來生成每個角色的視頻掩碼,如圖 3(b) 所示。該流水線利用了幾個專家模型:YOLO用于人員檢測,DWPose用于關鍵點估計,SAM 2用于分割和時間跟蹤。具體來說,首先使用 YOLO 檢測第一幀中的所有角色,使用 DWPose 估計每個檢測中的關鍵點,并將生成的邊界框和關鍵點作為 SAM 2 的提示詞,以分割和跟蹤后續幀中的每個人物。最后,根據每幀的 YOLO 和 DWPose 估計結果驗證生成的視頻掩碼,并過濾掉未對齊或重疊度低的片段,以確保訓練的高質量標注。

加速視頻生成

為了實現加速的推理效率,本工作探索了基于以 PCM和 DCM為代表的軌跡保留蒸餾(trajectory-preserving distillation),以及以 DMD為代表的分布匹配蒸餾(distribution matching distillation)方案。基于對實驗成本、訓練穩定性、推理靈活性和最終生成性能指標的綜合評估,最終選擇了軌跡保留蒸餾方法。為了進一步提高蒸餾效率,本工作通過分析基礎模型在不同時間步的表現開發了定制的時間調度器,從而平衡推理加速比與模型性能。在蒸餾算法中,本工作通過一系列精心設計的配置引入了多任務蒸餾范式。該范式產生了協同效應(1+1>2),改善了每個單獨任務的蒸餾結果。

實驗

實驗設置

為了全面評估 KlingAvatar 2.0,本工作遵循基于人類偏好的主觀評估協議。構建了包含 300 個高質量測試用例的測試集(100 個中文語音、100 個英文語音、100 個歌唱樣本)。評估者在 GSB(Good/Same/Bad)標準下將本模型與基線方法進行兩兩比較。評估維度包括:面部-口型同步 (Face-Lip Sync)、視覺質量 (Visual Qual.)、運動質量 (Motion Qual.)、運動表現力 (Motion Expr.) 以及 **文本相關性 (Text Rel.)**。

實驗結果

本工作將 KlingAvatar 2.0 與三個強基線進行了比較:HeyGen、Kling-Avatar和 OmniHuman-1.5

定量結果:如表 1 和圖 4 所示,本方法在所有維度上均取得了領先,特別是在運動表現力文本相關性方面提升顯著。

圖4 GSB基準測試結果可視化,比較KlingAvatar 2.0與HeyGen、Kling-Avatar和OmniHuman-1.5,涵蓋多種評估標準。圖4 GSB基準測試結果可視化,比較KlingAvatar 2.0與HeyGen、Kling-Avatar和OmniHuman-1.5,涵蓋多種評估標準。

定性比較:如圖 5 所示,本模型生成的頭發動態更符合物理規律且自然,相比之下基線方法(如 Kling-Avatar, OmniHuman-1.5)略顯僵硬或物理感不足。在多模態指令遵循方面,本方法能更準確地執行如“從下到上的運鏡”或“雙手在胸前交叉”等復雜指令,而基線方法有時會忽略動作強度或產生錯誤的動作(如將手放在腰部而非胸前)。

圖5 KlingAvatar 2.0與基線方法的定性比較。左圖:我們的方法能產生更自然的發絲動態和生動的面部表情。中間:我們的結果更貼近指定的自下到頂相機運動。右:我們生成的視頻更符合提示“...她轉向前方,雙手交叉放在胸前。”圖5 KlingAvatar 2.0與基線方法的定性比較。左圖:我們的方法能產生更自然的發絲動態和生動的面部表情。中間:我們的結果更貼近指定的自下到頂相機運動。右:我們生成的視頻更符合提示“...她轉向前方,雙手交叉放在胸前。”

多場景與消融研究:圖 6 展示了模型在多說話人交互場景下的泛化能力。圖 7 的消融研究表明,相比于使用通用的負面提示詞,引入負面導演 (Negative Director) 進行鏡頭級的細粒度負面提示控制,能有效抑制不合理的表情和偽影,提升情感表達的準確性和時間穩定性。

圖6 由我們與多模態共推導演的時空級聯框架生成的代表性定性結果。圖6 由我們與多模態共推導演的時空級聯框架生成的代表性定性結果。圖7 負導向在藍圖關鍵幀上的消融研究。負片導演增強面部表情,增強時間穩定性和情緒控制,減少光線和曝光偽影。圖7 負導向在藍圖關鍵幀上的消融研究。負片導演增強面部表情,增強時間穩定性和情緒控制,減少光線和曝光偽影。

結論

KlingAvatar 2.0,這是一個統一的框架,通過全向協同推理導演實現時空級聯生成,用于合成高分辨率、長時長、栩栩如生的多人虛擬人視頻。本工作的多模態、多專家協同推理導演通過多輪對話對音頻線索、視覺上下文和復雜指令進行思考和規劃,以解決歧義和信號沖突,生成連貫的全局劇情以指導長視頻合成軌跡,并生成詳細的局部提示詞以細化子片段的動態。

這種層級化的劇情驅動了低分辨率藍圖關鍵幀的生成,以及時空上采樣的高分辨率、音頻同步子片段的生成,這些子片段通過首尾幀條件并行且高效地組合成長視頻。本工作進一步將應用場景擴展到具有身份特定音頻控制的多角色設置,并開發了自動化標注流水線以整理大規模多人視頻數據集。實驗表明,KlingAvatar 2.0 在視覺保真度、身份保持、口型-音頻同步、指令遵循、長時長連貫性以及多角色、多音頻可控性方面均表現出領先的性能。我們相信,本工作對全向導、多角色、多音頻、長形式、高分辨率虛擬人合成框架的探索,為數字人生成的未來研究和應用鋪平了道路。

參考文獻

[1] KlingAvatar 2.0 Technical Report

       原文標題 : AI自己當導演?KlingAvatar 2.0“聯合推理”黑科技:讓數字人不僅會演,更懂劇本!新SOTA!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號