AI自己當(dāng)導(dǎo)演？KlingAvatar 2.0“聯(lián)合推理”黑科技：讓數(shù)字人不僅會(huì)演，更懂劇本！新SOTA！

2025-12-29 15:57

作者：快手Kling團(tuán)隊(duì)

解讀：AI生成未來
圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類，具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)了音頻、圖像和文本指令之間的連貫對(duì)齊，推廣到多種開放域風(fēng)格，并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態(tài)指令跟隨、全向時(shí)空級(jí)聯(lián)框架，實(shí)現(xiàn)高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成。

圖1 KlingAvatar 2.0生成生動(dòng)、保持身份的數(shù)字人類，具備精準(zhǔn)的攝像頭控制、豐富的情感表達(dá)、高質(zhì)量的動(dòng)作以及精準(zhǔn)的面部-唇部和音頻同步。它實(shí)現(xiàn)了音頻、圖像和文本指令之間的連貫對(duì)齊，推廣到多種開放域風(fēng)格，并支持多字符合成和基于身份的音頻控制。這些能力得益于我們多模態(tài)指令跟隨、全向時(shí)空級(jí)聯(lián)框架，實(shí)現(xiàn)高分辨率、長(zhǎng)時(shí)長(zhǎng)視頻生成。

亮點(diǎn)直擊

時(shí)空級(jí)聯(lián)框架：提出了一種漸進(jìn)式生成的架構(gòu)，支持長(zhǎng)時(shí)長(zhǎng)（長(zhǎng)達(dá)5分鐘）、高分辨率的視頻生成，有效緩解了長(zhǎng)視頻中的時(shí)間漂移問題。

協(xié)同推理導(dǎo)演：引入了由三個(gè)特定模態(tài) LLM 專家組成的導(dǎo)演模塊，通過多輪對(duì)話進(jìn)行推理，解決了多模態(tài)指令沖突問題，并引入了“負(fù)面導(dǎo)演”來優(yōu)化生成質(zhì)量。

多角色多音頻控制：利用深層 DiT 特征進(jìn)行掩碼預(yù)測(cè)，實(shí)現(xiàn)了在復(fù)雜對(duì)話場(chǎng)景下對(duì)多個(gè)角色的獨(dú)立音頻驅(qū)動(dòng)控制。

卓越的性能與泛化能力：在視覺質(zhì)量、口型同步、情感表達(dá)及指令遵循方面達(dá)到了 SOTA（State-of-the-Art）水平。

解決的問題

生成效率與質(zhì)量的平衡：之前的虛擬人視頻生成模型在生成長(zhǎng)時(shí)長(zhǎng)、高分辨率視頻時(shí)效率低下。

時(shí)間一致性差：隨著視頻長(zhǎng)度增加，容易出現(xiàn)時(shí)間漂移（Temporal drifting）和視覺質(zhì)量下降。

多模態(tài)指令遵循弱：在處理復(fù)雜的長(zhǎng)視頻指令時(shí)，往往難以保持對(duì)文本、音頻和圖像指令的連貫響應(yīng)。

多角色控制難題：在涉及多個(gè)角色的場(chǎng)景中，難以精確地將特定音頻驅(qū)動(dòng)對(duì)應(yīng)的角色而不產(chǎn)生干擾。

提出的方案

兩階段級(jí)聯(lián)生成：首先生成低分辨率的“藍(lán)圖”關(guān)鍵幀以捕捉全局語義和運(yùn)動(dòng)，然后通過“首尾幀策略”將其細(xì)化并上采樣為高分辨率、時(shí)間連貫的子片段。

多專家協(xié)同規(guī)劃：通過音頻、視覺、文本三個(gè)專家模型的協(xié)同推理（Chain-of-thought），將模糊的用戶輸入轉(zhuǎn)化為詳細(xì)的分鏡頭腳本。

ID 感知掩碼控制：利用 DiT 模塊深層的特征來預(yù)測(cè)角色掩碼，從而實(shí)現(xiàn)精確的局部音頻注入。

應(yīng)用的技術(shù)

DiT (Diffusion Transformer) ：作為基礎(chǔ)視頻生成骨干網(wǎng)絡(luò)。

MLLM (Multimodal Large Language Model) ：用于構(gòu)建協(xié)同推理導(dǎo)演模塊，進(jìn)行多輪對(duì)話推理和腳本規(guī)劃。

時(shí)空超分辨率 (Spatio-Temporal Super-Resolution) ：在空間和時(shí)間維度上對(duì)視頻進(jìn)行上采樣。

軌跡保留蒸餾 (Trajectory-preserving Distillation) ：用于加速視頻生成過程。

自動(dòng)化數(shù)據(jù)標(biāo)注流水線：結(jié)合 YOLO、DWPose 和 SAM 2 構(gòu)建多角色視頻數(shù)據(jù)集。

達(dá)到的效果

視覺清晰度增強(qiáng)：生成結(jié)果具備電影級(jí)畫質(zhì)。

逼真的細(xì)節(jié)渲染：實(shí)現(xiàn)了準(zhǔn)確的唇齒同步和逼真的面部表情。

強(qiáng)身份保持能力：在長(zhǎng)視頻生成中能保持角色身份的一致性。

復(fù)雜指令遵循：能夠理解并執(zhí)行復(fù)雜的運(yùn)鏡和動(dòng)作指令（如“雙手在胸前交叉”）。

多角色互動(dòng)：成功實(shí)現(xiàn)了多人在同一場(chǎng)景下的獨(dú)立說話與互動(dòng)。

方法

KlingAvatar 2.0 擴(kuò)展了 Kling-Avatar的流程。如圖 2 所示，給定參考圖像、輸入音頻和文本指令，該系統(tǒng)能高效生成高保真、長(zhǎng)時(shí)長(zhǎng)的數(shù)字人視頻，并具備精準(zhǔn)的口型同步以及對(duì)多說話人和角色的細(xì)粒度控制。下文將詳細(xì)介紹時(shí)空級(jí)聯(lián)擴(kuò)散框架、協(xié)同推理多模態(tài)劇情導(dǎo)演、多角色控制模塊以及加速技術(shù)。

圖2 KlingAvatar 2.0框架概述。在多模態(tài)指令下，共理導(dǎo)演以多回合對(duì)話方式推理并規(guī)劃層級(jí)化、細(xì)致的正負(fù)故事線，時(shí)空級(jí)聯(lián)流程則并行生成連貫的長(zhǎng)篇高分辨率頭像視頻

時(shí)空級(jí)聯(lián)建模

為了在計(jì)算高效的前提下支持長(zhǎng)時(shí)長(zhǎng)、高分辨率的數(shù)字人合成，KlingAvatar 2.0 采用了建立在預(yù)訓(xùn)練視頻擴(kuò)散模型之上的音頻驅(qū)動(dòng) DiT 時(shí)空級(jí)聯(lián)架構(gòu)，如圖 2 所示。該流程包含兩個(gè)嵌套的級(jí)聯(lián)，共同處理長(zhǎng)跨度的全局劇情規(guī)劃和局部的時(shí)空細(xì)化。

首先，一個(gè)低分辨率擴(kuò)散模型生成捕捉全局動(dòng)態(tài)、內(nèi)容和布局的“藍(lán)圖視頻”；隨后，代表性的低分辨率關(guān)鍵幀由高分辨率 DiT 進(jìn)行上采樣，在相同的協(xié)同推理導(dǎo)演的全局提示詞下，豐富細(xì)節(jié)并保持身份與場(chǎng)景構(gòu)成。接著，低分辨率視頻擴(kuò)散模型通過“首尾幀條件生成”（first-last-frame conditioned generation）將這些高分辨率錨點(diǎn)關(guān)鍵幀擴(kuò)展為與音頻同步的子片段，其中的提示詞由藍(lán)圖關(guān)鍵幀增強(qiáng)，以細(xì)化微小的動(dòng)作和表情。一種音頻感知的插值策略被用于合成過渡幀，以增強(qiáng)時(shí)間連接性、口型同步和空間一致性。最后，高分辨率視頻擴(kuò)散模型對(duì)低分辨率子片段進(jìn)行超分辨率處理，生成高保真、時(shí)間連貫的視頻片段。

協(xié)同推理導(dǎo)演

KlingAvatar 2.0 采用了一位協(xié)同推理導(dǎo)演，該導(dǎo)演建立在近期基于 MLLM 的虛擬人規(guī)劃器基礎(chǔ)之上，以多輪對(duì)話的方式聯(lián)合推理音頻、圖像和文本。該導(dǎo)演由三位專家實(shí)例化： (i) 音頻中心專家：執(zhí)行轉(zhuǎn)錄和副語言分析（情感、韻律、說話意圖）； (ii) 視覺專家：從參考圖像中總結(jié)外觀、布局和場(chǎng)景上下文； (iii) 文本專家：解釋用戶指令，結(jié)合其他專家的對(duì)話歷史，并合成邏輯連貫的劇情計(jì)劃。

這些專家通過思維鏈（Chain-of-Thought）進(jìn)行多輪協(xié)同推理，展示中間思維過程以解決沖突（例如，憤怒的語調(diào)搭配中性的劇本），并補(bǔ)充未明確的細(xì)節(jié)，如隱含的動(dòng)作或攝像機(jī)運(yùn)動(dòng)。導(dǎo)演輸出一個(gè)結(jié)構(gòu)化的劇情線，將視頻分解為一系列鏡頭。此外，本工作還引入了一位負(fù)面導(dǎo)演（Negative Director），其中正面提示詞強(qiáng)調(diào)期望的視覺和行為屬性，而負(fù)面提示詞則明確降低不可信的姿態(tài)、偽影、細(xì)粒度的相反情緒（如悲傷 vs 快樂）或運(yùn)動(dòng)風(fēng)格（如過快 vs 過慢）的權(quán)重。

對(duì)于長(zhǎng)視頻，導(dǎo)演進(jìn)一步將全局劇情細(xì)化為與音頻時(shí)間軸對(duì)齊的片段級(jí)計(jì)劃，這直接參數(shù)化了關(guān)鍵幀級(jí)聯(lián)和片段級(jí)細(xì)化模塊。這種高層級(jí)的多模態(tài)規(guī)劃將松散指定的指令轉(zhuǎn)化為擴(kuò)散骨干網(wǎng)絡(luò)可以一致遵循的連貫?zāi)_本，大幅提高了語義對(duì)齊和時(shí)間連貫性。

多角色控制

KlingAvatar 2.0 將單說話人虛擬人設(shè)置推廣到了多角色場(chǎng)景和身份特定的音頻控制。本工作的設(shè)計(jì)遵循了近期多人對(duì)話虛擬人，如[33, 62, 63] 中使用的角色感知音頻注入范式。根據(jù)經(jīng)驗(yàn)，本工作觀察到一個(gè)重要的架構(gòu)屬性：DiT 塊不同深度的隱藏特征表現(xiàn)出截然不同的特征表示。特別是，深層 DiT 層的潛在表示被組織成語義連貫且噪聲減少的空間區(qū)域，這些區(qū)域與個(gè)體角色和其他顯著物體對(duì)齊良好。

受此觀察啟發(fā)，本工作在選定的深層 DiT 塊上附加了一個(gè)掩碼預(yù)測(cè)頭（Mask-prediction head），如圖 3(a) 所示。具體而言，給定第一幀中的指定角色，使用相同的切片化方案對(duì)參考身份裁剪圖像進(jìn)行編碼（不向參考 Token 添加噪聲）。然后計(jì)算視頻潛在 Token 與每個(gè)身份的參考 Token 之間的交叉注意力，并應(yīng)用 MLP 模塊回歸每一幀的角色掩碼。真值（GT）掩碼被下采樣以匹配中間潛在特征的空間和時(shí)間分辨率。在訓(xùn)練期間，DiT 視頻骨干網(wǎng)絡(luò)被凍結(jié)，僅優(yōu)化掩碼預(yù)測(cè)模塊。在去噪過程中，預(yù)測(cè)的掩碼用于將身份特定的音頻流注入門控到相應(yīng)的區(qū)域。

圖3（a）多字符視頻生成pipeline，帶有身份特定音頻控制。掩模預(yù)測(cè)頭連接到深度DiT特征，預(yù)測(cè)掩碼將特定ID的音頻注入到相應(yīng)區(qū)域。（b）自動(dòng)化多字符視頻注釋pipeline。

為了促進(jìn)大規(guī)模多角色訓(xùn)練數(shù)據(jù)集的構(gòu)建，本工作擴(kuò)展了數(shù)據(jù)源，包括播客、訪談、多角色電視劇等。為了大規(guī)模收集 GT 角色掩碼，本工作開發(fā)了一套自動(dòng)化的標(biāo)注流水線來生成每個(gè)角色的視頻掩碼，如圖 3(b) 所示。該流水線利用了幾個(gè)專家模型：YOLO用于人員檢測(cè)，DWPose用于關(guān)鍵點(diǎn)估計(jì)，SAM 2用于分割和時(shí)間跟蹤。具體來說，首先使用 YOLO 檢測(cè)第一幀中的所有角色，使用 DWPose 估計(jì)每個(gè)檢測(cè)中的關(guān)鍵點(diǎn)，并將生成的邊界框和關(guān)鍵點(diǎn)作為 SAM 2 的提示詞，以分割和跟蹤后續(xù)幀中的每個(gè)人物。最后，根據(jù)每幀的 YOLO 和 DWPose 估計(jì)結(jié)果驗(yàn)證生成的視頻掩碼，并過濾掉未對(duì)齊或重疊度低的片段，以確保訓(xùn)練的高質(zhì)量標(biāo)注。

加速視頻生成

為了實(shí)現(xiàn)加速的推理效率，本工作探索了基于以 PCM和 DCM為代表的軌跡保留蒸餾（trajectory-preserving distillation），以及以 DMD為代表的分布匹配蒸餾（distribution matching distillation）方案。基于對(duì)實(shí)驗(yàn)成本、訓(xùn)練穩(wěn)定性、推理靈活性和最終生成性能指標(biāo)的綜合評(píng)估，最終選擇了軌跡保留蒸餾方法。為了進(jìn)一步提高蒸餾效率，本工作通過分析基礎(chǔ)模型在不同時(shí)間步的表現(xiàn)開發(fā)了定制的時(shí)間調(diào)度器，從而平衡推理加速比與模型性能。在蒸餾算法中，本工作通過一系列精心設(shè)計(jì)的配置引入了多任務(wù)蒸餾范式。該范式產(chǎn)生了協(xié)同效應(yīng)（1+1>2），改善了每個(gè)單獨(dú)任務(wù)的蒸餾結(jié)果。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

為了全面評(píng)估 KlingAvatar 2.0，本工作遵循基于人類偏好的主觀評(píng)估協(xié)議。構(gòu)建了包含 300 個(gè)高質(zhì)量測(cè)試用例的測(cè)試集（100 個(gè)中文語音、100 個(gè)英文語音、100 個(gè)歌唱樣本）。評(píng)估者在 GSB（Good/Same/Bad）標(biāo)準(zhǔn)下將本模型與基線方法進(jìn)行兩兩比較。評(píng)估維度包括：面部-口型同步 (Face-Lip Sync)、視覺質(zhì)量 (Visual Qual.)、運(yùn)動(dòng)質(zhì)量 (Motion Qual.)、運(yùn)動(dòng)表現(xiàn)力 (Motion Expr.) 以及 **文本相關(guān)性 (Text Rel.)**。

實(shí)驗(yàn)結(jié)果

本工作將 KlingAvatar 2.0 與三個(gè)強(qiáng)基線進(jìn)行了比較：HeyGen、Kling-Avatar和 OmniHuman-1.5。

定量結(jié)果：如表 1 和圖 4 所示，本方法在所有維度上均取得了領(lǐng)先，特別是在運(yùn)動(dòng)表現(xiàn)力和文本相關(guān)性方面提升顯著。

圖4 GSB基準(zhǔn)測(cè)試結(jié)果可視化，比較KlingAvatar 2.0與HeyGen、Kling-Avatar和OmniHuman-1.5，涵蓋多種評(píng)估標(biāo)準(zhǔn)。

定性比較：如圖 5 所示，本模型生成的頭發(fā)動(dòng)態(tài)更符合物理規(guī)律且自然，相比之下基線方法（如 Kling-Avatar, OmniHuman-1.5）略顯僵硬或物理感不足。在多模態(tài)指令遵循方面，本方法能更準(zhǔn)確地執(zhí)行如“從下到上的運(yùn)鏡”或“雙手在胸前交叉”等復(fù)雜指令，而基線方法有時(shí)會(huì)忽略動(dòng)作強(qiáng)度或產(chǎn)生錯(cuò)誤的動(dòng)作（如將手放在腰部而非胸前）。

圖5 KlingAvatar 2.0與基線方法的定性比較。左圖：我們的方法能產(chǎn)生更自然的發(fā)絲動(dòng)態(tài)和生動(dòng)的面部表情。中間：我們的結(jié)果更貼近指定的自下到頂相機(jī)運(yùn)動(dòng)。右：我們生成的視頻更符合提示“...她轉(zhuǎn)向前方，雙手交叉放在胸前。”

多場(chǎng)景與消融研究：圖 6 展示了模型在多說話人交互場(chǎng)景下的泛化能力。圖 7 的消融研究表明，相比于使用通用的負(fù)面提示詞，引入負(fù)面導(dǎo)演 (Negative Director) 進(jìn)行鏡頭級(jí)的細(xì)粒度負(fù)面提示控制，能有效抑制不合理的表情和偽影，提升情感表達(dá)的準(zhǔn)確性和時(shí)間穩(wěn)定性。

圖6 由我們與多模態(tài)共推導(dǎo)演的時(shí)空級(jí)聯(lián)框架生成的代表性定性結(jié)果。圖7 負(fù)導(dǎo)向在藍(lán)圖關(guān)鍵幀上的消融研究。負(fù)片導(dǎo)演增強(qiáng)面部表情，增強(qiáng)時(shí)間穩(wěn)定性和情緒控制，減少光線和曝光偽影。

結(jié)論

KlingAvatar 2.0，這是一個(gè)統(tǒng)一的框架，通過全向協(xié)同推理導(dǎo)演實(shí)現(xiàn)時(shí)空級(jí)聯(lián)生成，用于合成高分辨率、長(zhǎng)時(shí)長(zhǎng)、栩栩如生的多人虛擬人視頻。本工作的多模態(tài)、多專家協(xié)同推理導(dǎo)演通過多輪對(duì)話對(duì)音頻線索、視覺上下文和復(fù)雜指令進(jìn)行思考和規(guī)劃，以解決歧義和信號(hào)沖突，生成連貫的全局劇情以指導(dǎo)長(zhǎng)視頻合成軌跡，并生成詳細(xì)的局部提示詞以細(xì)化子片段的動(dòng)態(tài)。

這種層級(jí)化的劇情驅(qū)動(dòng)了低分辨率藍(lán)圖關(guān)鍵幀的生成，以及時(shí)空上采樣的高分辨率、音頻同步子片段的生成，這些子片段通過首尾幀條件并行且高效地組合成長(zhǎng)視頻。本工作進(jìn)一步將應(yīng)用場(chǎng)景擴(kuò)展到具有身份特定音頻控制的多角色設(shè)置，并開發(fā)了自動(dòng)化標(biāo)注流水線以整理大規(guī)模多人視頻數(shù)據(jù)集。實(shí)驗(yàn)表明，KlingAvatar 2.0 在視覺保真度、身份保持、口型-音頻同步、指令遵循、長(zhǎng)時(shí)長(zhǎng)連貫性以及多角色、多音頻可控性方面均表現(xiàn)出領(lǐng)先的性能。我們相信，本工作對(duì)全向?qū)А⒍嘟巧⒍嘁纛l、長(zhǎng)形式、高分辨率虛擬人合成框架的探索，為數(shù)字人生成的未來研究和應(yīng)用鋪平了道路。

參考文獻(xiàn)

[1] KlingAvatar 2.0 Technical Report

原文標(biāo)題 : AI自己當(dāng)導(dǎo)演？KlingAvatar 2.0“聯(lián)合推理”黑科技：讓數(shù)字人不僅會(huì)演，更懂劇本！新SOTA！