硬剛谷歌Veo3！快手Klear統一多任務音視頻聯合生成：創新單塔架構，口型語音完美同步

2026-01-12 16:42

AI生成未來

關注

作者：Jun Wang、Chunyu Qiang等

解讀：AI生成未來

亮點直擊

Klear 框架：提出了一個統一的音頻-視頻生成框架，能夠同時處理聯合生成（Joint Generation）和單模態生成任務。

單塔架構 (Single-Tower) ：采用了統一的 DiT (Diffusion Transformer) 模塊和 Omni-Full Attention 機制，實現了音頻和視頻的緊密對齊。

漸進式多任務訓練：引入了從隨機模態掩碼到聯合優化的訓練策略，以及多階段課程學習，增強了模型的魯棒性和對物理世界的理解。

大規模稠密標注數據集：構建了首個帶有稠密描述（Dense Captions）的大規模音頻-視頻數據集，并引入了自動化數據構建管道。

圖 1 Klear，這是一個統一的音視頻生成框架，它可以在聯合和單模態設置中提供高保真度、強大的語義和時間對齊以及可靠的指令遵循，并具有強大的 OOD 泛化能力。跨任務（T2AV/TI2AV/TI2V/T2V/T2A），它的性能可與開源模型中的 Veo-3 相媲美。圖 1 Klear，這是一個統一的音視頻生成框架，它可以在聯合和單模態設置中提供高保真度、強大的語義和時間對齊以及可靠的指令遵循，并具有強大的 OOD 泛化能力。跨任務（T2AV/TI2AV/TI2V/T2V/T2A），它的性能可與開源模型中的 Veo-3 相媲美。

解決的問題

視聽不同步：現有非商業模型常出現聲音與畫面（如嘴型）不同步的問題。

單模態退化：在進行聯合生成時，往往犧牲了單個模態（僅視頻或僅音頻）的質量。

數據匱乏：缺乏高質量、經過嚴格對齊且帶有詳細描述的音頻-視頻配對數據。

指令跟隨能力弱：現有模型在處理復雜指令時靈活性不足。

提出的方案

架構設計：放棄傳統的級聯（Cascade）或雙塔（Dual Tower）設計，采用全統一的單塔 Transformer 結構，讓音頻和視頻 Token 在所有層級進行交互。

數據工程：開發了一套自動化管道，包括視頻/音頻質量過濾、場景分割、人聲/非人聲分類以及多模型協作的稠密標注（使用 Whisper, SenseVoice, Qwen2.5-Omni 等工具）。

應用的技術

**Flow Matching (流匹配)**：作為去噪目標，用于訓練生成模型。

Omni-Full Attention：一種全注意機制，允許音頻和視頻 Token 在序列中完全可見，促進深度融合。

3D VAE & Audio VAE：使用 3D 變分自編碼器壓縮視頻（3Hz），使用 Audio-VAE 壓縮音頻（43Hz）。

Multimodal RoPE：多模態旋轉位置編碼，用于處理不同模態的位置信息。

達到的效果

SOTA 級性能：在 T2AV（文本生音視頻）、TI2AV（圖生音視頻）等多個任務上，性能大幅優于現有方法（如 Universe-1, Ovi）。

媲美商業模型：在開源模型中，其表現可與 Veo 3 等閉源商業模型相媲美。

高質量對齊：實現了高保真的唇形同步（Lip-sync）和與其動作匹配的音效生成（如樂器演奏、唱歌）。

Klear預備知識

問題定義本工作的目標是在給定各種先驗條件的情況下，通過單個模型實現音頻和視頻的生成。將去噪網絡表示為，文本條件表示為。令和分別表示在時間步時的音頻和視頻隱變量（latent variables）。這里，表示純高斯噪聲的最終時間步。在推理過程中，遞歸地執行去噪操作，從到，以產生最終的生成結果，如下所示：

條件流匹配本工作采用流匹配（Flow Matching）作為去噪目標。模型需要學習將純噪聲變換為潛在數據分布的速度場。在實踐中，我們執行線性插值來構建時間步處的分布。給定條件，模型被訓練以預測目標速度：

其中，，。

潛在編碼該模型接受四種輸入：視頻、視頻相關文本、音頻相關文本和音頻。其中，視頻相關文本代表視頻描述（video caption），音頻相關文本代表音頻描述（audio caption）和語音文本。視頻由來自 CogVideoX 的 3D 因果視覺編碼器進行編碼。我們使用 Qwen3-8B Embedding 作為音頻和視頻描述的編碼器。

具有全注意力的單塔架構

圖 2 Klear 概述。該模型接受四個輸入：視頻、視頻相關文本、音頻相關文本和音頻。每個輸入均由各自的編碼器單獨編碼，然后饋入 MM-DiT。 MM-DiT模塊輸出視頻和音頻的隱變量，然后分別解碼為視頻和音頻。圖 2 Klear 概述。該模型接受四個輸入：視頻、視頻相關文本、音頻相關文本和音頻。每個輸入均由各自的編碼器單獨編碼，然后饋入 MM-DiT。 MM-DiT模塊輸出視頻和音頻的隱變量，然后分別解碼為視頻和音頻。

單塔 DiT (Single Tower DiT)為了確保徹底的音頻-視頻融合，我們采用了單塔架構。如圖 2 所示，遵循 Stable Diffusion 3 的設計，我們采用了多模態擴散 Transformer（MM-DiT），將所有模態的序列作為輸入并執行全注意力（Full Attention）機制。具體而言，有四種輸入：視頻、視頻相關文本、音頻相關文本和音頻。每種類型的輸入分別由各自的編碼器編碼為隱變量，然后輸入到 MM-DiT 中。MM-DiT 模塊在兩個流中輸出視頻和音頻的隱變量，隨后分別進行解碼以完成視頻和音頻的生成。

混合維度旋轉位置編碼 (MixD-RoPE)另一個關鍵的架構創新是混合維度旋轉位置編碼（Mixed Dimension Rotary Position Embedding, MixD-RoPE）。如圖 2(d) 所示，為了增強視頻中由各種縱橫比和持續時間引入的位置信息，我們在三個維度（即時間、寬度和高度）上對視頻嵌入應用了 3D RoPE 編碼。這種 3D RoPE 結合了視頻中的絕對和相對位置依賴性。對于音頻模態，我們采用了兼容的時間 1D 位置編碼，而其位置編號通過將視頻模態的最大時間位置 ID 加一來初始化。因此，我們構建了一個在視頻和音頻模態之間共享時間位置 ID 的 MixD-RoPE。

全方位全注意力 (Omni-Full Attention)以前的工作可能會采用分離的空間和時間注意力來降低計算復雜度，如 UniForm。然而，正如 CogVideoX 中所述，這種分離的注意力機制需要大量的隱式信息傳輸，顯著增加了學習的復雜性。其他工作為音頻和視頻生成分別定制了兩個 Transformer 塔（例如 AV-DiT, SyncFlow, JavisDiT, TAVGBench）。但是，它們通常采用多階段訓練方法，既復雜又消耗資源。這兩個塔必須首先分別進行預訓練，然后一起微調，增加了訓練時間和資源消耗。為了實現更高效的訓練和更有效的模態融合，我們采用了 3D 文本-視頻-音頻混合全注意力機制。如圖 2 所示，在 MM-DiT 模塊內，視頻、視頻相關文本、音頻相關文本和音頻的隱藏狀態首先被縮放和歸一化，然后拼接在一起進行注意力計算：

注意力值隨后被分割成獨立的隱藏狀態，經過縮放和歸一化、殘差連接和前饋網絡處理，隨后輸入到下一個 MM-DiT 模塊。結果，在聯合全注意力中實現了所有輸入模態的統一。

多任務漸進式訓練策略

隨機模態掩碼 (Random Modality Masking)為了學習用于聯合生成的通用且魯棒的音頻-視頻表示，我們在廣泛的任務譜系上訓練生成模型。因此，建議有選擇地調整音頻和視頻模態的查詢（Query）和鍵（Key）的掩碼。如果我們限制查詢和鍵僅針對視頻嵌入和視頻描述嵌入，模型將退化為 T2V（文本生成視頻）模型。同樣，將查詢和鍵限制為音頻嵌入和音頻文本嵌入會導致 T2A（文本生成音頻）模型。通過這種方式，模型不僅可以處理聯合生成，還可以保持單模態生成的能力。考慮到高質量音頻-視頻配對數據的稀缺性，我們的方法為訓練 T2VA 模型提供了一種替代方案。首先在 T2V 和 T2A 任務上預訓練 Klear，然后在音頻-視頻配對數據上微調我們的模型，最終構建一個 T2VA 模型。音頻和視頻生成的學習目標分別如方程 (7) 和方程 (8) 所示：

其中用于從組合的噪聲表示中提取音頻 token，而用于提取視覺 token。總之，和表示 T2A 和 T2V 的單模態任務。為了學習可泛化且魯棒的音頻-視覺相關性世界知識，我們還結合了 T2AV、I2V 和 I2AV 的多個任務。因此，整體多任務學習目標如下：

漸進式訓練策略 (Progressive Training Strategy)為了高效地訓練 AV 聯合生成，我們采用了漸進式多任務學習框架，并在所有階段應用隨機模態掩碼：

第一階段：預訓練 (Stage-I: Pre-training) 。在大規模、多場景的數據語料庫上預訓練模型，以獲得跨所有任務的原子生成能力，包括跨模態語義對齊、時間同步、高保真音頻合成和精確的視覺特征構建。這確保了單模態生成和聯合生成的基本能力，并為后續的后訓練提供了堅實的基礎。

第二階段：專項后訓練 (Stage-II: Specialized Post-training) 。然后，針對模型較弱的能力和任務進行專門訓練。在評估指標的指導下，我們自適應地重新平衡跨場景和任務的數據分布，以加強表現不佳的能力，同時保持整體能力。

第三階段：質量精煉后訓練 (Stage-III: Quality-Refined Post-training) 。最后，在人工精選的高質量數據集上微調模型，以精煉生成保真度并增強復雜場景中的魯棒性，從而提高感知真實感和整體生成質量。

數據集構建

本文數據集包含自動標注的樣本。該數據集包含單人語音、多人語音、唱歌和自然聲音片段，總體過濾后保留率為 27%。

數據集過濾

視頻過濾和場景分割 首先通過建模動態質量（主體運動比率、相機穩定性）、靜態質量（清晰度、美觀度、色彩飽和度）、內容自然度（無過多效果/水印）和安全性來過濾視頻質量。我們丟棄那些低分辨率、低 SNR/MOS 或超過 20% 靜音的視頻。然后，我們應用場景分割以確保每個樣本僅包含一個場景。

音頻過濾和后處理 通過刪除低 SNR、MOS、異常削波、失真或噪聲的樣本來過濾音頻數據，確保低于 20% 的靜音、高保真度和一致的格式。然后，我們評估視聽一致性，使用 Synchformer 進行時間對齊，使用 ImageBind 進行語義對齊，確保時間和語義維度的高度同步。

音頻引導數據分割

按音頻類型對數據集進行分區，將人聲與非人聲片段分開以形成聲音分割。從聲音子集中，我們創建歌唱、單說話者語音和多說話者語音分割，然后對每個語音應用密集的字幕。

密集標注和集成

使用語音轉錄本、音頻字幕和視頻字幕的專用模型來標注每個分割，包括元信息和詳細內容。對于語音和唱歌，提取說話者屬性（例如性別、年齡），而聲音分割僅接收音頻字幕。使用 Whisper-Large-v3、SenseVoice 和 Qwen2.5-Omni 進行轉錄，使用 Qwen2.5-Omni 和 Gemini 2.5-Pro 進行音頻字幕，并使用視頻專家模型進行詳細視頻標簽。所有標注都合并為統一的密集標題。

實驗

實驗設置

模型規模：Klear 包含 260 億 (26B) 參數，流匹配的前饋維度為 4096。

網絡結構：包含 32 層聯合擴散 Transformer (Joint Diffusion Transformer) 層，結合了多模態 RoPE。

編碼器：文本編碼器使用 1024 維的 TTS 文本編碼器，Caption 編碼器使用 Qwen2.5-7B。

VAE 設置：Audio-VAE：處理 44.1 kHz 輸入波形，生成 43 Hz 的 Embeddings（相對于輸入采樣率下采樣 1024 倍）。

Video-VAE：處理不同分辨率和幀率的視頻，生成 3 Hz 的 Embeddings（時空壓縮），在高度和寬度維度上均進行了 16 倍壓縮。

訓練細節：使用 Adam 優化器，初始學習率為。

結果對比與定性分析

本部分通過定性和定量分析展示了 Klear 在多個維度的優勢：

唇形同步 (Lip-Sync Accuracy) ：Klear 能夠生成與語音緊密同步的唇形運動，包括呼吸模式和面部表情的自然匹配。

情感表達 (Emotional Expressiveness) ：生成的視頻不僅口型對齊，還能展現出與語音語調一致的情感（如興奮、深思）。相比之下，Universe-1 和 Ovi 等基線模型常出現表情扭曲。

**歌唱與說唱 (Singing and Rap)**：在歌唱和說唱場景中，Klear 精確控制了音高、節奏與呼吸的對齊。例如顫音（Vibrato）和轉音（Melisma）能自然地與面部表情匹配。

音視頻同步 (AV Synchronization) ：背景音樂和音效（如樂器演奏）與視頻內容在時間上嚴格對齊，提升了沉浸感。

圖生音視頻 (Image to Audio-Video) ：在 TI2AV 任務中，Klear 保持了輸入圖像的高身份一致性（Identity Consistency），同時生成合理的攝像機運動，而基線模型常出現身份漂移。

定量對比：

雖然無法完全展示表格數據，但文中提到 Single Tower（本工作）在 ID 保持 (0.80 vs 0.62)、MOS 評分 (93.11 vs 62.02) 和音視頻一致性 (Sync-conf 6.787 vs 3.762) 等指標上均顯著優于 Dual Tower 架構。

消融實驗

架構有效性：通過對比單塔（Single Tower）和雙塔（Dual Tower）架構，驗證了將音頻和視頻特征輸入統一的 mm-DiT 分支并配合 Omni-Full Attention 的設計，能顯著提升模態間的對齊效果。

總結

Klear，一種新穎的用于高保真音視頻聯合生成的統一 Transformer 架構。通過引入 Omni-Full Attention（全方位全注意力機制），Klear 在單個流內無縫集成了視頻、音頻及其對應的文本條件，從而實現了卓越的音視頻同步和細粒度的語義對齊。為了促進穩健的多任務學習，我們設計了一種包含隨機模態掩碼（random modality masking）的漸進式訓練策略，使模型能夠在聯合生成和單模態生成（如 T2V、T2A、TI2AV 等）之間靈活切換，同時保持高質量的輸出。此外，我們構建了第一個帶有詳細且嚴格時間對齊的描述的大規模音視頻數據集，解決了該領域高質量配對數據稀缺的關鍵問題。大量的實驗表明，Klear 在生成質量、指令遵循能力和跨模態一致性方面顯著優于現有的開源方法，并取得了與最先進的閉源模型（如 Veo 3）相當的性能。我們的工作為更加統一、可擴展且語義一致的多模態生成系統鋪平了道路。

參考文獻

[1] Klear : Unified Multi-Task Audio-Video Joint Generation

原文標題 : 硬剛谷歌Veo3！快手Klear統一多任務音視頻聯合生成：創新單塔架構，口型語音完美同步

模態視頻音頻模型