訂閱
糾錯
加入自媒體

超越Veo和Runway!可靈開源Kling-Omni:一個模型通吃視頻生成、剪輯和多模態推理!

2025-12-23 13:36
AI生成未來
關注

作者:Kling 團隊

解讀:AI生成未來

亮點直擊

統一的通用框架:Kling-Omni將多樣化的視頻生成、編輯和智能推理任務整合到一個端到端的通用生成框架中,打破了傳統碎片化的處理模式。

創新性的多模態視覺語言 (MVL) 范式:引入MVL作為交互機制,結合文本指令、參考圖像和視頻上下文,構建統一的輸入表示,顯著提升了模型理解和推斷用戶復雜意圖的能力。

強大的模型智能和推理能力:通過MVL范式,模型超越了簡單的像素級合成,展現出深度理解語義、物理邏輯和進行智能推理的潛力。

全面的訓練與優化策略:構建了包括指令預訓練、監督微調、強化學習和模型蒸餾在內的多階段訓練策略,并通過優化的數據管道和基礎設施確保了大規模訓練的效率和可擴展性。

卓越的性能表現:在人類評估中,Kling-Omni在多模態引用生成、智能編輯和復雜指令遵循等多個關鍵任務上,表現出超越現有領先模型的先進性能。部分效果展示

總結速覽

解決的問題

當前視頻生成、編輯和智能推理任務之間存在功能分離,導致工具碎片化,難以處理多樣化的用戶輸入并實現高級別的感知與創作協同。具體挑戰包括:

碎片化的視頻生成與編輯方法:現有模型通常專注于特定任務,如文本/圖像到視頻合成,且依賴靜態文本編碼器,難以捕捉復雜視覺細節。視頻編輯和理解也常依賴獨立的、任務特定的管道或外部適配器,造成集成和擴展困難。

交互范式的限制:僅依賴自然語言提示難以捕捉視覺想象的細微之處,文本在描述精確空間關系、視覺參考和時間動態方面存在固有局限,導致用戶意圖與模型輸出之間存在差距。

模型智能不足:現有模型在像素級合成方面表現出色,但往往缺乏語義推理能力,難以理解場景的底層物理或邏輯,更像是被動生成器而非能推斷復雜用戶意圖的智能代理。

提出的方案

Kling-Omni是一個通用生成框架,旨在通過統一視頻生成、編輯和智能創作任務來解決上述挑戰。核心方案包括:

一體化通用框架:將不同的視頻生成、編輯和智能推理任務整合到一個端到端的整體系統中,摒棄了碎片化的管道方法。

多模態視覺語言 (MVL) 交互范式:引入MVL作為新的交互機制,通過結合自然語言作為語義骨架和多模態描述,構建統一的輸入表示。這增強了模型的基礎理解和控制,將文本和視覺信號視為一種內聚的語言。

強化模型智能與推理能力:通過MVL范式,模型能夠深度理解并推斷用戶意圖,超越簡單的生成,展現出意想不到的推理能力。

應用的技術

Kling-Omni的實現依賴于多種先進技術和策略:

核心架構:基于與視覺-語言模型對齊的擴散Transformer構建,建立了一個共享嵌入空間,實現深度跨模態交互。

三階段訓練策略預訓練:利用大規模文本-視頻配對數據,結合指令驅動的文本到視頻生成和圖像到視頻任務,建立對多樣指令格式和MVL上下文的敏感性。

監督微調:包括“持續訓練”以對齊復雜MVL輸入(涵蓋參考到視頻生成、圖像/視頻編輯和語義理解任務)和“質量微調”以提升生成質量和多模態理解能力。強化學習 (RL):采用直接偏好優化(DPO)來彌合模型輸出與人類審美偏好之間的差距,優化運動動力學和視覺完整性。

模型加速:開發了兩階段蒸餾方法,包括軌跡匹配蒸餾和分布匹配蒸餾,顯著減少推理的計算成本(從150 NFE壓縮到10 NFE)。

Prompt Enhancer (PE) 模塊:基于多模態大語言模型(MLLM)構建,用于將多樣化用戶提示映射到與模型訓練數據一致的分布上,并通過SFT和RL進行訓練,以提高生成質量和物理合理性。

多模態超分辨率模塊:采用級聯擴散框架,基于基礎模型的低分辨率潛在特征和MVL信號進行條件設置,以合成高保真、細粒度的視覺細節和紋理,并利用局部窗口注意力、偏移窗口策略和非對稱注意力機制來提高效率。

訓練優化:包括多模態數據管道和負載均衡(采用啟發式調度策略、微批次級彈性ulysses并行切換機制和兩層all-to-all策略)以及高效多模態框架和激活減少(使用MM-FlashAttention和選擇性重計算)。

達到的效果

Kling-Omni通過綜合評估展現了卓越的能力和顯著的效果:

卓越的生成和編輯性能:在OmniVideo-1.0基準測試中的人類評估表明,Kling-Omni在圖像參考和視頻編輯任務上,在動態質量、提示遵循、身份一致性和視頻一致性等所有評估維度上均優于行業領先模型(如Veo 3.1和Runway-Aleph)。

強大的上下文生成能力:在上下文中展現出色的生成能力,包括多模態和多維度精確引用(如圖像、視頻和文本輸入,以及身份、狀態、風格、鏡頭構圖和動作等多個引用維度)。

智能推理編輯能力:能夠進行推理驅動的編輯,例如通過解釋圖像序列生成連貫的時間敘事,以及實現高自由度的交互式編輯,允許用戶沿任意維度(元素、風格、場景、鏡頭)進行內容控制。

復雜指令遵循能力:能夠在一個生成過程中處理組合的復雜指令,無需順序任務執行或手動分解,簡化了工作流程并避免了錯誤累積。

更廣泛的智能潛力:探索性研究表明,模型能夠實現視覺信號驅動的可控生成和推理增強型生成,例如通過GPS坐標實現地理空間推理,以及通過理解時間動態進行時間推理,從而實現上下文感知的場景合成和智能問題解決。

高效率:通過模型蒸餾,推理效率顯著提升,合成單個視頻樣本的計算成本大幅降低。

架構方法

Kling-Omni是一個通用生成框架,旨在直接從多模態視覺語言(MVL)輸入合成高保真視頻。本文采用端到端視角,彌合了各種視頻生成、編輯和智能推理任務之間的功能分離,將它們整合到一個整體系統中。與分離的管道方法不同,Kling-Omni支持多樣化的用戶輸入,包括文本指令、參考圖像和視頻上下文,將它們處理成統一的多模態表示,以提供電影質量和高度智能的視頻內容創作。為了支持這些功能,本文構建了一個全面的數據系統,作為多模態視頻創作的基礎。該框架通過高效的大規模預訓練策略和推理基礎設施優化進一步增強。

如下圖1所示,該架構包含三個關鍵組件,并由強大的訓練和基礎設施生態系統提供支持。

Prompt Enhancer (PE) 模塊:為了彌合異構用戶輸入和模型表示之間的鴻溝,PE模塊采用多模態大語言模型(MLLM)來理解復雜的輸入,并將其與學習到的世界知識進行綜合。通過這樣做,它推斷出創作者的特定創作意圖并相應地重新組織提示。這些經過優化的特征作為Omni-Generator的輸入。

Omni-Generator:處理共享嵌入空間中的視覺和文本標記,實現深度跨模態交互,確保強大的視覺一致性和精確的指令遵循。

多模態超分辨率模塊:對原始MVL信號進行條件處理,以細化高頻細節。

整個系統由漸進式多階段訓練策略驅動,包括指令預訓練、監督微調到強化學習(RL),并在利用3D并行和模型蒸餾的高度優化基礎設施上運行,以提高訓練和推理效率。

Omni-Generator的訓練策略

預訓練 在預訓練階段,本文利用大規模文本-視頻配對數據,向模型灌輸強大的基于指令的文本到視頻生成能力。為確保模型能適應廣泛的用戶輸入,本文精心策劃了從簡潔提示到詳細敘述的各種字幕,從而為理解多樣化的指令格式奠定了堅實的基礎。此外,為促進模型對多模態視覺語言(MVL)上下文的敏感性,本文將圖像到視頻任務注入訓練混合中,在視覺和文本模態之間建立早期協同作用。

監督微調

持續訓練:此階段側重于使模型與復雜的MVL輸入深度對齊。本文引入了一個全面的課程,包括參考到視頻生成、圖像/視頻編輯以及一系列用于語義理解的專業任務。這些任務的特點是圖像、視頻和文本條件的交錯格式。通過將模型暴露于此類異構且信息豐富的數據,有效增強了其解釋復雜指令和執行初步推理的能力。

質量微調:為了進一步提高模型的生成質量和多模態理解能力,本文精心構建了一個高質量數據集,其特點是任務分布均衡和視頻標準卓越。每個數據樣本都與精確的指令注釋配對。通過對這個優質數據集進行迭代微調,本文逐步優化模型的輸出分布,使其進入卓越視覺質量和理解能力的領域。

強化學習為了彌合模型輸出與人類審美偏好之間的差距,本文采用直接偏好優化(DPO)。本文傾向于DPO而不是像GRPO這樣的替代算法,因為它繞過了后者所需的計算成本高昂的軌跡采樣,提供了簡化的單步擴散正向過程。優化目標集中在關鍵感知指標上,特別是運動動力學和視覺完整性。

模型加速 (蒸餾)本文開發了一種兩階段蒸餾方法,以顯著降低推理的計算成本,同時保持輸出保真度。加速管道結合了軌跡匹配蒸餾和分布匹配蒸餾,將模型推理壓縮到10個函數評估(NFE),而蒸餾前合成單個視頻樣本的原始成本為150個NFE。

Prompt Enhancer

為解決用戶輸入固有的模糊性和高方差問題,本文為Kling-Omni引入了一個Prompt Enhancer (PE) 模塊。PE的主要功能是將多樣化的用戶提示映射到與模型訓練數據一致的分布上。這種對齊對于提高生成質量至關重要,特別是在身份保持、空間連貫性和色彩保真度方面,同時通過文本推理提高物理合理性。PE基于多模態大語言模型(MLLM)構建,以適應多模態用戶輸入。

多模態超分辨率

為了提高生成器的訓練和推理效率,本文提出了一種用于視頻超分辨率(VSR)的級聯擴散框架。在基礎模型的低分辨率(LR)潛在特征和多模態視覺語言(MVL)信號的條件下,本文的VSR模型作為統一框架運行。這種內聚設計能夠合成高保真、細粒度的視覺細節和紋理,滿足各種應用的需求。如下圖2所示,本文采用基礎模型的架構,并使用其預訓練權重初始化VSR模塊。

訓練優化

本文開發了一個端到端訓練系統,優化多模態數據處理、并行執行和計算內核,以實現大規模預訓練。

多模態數據管道和負載均衡為了處理文本、圖像和視頻數據之間顯著的序列長度變化,本文采用啟發式調度策略來減少管道并行(PP)和數據并行(DP)組之間的不平衡氣泡。如圖3所示,訓練循環分為兩個階段:在線VAE/文本編碼器推理和DiT訓練。中央調度器將樣本分配給DP組,以確保負載均衡。

高效多模態框架和激活減少在DiT訓練中,輸入被展平為1D序列,并具有最小的填充,并且計算圖被重構以保留模態無關的計算,從而最大程度地減少冗余數據移動和布局轉換開銷。本文開發了一種多模態FlashAttention運算符(MM-FlashAttention)的打包版本,以支持單個內核中的任意跨模態掩碼和變長序列,同時保持高性能。

實驗人類評估

為了驗證Kling-Omni與其他領先視頻生成和編輯模型相比的性能,本文構建了OmniVideo-1.0基準測試,其中包含了一套全面且具有代表性的場景。本文收集了大量高質量的多模態數據集,包括圖像、主題和視頻作為元素。利用該數據集,本文設計了500多個案例,以全面評估模型引用、集成和編輯不同元素的能力。本文從多個維度精心構建了評估集,包括:主題類別(包含人類、卡通人物、動物、服裝和道具)、應用場景(如專業視頻制作、電子商務廣告和社交媒體內容創作)以及額外挑戰(涉及復雜動作、廣角視角、情感表達、跨風格集成和多元素融合)。

本文與從專業導演到普通用戶的創作者合作。通過收集不同用戶群體的需求,本文構建了一個全面、結構化和可解釋的評估系統,以評估模型的整體能力。該系統主要包括以下核心指標:

動態質量:評估模型的時序性能,關注幀間連續性、屬性穩定性以及運動相對于物理定律和常識動力學的合理性。

提示遵循:反映用戶的創作意圖,衡量模型指令遵循的準確性。

身份一致性:評估模型在視頻中不同視角、表情、復雜運動和光照條件下,保持參考主體(如人物、物體或風格)的身份和結構特征的能力。

視頻一致性:專門針對視頻編輯任務,衡量模型對未編輯區域的忠實度。

本文基于OmniVideo-Benchmark 1.0進行了雙盲人類評估,邀請領域專家和專業標注員將Kling-Omni與行業領先模型進行比較。評估人員根據定義的維度進行并排定性評估,將相對性能分為三類:G(好)、S(相同)和B(差)。

如下圖7所示,Image-Reference和Video-Editing任務的聚合GSB指標分布呈現了結果。本文將Kling-Omni與Veo 3.1在圖像參考任務上進行比較,并與Runway-Aleph在視頻編輯任務上進行比較。結果表明,Kling-Omni在所有評估維度上都不同程度地優于競爭對手,驗證了其在復雜生成和編輯場景中的魯棒性和可靠性。

通過Kling-Omni釋放想象力

本節展示了Kling-Omni的功能。如下表1所示,列出了代表性功能,包括但不限于基于引用的生成、指令驅動的編輯、視頻引用、幀條件生成、組合生成、視覺提示理解、通過智能推理實現的生成等。

多模態和多維度精確引用Kling-Omni通過多模態和多維度引用實現精細可靠的控制,如上表1所示。該模型支持基于多種輸入形式(圖像、視頻和文本)的靈活條件設置,并允許用戶指定多個維度(包括但不限于身份、狀態、風格、鏡頭構圖和動作)的引用信息。

時間敘事

此功能使模型能夠解釋一組相關圖像(無論是描繪連續的單一鏡頭還是復雜的多鏡頭序列),并生成全面的視頻演示,如下圖15和下圖16所示。通過智能地彌合幀之間的視覺間隙,模型構建了一個連貫、按時間順序流動的敘事,將靜態故事板轉換為動態視頻體驗。

高自由度交互式編輯

除了傳統的編輯操作(如內容的添加、刪除和替換),Kling-Omni還支持不受時間和空間限制的無約束交互式操作,允許用戶沿任意維度(包括元素、風格、場景和鏡頭)控制視頻內容,如下圖17至下圖23所示。

靈活的任務組合

如圖24和圖25所示,該模型能夠在一個生成過程中處理組合的復雜指令,而無需順序任務執行或手動分解。這種統一的方法不僅簡化了工作流程,還避免了順序編輯中通常出現的錯誤累積,確保了更一致和準確的結果,同時提高了整體生成效率。

Kling-Omni的更廣泛潛力

本文對智能推理增強型生成進行了探索性研究,集成了一個更強大的視覺-語言推理引擎,以彌合抽象用戶提示與具體視覺執行之間的差距。如下圖27所示,該系統利用世界知識,例如解釋GPS坐標或推斷時間動態,將用戶指令置于真實世界語境中。例如,它可以解碼原始地理坐標以檢索相關的地標知識(例如埃菲爾鐵塔),從而實現上下文感知的場景合成。此外,如下圖28所示,該系統展示了推理能力,包括用于排序任務的幾何和關系推理,以及用于完成視覺謎題的語義結構推理。

結論 

Kling-Omni,一個通用生成模型,它彌合了視頻生成、編輯和多模態推理之間的傳統界限。通過利用與視覺-語言模型對齊的擴散Transformer,Kling-Omni建立了一個共享嵌入空間,實現了深度的跨模態交互。Kling-Omni有效地用一個單一的整體系統取代了碎片化的專家模型,該系統能夠處理多模態視覺語言(MVL)輸入,以生成高保真、物理上可信的視頻內容。本文的貢獻不僅限于模型架構,還包括強大的訓練和數據基礎設施。本文構建了一個全面的數據工程管道,確保了時間穩定性和語義對齊,并實施了高度優化的基礎設施,以確?蓴U展性和效率。廣泛的評估表明,Kling-Omni在復雜任務中取得了最先進的性能。展望未來,Kling-Omni代表著構建能夠感知、推理、生成并與動態復雜世界交互的多模態世界模擬器的基礎性一步。

參考文獻

[1] Kling-Omni Technical Report

       原文標題 : 超越Veo和Runway!可靈開源Kling-Omni:一個模型通吃視頻生成、剪輯和多模態推理!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號