炸裂！單卡實時生成分鐘級長視頻，北大&字節聯合推出14B大模型Helios，速度碾壓1.3B - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 正文

炸裂！單卡實時生成分鐘級長視頻，北大&字節聯合推出14B大模型Helios，速度碾壓1.3B

2026-03-17 16:31

作者：Shenghai Yuan等

解讀：AI生成未來

亮點直擊

長視頻防漂移的魯棒性：Helios 能夠在不依賴常見的防漂移啟發式方法（如自強制、錯誤庫或關鍵幀采樣）的情況下，生成具有強時間連貫性的分鐘級視頻。這得益于明確模擬漂移和消除重復運動的新穎訓練策略。

實時生成：該模型在不使用 KV 緩存、稀疏/線性注意力或量化等標準加速技術的情況下，實現了實時速度。這主要歸因于對歷史和噪聲上下文的深度壓縮、采樣步驟的減少以及基礎設施層面的優化。

高效訓練：Helios 可以在沒有并行或分片框架的情況下進行訓練，允許圖像擴散規模的批處理大小，同時將多達四個 14B 模型適配到 80 GB 的 GPU 內存中。Helios 引入了一種統一的輸入表示，原生支持文本到視頻 (T2V)、圖像到視頻 (I2V) 和視頻到視頻 (V2V) 任務。為了解決實時長視頻生成領域缺乏標準化評估的問題，發布了 HeliosBench，一個全面的開源基準測試。

總結速覽

解決的問題

在視頻生成領域，主流模型通常只能生成 5-10 秒的短視頻，并且生成時間長，難以達到實時性，更難以擴展到更長的視頻時長而不會出現內容漂移。盡管有一些方法聲稱能進行實時無限視頻生成，但它們通常依賴于容量有限的 1.3B 模型，這限制了其表示復雜運動和保留高頻細節的能力。此外，現有方法常常依賴于“訓練即推理”的自強制（Self-Forcing）等抗漂移啟發式方法，這顯著增加了訓練成本，并且漂移的魯棒性與訓練期間使用的片段長度緊密相關，導致在訓練范圍之外容易出現嚴重漂移。

提出的方案

Helios 提出了一個 14B 模型的解決方案，旨在實現實時長視頻生成，同時解決漂移和效率問題。具體方案包括：

統一歷史注入（Unified History Injection）：將長視頻生成視為無限視頻延續問題，通過表示控制（Representation Control）和引導注意力（Guidance Attention）高效地將歷史上下文注入噪聲上下文，從而將雙向預訓練模型轉換為自回歸生成器。

簡易抗漂移（Easy Anti-Drifting）：通過分析典型的漂移模式（位置漂移、顏色漂移和恢復漂移），提出簡單但有效的訓練策略，在訓練期間明確模擬漂移，并消除重復運動的根源（例如，通過相對旋轉位置編碼 Relative RoPE）。

深度壓縮流（Deep Compression Flow）：通過多項記憶分塊（Multi-Term Memory Patchification）和金字塔統一預測器-校正器（Pyramid Unified Predictor Corrector）大幅壓縮歷史和噪聲上下文，并減少采樣步驟，從而顯著降低計算成本和內存消耗。

基礎設施級優化：引入了進一步加速推理和訓練并減少內存消耗的優化措施，使得 14B 模型能夠在不使用并行或分片框架的情況下進行訓練。

應用的技術

Helios 融合了多種先進技術，包括：

自回歸擴散模型：作為核心架構，Helios 是一個 14B 的自回歸擴散模型。

統一輸入表示：通過統一輸入表示，模型原生支持文本到視頻（T2V）、圖像到視頻（I2V）和視頻到視頻（V2V）任務。

相對旋轉位置編碼（Relative RoPE）：用于解決位置漂移和重復運動。

第一幀錨定（First-Frame Anchor）：在訓練和推理過程中保留第一幀作為全局視覺錨點，以緩解顏色漂移。

幀感知損壞（Frame-Aware Corrupt）：通過模擬歷史漂移來提高模型對不完美歷史的魯棒性。

多項記憶分塊（Multi-Term Memory Patchification）：通過分層上下文窗口壓縮歷史上下文。

金字塔統一預測器-校正器（Pyramid Unified Predictor Corrector）：多尺度采樣器，用于減少噪聲上下文的冗余和計算量。

對抗分層蒸餾（Adversarial Hierarchical Distillation）：純教師強制方法，將采樣步驟從 50 減少到 3。

基礎設施級優化：包括 Flash Normalization 和 Flash RoPE 等 Triton 優化內核。

達到的效果

Helios 在性能上取得了顯著突破：

實時性能：在單個 NVIDIA H100 GPU 上，Helios 實現了 19.5 FPS 的實時視頻生成速度，甚至比一些 1.3B 模型更快。

分鐘級視頻生成：能夠生成分鐘級別的長視頻，并保持高質量和強大的時間連貫性，有效克服了傳統模型的漂移問題。

高質量輸出：在短視頻和長視頻生成方面，Helios 始終優于現有方法，并在視覺質量、文本對齊和運動動態方面表現出色。

訓練效率：實現了在不使用并行或分片框架的情況下訓練 14B 模型，批處理大小可與圖像模型相媲美。

開放基準：發布了 HeliosBench，一個包含 240 個提示的測試集，涵蓋了從超短到長視頻的四種時長范圍，以推動社區的進一步發展和標準化評估。

Helios

在過去的一年里，Diffusion Transformers 極大地推動了視頻生成的進步，甚至展現出了作為“世界模型”的潛力。但隨著大家對視頻質量要求的提高，一個致命的痛點始終懸在所有開發者和創作者頭頂：太慢了！主流的視頻大模型不僅難以實現實時生成，而且生成的長度往往被限制在 5 到 10 秒。即便只是這短短幾秒的視頻，動輒也需要長達幾十分鐘的渲染合成時間！這對于游戲引擎或交互式生成應用來說，簡直是噩夢。

但是今天，這個僵局被徹底打破！

北京大學、字節跳動、Canva 以及成都阿努智能的研究團隊聯合重磅推出了全新的大模型 —— Helios 。這是業界首個能夠在單張 NVIDIA H100 GPU 上，以驚人的 19.5 FPS 實時運行的 14B 視頻生成大模型！

它不僅支持分鐘級的超長視頻生成，還在畫質上完美媲美了強大的基礎大模型。

破局：三大維度的“反常規”降維打擊

為什么說 Helios 是一次顛覆？因為目前社區里號稱能做到“實時無限生成”的方法，大多只能依賴 1.3B 級別的小模型（比如基于 Wan2.1 1.3B）。小模型的容量限制了它們表達復雜運動的能力，往往會導致高頻細節模糊。

而 Helios 帶著 14B 的龐大參數量，硬生生地在三個關鍵維度實現了突破：

1.極致提速：不用常規加速包，照樣快到起飛為了實現實時生成，現有模型通常會使用 KV-cache、稀疏/線性注意力機制或量化等標準加速技術。但 Helios 完全拋棄了這些常規套路。

團隊提出了“深層壓縮流（Deep Compression Flow）”，通過“多期記憶補丁化（Multi-Term Memory Patchification）”大幅減少了歷史上下文的冗余，又通過“金字塔統一預測校正器（Pyramid Unified Predictor Corrector）”減少了噪聲上下文的冗余。這使得輸入到 DiT 的 token 數量急劇減少，將計算成本降到了與 1.3B 模型相當甚至更低的水平。

更狠的是，他們引入了“對抗性層次蒸餾（Adversarial Hierarchical Distillation）”技術，僅使用自回歸模型作為教師，將采樣步數從傳統的 50 步直接砍到了 3 步。

2.長時保真：徹底告別長視頻“崩潰” 生成長視頻最怕什么？“漂移（Drifting）”！視頻一長，畫面位置就開始亂跑、顏色變異、畫質糊成一團。以前大家為了防漂移，不得不使用極其耗時的自強制（self-forcing）或誤差庫（error-banks）策略。

Helios 給出了更優雅的“簡易防漂移（Easy Anti-Drifting）”方案：

消除重復動作：使用“相對旋轉位置編碼（Relative RoPE）”解決了 RoPE 周期性與多頭注意力之間的沖突，從源頭掐斷了畫面重復。

穩住全局色彩：采用“首幀錨點（First-Frame Anchor）”機制，在訓練和推理中始終保留第一幀作為全局視覺錨點，有效緩解顏色突變。

模擬真實誤差：提出“幀感知破壞（Frame-Aware Corrupt）”，在訓練時主動對歷史幀進行曝光調整、加噪或模糊等破壞，讓模型提前適應不完美的歷史畫面，從而極大地提升了容錯率。

3.極致顯存優化：單卡 80G 塞下 4 個 14B 模型！訓練一個 14B 的視頻模型通常離不開龐大的并行計算集群和復雜的切片框架。但 Helios 團隊在基礎設施層面進行了極限優化。

令人瞠目結舌的是，他們實現了在不使用任何并行或分片框架的情況下，在單張 80GB 顯存的 GPU 內最高適配了 4 個 14B 模型！這使得模型能夠使用與圖像擴散模型同等規模的 Batch Size 進行訓練，極大地降低了算力門檻。

六邊形戰士：長短視頻雙殺，T2V/I2V/V2V 全能 Helios 是一個原生支持多種任務的全能選手。通過統一的輸入表示控制，如果歷史上下文全為零，模型就執行文本生成視頻（T2V）；如果只有最后一幀非零，就執行圖生視頻（I2V）；否則執行視頻生成視頻（V2V）。

為了驗證 Helios 的實力，研究團隊還專門構建了針對實時長視頻生成的評測基準 HeliosBench，包含 240 個覆蓋不同長度維度的提示詞。

實驗結果毫無懸念：無論是在短視頻還是長視頻的生成上，Helios 始終擊敗了此前的各種先進方法。它不僅速度奇快，在視覺質量、文本對齊和運動動態方面都表現卓越。

全面開源！屬于社區的狂歡

在這個閉源大模型大行其道的時代，最讓人振奮的莫過于 Helios 團隊的開源精神。團隊Day-0支持NPU、Diffusers、vLLM、SGLang多個推理后端，并且全面開放了訓練/推理代碼以及模型權重。

結語：重塑視頻生成格局，開啟“實時世界模型”新紀元

Helios 的出現，打破了長久以來的算力與質量魔咒。它用硬核的成績向世界證明：百億參數規模（14B）的視頻大模型，完全可以通過極致的算法與系統協同優化，在單卡 H100 上實現比 1.3B 小模型更快的實時推理（19.5 FPS），并輕松拿下分鐘級的超長生成！它在一個統一的框架內完美拿下了文本生視頻（T2V）、圖生視頻（I2V）和視頻生視頻（V2V）三大核心任務，將高質量長視頻的生成門檻，從“需要極其昂貴的算力集群”硬生生拉低到了“單卡可跑”。這不僅是一場底層技術的大秀，更是一張通往未來的門票。想象一下，實時交互式視頻生成、下一代動態游戲引擎、甚至是真正的“實時世界模型（World Models）”，都因為 Helios 的突破而變得觸手可及。

參考文獻

[1] Helios: Real Real-Time Long Video Generation Model

原文標題 : 炸裂！單卡實時生成分鐘級長視頻，北大&字節聯合推出14B大模型Helios，速度碾壓1.3B

Helios 視頻模型

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號