蘋果發(fā)布VSSFlow模型:讓無聲視頻「開口說話」,加速為國行版AI鋪路?
有點用,但又不是那么有用。
2024年的WWDC上,蘋果公布了自家的人工智能平臺Apple Intelligence。2024年秋季,Apple Intelligence在美國開啟測試,后續(xù)逐漸拓展到更多地區(qū)。
不過,到目前為止,國行Apple Intelligence仍然沒有落地。對此,蘋果官方的說法是「Apple 智能推出時間依監(jiān)管部門審批情況而定。」

(圖源:蘋果)
日前,知名蘋果爆料網站9to5Mac發(fā)文稱,蘋果聯(lián)合中國人民大學推出了VSSFlow新型AI模型,宣布在音頻生成技術取得了突破。蘋果此舉不僅是一次AI技術實力的展示,同時似乎也在釋放和國行Apple Intelligence相關的積極信號,Apple智能真的要來了嗎?
無聲視頻自動配音,VSSFlow能解決哪些難題?
通過蘋果和中國人民大學聯(lián)合發(fā)布的論文以及9to5Mac的相關報道,我們可以了解到,VSSFlow的主要亮點是打破了以往「環(huán)境音」和「對話語音」需要分別生成的限制。具體來說,以往的大部分視頻生成語音模型,都是把音頻中的環(huán)境音和人聲分開處理,而VSSFlow的優(yōu)勢在于一站式同步生成。

(圖源:arXiv)
根據(jù)官方的說法,VSSFlow模型生成環(huán)境音的方式是每秒讀取10幀視頻畫面作為線索,然后在隨機噪聲中逐步「構建」出畫面的聲音。這個表述聽起來很簡單,但實現(xiàn)起來并不容易。一段沒有聲音的視頻,AI當然也不可能「聽」得到,本質上還是根據(jù)視頻畫面來「猜」最接近最真實的環(huán)境音,比如判斷出畫面中的具體現(xiàn)實場景,再匹配相應的環(huán)境音。
VSSFlow對應的論文提到了關鍵的技術點——Flow-matching(流匹配),在AI世界中,模型需要通過雜亂的信息推理生成最可能的聲音。視頻畫面中藏著聲音對應的線索,AI就是要在這些雜亂的「噪音」和目標聲音之間建立起到達的路徑,也就是「流」。建立「流」的關鍵,是對視頻畫面和文字腳本的準確理解。

(圖源:arXiv)
至于文本生成語音的能力,在早期就存在很多解決方案。比如說,早前的智能手機以及很多閱讀App,都有TTS(文字轉語音)功能,它們只要把文字直接轉成語音庫里的預制音頻即可。不過,這種方案比較簡單粗暴,聲音聽起來機械感明顯,長句斷句會很奇怪。AI時代,大模型加持的文字轉語音體驗得到了大幅升級,真人感更明顯,無論是斷句、語氣還是情緒,都逐漸能做到以假亂真。
VSSFlow的視頻生成人聲技術,特點在于通過視頻腳本+視頻畫面來生成音頻,可以通過畫面中人物的口型、表情等因素來匹配語音的語氣、情緒、節(jié)奏等,從而生成更真實的AI人聲。
開頭說到了,VSSFlow能夠同時為視頻生成環(huán)境聲和人聲,根據(jù)官方描述,他們將視頻信號和文本轉錄一起嵌入到音頻生成的過程中。為了達到這一效果,研究人員進行了混合數(shù)據(jù)訓練,具體表現(xiàn)為VSSFlow模型訓練時使用了無聲視頻配環(huán)境音、無聲說話視頻配文本、以及純文本轉語音的數(shù)據(jù)。
簡單總結下,VSSFlow是一款視頻生成音頻大模型,能同時為無聲視頻生成環(huán)境聲和人聲,核心優(yōu)勢在于通過流匹配技術提升了生成效率和音頻質量。
用AI生成語音,有點用但仍然太局限
VSSFlow幫助視頻生成環(huán)境音和人聲的功能,具體能應用到哪些場景呢?小雷能想到的大概就是老舊電影的音頻修復、失語障礙人士的輔助音頻、影視作品配音等。畢竟,VSSFlow仍然需要依賴文字腳本來生成人聲,不能只根據(jù)視頻畫面來推測出人聲,這將讓它更接近于一款更好用的配音工具。
目前市面上和VSSFlow最接近的大模型,應該是谷歌的Deepmind V2A(視頻轉音頻)。V2A也是根據(jù)視頻畫面和文字腳本來生成對應的環(huán)境音和人物對話,它的技術方案是在視覺信息和聽覺信息之間建立起映射機制。
具體來說,視覺信息包含的主要是空間、色彩、形狀、運動等,聽覺信息一般是音色、頻率、節(jié)奏等,二者是不同的語義。將視覺特征和聽覺特征進行多層次的映射,持續(xù)訓練后,AI就能根據(jù)視頻畫面的信息「猜」出它應該匹配何種聽覺特征的音頻。

(圖源:谷歌)
不過,在小雷看來,視頻生成語音技術的應用場景,還是略微局限了一些。對普通用戶來說,這項功能的作用不是特別大。作為對比,當下流行的視頻生成技術,更加受創(chuàng)作者和普通用戶歡迎。使用者只要用一段話、幾張圖片,就能快速生成一段高真實度的視頻,實用性和趣味性都能瞬間拉滿。比如最近的Seedance 2.0,剛上線就火爆全網,大量用戶第一時間就嘗鮮體驗了。

(圖源:雷科技,用Seedance 2.0制作)
但給無聲視頻配音這個場景,大部分人都很難遇到,畢竟我們不會無緣無故制作或者得到一段無聲視頻。它更加適用于影視制作行業(yè)中的某些細分領域,比如傳統(tǒng)擬音師的工作。
我們在很多影視作品中聽到的環(huán)境聲和動作聲,其實都是擬音師在錄音棚里錄的,比如敲擊椰子殼模擬馬蹄聲、搓動門鎖模擬手槍上膛聲等。同時,VSSFlow根據(jù)腳本和畫面生成人聲的功能,和動漫聲優(yōu)所做的配音工作很接近。可以想象到的是,音頻生成技術未來對影視行業(yè)產生的沖擊力會相當大。
同時,VSSFlow為代表的語音生成模型,固然不太可能作為獨立的應用向普通用戶推出,但和其他AI技術結合,會發(fā)揮出更大作用。比如它可以和視頻生成模型相結合,現(xiàn)在流行的視頻生成模型制作出來的視頻,大多會有配音。
不過,很多AI生成視頻的背景音和人聲質量都相對一般,如果有VSSFlow之類的語音生成模型助力,那么整體的效果會更好。實際上,谷歌Deepmind的V2A技術并沒有以單獨模型的方式發(fā)布,而是將部分功能整合在谷歌自家的視頻生成模型Veo中。
蘋果聯(lián)手國內重點高校,國行版AI要來了?
對于蘋果產品,VSSFlow能落地的場景,小雷首先想到的是無障礙功能。目前蘋果設備的輔助選項中已經有實時語音功能,即用戶可以手機上打字,然后轉成音頻。

(圖源:蘋果)
如果VSSFlow能運用到這個場景里,那么語言障礙人士就可以在FaceTime之類的視頻通話中,邊輸入文字,邊讓AI結合視頻畫面生成更自然的人聲。當然,這項技術也能作為蘋果在AI領域的儲備,為后續(xù)視頻生成等功能或應用提供助力。
而且,蘋果和國內重點高校合作、聯(lián)合發(fā)布VSSFlow,無疑是在釋放愿意深耕國內市場、推動國行AI落地的積極信號。在VSSFlow的論文中,署名者中六位是來自中國人民大學的學者,三位是蘋果的研究員。在這個項目中,蘋果扮演的角色更接近于支持者、參與者而非主導者。
目前,國行版Apple Intelligence尚未推出。按照蘋果的政策,國行版iPhone等設備無法使用外版Apple Intelligence,未來外版硬件產品也不能用國行版Apple Intelligence。
基本可以確定的是,國行版Apple Intelligence的落地過程中,蘋果會和國內AI巨頭達成合作。之前的傳言中,百度、阿里、DeepSeek等都是蘋果接觸過的廠商。2025年,彭博社知名記者馬克·古爾曼曾透露,國行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不過,國行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程難題,同時國行AI的表現(xiàn)比較一般。
不過即便忽略國行版AI缺位的事實,蘋果的AI布局相對其他廠商是比較落后的。目前而言,海外版Apple Intelligence實現(xiàn)的功能和場景,其實沒有太多特別之處,反而因為其相對羸弱的AI實力而被吐槽。比如說,蘋果近年推出的生成式圖片App「圖樂園(Image Playground)」,就飽受批評。這款App對圖片生成行為的管控非常嚴格,很多用戶的需求都被拒絕,被吐槽為只適合兒童使用的產品。
Apple Intelligence還引入了外部力量來幫忙,主要是ChatGPT,后續(xù)還有Gemini。其中,ChatGPT植入到了Siri中,讓Siri更像一個完全體的智能助理而非傳統(tǒng)的語音助手。另外,AI相關的功能還有寫作助理、圖片消除等。只是,蘋果這些所謂的AI功能,實際體驗起來震撼感不夠強,有點小打小鬧的感覺。
而且,蘋果為iOS 26畫的AI餅,至今還沒讓用戶吃上。根據(jù)最新消息,iOS 26.4的首個測試版將于2月底推送,會給AI帶來一點變化。這次系統(tǒng)升級,主要就是Siri會得到增強,包括擁有上下文理解能力、跨應用操作能力和屏幕感知識別能力。坦率說,這些升級仍然不會有什么驚喜感,只是多少會讓iOS 26變得更好用點。
作為對照組的三星,早在2024年就推出了AI手機,并且快速完成了國行手機的AI本地化。具體來說,國行版手機中負責文本理解和生成的大模型為百度的文心一言,具體在筆記助手、錄音轉錄摘要等場景中發(fā)揮作用;它的生成式圖片編輯器則集成了美圖的奇想智能模型,實現(xiàn)智能消除、擴圖等功能;國行版的即圈即搜功能,后臺數(shù)據(jù)來源于百度搜索和京東。另外,三星國行手機也有部分端側AI功能,通話實時翻譯和分屏同傳翻譯,都是基于三星自研本地AI模型實現(xiàn)的。

(圖源:三星)
換言之,蘋果國行AI方案,大體上抄三星的作業(yè)就行。相比海外版Apple Intelligence,國行版的核心工作就是將其中涉及到的大模型替換成國內的,三星已經做出了示范。
小雷個人認為,蘋果國行AI進展緩慢,主要責任還是在蘋果身上。畢竟,海外Apple Intelligence的落地過程也是一路磕磕絆絆,而且AI功能的實際體驗很一般。以這樣的執(zhí)行力去推動國行Apple Intelligence項目,效率可想而知。
當然,不管怎么說,蘋果參與的VSSFlow的到來,至少說明了蘋果在AI領域不是毫無作為。如果蘋果能持續(xù)在AI研究領域產出成果,那么蘋果硬件AI化進程將從中獲益,這才是構建未來蘋果底層競爭力的關鍵。

蘋果Apple IntelligenceVSSFlowAI大模型
來源:雷科技
本文圖片來自:123RF 正版圖庫 來源:雷科技
原文標題 : 蘋果發(fā)布VSSFlow模型:讓無聲視頻「開口說話」,加速為國行版AI鋪路?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 人形機器人“第一股”來了!宇樹科技即將上會
- 2 SpaceX計劃今日確定IPO條款,6月12日掛牌上市,AI業(yè)務成增長新引擎
- 3 3000字深度|物理AI有何魔力?讓孫正義、黃仁勛、孫宇晨同時“上頭”
- 4 Agnes AI 發(fā)布三大模態(tài)核心模型:文本、圖像、視頻
- 5 騰訊云宣布調價:DeepSeek-V4降價97%
- 6 海清智元即將登陸港交所:收入大增利潤承壓,經營現(xiàn)金流惡化
- 7 SpaceX上市拒絕中港投資者:資本開啟地緣政治時代
- 8 2026上半年具身智能復盤,瘋狂融資潮背后誰才是“印鈔機”
- 9 深度 | 一天燒1億:第一次“Token大撤退”,來了
- 10 支付寶推出全球首個Token Pay服務,AI時代的支付要變天了?
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市


分享













