蘋果發(fā)布VSSFlow模型：讓無聲視頻「開口說話」，加速為國行版AI鋪路？

2026-02-12 09:43

有點用，但又不是那么有用。

2024年的WWDC上，蘋果公布了自家的人工智能平臺Apple Intelligence。2024年秋季，Apple Intelligence在美國開啟測試，后續(xù)逐漸拓展到更多地區(qū)。

不過，到目前為止，國行Apple Intelligence仍然沒有落地。對此，蘋果官方的說法是「Apple 智能推出時間依監(jiān)管部門審批情況而定。」

（圖源：蘋果）

日前，知名蘋果爆料網站9to5Mac發(fā)文稱，蘋果聯(lián)合中國人民大學推出了VSSFlow新型AI模型，宣布在音頻生成技術取得了突破。蘋果此舉不僅是一次AI技術實力的展示，同時似乎也在釋放和國行Apple Intelligence相關的積極信號，Apple智能真的要來了嗎？

無聲視頻自動配音，VSSFlow能解決哪些難題？

通過蘋果和中國人民大學聯(lián)合發(fā)布的論文以及9to5Mac的相關報道，我們可以了解到，VSSFlow的主要亮點是打破了以往「環(huán)境音」和「對話語音」需要分別生成的限制。具體來說，以往的大部分視頻生成語音模型，都是把音頻中的環(huán)境音和人聲分開處理，而VSSFlow的優(yōu)勢在于一站式同步生成。

（圖源：arXiv）

根據(jù)官方的說法，VSSFlow模型生成環(huán)境音的方式是每秒讀取10幀視頻畫面作為線索，然后在隨機噪聲中逐步「構建」出畫面的聲音。這個表述聽起來很簡單，但實現(xiàn)起來并不容易。一段沒有聲音的視頻，AI當然也不可能「聽」得到，本質上還是根據(jù)視頻畫面來「猜」最接近最真實的環(huán)境音，比如判斷出畫面中的具體現(xiàn)實場景，再匹配相應的環(huán)境音。

VSSFlow對應的論文提到了關鍵的技術點——Flow-matching（流匹配），在AI世界中，模型需要通過雜亂的信息推理生成最可能的聲音。視頻畫面中藏著聲音對應的線索，AI就是要在這些雜亂的「噪音」和目標聲音之間建立起到達的路徑，也就是「流」。建立「流」的關鍵，是對視頻畫面和文字腳本的準確理解。

（圖源：arXiv）

至于文本生成語音的能力，在早期就存在很多解決方案。比如說，早前的智能手機以及很多閱讀App，都有TTS（文字轉語音）功能，它們只要把文字直接轉成語音庫里的預制音頻即可。不過，這種方案比較簡單粗暴，聲音聽起來機械感明顯，長句斷句會很奇怪。AI時代，大模型加持的文字轉語音體驗得到了大幅升級，真人感更明顯，無論是斷句、語氣還是情緒，都逐漸能做到以假亂真。

VSSFlow的視頻生成人聲技術，特點在于通過視頻腳本+視頻畫面來生成音頻，可以通過畫面中人物的口型、表情等因素來匹配語音的語氣、情緒、節(jié)奏等，從而生成更真實的AI人聲。

開頭說到了，VSSFlow能夠同時為視頻生成環(huán)境聲和人聲，根據(jù)官方描述，他們將視頻信號和文本轉錄一起嵌入到音頻生成的過程中。為了達到這一效果，研究人員進行了混合數(shù)據(jù)訓練，具體表現(xiàn)為VSSFlow模型訓練時使用了無聲視頻配環(huán)境音、無聲說話視頻配文本、以及純文本轉語音的數(shù)據(jù)。

簡單總結下，VSSFlow是一款視頻生成音頻大模型，能同時為無聲視頻生成環(huán)境聲和人聲，核心優(yōu)勢在于通過流匹配技術提升了生成效率和音頻質量。

用AI生成語音，有點用但仍然太局限

VSSFlow幫助視頻生成環(huán)境音和人聲的功能，具體能應用到哪些場景呢？小雷能想到的大概就是老舊電影的音頻修復、失語障礙人士的輔助音頻、影視作品配音等。畢竟，VSSFlow仍然需要依賴文字腳本來生成人聲，不能只根據(jù)視頻畫面來推測出人聲，這將讓它更接近于一款更好用的配音工具。

目前市面上和VSSFlow最接近的大模型，應該是谷歌的Deepmind V2A（視頻轉音頻）。V2A也是根據(jù)視頻畫面和文字腳本來生成對應的環(huán)境音和人物對話，它的技術方案是在視覺信息和聽覺信息之間建立起映射機制。

具體來說，視覺信息包含的主要是空間、色彩、形狀、運動等，聽覺信息一般是音色、頻率、節(jié)奏等，二者是不同的語義。將視覺特征和聽覺特征進行多層次的映射，持續(xù)訓練后，AI就能根據(jù)視頻畫面的信息「猜」出它應該匹配何種聽覺特征的音頻。

（圖源：谷歌）

不過，在小雷看來，視頻生成語音技術的應用場景，還是略微局限了一些。對普通用戶來說，這項功能的作用不是特別大。作為對比，當下流行的視頻生成技術，更加受創(chuàng)作者和普通用戶歡迎。使用者只要用一段話、幾張圖片，就能快速生成一段高真實度的視頻，實用性和趣味性都能瞬間拉滿。比如最近的Seedance 2.0，剛上線就火爆全網，大量用戶第一時間就嘗鮮體驗了。

（圖源：雷科技，用Seedance 2.0制作）

但給無聲視頻配音這個場景，大部分人都很難遇到，畢竟我們不會無緣無故制作或者得到一段無聲視頻。它更加適用于影視制作行業(yè)中的某些細分領域，比如傳統(tǒng)擬音師的工作。

我們在很多影視作品中聽到的環(huán)境聲和動作聲，其實都是擬音師在錄音棚里錄的，比如敲擊椰子殼模擬馬蹄聲、搓動門鎖模擬手槍上膛聲等。同時，VSSFlow根據(jù)腳本和畫面生成人聲的功能，和動漫聲優(yōu)所做的配音工作很接近。可以想象到的是，音頻生成技術未來對影視行業(yè)產生的沖擊力會相當大。

同時，VSSFlow為代表的語音生成模型，固然不太可能作為獨立的應用向普通用戶推出，但和其他AI技術結合，會發(fā)揮出更大作用。比如它可以和視頻生成模型相結合，現(xiàn)在流行的視頻生成模型制作出來的視頻，大多會有配音。

不過，很多AI生成視頻的背景音和人聲質量都相對一般，如果有VSSFlow之類的語音生成模型助力，那么整體的效果會更好。實際上，谷歌Deepmind的V2A技術并沒有以單獨模型的方式發(fā)布，而是將部分功能整合在谷歌自家的視頻生成模型Veo中。

蘋果聯(lián)手國內重點高校，國行版AI要來了？

對于蘋果產品，VSSFlow能落地的場景，小雷首先想到的是無障礙功能。目前蘋果設備的輔助選項中已經有實時語音功能，即用戶可以手機上打字，然后轉成音頻。

（圖源：蘋果）

如果VSSFlow能運用到這個場景里，那么語言障礙人士就可以在FaceTime之類的視頻通話中，邊輸入文字，邊讓AI結合視頻畫面生成更自然的人聲。當然，這項技術也能作為蘋果在AI領域的儲備，為后續(xù)視頻生成等功能或應用提供助力。

而且，蘋果和國內重點高校合作、聯(lián)合發(fā)布VSSFlow，無疑是在釋放愿意深耕國內市場、推動國行AI落地的積極信號。在VSSFlow的論文中，署名者中六位是來自中國人民大學的學者，三位是蘋果的研究員。在這個項目中，蘋果扮演的角色更接近于支持者、參與者而非主導者。

目前，國行版Apple Intelligence尚未推出。按照蘋果的政策，國行版iPhone等設備無法使用外版Apple Intelligence，未來外版硬件產品也不能用國行版Apple Intelligence。

基本可以確定的是，國行版Apple Intelligence的落地過程中，蘋果會和國內AI巨頭達成合作。之前的傳言中，百度、阿里、DeepSeek等都是蘋果接觸過的廠商。2025年，彭博社知名記者馬克·古爾曼曾透露，國行Apple Intelligence采用的方案是阿里提供本地模型支持，百度文心一言提供云端AI支持。不過，國行Apple Intelligence 2025年未能落地，主要原因在于遇到了一些工程難題，同時國行AI的表現(xiàn)比較一般。

不過即便忽略國行版AI缺位的事實，蘋果的AI布局相對其他廠商是比較落后的。目前而言，海外版Apple Intelligence實現(xiàn)的功能和場景，其實沒有太多特別之處，反而因為其相對羸弱的AI實力而被吐槽。比如說，蘋果近年推出的生成式圖片App「圖樂園（Image Playground）」，就飽受批評。這款App對圖片生成行為的管控非常嚴格，很多用戶的需求都被拒絕，被吐槽為只適合兒童使用的產品。

Apple Intelligence還引入了外部力量來幫忙，主要是ChatGPT，后續(xù)還有Gemini。其中，ChatGPT植入到了Siri中，讓Siri更像一個完全體的智能助理而非傳統(tǒng)的語音助手。另外，AI相關的功能還有寫作助理、圖片消除等。只是，蘋果這些所謂的AI功能，實際體驗起來震撼感不夠強，有點小打小鬧的感覺。

而且，蘋果為iOS 26畫的AI餅，至今還沒讓用戶吃上。根據(jù)最新消息，iOS 26.4的首個測試版將于2月底推送，會給AI帶來一點變化。這次系統(tǒng)升級，主要就是Siri會得到增強，包括擁有上下文理解能力、跨應用操作能力和屏幕感知識別能力。坦率說，這些升級仍然不會有什么驚喜感，只是多少會讓iOS 26變得更好用點。

作為對照組的三星，早在2024年就推出了AI手機，并且快速完成了國行手機的AI本地化。具體來說，國行版手機中負責文本理解和生成的大模型為百度的文心一言，具體在筆記助手、錄音轉錄摘要等場景中發(fā)揮作用；它的生成式圖片編輯器則集成了美圖的奇想智能模型，實現(xiàn)智能消除、擴圖等功能；國行版的即圈即搜功能，后臺數(shù)據(jù)來源于百度搜索和京東。另外，三星國行手機也有部分端側AI功能，通話實時翻譯和分屏同傳翻譯，都是基于三星自研本地AI模型實現(xiàn)的。

galaxy-ai_ft03-01_transcript_assist_pc_1140x714_v4.7.jpg