從可靈到 Gemini,AI 視頻集體告別“抽卡模式”:導演模型要火?
視頻生成終于不再碰運氣了。
抽卡時代,要過去了。
過去一年多,我們對 AI 視頻的體感其實可以用兩個字概括:抽卡。輸入一段 prompt,點下生成,盯著進度條等模型吐出幾秒鐘的畫面,出來好看就留下,不好看就改改詞再來一發。它確實能產出驚艷的片段,可它給創作者的,從來不是一段能接著干活的素材,而是一張抽到了就走、抽不到就重抽的卡。
抽卡最難受的地方,其實不是畫面不夠真,而是不可控。你要的是一個九分的成片,模型給你的是十個各有七八分卻彼此對不上的片段,你沒法跟它商量「這個鏡頭別動,只把人物的動作換一下」,能做的只有重新搖一次骰子,賭下一發更好。
但這套玩法,最近開始有變化了。這一兩個月里,幾款新視頻模型幾乎前后腳出現,產品形態、技術路線、面向的市場都不一樣,可它們釋放出來的信號卻出奇地一致,競爭的重點不再是誰能一次性生成一段更好看的視頻,而是誰生成出來的東西能被持續地修改、控制和復用。換句話說,AI 視頻正在從一個出片機器,變成一套生產工具。

(圖源:Google)
問題也就來了,AI 視頻走到這一步,創作者的核心競爭力,會不會從剪輯,變成一種更接近導演的東西,畢竟我們已經不用再去“賭”視頻生成的內容了,那么更好地表達與鏡頭設計,會不會才是未來的 AI 視頻創作重點?
不能二次編輯的視頻模型不是好AI
AI 視頻「能編輯」最近熱度最高的,可能是谷歌和 Runway 這兩家。
Runway 端出來的是 Aleph 2.0,它主打的能力是基于原視頻語境去做修改。說白了,它不再把每次生成都當成一張白紙,而是認得你手上這段素材里有什么,能在理解原片的前提下做局部改動,而不是動一下就推倒重來。谷歌這邊是 Gemini Omni,走的是另一條路,主打對話式的繼續編輯,你可以像跟人聊天一樣一句句往下提要求,讓模型在上一版的基礎上接著改,而不是每提一個新需求就從頭再搖一次。

(圖源:Runway )
比如我們在 Gemini 上要求它生成一段一只白色陶瓷杯放在木桌上,鏡頭緩慢推進。杯子旁邊有一本筆記本和一支黑色鋼筆,自然日光,真實手機拍攝感,背景是普通工作室的廣告質感視頻,在第一輪里 Gemini 生的效果就已經很讓人滿意。

(圖源:雷科技制圖 )
Gemini 生成了一段白色陶瓷杯、筆記本、黑色鋼筆放在木桌上的空鏡視頻,畫面主體明確,有白色陶瓷杯、筆記本、鋼筆、木桌,鏡頭從中遠景緩慢推近到近景,很符合我們的需求。但它看起來并不像一段廣告片。

(圖源:雷科技制圖 )
于是我們直接讓 Gemini 基于這段素材,讓畫面更像咖啡品牌廣告片,比如給杯中咖啡增加細微熱氣,在杯壁加入柔和高光等等。

(圖源:雷科技制圖 )
不難看出,杯子、鋼筆、筆記本,甚至背后的場景都沒有變,變得是什么呢?是咖啡出現的時間、是運鏡的手法,是熱氣縈繞的效果。
這恰好就是 AI 視頻從生成走向編輯的中間狀態,過去是寫一句提示詞等模型出片,現在變成了先生成一條基礎素材,再告訴模型哪里還不夠好,創作者開始像導演一樣給修改方向,只是模型還沒法像剪輯軟件那樣精確服從。它不再只是抽卡,但也還沒長成真正的后期工具。
Gemini 這種對話式的改法只是其中一條路。國內的可靈和 Seedance 2.0,則在把「能改」這件事往更系統的方向推,只是各自挑的切口不太一樣。
可靈 O1 的打法,是把一整套活兒收進一個引擎。生成、修改、參考、風格重繪、鏡頭延展,這些過去要么做不到、要么得在好幾個工具之間來回倒騰的事,它想讓你在一個地方就從頭做到尾。這個思路聰明在,它沒把自己當成一個單點功能很強的生成器,而是想做成一張創作臺。對創作者來說,最磨人的從來不是某一步有多難,而是一支片子得在七八個工具之間搬來搬去、導入導出反復橫跳,可靈想啃的正是這塊銜接上的內耗。

(圖源:可靈)
Seedance 2.0 挑的切口則是多模態。它把文字、圖片、視頻、音頻都變成能喂進去的參考,用來增強參考生成、視頻延展和音畫同步。過去我們談視頻模型,下意識只盯著畫面好不好看,可視頻從來不只是會動的畫面,它是畫面、動作、聲音、節奏幾樣東西咬合在一起的結果。Seedance 把聲音和動作也拉進可控的范圍,等于在提醒一件事,視頻模型不能只會畫畫,它還得聽得懂節奏,知道這一刀該剪在哪一拍上。

(圖源:Seedance 2.0 )
更直白地說,從整個視頻模型的方向來看,抽卡時代已經徹底結束了,接下來是「可編輯時代」,也就是說,哪家模型能夠把整個流程打通、給用戶最直觀的優化提示詞、二次編輯修改方案,誰就能繼續占領高地。
AI視頻不再碰運氣,人類要干的活也變了
繞了一圈,回到開頭那個問題。當 AI 生視頻已經不是抽卡,人在整個工作流里的角色,到底會不會變?我的判斷是,會。
過去一個優秀的視頻創作者,靠的是剪輯、調色、轉場、配樂這些手上功夫,一幀幀摳出自己的風格。這些能力不會作廢,但當模型能聽懂「保留這個運鏡,只把質感往廣告片靠」的時候,真正拉開差距的,開始變成另一套東西,會不會描述鏡頭、能不能控制節奏、判不判斷得出哪一處該留、哪一處該推倒重做。說白了,是「導演模型」的能力。
AI 視頻不會立刻取代剪輯,也不會讓創作者淪為只會寫 prompt 的提示詞工人,這兩種極端說法都太省事了。更準確的變化是,視頻生產的重心正在從「素材加工」挪向「意圖調度」。過去你是親手把素材一刀刀拼成成片,往后你更多是在告訴模型,我要什么、不要什么、這一版哪里還差口氣。

(圖源:雷科技制圖 )
而這套調度能力,恰恰是有門檻的,誰能把腦子里那個模糊的創意,拆成模型聽得懂的鏡頭語言,誰能在模型吐出一版結果時一眼判斷出它到底可不可用、還差在哪,誰就更像未來那個「模型導演」。導演自己未必扛攝影機、未必剪每一刀,但他清楚整部片子要什么,知道每個岔路口該往哪邊走。AI 視頻成熟之后,創作者要做的也是這件事。
工具換了,門檻自然也不一樣了,可創作最核心的東西其實沒變,依然是你腦子里那個清晰的成片,以及你愿不愿意一遍遍把模型調到位。抽卡的時代要過去了,賭徒會越來越少,真正稀缺的,是那個知道自己想要什么、并且有本事讓模型把它交出來的人。
AI不會取代打工人,但會推著他們向前走
每次有個新工具把某項手藝活自動化掉,總有人喊飯碗要沒了,可回頭看,工具升級真正干掉的從來不是這群人,而是他們工作里最機械的那部分。
最經典的是電子表格。VisiCalc 和后來的 Excel 出現之前,會計和財務一天里大把時間耗在拿計算器一格格算、一筆筆記賬上。表格軟件把這些重復計算全包了,結果不是會計失業,而是他們從「算數的人」變成了「做模型、看趨勢、給決策當參謀的人」。最枯燥的執行被收走,騰出來的精力反而讓這份工作更值錢了。
非線性剪輯軟件普及之前,剪輯是真要拿刀片去切膠片、對著磁帶一幀幀倒的,所以才有“剪視頻”這種話術,然而 Premiere、Final Cut 這類軟件出來后,物理意義上的「剪」消失了,可剪輯師并沒有消失,他們從體力活里抽身,把注意力放到了節奏、敘事和情緒這些更高一層的判斷上。工具替掉的是手上的苦力,留下的是腦子里的取舍。

(圖源:seedance 2.0 )
AI 編程助手出來之后,程序員里最先慌的是「以后是不是不用我寫代碼了」,可真實的變化是,他們花在一行行敲樣板代碼上的時間被壓縮了,更多精力轉去審模型寫得對不對、把架構和邊界想清楚、判斷哪段能信哪段得返工。會寫代碼依然重要,但更稀缺的能力,變成了知道該讓模型寫什么。如今流行的 Vibe Coding,某種意義上的確降低了「入門」的門檻,但真正要從 0 開發到交付, Vibe Coding 出來的作品往往很難過關。
回到 AI 視頻本身,它的下一階段,比的不再是誰畫面更真,而是誰更穩定、更可控、更可編輯。創作者也不會只剩寫提示詞這一件事,反而更像一個模型導演,知道該保留什么、改什么、用什么參考去約束模型、怎么讓它連續改到可用為止。剪輯這門手藝不會消失,但創作者最值錢的能力,正在從「把軟件用得多熟」,換成「把模型調度得多準」。
工具一直在往上走,打工人要做的是努力讓自己始終站在 AI 工具無法取代的位置上。抽卡的時代要過去了,賭徒會越來越少,而真正稀缺的,永遠是那個知道自己想要什么、并且有本事讓模型把它交出來的人。
Goggle可靈SeeDance視頻大模型AI視頻
來源:雷科技
本文圖片來自:123RF 正版圖庫 來源:雷科技
原文標題 : 從可靈到 Gemini,AI 視頻集體告別“抽卡模式”:導演模型要火?
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













