新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<ruby id="ltftz"><rp id="ltftz"></rp></ruby>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

可靈VS即夢：初探“多模態(tài)”

2025-11-04 13:51

目前國內(nèi)兩個(gè)最火的AI生成視頻平臺，非可靈和即夢莫屬。

作為影視外行人和AI愛好者，我準(zhǔn)備組建一個(gè)純AI的“影視團(tuán)隊(duì)”，看看效果如何。

在正式開始之前，還有一個(gè)問題：文生圖+圖生視頻or文生視頻？

兩個(gè)平臺都具備上述功能，那么兩條路應(yīng)該走哪條？

AI給出的答案是：使用“文生圖+圖生視頻”的方法具備更高的可控性；而“文生視頻”的方法能夠讓視頻更有“動(dòng)態(tài)感”。

考慮了一下成本和效率，我還是選擇了可控性優(yōu)先。

01第一步：AI編劇，編寫劇本

想拍一部電影出來，首先肯定得有編劇來寫劇本。

我把先前公眾號上發(fā)布過的一篇文章，以PDF形式丟給了目前公認(rèn)性能強(qiáng)大的Gemini 2.5 Pro。

不得不承認(rèn)，文字方面，AI當(dāng)編劇確實(shí)是綽綽有余。

分鏡頭腳本寫得有模有樣，像我這種外行人可是完全寫不出來。

尤其是圖生視頻指令，涵蓋了場景、動(dòng)作、運(yùn)鏡、風(fēng)格這些專業(yè)化的東西，解決了大麻煩。

02 第二步：AI畫師，繪制“分鏡圖”

前面已經(jīng)說過，采用“文生圖+圖生視頻”的方式可以提高可控性。

劇本既然已經(jīng)有了，接下來的任務(wù)就是繪制“分鏡”。

我把AI編劇寫好的這些首幀圖片指令，統(tǒng)統(tǒng)交給了騰訊混元這個(gè)AI文生圖模型。

相比文字，AI在圖片領(lǐng)域的能力顯然有所下降。

好在混元生圖的美術(shù)功底靠得住，給出的大部分圖片質(zhì)量都不錯(cuò)，基本符合預(yù)期。

當(dāng)然，也有下面這些“瑕疵品”：

例如，“一條水平的發(fā)光進(jìn)度條，位于畫面下方，滑塊在起始位置。背景是模糊的彩色光影。”

AI顯然是沒能理解指令。

以及，“一條高度精密的汽車生產(chǎn)線，無數(shù)機(jī)械臂在協(xié)同工作，焊接時(shí)火花四濺，充滿工業(yè)美感。”

這次則是邏輯錯(cuò)誤，一群機(jī)械臂似乎正在破壞一輛完工的汽車。

03第三步：AI導(dǎo)演，讓圖片“動(dòng)”起來

我把前面生成的靜態(tài)圖片和圖生視頻指令分別發(fā)給本次拍攝的導(dǎo)演——可靈和即夢。

然而，“開機(jī)”以后不久，我就遇到了理想與現(xiàn)實(shí)的碰撞。

剛開始，看到AI生成的幾個(gè)時(shí)長5秒的視頻時(shí)，我還是挺滿意的。

畢竟，這些動(dòng)態(tài)效果和光影變化在一個(gè)外行人眼里已經(jīng)非常驚艷，畫面也十分流暢。

不過，隨著生成的視頻越來越多，導(dǎo)演就開始露餡了，各自開始生成一些很奇怪的東西。

問題一：“導(dǎo)演壓根不按照劇本來”

這是最常見的問題，無法容忍的“不聽指令”。

先來看一個(gè)讓人哭笑不得的例子：

圖生視頻指令:

場景描述與動(dòng)作: 汽車的前大燈被激活，從一條細(xì)線開始，然后突然亮起，射出明亮而銳利的光束。一道微弱的能量光澤沿著車身的氣動(dòng)線條流動(dòng)。

運(yùn)鏡方式: 緩慢而富有戲劇性的向上搖鏡頭（Tilt Up），從前輪開始，向上移動(dòng)到擋風(fēng)玻璃，讓汽車感覺充滿力量。

畫面風(fēng)格與質(zhì)感: “英雄特寫鏡頭”。電影級，精致，高級感。增加輕微的鏡頭光暈效果。

指令中寫的明明白白，汽車的前大燈被激活，但可靈生成的視頻中卻是從車身中間射出一道光線，多少有點(diǎn)莫名其妙。

相比之下，即夢生成的視頻效果要好一點(diǎn)。

問題二：“牛頓看了都得沉默”的物理和邏輯錯(cuò)誤

讓AI做物理題，它得心應(yīng)手；但讓它生成視頻，它似乎又沒完全學(xué)會(huì)現(xiàn)實(shí)世界的物理規(guī)則。

“穿模”可以算是家常便飯了，即夢和可靈生成的視頻都存在這個(gè)問題，比如：

圖生視頻指令:

場景描述與動(dòng)作: 所有機(jī)器以驚人的速度和完美的協(xié)調(diào)性協(xié)同工作，展現(xiàn)出極致的效率。機(jī)械臂抓取包裹，無人車流暢地避讓和穿行。

運(yùn)鏡方式: 在倉庫內(nèi)進(jìn)行一個(gè)長距離、平滑的移動(dòng)鏡頭（長鏡頭），一鏡到底地展示整個(gè)流程。

畫面風(fēng)格與質(zhì)感: 工業(yè)美學(xué)，科技感，秩序感。畫面干凈，動(dòng)作流暢。

另外，物理運(yùn)動(dòng)的實(shí)現(xiàn)看起來也很不合理：

圖生視頻指令:

場景描述與動(dòng)作: 一顆閃亮的金色石子投入水中，激起一圈圈巨大而絢爛的彩色漣漪，漣漪擴(kuò)散的速度非常快，瞬間照亮整個(gè)水面。

運(yùn)鏡方式: 俯視視角，緩慢放大（Zoom In）。

畫面風(fēng)格與質(zhì)感: 詩意，愉悅。用漣漪的爆發(fā)來象征多巴胺的瞬間釋放。

即夢生成的視頻中，金色石子并非被投入，而是直接從水中浮現(xiàn)出來：

可靈則較好地完成了指令內(nèi)容：

問題三：短時(shí)間內(nèi)的失憶癥

AI生成的視頻有一個(gè)重大的缺陷，那就是一致性實(shí)在是太差。

短短5秒之間，一個(gè)鏡頭的主角就可能發(fā)生大幅度的變化。比如：

場景描述與動(dòng)作: 表盤上的分針以極快的速度平滑地旋轉(zhuǎn)一圈。剛一停下，手表屏幕上就出現(xiàn)一個(gè)柔和的、發(fā)光的脈沖動(dòng)畫。

運(yùn)鏡方式: 靜態(tài)特寫。

畫面風(fēng)格與質(zhì)感: 現(xiàn)代，簡潔，高效。脈沖動(dòng)畫干脆利落，代表“送達(dá)”的提醒。

即夢生成的視頻，咱們暫且不談“極快的速度”和“脈沖動(dòng)畫”實(shí)現(xiàn)的如何，這表盤直接就換了個(gè)樣：

即夢生成的視頻，咱們暫且不談“極快的速度”和“脈沖動(dòng)畫”實(shí)現(xiàn)的如何，這表盤直接就換了個(gè)樣。

可靈生成的視頻就沒有發(fā)生這個(gè)錯(cuò)誤:

如果在這么短的時(shí)間內(nèi)都無法保證一致性，整個(gè)視頻的觀感肯定是好不到哪去。

04 使用感受

對于圖生視頻的AI平臺，它們確實(shí)是強(qiáng)大的工具，但目前還不是成為合格的導(dǎo)演。

先說可靈，它的表現(xiàn)相對更好一些。

對于物理世界的模擬和動(dòng)態(tài)真實(shí)感，它完成的不錯(cuò)，基本符合現(xiàn)實(shí)世界中的物理規(guī)律。

其次，可靈對于指令中概念的理解深度和藝術(shù)詮釋能力更具優(yōu)勢。不僅是字面意義，它還能在一定程度上理解文字背后的抽象概念和用戶想要表達(dá)的情緒。

而且，可靈似乎并不是一個(gè)讓做什么就做什么的死板機(jī)器。它生成的視頻中，有些畫面并未在文字中寫明，卻能或深或淺地反映主題。

如此說來，它更傾向于一個(gè)愿意突破邊界進(jìn)行嘗試的“藝術(shù)家”。

另外，根據(jù)“影評人”Gemini 2.5 Pro的反饋，可靈具備強(qiáng)大的鏡頭語言掌握力，能夠成功完成“推拉變焦”、“向上搖鏡”等復(fù)雜運(yùn)鏡。

對于可靈生成抽象CG場景，影評人認(rèn)為在技術(shù)質(zhì)量和美學(xué)上都已經(jīng)達(dá)到專業(yè)水準(zhǔn)。

但是在這位“藝術(shù)家”發(fā)揮想象力的同時(shí)，也帶來了一些問題：

較低的圖像保真度和頻繁的場景重構(gòu)。

選擇性執(zhí)行用戶指令和跑偏的創(chuàng)意。

這就是可靈“導(dǎo)演哲學(xué)”的必然代價(jià)，生成的視頻可能會(huì)與預(yù)想的畫面相差甚遠(yuǎn)。

再來說說即夢，相比藝術(shù)家，它更保守一些。

即夢生成視頻的優(yōu)勢在于極高的圖像保真度和穩(wěn)定性。

每個(gè)鏡頭的主體基本不會(huì)出現(xiàn)大幅度的扭曲和變形，畫面也比較穩(wěn)定。

這就意味著，即夢的“圖生視頻”功能，生成視頻的質(zhì)量很大程度上取決于圖的質(zhì)量。

此外，即夢對于復(fù)雜構(gòu)圖的指令也能夠較為精準(zhǔn)的實(shí)現(xiàn)，它對于指令的理解和執(zhí)行能力更為可靠。

不過，即夢的缺點(diǎn)在于難以實(shí)現(xiàn)物理上的真實(shí)感，而且缺乏一些動(dòng)態(tài)邏輯。

上面一些令人匪夷所思的場面大多出自它手。這也是對于概念理解深度不夠、缺乏敘事能力的一種體現(xiàn)。

除此之外，“影評人”也指出，即夢的鏡頭語言理解和執(zhí)行能力較為薄弱，幾乎無法完成較為復(fù)雜的電影運(yùn)鏡，降低了視頻的表現(xiàn)力。

05 最后的一點(diǎn)想法

兩個(gè)模型生成的視頻都已經(jīng)證明，對于一般的平臺用戶而言，高難度指令往往帶來的是失敗的結(jié)果，技術(shù)的邊界尚未被突破。

技術(shù)角度來看：

AI生成視頻領(lǐng)域內(nèi)，“保真”和“創(chuàng)意”這兩條核心的技術(shù)路線仍然存在博弈，不能兼顧。

此外，視頻時(shí)長也是目前存在的一大限制。

不管是國內(nèi)還是國外的AI視頻生成平臺，大多將單個(gè)視頻的時(shí)長嚴(yán)格控制在5-10秒內(nèi)。

單個(gè)視頻能夠表達(dá)的內(nèi)容有限，生成長時(shí)間、情節(jié)連貫的視頻對這一領(lǐng)域仍是巨大挑戰(zhàn)。

而這對于用戶來說，為編寫提示詞增加了難度。

寫的太細(xì)致，模型無法理解，也無法在短短幾秒內(nèi)將內(nèi)容表達(dá)完全；

寫的太粗糙，模型生成的內(nèi)容往往與用戶的意圖相隔十萬八千里。

成本角度來看：

通過強(qiáng)大的設(shè)備和算力進(jìn)行本地部署，再對模型進(jìn)行微調(diào)，可能才是生成高質(zhì)量視頻的可靠選擇。

但，這成本可不是一般用戶承受得起的。

即便是這兩個(gè)在線應(yīng)用平臺，會(huì)員價(jià)格也并不便宜。

單買積分的話，即夢上使用視頻3.0模型+720P+5秒視頻的最基本配置是1元1條視頻；

可靈上使用標(biāo)準(zhǔn)模式+5秒視頻則是2元1條視頻。

但根據(jù)我的使用經(jīng)歷來看，想要生成的視頻能達(dá)到一般短視頻的水平，肯定是需要升級配置并多次生成、不斷調(diào)試的。

而這個(gè)過程，開銷肯定會(huì)不斷增長。

因此，導(dǎo)演、攝像師和后期老師們大可以松一口氣。

想讓AI生成具備觀賞性的影片，我們不妨再多些耐心。

原文標(biāo)題 : 可靈VS即夢：初探“多模態(tài)”

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報(bào)。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動(dòng)化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

<abbr id="dpyqz"><i id="dpyqz"></i></abbr>

<samp id="dpyqz"><table id="dpyqz"><optgroup id="dpyqz"></optgroup></table></samp>

<abbr id="dpyqz"></abbr>

<style id="dpyqz"><tfoot id="dpyqz"></tfoot></style>