訂閱
糾錯
加入自媒體

從谷歌到字節,現階段所有主流多模態模型,集體不及格

2026-02-05 14:07
硅基星芒
關注

提起多模態模型這個概念,人們并不陌生。

從國內的“豆包”,到國外的“香蕉”,都是人們喜聞樂見的“圖像創作和PS大師”。

但是,你敢信嗎?最頂尖的AI在“看圖識物”這件人類幼兒都能輕松做到的事情上,竟然集體不及格。

這個結論似乎與我們日常對AI的看法背道而馳。它們會寫詩,會編程,甚至會代理人們的手機和電腦,但在面對一張清晰的照片時,卻總是無法回答一個再簡單不過的問題:“這是什么?”

把稀有的蘭花認成野花,把哥特教堂看成普通樓房,甚至給世界名畫安上一位錯誤的作者。這可不是偶然性的小失誤,而是一次系統性的“視覺失憶”。

今天凌晨,剛剛發布Kimi 2.5以補全多模態能力的月之暗面,推出了一個名為WorldVQA的全新評測基準。它就像一把精確而鋒利的手術刀,直接切開了當下多模態模型華麗能力表象之下的知識空洞。

評測結果可以說是觸目驚心:表現最好的模型,準確率也只能達到47.4%,距離及格線都還差得很遠。

人們不由得思考一個被長期忽視的真相:我們每天使用的“高智能”AI,或許壓根沒能在視覺領域建立起一個可靠、真實的“百科全書”。

AI或許更像一個擅長講故事的描述者,而非一個準確理解世界的觀察者。WorldVQA的出現,正是要掃清幻覺與事實交雜的模糊地帶,為衡量多模態模型的視覺知識真實性樹立一把精確的標尺。

01 現有評測的“障眼法”:記憶和推理混為一談

多模態模型的發展取決于兩種截然不同的能力:一是推理,即處理邏輯與關系;二是知識,即將感官輸入映射到事實現實。

而目前,評估多模態模型的主流方法是視覺問答(Visual Question Answering, VQA),如常見的MMMU、MMStar和SimpleVQA等基準測試。

現在我們假想一個問題:給AI一個公司的Logo,并詢問它該公司的名稱和成立時間。

顯然,回答這個問題需要兩步,先是識別圖片中的Logo,再去回憶成立時間。若是模型給出了錯誤的回答,我們根本無法判斷錯誤出現在哪一步。

因此,這類基準測試看似能全面測試AI的視覺能力,實則存在混淆“知識記憶”和“邏輯推理”的致命缺陷。

除此之外,別忘了很多模型還可以憑借OCR(光學字符識別)這項經典技術,在評測中蒙混過關。模型不必認出圖片中的內容,直接通過“讀出”圖片上的文字標簽來抄答案得分。

如果說視覺感知與定位是多模態模型的眼睛,那么語義記憶和知識就是多模態模型的大腦。

人們無法定位模型視覺能力的短板究竟在哪,這正是知識記憶與邏輯推理的耦合所導致的盲區。

02 WorldVQA設計哲學:回歸原子化的視覺事實

月之暗面的研究團隊針對上述困境而設計了WorldVQA,其核心思想很簡單:剝離一切干擾,只測試最原子化的視覺知識。

也就是說,WorldVQA中的每個問題都只用于測試一個最基礎、不可再分的視覺知識。為此,該評測基準必須遵循以下四個技術原則:

1.原子隔離(Atomic Isolation)

所有問題均為單跳(single-hop,即一步完成),模型需要將視覺信息直接映射到一個具體的專有或分類學名稱,明確排除任何涉及OCR、計算或多跳知識檢索的任務。因此,前面例子中需要多個步驟才能回答的問題將不會出現。

粒度對齊也是一項關鍵的技術約束:模型的回答必須在分類學上足夠精確。例如,看到一只泰迪卻只回答“狗”也會被當作回答錯誤。

2.分類多樣性(Taxonomic Diversity)

WorldVQA總共覆蓋了九種語義類別:自然環境、地理建筑、文化藝術、物品產品、交通工具、娛樂產品、品牌標識、體育運動和公眾人物。

 

數據的分布被刻意設計為相對平衡的狀態,既包含埃菲爾鐵塔等地標型建筑,也包含罕見的特定植物品種,以此全面探測模型知識庫的邊界。

3.數據完整性(Data Integrity)

為了防止模型在訓練數據中“背答案”,研究團隊引入了ISC描述符對候選圖像與LAION和Common Crawl等主流預訓練語料庫進行去重。

這里的ISC(實例級語義內容)描述符是一種用于視覺位置識別領域的算法技術,它能夠將一張圖像轉換為一個特征向量,可用于判斷一張圖像是否與常用預訓練語料庫中的圖像高度相似。

在WorldVQA的流程中,首先對每張候選圖像生成一個ISC向量,并將之與常用預訓練語料庫中的所有圖像的ISC向量進行比對,計算余弦相似度。當相似度高于95%時,則可認為模型在訓練時已經見過這張圖像,該圖像會因為污染樣本而被丟棄。

如此一來,WorldVQA中測試的“圖像-答案對”都是模型在訓練階段從未見過的,若能答對問題,即可反映真實的視覺能力。

此外,候選樣本采用自動化模型審核和人工盲審的雙重機制。其中,自動化審核使用了Gemini-3-Pro來檢查圖像清晰度、語義唯一性和上下文完整性;人工盲審交給不知道標準答案的標注員單獨作答,只要產生分歧則觸發人工復核。

4.高飽和度上限(High Saturation Ceiling)

評測集在構建時采用基于模型性能的難度分層機制:研究團隊將五個前沿多模態模型集成,并用它對所有候選圖像樣本進行評估。

為了檢驗區分能力,五個模型都能回答的正確樣本將被剔除;正確率較高的簡單樣本也會被故意降低采樣頻率。因此,最終的評測基準對頂尖模型也具有相當高的挑戰性。

03 評測結果:全員不及格

按照上面的原則,研究人員在WorldVQA中加入了3500個經過嚴格篩選的“圖像-答案對”。但評測結果卻無情地揭示了當前多模態模型在視覺知識領域上嚴重的能力缺失:

首先是整體準確率連50%都不到的悲慘事實。

Gemini-3-Pro作為公認的全球頂級AI模型、Kimi-K2.5憑借“主場優勢”,雖然位列前二,但只能分別取得47.4%和46.3%的正確率;專攻多模態領域的字節跳動和Anthropic旗下的產品準確率則未能達到40%。

數據清晰地表明,現階段的多模態模型距離“視覺百科全書”還存在巨大差距。

當我們將目光轉移到表格的右側,就會發現不同模型在九大領域中的表現極其不均衡。

從雷達圖中可以看到,大部分模型很擅長體育運動和品牌標識等網絡數據充足的領域。綜合得分第一和第二的Gemini-3-Pro和Kimi-K2.5表現尤為突出。

反觀自然環境和文化藝術等需要積累深厚的專業知識的領域,各位“職業選手”的表現都不盡如人意,因為模型往往會因為無法準確判斷細分門類而給出籠統的上位詞,比如前面提到的“泰迪與狗”。

最后,更可怕的事實是:幾乎所有模型都表現出了過度的自信。

首先來看可靠性圖表:用于衡量模型對自己能力的評估是否準確。

橫軸(Stated Confidence)代表模型自己聲稱的置信度,也就是模型的信心;

縱軸(Actual Accuracy)是在模型生成的信心水平下,實際回答正確的概率。

可以看到,所有模型在聲稱自己有95%以上的信心時,實際準確率連70%都不到,純屬“一本正經地胡說八道”。其中Kimi-K2.5在高信心水平下能達到接近70%的準確率,自我認知相對最準確。

然后再看置信度分布:用于展示模型習慣給出多高的信心分數。

Gemini-3-Pro可謂是一馬當先,證明它總是會說自己“非常確定”,即便是它壓根沒看懂圖里到底有什么,也就是缺乏對“不確定性”的表達能力。

從企業角度來看,模型給出自信滿滿的回答有助于提升用戶交互體驗和留存率,畢竟大多數用戶提問后絕不愿意得到一個模棱兩可、不一定正確的答案。

但與此同時,過度的自信也證明現階段多模態模型缺乏對自己知識邊界的可靠內部表征,這也是幻覺產生的根本原因之一。

04 結語:WorldVQA打破“視覺智能已成熟”的幻覺

如今,圖像生成、圖像編輯甚至是視頻生成等AI應用大行其道,人們很容易就會產生一種錯覺:視覺領域的智能已經成熟,AI已經看懂了這個世界。

常見的文生圖和圖像編輯等功能,與月之暗面團隊測試的視覺問答,在技術上高度相關但方向相反。前者從語義生成視覺,后者從視覺推斷語義。生成能力強并不代表理解能力強,二者雖然共享部分多模態對齊機制,但底層能力卻有天壤之別。

WorldVQA已經用冰冷的數據告訴我們,多模態模型在理解側的能力遠未達標。

月之暗面的這項研究,沒有在AI應用的熱潮中追尋“AI能做什么”,二是沉入底層探究一個更本質的問題:當AI充滿自信地給出結果時,它到底是在回憶、猜測,還是真正的理解?

答案已經呼之欲出:模型不僅在自然和文化等長尾領域的知識匱乏,還普遍“不知道自己不知道”。即便面對完全陌生的事物,它也會自信地編造一個聽起來十分合理、讓人不會懷疑的名字。這種來自于底層機制的系統性幻覺,正是當前多模態AI不可信任的根源。

向未來的視角更進一步,當前的多模態模型若是連靜態二維圖像的實體都無法準確判別,人們又怎么能去期待AI在動態且復雜的三維世界中構建世界模型?

WorldVQA已經打破技術樂觀主義的美夢,迫使人們必須承認:通往視覺智能的道路,才剛剛開始。

而任何關于“AGI即將實現”的宣言,在頂尖AI連看圖識物都答不對的事實面前,似乎都顯得有些輕率。

       原文標題 : 從谷歌到字節,現階段所有主流多模態模型,集體不及格

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號