訂閱
糾錯
加入自媒體

圖像生成迎來“思考-研究-創造”新范式!Mind-Brush:統一意圖分析、多模態搜索和知識推理

2026-03-12 13:56
AI生成未來
關注

作者:Jun He,Junyan Ye等

解讀:AI生成未來

亮點直擊

Mind-Brush,一個新穎的智能體框架,該框架統一了意圖分析、多模態搜索和知識推理,以實現圖像生成的“思考-研究-創造”范式。

Mind-Bench,一個專門用于評估涉及動態外部知識和復雜推理的生成能力的基準。實驗結果表明,當前統一多模態模型在實時感知和邏輯推理方面存在關鍵缺陷。

Mind-Brush 在 Mind-Bench 上將 Qwen-Image 基線的準確率從 0.02 大幅提升至 0.31,同時,在包括知識驅動的 WISE(WiScore 提升 25.8%)和推理驅動的 RISEBench(準確率提升 27.3%)在內的現有基準上,顯著超越了現有基線模型。

總結速覽

解決的問題

意圖理解與復雜推理能力的缺失: 現有模型本質上是“靜態的文本到像素解碼器”,只能執行顯式的指令映射,無法理解用戶的隱式意圖。即使是新出現的統一理解與生成模型,也難以在單一模型內完成需要復雜知識推理(如數學推理、常識推理)的任務。

無法適應動態變化的世界: 由于受限于預訓練數據的時間截斷,模型的內部知識是靜態的。這使得它們無法處理涉及實時新聞、新興概念或需要最新事實驗證的生成任務,與現實世界的動態發展脫節。

提出的方案

文章提出了 Mind-Brush,一個統一的智能體框架。該框架的核心思想是將圖像生成從一個單步的靜態映射,轉變為一個動態的、由知識驅動的工作流程。

核心范式轉變: 模擬人類的創作過程,提出了“思考-研究-創造”的工作流。

主動式生成: 模型不再被動依賴內部知識,而是主動進行規劃,通過調用外部工具來彌補自身能力的不足,實現理解與生成的統一。

應用的技術

Mind-Brush 框架主要通過以下技術實現其核心功能:

智能體設計: 采用類似LLM智能體的架構,使模型具備任務分解和行動規劃的能力。

主動檢索機制: 能夠主動檢索多模態證據,以獲取并利用超出其內部知識范圍的信息,從而將生成內容建立在真實、最新的信息之上。

外部推理工具: 集成并使用推理工具來解決用戶指令中隱含的、需要邏輯推導或計算的視覺約束。

達到的效果

通過引入Mind-Brush框架和相應的評測基準,文章展示了顯著的效果提升:

能力躍升: 在提出的Mind-Bench基準上,Mind-Brush使基線模型(Qwen-Image)實現了“從無到有”的能力突破。

全面評測: 提出了一個新的評測基準 Mind-Bench,包含500個樣本,覆蓋實時新聞、新興概念、數學推理和地理推理等10個需要動態知識與復雜推理的類別,填補了現有評測的空白。

性能優勢: 不僅在Mind-Bench上表現優異,在已有的WISE和RISE等需要內部知識調用和基礎推理的基準測試中也取得了更優的結果。

架構與方法

Mind-Brush 框架

問題形式化

本工作將 Mind-Brush 的推理工作流形式化為一個分層序列決策過程(Hierarchical Sequential Decision-Making Process),由元組  定義。該框架生成一個結構化的認知軌跡,以彌合抽象意圖與視覺實現之間的差距。

認知狀態(Cognitive State, ):令  表示在步驟  的狀態。它封裝了原始用戶輸入(指令  和可選的參考圖像 )以及動態證據緩沖區 ,該緩沖區負責積累檢索到的知識和推理鏈。

動作空間(Action Space, ):智能體可用的操作集合。本工作區分了用于識別認知差距  的元動作(Meta-Action)(認知差距檢測),以及用于主動獲取多模態證據的執行動作(Execution Actions)。

執行策略(Execution Policy, ):意圖分析模塊充當高級策略 。它評估初始狀態,以根據識別出的  制定確定性的執行路徑。

推理過程作為一個上下文感知的軌跡不斷演進。如下圖 2 所示,系統并不遵循僵化的工作流;相反,它會根據用戶請求進行動態調整。通過評估初始狀態中認知差距的具體性質(例如事實缺失或邏輯沖突),規劃器推斷出證據積累的最佳結構,將執行路由到專門的搜索或推理分支。這有效地將推理計算與用戶意圖的內在復雜性對齊。最終,本工作的目標是基于最終收斂狀態  生成最優目標圖像 。該狀態包含整合后的主提示詞(Master Prompt) 和經過驗證的視覺參考 ,從而將靜態生成轉化為一個動態、顯式的證據積累過程。

認知差距檢測

用戶指令通常包含超出模型參數知識邊界的隱式約束和長尾概念。為了解決這個問題,本文引入了認知差距檢測(Cognitive Gap Detection)策略,將其集成在意圖分析智能體(Intent Analysis Agent, )中作為一個元規劃器,以彌合這一認知鴻溝。具體而言,它通過 5W1H(What, When, Where, Why, Who, How)范式將文本指令  和可選圖像  映射到一個結構化的語義空間中,建立一個多模態的“真實基準(Ground Truth)”來確定信號的主導權。隨后,該模塊通過檢測需要外部驗證的特定實體或邏輯依賴項,執行嚴格的差距分析。內部知識中缺失的信息被形式化為一組顯式的原子問題,記為 ;  的組成,系統實例化一個動態執行策略 ,將工作流路由到動作空間中定義的適當事實錨定(factual grounding)或邏輯推理(logical reasoning)分支。

自適應知識補全

為了彌合識別出的認知差距,Mind-Brush 采用了一種內部邏輯推導機制。與僵化的單路徑系統不同,執行策略  根據  的復雜性靈活組合檢索和推理工具。

外部知識錨定(External Knowledge Anchoring):對于涉及分布外(OOD)實體或動態事件的差距,框架會激活認知搜索智能體(Cognition Search Agent, )。它首先利用一個關鍵字生成器來綜合用戶的多模態輸入()和識別出的差距 ,生成精確的文本查詢  和初始視覺查詢 。在從開放世界知識庫中檢索到事實文檔  后,系統執行雙重更新操作:其中,檢索到的概念被重新注入到用戶指令中()以更新文本上下文,同時校準視覺查詢()以確保隨后檢索到的參考圖像  與經過驗證的事實保持一致。內部邏輯推導(Internal Logical Derivation):對于需要復雜演繹的差距(例如,解決  中的數學問題或從檢索數據中推斷空間關系),系統觸發思維鏈知識推理智能體(CoT Knowledge Reasoning Agent, )。該引擎作為一個邏輯處理器,攝取用戶指令、輸入圖像,以及至關重要的積累搜索證據()。它執行多步推理以解決隱式沖突或解釋檢索到的視覺數據,從而產生顯式的結論 。

最終的證據集  為生成形成了一個全面且邏輯一致的認知上下文。

約束生成

外部信息的積累帶來了冗余或不相關的風險。因此,最后階段的重點是信息整合與條件合成。首先,概念審查智能體(Concept Review Agent, )作為一個整合機制,從脫節的證據流  中過濾噪聲。它將經過驗證的事實和邏輯結論與用戶的原始創作意圖綜合起來,將它們重寫為一個結構化的主提示詞 。該提示詞明確闡述了以前隱式或未知的視覺屬性。隨后,統一圖像生成智能體(Unified Image Generation Agent, )執行視覺合成。與標準的 T2I(文本到圖像)模型不同, 同時受文本對齊的  和自適應視覺提示  的條件約束。具體而言,基于用戶意圖,該機制在生成和編輯模式之間動態選擇,以確定視覺條件源 (即來自  或 )。這些約束有效地引導模型實現對用戶創意愿景的高保真度,同時嚴格遵守在知識獲取階段建立的事實和邏輯邊界。

Mind-Bench 基準測試

動機與任務定義

為了探究“認知生成”的邊界,本文提出了 Mind-Bench,一個包含 500 個樣本的綜合基準,旨在客觀評估依賴于動態外部知識和用戶意圖推理的生成能力。如下圖 1 所示,基準分為兩大類,涵蓋 10 個不同的子領域:

知識驅動任務(Knowledge-Driven Tasks):包括特殊事件、天氣、角色、物體和世界知識。核心挑戰在于減輕對分布外(OOD)實體的幻覺。

推理驅動任務(Reasoning-Driven Tasks):包括生活推理、地理推理、數學、科學與邏輯,以及詩歌。核心挑戰在于模型從表面簡單的指令中推導出隱式約束的能力。

基準構建與評估標準

基準通過嚴格的“人機協作管道”構建,確保多維度的復雜性和事實可靠性。為了準確反映模型在復雜認知任務中的可用性,本文提出了基于檢查表的嚴格準確率(Checklist-based Strict Accuracy, CSA)作為核心指標,如下圖 3 所示。該標準采用 MLLM 評判器在“整體通過標準(Holistic Pass Criterion)”下對照檢查表仔細審查生成的圖像。準確率定義為:

其中  為指示函數,如果圖像滿足檢查項則返回 1。只有當所有子項都被驗證為“通過”時,該樣本才被視為正確。

實驗

本文通過大量實驗全面評估了 Mind-Brush 框架在理解用戶意圖和生成長尾概念方面的能力,主要在 Mind-Bench、WISE 和 RISEBench 三個基準上進行了測試,并與當前的專有模型(如 GPT-Image系列、Nano Banana系列、FLUX系列)和開源 SOTA 模型(如 SD 3.5, Bagel, Qwen-Image 等)進行了廣泛對比。此外,相關的評估協議、任務分類分布對比等詳細數據可分別在下表 7 和下表 8 中找到。

主要實驗結果總結如下:

Mind-Bench 基準上的表現:

如下表 1 所示,Mind-Brush 在知識驅動和推理驅動任務上均取得了顯著提升。相較于開源基線模型 Qwen-Image,Mind-Brush 將整體嚴格準確率(CSA)從 0.02 驚人地提升至 0.31,實現了從 0 到 1 的能力飛躍。不僅超越了 SD-3.5 Large,甚至在多項任務上媲美或超過了眾多強大的閉源專有模型(如超越了 GPT-Image-1.5 的 0.21)。

WISE 與 RISEBench 上的表現:

如下表 2 所示,在側重世界知識的 WISE 基準上,Mind-Brush 獲得了 0.78 的綜合 WiScore,比基礎模型 Qwen-Image 提高了 25.8%,追平了頂級的 GPT-Image-1。在側重邏輯與視覺編輯的 RISEBench 上,本方法在“指令推理(Instruction Reasoning)”維度獲得了 61.5 的高分,大幅超越 Bagel 等模型,整體準確率(24.7%)同樣逼近最先進的專有模型。

定性比較與過程可視化:

如下圖 4 所示,定性結果直觀地展示了 Mind-Brush 在處理知識驅動任務時如何有效利用搜索工具檢索視覺參考(例如對冷門 IP 概念的準確還原),并在推理驅動任務中正確解構數學邏輯和空間關系,避免了基線模型常犯的事實錯誤和邏輯斷層。如下圖 19 所示 和 如下圖 20 所示,展示了 Mind-Brush 在處理復雜的地理數學任務和純數學可視化任務時,其逐步檢索、推理并最終約束生成的完整工作流。

消融實驗與架構分析:

如下表 3 所示的消融研究證實了認知搜索智能體和知識推理智能體的有效性。單獨加入推理智能體或搜索智能體均能帶來特定領域的提升,而兩者的協同作用則達成了最優的綜合表現。如下表 6 所示,在探索不同 MLLM 骨干和生成引擎的實驗中發現,智能體大腦的強度(如使用 GPT-5.1 替代 Qwen3-VL)主導了整體性能的上限;同時,更強的底層圖像生成器(如 GPT-Image-1)可以與 Mind-Brush 框架協同,實現性能的成倍增長。

額外基準擴展測試:

如下表 4 所示和如下表 5 所示,在側重指令遵循的 GenEval++ 和側重創意生成的 Imagine-Bench 上,Mind-Brush 同樣展現出優越的性能,甚至在部分子任務(如位置/計數、時空異化等)上表現超越了目前最優的 Agentic 基線 GenAgent,展現出極強的長尾指令處理與泛化能力。

總結

本文引入了 Mind-Brush,一種免訓練的智能體框架(training-free agentic framework),它將文本到圖像(text-to-image)的生成從被動解碼轉化為一種主動的認知工作流。通過協調意圖分析、多模態錨定以及顯式的思維鏈(Chain-of-Thought)推理,Mind-Brush 有效地彌合了模糊的用戶意圖與精確的、以事實為基礎的視覺合成之間的差距。為了對此進行嚴格的評估,本工作建立了 Mind-Bench,這是一個旨在針對知識密集型和依賴推理的任務對模型進行壓力測試的基準。經驗結果表明,本框架顯著優于現有的最先進模型,證實了主動檢索與邏輯演繹協同作用的有效性。本工作相信,這種向“智能體生成范式(Agentic Generative Paradigm)”的轉變,為能夠在視覺合成領域解決復雜問題的下一代系統鋪平了道路。

參考文獻

[1] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

       原文標題 : 圖像生成迎來“思考-研究-創造”新范式!Mind-Brush:統一意圖分析、多模態搜索和知識推理

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號