新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<track id="ouva6"></track>

<small id="ouva6"><tbody id="ouva6"><noframes id="ouva6"></noframes></tbody></small>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

AI 畫圖終于不再瞎蒙！GenEvolve把開放圖像生成變成可訓(xùn)練自進(jìn)化智能體！

2026-06-01 15:26

作者：Sixiang Chen等

解讀：AI生成未來

很多圖像生成任務(wù)，表面上只是讓模型畫一張圖；真正做起來才會發(fā)現(xiàn)，難點往往發(fā)生在生成之前。

舉個例子：用戶想要某個真實地標(biāo)，就不能只畫出一個“差不多的建筑”；用戶給了參考圖，就不能只借一點風(fēng)格，而要保住身份、形態(tài)和關(guān)鍵材質(zhì)；用戶要求海報文字、空間關(guān)系或者各種模糊的信息，就需要精準(zhǔn)的執(zhí)行所有的信息。

這些問題放在一起，會形成一種很典型的開放生成場景：模型需要先補(bǔ)信息、選參考、拆約束，再把這些內(nèi)容組織成底層生成器能執(zhí)行的指令。GenEvolve 關(guān)注的正是這一步。它不是把圖像生成看成單次 prompt rewriting，而是把生成前的決策過程建模成一條工具軌跡。

項目主頁：https://ephemeral182.github.io/GenEvolve/

arXiv：https://arxiv.org/abs/2605.21605

GitHub：https://github.com/MeiGen-AI/GenEvolve

模型權(quán)重：https://huggingface.co/MeiGen-AI/GenEvolve

數(shù)據(jù)與評測：https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-Bench GenEvolve 作為生成前的智能體策略，可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。

GenEvolve 作為生成前的智能體策略，可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。生成之前，Agent 需要先做三類判斷

開放圖像生成里，用戶請求缺失的信息并不總是同一種。

第一類缺的是事實依據(jù)。真實建筑、產(chǎn)品、公眾人物、歷史事件、科學(xué)概念等任務(wù)，都需要先把外部知識補(bǔ)齊，否則畫面可能“看起來合理”，但關(guān)鍵事實是錯的。

第二類缺的是可用參考。參考圖并不只是給模型看一下風(fēng)格，它可能承載人物身份、商品結(jié)構(gòu)、局部形態(tài)、服飾材質(zhì)等約束。Agent 要判斷哪張圖值得用，以及參考應(yīng)該以什么方式進(jìn)入最終程序。

第三類缺的是生成控制能力。文字渲染、計數(shù)、布局、屬性綁定、解剖和材質(zhì)一致性，經(jīng)常是開放生成中最容易失手的部分。它們需要被明確成可檢查的約束，而不是只停留在自然語言愿望里。

圍繞這三類需求，GenEvolve 為 Agent 準(zhǔn)備了三個入口：search(q) 用來查外部證據(jù)，image_search(q) 用來檢索視覺參考，query_knowledge(skill) 用來調(diào)取文字、空間、數(shù)量、材質(zhì)等生成知識。Agent 的目標(biāo)不是“多調(diào)用幾個工具”，而是把工具結(jié)果整理成 prompt-reference program，再交給底層圖像生成器執(zhí)行。

GenEvolve 將一次開放生成拆解為工具調(diào)用、參考綁定、技能激活和最終程序生成。

GenEvolve 將一次開放生成拆解為工具調(diào)用、參考綁定、技能激活和最終程序生成。1）統(tǒng)一"工具編排"范式：單一智能體覆蓋開放生成中的多類需求

GenEvolve 并不是把開放圖像生成拆成若干獨立模塊或工具來分別處理，而是將開放生成場景中最常見的需求整理為兩大軌道，并統(tǒng)一交給 一個智能體 來完成：

外部知識依賴類：Knowledge-Anchored — 實體識別、事件、地標(biāo)、商品、可視事實；質(zhì)量約束依賴類：Quality-Anchored — 文字渲染、空間布局、數(shù)量、屬性綁定、解剖、材質(zhì)一致性、美學(xué)、創(chuàng)意轉(zhuǎn)化。

這里更重要的其實不是"任務(wù)名稱本身"，而是這些能力共同對應(yīng)了一個真實的設(shè)計流程：

接到用戶請求 → 搜外部證據(jù) → 找視覺參考 → 激活合適的生成知識 → 寫出可執(zhí)行的 prompt-reference program → 交給生成器渲染 → 輸出最終成品圖

以往不少方法更像是把"搜索增強(qiáng)"和"圖像生成模塊"簡單拼接在一起，雖然功能上能覆蓋，但整體體驗往往不夠連貫；

而 GenEvolve 更接近一個 "基于工具與經(jīng)驗工作的智能生成助手"：只要給它一條開放請求，它既能調(diào)用外部工具收集證據(jù)、尋找參考圖，也能根據(jù)請求類型激活相應(yīng)技能，并把所有信息編排成一段 generator-agnostic 的最終程序。

2）"數(shù)據(jù)—進(jìn)化—蒸餾"閉環(huán)：讓一個 Agent 同時學(xué)會用工具與做創(chuàng)作，緩解多約束沖突

要訓(xùn)練一個真正面向開放圖像生成的 Agent，第一步不是直接把各種任務(wù)混在一起做微調(diào)，而是先回答一個更基礎(chǔ)的問題：

什么樣的數(shù)據(jù)，才能教會模型完整地走完"理解請求—查找證據(jù)—選擇參考—激活生成知識—寫出最終程序"這一整條鏈路？

GenEvolve-Data 因此不是普通的 prompt-rewriting 數(shù)據(jù)集，也不是單純的圖文配對數(shù)據(jù)集。每個樣本都被設(shè)計成一個完整的開放生成問題：有的缺少外部事實，有的依賴視覺參考，有的要求精確文字、數(shù)量、布局、材質(zhì)或解剖結(jié)構(gòu)。這些請求先由結(jié)構(gòu)化 recipe 控制覆蓋范圍，再交給 Teacher Agent 生成真實的多輪工具軌跡，最后經(jīng)過 VLM 審計、GT 圖像渲染和視覺過濾，形成可以用于 SFT、自我進(jìn)化和評測的三種視圖。

在這個數(shù)據(jù)基礎(chǔ)上，才進(jìn)入第二個問題：如何讓同一個 Agent 同時處理 Knowledge-Anchored 與 Quality-Anchored 兩類需求？這里確實會出現(xiàn)任務(wù)之間的相互牽制：知識型約束更強(qiáng)調(diào)事實正確性與參考一致性，質(zhì)量型約束更關(guān)注像素級可校驗細(xì)節(jié)。所以 GenEvolve 沒有把所有信號直接壓進(jìn)一次訓(xùn)練，而是采用了一條分階段的路徑：

先在篩選過的工具編排軌跡上做監(jiān)督微調(diào)（SFT 冷啟動），讓 Agent 學(xué)會"什么時候該搜、什么時候該看圖、什么時候該激活技能、最后該輸出什么樣的程序"；再通過 GRPO + 視覺經(jīng)驗自蒸餾（SDL） 在帶反饋的 RL 階段做自我進(jìn)化，把"軌跡級是哪條更好"和"token 級好在哪里"兩層信號同時優(yōu)化；最后把"經(jīng)驗"完全燒進(jìn)權(quán)重，部署的 Student 模型 不需要任何 runtime memory —— 檢索庫和特權(quán) Teacher 只在訓(xùn)練時存在。3）GenEvolve-Bench：用統(tǒng)一基準(zhǔn)系統(tǒng)評估開放圖像生成的常見需求

為了更完整地評測這類任務(wù)，我們構(gòu)建了 GenEvolve-Bench，這是一個面向開放圖像生成的統(tǒng)一測試基準(zhǔn)，覆蓋 Knowledge-Anchored / Quality-Anchored 兩條主軌，并據(jù)此進(jìn)行了系統(tǒng)化評估。

實驗結(jié)果表明，GenEvolve 在兩條軌道上的表現(xiàn)更加均衡。尤其是在對外部世界知識要求更高的 Knowledge-Anchored 任務(wù)上，優(yōu)勢更加明顯；而在文字、數(shù)量、版式、材質(zhì)等可校驗細(xì)節(jié)的 Quality-Anchored 任務(wù)上，也展現(xiàn)出更好的穩(wěn)定性。

在統(tǒng)一且公平的評測方式下（KScore：Faithfulness 0.1 / Visual 0.4 / Text 0.4 / Aesthetic 0.1，由 Gemini 3.1 Pro Preview 作為視覺判分器），GenEvolve 的整體效果已經(jīng)超過當(dāng)前主流的開源直生成器與 agentic 工作流，并在搭配強(qiáng)生成器時取得當(dāng)前最高的 KScore。

我們額外在公開的 WISE 知識密集型基準(zhǔn)上做外推：用 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器，整體 WiScore 達(dá)到 0.82，超過 GPT-4o（0.80） 與所有 agentic baseline。

方法論

GenEvolve 的核心目標(biāo)，是把真實開放圖像生成場景中常見的

"一句開放請求 + 多種硬約束"

統(tǒng)一建模為 one self-evolving agent for tool-orchestrated open-ended image generation。

換句話說，它希望一個智能體同時具備兩類能力：

一方面能完成對世界知識的檢索、參考圖選取與綁定、外部證據(jù)到生成程序的轉(zhuǎn)寫；另一方面也能在程序級別準(zhǔn)確表達(dá)數(shù)量、文字、版式、解剖、材質(zhì)等硬約束；并且在同一個框架下兼顧"事實是否正確"和"畫面是否符合所有要求"。

為了實現(xiàn)這一點，我們設(shè)計了一套完整的 數(shù)據(jù)—專家—進(jìn)化—蒸餾 的訓(xùn)練流程，并在最后結(jié)合 視覺經(jīng)驗自蒸餾，將"最佳/最差軌跡的差異"顯式蒸餾到部署模型，從而盡可能減輕多約束訓(xùn)練中的相互牽制問題。

GenEvolve 方法總覽：student 采樣多條工具編排軌跡；最優(yōu)/最差對蒸餾成結(jié)構(gòu)化 Decision Guide，只交給特權(quán) Teacher，再用 token 級反向 KL 蒸餾回部署的 Student。

GenEvolve 方法總覽：student 采樣多條工具編排軌跡；最優(yōu)/最差對蒸餾成結(jié)構(gòu)化 Decision Guide，只交給特權(quán) Teacher，再用 token 級反向 KL 蒸餾回部署的 Student。階段 1：自動化數(shù)據(jù)構(gòu)建與 GenEvolve-Data

統(tǒng)一智能體要真正具備泛化能力，前提是擁有高質(zhì)量、可控、覆蓋多類約束的 工具編排軌跡 數(shù)據(jù)。

為此，GenEvolve 首先搭建了一套自動化數(shù)據(jù)生產(chǎn)流程，構(gòu)建出 GenEvolve-Data，并同步建立評測集 GenEvolve-Bench。

整個流程可以理解為一個完整的數(shù)據(jù)閉環(huán)：

結(jié)構(gòu)化 Recipe → 自然請求 prompt → Teacher Agent 多輪工具軌跡 → VLM 審計 → GT 圖像渲染 → 視覺過濾 → 訓(xùn)練/RL/Bench 三套切分

GenEvolve-Data 與 GenEvolve-Bench 的數(shù)據(jù)閉環(huán)：從結(jié)構(gòu)化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾，再切分為 SFT / 自我進(jìn)化 / 評測三視圖。

GenEvolve-Data 與 GenEvolve-Bench 的數(shù)據(jù)閉環(huán)：從結(jié)構(gòu)化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾，再切分為 SFT / 自我進(jìn)化 / 評測三視圖。

也就是說，我們不是簡單拼接現(xiàn)成樣本，而是先生成更貼近真實開放生成需求的請求，再經(jīng)過嚴(yán)格過濾和任務(wù)化改造，最終沉淀為可訓(xùn)練、可評測的數(shù)據(jù)體系。

從類別分布上看，GenEvolve-Data 被組織成兩條主軌：Knowledge-Anchored 與 Quality-Anchored。前者覆蓋建筑、街景、公眾人物、產(chǎn)品、交通工具、事件、科學(xué)、文物等外部知識相關(guān)場景；后者覆蓋文字/版式、空間關(guān)系、計數(shù)、解剖、屬性綁定、材質(zhì)、美學(xué)和創(chuàng)意轉(zhuǎn)化等可見質(zhì)量約束。這樣的設(shè)計讓 benchmark 不只測試"畫得好不好看"，而是測試 Agent 是否能根據(jù)請求類型選擇合適的證據(jù)、參考圖和生成技能。

GenEvolve-Data 的類別層級：兩條主軌各覆蓋 8 類診斷場景，用于控制數(shù)據(jù)覆蓋、分層切分與 benchmark 分析。

GenEvolve-Data 的類別層級：兩條主軌各覆蓋 8 類診斷場景，用于控制數(shù)據(jù)覆蓋、分層切分與 benchmark 分析。

從構(gòu)建統(tǒng)計上看，數(shù)據(jù)也經(jīng)歷了比較強(qiáng)的過濾：

prompt pool 保留 19,990 個有效請求；其中 19,320 條通過結(jié)構(gòu)檢查進(jìn)入軌跡階段，最終保留 13,379 條高質(zhì)量過濾軌跡；SFT 軌跡為 8,800 條；GT 圖像生成成功 4,321 張，視覺過濾后保留 3,175 個視覺反饋 case；自我進(jìn)化訓(xùn)練池為 2,575 個 case，held-out benchmark 為 594 個 case。 GenEvolve-Data 構(gòu)建統(tǒng)計：左側(cè)是 prompt 到 SFT 軌跡的過濾過程；右側(cè)是 GT 圖像、視覺過濾、自我進(jìn)化樣本與 held-out benchmark 的切分。

GenEvolve-Data 構(gòu)建統(tǒng)計：左側(cè)是 prompt 到 SFT 軌跡的過濾過程；右側(cè)是 GT 圖像、視覺過濾、自我進(jìn)化樣本與 held-out benchmark 的切分。

（1）請求與基礎(chǔ)軌跡生成：更貼近真實開放生成需求

GenEvolve 所使用的請求并不是普通的 caption，而是先組合任務(wù)族 / 缺失外部證據(jù) / 視覺錨點 / 主導(dǎo)生成要求 / 難度等信息，再借助 VLM 把它們擴(kuò)展成自然但帶有硬約束的開放式請求；隨后讓 Teacher Agent（Seed 2.0 / Gemini 3 Pro）走一次真實的多輪工具循環(huán)：發(fā)起文本搜索、拉視覺參考、激活生成知識，最終輸出 prompt-reference program。

工具調(diào)用順序是請求驅(qū)動的：知識密集型請求往往先做事實查找；參考敏感型請求更早依賴圖像搜索；質(zhì)量驅(qū)動型請求會更早激活內(nèi)部生成知識。

（2）多模態(tài)過濾：保證數(shù)據(jù)既能訓(xùn)練，也能評測

對于合成數(shù)據(jù)而言，真正的瓶頸往往不在數(shù)量，而在 噪聲控制。因此，我們設(shè)計了一套分層過濾機(jī)制，用來保證訓(xùn)練集和評測集的可靠性。

軌跡過濾：程序化檢查清除不完整的工具循環(huán)、無效參考、URL/ID 泄露、缺少 ordinal binding、過分簡化的最終程序；再由 VLM 判分器審核"參考是否真支持畫面"、"證據(jù)是否被采用"、"程序是否覆蓋所有硬約束"。GT 圖像過濾：高質(zhì)量的 Teacher 程序由 Nano Banana Pro 渲染成 GT 圖像，再經(jīng)第二道視覺過濾檢查 prompt 一致性、參考使用率、視覺連貫性、生成質(zhì)量。三視圖切分：最終保留的樣本切為 SFT 視圖（保留完整工具循環(huán)、不暴露 GT 圖像）、自我進(jìn)化視圖（保留請求 + GT 圖像 + 元數(shù)據(jù)）、GenEvolve-Bench 評測集，覆蓋 Knowledge / Quality 兩條軌道。階段 2：SFT 冷啟動（先教 Agent 如何"會用工具"）

如果直接把模型甩進(jìn) RL 里采軌跡，最容易出現(xiàn)的問題就是 早期采樣的工具調(diào)用極度不穩(wěn)定：什么時候該搜、參考要不要替換、技能要不要調(diào)、最終程序怎么寫……都需要先有一套合格的"會用工具"的初值。

為此 GenEvolve 先在篩選后的 Teacher 軌跡上做一次冷啟動 SFT。

訓(xùn)練對象：Qwen3-VL-8B-Instruct 的語言策略部分（視覺編碼器凍結(jié)，僅優(yōu)化 assistant 端 token，含/ /）；訓(xùn)練棧：LLaMA-Factory 長上下文（cutoff 32K）、bf16 + FlashAttention-2、ZeRO-3、AdamW 優(yōu)化器 + 余弦學(xué)習(xí)率；退出準(zhǔn)則：以 held-out 軌跡 loss 而非 benchmark 性能選 ckpt，避免在 SFT 階段過早過擬合到判分器。

冷啟動結(jié)束后得到的 GenEvolve-SFT，可以理解為"一個學(xué)生學(xué)會了 Teacher 那一整套工具調(diào)用 + 程序?qū)懛?/strong> 的范式"，但還沒有學(xué)到"什么樣的軌跡真正會得到高分圖"。

階段 3：GRPO + 視覺經(jīng)驗自蒸餾（SDL）

監(jiān)督微調(diào)能讓模型學(xué)會"會用"，但很難進(jìn)一步讓模型學(xué)會"用得更好、更像高水準(zhǔn)設(shè)計師"。

我們在 RL 階段引入兩層信號同時優(yōu)化：

（1）軌跡級：GRPO + 混合獎勵

對每個用戶請求，智能體采 6 條 rollout，每條產(chǎn)生一個程序 z，再交給生成器渲染圖像。我們用兩個判分器同時打分：

KScore 視覺判分：四維 Faithfulness / Visual / Text / Aesthetic（權(quán)重 0.1 / 0.4 / 0.4 / 0.1）；程序充分性文本判分：5 檔評分 {0, 0.25, 0.5, 0.75, 1}，看程序是否承載了足夠的事實、ordinal 引用、技能激活與可執(zhí)行的硬約束。

最終獎勵 R = 0.5 R_img + 0.5 R_text，作為 GRPO 的 group-relative 優(yōu)勢信號。

（2）Token 級：視覺經(jīng)驗自蒸餾

僅有 trajectory-level 的獎勵還不夠 —— 它告訴你"哪條軌跡更好"，但不告訴模型"為什么這條更好"。GenEvolve 的關(guān)鍵貢獻(xiàn)，是把"為什么"這件事變成可學(xué)習(xí)的 token-level 信號：

對每個 prompt 的 6 條 rollout，挑出最優(yōu)/最差對（要求獎勵差距 ≥ δ_min），讓 Gemini 3.1 Pro Preview 把這對差異蒸餾成一段結(jié)構(gòu)化的Decision Guide：retrieval_key：trigger 短語 + source-prompt summary；decision_guidance：6 類祈使式 bullet（推薦工具計劃 / 搜索查詢 / 技能路由 / 參考選擇 / 程序?qū)懛?/ 失敗防御）。這些 Decision Guide 進(jìn)入 prompt-keyed 滾動 buffer（容量 500），按 embed(trigger + summary) 用 Qwen3-Embedding-0.6B 建立檢索索引。訓(xùn)練時按 cosine 相似度（gate ≥ 0.84）拉回 top-1 Guide，只把它注入 Teacher 視角；Student 始終只看普通 system prompt。SDL 用 importance-weighted 反向 KL，讓 Student 在同一批 on-policy token 上向 Teacher 分布對齊 —— 但只在決策關(guān)鍵的 token 上做：Decision-only mask：只保留 /塊內(nèi)的 token；Top-K 過濾：每條序列內(nèi)只保留 |log π_E − log π_S| 最大的前 10%。

一句話總結(jié)：在最關(guān)鍵的幾十個決策 token 上，讓 Student 學(xué)會"看到了 Decision Guide 的人會怎么做"，但部署時 Student 不需要任何檢索庫。這正是 GenEvolve 把"經(jīng)驗"完全燒進(jìn)權(quán)重的關(guān)鍵。

這張圖展示了 SDL 在 token 層面到底學(xué)到了什么。左邊是 Teacher 反對 Student 的情況：Student 原本傾向于輸出一些泛化或填充式 token，但 Teacher 在 Decision Guide 的幫助下，會把概率質(zhì)量重新分配到更關(guān)鍵的動作上，比如先調(diào)用工具、明確空間布局、錨定事實身份、選擇參考圖。右邊是 Teacher 支持 Student 的情況：當(dāng) Student 已經(jīng)朝正確方向走時，Teacher 進(jìn)一步提高正確決策 token 的概率，讓模型在后續(xù)訓(xùn)練中更堅定地復(fù)用這些策略。

SDL 的 token-level 證據(jù)：Teacher 一方面會糾正 Student 的錯誤決策 token，另一方面會放大已有正確決策的概率，使視覺經(jīng)驗最終沉淀到部署模型權(quán)重中。

(a) 混合獎勵曲線隨訓(xùn)練步數(shù)穩(wěn)定上升；(b) SDL 反向 KL 損失逐步下降。兩條信號同時改善，說明 GRPO 提供"哪條更好"的軌跡級信號，SDL 提供"為什么更好"的 token 級信號。實驗：GenEvolve 到底強(qiáng)在哪里？

我們把評測拆成四塊：統(tǒng)一基準(zhǔn)（GenEvolve-Bench） → 主結(jié)果 → 消融實驗 → 跨基準(zhǔn)外推（WISE）與定性對比。

1）GenEvolve-Bench：把"開放圖像生成的常見需求"整理成統(tǒng)一評測基準(zhǔn)

我們首先構(gòu)建了一個面向開放圖像生成的統(tǒng)一評測基準(zhǔn) GenEvolve-Bench，覆蓋兩大軌道：Knowledge-Anchored / Quality-Anchored。為了盡量貼近真實使用場景，Bench 同時包含兩類輸入形式（僅文本請求 / 文本請求 + 用戶參考圖），并在多個主題（實體、地標(biāo)、商品、事件、文字、布局、計數(shù)、屬性、解剖、材質(zhì)、美學(xué)、創(chuàng)意）上保持均衡分布。

在評測方式上，我們采用強(qiáng) VLM（Gemini 3.1 Pro Preview）對結(jié)果進(jìn)行打分：

既評價 視覺細(xì)節(jié)正確性（事實接地、參考一致、可校驗細(xì)節(jié)）；也評價 整體質(zhì)量（構(gòu)圖、文字、美學(xué)）；

并最終在四個維度上給出 KScore，加權(quán)匯總為最終指標(biāo)。

更直觀地說，這個 benchmark 測的不是"能不能生成一張圖"，而是"能不能像一個合格的 agent 一樣，把世界知識、參考圖、生成知識全部編排好"。

2）定量結(jié)果：開源最強(qiáng)，搭配強(qiáng)生成器拿下當(dāng)前最高

在 GenEvolve-Bench 上，我們對比了主流的 直生成 baseline（Lumina-Image 2.0 / BAGEL / SD-3.5 / FLUX.1-dev / FLUX.2 Klein / Z-Image / Qwen-Image / Nano Banana Pro 等）和 agentic baseline（Gen-Searcher 等）。結(jié)果非常清晰：

同樣接 Qwen-Image-Edit-2511 這類開源生成器：GenEvolve 在 Knowledge / Quality 兩條軌道上都有明顯提升，KScore 從 Gen-Searcher 的 0.3493 提升到 0.3663（Visual 維度由 0.1050 提升到 0.1338），尤其在 Knowledge-Anchored 這類更依賴事實接地的任務(wù)上增幅更大；搭配更強(qiáng)的 Nano Banana Pro：GenEvolve 的 KScore 直接抬到 0.5739，四個 judge 維度和兩條 benchmark 軌道均達(dá)到最高。即便是 Nano Banana Pro 自己的"裸"直生成（KScore 0.5298），也明顯落后于"裸 Nano + GenEvolve 編排"，說明 agent 端的工具編排帶來的提升是生成器無關(guān)的。

GenEvolve-Bench 主結(jié)果。GenEvolve + Qwen-Image-Edit-2511 是最佳開源生成器設(shè)置；GenEvolve + Nano Banana Pro 在整體 KScore、Knowledge-Anchored 和 Quality-Anchored 上均取得最高分。

從完整表格可以看到幾個更細(xì)的趨勢：

直接生成器的整體審美分通常不差，但在需要事實接地、參考一致或精確布局時，Visual correctness 容易成為短板；當(dāng)?shù)讓由善鞴潭?Qwen-Image-Edit-2511 時，GenEvolve 比 Gen-Searcher 更擅長把搜索證據(jù)、參考圖和生成技能寫進(jìn)最終程序；當(dāng)?shù)讓由善鲹Q成 Nano Banana Pro 時，同一套 Agent 策略還能繼續(xù)放大強(qiáng)生成器的上限，說明 GenEvolve 學(xué)到的是可遷移的編排策略，而不是某個渲染器上的 prompt trick。3）消融實驗：每個訓(xùn)練階段到底貢獻(xiàn)了什么？

為了確認(rèn)提升來自哪里，我們進(jìn)一步做了 component ablation。結(jié)果顯示，單純把 Qwen3-VL 接上同一套工具接口，已經(jīng)能比裸 Qwen-Image 更好；SFT 冷啟動能繼續(xù)提高工具調(diào)用和最終程序質(zhì)量；GRPO 提供軌跡級獎勵后再往上推一截；而完整的 GRPO + SDL 取得最高 KScore。

這組結(jié)果說明兩點：

第一，會用工具 和 用工具用得好 是兩件事。Untuned workflow 已經(jīng)具備工具入口，但沒有經(jīng)過軌跡監(jiān)督和視覺反饋，很難穩(wěn)定寫出高質(zhì)量 prompt-reference program。

第二，GRPO 的 scalar reward 能告訴模型"哪條軌跡更好"，但 SDL 提供的是更細(xì)的 token-level credit assignment：它把最佳/最差軌跡之間可復(fù)用的經(jīng)驗蒸餾到關(guān)鍵動作 token 上，因此最終在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 三個最關(guān)鍵維度上都繼續(xù)提升。

4）跨基準(zhǔn)外推：WISE 上超過 GPT-4o

我們額外在 WISE 這一公開的知識密集型圖像生成基準(zhǔn) 上做外推：

注意：GenEvolve 在 WISE 上 不做任何 in-domain 微調(diào)，純靠跨任務(wù)轉(zhuǎn)移：用一個 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器，在 WiScore Overall 上 超過 GPT-4o；化學(xué)一項更是甩開 GPT-4o 9 個百分點。

5）定性對比：為什么說它"在編排"而不是"在炫工具"？

定性結(jié)果里最典型的兩類失敗，我們在很多 baseline（包括部分商業(yè)系統(tǒng)）上都能反復(fù)看到：

Knowledge-Anchored 失敗：模型要么沒去搜，要么搜回來的事實沒真正進(jìn) gen_prompt，導(dǎo)致身份錯位、年代錯亂、結(jié)構(gòu)比例失真。GenEvolve 更偏向去抽取關(guān)鍵事實，再把它顯式寫進(jìn)最終程序里的 ordinal binding 與硬約束，使"被采用的事實"真的進(jìn)畫面。Quality-Anchored 失敗：很多系統(tǒng)在文字、計數(shù)、版式上"看起來像，但拼寫錯"或"數(shù)對了但布局塌"。GenEvolve 通過 query_knowledge 主動激活專門技能（text_rendering / quantity_counting / spatial_layout / material_consistency 等），并在程序里寫出可校驗的硬約束，使得這些維度更穩(wěn)。

在 GenEvolve-Bench 上的定性對比。橙色：依賴外部知識；藍(lán)色：依賴內(nèi)部生成技能。

GenEvolve + Nano Banana Pro 的擴(kuò)展畫廊。

GenEvolve + Qwen-Image-Edit 的擴(kuò)展畫廊（與上一張使用同一套 GenEvolve 程序，僅切換底層渲染器）。參考文獻(xiàn)

[1] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

技術(shù)交流社區(qū)免費開放

這是一個高質(zhì)量AIGC技術(shù)社群。

涉及內(nèi)容生成/理解（圖像、視頻、語音、文本、3D/4D等）、大模型、具身智能、自動駕駛、深度學(xué)習(xí)及傳統(tǒng)視覺等多個不同方向。這個社群更加適合記錄和積累，方便回溯和復(fù)盤。愿景是聯(lián)結(jié)數(shù)十萬AIGC開發(fā)者、研究者和愛好者，解決從理論到實戰(zhàn)中遇到的具體問題。倡導(dǎo)深度討論，確保每個提問都能得到認(rèn)真對待。

原文標(biāo)題 : AI 畫圖終于不再瞎蒙！GenEvolve把開放圖像生成變成可訓(xùn)練自進(jìn)化智能體！

GenEvolve 訓(xùn)練

相關(guān)閱讀
GenEvolve 訓(xùn)練

Agent下半場的“反共識”：SaaS企業(yè)正在成為新生態(tài)位 2026-06-12

營銷與交易增長，進(jìn)入Agent時刻 2026-06-12

重大更新！Google翻譯接入Gemini 3.5 LT，我們實測了一波 2026-06-12

桌面Agent爆發(fā)！阿里QoderWork能干雜活，但只有實習(xí)生水平 2026-06-11

蘋果庫克謝幕之戰(zhàn)：Siri重構(gòu)、Gemini救場，資本市場奈何不買賬？ 2026-06-10

分享
新浪微博騰訊QQ QQ空間微信

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄

手機(jī)快捷登錄

賬號密碼登錄

手機(jī)

驗證碼

發(fā)送驗證碼

59s

登錄

手機(jī)/郵箱/用戶名

密碼

大小寫鎖定已打開

登錄

請選擇郵箱類型

@qq.com

@163.com

@126.com

@sina.com

@sina.cn

@sohu.com

@yahoo.cn

@yahoo.com.cn

@gmail.com

@outlook.com

@vip.qq.com

@vip.sina.com

@139.com

立即登錄即可訪問所有OFweek服務(wù)

還不是會員？免費注冊
忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁，請輸入驗證碼繼續(xù)

驗證碼：刷新

最新評論

熱門評論

暫無評論

暫無評論

圖片新聞

落地?zé)o錫！京東首個物流機(jī)器人超級工廠來了

OpenAI發(fā)布的AI瀏覽器，市場為何反應(yīng)強(qiáng)烈？

馬云重返一線督戰(zhàn)，阿里重啟創(chuàng)始人模式

機(jī)器人奧運會戰(zhàn)報：宇樹機(jī)器人摘下首金，天工Ultra搶走首位“百米飛人”

存儲圈掐架！江波龍起訴佰維，索賠121萬

長安汽車母公司突然更名：從“中國長安”到“辰致科技”

豆包前負(fù)責(zé)人喬木出軌BP后續(xù)：均被辭退

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘，Seed進(jìn)入調(diào)整期

推薦商品

最新發(fā)布

2026上半年具身智能復(fù)盤，瘋狂融資潮背后誰才是“印鈔機(jī)”

2026上半年具身智能復(fù)盤，瘋狂融資潮背后誰才是“印鈔機(jī)”

史上最大IPO來襲！SpaceX，1.75萬億憑什么？

宇樹上市，機(jī)器人開啟資本狂飆時代？

物理AI產(chǎn)業(yè)鏈深度拆解

直播活動

最新活動更多

6月30日
立即報名>> 【直播】 AI X 6G無線智能與下一代通信測試論壇

6月30日
立即申請試用>> 【免費試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“

精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新

精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產(chǎn)品創(chuàng)新日

精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會

精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機(jī)器人產(chǎn)業(yè)大會

推薦專題

半導(dǎo)體行業(yè) 一站式電源解決方案國產(chǎn)電源


使用模擬源進(jìn)行快速射頻設(shè)備測試


安森美（onsemi）先進(jìn)LED照明系統(tǒng)，引領(lǐng)未來趨勢新標(biāo)桿


TE 2025國際物聯(lián)網(wǎng)展·深圳站

一周熱點月點擊榜

1 SpaceX上市拒絕中港投資者：資本開啟地緣政治時代

2 3000字深度｜物理AI有何魔力？讓孫正義、黃仁勛、孫宇晨同時“上頭”

3 銅價再起波瀾：一場“資源戰(zhàn)爭”與AI時代的終極共振

4 千問，有自己的《置身釘內(nèi)》

5 2026上半年具身智能復(fù)盤，瘋狂融資潮背后誰才是“印鈔機(jī)”

6 用6大AI來考高考數(shù)學(xué)，能打多少分？哪一家最強(qiáng)？

7 史上最大IPO來襲！SpaceX，1.75萬億憑什么？

8 無招退場，釘釘步入“陳宇森時代”

9 2026上半年具身智能復(fù)盤，瘋狂融資潮背后誰才是“印鈔機(jī)”

10 突發(fā)｜芯片核心突然跳槽！OpenAI已成Anthropic黃埔軍校，超15名核心在Anthropic擔(dān)任要職

1 人形機(jī)器人“第一股”來了！宇樹科技即將上會

2 全球股市陷AI獨大結(jié)構(gòu)性瘋狂

3 特斯拉宣布監(jiān)督版FSD登陸中國？

4 谷歌2026 I/O大會完整回顧：模型依然重要，但智能體正在接管一切

5 Agnes AI 發(fā)布三大模態(tài)核心模型：文本、圖像、視頻

6 騰訊云宣布調(diào)價：DeepSeek-V4降價97%

7 “國產(chǎn)GPU第一股”摩爾線程首季扭虧，但造血能力仍待考驗

8 元寶“漏水”，騰訊只拿到了AI“站票”

9 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報告

10 特斯拉官宣監(jiān)督版FSD登陸中國

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市

自動化高級工程師廣東省/深圳市

光器件研發(fā)工程師福建省/福州市

銷售總監(jiān)（光器件）北京市/海淀區(qū)

激光器高級銷售經(jīng)理上海市/虹口區(qū)

光器件物理工程師北京市/海淀區(qū)

激光研發(fā)工程師北京市/昌平區(qū)

技術(shù)專家廣東省/江門市

封裝工程師北京市/海淀區(qū)

結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯
x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

關(guān)于我們 - About OFweek - 征稿 - 廣告咨詢 - 幫助信息 - 聯(lián)系我們 - 會員服務(wù) - 網(wǎng)站導(dǎo)航 - 手機(jī)OFweek網(wǎng)

我們的網(wǎng)站：太陽能光伏網(wǎng) | 電子工程網(wǎng) | 物聯(lián)網(wǎng) | 工控網(wǎng) | 機(jī)器人網(wǎng) | 智能制造網(wǎng)| 智慧海洋網(wǎng)| 激光網(wǎng) | 顯示網(wǎng) | 光通訊網(wǎng) | 云計算網(wǎng) | 3D打印網(wǎng)
人工智能網(wǎng) | 智能硬件網(wǎng)| 醫(yī)械科技網(wǎng) | 鋰電網(wǎng) | 新材料網(wǎng) | 可穿戴設(shè)備網(wǎng) | VR網(wǎng) | 新能源汽車網(wǎng) | 氫能網(wǎng) | 智慧城市網(wǎng) | 智能家居網(wǎng) | 傳感器網(wǎng) | 環(huán)保網(wǎng) | 儀器儀表網(wǎng)
安防網(wǎng) | 儲能網(wǎng) | 智能電網(wǎng)| 風(fēng)電網(wǎng) | 智能汽車網(wǎng)| 通信網(wǎng)| 電力網(wǎng)| 照明網(wǎng) | 電源網(wǎng) | 光學(xué)網(wǎng) | 數(shù)字生活| PCB| 人才網(wǎng) | 外貿(mào)網(wǎng) | 培訓(xùn)網(wǎng)| 工采網(wǎng)
咨詢熱線：0755-83279360/19925280375 客服傳真：+86-755-83279008
粵ICP備06087881號 Copyright © 2006-, All Rights Reserved.
版權(quán)所有－OFweek維科網(wǎng)（高科技行業(yè)門戶）網(wǎng)站所有圖片、文字未經(jīng)許可不得拷貝、復(fù)制。

全國互聯(lián)網(wǎng)安全
管理服務(wù)平臺

不良信息
舉報中心

工商網(wǎng)監(jiān)
電子標(biāo)志

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：
新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区