新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

AI 畫圖終于不再瞎蒙!GenEvolve把開放圖像生成變成可訓(xùn)練自進(jìn)化智能體!

作者:Sixiang Chen等

解讀:AI生成未來

很多圖像生成任務(wù),表面上只是讓模型畫一張圖;真正做起來才會發(fā)現(xiàn),難點往往發(fā)生在生成之前。

舉個例子:用戶想要某個真實地標(biāo),就不能只畫出一個“差不多的建筑”;用戶給了參考圖,就不能只借一點風(fēng)格,而要保住身份、形態(tài)和關(guān)鍵材質(zhì);用戶要求海報文字、空間關(guān)系或者各種模糊的信息,就需要精準(zhǔn)的執(zhí)行所有的信息。

這些問題放在一起,會形成一種很典型的開放生成場景:模型需要先補(bǔ)信息、選參考、拆約束,再把這些內(nèi)容組織成底層生成器能執(zhí)行的指令。GenEvolve 關(guān)注的正是這一步。它不是把圖像生成看成單次 prompt rewriting,而是把生成前的決策過程建模成一條工具軌跡。

項目主頁:https://ephemeral182.github.io/GenEvolve/

arXiv:https://arxiv.org/abs/2605.21605

GitHub:https://github.com/MeiGen-AI/GenEvolve

模型權(quán)重:https://huggingface.co/MeiGen-AI/GenEvolve

數(shù)據(jù)與評測:https://huggingface.co/datasets/MeiGen-AI/GenEvolve-Data-BenchGenEvolve 作為生成前的智能體策略,可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。

GenEvolve 作為生成前的智能體策略,可以與 Qwen-Image-Edit、Nano Banana Pro 等不同渲染器組合。生成之前,Agent 需要先做三類判斷

開放圖像生成里,用戶請求缺失的信息并不總是同一種。

第一類缺的是事實依據(jù)。真實建筑、產(chǎn)品、公眾人物、歷史事件、科學(xué)概念等任務(wù),都需要先把外部知識補(bǔ)齊,否則畫面可能“看起來合理”,但關(guān)鍵事實是錯的。

第二類缺的是可用參考。參考圖并不只是給模型看一下風(fēng)格,它可能承載人物身份、商品結(jié)構(gòu)、局部形態(tài)、服飾材質(zhì)等約束。Agent 要判斷哪張圖值得用,以及參考應(yīng)該以什么方式進(jìn)入最終程序。

第三類缺的是生成控制能力。文字渲染、計數(shù)、布局、屬性綁定、解剖和材質(zhì)一致性,經(jīng)常是開放生成中最容易失手的部分。它們需要被明確成可檢查的約束,而不是只停留在自然語言愿望里。

圍繞這三類需求,GenEvolve 為 Agent 準(zhǔn)備了三個入口:search(q) 用來查外部證據(jù),image_search(q) 用來檢索視覺參考,query_knowledge(skill) 用來調(diào)取文字、空間、數(shù)量、材質(zhì)等生成知識。Agent 的目標(biāo)不是“多調(diào)用幾個工具”,而是把工具結(jié)果整理成 prompt-reference program,再交給底層圖像生成器執(zhí)行。

GenEvolve 將一次開放生成拆解為工具調(diào)用、參考綁定、技能激活和最終程序生成。

GenEvolve 將一次開放生成拆解為工具調(diào)用、參考綁定、技能激活和最終程序生成。1)統(tǒng)一"工具編排"范式:單一智能體覆蓋開放生成中的多類需求

GenEvolve 并不是把開放圖像生成拆成若干獨立模塊或工具來分別處理, 而是將開放生成場景中最常見的需求整理為兩大軌道,并統(tǒng)一交給 一個智能體 來完成:

外部知識依賴類:Knowledge-Anchored — 實體識別、事件、地標(biāo)、商品、可視事實;質(zhì)量約束依賴類:Quality-Anchored — 文字渲染、空間布局、數(shù)量、屬性綁定、解剖、材質(zhì)一致性、美學(xué)、創(chuàng)意轉(zhuǎn)化。

這里更重要的其實不是"任務(wù)名稱本身", 而是這些能力共同對應(yīng)了一個真實的設(shè)計流程:

接到用戶請求 → 搜外部證據(jù) → 找視覺參考 → 激活合適的生成知識 → 寫出可執(zhí)行的 prompt-reference program → 交給生成器渲染 → 輸出最終成品圖

以往不少方法更像是把"搜索增強(qiáng)"和"圖像生成模塊"簡單拼接在一起,雖然功能上能覆蓋,但整體體驗往往不夠連貫;

而 GenEvolve 更接近一個 "基于工具與經(jīng)驗工作的智能生成助手":只要給它一條開放請求,它既能調(diào)用外部工具收集證據(jù)、尋找參考圖,也能根據(jù)請求類型激活相應(yīng)技能,并把所有信息編排成一段 generator-agnostic 的最終程序。

2)"數(shù)據(jù)—進(jìn)化—蒸餾"閉環(huán):讓一個 Agent 同時學(xué)會用工具與做創(chuàng)作,緩解多約束沖突

要訓(xùn)練一個真正面向開放圖像生成的 Agent,第一步不是直接把各種任務(wù)混在一起做微調(diào),而是先回答一個更基礎(chǔ)的問題:

什么樣的數(shù)據(jù),才能教會模型完整地走完"理解請求—查找證據(jù)—選擇參考—激活生成知識—寫出最終程序"這一整條鏈路?

GenEvolve-Data 因此不是普通的 prompt-rewriting 數(shù)據(jù)集,也不是單純的圖文配對數(shù)據(jù)集。 每個樣本都被設(shè)計成一個完整的開放生成問題:有的缺少外部事實,有的依賴視覺參考,有的要求精確文字、數(shù)量、布局、材質(zhì)或解剖結(jié)構(gòu)。 這些請求先由結(jié)構(gòu)化 recipe 控制覆蓋范圍,再交給 Teacher Agent 生成真實的多輪工具軌跡,最后經(jīng)過 VLM 審計、GT 圖像渲染和視覺過濾,形成可以用于 SFT、自我進(jìn)化和評測的三種視圖。

在這個數(shù)據(jù)基礎(chǔ)上,才進(jìn)入第二個問題:如何讓同一個 Agent 同時處理 Knowledge-Anchored 與 Quality-Anchored 兩類需求? 這里確實會出現(xiàn)任務(wù)之間的相互牽制:知識型約束更強(qiáng)調(diào)事實正確性與參考一致性,質(zhì)量型約束更關(guān)注像素級可校驗細(xì)節(jié)。 所以 GenEvolve 沒有把所有信號直接壓進(jìn)一次訓(xùn)練,而是采用了一條分階段的路徑:

先在篩選過的工具編排軌跡上做監(jiān)督微調(diào)(SFT 冷啟動),讓 Agent 學(xué)會"什么時候該搜、什么時候該看圖、什么時候該激活技能、最后該輸出什么樣的程序";再通過 GRPO + 視覺經(jīng)驗自蒸餾(SDL) 在帶反饋的 RL 階段做自我進(jìn)化,把"軌跡級是哪條更好"和"token 級好在哪里"兩層信號同時優(yōu)化;最后把"經(jīng)驗"完全燒進(jìn)權(quán)重,部署的 Student 模型 不需要任何 runtime memory —— 檢索庫和特權(quán) Teacher 只在訓(xùn)練時存在。3)GenEvolve-Bench:用統(tǒng)一基準(zhǔn)系統(tǒng)評估開放圖像生成的常見需求

為了更完整地評測這類任務(wù),我們構(gòu)建了 GenEvolve-Bench, 這是一個面向開放圖像生成的統(tǒng)一測試基準(zhǔn),覆蓋 Knowledge-Anchored / Quality-Anchored 兩條主軌,并據(jù)此進(jìn)行了系統(tǒng)化評估。

實驗結(jié)果表明,GenEvolve 在兩條軌道上的表現(xiàn)更加均衡。 尤其是在對外部世界知識要求更高的 Knowledge-Anchored 任務(wù)上,優(yōu)勢更加明顯; 而在文字、數(shù)量、版式、材質(zhì)等可校驗細(xì)節(jié)的 Quality-Anchored 任務(wù)上,也展現(xiàn)出更好的穩(wěn)定性。

在統(tǒng)一且公平的評測方式下(KScore:Faithfulness 0.1 / Visual 0.4 / Text 0.4 / Aesthetic 0.1,由 Gemini 3.1 Pro Preview 作為視覺判分器),GenEvolve 的整體效果已經(jīng)超過當(dāng)前主流的開源直生成器與 agentic 工作流,并在搭配強(qiáng)生成器時取得當(dāng)前最高的 KScore。

我們額外在公開的 WISE 知識密集型基準(zhǔn)上做外推:用 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器,整體 WiScore 達(dá)到 0.82,超過 GPT-4o(0.80) 與所有 agentic baseline。

方法論

GenEvolve 的核心目標(biāo),是把真實開放圖像生成場景中常見的

"一句開放請求 + 多種硬約束"

統(tǒng)一建模為 one self-evolving agent for tool-orchestrated open-ended image generation。

換句話說,它希望一個智能體同時具備兩類能力:

一方面能完成對世界知識的檢索、參考圖選取與綁定、外部證據(jù)到生成程序的轉(zhuǎn)寫; 另一方面也能在程序級別準(zhǔn)確表達(dá)數(shù)量、文字、版式、解剖、材質(zhì)等硬約束; 并且在同一個框架下兼顧"事實是否正確"和"畫面是否符合所有要求"。

為了實現(xiàn)這一點,我們設(shè)計了一套完整的 數(shù)據(jù)—專家—進(jìn)化—蒸餾 的訓(xùn)練流程, 并在最后結(jié)合 視覺經(jīng)驗自蒸餾,將"最佳/最差軌跡的差異"顯式蒸餾到部署模型, 從而盡可能減輕多約束訓(xùn)練中的相互牽制問題。

GenEvolve 方法總覽:student 采樣多條工具編排軌跡;最優(yōu)/最差對蒸餾成結(jié)構(gòu)化 Decision Guide,只交給特權(quán) Teacher,再用 token 級反向 KL 蒸餾回部署的 Student。

GenEvolve 方法總覽:student 采樣多條工具編排軌跡;最優(yōu)/最差對蒸餾成結(jié)構(gòu)化 Decision Guide,只交給特權(quán) Teacher,再用 token 級反向 KL 蒸餾回部署的 Student。階段 1:自動化數(shù)據(jù)構(gòu)建與 GenEvolve-Data

統(tǒng)一智能體要真正具備泛化能力,前提是擁有高質(zhì)量、可控、覆蓋多類約束的 工具編排軌跡 數(shù)據(jù)。

為此,GenEvolve 首先搭建了一套自動化數(shù)據(jù)生產(chǎn)流程,構(gòu)建出 GenEvolve-Data,并同步建立評測集 GenEvolve-Bench。

整個流程可以理解為一個完整的數(shù)據(jù)閉環(huán):

結(jié)構(gòu)化 Recipe → 自然請求 prompt → Teacher Agent 多輪工具軌跡 → VLM 審計 → GT 圖像渲染 → 視覺過濾 → 訓(xùn)練/RL/Bench 三套切分

GenEvolve-Data 與 GenEvolve-Bench 的數(shù)據(jù)閉環(huán):從結(jié)構(gòu)化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾,再切分為 SFT / 自我進(jìn)化 / 評測三視圖。

GenEvolve-Data 與 GenEvolve-Bench 的數(shù)據(jù)閉環(huán):從結(jié)構(gòu)化 recipe 到 Teacher 工具軌跡、VLM 審計、GT 圖像渲染、視覺過濾,再切分為 SFT / 自我進(jìn)化 / 評測三視圖。

也就是說,我們不是簡單拼接現(xiàn)成樣本,而是先生成更貼近真實開放生成需求的請求,再經(jīng)過嚴(yán)格過濾和任務(wù)化改造,最終沉淀為可訓(xùn)練、可評測的數(shù)據(jù)體系。

從類別分布上看,GenEvolve-Data 被組織成兩條主軌:Knowledge-Anchored 與 Quality-Anchored。 前者覆蓋建筑、街景、公眾人物、產(chǎn)品、交通工具、事件、科學(xué)、文物等外部知識相關(guān)場景; 后者覆蓋文字/版式、空間關(guān)系、計數(shù)、解剖、屬性綁定、材質(zhì)、美學(xué)和創(chuàng)意轉(zhuǎn)化等可見質(zhì)量約束。 這樣的設(shè)計讓 benchmark 不只測試"畫得好不好看",而是測試 Agent 是否能根據(jù)請求類型選擇合適的證據(jù)、參考圖和生成技能。

GenEvolve-Data 的類別層級:兩條主軌各覆蓋 8 類診斷場景,用于控制數(shù)據(jù)覆蓋、分層切分與 benchmark 分析。

GenEvolve-Data 的類別層級:兩條主軌各覆蓋 8 類診斷場景,用于控制數(shù)據(jù)覆蓋、分層切分與 benchmark 分析。

從構(gòu)建統(tǒng)計上看,數(shù)據(jù)也經(jīng)歷了比較強(qiáng)的過濾:

prompt pool 保留 19,990 個有效請求;其中 19,320 條通過結(jié)構(gòu)檢查進(jìn)入軌跡階段,最終保留 13,379 條高質(zhì)量過濾軌跡;SFT 軌跡為 8,800 條;GT 圖像生成成功 4,321 張,視覺過濾后保留 3,175 個視覺反饋 case;自我進(jìn)化訓(xùn)練池為 2,575 個 case,held-out benchmark 為 594 個 case。GenEvolve-Data 構(gòu)建統(tǒng)計:左側(cè)是 prompt 到 SFT 軌跡的過濾過程;右側(cè)是 GT 圖像、視覺過濾、自我進(jìn)化樣本與 held-out benchmark 的切分。

GenEvolve-Data 構(gòu)建統(tǒng)計:左側(cè)是 prompt 到 SFT 軌跡的過濾過程;右側(cè)是 GT 圖像、視覺過濾、自我進(jìn)化樣本與 held-out benchmark 的切分。

(1)請求與基礎(chǔ)軌跡生成:更貼近真實開放生成需求

GenEvolve 所使用的請求并不是普通的 caption, 而是先組合 任務(wù)族 / 缺失外部證據(jù) / 視覺錨點 / 主導(dǎo)生成要求 / 難度 等信息, 再借助 VLM 把它們擴(kuò)展成自然但帶有硬約束的開放式請求; 隨后讓 Teacher Agent(Seed 2.0 / Gemini 3 Pro)走一次真實的多輪工具循環(huán):發(fā)起文本搜索、拉視覺參考、激活生成知識,最終輸出 prompt-reference program。

工具調(diào)用順序是請求驅(qū)動的:知識密集型請求往往先做事實查找;參考敏感型請求更早依賴圖像搜索;質(zhì)量驅(qū)動型請求會更早激活內(nèi)部生成知識。

(2)多模態(tài)過濾:保證數(shù)據(jù)既能訓(xùn)練,也能評測

對于合成數(shù)據(jù)而言,真正的瓶頸往往不在數(shù)量,而在 噪聲控制。 因此,我們設(shè)計了一套分層過濾機(jī)制,用來保證訓(xùn)練集和評測集的可靠性。

軌跡過濾:程序化檢查清除不完整的工具循環(huán)、無效參考、URL/ID 泄露、缺少 ordinal binding、過分簡化的最終程序;再由 VLM 判分器審核"參考是否真支持畫面"、"證據(jù)是否被采用"、"程序是否覆蓋所有硬約束"。GT 圖像過濾:高質(zhì)量的 Teacher 程序由 Nano Banana Pro 渲染成 GT 圖像,再經(jīng)第二道視覺過濾檢查 prompt 一致性、參考使用率、視覺連貫性、生成質(zhì)量。三視圖切分:最終保留的樣本切為 SFT 視圖(保留完整工具循環(huán)、不暴露 GT 圖像)、自我進(jìn)化視圖(保留請求 + GT 圖像 + 元數(shù)據(jù))、GenEvolve-Bench 評測集,覆蓋 Knowledge / Quality 兩條軌道。階段 2:SFT 冷啟動(先教 Agent 如何"會用工具")

如果直接把模型甩進(jìn) RL 里采軌跡,最容易出現(xiàn)的問題就是 早期采樣的工具調(diào)用極度不穩(wěn)定:什么時候該搜、參考要不要替換、技能要不要調(diào)、最終程序怎么寫……都需要先有一套合格的"會用工具"的初值。

為此 GenEvolve 先在篩選后的 Teacher 軌跡上做一次冷啟動 SFT。

訓(xùn)練對象:Qwen3-VL-8B-Instruct 的語言策略部分(視覺編碼器凍結(jié),僅優(yōu)化 assistant 端 token,含/ /);訓(xùn)練棧:LLaMA-Factory 長上下文(cutoff 32K)、bf16 + FlashAttention-2、ZeRO-3、AdamW 優(yōu)化器 + 余弦學(xué)習(xí)率;退出準(zhǔn)則:以 held-out 軌跡 loss 而非 benchmark 性能選 ckpt,避免在 SFT 階段過早過擬合到判分器。

冷啟動結(jié)束后得到的 GenEvolve-SFT,可以理解為"一個學(xué)生學(xué)會了 Teacher 那一整套工具調(diào)用 + 程序?qū)懛?/strong> 的范式",但還沒有學(xué)到"什么樣的軌跡真正會得到高分圖"。

階段 3:GRPO + 視覺經(jīng)驗自蒸餾(SDL)

監(jiān)督微調(diào)能讓模型學(xué)會"會用",但很難進(jìn)一步讓模型學(xué)會"用得更好、更像高水準(zhǔn)設(shè)計師"。

我們在 RL 階段引入兩層信號同時優(yōu)化:

(1)軌跡級:GRPO + 混合獎勵

對每個用戶請求,智能體采 6 條 rollout,每條產(chǎn)生一個程序 z,再交給生成器渲染圖像。我們用兩個判分器同時打分:

KScore 視覺判分:四維 Faithfulness / Visual / Text / Aesthetic(權(quán)重 0.1 / 0.4 / 0.4 / 0.1);程序充分性文本判分:5 檔評分 {0, 0.25, 0.5, 0.75, 1},看程序是否承載了足夠的事實、ordinal 引用、技能激活與可執(zhí)行的硬約束。

最終獎勵 R = 0.5 R_img + 0.5 R_text,作為 GRPO 的 group-relative 優(yōu)勢信號。

(2)Token 級:視覺經(jīng)驗自蒸餾

僅有 trajectory-level 的獎勵還不夠 —— 它告訴你"哪條軌跡更好",但不告訴模型"為什么這條更好"。GenEvolve 的關(guān)鍵貢獻(xiàn),是把"為什么"這件事變成可學(xué)習(xí)的 token-level 信號:

對每個 prompt 的 6 條 rollout,挑出最優(yōu)/最差對(要求獎勵差距 ≥ δ_min),讓 Gemini 3.1 Pro Preview 把這對差異蒸餾成一段結(jié)構(gòu)化的Decision Guide:retrieval_key:trigger 短語 + source-prompt summary;decision_guidance:6 類祈使式 bullet(推薦工具計劃 / 搜索查詢 / 技能路由 / 參考選擇 / 程序?qū)懛?/ 失敗防御)。這些 Decision Guide 進(jìn)入 prompt-keyed 滾動 buffer(容量 500),按 embed(trigger + summary) 用 Qwen3-Embedding-0.6B 建立檢索索引。訓(xùn)練時按 cosine 相似度(gate ≥ 0.84)拉回 top-1 Guide,只把它注入 Teacher 視角;Student 始終只看普通 system prompt。SDL 用 importance-weighted 反向 KL,讓 Student 在同一批 on-policy token 上向 Teacher 分布對齊 —— 但只在決策關(guān)鍵的 token 上做:Decision-only mask:只保留 /塊內(nèi)的 token;Top-K 過濾:每條序列內(nèi)只保留 |log π_E − log π_S| 最大的前 10%。

一句話總結(jié):在最關(guān)鍵的幾十個決策 token 上,讓 Student 學(xué)會"看到了 Decision Guide 的人會怎么做",但部署時 Student 不需要任何檢索庫。這正是 GenEvolve 把"經(jīng)驗"完全燒進(jìn)權(quán)重的關(guān)鍵。

這張圖展示了 SDL 在 token 層面到底學(xué)到了什么。左邊是 Teacher 反對 Student 的情況:Student 原本傾向于輸出一些泛化或填充式 token,但 Teacher 在 Decision Guide 的幫助下,會把概率質(zhì)量重新分配到更關(guān)鍵的動作上,比如先調(diào)用工具、明確空間布局、錨定事實身份、選擇參考圖。右邊是 Teacher 支持 Student 的情況:當(dāng) Student 已經(jīng)朝正確方向走時,Teacher 進(jìn)一步提高正確決策 token 的概率,讓模型在后續(xù)訓(xùn)練中更堅定地復(fù)用這些策略。

SDL 的 token-level 證據(jù):Teacher 一方面會糾正 Student 的錯誤決策 token,另一方面會放大已有正確決策的概率,使視覺經(jīng)驗最終沉淀到部署模型權(quán)重中。

SDL 的 token-level 證據(jù):Teacher 一方面會糾正 Student 的錯誤決策 token,另一方面會放大已有正確決策的概率,使視覺經(jīng)驗最終沉淀到部署模型權(quán)重中。(a) 混合獎勵曲線隨訓(xùn)練步數(shù)穩(wěn)定上升;(b) SDL 反向 KL 損失逐步下降。兩條信號同時改善,說明 GRPO 提供"哪條更好"的軌跡級信號,SDL 提供"為什么更好"的 token 級信號。

(a) 混合獎勵曲線隨訓(xùn)練步數(shù)穩(wěn)定上升;(b) SDL 反向 KL 損失逐步下降。兩條信號同時改善,說明 GRPO 提供"哪條更好"的軌跡級信號,SDL 提供"為什么更好"的 token 級信號。實驗:GenEvolve 到底強(qiáng)在哪里?

我們把評測拆成四塊:統(tǒng)一基準(zhǔn)(GenEvolve-Bench) → 主結(jié)果 → 消融實驗 → 跨基準(zhǔn)外推(WISE)與定性對比。

1)GenEvolve-Bench:把"開放圖像生成的常見需求"整理成統(tǒng)一評測基準(zhǔn)

我們首先構(gòu)建了一個面向開放圖像生成的統(tǒng)一評測基準(zhǔn) GenEvolve-Bench,覆蓋兩大軌道:Knowledge-Anchored / Quality-Anchored。 為了盡量貼近真實使用場景,Bench 同時包含兩類輸入形式(僅文本請求 / 文本請求 + 用戶參考圖),并在多個主題(實體、地標(biāo)、商品、事件、文字、布局、計數(shù)、屬性、解剖、材質(zhì)、美學(xué)、創(chuàng)意)上保持均衡分布。

在評測方式上,我們采用強(qiáng) VLM(Gemini 3.1 Pro Preview)對結(jié)果進(jìn)行打分:

既評價 視覺細(xì)節(jié)正確性(事實接地、參考一致、可校驗細(xì)節(jié));也評價 整體質(zhì)量(構(gòu)圖、文字、美學(xué));

并最終在四個維度上給出 KScore,加權(quán)匯總為最終指標(biāo)。

更直觀地說,這個 benchmark 測的不是"能不能生成一張圖",而是"能不能像一個合格的 agent 一樣,把世界知識、參考圖、生成知識全部編排好"。

2)定量結(jié)果:開源最強(qiáng),搭配強(qiáng)生成器拿下當(dāng)前最高

在 GenEvolve-Bench 上,我們對比了主流的 直生成 baseline(Lumina-Image 2.0 / BAGEL / SD-3.5 / FLUX.1-dev / FLUX.2 Klein / Z-Image / Qwen-Image / Nano Banana Pro 等)和 agentic baseline(Gen-Searcher 等)。結(jié)果非常清晰:

同樣接 Qwen-Image-Edit-2511 這類開源生成器:GenEvolve 在 Knowledge / Quality 兩條軌道上都有明顯提升,KScore 從 Gen-Searcher 的 0.3493 提升到 0.3663(Visual 維度由 0.1050 提升到 0.1338),尤其在 Knowledge-Anchored 這類更依賴事實接地的任務(wù)上增幅更大;搭配更強(qiáng)的 Nano Banana Pro:GenEvolve 的 KScore 直接抬到 0.5739,四個 judge 維度和兩條 benchmark 軌道均達(dá)到最高。即便是 Nano Banana Pro 自己的"裸"直生成(KScore 0.5298),也明顯落后于"裸 Nano + GenEvolve 編排",說明 agent 端的工具編排帶來的提升是生成器無關(guān)的。GenEvolve-Bench 主結(jié)果。GenEvolve + Qwen-Image-Edit-2511 是最佳開源生成器設(shè)置;GenEvolve + Nano Banana Pro 在整體 KScore、Knowledge-Anchored 和 Quality-Anchored 上均取得最高分。

GenEvolve-Bench 主結(jié)果。GenEvolve + Qwen-Image-Edit-2511 是最佳開源生成器設(shè)置;GenEvolve + Nano Banana Pro 在整體 KScore、Knowledge-Anchored 和 Quality-Anchored 上均取得最高分。

從完整表格可以看到幾個更細(xì)的趨勢:

直接生成器的整體審美分通常不差,但在需要事實接地、參考一致或精確布局時,Visual correctness 容易成為短板;當(dāng)?shù)讓由善鞴潭?Qwen-Image-Edit-2511 時,GenEvolve 比 Gen-Searcher 更擅長把搜索證據(jù)、參考圖和生成技能寫進(jìn)最終程序;當(dāng)?shù)讓由善鲹Q成 Nano Banana Pro 時,同一套 Agent 策略還能繼續(xù)放大強(qiáng)生成器的上限,說明 GenEvolve 學(xué)到的是可遷移的編排策略,而不是某個渲染器上的 prompt trick。3)消融實驗:每個訓(xùn)練階段到底貢獻(xiàn)了什么?

為了確認(rèn)提升來自哪里,我們進(jìn)一步做了 component ablation。結(jié)果顯示,單純把 Qwen3-VL 接上同一套工具接口,已經(jīng)能比裸 Qwen-Image 更好;SFT 冷啟動能繼續(xù)提高工具調(diào)用和最終程序質(zhì)量;GRPO 提供軌跡級獎勵后再往上推一截;而完整的 GRPO + SDL 取得最高 KScore。

這組結(jié)果說明兩點:

第一,會用工具 和 用工具用得好 是兩件事。Untuned workflow 已經(jīng)具備工具入口,但沒有經(jīng)過軌跡監(jiān)督和視覺反饋,很難穩(wěn)定寫出高質(zhì)量 prompt-reference program。

第二,GRPO 的 scalar reward 能告訴模型"哪條軌跡更好",但 SDL 提供的是更細(xì)的 token-level credit assignment:它把最佳/最差軌跡之間可復(fù)用的經(jīng)驗蒸餾到關(guān)鍵動作 token 上,因此最終在 Visual correctness、Knowledge-Anchored 和 Quality-Anchored 三個最關(guān)鍵維度上都繼續(xù)提升。

4)跨基準(zhǔn)外推:WISE 上超過 GPT-4o

我們額外在 WISE 這一公開的知識密集型圖像生成基準(zhǔn) 上做外推:

注意:GenEvolve 在 WISE 上 不做任何 in-domain 微調(diào),純靠跨任務(wù)轉(zhuǎn)移:用一個 8B 開源策略 + 開源 Qwen-Image-Edit 渲染器,在 WiScore Overall 上 超過 GPT-4o;化學(xué)一項更是甩開 GPT-4o 9 個百分點。

5)定性對比:為什么說它"在編排"而不是"在炫工具"?

定性結(jié)果里最典型的兩類失敗,我們在很多 baseline(包括部分商業(yè)系統(tǒng))上都能反復(fù)看到:

Knowledge-Anchored 失敗:模型要么沒去搜,要么搜回來的事實沒真正進(jìn) gen_prompt,導(dǎo)致 身份錯位、年代錯亂、結(jié)構(gòu)比例失真。GenEvolve 更偏向去抽取關(guān)鍵事實,再把它顯式寫進(jìn)最終程序里的 ordinal binding 與硬約束,使"被采用的事實"真的進(jìn)畫面。Quality-Anchored 失敗:很多系統(tǒng)在文字、計數(shù)、版式上"看起來像,但拼寫錯"或"數(shù)對了但布局塌"。GenEvolve 通過 query_knowledge 主動激活專門技能(text_rendering / quantity_counting / spatial_layout / material_consistency 等),并在程序里寫出可校驗的硬約束,使得這些維度更穩(wěn)。在 GenEvolve-Bench 上的定性對比。橙色:依賴外部知識;藍(lán)色:依賴內(nèi)部生成技能。

在 GenEvolve-Bench 上的定性對比。橙色:依賴外部知識;藍(lán)色:依賴內(nèi)部生成技能。GenEvolve + Nano Banana Pro 的擴(kuò)展畫廊。

GenEvolve + Nano Banana Pro 的擴(kuò)展畫廊。GenEvolve + Qwen-Image-Edit 的擴(kuò)展畫廊(與上一張使用同一套 GenEvolve 程序,僅切換底層渲染器)。

GenEvolve + Qwen-Image-Edit 的擴(kuò)展畫廊(與上一張使用同一套 GenEvolve 程序,僅切換底層渲染器)。參考文獻(xiàn)

[1] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

技術(shù)交流社區(qū)免費開放

這是一個高質(zhì)量AIGC技術(shù)社群。

涉及 內(nèi)容成/理解(圖像、視頻、語音、文本、3D/4D等)、大模型、具身智能、自動駕駛、深度學(xué)習(xí)及傳統(tǒng)視覺等多個不同方向。這個社群更加適合記錄和積累,方便回溯和復(fù)盤。愿景是聯(lián)結(jié)數(shù)十萬AIGC開發(fā)者、研究者和愛好者,解決從理論到實戰(zhàn)中遇到的具體問題。倡導(dǎo)深度討論,確保每個提問都能得到認(rèn)真對待。

       原文標(biāo)題 : AI 畫圖終于不再瞎蒙!GenEvolve把開放圖像生成變成可訓(xùn)練自進(jìn)化智能體!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號