訂閱
糾錯
加入自媒體

Qwen3-VL-Flash提升13.62%!浙大等首創CoV:多步推理具身問答Agent,通用提點神器

2026-01-14 14:06
AI生成未來
關注

作者:CoV團隊

解讀:AI生成未來

亮點直擊

CoV 框架:首創“視鏈提示”(Chain-of-View, CoV),一個免訓練測試時(test-time)的具身問答智能體框架。

主動視覺推理:將傳統被動的視覺語言模型(VLM)轉變為主動的視點搜索者,使其能夠像人類一樣通過移動視角來探索環境。

驗證測試時擴展性(Test-Time Scaling):通過增加推理時的“行動預算”(即允許模型多走幾步、多看幾次),可以持續提升模型性能,而無需重新訓練模型。

顯著的通用提升:該方法是模型無關的(Model-Agnostic),在多個主流 VLM(如 GPT-4o, Gemini, Qwen)上均取得了顯著的性能提升。

從宇樹機器人登上春晚舞臺,到首屆“世界人形機器人運動會”火遍全球,“具身智能”可謂是今年AI領域最出圈的關鍵詞之一。人工智能正大舉從數字領域邁向物理現實,在這一背景下,具身問答任務(EQA) 顯得愈發重要。EQA任務的核心挑戰在于,智能體必須像人類一樣,在復雜的物理空間中定位關鍵信息,并生成準確答案。

傳統方法往往依賴有限且視角固定的圖像輸入,這使得VLM難以獲取足夠多與問題相關的視覺線索。在復雜的具身問答場景中,答案并非一目了然,大多數問題都需要經過多步推理才能解決。

例如,面對“哪里可以找到汽水?”這樣的問題,場景中可能并未直接出現汽水。智能體不僅需要調用“汽水通常存放在冰箱里”這類常識知識,還需自主規劃路徑,在環境中搜尋冰箱等關聯物體。這類問題的解答,依賴VLM在充分、相關的上下文信息中進行連續推理,而無法通過單次的生成步驟來完成。

研究人員提出了一種多步推理的具身問答智能體框架:Chain of View(CoV),旨在實現從被動觀察到迭代式自主探索的轉變。應用CoV框架后,模型整體性能在最新的EQA基準測試上平均提升了10.82% 。其中,Qwen3-VL-Flash模型提升達到了13.62% 。

粗粒度篩選,快速確定視角錨點

CoV的整體流程包含兩個階段:粗粒度視角篩選(Coarse-grained View Selection)與細粒度視角調整(Fine-grained View Adjustment)。

在實際場景中,智能體獲取的視覺輸入通常來源于一段連續的視頻片段。這些原始幀往往包含大量冗余信息。對于任何一個具體問題,通常只有少數幾幀圖像與其相關。而過多的無關視覺信息,反而會干擾模型的判斷。

為此,CoV引入了視角粗選智能體,其核心任務是從原始可用的視角中,主動篩選出與當前問題最相關的關鍵視角,從而為后續的推理步驟提供與問題強相關的視角基礎。

細粒度調整,精確鎖定問題相關視角

以往的方法通常將智能體置于被動,它只能從一組預先給定的、有限的固定圖像中尋找答案。這種“一步生成”的模式,放棄了進一步搜尋相關環境細節的可能性,也因此限制了模型進行深度、多步思考的能力。

受思維鏈(CoT)啟發,研究人員提出細粒度的視角調整機制。該方法能為模型動態補充與問題相關的環境信息,讓智能體在持續的觀察與思考中逐步逼近答案。對粗粒度視角篩選階段得到的視覺錨點,VLM會規劃并執行一系列視角調整動作,包括平移、旋轉以及在不同視角間切換三類操作。

這一系列視角調整使得智能體能夠主動地、有目的地調整其觀察位置與朝向,從而獲取對解答問題至關重要的環境細節,提升EQA表現。 當智能體認為已經獲取到足夠的信息回答問題時,停止視角調整,并基于精心構建的視覺上下文給出最終答案。

刷新EQA基準測試

研究人員在包括OpenEQA、ScanQA、SQA3D等最新的EQA基準測試上進行了大量實驗。在反映生成文本與人類回答相似度的CIDEr指標上,CoV得分達到116;在ScanQA數據集上的首次回答準確率(EM@1)也達到31.9%。應用CoV框架后,VLM整體性能在OpenEQA測試基準上平均提升了10.82%。

強大的Test-time Scaling性能

研究人員還發現,智能體自主行動步數越多,獲取的信息越多,EQA任務的表現也會呈現上升趨勢。在不限制行動步數的情況下,絕大多數問題所涉及的行動步數偏少,集中在1到3步。隨著動作步數的增加,模型在相應問題上的得分呈現出明顯的上升趨勢。

通過在提示詞中限制VLM的最小行動步數,與僅允許單步行動的設置相比,提升動作步數上限后VLM性能平均提高了2.51%。這一結果表明,多步推理能有效增強智能體在具身問答任務中的表現。CoV無需額外訓練,僅通過增加行動步數即可實現性能增益,展現出顯著的“無需訓練,測試擴展”潛力。

總的來講,CoV是一個多步推理具身問答Agent框架,能允許VLM自主獲取更多和問題相關的視角。這項工作有效提升了VLM在EQA任務上的表現,并且具備test-time scaling的潛力,為通向在復雜空間中行動、適應并探索的具身智能系統,提供了新的可能性。

參考文獻

[1] CoV: Chain-of-View Prompting for Spatial Reasoning

       原文標題 : Qwen3-VL-Flash提升13.62%!浙大等首創CoV:多步推理具身問答Agent,通用提點神器

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號