Qwen3-VL-Flash提升13.62%！浙大等首創CoV:多步推理具身問答Agent，通用提點神器

2026-01-14 14:06

AI生成未來

關注

作者：CoV團隊

解讀：AI生成未來

亮點直擊

CoV 框架：首創“視鏈提示”（Chain-of-View, CoV），一個免訓練、測試時（test-time）的具身問答智能體框架。

主動視覺推理：將傳統被動的視覺語言模型（VLM）轉變為主動的視點搜索者，使其能夠像人類一樣通過移動視角來探索環境。

驗證測試時擴展性（Test-Time Scaling）：通過增加推理時的“行動預算”（即允許模型多走幾步、多看幾次），可以持續提升模型性能，而無需重新訓練模型。

顯著的通用提升：該方法是模型無關的（Model-Agnostic），在多個主流 VLM（如 GPT-4o, Gemini, Qwen）上均取得了顯著的性能提升。

從宇樹機器人登上春晚舞臺，到首屆“世界人形機器人運動會”火遍全球，“具身智能”可謂是今年AI領域最出圈的關鍵詞之一。人工智能正大舉從數字領域邁向物理現實，在這一背景下，具身問答任務（EQA） 顯得愈發重要。EQA任務的核心挑戰在于，智能體必須像人類一樣，在復雜的物理空間中定位關鍵信息，并生成準確答案。

傳統方法往往依賴有限且視角固定的圖像輸入，這使得VLM難以獲取足夠多與問題相關的視覺線索。在復雜的具身問答場景中，答案并非一目了然，大多數問題都需要經過多步推理才能解決。

例如，面對“哪里可以找到汽水？”這樣的問題，場景中可能并未直接出現汽水。智能體不僅需要調用“汽水通常存放在冰箱里”這類常識知識，還需自主規劃路徑，在環境中搜尋冰箱等關聯物體。這類問題的解答，依賴VLM在充分、相關的上下文信息中進行連續推理，而無法通過單次的生成步驟來完成。

研究人員提出了一種多步推理的具身問答智能體框架：Chain of View(CoV），旨在實現從被動觀察到迭代式自主探索的轉變。應用CoV框架后，模型整體性能在最新的EQA基準測試上平均提升了10.82% 。其中，Qwen3-VL-Flash模型提升達到了13.62% 。

粗粒度篩選，快速確定視角錨點

CoV的整體流程包含兩個階段：粗粒度視角篩選（Coarse-grained View Selection）與細粒度視角調整（Fine-grained View Adjustment）。

在實際場景中，智能體獲取的視覺輸入通常來源于一段連續的視頻片段。這些原始幀往往包含大量冗余信息。對于任何一個具體問題，通常只有少數幾幀圖像與其相關。而過多的無關視覺信息，反而會干擾模型的判斷。

為此，CoV引入了視角粗選智能體，其核心任務是從原始可用的視角中，主動篩選出與當前問題最相關的關鍵視角，從而為后續的推理步驟提供與問題強相關的視角基礎。

細粒度調整，精確鎖定問題相關視角

以往的方法通常將智能體置于被動，它只能從一組預先給定的、有限的固定圖像中尋找答案。這種“一步生成”的模式，放棄了進一步搜尋相關環境細節的可能性，也因此限制了模型進行深度、多步思考的能力。

受思維鏈（CoT）啟發，研究人員提出細粒度的視角調整機制。該方法能為模型動態補充與問題相關的環境信息，讓智能體在持續的觀察與思考中逐步逼近答案。對粗粒度視角篩選階段得到的視覺錨點，VLM會規劃并執行一系列視角調整動作，包括平移、旋轉以及在不同視角間切換三類操作。

這一系列視角調整使得智能體能夠主動地、有目的地調整其觀察位置與朝向，從而獲取對解答問題至關重要的環境細節，提升EQA表現。當智能體認為已經獲取到足夠的信息回答問題時，停止視角調整，并基于精心構建的視覺上下文給出最終答案。

刷新EQA基準測試

研究人員在包括OpenEQA、ScanQA、SQA3D等最新的EQA基準測試上進行了大量實驗。在反映生成文本與人類回答相似度的CIDEr指標上，CoV得分達到116；在ScanQA數據集上的首次回答準確率（EM@1）也達到31.9%。應用CoV框架后，VLM整體性能在OpenEQA測試基準上平均提升了10.82%。