訂閱
糾錯
加入自媒體

AI芯天下丨熱點丨OpenAI即將推出Agent模式,AI能力又進一步

2025-07-22 10:01
Ai芯天下
關注

前言

2025年下半年伊始,始終致力于定義AI領域的OpenAI,正式推出了其Agent模式的解決方案。

這一方案使ChatGPT能在虛擬沙盒中調用文本瀏覽器、可視化瀏覽器和終端工具,自主完成多步驟復雜任務,實現從信息檢索到在線購物等操作,開啟了從Chat到Agent的跨越。

作者 | 方文三

OpenAI自己的Agent模式亮相

近日,薩姆·奧爾特曼與四位OpenAI研究員通過直播形式介紹了即將發布的Agent模式。

觀其演示過程可發現,該模式在用戶交互層面的直觀體驗,與數月前引發廣泛關注的Manus模式極為相似。

當用戶提出需求后,系統均會自動創建一個虛擬環境,并開始執行任務。

任務執行期間,Agent會反復請求用戶確認操作步驟,并允許用戶隨時手動接管進程。

同時,用戶亦可在任務執行過程中插入新的需求指令,實現實時交互。

OpenAI首席執行官山姆奧特曼表示,目睹ChatGPT智能體運用計算機執行復雜任務,使其真切感受到AGI的存在。計算機自主完成思考、規劃與執行的過程,將產生顯著差異的體驗。

所有操作均在ChatGPT Agent專屬虛擬計算機中完成,此舉可在調用多工具時完整保留任務上下文信息。

該智能體可根據需求選擇文本瀏覽器或可視化瀏覽器訪問網頁,執行文件下載操作,通過終端命令處理文件,并借助可視化瀏覽器審閱輸出結果。

同時能夠動態調整任務策略,以實現高效、精準的快速執行。

ChatGPTAgent專為迭代式、協同式工作流程設計,其交互性與靈活性遠超既往模型。

任務執行過程中,用戶可隨時中斷進程:進一步澄清指令以修正執行方向,或直接變更任務目標。智能體將基于新增信息繼續推進工作,且完整保留先前進度。

同理,ChatGPT亦會在必要時主動要求用戶補充細節,確保任務執行不偏離既定目標。

若任務耗時超出預期或陷入停滯,用戶可選擇暫停進程、獲取進度摘要,或終止任務以提取現有成果。

當用戶安裝移動端ChatGPT應用時,系統將在任務完成后推送通知。

Operator+Deep Research工具整合而成

根據OpenAI的介紹,Agent模式可調用三種工具:文本瀏覽器、可視化瀏覽器及終端。模型具備自主選擇并切換這些工具的能力。

此工具組合的設計頗具巧思:文本瀏覽器專司大量文本信息的瀏覽與檢索,可視化瀏覽器則負責在定位信息后執行鍵鼠操作或讀取圖像信息。

而終端工具,則用于運行代碼、生成包括演示文稿與電子表格在內的文件,并調用特定的云端應用程序接口。

OpenAI此次推出的新型Agent模式,并非一項全新的技術創新,實則由該公司上半年發布的兩項工具——Operator與Deep Research整合而成。

Operator原為僅向Pro用戶開放的瀏覽器Agent工具,具備分析圖形操作界面并執行基礎操作的能力。

Deep Research則是一款深度研究分析工具,可讀取大量網頁內容并直接生成調研報告。

OpenAI在分別推廣這兩項工具時發現,許多用戶通過Operator提交的提示指令更趨近于DeepResearch的任務范疇,例如[規劃旅行行程并進行預訂];

Deep Research用戶強烈呼吁的[登錄網站、訪問受保護資源]功能,實為Operator已具備的能力。

這兩個從不同維度推進的Agent項目最終實現整合,產生了顯著的協同效應。

既規避了單純依賴瀏覽器圖形界面處理文本材料的低效問題,又使得生成深度研究報告所需時長顯著縮短。

實現了通用智能體能力的關鍵升級

與過往的基礎大模型迭代不同,通用Agent能夠自主調用多種工具進行任務規劃,協助用戶完成復雜操作,包括自動查閱用戶日歷、生成可編輯的PPT文檔、運行代碼等。

ChatGPT Agent可連接用戶的Gmail、GitHub等平臺獲取信息并解決問題,同時通過API接口訪問各類應用程序。

OpenAI采用模擬復雜現實任務的基準測試對該模型進行評估。

Agent技術增強后,AI智能水平實現大幅提升。

基于ChatGPTAgent的模型在HLE基準測試中獲得41.6%的評分,達到O3與O4-mini模型性能的近兩倍。

在部構建的復雜經濟價值知識型任務評估體系中,ChatGPTAgent的產出質量約半數情況下達到甚至超越人類水平,任務完成時間存在浮動區間,且顯著優于o3與o4-mini模型。

SpreadsheetBench表格操作測試中,該智能體處理復雜電子表格的編輯、函數應用及格式規范能力取得顯著突破,以45.5%的得分達到GPT4o性能的兩倍,首次逼近ExcelCopilot商業級解決方案水平。

網頁操作領域,ChatGPT Agent在WebArena測試中成功執行賬戶登錄、頁面跳轉、數據采集等現實任務,其表現已接近人類平均水準。

信息檢索能力方面,該智能體于BrowseComp基準測試中以68.9分創下當前最高記錄。此項指標直接決定其自主執行任務時的可靠性水平。

尾:

OpenAI的正式入場,或將重塑Agent創業領域的整體敘事框架。

數月前,Manus尚被譽為[國產Agent的希望]:其于業界尚未充分理解Agent概念之際,率先向市場展示了未來圖景,實證了AI執行復雜任務的現實潛力。

然今年7月初,Manus官網悄然關閉,中國大陸業務全面暫停,僅保留海外產品線——此舉促使外界重新審視Agent初創企業的真實生存狀態。

數日前,朱嘯虎曾公開斷言:大模型將吞噬90%的Agent市場。

毋庸置疑,此現象背后交織著監管政策、合規要求與資本環境等多重復雜因素。

但現在的問題又來到了,當OpenAI親自下場,初創通用型Agent的機會已經不多了。

部分資料參考:

極客公園:《剛剛,OpenAI發布了自己的Agent模式,ManusStyle》

機器之心:《剛剛,OpenAI通用智能體ChatGPTAgent正式登場》

果殼:《終于來了,OpenAI的智能體,但這次掌聲不多》

網易科技:《凌晨,OpenAI卷進[通用Agent],Manus們算白忙活嗎?》

       原文標題 : AI芯天下丨熱點丨OpenAI即將推出Agent模式,AI能力又進一步

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號