訂閱
糾錯
加入自媒體

美團“多智能體模型”初露鋒芒,醫藥領域成為“大模型稅”重點征收區

2026-01-13 13:47
硅基星芒
關注

01

重大發布(新模型/產品/開源)

①美團發布EvoCUA:開源計算機操作模型位列OSWorld第4名

美團近日于GitHub和Hugging Face上開源了全新的多模態大模型EvoCUA,并選擇OSWorld作為評測標準。OSWorld是一個用于評估多模態智能體在真實計算機操作系統中執行任務能力的基準測試,模型需要能夠像人類一樣通過觀看屏幕、控制鍵鼠等操作完成復雜任務。

經測試,EvoCUA的任務完成率為56.7%,位列開源模型第1,總榜第4,超越了香港大學和月之暗面研發的OpenCUA-72B(+11.7%)和阿里研發的Qwen3-VL-Thinking(+15.1%)。

IMG_256

該模型僅需50步即可實現較高性能表現,且所用參數量更少、任務執行效率更高。在適用場景上,該模型支持端到端自動化操作,僅憑屏幕截圖+自然語言指令即可流暢操控常用軟件,如Chrome、Excel、PPT和VSCode等主流軟件,進而完成多輪復雜任務。

根據項目介紹,該模型的創新點在于獨特的數據合成與訓練范式,在保持通用多模態理解力的基礎之上強化了計算機使用能力。

短評:

這個模型的本質就是Manus,說是模型,請傾向于多智能體應用。

EvoCUA在參數更少、步數減半的情況下實現性能的顯著提升證明其訓練方法是有效的,這是開源模型在自動化操作方向上前進的重要一步。

不過,56.7%的任務完成率仍然局限于“實驗室中的好用”,而非“用戶手里的好用”。

值得肯定的是,EvoCUA與占據榜單前三的Anthropic的claude-sonnet-4.5和字節跳動的Seed-1.8得分差距只在毫厘之間,盡管無法掌握場景定義,但也可以搶占一部分開源生態中“計算機使用”場景的話語權。

美團未必指望EvoCUA短期內的商用,但該模型的開源能夠提升技術影響力,同時為集團內部的辦公、運維等流程實現優化,一舉兩得。

②Anthropic推出Claude for Healthcare,布局AI醫療行業

隨著OpenAI和阿里接連推出AI醫療領域相關產品,Anthropic也緊隨其后開始進行布局。1月12日,Anthropic正式推出Claude for Healthcare,并同步擴展Claude for Life Sciences的能力,AI醫療場景再添一巨頭。

Claude for Healthcare的客戶群體分為三類:醫療機構、保險公司和患者,并提供HIPAA合規的AI套件,核心包括以下三點:

一是直連三大官方數據庫:CMS覆蓋政策庫、ICD-10編碼系統、國家醫療服務提供者標識符注冊庫,支持醫保預授權審核、理賠申訴、編碼校驗等高價值任務;

二是新增Agent技能:FHIR(醫療信息交換國際標準)開發支持(提升醫療系統互操作性)、預授權審查模板(可定制化對接機構流程);

三是個人健康數據整合:用戶可授權接入Apple Health、Android Health Connect、實驗室檢測報告等數據源,Claude可生成簡明解讀、識別健康趨勢,并協助準備問診問題。所有數據均不會用于模型訓練,用戶全程具有控制權。

IMG_256

Claude 新增了對Medidata(臨床試驗平臺)、ClinicalTrials.gov、ChEMBL(藥物數據庫)、Open Targets、Owkin(病理圖像分析)等關鍵平臺的連接,并推出臨床試驗方案自動生成、監管文件輔助撰寫、試驗進度監控等新技能。

根據測試結果,Anthropic最新的產品 Claude Opus 4.5 在 MedAgentBench(斯坦福醫療智能體評測)和 MedCalc(醫學計算)等仿真任務中顯著領先,同時在“事實誠實性”評估中有效減少了幻覺,更貼近臨床可靠性要求。

短評:

OpenAI、Anthropic和阿里短期內同時將目光放到AI醫療上,說明AI應用的落地場景正在逐步明確。先是AI編程,后是AI醫療,從Chatbot到Agent的應用范式已經成功轉移。

相比先前推出AI醫療產品的OpenAI,Anthropic涉足的領域要更加深入,切入了多個高價值的工作流,但落地仍然高度依賴機構IT系統集成,同時也面臨著責任邊界模糊等問題,風險不容小覷。

02

技術進展(論文/SOTA/算法)

①Google新發現:重復輸入提示詞即可提升主流LLMs準確率

近日Google Research發表了一篇名為《Prompt Repetition Improves Non-Reasoning LLMs》的論文,篇幅雖然不長,卻揭示了一個出乎意料的現象:

只要將用戶輸入的提示詞(prompt)重復一次,就能在不啟用推理、不增加生成長度、不延長響應時間的前提下顯著提升大模型在多項任務中的表現。

研究團隊將這一方法應用在Gemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o-mini、GPT-4o、Claude 3 Haiku、Claude 3.7 Sonnet、Deepseek-V3共7款主流模型上進行了測試,覆蓋了7項基準測試。結果顯示:

1.在70組實驗中,重復輸入提示詞在47組測試中為模型帶來了正向提升,且并未導致性能下降;

2.在NameIndex等特定結構的任務中,準確率從21%躍升至97%;

3.對于“選項前置”或“問題后置”的不利結構,效果會更加明顯。

研究團隊認為,這一現象源自于模型在預填充(prefill)階段對上下文注意力的重新分配。重復輸入提示詞可以讓模型在token處理的早期階段獲得更強的語義錨定,從而減少因位置偏移導致的理解偏差。而當模型被要求“逐步推理”時,內部已經隱式完成類似的信息強化,因此重復提示的效果將趨于中性。

簡單來說,大模型在生成答案前的準備階段只能從左到右看一遍輸入,不能回頭。如果問題和關鍵信息離得太遠,就可能導致“記不住”或者“理解錯誤”等問題。重復輸入提示詞可以讓大模型多看一遍題目,所有詞之間也能通過注意力機制“看到”彼此,從而減少詞序問題導致的誤判。不過,當模型被要求“一步一步思考”時,用戶就可以在“思考部分”中看到大模型復述和整理問題的過程,手動重復提示也就用處不大了。

短評:

當前的大模型對于提示詞的輸入順序依然高度敏感。這一簡單但高效的技巧巧妙地繞過了模型架構的天然缺陷,將輸入轉變為全連接的語義網絡,人工修復了信息流的不對稱性,從向量的空間視角來看十分合理;蛟S,不是沒人想過“多說一遍”,只是沒人把它當作一個通用、可量化的技術手段來驗證。

不過,需要注意的是,該論文測試的模型如今看來已經略顯過時,該技術能否在當下最先進的模型上發揮作用有待考察。

03

 算力與基礎設施(芯片/云/數據中心)

①Google緊急下架部分醫療類AI Overviews

近日,英國《衛報》在一項調查中發現,Google的AI Overviews(基于Gemini大模型生成結構化答案的功能)在肝功能檢測等健康查詢功能中提供了缺少個體化參考范圍的誤導性數據。目前,谷歌已經悄然移除相關關鍵詞的AI摘要功能。

根據《衛報》的測試結果,當用戶搜索肝功能檢查的正常范圍時,AI Overviews給出的數值是一個固定區間,但并未提示該范圍可能會因為年齡、性別、種族甚至檢測設備的差異而發生顯著變化。這種“一刀切”的回答可能導致患者誤判自身情況。

目前,有關“肝功能查詢”及類似的表述已經不再觸發AI摘要,僅顯示相關搜索結果。谷歌隨后對此做出了回應:其內部臨床團隊在復核后認為該功能提供的“多數信息并非錯誤,且有高質量網站支持”,表示會持續進行改進,但拒絕對下線該功能的行為進行評論。英國肝臟信托基金會表示:臨時關閉個別查詢只是“治標不治本”,AI Overviews在醫療領域面對的問題仍然未能解決。

短評:

在缺乏嚴格的醫學知識圖譜、臨床審核流程和強大推理能力的前提下,將通用大模型直接用于健康信息的分發仍然存在重大的安全隱患。

Google的AI Overviews在2024年就給出過“用膠水往披薩上粘芝士”、“吃石頭補充營養”等幻覺度極高的離譜答案,如今隨著Google的影響力與日俱增,以“權威摘要”形式輸出健康建議所帶來的風險也在激增。反觀OpenAI選擇聚焦日常健康陪伴而非診療場景,現階段AI醫療首先要做到的不是專業,而是避險。

       原文標題 : 美團“多智能體模型”初露鋒芒,醫藥領域成為“大模型稅”重點征收區

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號