阿里云峰會的幾個隱秘信號

2026-05-22 14:31

硅基星芒

關注

還記得五月初，AI評測里出現了兩款神秘國模A和B嗎？

這是開發者toyama nao發布的測試結果。這款極限分數超越了Gemini 3.1 Pro和Claude Opus 4.6的國模A，一時間眾說紛紜。

如今，隨著2026年阿里云峰會主論壇的開幕，國模A的真實身份也得以浮出水面：阿里云正式發布了新一代旗艦模型Qwen3.7-Max。

不過，這次峰會與以往最大的區別在于，主角不再是參數規模、上下文長度和聊天體驗的炫技，而是一個清晰且激進的方向：All in智能體。

與其稱之為一場發布會，不如說這是一場阿里與所有AI用戶的一次技術探討。

CTO李飛飛在主論壇演講中直言：云的價值，正在從規模化管理和運營算力，進入規模化管理和運營智力。

3月正式接手林俊旸離職后留下的Qwen的周靖人則更加直白：大模型已經從“人類價值對齊”轉向“任務對齊”。

短短的兩句話，對應的是長遠的目標規劃：阿里的AI戰略正在拆除模型、算力、安全、應用之間的邊界，將它們重構為Agent體系下的標準化組件。

本文將以一個開發者的視角，來拆解這場峰會透露出來的隱秘信號。

01一切皆為Agent組件

如果說過去兩年，大模型公司的競爭焦點是“誰的模型更強”，那么從這次峰會來看，阿里給出的答案是：模型只是起點，而Agent只是目前能看到的終點。這不是一句口號，而是實打實地反映在了兩個方面。

一方面，模型正在被重新定義：在Agent中，模型不能只是大腦，還要成為智能中樞。

Qwen3.7-Max的定位很清晰，它是面向智能體時代的新一代旗艦模型，官方宣傳的核心能力也全部圍繞著Agent展開：

長周期自主執行：模型在長達35小時、超過1000次工具調用的內核優化實驗中，能夠持續推理且保持能力不退化；

跨框架泛化：模型無論部署在Claude Code、OpenClaw還是自家的Qwen Code，性能表現相對穩定；

原生工具調用：模型支持MCP集成和多智能體協作，可以直接操控辦公軟件、云服務甚至更高形態（具身智能）的物理機器人。

這就是新一代模型最大的轉變，不再是孤立的“大腦”，而是被設計成Agent的中央處理器。這也符合Agent設計的核心要求——必須能規劃、調用工具、反思、糾錯并適應各種運行環境。

從官方公布的評測數據來看，Qwen3.7-Max的基準測試結果已經接近Anthropic的上一代旗艦模型Claude Opus 4.6和國內模型頂尖水平。當然，這些多是阿里自報的成績，且在部分編程基準測試中仍然與Claude Opus 4.6存在幾個百分點的差距。

結合Artificial Analysis的第三方測試結果，Qwen3.7-Max智能水平位列全球第五，編程能力位列全球第七，二者均為國內第一。代理能力則略遜于小米和智譜，但差距只在毫厘之間。

另一方面，云基礎設施正在被重構：從AI原生云，演進為Agent原生云。

李飛飛在演講中提出了兩個值得行業關注的關鍵概念：AI Native Cloud（AI原生云）和Agent Native Cloud（智能體原生云）。這兩個概念之間并非是字面意義上的包含關系：

AI原生云要做的是生產token，通過預訓練、后訓練和推理的全鏈路優化（比如KV Cache命中率超過90%），讓token足夠便宜和高效。

Agent原生云要做的是把token變成action，為智能體提供運行時沙箱、編排、治理、安全、記憶、數據平面六個方向的支撐。

這兩個概念的提出，間接地否定了以DAU、token消耗量、DAA等諸多中間變量作為衡量Agent產出價值唯一標準的觀點。與此同時，這也是一個十分務實的想法。畢竟，與其過早地關注如何評判Agent的價值，不如先搞清楚Agent該如何發揮價值。

更加值得關注的是，李飛飛當場宣布阿里云旗下所有的云產品將在今年完成控制面改造，實現Agent應用所需的“Skill化”、“MCP化”和“CLI化”，智能體將會替代人類成為云產品的第一用戶。未來企業調用OSS存儲、PolarDB數據庫和DataWorks數據平臺這些產品，不再需要人工點擊控制臺或是編寫腳本，而是全部由Agent自然語言驅動。

從上述兩個方面的變動可以清晰地看出，阿里已經一改往日全面覆蓋的策略，轉而完全將Agent作為設計原點，模型、硬件、安全框架和存儲都不再是獨立的產品線，而是都將成為Agent體系下的插件。

從程序員的角度來看，這完美符合類似操作系統設計開發的哲學：Agent是應用程序，底層基礎設施提供標準化的API和運行時。

02企業級市場明確定為主戰場

縱觀主論壇的發布內容，盡管沒有白紙黑字地寫出來，但阿里云的服務中心已經明顯偏向企業級客戶。若是程序員中的個體戶，甚至會在聆聽中產生一種陌生感。

這不是個人偏見。李飛飛在峰會上花費大量篇幅講的“六大挑戰”、“六大解決方案”，里面涵蓋的沙箱隔離、身份認證（Token Vault）到任務級安全管控，無一例外都是企業IT部門最關心的非功能性問題。

相比于國內外競爭對手往往在發布會上大多提及個人開發者和小型開發團隊的重要性，阿里想要做的是快速憑借已有基礎搶占企業市場。深層原因有三個：

一是付費意愿與場景復雜度。

消費級AI助手的付費率有限，這在今年二月的“下千問喝奶茶”的活動中已經得以體現，只有企業才愿意為“節省一個開發團隊”或“自動化合規流程”支付高額訂閱費，哪怕最終落地結果可能與預想存在一定差距。

在周靖人的演講中，有一個極其容易被忽視的細節：Qwen3.7深度參與了35小時的自主優化芯片內核過程。如果其能力足已取代資深工程師的加班時間，商業價值已經不言而喻。

二是阿里云的既有生態優勢。

作為中國最大的云服務商，阿里云已有數百萬企業客戶作為基礎。這些客戶數年來持續使用RDS、OSS、MaxCompute等產品，數據和使用習慣的積累早已潛移默化地轉變為了極高的遷移成本。

從技術角度看，將Agent無縫嵌入現有的云產品，也比從零打造一個B端App更容易形成商業閉環。

三是安全和治理才是定價權的來源。

拋開國外幾家頂尖模型不談，將目光放在國內，AI能力投影到智能體上逐漸同質化已經是不爭的事實。從OpenRouter的調用量來看，能夠決定個體開發者或小型開發團隊選擇的唯一因素就是價格，限時免費模型的調用量幾乎全部能夠霸榜一周甚至更久。

然而對于企業來說，真正影響采購決策的問題在于：是否敢讓Agent自動操作生產數據庫？阿里云推出的Agent安全中心、Agent ID Guard、AI安全護欄2.0等產品，直接把安全問題抬到了明面上，本質上就是在給企業級的冒險行為提供保險。換句話說，在安全治理上建立標準，等同于現階段更高的議價能力。

阿里的戰略，其實就是用智能體提升效率，加上用安全體系降低風險。李飛飛口中的“六大挑戰”，與其說是技術問題，不如說是企業采購清單上的必選項。

03Vibe Coding的演進形態：Vision Coding

從技術本質上說，Vibe Coding是Agent最早期、最初級的一種形態，但歷經幾個月的發展和嘗試，Vibe Coding成為了最成功、最具備商業化價值也最成熟的形態。

但這種被各大AI公司定位為“造福全人類”的技術，呈現出了極端的兩極分化。程序員們和研究者們早已經沉浸于Vibe Coding帶來的便利，然而真正愿意使用各種Agent執行任務的人還是少之又少。一個冰冷的現實就擺在眼前：大部分人與AI的交互，仍然是在那個網頁的對話框中。

在這次阿里云峰會中，有一個詞讓人眼前一亮：Vision Coding。

學術界目前沒有明確定義，因此用一個現場演示的demo來說明更為貼切：用戶給AI上傳了一段視頻，畫面中是一個白板，用戶在上面用馬克筆歪七扭八地繪制了幾個方框，指著上面的方框說“當我點擊這里時”，指著下面的方框說“這里應該顯示風景圖片”。隨后，AI就生成了布局一致的網頁界面。

聽上去令人驚奇，然而這并不是這次發布會才剛剛推出的新功能。Demo中的AI主角，是此前阿里在3月推出的Qwen3.5 Omni。或許這不是第一款能夠實現上述功能的AI產品，但Vision Coding這個詞是第一次正式出現。

同樣是給非專業人士提供的編程技術，Vision Coding與Vibe Coding存在本質上的區別：

Vibe Coding非常依賴用戶用自然語言精準地描述需求。哪怕是迄今為止最強大的模型Claude Opus 4.7和GPT-5.5，也繞不過這一關。如果用戶說“給我做個酷炫的3D效果網頁”，結果往往是不可控的，若是遠比網頁復雜的項目，更是“到處是驚嚇”。表面上說的是“零門檻”，其實門檻在于表達能力。

Vision Coding允許用戶用草圖+動作指點+模糊口語來與AI進行交互。在這個交互過程中，用戶無需擔心自己的表達是否精確，“這邊再大一點”、“那個按鈕挪到這里”這種產品經理提出的、讓程序員最頭疼的指令，AI可以照單全收。模型同時理解視覺布局、空間關系和模糊意圖，門檻才能降到“會說話、會畫簡筆畫，就能開發”。

從我個人的角度來看，Vision Coding是Vibe Coding一種更高級、更普惠也更具備使用價值的形態。這種真正提升開發效能的演進，背后其實是多模態融合的質變：阿里的視覺Agent不僅能“看懂界面”，還能“操作界面”，最后“生成界面”，這種視覺-行動閉環在國內處于領先地位，遠比基準測試的分數更為寶貴。

當然，盲目的技術樂觀主義不可取，Vision Coding也絕對不會是“零門檻開發”、“人人都是程序員”的最終技術形態。然而，多模態是實現Agent的基礎功能，這個判斷是不會錯的。現實世界的信息天然就是高維度、多模態的，財報=文本+表格，會議=語音+PPT，環境=視覺+觸覺，放棄多模態，Agent永遠只能活在純文本的虛擬世界之中。

04結語

最后，作為開源行業的領頭羊，阿里仍然在開源生態上投入明顯。Qwen3.6模型開源后下載量已經超過3000萬次，衍生模型也達到了1200個以上。

事實上，百煉平臺扮演的角色已經在發生變化：原先，它是模型API的網關；如今，它需要成為Agent的開發、部署、運行的一體化平臺。

這就類似于蘋果的Appstore，模型是iOS，Skills是App，Agent則是用戶場景。阿里云提供了基礎設施和安全審核，而第三方開發者可以售賣自己的Agent服務。如果這個生態模式能夠跑通，阿里也可以順理成章地從“賣算力”轉向“賣Agent解決方案”。然而，商業模式能否徹底升級，極大程度上取決于基礎模型的能力。

回顧整場峰會，阿里云釋放出了清晰的信號：擺脫單純的“云服務商+大模型公司”，試圖成為智能體時代的基礎設施構建者。

這并非領先的判斷，而是所有國內AI公司的共識。想要從國內領先跨越到國際領先，取決于下一代模型是否能夠真正縮小與Claude和GPT的差距，以及Agent生態能否吸引到足夠多的第三方開發者。要實現這些目標，阿里或許還有很長的路要走。

然而，面對未來AI該何去何從，阿里給出的答案值得肯定：以Agent為唯一核心、企業市場為先、多模態不可放棄。

AI不再是云上的一個附加功能，而是云本身正在被AI重寫。

Agent，就是那個執筆者。這場重寫，也才剛剛開始。