訂閱
糾錯
加入自媒體

GPT-5.5與V4同日競技:Coding成了AI唯一的壓艙石

GPT-5.5與V4同日競技:Coding成了AI唯一的壓艙石

今天,OpenAI發布GPT-5.5,DeepSeekV4預覽版亮相并開源。

OpenAI發布GPT-5.5,官方公告的第一句話是:我們最智能的模型。在所有能力維度里,OpenAI選擇重點強調Agentic Coding:在測試復雜命令行工作流的Terminal-Bench 2.0上達到82.7%,在測試真實GitHub問題解決能力的SWE-Bench Pro上達到58.6%。

同日,DeepSeek公告的第一個能力維度同樣是Agent與Coding。據公開資料,DeepSeek-V4-Pro已成為公司內部員工使用的Agentic Coding模型,并針對Claude Code、OpenClaw等主流Agent產品進行了專項適配和優化,在代碼任務、文檔生成任務等方面表現均有提升。

巧合背后,是AI行業用一年的時間,完成了從“什么都做”到“重點做Coding”的路徑收窄。大多數對這場競賽的分析,停留在“編程市場大”“開發者付費意愿強”這類表層敘述,但這不足以解釋為什么OpenAI與DeepSeek會在同一天用Agentic Coding來定義各自的旗艦產品。

《新立場》認為,Coding之所以能成為共識賽道,是因為Agent的本質就是代碼理解、代碼生成和程序綜合。一個在代碼任務上表現優秀的模型,天然具備了分解復雜任務、調用工具、處理異常的推理能力,而這些能力在非編程的Agent場景里同樣是核心要素。

在Coding賽道上建立的技術優勢,會自動轉化為在整個Agent生態中的優勢。這個技術前提,也解釋了為什么商業模式層面的矛盾會在這個時間節點集中引爆。Coding Plan最初是為Chatbot時代的使用強度設計的,而Agent時代的調用模式讓這套定價邏輯從根本上失效。

3月23日,MiniMax率先宣布將自己的Coding Plan升級為Token Plan,此后,阿里云Coding Plan入口從百煉平臺消失;智譜的無周限額老套餐宣告停止續訂;GitHub宣布暫停Copilot Pro系列計劃的新用戶注冊并從Pro中移除Claude Opus。

動作如此整齊劃一,背后是同一個結構性矛盾被Agent使用模式引爆:固定月費,遇上了無上限的算力消耗。

從Coding Plan到Token Plan的切換,表面上是從補貼換用戶到按量收費,實質上是整個行業從“燒錢搶入口”進入“建立可持續商業模型”的轉變。對云廠商而言,這是回到自己最熟悉的生意;對整個行業而言,這一輪AI Coding競爭在商業模式層面完成了自己的第一次洗牌。

Coding為何成為Agent時代的制高點

視頻生成曾被視為AI最具想象力的應用方向,但算力最終沒有為想象力買單。3月,OpenAI宣布關停Sora,終止了與迪士尼價值10億美元的戰略合作。同一時期,谷歌聯合創始人謝爾蓋·布林緊急組建了一支專門針對AI Coding的內部突擊隊,要求團隊“必須果斷轉向”。

據The Information披露,這支隊伍的成員名單里甚至包括DeepMind CTO,目標只有一個,那就是奪回AI Coding的制高點。4月21日,馬斯克的SpaceX宣布以600億美元收購Cursor。

互聯網時代的價值創造邏輯是流量、轉化率、ARPU,終點是廣告費或訂閱費,天花板是用戶總時長和廣告預算。Agent時代的邏輯截然不同,任務價值、完成率、take rate,終點是替代的人力成本,天花板是全球白領工資總額。兩套邏輯之間的差距,直接驅動資源向Coding集中。

Coding是極少數同時滿足“高頻”和“高復雜度”兩個條件的應用場景。大多數AI產品面臨的現實是,用戶用一次覺得新鮮,但不會每天用,場景頻率決定了粘性上限。編程不同。職業 Coder 每天在IDE里工作八小時,調試、重構、文檔、代碼審查,每一個環節都是潛在的AI介入點,調用頻率天然極高。

此外,代碼的價值可以被精確衡量。一段代碼跑通了還是沒跑通,功能實現了還是沒實現,這些是二進制的結果,沒有“差不多”的模糊地帶。這意味著開發者愿意為AI編程工具支付遠高于其他AI產品的價格,因為它替代的是可量化的工時成本,ROI計算對企業來說直接且透明。

正如百度秒噠產品總經理朱廣翔去年曾講到的,Chatbot的價值在于回答和交流,而Coding直接生成最終的應用和方案,與研、產、供、銷、服全部相關,“是生產力環節,能創造新的需求價值和需求空間,所以空間更大”。

不過,在《新立場》看來,AI Coding的戰略價值在于Coding賽道上建立的技術優勢,會自動在整個Agent生態中產生乘數效應。一個Agent在執行復雜任務時,實質上是在持續調度和生成代碼,無論是調用工具API、處理文件系統、協調并行子任務,還是驗證結果和處理異常,這些操作的底層都是代碼理解與代碼生成。

《晚點latepost》曾報道,字節在引進郭達雅時的內部定位,正是把他放在Agent和Coding能力的組織整合核心位置,而非只是一個Coding模型的技術負責人。

而這輪“Coding熱”的始作俑者Anthropic,讓這個判斷從理論變成了可以被資本定價的事實。Claude Code去年5月才正式上線,到2026年2月ARR已達25億美元,增速超過了Salesforce和Slack的早期階段,也在不到一年內超越了Cursor花兩年多才達到的收入規模。

SemiAnalysis估算,目前GitHub上約4%的公開代碼提交由Claude Code完成;按這一趨勢,到2026年底,Claude Code占GitHub每日公開提交總量的比例可能超過20%。

更有說服力的是公司層面的對比:2025年底,Anthropic全年收入90億美元,OpenAI已經214億美元,差距超過一倍。但僅僅四個月后,Anthropic的ARR暴漲到300億美元,超過OpenAI在2月份披露的250億ARR。

在國內,這個認知的擴散經歷了一個明顯的時間差。一批大模型創業公司比大廠更早、更靈敏地做出了押注。Claude Code誕生兩個月后,Kimi K2發布并開源,把Coding加Agent立為模型主軸,智譜同樣如此。

到2026年初,這批早行者的先發優勢開始顯現。智譜從發布GLM-5后已連續三次漲價,盡管如此,市場依然供不應求,CEO張鵬在業績說明會上表示調用量增長400%。月之暗面旗下K2.5大模型發布不到一個月,累計收入超過2025年全年總額。

大廠的轉變來得晚,但幅度更大!锻睃cLatePost》報道,接近字節相關團隊的員工表示,今年年1月底,CEO梁汝波在全員會上明確表態,2026年的重中之重是AI模型能力做到行業前列。隨即,字節從DeepSeek挖來了郭達雅。

郭達雅是代碼智能與大模型推理方向的頂尖人才。他在DeepSeek期間深度參與了V3、R1以及Coder、Math等模型的研究,并與團隊在DeepSeek-Math中提出了GRPO算法,后來被應用到DeepSeek R1的訓練中。他選擇離開DeepSeek的原因之一,是當時在DeepSeek內部Agent的優先級不高,而他本人非?春眠@個方向。

伴隨郭達雅的加入,Seed內部正啟動針對Agent和Coding的組織整合。這個動作的意義,不僅是公開地宣告自己對Coding加Agent方向的戰略承諾。也是字節在用人才結構表明自己對下一代競爭維度的判斷。

走向失控是Coding Plan的必然

Coding Plan的崩潰,是一個在設計之初就內嵌了矛盾的商業模型,在Agent改變消耗結構之后被迫顯形。

訂閱制的基礎假設是平臺的真實成本遠低于標價,因為大多數用戶會付費但不會充分使用服務,輕度用戶的訂閱收入覆蓋了重度用戶的服務成本,整體算下來毛利可控。這套邏輯在SaaS時代是成立的,因為軟件的邊際交付成本接近于零,用戶增加不會顯著增加成本。

Coding Plan延續了SaaS的定價邏輯,但應用到了一個底層經濟學完全不同的場景。當使用模式還停留在“代碼補全”的階段,這個矛盾是可以被忽略的。傳統代碼補全是單次請求,用戶輸入幾個字符,模型返回一段補全,Token消耗可控。

Agent模式完全不同,一個復雜任務包含規劃、拆解、多步執行、并行子任務、結果驗證和錯誤重試,串起來Token消耗是傳統補全的幾十倍甚至幾百倍。GitHub在其官方博客里寫得很直白:長時運行的并行化Agent會話,遠超原有計劃架構所能支撐的資源上限。

此外,Coding Plan還有一個被低估的成本問題,OpenClaw等Agent框架的接入,系統性地破壞了云端的緩存命中。在正常的編程使用場景中,因為上下文高度連貫,緩存命中率通常能達到85%至90%以上,Claude Code很多用戶的命中率甚至能穩定在90%以上。緩存命中的價格通常只有正常輸入的十分之一,實際計算成本遠低于按全額輸入價格估算的數字。

OpenClaw類框架的調用模式不同,框架發出的請求前綴因版本號、構建時間和A/B測試變量的持續變化而高度不穩定,緩存命中率大幅下降。結果是,所有用戶支付的是相同的固定月費,但Coding Plan的實際成本因接入框架類型的不同產生了劇烈差異。

智譜的應對軌跡,清晰展示了這個矛盾從可控走向失控的過程。GLM Coding Plan的無周限額老套餐宣布于4月30日停止自動續訂,平臺公告中承認:隨著使用規模的持續增長,老套餐原有的供給方式已難以支撐長期穩定的服務。并為受影響的早期訂閱用戶贈送了兩個月的新套餐權益。

這是由成本壓力觸發的被動退出,而非主動的產品迭代。與此同時,智譜將Coding Plan的使用場景限制在AI編碼和IDE工具中,明確排除了OpenClaw等通用Agent場景,這條限制本身,就說明了問題的癥結在哪里。

這一輪集體收緊的速度,超過了大多數人的預判。來自這個行業的一個親歷者描述說,“一個季度之內,從補貼搶人到集體收緊,速度比我預想的快得多。”

OpenAI在這一輪競爭中選擇了不同的策略,Sam Altman在4月初宣布Codex達到300萬周活用戶,隨即重置了所有套餐的用量限制,并承諾每新增100萬用戶就再重置一次。社區用戶反饋10天內經歷了4次額度重置。Plus用戶享受促銷期10倍用量,Pro用戶享受2倍用量,但促銷截止5月31日,之后的策略如何調整尚未可知。

Codex負責人Tibo在X上表示,OpenAI擁有足夠的算力和厲害的模型來支持Codex的運作。這與《新立場》此前在此前《阿里字節“圍獵”智譜、MiniMax:Token到底該由誰來定價?》一文中的分析吻合:OpenAI的心態是奧特曼總能籌集到更多資金支持算力規模擴展,這與Anthropic強調訓練和運行效率的路徑形成了鮮明對比。

字節火山引擎的Coding Plan在多家同類產品中保持了相對穩定的運營狀態。但這一例外有其背景,字節的自有算力基礎設施與智譜等初創廠商不在同一基準線,且根據《晚點LatePost》的報道,火山引擎很早就通過與企業客戶的協作計劃意識到,B端客戶有大量Agentic Coding的需求,這些真實使用數據反向推動了字節模型能力的演進。

Coding Plan對火山引擎而言,同時承擔著鎖定開發者生態和獲取訓練數據的戰略功能,短期的成本壓力被更長期的數據資產價值對沖。但這是大規模算力基礎設施持有者的特殊處境,不是行業可以普遍復制的路徑。

終局是按結果付費

用Token Plan來取代Coding Plan,只是這場競爭的中場哨聲。

Coding Plan的最大矛盾是收入固定而成本浮動,一旦模型能力迭代或用戶習慣改變,成本可能在收入不變的前提下飆升。Token Plan是消除這個矛盾的最好方式,即平臺的毛利率由Token單價與推理成本之間的差值決定,兩者都可以被精確控制和預測。

在商業化角度看,Coding Plan本質上是一種補貼策略,用低于成本的價格換取用戶習慣養成和訓練數據積累。在這個時間節點上切換到Token Plan,意味著行業認為補貼換市場的階段已經結束,用戶的支付意愿和實際使用價值之間存在足夠的空間來支撐可持續的商業模型。

羅福莉在這個過程中扮演了一次行業定價“吹哨人”的角色,其主張在弄清楚如何在不造成資金流失的情況下為Coding方案定價之前,不要盲目地競相壓低價格,以極低的價格出售Token,同時對第三方敞開大門。這看起來對用戶很有吸引力,“但這是一個陷阱,Anthropic剛剛擺脫的那個陷阱”。

據《騰訊科技》報道,小米MiMo大模型的Token Plan,是這個趨勢的一個典型案例。據《騰訊科技》報道,兩周免費推廣期間,MiMo-V2-Pro在OpenRouter上單周Token消耗量突破4萬億,編程領域市占率一度超過30%。但免費期結束后,周調用量從高峰下滑,印證了從免費到付費的轉換率,是所有大模型公司面臨的共同難題。

雷軍在MiMo-V2-Pro發布當天親自官宣了Max檔659元/月、國際定價100美元/月的訂閱方案,直接錨定Anthropic Claude Max 5x套餐。羅福莉在隨后的公開發聲中解釋了這套設計的邏輯:Token Plan支持第三方框架接入,但按Token配額計費,用戶用多少付多少,不會出現訂閱制下"薅羊毛式"的成本倒掛。

對阿里云為首的云廠商而言,這次切換還有另一層意義:回到自己最熟悉的生意。維護一個經濟模型持續承壓的訂閱服務,需要不斷通過運營手段彌補結構性虧損,這是云廠商的非專業地帶。對比之下,騰訊云和阿里云已經銷售了十幾年的計算資源包、存儲資源包和CDN流量包,有完整的計量計費系統、預付費后付費結算和用量管理權限控制的基礎設施,F在只需要把計量單位從“CPU核時”或“GPU小時”換成“Token”,整套體系就可以無縫接入。

Token Plan對創新的激勵方向也更合理。Coding Plan模式下,平臺推出更強的模型會增加推理成本但不增加訂閱收入,等于在定價機制上懲罰技術進步。Token Plan里,更強的模型刺激用戶消耗更多Token,帶來更多收入,形成正向循環:更好的模型帶動更多消耗,更多消耗產生更多收入,更多收入支撐更多研發投入。這是Coding Plan從來沒有解決的一個基礎激勵錯配。

目前輿論對Token Plan的討論有一些針對轉變本身的困惑,但這本質上是時間產生的問題,而非方向問題。Cursor作為Coding Agent早期玩家,其轉變比大多數中國廠商早了大約一年,Cursor去年就從按次計費轉成了按量計費,今年又推出了Ultra檔位(200美元/月)。印證了隨著Agent使用強度上升,定價模式演變是必然走向。

對中國市場來說,OpenClaw在本地的爆火將這個時間節點大幅壓縮,這場原本可能用兩年完成的行業過渡,被壓縮在了幾個季度內。這種壓縮的代價,是很多廠商來不及設計過渡方案,只能被動應對,導致老用戶體驗出現波折,如阿里、智譜的套餐遷移附帶了用戶補償方案。就是這個代價的具體表現。

不過,在《新立場》看來,從更長的時間維度出發,Token Plan也只能算是AI Coding競爭的中間形態,而不是終態。未來理想的模式是按結果付費,就像打車不需要關心汽油消耗了多少升,用AI解決問題也不應該需要關心消耗了多少Token。

當前按Token計費的本質,是對“算力使用權”的定價,買的是讓模型替用戶“想”一次的機會,至于想得多深、想得多好、最終有沒有解決問題,不在這個價格的承諾范圍內。正如第一章所述,在AI Coding場景下,“結果”是可以被精確定義的:代碼跑通了沒有,Bug修了沒有,功能實現了沒有。一旦能夠可靠衡量這些結果,按結果定價就在技術上是可行的。

屆時,“Token效率”將成為模型能力的正式評價維度,因為完成同等結果消耗的Token更少,意味著在固定的結果定價下,毛利率更高。GPT-5.5的發布數據在這里提供了一個前瞻性的參照。OpenAI在公告中強調,GPT-5.5在完成同等Codex任務時使用的Token數量更少,這被列為核心能力之一,與"更高的準確率"并列。

DeepSeek V4公告同樣提到,新的注意力機制“相比于傳統方法大幅降低了對計算和顯存的需求”。兩家同日發布的最強模型,都把計算效率作為旗艦能力進行宣傳,重新定義了“更好的模型”的標準。

未來的Coding Agent競爭,效率與能力將是同一張成績單上的兩個指標。*題圖及文中配圖來源于網絡。

       原文標題 : GPT-5.5與V4同日競技:Coding成了AI唯一的壓艙石

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號