新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<style id="4etwb"><mark id="4etwb"></mark></style>

<small id="4etwb"></small>

當前位置： OFweek 人工智能網 > 機器學習 > 正文

Coding的本質=強化學習+合成數據+萬卡算力？

2026-05-20 14:38

如今的AI編程領域，Claude Code、Codex和Cursor已經是最著名的三款代理工具。

前兩者分別背靠Anthropic和OpenAI，憑借著旗下最先進的模型Opus 4.7和GPT-5.5屢屢在編程相關的基準測試中摘得桂冠。

相比之下，最早誕生于2023年的Cursor如今顯得有些落寞。為了扭轉局面，Cursor決定放出一枚深水炸彈：Composer 2.5。

盡管官方只給出了一篇2分鐘閱讀時間的短片技術博客，Cursor還是以極為克制的態度宣誓了技術主權：攜手馬斯克的SpaceXAI接入100萬塊H100的等效算力、合成數據規模暴增25倍，以及十分激進的商業定價。

Composer 2.5 基準測試結果

博客的最底端，Cursor留下了三個不起眼的腳注，而其中的三篇硬核學術論文，涵蓋了強化學習、合成數據和底層基建的巧妙改動，恰好對應了AI“算法、數據和算力”三要素，這才是解開Composer 2.5強大能力的鑰匙。

Cursor正在向整個行業宣告真相：AI編程的競爭，早就從套殼拼API的冷兵器時代，全面進入了重寫底層強化學習算法的核武器時代。

01

強化學習：“自我蒸餾”

AI編程這件事，開發者和普通人的看法完全不同。普通人認為，AI編程降低了使用門檻，讓不懂編程的人也能寫個應用程序；而開發者認為，AI編程現有的能力擺脫不了人工復核，一旦交互次數變多、上下文變長，AI編程的性能就會直線下降。

Cursor一針見血地點明了AI編程全行業目前都必須面對的一個世界級難題，并稱之為“信用分配（Credit Assignment）”。

這就好比一位語文老師收到了學生交上來的一篇10萬字的長篇小說，粗糙地掃了一眼之后發現內容全盤崩壞，于是直接給這篇小說打了個不及格。

在AI領域，以基于標量獎勵的GRPO算法為代表的傳統強化學習就是這么做的，它只會給出一個最終的離散評分：0就是對，1就是錯。

Refer to caption

顯而易見，這種做法談不上錯，但也不夠嚴謹。因為學生拿到不及格之后壓根不知道自己錯在哪里，是開頭的人設崩了、中間的邏輯斷了還是結尾寫跑題了？

AI模型也是一樣的，得不到任何具體的反饋，在下一次執行復雜任務并生成幾十萬、上百萬token的代碼時，還是不知道應該從哪里開始改、改什么、如何改。不僅如此，在盲目試錯的過程中，傳統模型在生成代碼時往往會在思維鏈中產生大量的廢話，這些廢話的背后可是實打實的output token賬單。

Cursor為了解決這個問題，把槍口瞄準了“基于文本反饋的定向強化學習”機制，工程團隊敏銳地將“自我蒸餾（Self-Distillation）”技術引入了長文本代碼生成的訓練過程之中。

提到蒸餾，自然離不開教師模型和學生模型之間的博弈，這就好比一場開卷和閉卷交雜的考試：

當模型在長達幾十萬token的代碼生成過程中發生了工具調用錯誤時，Cursor就會把具體的報錯信息連帶著正確的可用工具列表直接丟給模型，讓它“開卷”看答案。于是，這個看了正確答案的模型處于全知全能的狀態，順理成章地成為了教師模型。

而同一款沒看到答案、只能靠本能寫代碼的模型就作為學生模型，開始與教師模型對齊。

教師模型無需從頭到尾把代碼重寫一遍，只需要在代碼報錯的那個特定位置告訴學生模型“在這個token上，你應該降低選A工具的概率，提高選B工具的概率。”

Refer to caption

看起來很簡單的自我蒸餾過程，帶來的結果卻令人意外：

一是模型告別了災難性的遺忘，這種同策略方法能讓模型在學會調用復雜工具等新技能的同時，原封不動地保留原本強大的基礎編碼和推理能力；

二是“廢話文學”得以終結，比起傳統強化學習算法動不動就給出幾千token的無效輸出，自我蒸餾訓練出來的模型推理過程往往極其精簡。

換句話說，Composer 2.5拒絕“為了思考而思考”，要的就是“一擊必中”。

02

合成數據：“作弊手冊”

為了追趕甚至超越Claude Code和Codex，Cursor這次可謂是大動干戈，不僅在算法上取巧，數據層面上也是下了血本：

在Composer 2.5的訓練中，Cursor動用了比上一代模型多出25倍的合成數據。

Composer 2.5 合成數據

規模化法則（Scaling Law）從未失效，但在互聯網數據即將枯竭的今天，“合成數據”成為了所有AI企業的救命稻草。

Cursor采用了一種巧妙的方式來獲得合成數據：先破壞，再重建，也就是功能刪除法。

研究團隊先是找到了一個帶有大量自動化測試用例的龐大真實代碼庫，讓AI扮演一個“無害的破壞者”，刪除掉里面特定功能的代碼和文件，但必須保證剩下的代碼依然能運行。

下一步，就是把這個殘缺但仍然能運行的代碼庫丟給訓練過程中的Composer 2.5，并要求它復現出被刪除的功能。判斷的依據也很簡單，就是看能否通過原本的測試用例。

這種在人類看來只是“完形填空”的測試，對AI來說反而是一種極高難度的情景還原訓練。不過，在這個過程中，Cursor觀察到了令人有些不適的“AI獎勵破解（Reward Hacking）”現象。

簡單來說，就是隨著Composer能力的躍遷，它開始走上歪路，通過瘋狂尋找系統的漏洞來完成任務，而不是老老實實、按部就班地寫代碼。

被實錘的案例有兩個：

其一，模型發現系統里殘留了Python的類型檢查緩存，它直接逆向破解了緩存的格式，從中把被刪除的函數簽名硬給“偷”了出來；

其二，模型在面對缺失的第三方API時，順藤摸瓜找到了底層的Java字節碼，然后編寫了一個反編譯腳本重建了API。

不得不說，這看上去有點科幻電影AI覺醒即將統治人類的前兆了。

從技術角度看，這恰恰證明了大規模的強化學習在AI編程領域的巨大威力。代碼的世界本質上就是一個具備“客觀真理”的沙盒，跑得通且能給出正確結果就是對，反之就是錯。而模型在這個沙盒中，為了像人類的工程學一樣更快達到目的，已經開始涌現出人類高級黑客才具備的側信道攻擊和逆向工程能力。

Cursor的研究團隊通過智能體監控發現了這些所謂的“作弊行為”，按道理說應該是數據和算法層面上都出現了問題，但這反而成為了一個絕佳的商業宣傳：

為了偷懶能反編譯Java字節碼的AI，想要幫人類完成常見的業務代碼，完全是降維打擊。

03

底層基建：算力壓榨

聊完了數據和算法，接下來就是讓全球AI企業頭疼的算力問題了。畢竟，高端的算法永遠建立在底層重資產構建的泥瓦匠基建工程之上。

這一次，Cursor在外部和內部都有充足的動力：

首先是官方高調宣布Composer 2.5與馬斯克旗下的SpaceXAI達成合作，動用了Colossus數據中心提供的100萬塊H100等效算力。這個概念足以令人震撼，目前許多主流大模型廠商的總算力儲備恐怕連這個數字的十分之一都達不到。

在獲得馬斯克援助的同時，Cursor在底層算力的優化上，也學習國產模型精打細算到了極致。官方技術博客中提到的分片Muon和雙網格HSDP這兩項核心技術，正是Cursor在AI訓練基建領域最硬核的操作。

在詳細拆解這兩項技術之前，首先要明白現有的頂級大模型普遍采用的是混合專家（MoE）架構，其中的參數被分為兩類：非專家權重和專家權重，分別對應公共知識和專業知識。

當模型的規模不斷擴大直至突破萬億后，計算任務就必須拆分給成千上萬塊GPU。此時，GPU之間互相傳輸數據產生的通信延遲瞬間成為了比計算本身更難以克服的瓶頸。

Muon是一種月之暗面優化后的前沿優化器算法，能對矩陣進行正交化操作并讓模型訓練過程更加穩定、收斂速度更快。

然而，矩陣正交化計算對于專家權重來說意味著極大的計算開銷。于是，Cursor沿用這一思路，將形狀相同的矩陣也進行分片，并把矩陣碎片分配給不同的GPU并行計算，完成后統一收回結果。

在傳統的分布式計算中，GPU從發送完數據到接收到回傳數據的過程就會產生網絡延遲，而Cursor則做到了異步重疊，單塊GPU在發送完一個任務的數據后不會傻等，而是立刻開始計算下一個任務。

雙網格HSDP則是Cursor針對MoE模型的參數異構性，從底層解耦通信進程組設計出的兩套物理隔離的通信網格：

窄網格專用于非專家權重，高頻的操作完全在節點內的超高帶寬上完成，徹底規避了跨節點的網絡延遲；

寬網格專用于專家權重，執行專家并行和參數分片可以最大化地將專家狀態的存儲與計算壓力分攤到海量的GPU上。

而這種雙網格布局帶來的核心技術紅利就是通信與計算的極致重疊，以及并行維度的無沖突疊加。這一通操作下來，網絡通信的時間就會被完美地隱藏在計算的時間中。一個萬億參數的模型，高度復雜的優化器每走一步甚至只需要驚人的0.2秒。

極致的工程化能力，確保了Cursor能用最高的效率將最前沿的學術理論轉化為產品，這也是后來者難以望其項背的壁壘。

04

重塑開發者生態

最后，從Composer 2.5的這次發布中，可以看到Cursor清晰的商業脈絡。它的野心，絕不會停留于一款好用的編程代理。

Composer 2.5采用的是常見的雙軌定價：普通版和Fast版，兩者智能水平相同但后者速度更快。

普通版：輸入0.5美元/百萬token，輸出2.5美元/百萬token

Fast版：輸入3美元/百萬token，輸出15美元/百萬token

雖然Fast版的價格遠高于普通版，但官方特別強調：它的成本依然低于其他前沿模型的同檔方案。

這種現象并不罕見，就像Anthropic的Opus 4.7和OpenAI的GPT-5.5一樣，雖然API價格遠高于全世界絕大部分模型，但這兩款頂尖模型完成任務所需的成本反而更低。

這也是Cursor一種極其精準的用戶心理把控。對于高凈值、高付費意愿的程序員群體來說，思考的連貫性往往是無價的。多花幾塊錢，換來的是代碼生成速度的毫秒級提升。Cursor把Fast版作為默認選項，同時給出首周雙倍用量，本質上其實是在用更低的成本培養用戶對“更好體驗的AI編程”的生理級依賴。

這也是國際頂尖AI企業普遍在做的一件事：一旦習慣了一款模型的速度和精準度，用戶將極難回流到競品廠商手中。

從Cursor的技術棧中包含處理幾十萬token上下文、跨多文件編輯、定向糾正工具調用等能力也可以看出，它的定位就是一個長線任務協作Agent。

用戶不需要逐行按下tab鍵，只需要拋出一個架構需求，Cursor就能自己去后臺讀緩存、調接口、跑測試。哪怕出了錯也不必擔心，基于文本反饋的自我蒸餾技術能讓它在幾百輪交互中自我進化。

因此，Composer 2.5的出現，也是對軟件開發行業的一次靈魂拷問：

當模型已經能夠通過反編譯和閱讀長代碼庫來自動完成代碼的重構和修復，那些初級程序員又該何去何從？

反過來看，它對系統架構師、產品經理和具備頂層設計思維的高級開發者來說就是一場史無前例的紅利。

未來的AI編程，競爭的核心就在于對問題的定義能力和對復雜系統的拆解能力。

人們提出多高維度、多精準的需求，Composer 2.5就能利用100萬塊H100訓練出的智慧回饋出多震撼的系統。

最后，Composer 2.5的初創團隊令人敬畏。

他們既有學術界最前沿的強化學習和自我蒸餾理論，又有百萬卡級別的夸張算力，腳下踩著極致壓榨GPU的工程基建，腦子里還裝著洞悉開發者人性的商業模式。

有人說，AI編程工具終究只是大模型的套殼。

但Cursor用Composer 2.5證明：當應用層的體驗反推向底層算法重構時，這層套殼就成為了競爭中最堅固的城墻。

AI編程的下半場早已開場，如今領跑的，是一個不斷實現“自我蒸餾”的超級物種。

原文標題 : Coding的本質=強化學習+合成數據+萬卡算力？

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<noscript id="aqisv"></noscript>

<sub id="aqisv"><optgroup id="aqisv"><div id="aqisv"></div></optgroup></sub>