AI智能體下的CPU，或重回“黃金時代” - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 機器學習 > 正文

AI智能體下的CPU，或重回“黃金時代”

2026-04-21 11:00

如果AI只是一問一答的聊天機器，算力的答案確實很簡單——有多少GPU，就有多少想象力。在那段以對話模型為主角的周期里，CPU更像一位低調的調度員，負責數據的迎來送往，而非決定反應快慢的核心角色。

然而，當AI從對話框里走出來，開始調用工具、讀寫代碼、編排任務，變身真正的“數字代理人”時，算力游戲規則變了。分支指令的暴增讓擅長矩陣乘法的GPU一時“水土不服”，而那位退居幕后的CPU，卻恰好站上了控制流與記憶體風暴的中央。

01. 在對話大模型時代，CPU一度退居幕后

在AI的上一程里，行業幾乎被一條邏輯完全主導：算力決定上限，GPU就是算力的核心。無論是千億參數模型的訓練，還是大模型的實時推理，核心計算都落在矩陣乘法之上——而這恰恰是GPU架構設計的絕對主場。在這種范式下，CPU退居幕后，負責數據預處理、任務調度和結果后處理等“總指揮”式的工作，其性能高低似乎并不直接決定用戶體驗。

但走到2026年，AI產業完成了一次關鍵范式切換。AI不再只是一“回答問題的對話機器，它開始真正走進現實世界“執行任務”。這個轉變帶來的不僅是能力的躍遷，更是一場算力需求的底層重構。大模型訓練曾是AI算力消耗的主體，而到了2025年下半年，AI推理的支出正式超過了訓練，行業迎來所謂推理翻轉。當重心從訓練轉向推理和規�；涞�，算力的評判標準也隨之改變——不再是誰的GPU更強，而是整個系統能不能跑起來。

在對話模型時代，一個用戶請求的處理鏈路相對簡單：CPU將文本轉換為token，GPU運行模型生成響應，CPU再將token轉換回文本。在這個往返中，GPU的計算時間主導了總延遲，CPU幾乎不在性能的考量范圍內。但當工作負載變成智能體，情況就截然不同了。一個典型的Agent任務需要執行多步推理、調用API、讀寫數據庫、運行代碼、解析文檔，然后將所有中間結果編排成最終輸出。

4月8日，知名半導體分析機構SemiAnalysis首席分析師Dylan Patel在一次深度訪談中指出，由于AI工作負載的范式正在從簡單的文本生成向復雜的“智能體(Agents)”和“強化學習(RL)”演進，CPU正面臨極其嚴重的產能短缺。

02. Agent的工作機制，助力CPU價值重估

為什么智能體對CPU的依賴如此之大？答案藏在Agent的工作機制里。

傳統對話模型的分支極少，一次推理就是一次推理。但智能體的行動階段充滿了if/else判斷和系統調用。以Manus為代表的主流Agent架構，會為每個任務分配一個隔離的云端沙箱虛擬機，任務之間可以并行但控制流完全不同——有的在瀏覽網頁，有的在修改代碼，有的在部署環境。這類分支類任務如果放在GPU上執行，控制流發散會直接導致算力利用率急劇下降。而分支預測和處理恰恰是CPU微架構幾十年來持續優化的核心能力。這正是東吳證券所說的“執行控制流CPU化”。

與此同時，智能體的記憶體系也在發生遷移。在長上下文場景下，大模型推理會產生巨大的KV Cache，其占用隨對話輪次和上下文長度線性增長，很快就會耗盡GPU寶貴的HBM容量。業界普遍采用的解決方案是將KV Cache遷移到CPU內存——通過KV Cache Offload技術，搭配大容量DDR5/LPDDR5內存和CXL擴展，CPU成為兼顧吞吐、擴展性和成本效率的KV Cache最優容器。東吳證券將這種現象概括為“記憶體系去GPU化”，這意味著CPU的角色已經從單純的調度中樞，擴展為同時承載控制和部分存儲功能的核心資源池。

值得注意的是，智能體工作負載不僅在質上挑戰CPU，在量上也形成了空前的壓力。與標準生成式AI相比，代理式AI部署的token消耗量增加了20到30倍。每一次用戶交互背后都包含著多步推理、工具調用和跨Agent協調，這個過程的token消耗遠遠超過單次問答。Gartner甚至預測，到2027年將有40%的代理項目因基礎設施成本超支而被取消。高昂的成本不僅來自GPU推理，相當一部分正來自CPU端的持續開銷。

03. 海外大廠開始“堆核競賽”，行業有望重回高增長

就在這種CPU需求量激增但產能受限的臨界點上，行業巨頭的動向往往最先泄露天機

2026年初，英偉達做了兩件看似偏離主業的事：一是掏出20億美元追加認購CoreWeave股票，并在其平臺上部署專為代理式推理設計的Vera CPU；二是在下一代Rubin架構中大幅提升CPU核心數，并開放NVL72機柜對x86 CPU的支持。

與此同時，傳統CPU廠商正在Agent的驅動下集體向超多核架構沖刺。AMD推出的Turin最高可達192核；英特爾的Sierra Forest采用純能效核設計，核心數可達144甚至288核。超多核CPU以更高的并行度和更低的單位功耗，支撐大規模、長期運行的Agent執行環境。隨著Agent商業化的推進，廠商必須持續壓低每次任務的執行成本——在這個目標下，核數越多，單位成本越低，CPU的堆核競賽或許才剛剛開始。

從投資視角來看，IDC 預計 Agent 年執行任務數將從 2025 年的 440 億次快速增加至 2030 年的 415 萬億次，對應年復合增長率達 524%，Agentic AI 發展正驅動 CPU 迎來新一輪成長機遇。

在A股相關公司方面，東吳證券研報指出 CPU：瀾起科技、海光信息、廣合科技、龍芯中科、中國長城等。數據庫：星環科技(基于ARM 優化，與NV-GPU-GraceCPU 適配)。

04. 結語：CPU有望重回“黃金時代”

從對話模型的GPU中心主義，到智能體時代的CPU價值回歸，算力版圖的位移折射出AI應用形態的深刻進化。當推理支出超越訓練，當Agent的token消耗量數十倍于單次問答，基礎設施的效率命題就不再只是誰的GPU更強，而是整個系統能否以可持續的成本跑起來。CPU憑借其在分支預測、內存擴展和并發控制上的架構優勢，從單純的調度中樞躍升為承載控制邏輯與記憶體系的核心資源池。

海外大廠的堆核競賽只是這場變局的外顯征兆。其共同指向一個清晰方向：面向大規模、長周期運行的代理式AI負載，超多核CPU正成為成本與能效的關鍵平衡點�？梢灶A見，隨著Agent商業化的深入，算力體系的評判標準將被部分改寫——異構計算的天平不再一味向GPU傾斜，CPU正以更加主動的姿態，參與定義下一代AI基礎設施的形態與邊界。

- End -

原文標題 : AI智能體下的CPU，或重回“黃金時代”

AI智能體 CPU

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號