訂閱
糾錯
加入自媒體

AI智能體下的CPU,或重回“黃金時代”

2026-04-21 11:00
證券之星
關注

如果AI只是一問一答的聊天機器,算力的答案確實很簡單——有多少GPU,就有多少想象力。在那段以對話模型為主角的周期里,CPU更像一位低調的調度員,負責數據的迎來送往,而非決定反應快慢的核心角色。

然而,當AI從對話框里走出來,開始調用工具、讀寫代碼、編排任務,變身真正的“數字代理人”時,算力游戲規則變了。分支指令的暴增讓擅長矩陣乘法的GPU一時“水土不服”,而那位退居幕后的CPU,卻恰好站上了控制流與記憶體風暴的中央。

01. 在對話大模型時代,CPU一度退居幕后

在AI的上一程里,行業幾乎被一條邏輯完全主導:算力決定上限,GPU就是算力的核心。無論是千億參數模型的訓練,還是大模型的實時推理,核心計算都落在矩陣乘法之上——而這恰恰是GPU架構設計的絕對主場。在這種范式下,CPU退居幕后,負責數據預處理、任務調度和結果后處理等“總指揮”式的工作,其性能高低似乎并不直接決定用戶體驗。

但走到2026年,AI產業完成了一次關鍵范式切換。AI不再只是一“回答問題的對話機器,它開始真正走進現實世界“執行任務”。這個轉變帶來的不僅是能力的躍遷,更是一場算力需求的底層重構。大模型訓練曾是AI算力消耗的主體,而到了2025年下半年,AI推理的支出正式超過了訓練,行業迎來所謂推理翻轉。當重心從訓練轉向推理和規;涞,算力的評判標準也隨之改變——不再是誰的GPU更強,而是整個系統能不能跑起來。

在對話模型時代,一個用戶請求的處理鏈路相對簡單:CPU將文本轉換為token,GPU運行模型生成響應,CPU再將token轉換回文本。在這個往返中,GPU的計算時間主導了總延遲,CPU幾乎不在性能的考量范圍內。但當工作負載變成智能體,情況就截然不同了。一個典型的Agent任務需要執行多步推理、調用API、讀寫數據庫、運行代碼、解析文檔,然后將所有中間結果編排成最終輸出。

4月8日,知名半導體分析機構SemiAnalysis首席分析師Dylan Patel在一次深度訪談中指出,由于AI工作負載的范式正在從簡單的文本生成向復雜的“智能體(Agents)”和“強化學習(RL)”演進,CPU正面臨極其嚴重的產能短缺。

02. Agent的工作機制,助力CPU價值重估

為什么智能體對CPU的依賴如此之大?答案藏在Agent的工作機制里。

傳統對話模型的分支極少,一次推理就是一次推理。但智能體的行動階段充滿了if/else判斷和系統調用。以Manus為代表的主流Agent架構,會為每個任務分配一個隔離的云端沙箱虛擬機,任務之間可以并行但控制流完全不同——有的在瀏覽網頁,有的在修改代碼,有的在部署環境。這類分支類任務如果放在GPU上執行,控制流發散會直接導致算力利用率急劇下降。而分支預測和處理恰恰是CPU微架構幾十年來持續優化的核心能力。這正是東吳證券所說的“執行控制流CPU化”。

與此同時,智能體的記憶體系也在發生遷移。在長上下文場景下,大模型推理會產生巨大的KV Cache,其占用隨對話輪次和上下文長度線性增長,很快就會耗盡GPU寶貴的HBM容量。業界普遍采用的解決方案是將KV Cache遷移到CPU內存——通過KV Cache Offload技術,搭配大容量DDR5/LPDDR5內存和CXL擴展,CPU成為兼顧吞吐、擴展性和成本效率的KV Cache最優容器。東吳證券將這種現象概括為“記憶體系去GPU化”,這意味著CPU的角色已經從單純的調度中樞,擴展為同時承載控制和部分存儲功能的核心資源池。

值得注意的是,智能體工作負載不僅在質上挑戰CPU,在量上也形成了空前的壓力。與標準生成式AI相比,代理式AI部署的token消耗量增加了20到30倍。每一次用戶交互背后都包含著多步推理、工具調用和跨Agent協調,這個過程的token消耗遠遠超過單次問答。Gartner甚至預測,到2027年將有40%的代理項目因基礎設施成本超支而被取消。高昂的成本不僅來自GPU推理,相當一部分正來自CPU端的持續開銷。

03. 海外大廠開始“堆核競賽”,行業有望重回高增長

就在這種CPU需求量激增但產能受限的臨界點上,行業巨頭的動向往往最先泄露天機

2026年初,英偉達做了兩件看似偏離主業的事:一是掏出20億美元追加認購CoreWeave股票,并在其平臺上部署專為代理式推理設計的Vera CPU;二是在下一代Rubin架構中大幅提升CPU核心數,并開放NVL72機柜對x86 CPU的支持。

與此同時,傳統CPU廠商正在Agent的驅動下集體向超多核架構沖刺。AMD推出的Turin最高可達192核;英特爾的Sierra Forest采用純能效核設計,核心數可達144甚至288核。超多核CPU以更高的并行度和更低的單位功耗,支撐大規模、長期運行的Agent執行環境。隨著Agent商業化的推進,廠商必須持續壓低每次任務的執行成本——在這個目標下,核數越多,單位成本越低,CPU的堆核競賽或許才剛剛開始。

從投資視角來看,IDC 預計 Agent 年執行任務數將從 2025 年的 440 億次快速增加至 2030 年的 415 萬億次,對應年復合增長率達 524%,Agentic AI 發展正驅動 CPU 迎來新一輪成長機遇。

在A股相關公司方面,東吳證券研報指出 CPU:瀾起科技、海光信息、廣合科技、龍芯中科、中國長城等。 數據庫:星環科技(基于ARM 優化,與NV-GPU-GraceCPU 適配)。

04. 結語:CPU有望重回“黃金時代”

從對話模型的GPU中心主義,到智能體時代的CPU價值回歸,算力版圖的位移折射出AI應用形態的深刻進化。當推理支出超越訓練,當Agent的token消耗量數十倍于單次問答,基礎設施的效率命題就不再只是誰的GPU更強,而是整個系統能否以可持續的成本跑起來。CPU憑借其在分支預測、內存擴展和并發控制上的架構優勢,從單純的調度中樞躍升為承載控制邏輯與記憶體系的核心資源池。

海外大廠的堆核競賽只是這場變局的外顯征兆。其共同指向一個清晰方向:面向大規模、長周期運行的代理式AI負載,超多核CPU正成為成本與能效的關鍵平衡點?梢灶A見,隨著Agent商業化的深入,算力體系的評判標準將被部分改寫——異構計算的天平不再一味向GPU傾斜,CPU正以更加主動的姿態,參與定義下一代AI基礎設施的形態與邊界。

- End -

       原文標題 : AI智能體下的CPU,或重回“黃金時代”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號