熱點丨天數智芯拿下字節5萬顆芯片, 國產GPU推理進入實戰
前言:
當3.68億月活用戶的指尖每一次觸碰屏幕,背后都是算力的無聲燃燒。豆包的爆發式增長,讓字節跳動站在了算力供需的十字路口。
字節與天數智芯圍繞5萬顆AI推理芯片展開洽談,意義在于國產GPU終于走到大模型應用的生產現場。
作者 | 方文三
圖片來源 | 網絡
豆包收費之后,算力變成「單位經濟模型」
豆包正在從免費增長階段進入付費驗證階段,當AI應用以免費方式爭奪用戶時,算力成本更多被視為獲客投入,一旦開始收費算力就會進入產品毛利模型。
豆包專業版的收費設計,已經把「額度」作為產品邊界,標準、加強、高級套餐的差別,本質上是不同用戶對模型調用能力的購買。
對于字節來說,決定業務能否跑通的是每一次任務執行的算力成本能否被壓進合理區間。
這正是國產推理芯片的機會窗口,大模型應用廠商需要一個更健康的算力組合:一部分承擔極限性能,一部分承擔規模化推理,一部分承擔邊緣和垂類場景,一部分作為供應鏈韌性儲備。
多供應商結構能降低采購風險,也能在價格談判、部署節奏和資源調度上提供更大空間,這也要求從模型、芯片、框架、調度、緩存、量化、服務端架構到商業定價一起優化。
與此同時,豆包大模型日均Token處理量突破140萬億的規模,正在將字節推向國內推理算力消耗的第一梯隊。
面對持續走高的算力賬單與海外芯片供應的不確定性,字節早已啟動算力供應鏈的重構,其中最核心的動作便是訓練與推理體系的分治。
在字節的算力版圖里,華為昇騰與寒武紀高端芯片承擔超大規模模型預訓練、基座模型迭代等重負載任務,追求極致的集群訓練效率與多卡互聯能力。
而海量的線上C端推理、輕量化模型部署、邊緣節點算力供給,則交給性價比更高、供應更穩定的推理專用芯片。
天數智芯的智鎧系列正是切入了后者的空白地帶,成為字節第三家國產GPU供應商。
訓練和推理分治的供應鏈布局,是AI算力走向工業化分工的顯性標志。
字節用兩條供應鏈分別匹配兩類需求,既保障了前沿模型研發的進度,又在日常業務中攤薄了算力成本,同時分散了單一供應商的斷供風險。
拿下五萬顆訂單,天數智芯突圍
天數智芯能夠進入字節的核心供應鏈,核心籌碼在于其堅持的通用GPU路線,以及智鎧系列針對推理場景的深度優化。
與專用ASIC推理芯片不同,智鎧系列基于標準通用GPGPU架構設計,擁有完整的可編程能力與通用計算指令集,能夠快速適配不斷迭代的大模型算法,無需針對單一場景重新流片。
從公開參數來看,智鎧100加速卡搭載32GB HBM2E高帶寬顯存,FP16峰值算力達96 TFLOPS,INT8量化算力達192 TOPS,板級功耗控制在300W,顯存帶寬與訪存延遲均針對大模型推理的內存密集型特征做了專項調校。
對于字節這類擁有上百種推理負載的互聯網廠商而言,通用架構意味著更低的遷移成本。
現有基于CUDA開發的推理框架與算子,能夠通過編譯層快速適配,無需推倒重來,大幅縮短了上線周期。
通用GPU的推理價值,在大模型快速迭代的周期里被持續放大,大模型架構從純Decoder走向MoE、多模態融合,推理負載的計算特征一直在變化,專用芯片很容易在半年內就出現架構過時的問題。
而通用GPU憑借可編程性,能夠通過軟件優化持續釋放性能,跟上模型迭代的節奏,這也是字節選擇智鎧系列作為海量推理主力供給的重要原因。
推理比訓練更像一門生意,二線廠商迎窗口期
從商業化角度看,推理才是更長期、更高頻、更貼近現金流的戰場。
訓練像修高速公路,一次投入巨大,周期集中,考驗的是峰值能力、集群通信、穩定訓練和大規模并行。
推理像城市交通,每秒都在發生,永遠有高峰、低谷、擁堵、繞行和調度。
推理芯片的核心競爭力并不只看理論算力,還要看單位請求成本、響應速度、batch調度效率、顯存利用率、KV Cache管理、量化支持、算子適配、框架兼容、故障恢復和運維工具鏈。
在真實推理場景里,客戶很少愿意為單一芯片重寫大量業務代碼,國產芯片要進入大廠,必須盡可能降低遷移成本,讓原本圍繞CUDA、PyTorch、推理引擎和模型服務框架搭建的工程體系能夠平滑過渡。
國產GPU不一定一上來就要在所有場景正面對標英偉達最強卡,先在可控業務邊界里跑穩、跑久、跑出成本優勢,反而更符合產業落地邏輯。
AI產業的算力重心正在從訓練側快速向推理側遷移,2026年國內AI推理GPU市場規模預計接近六千億元,兩年復合增長率接近四成,推理算力已經成為AI算力投入的核心增量來源。
相比于訓練市場被少數頭部廠商壟斷的格局,推理市場場景分散、需求多元、對性價比敏感度更高,給了二線國產廠商更多突圍空間。
當前國內推理算力市場正在形成分層競爭的格局,華為昇騰憑借完整的生態與集群能力,占據高端訓練與高端推理市場的主導地位;寒武紀依托多年的技術積累,在中高端推理與行業私有化部署中站穩腳跟。
而天數智芯、摩爾線程等通用GPU廠商,則憑借更靈活的架構與更優的性價比,沖擊海量通用推理市場。
隨著頭部互聯網廠商的訂單陸續落地,第二梯隊廠商的產能與技術迭代速度會進入正向循環,梯隊之間的差距會逐步縮小。
國產GPU新階段,多路線共存+生態決勝
國產GPU很難靠單點突破完成整體替代,更現實的路徑是在特定場景、特定負載、特定客戶體系里逐步占據份額。
推理是最適合國產芯片打開局面的方向之一,訓練大模型對芯片性能、集群通信和軟件成熟度要求極高,客戶容錯空間很小。
推理場景則更加多元,可以按照模型大小、任務類型、延遲要求、成本敏感度進行拆分,只要某類國產芯片在某些任務上做到穩定、便宜、夠用,就有機會被納入大廠的異構算力池。
未來的大模型基礎設施,大概率不會是一種芯片包打天下。云端訓練、高并發推理、端側AI、邊緣視覺、企業私有化部署、行業小模型、Agent任務調度,會對應不同芯片形態。
GPU、ASIC、NPU、CPU混合調度將長期共存,國產GPU企業真正要爭奪的是在這張異構算力版圖中占住足夠關鍵的位置。
結尾:
當國產GPU跑過億級用戶的流量考驗,中國算力的自主之路才算真正踩實了路基。五萬顆訂單不是終點,而是國產推理芯片進入實戰周期的起點。
接下來的一到兩年,會有更多本土芯片跨過規模化門檻,在真實業務的淬煉中,構建起屬于中國的算力產業生態。
部分資料參考:21世紀經濟報道:《5萬GPU芯片大采購背后:國產巨頭天數智芯浮出水面》,第一財經:《字節跳動加量采購國產芯片,互聯網大廠競速搭建算力護城河》,國盛證券:《天數智芯:GPU代際穩步演進,商業落地漸入節奏》,長江證券:《天數智芯深度研究:時來天地皆同力,國產GPU主力爆發在即》
原文標題 : 熱點丨天數智芯拿下字節5萬顆芯片,國產GPU推理進入實戰
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













