漲價潮里，DeepSeek選擇了清場 - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 自然語言處理 > 正文

漲價潮里，DeepSeek選擇了清場

2026-04-28 15:02

發現沒有，上周五DeepSeek V4發布后不到48小時，人們甚至還沒來得及用它跑完一個完整項目，官方就甩出了另一枚炸彈。

Pro版本API價格限時2.5折，優惠期持續到5月5日。緊接著，Pro和Flash的輸入緩存命中價格一步到位，打到原價的十分之一。

第一反應是困惑。

3月以來，無論海外的OpenAI、Anthropic，還是國內的智譜、阿里、騰訊，AI產品與“降價”二字徹底絕緣。模型越做越大，API價格水漲船高，跑分結果一路往上，用戶對著賬單無話可說。行業在短短一個月內形成了驚人的默契：AI就該越來越貴，想體驗到更好的智能，就得付更高的價格。而DeepSeek V4 Pro的價格已經逼近國內AI產品的下限，Flash版本比舊模型還便宜。此時繼續降價，邏輯上無法解釋。

第二反應是震驚。

輸入緩存命中價格降到0.025元，在智能體時代說“接近免費”沒有夸張成分。而且緩存命中的降價是永久的，不是限時活動。一個自然的質疑隨之而來：這是不是文字游戲？必須緩存命中才能享受這個價格，實際使用中命中率能有多少？實測結果給出了答案：不是噱頭，是真的便宜。

當國內外同行還在為幾塊錢的定價調整反復權衡時，DeepSeek直接把價格表里的小數點往左挪了一位。開發者眼里，這是慈善。競爭對手眼里，這是價格戰。但兩者都沒有觸及本質。

這是在清場。是一場早已分出勝負的成本斬殺。

DeepSeek之所以能在算力緊缺、人才流動的環境下敢于如此激進地調價，原因藏在那份58頁的技術報告中。它早已不需要燒錢換市場。它是在用一套從頭重構的底層架構，把大模型的推理成本推向了人們從未想象過的數量級。

01

記憶的工業化

讀技術報告時，一個數字跳了出來：在百萬token上下文場景下，V4的KV Cache占用僅僅是前代V3.2的10%。十分之一的定價，源頭就在這里。

要講清楚這件事，得從KV Cache說起。今天人們與大模型的對話遠比幾年前復雜，附上幾十頁的文檔作為參考資料已經司空見慣。模型必須把這些冗長的內容記住，才能正確回答問題。這種記憶就是KV Cache。

問題在于，長篇大論帶來的記憶既復雜又臃腫。一本百萬字的書看起來輕薄，模型卻需要占用十幾張昂貴顯卡的顯存來保存記憶。實現長上下文窗口的成本，一直居高不下。

有人選擇接受現實，DeepSeek選擇了另一種路徑：掀翻傳統的記憶方式。

第一種新方法叫壓縮稀疏注意力。傳統注意力機制中，一個token對應一組KV向量。壓縮稀疏注意力的做法是，通過可學習的線性投影和Softmax函數計算出壓縮權重，將連續多個token的KV狀態在序列維度上融合成一個單一條目。

翻譯成直覺能理解的話：以前模型需要逐字逐句記住用戶發來的內容，現在它學會段落總結，把每幾十個詞的核心意義濃縮成一句話。在V4 Pro中，壓縮率設為4，僅這一步，緩存體積在序列長度上直接縮減75%。

第二種方法更加激進，叫重度壓縮注意力。它試圖把遠大于常規壓縮窗口的token記憶壓進一個條目，不做稀疏檢索，而是全局密集注意力計算。代價是計算開銷增加，回報是壓縮率驚人。在V4 Pro中，這一層的壓縮率是128。段落總結還夠，直接做篇章提煉，一整頁內容濃縮成幾個關鍵詞。

但激進壓縮必付代價。局部細粒度信息和嚴格的因果關系，都會被這種暴力壓縮破壞。DeepSeek的解法是，在注意力機制中增加一個獨立分支：窗口大小為128的滑動窗口。最近128個token不被壓縮，以此保證模型對近期上下文的精確感知。緩存管理上，異構KV Cache架構將未壓縮token作為一種狀態獨立管理，讓高壓縮比下的回答質量得以維持。

還有一步不能忽略：混合精度存儲與磁盤復用。KV Cache中的特征維度，只有用于旋轉位置編碼的最后64維保留BF16精度，其余全部量化為FP8格式。物理存儲又砍掉一半。

在這些層層削減之后，緩存體積已被壓縮90%以上，因此V4可以將這些高度壓縮的KV條目直接放到廉價的固態硬盤中。用戶發起長文本請求時，系統從硬盤直接拉取已壓縮的緩存，跳過了昂貴的GPU預填充計算，同時極大節省了HBM顯存。

成本降到十分之一，順理成章。

這是一種記憶的工業化。過去，記憶是手工作坊，每個細節都要原樣保存�，F在，記憶變成了流水線，有標準化工序、有壓縮算法、有分級存儲。冗余被剔除，本質被保留。

02

算力的結構性瘦身

除了顯存占用，推理計算時的浮點運算次數，是衡量算力消耗最主要的標準。在1M長上下文下，V4 Pro的單token推理FLOPs只有前代V3.2的27%。

下降的核心，是一套動態稀疏選擇機制。即使有了壓縮緩存，查詢向量和前面幾萬個壓縮后的KV向量計算注意力分數，計算量仍然龐大。DeepSeek的做法是：對于當前查詢向量，模型通過下采樣和上采樣矩陣將其映射到低維隱空間，生成一個用于檢索的索引Query向量。這個索引向量與歷史緩存的壓縮塊計算粗略得分，每次生成token時只檢索得分最高的1024個壓縮KV條目，再進行后續的核心注意力計算。

傳統注意力機制中，解碼計算復雜度隨上下文長度線性增長。壓縮稀疏注意力將復雜度強制截斷為常數級運算。當上下文長度達到一百萬時，常數級的計算量幾乎可以忽略不計。這是27%這個數字的結構性來源。

與此同步推進的，是精度的系統性妥協。V4不僅將混合專家架構的專家權重量化為FP4精度，還首次將FP4深入注意力計算的核心。Query和Key向量的激活值緩存、加載、矩陣乘法，全部在FP4精度下運行。量化感知訓練期間，索引得分也從FP32降到BF16。硬件層面，FP4精度的吞吐量是FP8的兩倍。這種極低精度計算讓長上下文的注意力計算速度加倍，同時維持了99.7%的KV檢索召回率。

99.7%的召回率值得品味。這意味著，算力下降了，精度幾乎沒有損失。過去人們本能地認為，更便宜意味著更差。DeepSeek用數據證明，這個等式不總是成立。在工程的世界里，冗余和裕度并不天然等于更好的結果。

03

底層的極致壓榨

自頂向下看完整套算法優化，再往下一層，是DeepSeek一貫的看家本領：對底層基礎設施的徹底壓榨。這種優化已經到了“摳門”的地步，卻構成了集群吞吐量提升和降價護城河的真實來源。

V4 Pro參數量達到1.6萬億，在國內僅次于Kimi系列模型。但這也是問題所在�；旌蠈＜壹軜嬛校瑢＜也⑿械目绻濣c通信，隨著參數膨脹成為瓶頸。DeepSeek團隊用自研的TileLang語言編寫底層融合算子，將MoE層的計算按波次劃分。一波專家的通信一旦完成，GPU立刻開始計算，網絡層同時開始并行傳輸下一波專家的token。這種流水線式的重疊調度，將推理階段的常規工作負載加速了1.50到1.73倍，硬件利用率逼近極限。均攤到每個請求上的算力折舊成本，被進一步壓低。

還有一個針對智能體應用場景的獨特優化。AI模型在執行復雜任務時，往往需要先運行一個額外的小模型進行意圖識別或工具調用的判斷。V4的解法更巧妙：在輸入序列后附加專用的特殊token進行標記。由于模型原生支持多級思考和長短期記憶管理，可以直接復用主模型的KV Cache來并行執行這些輔助任務。額外模型的維護成本和重復預填充的計算開銷，被一并消除。

這一步的意義，不是省了幾臺服務器。它指向一種哲學層面的分工：工具和意圖之間的界限被模型內部化了。過去需要外部輔助系統完成的功能，現在被模型本身的結構所吸收。這是壓縮，也是統一。

04

定價權的轉移

混合壓縮注意力疊加硬盤低成本緩存，等于十分之一的緩存命中價格。稀疏注意力加上FP4精度再加上底層極致榨取，等于2.5折的推理價格。理解了這些技術，就能看明白這次突如其來的降價，本質不在慈善，也不在價格戰。這是利用技術代差發動的降維打擊。

說來有些諷刺。在國內AI市場漲價的主旋律中，行業在一個月內形成了心照不宣的默契：AI就該越來越貴。然后DeepSeek一言不發，讓這種默契化為泡影。自研的千億MoE架構、把單token成本打骨折的混合注意力機制，使得API價格降到對手不想、也不敢跟進的水平。

這已經不是同一個維度的競爭。

DeepSeek從未想過燒錢換市場，它背后是自研的整套推理框架，從底層算子到上層服務的全鏈路掌控。降價，只是因為成本真的降下來了。

而那些選擇漲價的企業，無論是主動還是被動，無意中暴露了一個更殘酷的事實：它們的技術棧和成本結構，根本不在自己手里。

這輪洗牌過后，大模型市場的定價權將發生轉移。

過去，價格由“我能買到的最優模型成本”來定義�，F在，價格由DeepSeek的自研模型成本來定義。當錨點已被砸到地板價，漲價的廠商會突然發現，手里的牌一張都打不出了。

百萬級token上下文的廉價處理能力，讓過去因成本懸置而無法落地的長文本分析、復雜Agent任務、橫跨多輪的記憶與規劃，都獲得了經濟可行性。這不是一個模型能力的突破，這是應用層即將大爆發的底層許可。

DeepSeek平臺及時打消了外界傳言“降價以應對競爭”的說法。“此次調整正是技術與規模效應形成正循環后，我們向市場自然傳導成本優勢。”這種表述，比任何反擊都更有力。

05

最后的話

回顧整件事，有一條更深的線索。

價格從來不只是數字，它是權力結構的物質外衣。當一個技術的定價權從供給方轉移到效率方手中，它意味著舊格局開始瓦解。

20世紀初，福特用流水線把汽車價格從富人玩具打到工人階層可承受的范圍，背后的力量不是慈善，是生產效率的代際躍遷。今天DeepSeek把大模型API價格打到同行的十分之一，性質是一樣的。誰掌握了最底層的效率，誰就掌握了定價權。誰掌握了定價權，誰就定義了下一個時代的基礎設施。

硅谷有一種廣為流傳的敘事：AGI將在某個實驗室被秘密誕生，然后單方面重塑世界。DeepSeek的實踐提供了一種更安靜的敘事：真正的權力轉移，不需要一次驚艷的跑分或一篇石破天驚的論文。它只需要讓技術報告里藏著一行小字，把成本打到所有人無法跟進的位置。然后用一個普通的周末，輕描淡寫地把價格表更新。

Token終將變為水電一樣的基礎資源。這句話說了好幾年，一直像愿景。直到這個周末，它突然變成了可以用0.025元買到的東西。

原文標題 : 漲價潮里，DeepSeek選擇了清場

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026�？怂箍荡杭井a品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號