新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

Deepseek 能否為中國節省 1 萬億美元?

2026-06-02 09:43
胡說成理
關注

2026 年下半年,英偉達將交付它迄今最強大的 AI 平臺:Vera Rubin VR200 NVL72。一個整機柜里塞進 72 顆 Rubin GPU 和 36 顆 Vera CPU。摩根士丹利估算,這臺機器的物料成本約為 780 萬美元。

這個數字已經夠嚇人了。但更值得盯住的,是它的錢花在了哪里。

在這 780 萬里,有大約 200 萬美元,既沒花在那顆舉世聞名的 GPU 芯片上,也沒花在運算核心上,而是花在了內存上——高帶寬顯存(HBM4)與普通內存(LPDDR5X)。僅僅一年之間,這部分內存的成本就因為漲價飆升了 435%。

這是一個信號。在 AI 這臺越來越貴的機器里,錢正在從“負責計算的零件”,大量流向“負責記憶和存儲的零件”。

請記住這個信號。因為這篇文章要講的 DeepSeek,做的恰恰是一件相反的事:所有人都被時代推著,為越來越貴的內存支付 AI 硬件溢價。而它在想辦法,在不削弱競爭力的前提下,通過軟硬件融合,讓這些昂貴的硬件提升 4 倍以上的 token 產能,也就是等效于節省了 75% 的硬件投資。

而這件事的盡頭,近來有一個猜想在被熱議——DeepSeek 能否通過自己的努力,為中國的 AI 基礎設施建設節省一萬億美元?

這真的可能嗎?

——導語

01 一萬億美元,是省出來的

剛才那張英偉達的報價單,是最近 AI 基建賬本里最硬的一筆錢。在當前供需格局下,你要買最先進的 AI 機器,就必須接受這張賬單。

DeepSeek 改變不了這件事。

它改變的是另一件事:同樣一臺機器,同樣那 200 萬美元的昂貴存儲硬件,究竟能吐出多少 Token。

這個問題,在 DeepSeek V4 發布之后,變得尤其具體。

V4 更值得關注的,不只是模型本身,而是它展示出的三板斧:第一,繼續壓縮“記性”,讓長上下文不再拖垮顯存;第二,按需喚醒“身體”,讓巨大的專家模型不必每次全員上陣;第三,把重復計算變成可復用資產,讓算過的上下文不再一遍遍燒錢。

圖片

這些技術的特性部分呈現一個突出的特點——它們在軟硬件協同上下了功夫,而非純軟件的優化。所以才有人用那個玩笑式的比喻——DeepSeek也許會成為中國最大的AI硬件公司。

它的模型頁顯示,在 100 萬 Token 上下文場景下,V4-Pro 相比上一代只需要 27% 的單 Token 推理算力和 10% 的緩存占用。本文里,我們取約等于四分之一算力這個值來算后面的賬。

傳統路線下,這些硬件只能支撐一份吞吐,而通過長上下文壓縮、按需激活、緩存復用與推理調度,DeepSeek 能讓同樣硬件的有效 Token 產出提升到四倍——那么成本不是被“砍掉”了,而是被攤薄了。原來 4 臺機器干的活,現在 1 臺也許就能干;原來每生成 1 個 Token 都要完整吃掉一份昂貴硬件成本,現在同一份硬件可以攤到 4 個 Token 上。

這就是 DeepSeek 真正厲害的地方:它沒有改變英偉達的報價,卻改變了英偉達機器在 AI 賬本里的產出率。這件事的意義,遠遠大過一次 API 降價。

而 1 萬億美元這個數量級,也不是憑空假設出來的。

麥肯錫 2026 年那份《計算的成本》報告給了一個具體的數:到 2030 年,全球數據中心為跟上算力需求,需要約 6.7 萬億美元的投資,其中專門處理 AI 負載的那部分,就要吃掉約 5.2 萬億美元。

換句話說,未來幾年里,全人類計劃砸向 AI 硬件的錢,是以萬億美元為單位計量的。

而這筆巨款中的很大一部分,會流向那部分最尖端、最稀缺的硬件——也就是 HBM 高帶寬顯存和LPDDR 內存。DeepSeek 正在做的,就是系統性地降低整個中國AI產業對這部分昂貴硬件的依賴。哪怕只壓低一部分,它替行業省下的,價值就將是萬億級的天文數字。

當中國的日均 Token 消耗從今天的一百多萬億,繼續推向數百、數千個萬億時,任何一點單位 Token 成本的下降,都會被放大成巨額的基建差額。假如同樣的吞吐真的可以用四分之一的硬件完成,那么在可見的未來,它就有可能為中國 AI 基建省下接近 1 萬億美元的算力硬件投資。

這是一道基礎設施賬:誰能讓同樣一筆剛性硬件開支生產出更多 Token,誰就在少建機房、少買 GPU、少堆顯存,誰就在重新分配未來 AI 的入場券。

那么,DeepSeek 是怎么做到的?答案是,它給大模型這臺機器,動了三刀。

02 兩個油老虎

一種流行的誤解是,大模型最燒錢的地方在于“思考”,在于運算。其實不是。

它真正的兩個油老虎,一個叫“記性”,一個叫“身體”。而它們燒的,是同一種最貴的燃料——高帶寬顯存(HBM),一種直接集成在 GPU 封裝體系內、速度極快也極昂貴的內存。

先說記性。大模型生成文字時有個笨拙的特點:每吐出一個新字,它都要回頭把前面的全部內容重看一遍。因為語言的意義是層層鋪墊出來的,后文該說什么,完全取決于前文已經鋪設了怎樣的語境。

這就像一位同聲傳譯員。他沒法只憑你的最后一句話就開口,而必須始終揣著你先前說過的一切——只有記著那些鋪墊,他才能聽懂此刻這句話真正的指向。你說得越久,他要記憶的就越多。

為了不在每個字上都從頭重算(那會慢到沒法用),模型會把已經算過的中間結果暫存起來。這份存檔叫 KV 緩存(Key-Value Cache,可理解為模型的短期記憶)。

麻煩在于,它會隨著對話變長而瘋狂膨脹。

舉個具體的數:按某一類標準結構估算,處理約十二萬字的上下文,光這份記性就可能吃掉 488GB 的高帶寬顯存。而英偉達即將交付的那顆頂級 Rubin GPU,單卡顯存是 288GB。也就是說,光存這一份記性,就要占滿將近一顆半、甚至接近兩顆最先進 GPU 的全部顯存——這時模型還沒真正開始干活。

再說身體。模型的“身體”,指它的參數權重,可以粗略理解為它全部知識與能力的載體。能力越強,身體往往越龐大,動輒上千億、上萬億個參數。

傳統的稠密模型(Dense Model,指處理任何輸入都要動用全部參數的模型)有個毛病:你不管問它什么,它都得把整個身體調動一遍。這就好比你去一家醫院只想看個牙,結果全院所有科室的醫生都被叫來,圍著你從頭到腳檢查一輪,最后才輪到牙科。荒唐,但費用照單全收。

這副龐大的身體,同樣得常駐在昂貴的高帶寬顯存里隨時待命。

記性和身體,這兩個油老虎,把整個硬件體系的價值分配,死死壓在那部分最貴、最稀缺、最受制于人的硬件上。而過去十幾年,行業的對策樸素而粗暴:算力不夠就堆,顯存不夠就再堆。于是產業的財富,高度淤積在這條最尖端的硬件鏈條上,最肥的利潤,卡在最稀缺的那一環。

Token 的價格,就這樣被一種硬件的稀缺性綁架了。而DeepSeek 的三刀,恰好刀刀都在松這道綁。

03 第一刀:在大腦上動刀

第一刀,落在“記性”上。而它下刀的位置,恰恰是整臺機器最不該碰、或說最沒人敢碰的地方——注意力機制(Attention,大模型用來理解上下文關聯的核心機制)。

注意力機制是大模型的大腦。它能讀懂上下文、能在長對話里抓住重點,全靠這套機制在每個字之間反復權衡關聯。前面那份昂貴的記性,正是這顆大腦每一次脈動留下的產物。

想省記性,又怕風險,所以幾乎所有人都選擇繞開這顆大腦,只在外圍動手。從 2019 年 Transformer 原作者之一 Noam Shazeer 提出的多查詢注意力(MQA),到 2023 年谷歌提出、被 Llama 等廣泛采用的分組查詢注意力(GQA),主流路線的思路始終是“讓多個查詢頭共用同一份記憶”——本質上是“少記幾份、湊合用”。省地方的效果驚人,但代價是模型質量打折。說白了,這條路線的共識始終是“妥協”:默認壓縮必然損傷質量,只在損傷多少之間討價還價。

DeepSeek 偏不妥協。它選擇直接在大腦上動刀,改造注意力機制本身。

它的方案叫多頭潛在注意力(MLA,Multi-head Latent Attention),最早出現在 2024 年的 DeepSeek-V2 里。打個比方:別的模型記筆記,是把每個細節原樣謄抄,寫滿好幾大本;MLA 則先把筆記提煉成一份高度濃縮的摘要,只存摘要,用時再據摘要把細節精準還原。術語上這叫“低秩壓縮”——把那些看似龐雜、實則高度冗余的記憶,投影進一個緊湊得多的空間里存放。

效果有多驚人?DeepSeek-V2 論文給出的結果是,相比上一代同門模型,V2 在能力更強的同時,訓練成本降低 42.5%,KV Cache 減少 93.3%,最大生成吞吐提升到 5.76 倍。前面那個吃掉 488GB 的例子,換成這一路線,就可能被壓到幾個 GB 的量級。

但真正牛的,不是省了多少,而是它幾乎沒付細節損失的代價。

按常理,把一本書壓成一頁摘要,再怎么還原也找不回所有細節了。可在 DeepSeek 公布的實驗里,這份壓縮版的記憶,效果不僅沒輸給“謄抄全本”的標準注意力,某些情況下還略好一點。

到 V4,這條路線又被推向了更極端的長上下文場景:V4-Pro 采用混合注意力架構,在 100 萬 Token 上下文設定下,相比上一代只需要 27% 的推理算力和 10% 的緩存占用。

要體會這有多難,得知道這是在一架飛行中的飛機上動手術。改注意力機制,意味著要重寫模型最底層的計算邏輯、重新訓練整個模型、重做支撐它運行的整套服務系統。任一環出錯,智能就崩了。這不是給輪胎換個氣嘴,是開顱手術。

而 DeepSeek 做到了,讓 AI 在術后比術前還健康。

04 第二刀與第三刀:給機器裝上編號的儲物柜

第一刀降伏了記性。第二刀,對付那個龐大的“身體”。

這一刀的思路,DeepSeek 不是首創,而是接續了一條清晰的老路:混合專家(MoE),指把模型拆成許多“專家”、每次只調用其中少數幾個的結構。

這個概念 1991 年就有了,2017 年由 Shazeer 等人引入神經網絡,隨后谷歌的 GShard、Switch Transformer 把它搬進 Transformer;真正讓它出圈的,是 2023 年底法國 Mistral 公司那個只甩了個種子鏈接就發布的 Mixtral 8x7B——總參數約 467 億,但處理每個字時只激活約 129 億。

回到那家“看牙卻驚動全院”的醫院。MoE做的,就是把它改造成一家分科明確的醫院:你來看牙,前臺直接把你引到口腔科,其余科室的醫生該干嘛干嘛。醫院的總人數照樣龐大,參數總量可以上千億、數千億,但每次真正出動的,只是其中很小一部分。

DeepSeek 在 V3 里把這條路線推到了相當激進的規模,到 V4 時代更夸張——V4-Pro 是 1.6 萬億總參數、490 億激活參數;V4-Flash 是 2840 億總參數、130 億激活參數。也就是說,模型的“總身體”繼續變大,但每一步真正動起來的部分,仍然被壓在很小的一塊。

但第二刀真正的巧思,不止于“少出動幾個醫生”。它順勢改造了模型存取這些“身體”的方式。

這里可以換一個更貼切的畫面。過去的大模型,像一個巨大卻毫無章法的儲物間:東西全堆在一起,每次哪怕只想取一樣,都得拉開大門,從最底層開始,把所有東西翻一遍才找得到。為了讓這種翻找足夠快以應付盈門的顧客,你只能把整個儲物間都搬進最貴的“市中心鋪面”——也就是高帶寬顯存里。

DeepSeek 把這個儲物間,改造成了一個有上萬個格子、每個格子都編了號的柜子。想用哪樣東西,按編號直接拉開對應的那個格子就行,絕不去碰其余的。這意味著,你再也不需要把整柜東西都堆在最貴的鋪面里了。絕大多數暫時用不上的格子,完全可以放進便宜得多的普通內存(LPDDR),甚至更便宜的固態硬盤里,要用時再快速調出那一格。圍繞這類卸載與流式加載,DeepSeek 生態和 SGLang 等開源推理系統都在持續探索。

到這里,三刀里頭兩刀的協同就出來了:第一刀把“記性”壓小,第二刀給“身體”編上號、只取該取的那一格。兩刀合起來,這臺機器在任一時刻,真正需要占用最貴顯存的部分,都被壓到了極低。

第三刀,則把這套“按編號取用”的邏輯推到了極致:連“運算”這個動作,能省則省。有些計算結果,其實可以提前算好、當成一個個編了號的格子存起來,用時直接取,而不必每次重算。就像背熟乘法口訣的人,不會每次掰手指算七乘八,而是張口報五十六。這等于用成本極低的“查取”(內存讀取),頂替成本極高的“硬算”(芯片運算)。

在 V4 里,這一刀有了更直接的商業化表達:緩存命中價被壓得極低,長上下文復用被直接寫進價格體系——重復計算不只是技術上可以省,商業上也被鼓勵去省。

三刀連起來看,它們不是三件孤立的事,而是同一套邏輯的層層遞進:把一個非翻不可的爛攤子,改造成一個事事都能按編號精準取用的系統。記性壓到最小,身體只喚醒該喚醒的,運算能查表就不重算。每一刀都讓這臺機器對最貴硬件的占用更小一點,三刀疊在一起,它跑同樣的活,對最尖端硬件的消耗,就只有從前的零頭。

圖片

05 便宜到什么程度

2026 年 5 月,DeepSeek 宣布將 V4-Pro 此前 75% 的折扣價轉為長期價格,把緩存命中、緩存未命中、輸出 Token 的價格拉開了巨大差距。緩存命中價之所以重要,是因為它把 DeepSeek 的第三刀直接變成了商業規則:算過的上下文,不該一遍遍按“新活”收費。

放到真實賬單里對比,落差才具體。按一個每月跑十億 token 的中等規模應用算,同樣的工作量:用 DeepSeek V4-Pro,月賬單約 522 美元;換成 Claude Opus 4.7,約 9000 美元;換成 GPT-5.5,約 1 萬美元。差距是十七到十九倍。

再看一個極端但常見的場景:一個長上下文編程助手,反復重讀一份 10 萬 Token 的代碼庫一百次。靠著便宜到幾乎免費的緩存命中,DeepSeek 這一趟只花約 0.036 美元;同樣的活,GPT-5.5 和 Claude Opus 4.7 都要約 5 美元——差出一百多倍。

這個價格低到爆,但它不是賠本賺吆喝,而是這臺改裝過的機器,本就跑得這么省——是中國人靠工程一點點摳出來的成本。兩年前梁文鋒談定價時說過,原則是“不貼錢,也不賺取暴利”。其實應該這么理解:當你的成本結構和別人根本不在同一條線上,你的定價自然也不在同一個區間。

當然,這場改裝并非穩賺不賠。比如把負載挪到便宜內存和硬盤,已有研究指出,頻繁搬運可能在耗電、延遲和調度復雜度上吃虧。某些情況下,每生成一個字的系統總成本未必更低,除非硬件、軟件棧和存儲介質都進一步優化。所以這三刀是一門火候極難拿捏的權衡,不是無腦省錢。但方向是確定的:用便宜的、自己更容易獲得的資源,去替換那個最貴、最被掐住喉嚨的資源。

06 把“一萬億”算成一筆看得見的賬

說了這么多“省”,不妨把它換成一個更直觀的畫面:少建多少座智算中心?

先看 Token 流量。國家口徑是,到 2026 年 3 月,中國日均 Token 調用量已經超過 140 萬億,相比 2024 年初增長了一千多倍。產業口徑上,單是豆包大模型,同月日均使用量也突破了 120 萬億。統計邊界雖不相同,但它們共同說明一件事:中國 AI 的 Token 消耗,已經進入百萬億級日常運行,并正在向千萬億級快速推進。所以,500 萬億 Token/日,可以看作不遠的下一站;而 5000 萬億 Token/日,則是智能體、多模態、代碼生成全面鋪開后的高流量情景。

在這個背景下,再看算力中心成本,DeepSeek 的價值才凸顯。2025 年,中國聯通在武漢開建千卡智算推理中心,首期投資近 2 億元。我們可以粗略把它視作一個千卡級推理中心的投資樣本:一座這樣的中心,大約 2 億元。

而按 DeepSeek V4 的效率提升來算,至少在它擅長的長上下文場景里,給出的變化已經不是百分之十幾的優化,而是數倍級別的硬件效率提升。我們不取最激進的口徑,而是取一個更保守、更容易理解的假設:V4 這套三板斧,讓同樣一批硬件的有效 Token 吞吐提升 4 倍。也就是說,原來要 4 座中心干的活,現在 1 座夠了,中間少掉 3 座,等于節省 75% 的等效硬件投資。

注意,DeepSeek 不是簡單少用存儲。恰恰相反,它是在善用存儲——用壓縮注意力、按需激活、緩存命中和推理調度,把最貴的 GPU 與顯存時間用得更狠。真正被省掉的,是同等 Token 吞吐下,本來還要額外購買的那部分硬件。

那么,一萬億美元對應什么?1 萬億美元約等于 7 萬億元人民幣。按每座千卡級推理中心 2 億元計算,7 萬億元相當于 3.5 萬座這樣的中心。如果 V4 路線帶來 4 倍有效吞吐提升,要少建 3.5 萬座這樣的等效中心,對應的日均 Token 流量,大約就是 5000 萬億。

這就是本文所說的“一萬億美元”所對應的產業圖景。這不是工程招標書里的精確核算,而是一筆基礎設施量級賬,對應的也是未來數年、而非當下就已兌現的流量情景。它真正要說明的是:在低調用量時代,效率提升省下的是幾張卡、幾個機柜;在數千個萬億 Token/日的時代,效率提升省下的,就是成千上萬座本該拔地而起的智算中心。

所以,DeepSeek 真正改變的不是某次調用的價格,而是未來 AI 基建的賬本。

圖片

07 它逆轉了一個危險的趨勢

現在,回到開頭那臺機器。還記得嗎?Vera Rubin 那 780 萬美元里,有 200 萬壓在內存上,而且這部分還在瘋狂漲價。這透露出一個危險的趨勢——整個行業的價值,被越來越多地、不健康地綁死在內存芯片上。而內存,本不該被推到這么貴。

很多人誤以為 DeepSeek 是在“順應”這個趨勢,因為它也在大量使用內存。恰恰相反,DeepSeek 是在逆轉它。老辦法是被動地、低效地吞噬硬件,把價值倒掛地堆在芯片上,任由內存被漲價潮推著走;DeepSeek 是先用三刀把對硬件的真實需求大幅壓低,再把剩下的少量需求,精明地分配給最便宜、最合適的那一檔存儲。前者是“被價格推著走”,后者是“先把賬算明白,再決定花在哪”。

這個區別,對中國格外重要。因為它把戰場,從一個我們處于劣勢的地方,挪到了一個我們更有勝算的地方。最尖端的算力芯片,我們暫時追不上。但內存這類存儲芯片,恰恰是中國今年實打實補上來的能力。

國產 DRAM 龍頭長鑫存儲,2026 年第一季度營收達到 508 億元,凈利潤約 250 億元,公司預計上半年凈利潤將達 660 億到 750 億元,相當于半年就賺到了字節跳動去年的全年凈利潤。雖然長鑫在全球 DRAM 市場仍然只是第四把交椅,但這塊過去幾乎為零的國產產能,今年終于支棱了起來。

而這,正是 DeepSeek 那三刀的戰略意義所在。這不是“用存儲替代算力”,而是降低對最稀缺算力的邊際依賴,并把一部分壓力轉移到更可獲得的存儲、緩存和系統工程上。當一臺 AI 機器更多倚重內存、緩存、調度和系統工程這些我們自己更有機會掌握的環節,中國現有的供應鏈,就突然從“處處受制”變得“夠用”,甚至“好用”。這極大地提升了整條鏈路的安全性。

結語

一個把“消滅低效”當本能的梁文鋒,不會滿足于讓某個模型便宜一點。他盯上的,是整個 AI 產業里最大的那處低效——“想要更強的智能,就必須依賴最尖端、最稀缺、最貴的硬件”這個被全行業當成天經地義的前提。

如果它能讓整個行業,用少得多的尖端硬件辦成同樣的事,它為行業憑空省下的,就是一座萬億量級的、虛擬的產能基地——不占一寸廠房,卻實實在在地釋放出本該砸進硬件的巨額投資。那個“一萬億”,于是不再是一個估值故事,而是一道基礎設施賬。

把 DeepSeek 寫成“用算法消滅英偉達”,是另一種廉價神話。但如果換一種問法,答案就有意思了:DeepSeek 有沒有可能讓行業少買一部分最貴的硬件,少占用一部分最稀缺的顯存,少支付一部分原本被認為天經地義的推理成本?有。它有沒有可能把 AI 基礎設施的價值,從單一的高端 GPU 敘事,重新分配到模型結構、推理系統、緩存管理、存儲調度和工程優化上?也有。這才是它真正的產業意義。

真正的技術革命,往往不是把一切變得更貴,而是讓過去只有少數人用得起的東西,突然變成大多數人也能負擔的日常基礎設施。從更大的維度看,這盤棋真正要緊的,從來不是省下了多少錢,而是省錢這件事,悄悄把通往未來的入場券,重新發到了需要被 AI 賦能的中國千行百業里。

(本文基于公開資料與行業討論梳理而成。文中部分前瞻判斷,如萬億量級的基礎設施替代價值、硬件能效的權衡、等效成本的換算等,屬于行業推演與爭議中的觀點,并非已成定論的事實,請讀者審慎看待。)

       原文標題 : Deepseek 能否為中國節省 1 萬億美元?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號