DeepSeek V4炸場背后：硅谷在“造墻”，中國在“修路”

2026-04-27 11:40

Alter聊IT

關(guān)注

4月24日上午，姍姍來遲的DeepSeek V4終于顯露真身。

當(dāng)天，DeepSeek-V4-Pro即登頂Hugging Face開源模型榜，兩個“核彈級創(chuàng)新”被津津樂道：

一是百萬級的超長上下文，但KV cache只有V3.2的10%，被亞馬遜工程師盛贊將解決HBM短缺問題；

二是對國產(chǎn)芯片的適配，在研發(fā)過程中與華為緊密合作，并第一時間適配了昇騰、寒武紀(jì)等國產(chǎn)芯片。

巧合的是，Hugging Face開源模型榜排名第二的，正是4月20日深夜發(fā)布并開源的Kimi K2.6。

如果是在太平洋對岸，兩個萬億參數(shù)模型的“撞檔”，免不了為了估值、商業(yè)版圖互相攻訐，國內(nèi)卻上演了截然不同的一幕：沒有互揭老底的戲碼、沒有暗流涌動的公關(guān)戰(zhàn)，甚至在技術(shù)底層進(jìn)行了“換防”。

“不尋常”的背后，暗藏了中美在AI技術(shù)路線上的分歧：硅谷瘋正在狂“豎起高墻”，試圖用閉源守住既得利益；國大模型廠商則選擇“拆掉圍墻”，在開源的土壤上走向了協(xié)同進(jìn)化。

01 硅谷深陷“權(quán)力的游戲”

不同于國內(nèi)大模型百花齊放的開源路線，OpenAI、Anthropic、谷歌Gemini為代表的硅谷AI頭羊，無不是閉源的擁躉。

當(dāng)前沿的技術(shù)創(chuàng)新被鎖死在各自的數(shù)據(jù)中心里，面對算力成本的重壓和資本市場的期待，以開放與協(xié)作著稱的“硅谷精神”漸漸消亡，玩家們不可避免地陷入了零和博弈的“權(quán)力游戲”。

過去兩年里，技術(shù)“暗戰(zhàn)”已經(jīng)演變成公開互撕，最典型的手段就是互相“搶風(fēng)頭”：在競爭對手發(fā)布新產(chǎn)品的關(guān)鍵節(jié)點(diǎn)，迅速拋出自家的重磅更新來遏制對方的聲量，已經(jīng)成為硅谷的常規(guī)操作。

早在2024年5月，OpenAI和谷歌就曾同時發(fā)布AI新品，一方說GPT-4o全球領(lǐng)先，一方說Gemini家族能覆蓋全生態(tài)全路徑。最后兩家公司的CEO都坐不住了，公開在社交媒體上嘲諷對方。

不只是和谷歌的“纏斗”，OpenAI與Anthropic的較量也進(jìn)入了白熱化：就在4月16日，Anthropic剛發(fā)布了新模型Claude Opus 4.7，OpenAI在兩個多小時后便宣布Codex大幅更新，喊出了“Codex for（almost) everything”的口號。明眼人都看得出來，時間上的撞檔絕非巧合，而是OpenAI針對Anthropic精心策劃的一場“狙擊”。

除了輿論場上的“文斗”，互相“揭老底”的“武斗”也成了硅谷的常態(tài)。

Anthropic在4月7日高調(diào)宣布年化收入達(dá)到300億美元，成功超越OpenAI的250億美元。

一個禮拜后，OpenAI首席營收官在給全體員工的內(nèi)部信中直言不諱地指出：Anthropic對外宣稱的300億美元年化營收存在嚴(yán)重水分，因?yàn)樗捎玫氖?ldquo;總額法”，把分給亞馬遜、谷歌等云服務(wù)商的抽成，也全額算進(jìn)了自己的總營收里，導(dǎo)致年化收入被高估了約80億美元。

內(nèi)部信中給對手拆臺的做法，在科技行業(yè)并不常見，目的無非是想告訴投資人——Anthropic的增長神話是注水的。

而一旦敵意滋生，會無孔不入地影響每一個決策。

Anthropic因拒絕刪除合同中的特定安全條款與五角大樓“鬧掰”后，OpenAI幾個小時后就高調(diào)宣布已與美國國防部達(dá)成合作。

在2026年的“超級碗”上，Anthropic重金投放了一條廣告，內(nèi)容是“廣告正在進(jìn)入AI領(lǐng)域，但不會進(jìn)入Claude。”可以說是對著剛開始測試廣告功能的OpenAI“貼臉開大”.......

為何昔日的“同門兄弟”，走到了水火不容的地步？

根源在于閉源商業(yè)模式的固有邏輯：閉源的生存根基在于構(gòu)建護(hù)城河，而構(gòu)建護(hù)城河的前提就是阻斷技術(shù)擴(kuò)散，壟斷最先進(jìn)的生產(chǎn)力。再加上技術(shù)路線不兼容、產(chǎn)品敘事對立，自然而然地形成了一個納什均衡：誰先“停火”，誰的品牌敘事就會坍塌，最終在內(nèi)耗的泥潭里越陷越深。

02 開源陣營的“協(xié)同進(jìn)化”

將視線轉(zhuǎn)回國內(nèi)，劇本的走向完全不同。

時間回到一年多前，DeepSeek-R1的橫空出世，為狂奔的大模型創(chuàng)業(yè)賽踩了一腳剎車，進(jìn)入決賽圈的大模型“六小虎”首當(dāng)其沖。和硅谷最大的區(qū)別，DeepSeek沒有扮演吃掉池子里所有魚的“鯊魚”，而是像鯰魚一樣激活了整個中國大模型生態(tài)，大家紛紛擁抱開源。

直接的例子就是和DeepSeek的成長軌跡高度重合的月之暗面都是2023年起步的初創(chuàng)團(tuán)隊，都保持著人數(shù)極少但人才密度極高的團(tuán)隊結(jié)構(gòu)，并且都是Scaling Law的堅定信徒。

2025年7月，月之暗面發(fā)布了全球第一個萬億參數(shù)的開源模型Kimi K2，在技術(shù)報告里毫不掩飾的說采用了DeepSeek開源的MLA架構(gòu)。對于大模型來說，處理超長文本最大的噩夢是顯存墻，而MLA架構(gòu)的顛覆性在于，巧妙將KV Cache的壓縮率做到了驚人的93%以上。

有了DeepSeek貢獻(xiàn)的“業(yè)界標(biāo)準(zhǔn)”，月之暗面在內(nèi)的大模型團(tuán)隊不需要重復(fù)造輪子，快速降低了推理成本。

故事并未止步于此。

翻看DeepSeek V4的技術(shù)文檔，詳細(xì)描述了模型的架構(gòu)，其中一個重要升級是把大部分模塊的優(yōu)化器從AdamW換成了Muon，實(shí)現(xiàn)了更快的收斂速度、更優(yōu)的訓(xùn)練穩(wěn)定性。

在Kimi K2.6的技術(shù)文檔中，同樣提到了Muon優(yōu)化器，在相同的訓(xùn)練量下實(shí)現(xiàn)了2倍的效率提升。

兩個模型都提到的Muon優(yōu)化器，最早由獨(dú)立研究者Keller Jordan在2024年底的博客里提出。同樣被AdamW困擾的月之暗面團(tuán)隊，在2025年初對Muon進(jìn)行了關(guān)鍵的工程化改進(jìn)，增加了Weight Decay、RMS控制等能力，并命名為MuonClip。

月之暗面在Kimi K2上率先驗(yàn)證了Muon優(yōu)化器的穩(wěn)定性，實(shí)現(xiàn)了預(yù)訓(xùn)練全程“零Loss Spike”。DeepSeek在訓(xùn)練V4大模型時，同樣采用了被驗(yàn)證過的Muon優(yōu)化器。

需要說明的是，開源大模型的“協(xié)同進(jìn)化”并未陷入同質(zhì)化，正在走向一條“和而不同”的道路。

比如DeepSeek-V4聚焦基礎(chǔ)模型的核心能力攻堅，進(jìn)一步筑牢了全球開源大模型的性能天花板，為全行業(yè)提供了性能比肩閉源旗艦的基礎(chǔ)底座；Kimi K2.6深耕Agent工程化落地，解決了大模型長程自主執(zhí)行的痛點(diǎn)，為大模型進(jìn)入真實(shí)生產(chǎn)場景打通了關(guān)鍵路徑。

整個過程中，沒有曠日持久的商業(yè)談判，沒有劍拔弩張的專利博弈。在開源陣營里，技術(shù)創(chuàng)新正在像水一樣自由流動，誰做得好，大家就用誰的。

在開源生態(tài)中汲取養(yǎng)分，在技術(shù)路線上互補(bǔ)。中國的大模型廠商，用行動向世界示范了硅谷之外的另一種可能。

03 美國在“造墻”，中國在“修路”

贊嘆開源協(xié)同進(jìn)化的同時，必須直面一個商業(yè)現(xiàn)實(shí)。

目前OpenAI和Anthropic的年化收入均達(dá)到了百億美元以上，而國內(nèi)頭部大模型廠商的營收，剛跨過年化一億美元的大門。

OpenAI在二級市場的估值約8800億美元，Anthropic的估值已經(jīng)飆升到了1萬億美元左右，而Kimi和DeepSeek新一輪融資的估值，分別為180億美元和200億美元。

有人高呼中國大模型廠商的市值被低估了，也有人認(rèn)為：“能否將技術(shù)口碑轉(zhuǎn)化為真金白銀，是擺在中國廠商面前的生死大考。”一時間，關(guān)于開源“性價比”的討論甚囂塵上。

想要看清終局，或可以從大模型的競爭階段著手：

第一階段是“拼參數(shù)、拼Benchmark”。到了2026年4月末，這個階段基本結(jié)束，各家在榜單上的跑分已經(jīng)拉不開實(shí)質(zhì)性差距。

第二階段是“拼訓(xùn)練效率、拼推理成本、拼架構(gòu)創(chuàng)新”。正是當(dāng)下所處的賽段，也是算力成本倒逼下的必然結(jié)果。

第三階段將是“拼Agent體系、拼生態(tài)、拼開發(fā)者”。當(dāng)Token從免費(fèi)流量變成執(zhí)行任務(wù)的“燃料”時，生態(tài)的繁榮度將決定生死。

國內(nèi)的開源大模型處于什么生態(tài)位呢？我們找到了兩組直觀的對比數(shù)據(jù)。

一個是訓(xùn)練成本。

2025年8月發(fā)布的GPT-5，訓(xùn)練成本超過5億美元；同期的Kimi K2 Thinking，訓(xùn)練成本約460萬美元；DeepSeek沒有公布V4系列模型的訓(xùn)練成本，但V3模型僅花費(fèi)了557.6萬美元......國內(nèi)大模型廠商只用了不到OpenAI零頭的資源，訓(xùn)練出了同等水平的模型。

另一個是調(diào)用量。

進(jìn)入2026年后，多模型聚合平臺OpenRouter的數(shù)據(jù)顯示：在OpenClaw代表的Agent產(chǎn)品的帶動下，全球的Token消耗量呈現(xiàn)出了指數(shù)級增長，中國的“開源夢之隊”，憑借“好用又便宜”的口碑，調(diào)用量已經(jīng)連續(xù)多周超越美國。

原因并不難解釋。

中國開源陣營已經(jīng)跑通了“正反饋飛輪”：A公司開源底層技術(shù)，B公司采用并進(jìn)行工程優(yōu)化，再將優(yōu)化的結(jié)果和經(jīng)驗(yàn)反哺給整個生態(tài)。如果說閉源模型的進(jìn)化是建立在海量算力堆砌上的線性增長，等待開源路線的，將是技術(shù)創(chuàng)新相互碰撞帶來的指數(shù)級擴(kuò)散。

按照摩根大通的研報，2025-2030年間中國AI推理token消耗量將實(shí)現(xiàn)約330%的年復(fù)合增長率，將從2025年的10萬億token，激增至2030年的3900萬億token，增長規(guī)模達(dá)370倍。

也就是說，2026年仍處于AI爆發(fā)的初期，未來5年里還有數(shù)百倍的增長機(jī)會，遠(yuǎn)未到蓋棺定論的時候。

恰恰是對長遠(yuǎn)機(jī)會的自信，在硅谷巨頭們拼命造墻時，中國的大模型廠商選擇用協(xié)同補(bǔ)位的方式，不斷夯實(shí)通往AGI的路。

04 寫在最后

這場轟轟烈烈的AI浪潮，誰會笑到最后？答案不僅關(guān)乎模型，還關(guān)系到算力的自主可控。如果把模型比作“原子彈”的話，擺脫外部技術(shù)封鎖的國產(chǎn)算力，就是將原子彈送上天的“火箭”。

讓人欣慰的是，國產(chǎn)模型和國產(chǎn)算力的融合越來越緊密：DeepSeek V4的技術(shù)文檔中，將昇騰NPU與英偉達(dá)GPU并列寫入了硬件驗(yàn)證清單；月之暗面在最新的論文中將大模型推理的預(yù)填充和解碼運(yùn)行在了不同芯片上，為國產(chǎn)芯片大規(guī)模參與模型推理打開了大門。

2025年初，DeepSeek R1為國產(chǎn)大模型爭取到了上牌桌的機(jī)會；到了2026年，中國的開源大模型陣營，正在協(xié)同合作中不斷創(chuàng)造更多定義牌桌規(guī)則的硬資本。

原文標(biāo)題 : DeepSeek V4炸場背后：硅谷在“造墻”，中國在“修路”