開個腦洞：如果DeepSeek和Kimi們合并

2026-04-29 17:01

錦緞

關注

1854年，倫敦。邁克爾·法拉第在皇家研究所的地下室中撒下鐵屑，輕敲紙板。鐵屑在看不見的磁場里排列成優美的弧線，他將這些弧線稱為“力線”，一種全新的物理學語言就此誕生。

同年秋，威廉·湯姆遜在格拉斯哥大學寫下一組偏微分方程，用嚴密的數學語言重寫法拉第的直覺，把“場”納入牛頓力學的分析框架。湯姆遜相信，唯有方程，才能讓自然規律被真正理解。

這兩種理解世界的方式，在整個維多利亞時代既競爭又互哺，讓電磁學在半個世紀內完成了三級跳——從實驗室猜想，到數學精確描述，再到工程化——最終催生麥克斯韋方程組，成為第二次工業革命的基石。

一個半世紀后，相似的劇本在中國AI領域悄然重演。

2026年4月20日，月之暗面發布Kimi K2.6。四天后的4月24日，DeepSeek開源V4。兩個萬億參數級開源模型在同一周落地，包攬全球權威開源模型榜單前兩名。這是兩家公司在過去16個月里又一次技術路線迎頭相撞。

技術撞車撞到第N次，單純的比較已然疲乏。就在日前，X上出現了一則好玩的提問，配著一張梗圖：如果DeepSeek和Kimi等中國開源公司合并，OpenAI和Anthropic CEO會是什么反應？

仔細想想，在中國互聯網史上，其實這一追問并不突兀。從2012年優酷與土豆的世紀聯姻起，每隔幾年，同一賽道的前兩名便會在資本與巨頭的意志推動下，從相殺走向相愛，把內耗轉為合力，去應對外部更大的戰場。

DeepSeek與Kimi們會走進這條河流嗎？我們今天就開個腦洞：假如它們真的合并，會發生什么？

01技術互嵌：一個平視硅谷的全棧底座

DeepSeek與Kimi們技術路線的高度互嵌，是探討合并假設的基本前提。假設合并，第一個產物就是一個覆蓋“訓練—推理—部署—應用”全鏈條的模型平臺。

首先，DeepSeek與Kimi們在架構層面的互嵌已深入骨髓。

DeepSeek在V3中首創的MLA注意力機制，通過低秩壓縮大幅削減KV緩存占用，解決的是長文本推理中“內存即成本”的根本困境。2025年7月，Kimi發布萬億參數開源模型K2，直接采用MLA并將其擴展至萬億參數規模，證明這條技術路線規模化可行。

到2026年4月，劇本反轉。DeepSeek發布V4，一項關鍵升級是用二階優化器Muon替換沿用十年的Adam優化器。Muon的有效性，正是Kimi在K2訓練中首次在萬億參數規模上驗證，并由Kimi團隊系統性地公開了技術經驗。

其次，在能力層面，它們分工清晰、價值有很多互補的地方。

DeepSeek V4把單token推理算力壓至V3.2的27%，KV緩存壓縮至十分之一，百萬token上下文從技術演示變為普惠基礎設施。Kimi K2.6則聚焦長程任務執行與Agent集群，支持300個子Agent并行協作、4000次工具調用、13小時不間斷編碼。OpenRouter數據顯示，K2.6發布后躍居調用榜首，DeepSeek緊隨其后，兩家同時進入全球前五。

多模態方面，Kimi K2.6是全球開源前五中唯一支持圖片與視頻理解的模型；DeepSeek在高階推理、數學與代碼評測中持續領先。二者在這一領域存在高度互補性。

最后，再硬件生態上，這兩家的選擇高度一致。

DeepSeek V4明確下半年將支持華為昇騰950，技術棧不再只依賴英偉達CUDA，而是開始同步支持華為。Kimi模型采用對國產芯片更友好的INT4量化技術，新發布的Prefill-as-a-Service技術更是支持國產芯片和已有英偉達芯片，降低對CUDA生態的依賴。如果是一家公司的話，在國產模型和國產算力的對接上會更有效率。

以上三個層面合在一起看，DeepSeek在過去一個時期側重解決“模型夠不夠便宜”，Kimi則側重解決“模型能不能干重要的事”。合并后的平臺將因此同時具備極致推理效率與深度生產力嵌入能力，可以直接對標OpenAI與Anthropic的閉源模型加產品矩陣。

技術互補是現象。更根本的原因在于人。DeepSeek與Kimi的兩位創始人都信奉第一性原理，底層思維如出一轍。

梁文鋒的底色，是一位量化工程師。他浙大畢業，沒有留學背景，扎進量化投資靠算法交易完成資本積累，再投入AGI研究。這條路教會他一件事：把問題拆解到底層，重新計算每個環節是否冗余，用最少資源達成同樣結果。他選擇開源的理由也源于同一邏輯——“在顛覆性的技術面前，閉源形成的護城河是短暫的。”語氣平淡，邏輯鋒利。

楊植麟的底色，是一位可計算學派的篤信者。清華本科，CMU博士，求學期間以Transformer-XL等工作建立學術聲望。他用六個字定義大模型的本質：“壓縮產生智能。”在他看來，只要找到更優的壓縮方式，用更少的token表達同等信息密度，就能在算力受限下持續逼近更高智能。他以等差數列作比：一萬個數字，最理想的壓縮只存儲規律和首尾兩項，其余皆可還原。他要找的，就是大模型里的那條“等差規律”。

一個用工程逼近極限，一個用邏輯逼近本質，殊途同歸。這正是DeepSeek與Kimi技術互嵌所以發生的根由。

一項產業事實正在浮現：它們正在共同構建一套標準開源技術棧——MoE架構、MLA注意力、Muon優化器、多模態能力、Agent框架、國產芯片適配。開源模型在實際調用量快速提升，說明這套技術棧正在成為中國大模型的事實標準。

也就是說，假如DeepSeek與Kimi們合并，誕生一個平視OpenAI與Anthropic的全棧技術底座只是下限。兩種計算精神的深度碰撞，將大幅推升大模型開源世界的進化速率。

02商業合流：算力、收入與出海的敘事主權

技術互嵌已然夠深。但如果只停在技術層，合并的價值只兌現一半。兩家公司面臨的商業瓶頸高度一致：算力不足，收入體量偏小，全球化敘事分散。

先看算力。DeepSeek在V4定價說明中寫了一句：“受限于高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批量上市后價格會大幅下調。”Kimi內部則流傳一個說法：“制約業務發展的只有算力，現在至少還有10倍的需求沒有被滿足。”

合并之后，芯片采購、機房建設、國產適配的投入不再重復，對英偉達、華為等供應商的議價能力隨之提升。更重要的是，統一技術棧意味著國產芯片只需適配一套標準，生態碎片化成本大幅壓縮。

再看收入。Kimi K2.5發布后20天內收入超過2025年全年，海外收入已超越國內，付費用戶月環比增速超過170%。K2.6發布時，API輸入價格從每百萬token 4元提至6.5元，漲幅58%，這是K2系列上線以來的首次漲價。DeepSeek則以“價格屠夫”著稱，V4 Pro輸入每百萬token 12元人民幣，到5月結束之前還限時打2.5折，僅3元。極致低價快速俘獲了開發者，也壓縮了盈利空間。

如果采用統一價格體系、持續且合理的成本下沉，有助于中國開源模型從互相壓價轉向協同定價，在國際市場建立更穩固的價值錨點。

出海方面，Cursor套殼Kimi K2.5，Cloudflare引入Kimi作為主力模型，Perplexity將Kimi列為唯一引入的中國模型，日本樂天基于DeepSeek開發Rakuten AI 3.0。兩家在海外已各自建立了初步的用戶心智據點。

合并后，統一品牌和開發者關系將降低海外認知成本，避免兩個中國開源模型在同一生態位上彼此消耗。一個更強的統一品牌，在海外市場與云服務商、芯片廠商和頂級企業客戶談判時，議價空間和合作條款的主動權將完全不同。

03人才棋局：以長期技術愿景凝聚頂尖研究者

DeepSeek與Kimi是中國AI創業賽道中人數最精簡、人才密度最高的兩家公司，也都承受著大廠精準的挖角壓力。

過去一年，DeepSeek被系統性挖走了至少五位核心成員，覆蓋了基座模型、推理、OCR、多模態四條核心技術線。Kimi在2025年年中經歷長達半年的技術靜默期，同樣遇到員工流失。

兩家團隊的技術氣質也很相似。雙方都重視底層關鍵技術的研究：DeepSeek脫胎于幻方量化，工程優化與成本控制文化濃厚；Kimi由清華與CMU學術背景的研究者主導，學術探索與前沿創新氛圍濃厚。

假設得以合并，將形成覆蓋量化工程、學術研究、產品落地的復合型團隊，在優化器、注意力機制、殘差連接等底層領域的研究深度，可以更好的與OpenAI和Anthropic的研究部門正面抗衡。

一個更大的合并平臺，能為頂尖研究者提供更具吸引力的股權空間與長期技術愿景。當公司體量接近或超過OpenAI與Anthropic的估值水平時，被字節、騰訊、阿里以高薪逐個擊破的風險將顯著降低。

這也是合并假設的一個重要隱喻：大模型創業總要面對人才掐尖的現實。與其讓大廠一顆顆拔掉核心棋子，不如把棋盤做大。

04資本拼圖：消弭技術實力與商業估值之間的巨大折價

從資本層面看，兩家公司的融資節奏同樣呈現清晰的互補性。

DeepSeek此前從未引入外部資金。2026年4月首次開啟外部融資，估值從最初至少100億美元一路飆升至超200億美元。融資這扇門被推開，意味著外部環境的壓力已超過對內部獨立性的堅持。

Kimi則在2025年末至2026年初完成三輪融資，估值從43億美元躍升至180億美元。3月26日，彭博報道月之暗面正在考慮赴港IPO，同步進行一輪最高10億美元的融資。

兩家的資本畫像由此形成對照：一方初次向外開放，但估值中樞模糊；一方已證明付費模式的可行性，但同樣被算力資源鉗制了規模。這種互補性，構成了合并談判桌上關于估值空間博弈最具分量的籌碼。

合并后的估值，則要從全球AI定價坐標中尋找參照。截至2026年4月，OpenAI投后估值已逾8500億美元，Anthropic一級市場估值達3800億美元（最近在未上市股權交易平臺的價格甚至炒到突破1萬億美元，反超了OpenAI）。反觀DeepSeek與Kimi，即便將雙方當前估值簡單相加，也不及Anthropic的二十分之一。

懸殊的差距背后，映射的正是兩家公司因各自受制于技術棧、資源能力與商業模式的不完整性，其技術實力與商業估值之間的巨大折價。

05統一牌桌：從開源模型攪局者到規則制定者

在全球AI格局中，中國開源模型已成衡量全球硬件進步的標尺。一如Meta最新模型Muse Spark的官方博客中，對比基準直接列出DeepSeek與Kimi；再如黃仁勛在英偉達2026年GTC演講中，用DeepSeek R1和Kimi K2.5展示下一代Blackwell Ultra芯片性能

但海外開發者社區面對的是一個“中國開源模型群像”，而非一個清晰品牌。統一品牌、統一API、統一技術路線圖，將大幅降低全球開發者的認知與遷移成本。

具體到DeepSeek與Kimi，二者的雙頭并進帶來了關注同時，也存在顯著的戰略敘事的分散與模糊問題。合并有機會將中國開源模型的聲音集中為一個更清晰的品牌。

此外在生態對抗層面，硅谷正在快速走向封閉。OpenAI不再公布訓練細節，Anthropic與Google的核心方法諱莫如深。Meta雖以Llama系列維持開源敘事，技術透明度已遠不及中國公司。

DeepSeek與Kimi的技術報告與開源代碼，構成了全球開源社區最重要的公共知識資產。多次技術撞車，表面是競爭，內里是開源生態的正向循環。這種技術擴散，在硅谷頭部公司之間幾乎不可能發生。合并后，這種協同將從暗中的默契轉化為明面的體系，對全球開發者的吸引力將進一步放大。

定價權層面，兩家中國公司各自為戰時，實質上在互相壓低對方的商業價值。統一價格體系與開發者生態，中國開源模型才能真正從攪局者轉變為規則制定者。

06難以逾越的高墻：假設很美好，但合并幾乎不可能

邏輯推到最后一步，必須面對一個事實：合并幾乎不可能發生，我們只是開個腦洞。

首先，創始人獨立性是第一堵墻。梁文鋒與楊植麟都是技術基因極強的創始人，各自帶出一支戰斗力飽滿的團隊。DeepSeek此前完全不拿外部融資，靠幻方量化自有資金燒至今日。梁文鋒的獨立性，投資圈有目共睹。一位接近他的人評價：“這不是一個出得起價就能進的標的，錢在梁文鋒的篩選標準里，是最不重要的那一項。”楊植麟在三個月內將公司從估值低谷拉升至180億美元，經歷了完整的V型反轉。

兩個廣東人，相差八歲。一個從量化圈殺出，一個在學術界登頂。要讓任何一方在合并中屈居次要地位，幾乎無望。

其次，股東利益難以協調。騰訊參與Kimi多輪投資，又正接觸DeepSeek；阿里同時出現在兩家投資名單中。大廠的戰略投資，本質是兩邊下注，而非促成一家獨大。若強行推動合并，騰訊與阿里在AI賽道的布局靈活性將被大幅削弱。更關鍵的是，DeepSeek此前從未引入外部資本，梁文鋒對公司的控制權近乎絕對。Kimi方面已歷經多輪融資與多元股東，治理結構遠比DeepSeek復雜。

更關鍵的是，監管審查可能不會放行。兩家合并后或將占據中國開源模型的主導地位，開源賽道上的其他獨立大模型公司或將被瞬間邊緣化。反壟斷審查即成難以逾越的一關。中國AI所需要的，是一個健康的競爭生態，而非一個開源領域的巨頭。

另外還有一條更深層的原因。競爭本身就是最高效的創新機制。回看這16個月，多次技術撞車恰恰印證：競爭加速創新。這種追趕若變成一家公司的內部迭代，反而可能喪失外部壓力催生的緊迫感。硅谷的OpenAI與Anthropic也在互相刺激，雖然閉源，競爭邏輯并無二致。

開源生態的多樣性遠比統一性重要。全球開源模型需要多條技術路線并存，一旦中國只剩一家開源巨頭，技術路線一旦走偏，整個中國開源生態便有傾覆之險。多一棵樹，便多一份抗風險的能力。

07結語：競爭即進化

百余年產業史反復驗證著一條規律：最強大的系統，并非將所有零件塞入同一臺引擎，而是讓不同的引擎在同一片海域中互為燈塔。產業真正的成熟，不是所有公司合并成一個巨無霸，而是多家公司在競爭中相互學習、共同進化，最終形成比任何單一公司都更強大的生態力量。

全球AI競爭已從單一技術比拼升維為生態對抗。在這場對抗中，中國不需要一個開源領域的超級巨頭，而需要幾座相互映照的高峰。它們是對手，亦是彼此最好的參照系。

一如法拉第的力線與湯姆遜的方程，一個用直覺觸摸世界的形狀，一個用邏輯推演真理的骨骼，最終在麥克斯韋方程處合流，卻從不曾合并為一人。它們各自獨立，才讓彼此的光芒有了可被丈量的參照。

在通往AGI的漫漫長路上，單槍匹馬或許能走得很快；但只有那些愿意與同行者分享火種的隊伍，才能穿越大雪封山的無人區。

原文標題 : 開個腦洞：如果DeepSeek和Kimi們合并