美團(tuán)跑通國(guó)產(chǎn)算力萬億模型，探索始于2023年

LongCat團(tuán)隊(duì)對(duì)國(guó)產(chǎn)算力的探索始于2023年，是昇騰最大互聯(lián)網(wǎng)客戶之一。

文｜趙艷秋

編｜牛慧

昨晚一個(gè)消息各大平臺(tái)流轉(zhuǎn)，美團(tuán)發(fā)布并開源1.6萬億參數(shù)LongCat-2.0大模型，而其中最引人關(guān)注的，是它的完整訓(xùn)練和推理流程全部在國(guó)產(chǎn)算力集群上完成。大模型分為預(yù)訓(xùn)練、后訓(xùn)練、推理不同階段，其中預(yù)訓(xùn)練的難度大于后訓(xùn)練和推理。此前，國(guó)產(chǎn)芯片多用于大模型推理，這次則實(shí)現(xiàn)預(yù)訓(xùn)練。

這使LongCat-2.0成為首個(gè)在國(guó)產(chǎn)算力集群上跑通的萬億參數(shù)模型。此前最早在國(guó)產(chǎn)算力集群上跑通的千億級(jí)模型，是科大訊飛的訊飛星火 V3.5。

美團(tuán)官方并未點(diǎn)名具體型號(hào)。數(shù)智前線獲悉，LongCat-2.0在昇騰5萬卡集群上完成訓(xùn)練和推理全流程。在6月5日，美團(tuán)就攜LongCat-2.0預(yù)覽版，參加華為云首屆INSPIRE創(chuàng)想者大會(huì)，主推Coding和智能體功能。

01 為什么不是DeepSeek，而是美團(tuán)最先跑通？

數(shù)智前線獲悉，LongCat團(tuán)隊(duì)對(duì)國(guó)產(chǎn)算力的探索始于2023年，是昇騰最大的互聯(lián)網(wǎng)客戶之一。

一個(gè)有趣的問題是，為什么最先跑通的不是DeepSeek，而是美團(tuán)？這背后是一把手戰(zhàn)略選擇、企業(yè)定位、資源與商業(yè)等因素的綜合結(jié)果。

據(jù)媒體報(bào)道，DeepSeek今年推出的V4 模型，訓(xùn)練仍在英偉達(dá)與CUDA 生態(tài)上完成，推理則適配了華為昇騰等國(guó)產(chǎn)算力平臺(tái)。這或與DeepSeek的取舍有關(guān)，它要搶時(shí)間追前沿，也要考慮既有算力與軟件棧積累，優(yōu)先級(jí)是模型能力本身，護(hù)城河是訓(xùn)練效率。

在美團(tuán)方面，美團(tuán)與華為長(zhǎng)期保持緊密合作，是最早支持鴻蒙的企業(yè)之一，王興此前也公開表達(dá)過對(duì)華為自研芯片路線的支持。同時(shí)，作為場(chǎng)景驅(qū)動(dòng)的互聯(lián)網(wǎng)企業(yè)，出于供應(yīng)鏈安全考量，美團(tuán)在戰(zhàn)略上選擇用全國(guó)產(chǎn)算力跑通萬億模型訓(xùn)練。

數(shù)智前線獲悉，從2023年起，美團(tuán)團(tuán)隊(duì)逐步攻克算子適配、通信優(yōu)化、分布式穩(wěn)定性等基礎(chǔ)難題。核心要解決的，是如何在一個(gè)算法生態(tài)不夠豐富、顯存更小、顯存帶寬更窄國(guó)產(chǎn)芯片平臺(tái)上，把技術(shù)棧從零跑起來的系統(tǒng)工程問題。

以算子為例，訓(xùn)練側(cè)美團(tuán)自研了覆蓋Embedding、FA、LSA、MoE等多個(gè)確定性算子，并在數(shù)值可靠性上重寫一系列基礎(chǔ)算子以提升精度，長(zhǎng)上下文場(chǎng)景下還自研了確定性注意力算子與KL損失算子；推理側(cè)的Super Kernel、Weight Prefetch 同樣是算子層的適配。這些能力，在成熟的英偉達(dá)生態(tài)里通常可以直接拿到。

美團(tuán)在LongCat-2.0的介紹中，把“預(yù)訓(xùn)練在5萬余國(guó)產(chǎn)算力芯片上耗時(shí)月余完成，消費(fèi)超過 35萬億tokens，全程無回滾、無不可恢復(fù)的loss突刺”放在開頭，這也是強(qiáng)調(diào)其工程突破。

值得留意的是，其中一些技術(shù)是在同行既有實(shí)踐上優(yōu)化演進(jìn)而來。以LongCat稀疏注意力（LSA）為例，報(bào)告寫明它是“由DeepSeek稀疏注意力（DSA）演進(jìn)而來”。

02 國(guó)產(chǎn)算力芯片走向訓(xùn)練

此前，國(guó)產(chǎn)化芯片多用于模型推理，而在更難的模型訓(xùn)練環(huán)節(jié)，也在逐步實(shí)現(xiàn)突破。

2023年，科大訊飛與華為開啟大模型全棧國(guó)產(chǎn)化實(shí)戰(zhàn)，雙方成立了算力專項(xiàng)工作“聯(lián)合特戰(zhàn)隊(duì)”，華為投入幾百人團(tuán)隊(duì)、高峰時(shí)期曾有超過千名工程師在合肥訊飛總部聯(lián)合攻關(guān)。科大訊飛基于華為昇騰構(gòu)建了首個(gè)萬卡國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”，訊飛星火大模型均是基于華為昇騰算力訓(xùn)練完成。

2024年10月，科大訊飛宣布啟動(dòng)“飛星二號(hào)”，總規(guī)模為三萬卡級(jí)昇騰集群。今年6月，“飛星二號(hào)”前三期已全面投產(chǎn)商用，主攻MoE稀疏萬億級(jí)基座、超長(zhǎng)上下文、智能體強(qiáng)化學(xué)習(xí)等技術(shù)。

美團(tuán)在國(guó)產(chǎn)化算力上的探索也始于2023年。2026年6月正式發(fā)布基于國(guó)產(chǎn)算力的LongCat-2.0萬億參數(shù)模型。

阿里方面，平頭哥于2020年立項(xiàng)真武系列PPU，對(duì)標(biāo)英偉達(dá)GPGPU；2025年9月，央視新聞報(bào)道的三江源智算中心將阿里PPU萬卡集群曝光；2026年5月，平頭哥發(fā)布新一代訓(xùn)推一體PPU芯片真武M890。

百度方面，2025年4月，百度昆侖芯3.4萬卡集群點(diǎn)亮，并基于昆侖芯完成對(duì)文心5.1等重要版本的訓(xùn)練。目前，百度昆侖芯的IPO正在同步推進(jìn)“A+H”兩地上市，進(jìn)入關(guān)鍵階段。

寒武紀(jì)方面，數(shù)智前線曾向某采購(gòu)寒武紀(jì)芯片的互聯(lián)網(wǎng)大廠求證，寒武紀(jì)芯片未參與大模型訓(xùn)練，承擔(dān)模型推理工作。根據(jù)報(bào)道，寒武紀(jì)芯片上有部分行業(yè)模型完成訓(xùn)練。

由于具身智能相關(guān)模型參數(shù)較小、數(shù)據(jù)集比大語(yǔ)言模型也小得多，目前已成為國(guó)產(chǎn)芯片模型訓(xùn)練的新試驗(yàn)場(chǎng)。2026年1月，摩爾線程聯(lián)合北京智源研究院，使用其MTT S5000GPU構(gòu)建的千卡集群，完成具身大腦模型RoboBrain 2.5的全流程訓(xùn)練，參數(shù)量為80億。

理想汽車等車企也在自研芯片，用于訓(xùn)練支撐其具身智能應(yīng)用的VLA的具身模型。

從推理到訓(xùn)練，從萬億基座到具身小模型，國(guó)產(chǎn)算力正在多點(diǎn)跑通。不過，有智算中心人士告訴數(shù)智前線，期望更多國(guó)產(chǎn)芯片能跑通從模型訓(xùn)練到推理全流程，以將芯片能力更大限度盤活和應(yīng)用，但這確實(shí)需要有一定實(shí)力的芯片公司與應(yīng)用方的聯(lián)合攻堅(jiān)，將是一個(gè)逐步突破的過程。

原文標(biāo)題 : 美團(tuán)跑通國(guó)產(chǎn)算力萬億模型，探索始于2023年