
LongCat團(tuán)隊(duì)對(duì)國(guó)產(chǎn)算力的探索始于2023年,是昇騰最大互聯(lián)網(wǎng)客戶之一。
文|趙艷秋
編|牛慧
昨晚一個(gè)消息各大平臺(tái)流轉(zhuǎn),美團(tuán)發(fā)布并開源1.6萬億參數(shù)LongCat-2.0大模型,而其中最引人關(guān)注的,是它的完整訓(xùn)練和推理流程全部在國(guó)產(chǎn)算力集群上完成。大模型分為預(yù)訓(xùn)練、后訓(xùn)練、推理不同階段,其中預(yù)訓(xùn)練的難度大于后訓(xùn)練和推理。此前,國(guó)產(chǎn)芯片多用于大模型推理,這次則實(shí)現(xiàn)預(yù)訓(xùn)練。
這使LongCat-2.0成為首個(gè)在國(guó)產(chǎn)算力集群上跑通的萬億參數(shù)模型。此前最早在國(guó)產(chǎn)算力集群上跑通的千億級(jí)模型,是科大訊飛的訊飛星火 V3.5。
美團(tuán)官方并未點(diǎn)名具體型號(hào)。數(shù)智前線獲悉,LongCat-2.0在昇騰5萬卡集群上完成訓(xùn)練和推理全流程。在6月5日,美團(tuán)就攜LongCat-2.0預(yù)覽版,參加華為云首屆INSPIRE創(chuàng)想者大會(huì),主推Coding和智能體功能。
01 為什么不是DeepSeek,而是美團(tuán)最先跑通?
數(shù)智前線獲悉,LongCat團(tuán)隊(duì)對(duì)國(guó)產(chǎn)算力的探索始于2023年,是昇騰最大的互聯(lián)網(wǎng)客戶之一。
一個(gè)有趣的問題是,為什么最先跑通的不是DeepSeek,而是美團(tuán)?這背后是一把手戰(zhàn)略選擇、企業(yè)定位、資源與商業(yè)等因素的綜合結(jié)果。
據(jù)媒體報(bào)道,DeepSeek今年推出的V4 模型,訓(xùn)練仍在英偉達(dá)與CUDA 生態(tài)上完成,推理則適配了華為昇騰等國(guó)產(chǎn)算力平臺(tái)。這或與DeepSeek的取舍有關(guān),它要搶時(shí)間追前沿,也要考慮既有算力與軟件棧積累,優(yōu)先級(jí)是模型能力本身,護(hù)城河是訓(xùn)練效率。
在美團(tuán)方面,美團(tuán)與華為長(zhǎng)期保持緊密合作,是最早支持鴻蒙的企業(yè)之一,王興此前也公開表達(dá)過對(duì)華為自研芯片路線的支持。同時(shí),作為場(chǎng)景驅(qū)動(dòng)的互聯(lián)網(wǎng)企業(yè),出于供應(yīng)鏈安全考量,美團(tuán)在戰(zhàn)略上選擇用全國(guó)產(chǎn)算力跑通萬億模型訓(xùn)練。
數(shù)智前線獲悉,從2023年起,美團(tuán)團(tuán)隊(duì)逐步攻克算子適配、通信優(yōu)化、分布式穩(wěn)定性等基礎(chǔ)難題。核心要解決的,是如何在一個(gè)算法生態(tài)不夠豐富、顯存更小、顯存帶寬更窄國(guó)產(chǎn)芯片平臺(tái)上,把技術(shù)棧從零跑起來的系統(tǒng)工程問題。
以算子為例,訓(xùn)練側(cè)美團(tuán)自研了覆蓋Embedding、FA、LSA、MoE等多個(gè)確定性算子,并在數(shù)值可靠性上重寫一系列基礎(chǔ)算子以提升精度,長(zhǎng)上下文場(chǎng)景下還自研了確定性注意力算子與KL損失算子;推理側(cè)的Super Kernel、Weight Prefetch 同樣是算子層的適配。這些能力,在成熟的英偉達(dá)生態(tài)里通常可以直接拿到。
美團(tuán)在LongCat-2.0的介紹中,把“預(yù)訓(xùn)練在5萬余國(guó)產(chǎn)算力芯片上耗時(shí)月余完成,消費(fèi)超過 35萬億tokens,全程無回滾、無不可恢復(fù)的loss突刺”放在開頭,這也是強(qiáng)調(diào)其工程突破。
值得留意的是,其中一些技術(shù)是在同行既有實(shí)踐上優(yōu)化演進(jìn)而來。以LongCat稀疏注意力(LSA)為例,報(bào)告寫明它是“由DeepSeek稀疏注意力(DSA)演進(jìn)而來”。
02 國(guó)產(chǎn)算力芯片走向訓(xùn)練
此前,國(guó)產(chǎn)化芯片多用于模型推理,而在更難的模型訓(xùn)練環(huán)節(jié),也在逐步實(shí)現(xiàn)突破。
2023年,科大訊飛與華為開啟大模型全棧國(guó)產(chǎn)化實(shí)戰(zhàn),雙方成立了算力專項(xiàng)工作“聯(lián)合特戰(zhàn)隊(duì)”,華為投入幾百人團(tuán)隊(duì)、高峰時(shí)期曾有超過千名工程師在合肥訊飛總部聯(lián)合攻關(guān)。科大訊飛基于華為昇騰構(gòu)建了首個(gè)萬卡國(guó)產(chǎn)算力平臺(tái)“飛星一號(hào)”,訊飛星火大模型均是基于華為昇騰算力訓(xùn)練完成。
2024年10月,科大訊飛宣布啟動(dòng)“飛星二號(hào)”,總規(guī)模為三萬卡級(jí)昇騰集群。今年6月,“飛星二號(hào)”前三期已全面投產(chǎn)商用,主攻MoE稀疏萬億級(jí)基座、超長(zhǎng)上下文、智能體強(qiáng)化學(xué)習(xí)等技術(shù)。
美團(tuán)在國(guó)產(chǎn)化算力上的探索也始于2023年。2026年6月正式發(fā)布基于國(guó)產(chǎn)算力的LongCat-2.0萬億參數(shù)模型。
阿里方面,平頭哥于2020年立項(xiàng)真武系列PPU,對(duì)標(biāo)英偉達(dá)GPGPU;2025年9月,央視新聞報(bào)道的三江源智算中心將阿里PPU萬卡集群曝光;2026年5月,平頭哥發(fā)布新一代訓(xùn)推一體PPU芯片真武M890。
百度方面,2025年4月,百度昆侖芯3.4萬卡集群點(diǎn)亮,并基于昆侖芯完成對(duì)文心5.1等重要版本的訓(xùn)練。目前,百度昆侖芯的IPO正在同步推進(jìn)“A+H”兩地上市,進(jìn)入關(guān)鍵階段。
寒武紀(jì)方面,數(shù)智前線曾向某采購(gòu)寒武紀(jì)芯片的互聯(lián)網(wǎng)大廠求證,寒武紀(jì)芯片未參與大模型訓(xùn)練,承擔(dān)模型推理工作。根據(jù)報(bào)道,寒武紀(jì)芯片上有部分行業(yè)模型完成訓(xùn)練。
由于具身智能相關(guān)模型參數(shù)較小、數(shù)據(jù)集比大語(yǔ)言模型也小得多,目前已成為國(guó)產(chǎn)芯片模型訓(xùn)練的新試驗(yàn)場(chǎng)。2026年1月,摩爾線程聯(lián)合北京智源研究院,使用其MTT S5000GPU構(gòu)建的千卡集群,完成具身大腦模型RoboBrain 2.5的全流程訓(xùn)練,參數(shù)量為80億。
理想汽車等車企也在自研芯片,用于訓(xùn)練支撐其具身智能應(yīng)用的VLA的具身模型。
從推理到訓(xùn)練,從萬億基座到具身小模型,國(guó)產(chǎn)算力正在多點(diǎn)跑通。不過,有智算中心人士告訴數(shù)智前線,期望更多國(guó)產(chǎn)芯片能跑通從模型訓(xùn)練到推理全流程,以將芯片能力更大限度盤活和應(yīng)用,但這確實(shí)需要有一定實(shí)力的芯片公司與應(yīng)用方的聯(lián)合攻堅(jiān),將是一個(gè)逐步突破的過程。


分享













