端側AI的大模型時代,從面壁智能開始

人類歷史上最厲害的壓縮技術,不是ZIP或JPEG,而是文字。
一個“火”字,就能把燃燒、溫度、顏色、危險、能量等復雜的元素濃縮進一個符號。幾筆寫成,信息密度極高,解碼成本極低。
大模型壓縮,本質上在做同一件事:設計一套更高效率的“文字”,用最少的筆畫承載最多的知識。
然而,2026年的半導體市場呈現出一種極致的撕裂感。一邊是高盛等機構不斷調高預期,HBM(高帶寬內存)供不應求,DDR5價格持續飆漲,“內存墻”成為算力發展的物理瓶頸;另一邊,端側AI設備受限于功耗與體積,內存規格無法無限膨脹,大模型在終端的落地似乎被一道無形的成本天花板死死壓住。
算力在漲,但終端裝不下。“舊文字”太占地方了。傳統大模型用FP16表示參數,相當于用復雜英文字母寫文章,篇幅巨大。產業界迫切需要一套筆畫更少、信息密度更高的“新文字”。
5月23日,BitCPM-CANN于華為鯤鵬昇騰開發者大會(KADC 2026)首次亮相,由面壁智能AI Infra負責人、清華大學計算機系高性能所·水木學者博士后李宇軒進行技術分享。

簡單來講,面壁智能全球首次在華為昇騰平臺上完成端到端1.58-bit(極致低比特)訓練棧,并將規模推至8B級別,相較于相同尺寸的全精度模型,性能幾乎無下降。
它向外界釋放了一個明確信號:在國產算力底座上,同樣能誕生引領世界的訓練范式。
那么,這套“新文字”是怎么設計出來的?它將如何改寫端側AI的產業規則?

在探討面壁智能此次技術突破的意義之前,我們有必要先審視當下端側AI產業所面臨的真實困境。2026年的AI產業,表面上風光無限:大模型正爭先恐后從云端向手機、PC、汽車快速下沉,各種“AI Phone”“AI PC”概念層出不窮,仿佛人人都能碰到最強AI。
然而,在這股熱潮之下,一場關于生存成本的暗戰正在打響。
問題的根源要從我們用來承載AI知識的“文字”說起。
傳統大模型用的是一套相當奢侈的“文字系統”。每個參數用FP16表示,相當于每個筆畫要占16個格子。一個70億參數的模型,光“寫下來”就需要約14GB內存。加上操作系統和其他應用,16GB的旗艦手機已經寫不下了。

這套“舊文字”不光占地方,書寫成本還在飆升。高盛的最新預測顯示,受AI服務器需求拉動,存儲芯片市場正在經歷一輪超級周期。HBM供不應求,DDR5等主流內存價格漲幅預期最高被調至280%。對端側設備廠商而言,這是一道殘酷的選擇題:要么接受上漲的BOM成本,壓縮本就微薄的利潤空間;要么削減內存配置,讓AI功能淪為“能裝不能跑”的營銷噱頭。
固有的“內存墻”加深了這一困境。馮·諾依曼架構下,計算單元與存儲單元在物理上分離,數據需要在兩者之間頻繁搬運。即便端側芯片的TOPS數值再高,如果內存帶寬無法及時“喂飽”數據,大部分算力都將處于空轉狀態。
并且,國內AI大模型的訓練與部署長期高度依賴NVIDIA CUDA生態。很長一段時間里,許多國產大模型的訓練仍需在NVIDIA集群上完成核心驗證,再費時費力地遷移至昇騰平臺。這種“繞道走”的模式,不僅拉長研發周期、提高試錯成本,也讓國產算力平臺始終難以擺脫追趕者的位置,難以建立真正自主的技術體系。

層層壓力疊加下來,今天的端側 AI,正被困在一個無法破解的不可能三角里:想要更強的模型能力,就要付出更高的硬件成本;想要控制成本、降低功耗,就不得不砍掉模型能力。三者之間幾乎沒有兼顧的余地。
傳統解決方案如模型蒸餾、知識剪枝本質上都是在丟精度換內存,代價是字變得潦草。行業真正需要的是一種筆畫更少、信息密度更高的文字系統。而在KADC 2026上亮相的BitCPM-CANN,恰恰切中了這一核心痛點。

2026年5月23日,華為鯤鵬昇騰開發者大會上,面壁智能AI Infra負責人李宇軒將正式向業界展示BitCPM-CANN——完全在國產算力上訓練的開源三值大模型。它是1.58-bit極致輕量化大模型。從底層算子到訓練框架,再到最終的模型輸出,整條鏈路都在華為昇騰平臺上原生完成。
很多人會好奇,1.58-bit到底是什么?用最貼近生活的方式來理解,它就像是AI世界里一套極度精簡的文字系統。
我們熟悉的傳統大模型,參數大多是16位浮點格式,能表示的數值范圍非常寬廣,看似精度很高,可實際運行中大量精度都是多余的,就像用字母繁多的拉丁文去寫一句簡單的日常用語,既占空間又沒必要。BitCPM-CANN把每個參數壓縮到只有三個取值:-1、0、+1。如果把傳統參數比作一整套包含大小寫、符號、特殊字體的完整英文系統,那 1.58-bit 就像是把一切簡化為“點、橫、豎”三種最基礎的筆畫,用最少的表達,承載最核心的信息。

當然,除了“筆畫少”,BitCPM-CANN還把這套新文字體系化了。
第一,它有一套完整可用的字庫。在這之前,行業里不是沒有過低比特模型的研究,但絕大多數成果都只是展示某一個固定尺寸、某一項單一指標,更像是一個孤立的演示demo,廠商根本無法據此判斷技術是否穩定、能不能真正用在產品里。BitCPM-CANN完全跳出了這種局限,一次性推0.5B、1B、3B、8B四檔完整模型,并且和同尺寸的全精度模型做一對一、全維度的對齊評測。在技術實現上,它采用STE三值量化器,訓練時保留殘差保證模型可以持續學習,導出時嚴格輸出三值權重,把精度損失控制在極小范圍。實際測試結果很有說服力:1B、3B、8B這三檔主力模型,能力保留率達95.7%到97.2%,8B 模型在 ARC/cmmlu/gsm8k 等關鍵任務保留全精度93%~99%,完全達到可對外使用的水位;僅0.5B小模型保留率 90.1%,為后續優化明確方向。這種從微型到中型的全尺寸覆蓋,就像為AI產業準備好了從短句、短文到長篇著作的完整文字體系,手機、汽車、終端設備廠商可以直接按需求選用,不用再從零開始適配調試。
第二,它制定了成熟穩定的排版規范。很多低比特項目止步于“能跑通”,“模型能訓練、數值能下降”就宣告成功。但這樣的代碼往往是一次性的,換個尺寸、換個任務就要重新調參。BitCPM-CANN則把低比特能力沉淀為MindSpeed訓練基礎設施的一部分。基于Megatron-LM框架,嵌入可插拔的QAT并行線性層,統一模型存儲格式,還支持32K長序列訓練。主方案采用QAT加后訓練蒸餾,訓練吞吐僅下降5%,幾乎不增加額外成本。這意味著國產NPU第一次擁有了屬于自己的1.58-bit低比特訓練棧,不用再先跑到國外CUDA生態上驗證,再費力遷移回來,真正實現了基礎設施級別的技術沉淀,后續所有想在昇騰上做低比特訓練的團隊,都可以站在這個底座上直接起步。

第三,它的智能密度極高。面壁智能與華為昇騰的協同優化顯示,采用1.58-bit訓練范式,同等內存容量下可承載約6倍的模型參數量。這6倍的紅利來自三個層面:一是權重從16-bit壓縮到1.58-bit帶來的存儲節省;二是整數計算替代浮點計算帶來的算力釋放;三是昇騰團隊從指令集到算子層的深度優化。
而BitCPM-CANN能達到這樣的規模和成熟度背后是幾年持續投入的結果。在行業對極低位寬QAT還持觀望態度的時候,面壁智能就已經選定了小于等于2-bit的路線。
彼時,國內算力和美國差距很大,整體AI基礎設施都相對落后,國產芯片用來訓練大模型不太夠用。為了在有限資源下訓練大模型,面壁很早就自研了分布式訓練框架BMTrain。這不僅是對標DeepSpeed或Megatron的工程實現,更是“密度定律”的體現——僅用32張卡甚至更少的資源,就可以啟動百億級模型的訓練,極大地降低了大模型的準入門檻。
面壁智能與DeepSeek被業內稱為兩家“國內最會做架構改進的公司”,但兩者的戰場截然不同:DeepSeek緊抓云側大算力場景,在萬卡集群上榨干算力價值;面壁則聚焦單張端側芯片,在功耗、散熱、訪存帶寬的嚴苛約束下追求極致效率。很多大模型企業,采用保守的傳統架構,通過同一批數據訓練多個尺寸模型,面壁智能則針對端側芯片特性,做了大量稀疏計算、近存計算等底層優化。在長期探索中,團隊圍繞學習率、蒸餾策略、數據配比等核心變量,一點點摸索、反復驗證,最終沉淀出一套穩定、可遷移的超參方法論。
這些底層積累最終成為BitCPM-CANN能在昇騰上“發明新文字”的支撐。

如果說前兩部分討論的是“舊文字的問題”和“新文字怎么造”,那么這一部分我們不妨把視野拉高,審視BitCPM-CANN開源這套“新文字”之后的產業意義。它不只是跑通了一個模型,而是把推理側6倍顯存紅利變成可復用能力,把低比特訓練變成可以遷移、可以擴展、可以繼續優化的昇騰能力底座。
先看技術層面的填補,BitCPM-CANN首先補上了國產AI芯片長期存在的一塊空白。長期以來,國產AI芯片面臨一個尷尬的局面:硬件參數可圈可點,可支撐芯片運行的“文字體系”卻始終攥在別人手里。CUDA生態就像一套成熟的拉丁字母系統,好用但受制于人。國產算力想要實現完全自主,絕不能只停留在“讀懂、使用”別人的體系,必須擁有屬于自己的“造字”能力,從底層算法到訓練框架都掌握在自己手中。
BitCPM-CANN的發布打破了這一僵局。這是國產NPU平臺上第一次公開、系統化的1.58-bit三值訓練適配,規模一次推到8B量級,并且與面壁智能的全精度模型家族做了1:1對齊評測。這意味著業界第一次可以在國產算力上看到一個低比特模型的完整能力圖譜。

再把視線轉向端側AI產業,技術最終要服務于場景,BitCPM-CANN的價值絕不僅限于昇騰平臺本身。
把目光從技術本身轉向落地場景,BitCPM-CANN的價值早已超出昇騰平臺,真正觸達了整個端側AI產業的核心需求。技術最終的歸宿是服務實際場景,而BitCPM-CANN恰好踩中了手機、PC、汽車等終端設備最迫切的痛點。對終端廠商而言,將1.58-bit三值模型與MoE技術結合,有望把60B級別的模型能力真正裝入手機。更關鍵的是,相比傳統的BF16格式,實際顯存收益能達到6倍,不用額外增加物理內存,就能讓設備承載更強的AI能力。在全球內存價格持續上漲、硬件成本居高不下的當下,這早已不只是單純的技術優勢,而是企業控制成本、提升產品競爭力的必然選擇。
與此同時,行業里還存在一個明顯的供需錯位。高通的新一代芯片平臺已經支持2-bit原生推理,硬件準備好了,但市場上一直缺乏真正可落地、穩定可用的低比特權重。BitCPM-CANN的開源恰好填補了這一空當,讓芯片的硬件能力有了用武之地,讓普通開發者也能零門檻體驗國產算力在低比特場景的真實性能。這種模型與芯片的“雙向奔赴”才是端側AI走出實驗室、大規模落地的真實起跑線。

并且,作為全球首個完全在國產算力上原生完成的三值模型,它證明昇騰不僅能訓大模型、更能訓極低比特大模型,改寫了外界對國產芯片“重推理、輕訓練”的固有認知。它實現了國產NPU、國產AI模型、國產訓練框架三者的完整聯動,證明了在不依賴海外算力、不依附CUDA生態的前提下,中國團隊依然能打造出世界級的AI“新文字”。
把目光收回到面壁智能自身,BitCPM-CANN標志著面壁智能成長曲線上的一個清晰分水嶺。
在這之前,面壁智能在行業中的定位是一家致力于AGI的大模型公司。行業普遍還在追逐參數規模、云端競賽、榜單刷分的時候,面壁智能已經完成了從底層訓練框架到端側壓縮路線的積累,早已成為中國端側大模型技術路線的定義者。
此次BitCPM-CANN開源不只是一次簡單的成果發布,它同時釋放了一個清晰的技術信號:端側大模型的核心矛盾在內存與效率;解決路徑應該指向壓縮范式本身的重構。面壁智能沒有選擇跟隨海外路線做一個適配者,而是選擇在極低比特這條更難、更底層的路線上,成為規則的書寫者。
這個分水嶺的實質,是面壁智能完成了從模型提供者到技術方法論定義者的身份躍遷。

當然,話語權的建立,從來靠的不是單點突破,而是系統性輸出。BitCPM-CANN只是冰山浮出水面的那一角,水面之下是面壁智能從BM-Train到MindSpeed、從低比特方法論到端側落地閉環的完整體系。
回頭看,BitCPM-CANN的真正意義在于,它為國產算力在極低比特訓練方向上提供了一個可驗證的起點。這套“新文字”已經寫出來了,字典和范文都開源了。更多偉大的作品還要看產業界的后續努力,但至少,筆已經交到了每個人手里。

原文標題 : 端側AI的大模型時代,從面壁智能開始



分享













