華為盤古大模型在自動駕駛領域做了什么？

2026-06-16 10:06

就在最近，華為的盤古大模型因某些事件被大家廣泛討論，智駕最前沿作為一個以技術內(nèi)容為主的平臺，僅聊技術，不聊八卦，但也想蹭一蹭熱點，今天就基于網(wǎng)上的公開資料以及一些官方的宣傳內(nèi)容，給大家理一下盤古大模型及其在自動駕駛領域的技術布局，也希望大家理性評論！

盤古大模型的技術架構(gòu)與演進

盤古大模型最早于2021年4月在華為開發(fā)者大會上正式對外發(fā)布，初始階段主要包含NLP（自然語言處理）、CV（計算機視覺）和科學計算三大基礎模型。盤古NLP大模型是業(yè)界首個千億級參數(shù)的中文預訓練大模型，CV大模型則具備30億參數(shù)，兩者在當時均處于行業(yè)領先水平。

2022年4月，盤古大模型升級至2.0版本，正式確立了L0、L1、L2的分層開發(fā)架構(gòu)。同年，華為陸續(xù)發(fā)布了面向礦山、氣象、海浪等垂直場景的行業(yè)大模型，標志著盤古從通用大模型向行業(yè)應用的延伸。2023年7月，盤古大模型3.0正式發(fā)布，確立了5+N+X的分層架構(gòu)，并明確提出不作詩，只做事的定位，專注于B端產(chǎn)業(yè)場景落地。

圖片源自：網(wǎng)絡

此后，盤古大模型保持每年一次的升級節(jié)奏，2024年6月發(fā)布5.0版本，引入可控時空生成（STCG）技術；2025年6月發(fā)布5.5版本，五大基礎模型全面升級；2026年6月正式發(fā)布openPangu 2.0，并計劃于計劃‌2026年6月30日‌起，分批開放包括預訓練代碼、后訓練代碼、訓練算子等在內(nèi)的‌7大核心組件。

盤古大模型的底層訓練是基于華為自研的昇騰AI云服務，在硬件上，2025年6月發(fā)布的新一代昇騰AI云服務采用CloudMatrix 384超節(jié)點架構(gòu)，將384顆昇騰NPU與192顆鯤鵬CPU通過全對等互聯(lián)整合為一臺超級AI服務器，單卡推理吞吐量達到2300 Tokens/s，相比非超節(jié)點架構(gòu)提升約4倍。該云服務同時支持PyTorch、TensorFlow等主流AI框架，并提供算子遷移工具，可將大部分從GPU平臺開發(fā)的算子遷移至昇騰平臺運行。

在軟件架構(gòu)層面，盤古大模型采用5+N+X三層設計。L0層包含自然語言處理、計算機視覺、多模態(tài)、預測及科學計算等五個基礎大模型，經(jīng)過千億級參數(shù)的預訓練形成通用能力底座。L1層是在基礎模型之上，通過行業(yè)數(shù)據(jù)注入訓練形成的行業(yè)大模型，覆蓋政務、金融、制造、礦山、氣象等領域。L2層則聚焦具體業(yè)務場景進行精調(diào)，提供場景化的模型服務。這種分層解耦的設計允許客戶獨立加載數(shù)據(jù)集、單獨升級基礎模型或能力集，也可根據(jù)數(shù)據(jù)安全和合規(guī)需求選擇公有云、大模型云專區(qū)或混合云等部署形態(tài)。

圖片源自：網(wǎng)絡

盤古大模型5.5版本于2025年6月正式發(fā)布，五大基礎模型均進行了升級。

NLP大模型推出了7180億參數(shù)的MoE深度思考模型，由256個專家組成，在知識推理、工具調(diào)用、數(shù)學等領域能力有所增強。自適應快慢思考融合讓模型可根據(jù)問題難易程度自動切換思考模式，簡單問題快速響應，復雜問題調(diào)動更多算力進行推理，整體推理效率提升8倍。此外，Pangu DeepDiver通過搜索強度縮放技術在真實互聯(lián)網(wǎng)環(huán)境下進行探索式訓練，7B規(guī)模的DeepDiver在多個基準測試中的表現(xiàn)與671B的DeepSeek-R1相當。

CV大模型升級為300億參數(shù)的MoE架構(gòu)視覺大模型，據(jù)稱是當時業(yè)界最大的視覺模型，全面支持圖像、紅外、激光點云、光譜、雷達等多維度感知、分析與決策。

預測大模型則采用了triplet transformer統(tǒng)一預訓練架構(gòu)，將不同行業(yè)的數(shù)據(jù)（如工藝參數(shù)的表格數(shù)據(jù)、設備運行日志的時間序列數(shù)據(jù)、產(chǎn)品檢測的圖片數(shù)據(jù)）進行統(tǒng)一的三元組編碼，在同一框架內(nèi)高效處理和預訓練。

多模態(tài)大模型的升級方向則是世界模型，后面會單獨展開討論。

科學計算大模型則是與深圳氣象局合作升級了智霽大模型，首次實現(xiàn)AI集合預報；與重慶市氣象局打造了天資·12h氣象大模型，可用于災害性天氣的日內(nèi)預報預警。

整體來看，盤古大模型的技術路線強調(diào)行業(yè)落地而不是通用對話能力，其分層設計和對計算效率的優(yōu)化都是圍繞這一目標展開的。

盤古世界模型與STCG，自動駕駛開發(fā)的新路徑

在自動駕駛開發(fā)中，數(shù)據(jù)一直是最核心的瓶頸，要讓自動駕駛系統(tǒng)達到足夠的可靠性，理論上需要基于真實道路采集的上百億公里駕駛數(shù)據(jù)進行訓練，這對任何車企來說都是不可承受的成本。盤古大模型針對這一問題提出的解決方案，經(jīng)歷了從STCG到世界模型兩個階段。

1）STCG，讓模型理解物理世界

可控時空生成技術（STCG）是盤古5.0版本推出的能力，其核心在于讓大模型生成不僅視覺上逼真、而且符合物理規(guī)律的駕駛視頻。與傳統(tǒng)仿真工具依賴游戲渲染引擎不同，STCG直接在模型內(nèi)部嵌入了對空間結(jié)構(gòu)和時間變化的建模，車輛在不同攝像頭視角之間的過渡是平滑的，在不同天氣和光照條件下行駛時，車輛行為也符合現(xiàn)實邏輯，如在雨天生成的視頻中，車輛會自動開啟尾燈。在HDC 2024的現(xiàn)場演示中，模型就生成了從空無一人街道到多車交匯復雜路況的場景，并在一鍵切換晴天與雨天時同步改變了車輛細節(jié)。

圖片源自：網(wǎng)絡

從技術實現(xiàn)上看，盤古在視頻生成大模型的VAE和DiT架構(gòu)基礎上增加了3D邊界框編碼器、BEV路網(wǎng)編碼器和相機軌跡編碼器三個輸入模塊，通過對3D邊界框和BEV路網(wǎng)圖的聯(lián)合處理，可實現(xiàn)多視角關聯(lián)學習。其訓練數(shù)據(jù)采用了六個視角的攝像頭數(shù)據(jù)，累計采集和治理了20萬幀高質(zhì)量數(shù)據(jù)，結(jié)合場景視頻生成、4D BEV視頻生成、自動駕駛仿真庫以及路網(wǎng)信息，STCG能夠大規(guī)模生成物理一致的駕駛視頻數(shù)據(jù)，并可靈活增加控制條件，定制化生成不同路況、光照和天氣的訓練數(shù)據(jù)。STCG還能生成隨機性、偶發(fā)性、對抗性場景，也就是自動駕駛開發(fā)中難以通過真實路采大量獲取的邊緣場景。

2）世界模型，從生成視頻到構(gòu)建數(shù)字空間

盤古世界模型于2025年發(fā)布，其建立在多模態(tài)大模型的基礎之上，它的輸入量極小，在智能駕駛領域，只需輸入首幀行車場景、行車控制信息和路網(wǎng)數(shù)據(jù)，就能生成每路攝像頭的行車視頻和對應的激光雷達點云數(shù)據(jù)。換言之，從一個初始狀態(tài)出發(fā)，模型可以持續(xù)想象出接下來的整個駕駛過程，生成幀率達到每秒30幀的視頻續(xù)寫能力。

世界模型在自動駕駛領域的一個典型應用是復雜邊緣場景的重建，廣汽集團與華為云合作，基于盤古多模態(tài)大模型實現(xiàn)了2D視頻與3D點云數(shù)據(jù)在像素級別的精確對應，能夠在數(shù)分鐘內(nèi)完成復雜場景的復原。廣汽在此基礎上還開發(fā)了神行仿真平臺，其可控視頻生成的幾何一致性提升了80%。由于傳統(tǒng)的仿真場景構(gòu)建需要大量人工建模，而世界模型可以直接從有限輸入生成完整的仿真環(huán)境，供端到端自動駕駛模型進行迭代訓練，因此這種快速重建邊緣場景的能力，是傳統(tǒng)仿真工具難以實現(xiàn)的。

圖片源自：網(wǎng)絡

世界模型還展示了盤古在更廣泛物理模擬場景中的能力，在火星探測演示中，基于單張火星地表圖片，世界模型可生成高精度的數(shù)字物理空間，用于火星車的避障訓練和機械臂操作的模擬。盡管這與自動駕駛并不直接相關，但它反映了模型在多模態(tài)生成和物理規(guī)律建模方面的基礎能力。

在這里一定需要補充的是，仿真數(shù)據(jù)能否完全替代真實路采數(shù)據(jù)，業(yè)內(nèi)仍然存在討論。仿真數(shù)據(jù)的分布偏差、模型在仿真環(huán)境中過擬合等問題尚未完全解決，但STCG和世界模型至少提供了一種增加數(shù)據(jù)多樣性、彌補真實數(shù)據(jù)稀缺性的方法，其價值在于幫助開發(fā)者更高效地覆蓋更多的邊緣場景，而不是完全取代真實路測。

八爪魚平臺，技術能力的工程化集成

盤古大模型的能力并非獨立存在的，而是通過華為云的八爪魚自動駕駛云服務平臺向車企和開發(fā)者開放。八爪魚是一個一站式的全托管自動駕駛開發(fā)平臺，整合了數(shù)據(jù)標注、模型訓練、仿真測試等環(huán)節(jié)的工具鏈。

圖片源自：網(wǎng)絡

在數(shù)據(jù)標注環(huán)節(jié)，盤古大模型提供了自動標注能力，支持2D、2.5D和3D的自動標注，據(jù)稱標注準確率超過90%。在場景理解能力上，模型能夠代替人工進行視頻片段的分類和標簽化處理，萬段視頻可以在分鐘級完成處理。在數(shù)據(jù)檢索方面，平臺支持以文搜圖、以圖搜圖等多模態(tài)檢索能力，可在百萬圖片庫中實現(xiàn)分鐘級檢索。

華為八爪魚自動駕駛云服務平臺還提供了并行仿真能力，可利用云端資源同時運行‌1000+仿真節(jié)點‌，實現(xiàn)‌日行千萬公里級‌的虛擬測試里程。平臺內(nèi)置‌20萬+結(jié)構(gòu)化仿真場景庫‌，并支持用戶通過‌自定義標簽體系與‌可編程評估腳本‌，靈活構(gòu)建專屬的場景組合與測評指標，全面支撐車企高效驗證算法性能，加速自動駕駛功能量產(chǎn)落地。

值得一提的是，八爪魚平臺與盤古世界模型已經(jīng)進行了深度整合，世界模型的視頻和點云多視角生成能力被直接用于端到端智駕模型的并行仿真，車企可以基于生成的仿真數(shù)據(jù)對模型進行快速迭代測試。據(jù)廣汽方面的數(shù)據(jù)，這種技術組合支撐了端到端模型兩天一個版本的迭代節(jié)奏，不過從行業(yè)通用標準來看，這種迭代速度更多反映的是在仿真環(huán)境中的模型調(diào)優(yōu)效率，真實道路測試仍然需要按照安全規(guī)范逐級推進。

行業(yè)應用現(xiàn)狀與面臨的挑戰(zhàn)

從公開信息來看，盤古大模型在汽車行業(yè)的部署已有一定規(guī)模，華為云在2024年被沙利文評為中國汽車大模型市場領先者，已有超過300家汽車行業(yè)客戶采用其解決方案。一汽解放與華為基于盤古大模型開展了多個場景的驗證測試；華為云自動駕駛開發(fā)平臺已在長安、一汽、比亞迪、廣汽等多家車企以及礦用卡車、港口ART、專線物流重卡等商用車場景中部署。

圖片源自：網(wǎng)絡

在商用車領域，盤古大模型被用于自動駕駛算法的開發(fā)驗證和優(yōu)化迭代，幫助降低測試成本和風險。不過這些合作項目大多仍處于驗證測試階段，距離大規(guī)模量產(chǎn)應用還有一定的距離。

在自動駕駛領域，仿真數(shù)據(jù)與真實數(shù)據(jù)之間的域差距一直是行業(yè)共同面對的問題，盡管STCG生成的視頻在視覺上接近真實，但仿真環(huán)境始終無法完全復制真實道路中所有不確定性因素，模型在仿真中表現(xiàn)良好不等于在實際道路中同樣可靠。此外，邊緣場景生成的邊界范圍也難以界定，生成的場景是否覆蓋了足夠多類型的危險情境，是否存在未被覆蓋的盲區(qū)，這些問題的驗證成本本身就很高。再者，盤古大模型的架構(gòu)和部分技術細節(jié)尚未完全公開，行業(yè)對其技術水平的評估主要依賴華為官方發(fā)布的基準測試結(jié)果，第三方獨立驗證仍然有限。

最后的話

從技術發(fā)展趨勢來看，盤古大模型為自動駕駛開發(fā)提供了一條與傳統(tǒng)依賴大規(guī)模路采數(shù)據(jù)不同的技術路徑，即用生成式仿真驅(qū)動數(shù)據(jù)補充和模型迭代。STCG和世界模型在物理一致性生成和多模態(tài)數(shù)據(jù)對齊方面已經(jīng)展示了可行的方法，八爪魚平臺將這些能力整合為開發(fā)者可用的工具鏈。

當然，這并不意味著自動駕駛的路測可以被替代，更準確的理解是，盤古大模型提供了一種降低數(shù)據(jù)獲取成本、提高邊緣場景覆蓋效率的方法，它將在自動駕駛開發(fā)的工具鏈中扮演一個重要的輔助角色，但距離成為自動駕駛技術的完全解決方案還有相當長的路要走。

-- END --

原文標題 : 華為盤古大模型在自動駕駛領域做了什么？