訂閱
糾錯
加入自媒體

GPU受限,國內AI大模型能否交出自己的答卷?

2023-04-14 14:55
科技云報道
關注

這個4月,成為國產大模型混戰期。

繼百度之后,阿里、華為、京東、360等大模型也陸續浮出水面,大模型軍備競賽正式開啟。

4月7日,阿里云宣布自研大模型“通義千問”開始邀請企業用戶測試體驗。

4月8日,華為云人工智能領域首席科學家田奇現身《人工智能大模型技術高峰論壇》,分享了華為云盤古大模型的進展及其應用。

同日,京東集團副總裁何曉冬表示,京東將在今年發布新一代產業大模型,言犀是“京東版”ChatGPT。

4月9日,360正式官宣,基于360GPT大模型開發的人工智能產品矩陣“360智腦”率先落地搜索場景,將面向企業用戶開放內測。

但有業內人士指出,大模型的訓練需要龐大的算力資源,GPU是大模型的最佳算力發動機。

截至目前,英偉達的GPU芯片正在為全球絕大多數的人工智能系統提供最基礎的算力支持。

那么,在GPU受限的情況下,國內AI行業發展境況如何,能否交出屬于他們自己的答卷?未來的發展是否會與國外越差越大?

國內廠商大囤AI芯片

眾所周知,OpenAI ChatGPT大模型能有今日風光,英偉達的芯片A100功不可沒。公開數據顯示,憑借10000片英偉達的GPU芯片,OpenAI成功訓練出了GPT-3大語言模型。

TrendForce研究顯示,以A100的算力為基礎,GPT-3.5大模型需要高達2萬枚GPU,未來商業化后可能需要超過3萬枚。

在這個ChatGPT的出圈元年,英偉達作為全球算力硬件當之無愧的龍頭公司,今年前三個月市值翻了一番。

近日,英偉達又不負眾望,推出了適用于ChatGPT的專用GPU,可以將推理速度提升10倍。

但值得注意的是,自2022年9月,美國禁止向國內客戶售賣英偉達A100、H100和AMD的MI250人工智能芯片。

基于此,針對中國用戶,英偉達按照A800操作模式(A100芯片的降維版本),推出了完全符合出口規定的H100的降維版本芯片,具體參數并未公布。

然而,無論是A800,還是H100中國版本,都和國外市場可使用的原版芯片存在差距。

據公開信息顯示,英偉達專供中國的A800芯片,其傳輸速度只有A100的70%。

國內企業擔心以后會買不到英偉達AI芯片,自美國制裁令開啟,就開始大舉囤芯片。

有廠家自去年下半年起就持續在市場中尋覓能拆出A100的各類整機產品,目的僅是獲得GPU芯片。

但據媒體報道,國內擁有超高算力芯片的廠商并不多。國內云廠商主要采用的是英偉達的中低端性能產品,擁有超過1萬枚GPU的企業不超過5家。其中,擁有1萬枚英偉達A100芯片的最多只有一家。

而國內云計算相關專家認為,做好AI大模型的算力最低門檻,就是1萬枚英偉達A100芯片。

國內外AI芯片存在差距

從長遠來看,未來大模型的研發和部署是必然趨勢,而每個大模型訓練和部署的背后,都有幾萬個GPU芯片在支持。因此,通用GPU市場需求將會迎來爆發式增長。

據Verified Market Research數據,2020年中國大陸的獨立GPU市場規模為47.39億美元,預計2027年將超過345.57億美元。

有業內人士指出,作為大模型的主要入局者,國內互聯網大廠擁有天然的數據優勢,自然不希望因算力被卡在大模型能帶來的廣闊世界和商機之外。

在經歷制裁后,國內的大型互聯網企業在采購相關芯片時,盡管目前還是會購買英偉達,但也有相關的國產化替代方案。

因此,在這波替代潮中,國內的寒武紀、昆侖芯、燧原、華為海思、海光、沐曦、摩爾線程等中國新一代GPU芯片研發公司,都將迎來非常大的機會。

但同時,也需要看到國產GPU芯片與國外的差距,具體而言:

大模型對于算力的需求分為兩個階段,一是訓練出ChatGPT這類大模型的過程;二是將這個模型商業化的推理過程。

在大模型訓練階段,需要處理高顆粒度的信息,對云端訓練芯片的芯片處理信息的精細度和算力速度要求更高,而現階段國產GPU大多還不具備支撐大模型訓練所需的能力。

不同于多媒體和圖形處理的單精度浮點計算(FP32)計算需求,在超算領域,雙精度浮點計算能力FP64是進行高算力計算的硬性指標。

英偉達的A100同時具備上述兩類能力,而國內GPU芯片的云端訓練公司,大多只能處理單精度浮點計算,如壁仞科技(通用GPU芯片BR100)、天數智芯(“智鎧100”)、寒武紀(云端推理思元270)的產品在FP32的理論指標上做得不錯,但沒有處理FP64的能力。

根據公開消息,目前國內唯一支持FP64雙精度浮點運算的只有海光推出的DCU(協處理器),但是它的性能只有A100的60%左右。

但有專家認為,國內通用GPU產品在滿足大模型訓練上與國際旗艦產品存在差距,但并非不可彌補,只是此前行業在產品定義里未朝著大模型方向做設計。

目前國產GPU公司都在朝著大模型領域去做布局。

昆侖芯表示,昆侖芯2代芯片相較第一代產品大幅優化了算力、互聯和高性能,公司正在不斷研發新的產品和技術,為ChatGPT等大模型的應用提供更佳的性能體驗。

登臨科技新一代Goldwasser產品針對基于Transformer的網絡和生成式AI類大模型的應用在性能有大幅提升,對標國際大廠的產品有明顯的能效比和性價比的優勢。

燧原科技宣布對公司品牌做戰略升級,要打造AIGC時代的基礎設施。

摩爾線程則表示將推出基于公司全功能GPU的AIGC算力平臺。

此外,行業從業者也都在做相關的探索和努力,如思考能否通過Chiplet(將芯片堆疊或者并列擺放)、先進封裝的方式提高算力。

國產AI芯片尚需生態支撐

事實上,比起硬件性能上的差異,軟件適配與兼容讓國內客戶接受更難。

當大模型和應用層面的競爭拉響,從商業角度思考,采用國產AI芯片參戰并不是好的選擇。

從硬件性能上,使用國產AI芯片計算會比采用英偉達A100慢,在分秒必爭的當下,“慢”是企業最不愿意看到的場景。

此外,哪怕能通過堆芯片的方式堆出一個算力相當的產品,從服務器運營的角度,它的主板開銷、電費、運營費,以及需要考慮的功耗、散熱等問題,都會大大增加數據中心的運營成本。

對廠商而言,把國產AI芯片用起來并不容易。

算力的釋放需要復雜的軟硬件配合,才能將芯片的理論算力變為有效算力。國產AI芯片想要替換英偉達的GPU,需要突破CUDA生態和整個產業生態的壁壘。

先說CUDA,為了把GPU的算力能力進一步發揮,英偉達花了10年時間,投入3000多人打造了一個CUDA框架。這套框架里集成了很多調用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。如果沒有這套編碼語言,軟件工程師發揮硬件價值的難度會變得極大。

目前世界上主流的深度學習框架都基于CUDA進行加速,整個產業中下游軟件、驅動廠家等都基于此進行適配。

這構成了一個極強大的生態壁壘,就像蘋果系統內部的閉環生態,和window操作系統+上層應用軟件一樣。

尚處于創業階段的芯片設計公司,很難在生態上投入如此大的人力財力,大多會選擇兼容CUDA架構,來降低客戶使用門檻。

當然,也有部分公司會選擇自研加速器,如:寒武紀就構建了自己的加速平臺;昆侖芯也面向開發者提供了類似英偉達CUDA的軟件棧,希望打造自己的生態,也能擺脫硬件需受CUDA更新的困擾。

但即使有了這個編程框架,整個產業生態上的人也很難把這個芯片用起來。

對于企業來說,更換云端 AI 芯片要承擔一定的遷移成本和風險,除非新產品存在性能優勢,或者能在某個維度上提供其他人解決不了的問題,否則客戶更換的意愿很低。

為此,國內從業者已經在構建生態上做努力。

在一個AI生態中,支撐大模型訓練需求,需要底層硬件、中間深度學習平臺、上層應用軟件的整體適配、互相支持。

例如,2022年4月,百度飛漿已完成和包括百度昆侖芯、華為昇騰在內的22家國內外硬件廠商,31種芯片的適配和優化,基本覆蓋國內主流芯片。

昆侖芯和飛漿完成3級兼容性適配,登臨科技和飛漿也完成2級適配,沐曦集成電路和飛漿完成1級兼容性測試。

除此之外,華為的MindSpore和愛可生向量數據庫兼容;智源研究院的九鼎智算平臺也在和多家國內AI芯片公司合作。

結語

未來,大模型訓練對算力的需求會越來越大。想要參戰大模型競賽,算法、算力、數據環環相扣。

在最卡脖子的芯片環節,如何縮小差距,成為國內廠商求共解的命題。

【科技云報道原創】

轉載請注明“科技云報道”并附本文鏈接

       原文標題 : GPU受限,國內AI大模型能否交出自己的答卷?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號