百模大戰,誰是下一個ChatGPT?
03 AI熱“兩極化”,中間真空
大模型讓AI公司越來越重。
4月10日,商湯在公布“日日新SenseNova”大模型體系的同時,其實還提到另一個關鍵點,即依托于AI大裝置SenseCore實現“大模型+大算力”的研發體系。
為了滿足大模型海量數據訓練的需求,原本可以輕裝上陣的算法公司,開始自己做云,也自建人工智能數據中心(AIDC)。
另一個案例就是毫末,這家自動駕駛公司為了用大模型訓練數據,也建了自己的智算中心。
這些垂類的AI巨頭和獨角獸,之所以要自己做的這么重,最重要的原因之一,就是市面上幾乎沒有高性能的現成產品可以滿足。
近年來,大模型參數量以指數級的速率提升,而數據量隨著多模態的引入也將大規模增長,因此就必然會導致對算力需求的劇增。例如,過去5年,超大參數AI大模型的參數量幾乎每一年提升一個數量級。過往的10年,最好的AI算法對于算力的需求增長超過了100萬倍。
一位商湯員工表示,商湯上海臨港AIDC的服務器機柜設計功耗10千瓦~25千瓦,最大可同時容納4臺左右英偉達A100服務器,但普通的服務器機柜普遍設計功耗以5千瓦居多,而單臺A100服務器的功耗即高達4.5千瓦左右。
科技巨頭就更是如此,每個巨頭都希望在自己的生態中形成閉環,一定程度上也是因為整個國內開源的生態不夠強大。
目前,大模型產業鏈大致可以分為數據準備、模型構建、模型產品三個層次。在國外,AI大模型的產業鏈比較成熟,形成了數量眾多的AI Infra(架構)公司,但這一塊市場在國內還相對空白。
而在國內,巨頭們都有一套自己的訓練架構。
比如,華為的模型采用的是三層架構,其底層屬于通識性大模型,具備超強的魯棒性的泛化性,在這之上是行業大模型和針對具體場景和工作流程的部署模型。這種構架的好處是,當訓練好的大模型部署到垂類行業時,可以不必再重復訓練,成本僅是上一層的5%~7%。
阿里則是為AI打造了一個統一底座,無論是CV、NLP、還是文生圖大模型都可以放進去這個統一底座中訓練,阿里訓練M6大模型需要的能耗僅是GPT-3的1%。
百度和騰訊也有相應的布局,百度擁有覆蓋超50億實體的中文知識圖譜,騰訊的熱啟動課程學習可以將萬億大模型的訓練成本降低到冷啟動的八分之一。
整體來看,各個大廠之間的側重點雖然有所不同,但主要特點就是降本增效,而能夠實現這一點,很大程度上就是受益于“一手包辦”的閉環訓練體系。
這種模式在單一大廠內部固然有優勢,但從行業角度而言,也存在一些問題。
國外成熟的AI產業鏈形成了數量眾多的AI Infra公司,這些公司有的專門做數據標注、做數據質量、或者模型架構等。
這些企業的專業性,能夠讓他們在某一個單一環節的效率、成本、質量上都要比大廠親自下場做得更好。
比如,數據質量公司Anomalo就是Google Cloud和Notion的供應商,它可以通過ML自動評估和通用化數據質量檢測能力,來實現數據深度觀察和數據質量檢測。
這些公司就像汽車行業的Tier 1,通過專業的分工,能夠讓大模型企業不必重復造輪子,而只需要通過整合供應商資源,就能快速地搭建起自己模型構架,從而降低成本。
但國內在這一方面并不成熟,原因在于:一方面國內大模型的主要玩家都是大廠,他們都有一套自己的訓練體系,外部供應商幾乎沒有機會進入;另一方面,國內也缺乏足夠龐大的創業生態和中小企業,AI供應商也很難在大廠之外找到生存的空間。
以谷歌為例,谷歌愿意將自己訓練的數據結果分享給它的數據質量供應商,幫助供應商提高數據處理能力,供應商能力提升之后,又會反過來給谷歌提供更多高質量數據,從而形成一種良性循環。
國內AI Infra生態的不足,直接導致的就是大模型創業門檻的拔高。
王慧文剛下場做光年之外的時候曾提出5000萬美金的投入,這筆錢其實是李志飛為他算的,具體可以分為2000萬美金搞算力,2000萬美金找人,1000萬美金做數據。這體現出一個直接的問題,如果將在中國做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開始。
目前,在AI 2.0的熱潮中,一個重要的特點就是“兩極化”:最熱門的要么是大模型層、要么就是應用層。而類似AI Infra(架構)的中間層,反而有很大的真空。
別都盯著造輪子,能造一顆好的螺絲也很重要。
04 結語:巨頭&創新者
王小川和百度的隔空口水戰,成為最近大模型混戰中一個熱鬧的插曲。
“高富帥”李彥宏認為,中國基本不會再出OpenAI,用巨頭的就可以了。
“直男”王小川說,行業中有些人(李彥宏)對未來的觀點從來就沒有判斷對過,一直活在平行宇宙里。
除了陳年恩怨,這大體上可以看作是巨頭和創業者之間的立場對立:巨頭都喜歡包攬一切,而創業者則喜歡打破常規。
而科技行業的成功似乎更依仗于創新。畢竟,從打造AlophaGo的DeepMind,到發布ChatGPT的OpenAI,沒有一個是從巨頭中孵化出來的。
這就是創新者的窘境。
對于科技巨頭而言,自己造輪子固然重要,但能找到、孵化出下一個OpenAI又未嘗不可呢?
原文標題 : 百模大戰,誰是下一個ChatGPT?
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













