陳左寧:解析為什么說傳統超算并不最適合AI

計算模式的13個“小矮人”
根據人工智能發展趨勢,可以總結出人工智能對算力的需求有幾個特點:
一是關系、概率、近似計算更加突出;同時不要求高精度和高容錯,因為都是近似的概率計算;
二是在節點上計算簡單,同時人在環路中需求非常明顯。
對軟件棧的需求,就是要求軟件棧是復雜、動態、分布式,分散的,要支撐新的場景(如原生支持分散場景等),以及架構創新(如軟硬件協同設計、體系結構突破等)。
陳左寧總結說,目前人工智能算法模型仍然在基本的計算模式之中——2006年,Berkeley View總結出13個基本計算模式(又稱13 dwarfs,13個“小矮人”),現在的算法仍然沒有跳出這些。

Berkeley View2006年總結出的“13dwarfs”
但是未來的復雜問題會不會超出這個范圍,現在還很難說。陳左寧提出,或許隨著我們對AI認知的加深和突破,還會出現新的趨勢。

經典CPU處理AI勢必造成功耗浪費
為了說明經典高性能計算現有體系結構對AI模型支持的局限性,陳左寧院士提到了AlphaGo和李世石下棋的例子:
同樣是下棋,為什么相比人,AlphaGo耗能如此之大?
人機對弈,李世石動腦所耗能量約為10MJ,AlphaGo耗能約為3000MJ ,相差2個數量級。
這其中差別,跟現有體系結構的限制有很大關系。
現在的高性能計算機,仍然是基于遵循馮·諾依曼結構的芯片架構。馮·諾依曼架構,最典型特征是“計算、存儲分離”。存算分離的優點是,可以通過編排指令做各種復雜計算;缺點也很明顯,芯片內的數據移動功耗大于運算功耗。
特別是,高性能處理器結構復雜,其運算功耗占比就更低;而隨著工藝的進步,互聯功耗占比還會越來越大。
馮·諾依曼結構之所以設計成存算分離,是為了方便用復雜的指令系統去搞定復雜計算。
但AI不同,它不需要復雜的節點計算,也不需要復雜的指令系統。
這解釋了,經典CPU處理AI勢必會造成很多功耗是浪費的——這也是人們為什么研究和發展AI芯片的緣故。
現有支持AI的超算體系結構,在節點間尺度上多為同構系統,比如美國的Summit、中國的“神威·太湖之光”,都是大節點同構、但節點內尺度上有異構形式(如CPU+GPU/FPGA等)。CPU、GPU、FPGA以及張量加速單元(TPU),能夠實現復雜的并行;但人工智能硬件重點關注深度神經網絡這類模型:適度的低精度計算、可對部分簡單算子(如矩陣乘、向量計算等)加速等。
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













