訂閱
糾錯
加入自媒體

揭秘基于FPGA異構計算的深蘭科技AI加速器平臺

2021-05-06 15:09
AI世界
關注

AI加速器是一類專門的硬件電路或計算系統,旨在加速人工智能算法的實現,尤其是機器學習、自然語言處理計算機視覺和語音識別等需要大規模計算的應用。典型的應用場景包括無人駕駛系統、機器人技術、監控安防等計算密集型任務場景。

AI加速器是涉及算法模型、網絡框架、軟件工具鏈、加速器IP和硬件平臺的復雜AI算法實現系統。深蘭科技AI加速平臺采用異構計算的FPGA芯片,并自主研發了加速器IP及整套開發工具,在多任務處理方面的優勢尤為突出。

深蘭科技AI加速解決方案如下圖所示

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

1.異構計算在AI加速領域的優勢
      深蘭科技的AI加速硬件平臺采用賽靈思的MPSOC系列FPGA。MPSOC是一種集成多處理器系統的異構計算芯片,其中的多處理器系統包括:CPU(applications processor),RTP(real-time processor),GPU(graphics processor)以及FPGA(Field Programmable Gate Array)。不同的處理器適合處理的任務不同,多處理器的異構計算系統在AI加速領域有著獨特的優勢。

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

以人臉識別應用為例,來看一下異構計算平臺在AI加速領域的表現。

1.數據采集階段,計算平臺要提供傳感器接入的能力;

2.數據處理階段,計算平臺要提供常見的視頻圖像處理庫;

3.特征提取和比對階段,包含大量的數據調度和重復計算任務;

4.最終模型輸出和顯示階段,計算平臺要提供圖像疊加和視頻顯示等功能。

單獨的CPU更適合處理串行的控制流,不適用于大規模的并行計算;單獨的GPU更適合處理大規模的并行計算,但是在處理控制流方面又顯得捉襟見肘。MPSOC中的多核ARM適合視頻采集和數據預處理,FPGA中各種加速算子適合特征提取和特征比對,Mali GPU適合最終輸出顯示。多種處理器協同合作才能高效的完成人臉識別任務。

深蘭科技AI加速器如何高效工作

決定AI加速器工作效率的關鍵有三點:

1.高帶寬的片外數據吞吐;

2.高效率的片上數據緩存;

3.針對性的大規模并行計算單元。

深蘭科技AI加速器在設計的時候充分考慮了這三個因素

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

深蘭科技自主研發的AI加速器采用ARM和FPGA協同工作的架構,ARM和FPGA上各掛有一組帶寬高達150G的DDR4內存顆粒,兩組內存統一編址,便于內存管理。內存顆粒和計算單元間采用AXI4高速總線互聯,AXI_INTERCONNECT可以保證高效的多路數據總線讀寫仲裁,避免多路總線沖突及帶寬分配不均衡。

高帶寬的片外數據吞吐只能保證海量的數據可以送進FPGA,數據如果要進入計算單元,還要經過高效的片上數據重組和數據緩存。深蘭科技的AI加速器按照NCHW的格式重組數據,重組完的數據被寫入相應的片上緩存(RAM和FIFO)。

不同類型的計算任務由定制化開發的RTL算子完成,這樣可以保證很高的計算效率。目前完成的算子包括卷積算子、池化算子、上采樣算子、加法算子和softmax算子等,具體參數見下表。

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

3.深蘭科技AI加速器應用案例展示

無人駕駛應用:

紅綠燈識別,采用Mobilenet+Edlenet的組合神經網絡提高小目標的識別準確性。

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

智能交通應用:

航拍目標檢測,直升機高空俯視航拍,用于智能交通控制。

探究|基于FPGA異構計算的深蘭科技AI加速器平臺

激光雷達應用:

點云數據目標檢測,使用Pixornet神經網絡進行3D 目標檢測的鳥瞰圖檢測。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號