汽車電子
返回首頁

Dojo系統詳細構成

2021-09-07 來源:Astroys

Tesla在上月的AI Day推出了用于機器學習和神經網絡訓練的芯片、系統和軟件。它們將共同推進用于自動駕駛汽車模型的訓練。

 

Elon Musk和他的芯片與系統設計團隊在超過三小時的演講中提供了大量的技術細節,以下是其中的一些亮點。


神經網絡


Tesla設計了一個靈活、可擴展的分布式計算機架構,專門用于神經網絡訓練。Tesla的架構從D1芯片開始,該芯片有354個訓練節點,每個節點有一個強大的CPU。這些訓練節點CPU是為高性能的NN和ML任務設計的,32位浮點運算的最大性能為64GFLOPs。

 

對于擁有354個CPU的D1芯片,32位浮點運算的最大性能是22.6TFLOPs。對于16位浮點計算,D1的最大性能躍升至362TFLOPs。

 

 


Tesla推出了兩個用于神經網絡訓練的系統:Training Tile和ExaPOD。一個Training Tile在一個封裝中擁有25個連接的D1芯片。一個由25個D1芯片構成的Training Tile有8850個訓練節點,每個節點都有上面提及到的高性能CPU。一個Training Tile的32位浮點運算最大性能是565TFLOPs。

 

ExaPOD將120個Training Tile連接成一個系統,即3000個D1芯片、106.2萬個訓練節點。一個ExaPOD的32位浮點運算最大性能是67.8PFLOPs。

 

Tesla對神經網絡介紹的細節D1芯片和Dojo神經網絡訓練系統的推出顯示出了Tesla的發展方向。這些產品投入使用的研發投資無疑是非常高的。Tesla很可能與其他公司分享這項技術,創造另一個收入來源,類似于賣給其他OEM的電動車積分。

 

下表列出了Tesla的神經網絡的特點。這些數據是從當天視頻中提取的。筆者在一些地方加入了對芯片和系統架構的理解。

 

Tesla的設計目標是在其芯片和系統中擴展三個系統特性:計算性能、高帶寬和計算節點之間的低延遲通信。高帶寬和低延遲一直以來都很難擴展到數百或數千的計算節點。看起來Tesla已經成功地將所有三個參數組織在一個連接的二維網格格式中。

 

 


訓練節點

 

訓練節點是D1芯片上最小的訓練單元。它有一個64位處理器,具有4寬標量和4路多線程的程序執行。該CPU還具有8*8向量乘法的2寬向量數據路徑。

 

該CPU的指令集架構(ISA)是為機器學習和神經網絡訓練任務量身定制的。該CPU支持多種浮點格式,32位、16位和8位。FP32、BFP16,以及一種新的格式CFP8或可配置的FP8。

 

該處理器有1.25MB的高速SRAM用于程序和數據存儲。該存儲器使用ECC或糾錯代碼以提高可靠性。

 

為了降低訓練節點之間的延遲,Tesla挑選了信號在2GHz+時鐘頻率的一個周期內可傳播的最遠距離。這定義了訓練節點的距離,以及CPU及其支持電子設備的復雜程度。這些參數還允許一個CPU以每秒512G比特的速度與四個相鄰的訓練節點通信。

 

訓練節點的最大性能取決于使用的算法,常以浮點性能來比較。Training Tile的32位浮點性能(FP32)的最大性能是64GFLOPs。BFP16或CFP8算術的最大性能是1,024GFLOPs。


D1芯片


令人印象深刻的D1芯片是一種專用于神經網絡訓練的設計。D1采用7nm工藝制造,在一個面積為645平方毫米的裸片中封裝了500億個晶體管。該芯片電線長度超過11英里,功耗為400W左右。

 

D1芯片有一個帶有高速、低功耗SerDes的I/O環,總共有576條通道環繞著芯片。每條通道的傳輸速率為112Gbps。D1的最大片上傳輸速率為10Tbps(每秒10兆位)。芯片每側的最大片外傳輸速率為4Tbps。

 

由于D1芯片上的354個CPU中的每一個都有1.25MB的SRAM,加起來就有超過442MB的SRAM。D1芯片的最大性能也是基于354個訓練節點的CPU陣列。

 

D1的32位浮點計算的最大性能達到22.6TFLOPs。16位浮點計算的最大性能為362TFLOPs。


Training Tile


Tesla的Training Tile是擴展AI訓練系統的基石。一個Training Tile將25個D1芯片集成到一個晶圓上,并被封裝成多芯片模塊(MCM)。Tesla認為這可能是芯片行業中最大的MCM。Training Tile被封裝成一個大芯片,可以通過一個高帶寬連接器與其他Training Tile連接,保留了Training Tile的帶寬。

 

 

Training Tile的封裝包括多層電源和控制、電流分配、計算平面(25個D1芯片)和冷卻系統。Training Tile用于IT中心,而不是自動駕駛汽車。

 

Training Tile提供單個D1芯片的25倍性能,或16位浮點計算的9Peta FLOPs,32位浮點計算則高達565TFLOPs。

 

12塊232配置的Training Tile可以裝在一個柜子里,Tesla稱它為Training Matrix。


ExaPOD


Tesla描述的最大系統是ExaPOD。它是由120個Training Tile構成的。加起來有3000個D1芯片和106.2萬個訓練節點。它裝在10個機柜中,顯然是為IT中心使用的。

 

ExaPOD的最大性能是16位浮點計算的1.09Exa FLOPs,32位浮點計算的67.8Peta FLOPs。


Dojo軟件和DPU


Dojo軟件旨在支持大型和小型神經網絡的訓練。特斯拉有一個編譯器來創建軟件代碼,利用訓練節點、D1芯片、Training Tile和ExaPOD系統的結構和能力。它使用的是PyTorch開源機器學習庫,并進行了擴展來利用D1芯片和Dojo系統架構。

 

 

這些能力允許大型神經網絡被分割和映射,以提取不同的并行性、模型、圖形、數據的并行度,從而加速大型神經網絡的訓練。編譯器使用多種技術來提取并行性。它可以利用數據模型圖并行技術對網絡進行轉換以實現細粒度并行,并可以優化以減少內存占用。

 

Dojo接口處理器用于與IT和數據中心的主機通信。它用PCIe 4.0連接到主機,并通過上述的高帶寬連接到基于D1的系統。接口處理器還為D1系統提供高帶寬的DRAM共享內存。

 

基于D1的系統可以被細分和劃分為稱為Dojo Processing Unit的單元。DPU由一個或多個D1芯片、一個接口處理器和一個或多個計算機主機組成。DPU虛擬系統可以根據在其上運行的神經網絡的需要,擴大或縮小規模。


總結


Tesla的神經網絡訓練芯片、系統和軟件都非常令人印象深刻。有很多創新,比如保留了巨大的帶寬和從芯片到系統的低延遲。Training Tile的電源和冷卻的封裝看起來很創新。

 

神經網絡訓練系統是用于數據中心的,肯定會被用于改進Tesla的AV軟件。其他公司很可能也會使用這些Tesla神經網絡訓練系統。

 

看起來Tesla希望或依賴這種神經網絡訓練創新,繼續使其基于純視覺的自動駕駛系統持續改進。這是正確的方向嗎?時間會告訴我們,到目前為止,Elon Musk的大部分賭注盡管都有一些時間上的推遲,但都是正確的。

 

 [參考文章]


Tesla AI Day Perspectives — Egil Juliussen


進入汽車電子查看更多內容>>
相關視頻
  • 由內到外的智能網聯車:車聯網現狀及發展

  • labview2016

  • 直播回放: TI DLP? 技術在汽車上的創新及全新應用

  • 回放 : TI mmWave 毫米波雷達在汽車車內的應用

  • Amplifier Protection Series

  • TI Jacinto 系列產品在 ADAS 中的應用

    相關電子頭條文章
萝卜大香蕉