特斯拉設計自主晶片D1與超級電腦Dojo成為未來利器 往高度整合的商業模式前進
科技產業資訊室 (iKnow) - Kyle 發表於 2021年8月23日
圖、特斯拉設計自主晶片D1與超級電腦Dojo成為未來利器 往高度整合的商業模式前進
特斯拉為了持續往垂直整合的商業模式前進,於特斯拉人工智慧日(Tesla AI Day)發布了一款客製化晶片D1,可用於數據中心訓練人工智慧網路。D1完全由特斯拉內部設計,該公司正在使用該晶片來運行其超級電腦Dojo。
D1支持FP32、BFP16(又名bfloat16或大腦浮點)和一種稱為CFP8(可配置FP8)的新格式。針對機器學習工作負載進行了優化,且D1(由354個訓練節點組成)採用7奈米製程製造,在僅僅645平方毫米面積下,包含500億顆電晶體,使其不但具有GPU等級運算能力,也具備CPU級靈活性。
特斯拉非常重視整個硬體的模組化。所以D1的每個側邊都配備了4TBps的片外頻寬(off-chip bandwidth),允許它在不犧牲速度的情況下連接到其他D1晶片並與其他D1晶片一起擴展。
下一步是特斯拉的“訓練圖塊(training tile)”,這是一個小於1立方英呎的楔形塊,包含25顆D1晶片。訓練圖塊的運行類似於晶片本身的模組化方式:電源和冷卻通過圖塊的頂部進行,允許其四個側邊配備專為最大頻寬設計的高輸出連接器。
超級電腦Dojo絕對是特斯拉人工智慧日的最大看點,採用了創新的架構,將運算力分佈在複雜的網路結構中,實現了極高的運算力、高頻寬、低延遲的網路吞吐量。其擁有120個訓練單元、3000顆D1晶片、超過100萬個訓練節點的機櫃模型ExaPOD。
從內涵來看,每顆D1晶片提供22.6 teraflops的FP32性能,每個訓練圖塊將提供 565 teraflops,每個機櫃(包含12個圖塊)將提供6.78 petaflops。這意味著僅一個ExaPOD將提供67.8 FP32 petaflops的最大理論性能,所以其BF16/CFP8運算力高達1.1 EFLOPS。
從以上來看,Dojo有望成為全球最強大的超級電腦之一。在相同功耗下,Dojo超級運算比現有電腦性能提升4倍、效能提升1.3倍、碳足跡只有原來的1/5。未來特斯拉還計畫將下一代Dojo性能再提升10倍。
至於與硬體相匹配的,還有特斯拉針對性開發的分散式系統DPU(Dojo Processing Unit)。DPU是一個視覺化交互軟體,可以隨時根據要求調整規模,高效地處理和運算,且進行數據建模、儲存分配、優化佈局、分區拓展等任務。
總之,Dojo不僅是特斯拉全自動駕駛系統的一項技術,而且還是先進駕駛輔助系統。這台功能強大的超級電腦不是特斯拉獨享,將向其他汽車製造商和科技公司開放,將成為一項新事業。馬斯克(Elon Musk)說,「Dojo應該明年(2022)就可運作」,這似乎是向英特爾、輝達等公司宣戰。(844字)
參考資料:
Tesla - Artificial Intelligence & Autopilot
Tesla unveils chip to train A.I. models inside its data centers. CNBC, 2021/8/19
Enter Dojo: Tesla Reveals Design for Modular Supercomputer & D1 Chip. HPC Wire, 2021/8/20
相關文章:
1. 特斯拉堅持採用AI搭配相機視覺 稱霸自動駕駛系統
2. 特斯拉自駕系統在美遭NHTSA正式調查
3. 特斯拉開放授權Autopilot自動輔助駕駛軟體給其他廠商
4. 特斯拉自動駕駛汽車IVI自主晶片 台積電及三星電子搶單
5. 特斯拉將自産EV「電池芯」、預計2023年推出2.5萬美元純電動汽車
6. Elon Musk:特斯拉``非常接近''5級自動駕駛能力
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。
|