Ikhtisar Project Dojo milik Tesla

xguru · 2021-08-24T10:48:52+09:00

Tulisan dari James Hamilton, VP di AWS Sistem machine learning Dojo menarik dari 3 sisi Jaringan berskala besar → Setiap chip D1 menyediakan networking 16.000Gbps (4 kanal 4Tbps), dan digabungkan menjadi MCM 25-chip (Multi-Chip Modules) untuk menyediakan bandwidth 36.000Gbps (4x 9Tb) Rasio memori terhadap komputasi yang sangat kecil → Setiap chip D1 memiliki 354 unit fungsional, dan tiap unit hanya punya 1,25 mega SRAM serta tidak memiliki DRAM, sehingga satu chip D1 bahkan memiliki memori kurang dari setengah 1 giga (442,5Mb) → Menempatkan pool DRAM besar di ujung rack berisi 5 unit, dan rack komputasinya sendiri tidak memiliki DRAM → Jika dipikirkan bagaimana sistem ini bisa bekerja dengan memori sesedikit itu, kemungkinan ini adalah kombinasi dari bandwidth jaringan yang sangat besar dan sistem yang dirancang untuk menjalankan model vision yang memakai memori jauh lebih sedikit dibanding tugas training ML umum lainnya Kepadatan daya yang sangat tinggi → Setiap chip D1 hanya mengonsumsi 400W, yang merupakan perkiraan mutakhir untuk ukuran ini, tetapi ini digabungkan ke dalam MCM 25-chip yang cukup rapat sehingga hanya mengonsumsi 15kw (10kw untuk D1 dan 5kw untuk voltage regulator) → Dengan begitu, sistem training Dojo 10-rack yang terisi penuh mencapai 1,8 megawatt → Dari sudut pandang skala, data center berukuran menengah biasanya beroperasi di kisaran 30~40 megawatt Meski bagian kecil, menempatkan VRD (Voltage Regulator Down) langsung di tile tampaknya merupakan upaya yang baik untuk menyuplai daya 52V yang luar biasa tinggi. Bahkan dengan konsumsi daya 15Kw, pada 52V masih tetap mengonsumsi 288A 354 unit fungsional digabungkan dalam satu chip D1 berukuran 645mm^2. 25 chip D1 membentuk modul multi-chip yang disebut training tile, 12 training tile membentuk rack, dan 10 rack mengisi Exapod. "Sistem yang sangat inovatif"

(perspectives.mvdirona.com)

11 poin oleh xguru 2021-08-24 | 1 komentar | Bagikan ke WhatsApp

Tulisan dari James Hamilton, VP di AWS

Sistem machine learning Dojo menarik dari 3 sisi

Jaringan berskala besar

→ Setiap chip D1 menyediakan networking 16.000Gbps (4 kanal 4Tbps), dan digabungkan menjadi MCM 25-chip (Multi-Chip Modules) untuk menyediakan bandwidth 36.000Gbps (4x 9Tb)

Rasio memori terhadap komputasi yang sangat kecil

→ Setiap chip D1 memiliki 354 unit fungsional, dan tiap unit hanya punya 1,25 mega SRAM serta tidak memiliki DRAM, sehingga satu chip D1 bahkan memiliki memori kurang dari setengah 1 giga (442,5Mb)

→ Menempatkan pool DRAM besar di ujung rack berisi 5 unit, dan rack komputasinya sendiri tidak memiliki DRAM

→ Jika dipikirkan bagaimana sistem ini bisa bekerja dengan memori sesedikit itu, kemungkinan ini adalah kombinasi dari bandwidth jaringan yang sangat besar dan sistem yang dirancang untuk menjalankan model vision yang memakai memori jauh lebih sedikit dibanding tugas training ML umum lainnya

Kepadatan daya yang sangat tinggi

→ Setiap chip D1 hanya mengonsumsi 400W, yang merupakan perkiraan mutakhir untuk ukuran ini, tetapi ini digabungkan ke dalam MCM 25-chip yang cukup rapat sehingga hanya mengonsumsi 15kw (10kw untuk D1 dan 5kw untuk voltage regulator)

→ Dengan begitu, sistem training Dojo 10-rack yang terisi penuh mencapai 1,8 megawatt

→ Dari sudut pandang skala, data center berukuran menengah biasanya beroperasi di kisaran 30~40 megawatt

Meski bagian kecil, menempatkan VRD (Voltage Regulator Down) langsung di tile tampaknya merupakan upaya yang baik untuk menyuplai daya 52V yang luar biasa tinggi. Bahkan dengan konsumsi daya 15Kw, pada 52V masih tetap mengonsumsi 288A
354 unit fungsional digabungkan dalam satu chip D1 berukuran 645mm^2. 25 chip D1 membentuk modul multi-chip yang disebut training tile, 12 training tile membentuk rack, dan 10 rack mengisi Exapod.
"Sistem yang sangat inovatif"

1 komentar

xguru 2021-08-24

Tulisan Tesla AI Day yang layak dibaca bersama

Kesan tentang Tesla AI Day https://id.news.hada.io/topic?id=4859
Ringkasan isi Tesla AI Day.gif https://gall.dcinside.com/mgallery/board/…
Tesla AI Day versi lengkap bagian 1 dengan subtitle bahasa Korea https://www.youtube.com/watch?v=Ah-TMrKSvic

Ikhtisar Project Dojo milik Tesla

Bacaan terkait

1 komentar