Tenstorrent yang dipimpin Jim Keller mengungkap Grayskull berbasis RISC-V sebagai penantang GPU

(techradar.com)

10 poin oleh GN⁺ 2024-03-11 | 2 komentar | Bagikan ke WhatsApp

Tenstorrent adalah perusahaan yang dipimpin oleh perancang chip ternama Jim Keller, yang pernah merancang arsitektur Zen milik AMD dan chip autonomous driving Tesla
Perusahaan ini merilis Grayskull, alternatif GPU berbasis RISC-V yang mudah diprogram dan diskalakan, serta unggul dalam menangani sparsity dan komputasi kondisional saat runtime
Tenstorrent juga memperkenalkan dua versi development kit, Grayskull e75 dan Grayskull e150. Keduanya adalah hardware khusus inferensi untuk pengembangan AI, dengan dukungan software TT-Buda dan TT-Metalium
Tenstorrent menjalin kemitraan dengan Leading-edge Semiconductor Technology Center (LSTC) di Jepang
Perusahaan ini berencana membangun akselerator AI 2nm mutakhir dengan menggunakan RISC-V dan chiplet IP milik Tenstorrent

Kekuatan Grayskull!

Model Grayskull e75 dilengkapi satu prosesor Grayskull pada board PCIe Gen 4 low-profile half-length yang beroperasi pada 75W
Model Grayskull e150 dilengkapi prosesor Grayskull pada board PCIe Gen 4 tinggi standar dengan panjang 3/4, beroperasi hingga 200W, dan menawarkan keseimbangan antara daya serta throughput

Prosesor dan DevKit Tenstorrent

Prosesor Tenstorrent terdiri dari grid core yang disebut core Tensix, serta memiliki hardware komunikasi jaringan yang memungkinkan komunikasi langsung antarcoprocessor melalui jaringan tanpa melewati DRAM
Grayskull DevKit mendukung berbagai model seperti BERT untuk pemrosesan bahasa alami, ResNet untuk pengenalan gambar, Whisper untuk pengenalan suara dan terjemahan, YOLOv5 untuk deteksi objek real-time, serta U-Net untuk segmentasi gambar
DevKit Grayskull e75 dan e150 masing-masing tersedia dengan harga $599 dan $799

Opini GN⁺

Sebagai alternatif berbasis RISC-V untuk GPU tradisional, Grayskull dari Tenstorrent dapat menambah keberagaman industri dengan memberi pengembang AI pilihan baru
Keunggulan Grayskull dalam menangani sparsity dan komputasi kondisional saat runtime memiliki potensi untuk meningkatkan efisiensi serta performa model AI
Saat mengadopsi teknologi ini, kompatibilitas dengan lingkungan pengembangan yang sudah ada, dukungan ekosistem, serta efisiensi performa dan biaya jangka panjang perlu dipertimbangkan
Produk lain di industri yang menawarkan fungsi serupa antara lain GPU dari NVIDIA dan TPU dari Google, tetapi Grayskull berbeda karena dibangun di atas arsitektur RISC-V
Keberhasilan Grayskull dapat mendorong pertumbuhan dan inovasi ekosistem hardware open source, yang pada akhirnya berkontribusi pada demokratisasi teknologi dan peningkatan aksesibilitas

2 komentar

ryudaewan 2024-03-12

Sepertinya Jim Keller adalah penggemar He-Man ya. https://youtu.be/V8h8snfYidg?feature=shared

GN⁺ 2024-03-11

Opini Hacker News

Ringkasan tentang kit pengembangan Grayskull:
- Grayskull e75: konsumsi daya 75W, 96 inti Tensix, kecepatan clock 1GHz, SRAM 96MB, memori LPDDR4 8GB (102.4 GB/s), harga $599
- Grayskull e150: konsumsi daya 200W, 120 inti Tensix, kecepatan clock 1.2GHz, SRAM 120MB, memori LPDDR4 8GB (118.4 GB/s), harga $799
- Ada ketertarikan pada bagaimana performa inferensi produk ini dibandingkan kartu grafis, dan apakah cocok untuk home lab.
- Ada wawancara unboxing versi pratinjau produk, tetapi tidak menyediakan angka performa.
Opini tentang arsitektur:
- Keterlibatan Jim Keller menarik perhatian, tetapi bagi orang yang tidak memiliki pengetahuan tentang desain CPU/ASIC, arsitekturnya tampak agak 'aneh'.
- Grid inti, memori, dan antarmuka tercampur, dan ada permintaan penjelasan tentang topologi yang terhubung lewat jaringan.
Penjelasan tentang cara kerja arsitektur:
- Sistem dasar terdiri dari inti Tensix dan memori bersama.
- Setiap inti Tensix mencakup unit matematika tensor berdensitas tinggi (FPU) untuk menjalankan operasi tensor, mesin SIMD (SFPU), 5 inti CPU Risc-V, dan penyimpanan memori lokal berkapasitas besar.
- Inti-intinya terhubung dalam dua cincin berbentuk donat yang bergerak berlawanan arah.
- Inti RISC-V digunakan untuk mengendalikan FPU dan SFPU serta menyiapkan/memindahkan data.
- SFPU adalah mesin SIMT yang lebih umum dan dapat dijalankan dari inti RISC-V.
- Simulator SFPU bisa dicoba di GitHub, dan model pemrogramannya dapat dilihat dalam contoh kernel tingkat rendah.
- SFPU Grayskull memiliki 4 LReg serbaguna yang dapat menyimpan 64 nilai 19-bit, sedangkan Wormhole memiliki 8 LReg serbaguna yang dapat menyimpan 32 nilai 32-bit.
- SFPU Wormhole memiliki peningkatan IPC sekitar 3x dibandingkan Grayskull serta beberapa instruksi SFPU baru.
- Informasi lebih lanjut bisa ditemukan dengan meninjau dokumentasi dan melihat repositori GitHub.
Pertanyaan tentang pemilihan model:
- Muncul pertanyaan mengapa memulai dengan model seperti BERT, ResNet, Whisper, YOLOv5, dan U-Net.
- Diduga tujuannya adalah efisiensi daya, tetapi tidak sepenuhnya cocok.
Pertanyaan tentang kebutuhan sistem:
- Muncul pertanyaan mengapa sistem host memerlukan RAM 64GB.
- Server inferensi seharusnya hanya memerlukan konfigurasi minimal selain perangkat keras inferensi.
Perbandingan dengan silikon kustom dari perusahaan lain:
- Ada rasa ingin tahu tentang cara membandingkan prosesor jenis ini dengan silikon kustom dari AWS, Google, dan Tesla.
Kemiripan arsitektur:
- Terasa mirip dengan cara GPU Intel Project Larrabee mencoba bekerja, hanya saja menggunakan RISC-V.
Kekecewaan terhadap solusi khusus inferensi:
- Ada ungkapan lelah melihat startup menjanjikan seperti Groq dan Tenstorrent hanya menawarkan solusi khusus inferensi.
- Melalui kanal resmi Groq, diperoleh informasi bahwa mereka tidak berencana berinvestasi dalam pengembangan yang memungkinkan pelatihan.
- Ini bisa dipahami karena permintaan inferensi mungkin jutaan kali lebih besar daripada permintaan pelatihan, tetapi tetap terasa mengecewakan.
Jumlah inti RISC-V pada Grayskull™ e150:
- Grayskull™ e150 memiliki 120 inti Tensix, dan masing-masing mencakup 5 inti RISC-V, sehingga totalnya 600 inti CPU RISC-V.
Kurangnya informasi tentang performa dan arsitektur:
- Tidak dapat ditemukan informasi rinci tentang performa maupun arsitektur.
- Untuk perangkat yang berfokus pada ML, bandwidth memorinya sangat rendah dan harganya sangat tinggi.
- Muncul pertanyaan tentang apa yang mungkin terlewat.