Chip Intel Gaudi 2 melampaui Nvidia H100 dalam benchmark Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

Seri "Behind the Compute" adalah rangkaian posting blog yang mendokumentasikan rekam jejak bisnis Stability AI sekaligus memberikan wawasan agar pihak lain dapat memanfaatkan kekuatan AI generatif Edisi kali ini menggali lebih dalam benchmark performa dan keunggulan dari berbagai solusi komputasi Analisis performa Analisis performa dilakukan dengan melatih dua model, salah satunya adalah Stable Diffusion 3 yang sangat dinantikan Kecepatan pelatihan diukur dengan membandingkan akselerator Intel Gaudi 2 dengan A100 dan H100 dari Nvidia Ketiganya merupakan opsi yang paling umum dipilih startup dan pengembang untuk melatih model bahasa skala besar Model 1: Stable Diffusion 3 Stable Diffusion 3 adalah model teks-ke-gambar paling mumpuni yang akan segera memasuki tahap pratinjau awal Versi publik Stable Diffusion 3 akan tersedia dalam ukuran mulai dari 800M hingga 8B parameter Analisis menggunakan versi 2B parameter menunjukkan hasil yang melampaui ekspektasi Throughput pelatihan diukur pada model arsitektur 2B Multimodal Diffusion Transformer (MMDiT), yang menggunakan d=24, mixed precision BFloat16, dan attention yang dioptimalkan (xFormers untuk A100 dan FusedSDPA untuk Intel Gaudi) Versi model ini disebut MMDiT-ps2-d24 Melihat hasil benchmark pelatihan dengan 2 node, total 16 akselerator (Gaudi/GPU), sistem Gaudi 2 memproses 927 gambar pelatihan per detik sambil mempertahankan ukuran batch 16 per akselerator - 1,5 kali lebih cepat daripada H100-80GB Dengan memanfaatkan memori bandwidth tinggi 96GB (HBM2E) pada Gaudi 2, ukuran batch per akselerator ditingkatkan menjadi 32 sehingga kecepatan pelatihan naik lebih jauh menjadi 1.254 gambar per detik Saat pelatihan terdistribusi diskalakan ke 32 node Gaudi 2 (total 256 akselerator), performa yang terukur tetap sangat kompetitif Dalam konfigurasi ini, klaster Gaudi 2 memproses lebih dari 3 kali lebih banyak gambar per detik dibanding GPU A100-80GB. Ini mengesankan meskipun A100 memiliki software stack yang sangat dioptimalkan Dalam pengujian inferensi untuk model Stable Diffusion 3 berparameter 8B, chip Gaudi 2 memberikan kecepatan inferensi yang mirip dengan chip Nvidia A100 dengan menggunakan PyTorch bawaan Namun, melalui optimasi TensorRT, chip A100 menghasilkan gambar 40% lebih cepat daripada Gaudi 2 Dengan optimasi tambahan, Gaudi 2 diperkirakan segera akan melampaui A100 pada model ini Dalam pengujian sebelumnya menggunakan PyTorch bawaan, Gaudi 2 menghasilkan gambar 1024x1024 dalam 30 langkah hanya dalam 3,2 detik, sementara A100 memerlukan 3,6 detik dengan PyTorch dan 2,7 detik dengan TensorRT Memori yang lebih besar, interkoneksi yang lebih cepat, dan pertimbangan desain lain pada Gaudi 2 membuatnya kompetitif untuk menjalankan arsitektur Diffusion Transformer yang menopang model media generasi berikutnya Model 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B adalah versi fine-tuned dari LLaMA 2 70B, berbasis Stable Beluga 2, model terbuka pertama yang melampaui ChatGPT 3.5 pada benchmark tertentu Benchmark pelatihan ini dijalankan pada 256 akselerator Gaudi 2, dan dengan langsung menjalankan kode PyTorch tanpa optimasi tambahan, diukur throughput total rata-rata 116.777 token/detik Ini menggunakan tipe data FP16, ukuran batch global 1024, langkah gradient accumulation 2, dan ukuran micro-batch 2 Saat pengujian inferensi dilakukan untuk model bahasa 70B di Gaudi 2, dengan ukuran token input 128 dan ukuran token output 2048, dihasilkan 673 token/detik per akselerator Dibandingkan dengan TensorRT-LLM, Gaudi 2 28% lebih cepat daripada A100 yang mencatat 525 token/detik Peningkatan kecepatan lebih lanjut dengan FP8 diharapkan Permintaan atas solusi komputasi Perusahaan seperti kami menghadapi permintaan yang terus meningkat terhadap solusi komputasi yang semakin kuat dan efisien Temuan kami menegaskan perlunya alternatif seperti Gaudi 2. Selain menawarkan performa lebih unggul dibanding chip 7nm lainnya, Gaudi 2 juga menjawab kebutuhan penting pasar seperti rasio harga-performa, harga yang lebih terjangkau, dan lead time yang lebih singkat Adanya pilihan dalam opsi komputasi memperluas partisipasi dan inovasi, serta membuat teknologi AI canggih lebih mudah diakses oleh semua orang

(stability.ai)

6 poin oleh xguru 2024-03-12 | 1 komentar | Bagikan ke WhatsApp

Seri "Behind the Compute" adalah rangkaian posting blog yang mendokumentasikan rekam jejak bisnis Stability AI sekaligus memberikan wawasan agar pihak lain dapat memanfaatkan kekuatan AI generatif
Edisi kali ini menggali lebih dalam benchmark performa dan keunggulan dari berbagai solusi komputasi

Analisis performa

Analisis performa dilakukan dengan melatih dua model, salah satunya adalah Stable Diffusion 3 yang sangat dinantikan
Kecepatan pelatihan diukur dengan membandingkan akselerator Intel Gaudi 2 dengan A100 dan H100 dari Nvidia
Ketiganya merupakan opsi yang paling umum dipilih startup dan pengembang untuk melatih model bahasa skala besar

Model 1: Stable Diffusion 3

Stable Diffusion 3 adalah model teks-ke-gambar paling mumpuni yang akan segera memasuki tahap pratinjau awal
Versi publik Stable Diffusion 3 akan tersedia dalam ukuran mulai dari 800M hingga 8B parameter
Analisis menggunakan versi 2B parameter menunjukkan hasil yang melampaui ekspektasi
Throughput pelatihan diukur pada model arsitektur 2B Multimodal Diffusion Transformer (MMDiT), yang menggunakan d=24, mixed precision BFloat16, dan attention yang dioptimalkan (xFormers untuk A100 dan FusedSDPA untuk Intel Gaudi)
Versi model ini disebut MMDiT-ps2-d24
Melihat hasil benchmark pelatihan dengan 2 node, total 16 akselerator (Gaudi/GPU), sistem Gaudi 2 memproses 927 gambar pelatihan per detik sambil mempertahankan ukuran batch 16 per akselerator - 1,5 kali lebih cepat daripada H100-80GB
Dengan memanfaatkan memori bandwidth tinggi 96GB (HBM2E) pada Gaudi 2, ukuran batch per akselerator ditingkatkan menjadi 32 sehingga kecepatan pelatihan naik lebih jauh menjadi 1.254 gambar per detik
Saat pelatihan terdistribusi diskalakan ke 32 node Gaudi 2 (total 256 akselerator), performa yang terukur tetap sangat kompetitif
Dalam konfigurasi ini, klaster Gaudi 2 memproses lebih dari 3 kali lebih banyak gambar per detik dibanding GPU A100-80GB. Ini mengesankan meskipun A100 memiliki software stack yang sangat dioptimalkan
Dalam pengujian inferensi untuk model Stable Diffusion 3 berparameter 8B, chip Gaudi 2 memberikan kecepatan inferensi yang mirip dengan chip Nvidia A100 dengan menggunakan PyTorch bawaan
Namun, melalui optimasi TensorRT, chip A100 menghasilkan gambar 40% lebih cepat daripada Gaudi 2
Dengan optimasi tambahan, Gaudi 2 diperkirakan segera akan melampaui A100 pada model ini
Dalam pengujian sebelumnya menggunakan PyTorch bawaan, Gaudi 2 menghasilkan gambar 1024x1024 dalam 30 langkah hanya dalam 3,2 detik, sementara A100 memerlukan 3,6 detik dengan PyTorch dan 2,7 detik dengan TensorRT
Memori yang lebih besar, interkoneksi yang lebih cepat, dan pertimbangan desain lain pada Gaudi 2 membuatnya kompetitif untuk menjalankan arsitektur Diffusion Transformer yang menopang model media generasi berikutnya

Model 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B adalah versi fine-tuned dari LLaMA 2 70B, berbasis Stable Beluga 2, model terbuka pertama yang melampaui ChatGPT 3.5 pada benchmark tertentu
Benchmark pelatihan ini dijalankan pada 256 akselerator Gaudi 2, dan dengan langsung menjalankan kode PyTorch tanpa optimasi tambahan, diukur throughput total rata-rata 116.777 token/detik
Ini menggunakan tipe data FP16, ukuran batch global 1024, langkah gradient accumulation 2, dan ukuran micro-batch 2
Saat pengujian inferensi dilakukan untuk model bahasa 70B di Gaudi 2, dengan ukuran token input 128 dan ukuran token output 2048, dihasilkan 673 token/detik per akselerator
Dibandingkan dengan TensorRT-LLM, Gaudi 2 28% lebih cepat daripada A100 yang mencatat 525 token/detik
Peningkatan kecepatan lebih lanjut dengan FP8 diharapkan

Permintaan atas solusi komputasi

Perusahaan seperti kami menghadapi permintaan yang terus meningkat terhadap solusi komputasi yang semakin kuat dan efisien
Temuan kami menegaskan perlunya alternatif seperti Gaudi 2. Selain menawarkan performa lebih unggul dibanding chip 7nm lainnya, Gaudi 2 juga menjawab kebutuhan penting pasar seperti rasio harga-performa, harga yang lebih terjangkau, dan lead time yang lebih singkat
Adanya pilihan dalam opsi komputasi memperluas partisipasi dan inovasi, serta membuat teknologi AI canggih lebih mudah diakses oleh semua orang

1 komentar

xguru 2024-03-12

Komentar Hacker News

Menarik bahwa TPU dapat dengan mudah mengungguli A100. Di dreamlook.ai yang menyediakan fine-tuning Stable Diffusion menggunakan TPU, orang-orang terkejut dengan kecepatan penyediaan dan biayanya. Namun tidak ada rahasia besar; mereka hanya menggunakan perangkat keras yang lebih cepat dan lebih murah per unit kerja.
Mendorong persaingan dalam pelatihan model dengan perangkat keras baru itu bagus, tetapi ketersediaan mesin-mesin ini sangat terbatas. Penyedia cloud utama tidak mengizinkan penyewaan VM Gaudi2 per jam, dan situs Intel sendiri mengarahkan pembelian server 8x GPU seharga lebih dari 40 ribu USD. Untuk saat ini Nvidia masih unggul dalam hal software stack dan ketersediaan, tetapi mungkin perubahan akan mulai terjadi pada akhir tahun ini.
NVIDIA memperoleh margin laba hampir 92% dari H100. Mengejutkan bahwa tidak lebih banyak perusahaan chip yang terjun ke bidang "akselerator ML".
Akan sangat berguna dan memberi wawasan jika ada analisis tentang bagaimana sesuatu bisa 3 kali lebih cepat meskipun metrik perangkat kerasnya tidak 3 kali lebih baik. Jika tidak, ini hanya iklan biasa.
H100 dirilis hampir setahun yang lalu, jadi tidak masalah jika Intel siap bersaing dengan model tahun lalu. Perlu diingat bahwa CUDA adalah bagian yang sangat penting, dan butuh 10 tahun agar perangkat keras dan perangkat lunak matang bersama.
H100 sudah dikirim dalam jumlah besar selama sekitar satu tahun. Apakah Gaudi2 juga tersedia dalam skala serupa? Sampai NVIDIA gagal menunjukkan keunggulan yang jelas atas komponen pesaing pada rentang waktu yang sebanding, NVIDIA sama sekali tidak boleh diremehkan.
Tidak seorang pun, termasuk karyawan Intel AXG, dapat memberikan jawaban yang memuaskan tentang mengapa Gaudi dan Ponte Vecchio sama-sama ada. Bukankah peluang keberhasilan Intel akan lebih besar jika fokus pada satu lini produk?
Saya penasaran bagaimana para ilmuwan AI bekerja akhir-akhir ini. Apakah mereka benar-benar mengutak-atik Cudakernels, atau merangkai model dengan toolkit tingkat tinggi seperti pytorch? Jika yang kedua, dan pytorch menyediakan backend yang dioptimalkan untuk berbagai perangkat keras, apakah CUDA benar-benar hambatan besar?