- Seri "Behind the Compute" adalah rangkaian posting blog yang mendokumentasikan rekam jejak bisnis Stability AI sekaligus memberikan wawasan agar pihak lain dapat memanfaatkan kekuatan AI generatif
- Edisi kali ini menggali lebih dalam benchmark performa dan keunggulan dari berbagai solusi komputasi
Analisis performa
- Analisis performa dilakukan dengan melatih dua model, salah satunya adalah Stable Diffusion 3 yang sangat dinantikan
- Kecepatan pelatihan diukur dengan membandingkan akselerator Intel Gaudi 2 dengan A100 dan H100 dari Nvidia
- Ketiganya merupakan opsi yang paling umum dipilih startup dan pengembang untuk melatih model bahasa skala besar
Model 1: Stable Diffusion 3
- Stable Diffusion 3 adalah model teks-ke-gambar paling mumpuni yang akan segera memasuki tahap pratinjau awal
- Versi publik Stable Diffusion 3 akan tersedia dalam ukuran mulai dari 800M hingga 8B parameter
- Analisis menggunakan versi 2B parameter menunjukkan hasil yang melampaui ekspektasi
- Throughput pelatihan diukur pada model arsitektur 2B Multimodal Diffusion Transformer (MMDiT), yang menggunakan d=24, mixed precision BFloat16, dan attention yang dioptimalkan (xFormers untuk A100 dan FusedSDPA untuk Intel Gaudi)
- Versi model ini disebut MMDiT-ps2-d24
- Melihat hasil benchmark pelatihan dengan 2 node, total 16 akselerator (Gaudi/GPU), sistem Gaudi 2 memproses 927 gambar pelatihan per detik sambil mempertahankan ukuran batch 16 per akselerator - 1,5 kali lebih cepat daripada H100-80GB
- Dengan memanfaatkan memori bandwidth tinggi 96GB (HBM2E) pada Gaudi 2, ukuran batch per akselerator ditingkatkan menjadi 32 sehingga kecepatan pelatihan naik lebih jauh menjadi 1.254 gambar per detik
- Saat pelatihan terdistribusi diskalakan ke 32 node Gaudi 2 (total 256 akselerator), performa yang terukur tetap sangat kompetitif
- Dalam konfigurasi ini, klaster Gaudi 2 memproses lebih dari 3 kali lebih banyak gambar per detik dibanding GPU A100-80GB. Ini mengesankan meskipun A100 memiliki software stack yang sangat dioptimalkan
- Dalam pengujian inferensi untuk model Stable Diffusion 3 berparameter 8B, chip Gaudi 2 memberikan kecepatan inferensi yang mirip dengan chip Nvidia A100 dengan menggunakan PyTorch bawaan
- Namun, melalui optimasi TensorRT, chip A100 menghasilkan gambar 40% lebih cepat daripada Gaudi 2
- Dengan optimasi tambahan, Gaudi 2 diperkirakan segera akan melampaui A100 pada model ini
- Dalam pengujian sebelumnya menggunakan PyTorch bawaan, Gaudi 2 menghasilkan gambar 1024x1024 dalam 30 langkah hanya dalam 3,2 detik, sementara A100 memerlukan 3,6 detik dengan PyTorch dan 2,7 detik dengan TensorRT
- Memori yang lebih besar, interkoneksi yang lebih cepat, dan pertimbangan desain lain pada Gaudi 2 membuatnya kompetitif untuk menjalankan arsitektur Diffusion Transformer yang menopang model media generasi berikutnya
Model 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B adalah versi fine-tuned dari LLaMA 2 70B, berbasis Stable Beluga 2, model terbuka pertama yang melampaui ChatGPT 3.5 pada benchmark tertentu
- Benchmark pelatihan ini dijalankan pada 256 akselerator Gaudi 2, dan dengan langsung menjalankan kode PyTorch tanpa optimasi tambahan, diukur throughput total rata-rata 116.777 token/detik
- Ini menggunakan tipe data FP16, ukuran batch global 1024, langkah gradient accumulation 2, dan ukuran micro-batch 2
- Saat pengujian inferensi dilakukan untuk model bahasa 70B di Gaudi 2, dengan ukuran token input 128 dan ukuran token output 2048, dihasilkan 673 token/detik per akselerator
- Dibandingkan dengan TensorRT-LLM, Gaudi 2 28% lebih cepat daripada A100 yang mencatat 525 token/detik
- Peningkatan kecepatan lebih lanjut dengan FP8 diharapkan
Permintaan atas solusi komputasi
- Perusahaan seperti kami menghadapi permintaan yang terus meningkat terhadap solusi komputasi yang semakin kuat dan efisien
- Temuan kami menegaskan perlunya alternatif seperti Gaudi 2. Selain menawarkan performa lebih unggul dibanding chip 7nm lainnya, Gaudi 2 juga menjawab kebutuhan penting pasar seperti rasio harga-performa, harga yang lebih terjangkau, dan lead time yang lebih singkat
- Adanya pilihan dalam opsi komputasi memperluas partisipasi dan inovasi, serta membuat teknologi AI canggih lebih mudah diakses oleh semua orang
1 komentar
Komentar Hacker News