Membangun Infrastruktur GenAI Meta

(engineering.fb.com)

4 poin oleh GN⁺ 2024-03-13 | 1 komentar | Bagikan ke WhatsApp

Meta mengumumkan dua klaster GPU berisi masing-masing 24.576 GPU sebagai bagian dari investasi utamanya untuk masa depan AI
- Membagikan detail tentang perangkat keras, jaringan, penyimpanan, desain, performa, dan perangkat lunak
- Desain klaster ini digunakan untuk pelatihan Llama 3
Meta berkomitmen pada open compute dan open source
- Membangun klaster semacam ini berdasarkan Grand Teton, OpenRack, dan PyTorch, serta terus mendorong inovasi terbuka di seluruh industri
Pengumuman ini merupakan satu langkah dalam roadmap infrastruktur yang ambisius
- Menargetkan terus memperluas pembangunan infrastruktur yang mencakup 350.000 GPU NVIDIA H100 sebagai bagian dari portofolio dengan daya komputasi yang setara dengan hampir 600.000 H100 pada akhir 2024

Wawasan tentang klaster AI berskala besar Meta

Visi jangka panjang Meta adalah menciptakan artificial general intelligence (AGI) yang dibangun secara terbuka dan bertanggung jawab agar semua orang dapat merasakan manfaatnya
Kemajuan menuju AGI akan menghasilkan produk baru, fitur AI baru di aplikasi, dan perangkat komputasi baru yang berpusat pada AI
Meta memiliki sejarah panjang dalam membangun infrastruktur AI, dan pada 2022 pertama kali membagikan detail tentang AI Research SuperCluster (RSC) untuk riset AI yang menampilkan 16.000 GPU NVIDIA A100

Struktur internal

Klaster AI baru ini dibangun berdasarkan keberhasilan dan pelajaran yang diperoleh dari RSC
Dengan fokus pada pengalaman dan produktivitas peneliti serta developer, klaster ini mendukung model yang lebih besar dan kompleks melalui efisiensi network fabric berperforma tinggi dan keputusan penyimpanan utama

Jaringan

Meta menangani puluhan triliun eksekusi model AI per hari
Untuk menyediakan layanan dalam skala besar, dibutuhkan infrastruktur yang sangat maju dan fleksibel
Meta merancang khusus perangkat keras, perangkat lunak, dan network fabric-nya sendiri untuk mengoptimalkan pengalaman para peneliti AI dan memastikan operasi pusat data yang efisien

Komputasi

Kedua klaster dibangun menggunakan Grand Teton, platform perangkat keras GPU terbuka yang dirancang internal oleh Meta
Grand Teton mengintegrasikan daya, kontrol, komputasi, dan antarmuka fabric ke dalam satu chassis untuk meningkatkan performa keseluruhan, integritas sinyal, dan performa termal

Penyimpanan

Dalam pelatihan AI, penyimpanan memainkan peran penting tetapi merupakan salah satu aspek yang paling jarang dibahas
Mengoptimalkan versi solusi penyimpanan terdistribusi 'Tectonic' milik Meta untuk media flash
- Melalui API FUSE (Linux Filesystem in Userspace) yang dikembangkan sendiri, Meta menangani kebutuhan data dan checkpointing klaster AI
- Ribuan GPU dapat menyimpan dan memuat checkpoint secara tersinkronisasi, serta menyediakan penyimpanan skala exabyte yang fleksibel dan berthroughput tinggi untuk kebutuhan pemuatan data
Bekerja sama dengan Hammerspace untuk bersama-sama mengembangkan deployment network file system (NFS) paralel

Performa

Saat membangun klaster AI berskala besar, prinsip pentingnya adalah memaksimalkan performa dan kemudahan penggunaan secara bersamaan
Cara terbaik untuk menguji kemampuan penskalaan desain sambil mendorong batas sistem AI adalah dengan benar-benar membangun sistemnya, mengoptimalkannya, lalu mengujinya secara nyata
Meta membangun, mengoptimalkan, dan menguji sistem secara nyata untuk menguji skalabilitas desainnya
Meta terus mengembangkan PyTorch, framework AI dasar yang mendukung workload AI, agar siap untuk pelatihan GPU dalam jumlah puluhan hingga bahkan ratusan ribu

Komitmen terhadap inovasi AI terbuka

Meta mempertahankan komitmennya terhadap inovasi terbuka dalam perangkat lunak dan perangkat keras AI
Sebagai anggota pendiri OCP, Meta terus mendukung inovasi perangkat keras terbuka dan menyediakan desain seperti Grand Teton dan Open Rack kepada komunitas OCP
Meta juga merupakan kontributor terbesar dan utama untuk PyTorch, framework perangkat lunak AI yang mendukung banyak bagian industri
Perangkat keras dan perangkat lunak open source dipandang sebagai alat penting untuk membantu menyelesaikan masalah dalam skala besar

Masa depan infrastruktur AI Meta

Desain dua klaster pelatihan AI ini merupakan bagian dari roadmap yang lebih besar untuk masa depan AI
Meta berencana terus memperluas infrastrukturnya, termasuk 350.000 NVIDIA H100 sebagai bagian dari portofolio dengan daya komputasi yang setara dengan 600.000 H100 pada akhir 2024

Opini GN⁺

Klaster GPU 24k yang diumumkan Meta menandai kemajuan penting dalam riset dan pengembangan AI, khususnya dengan menyediakan sumber daya komputasi kuat yang dibutuhkan untuk melatih model AI berskala besar
Infrastruktur seperti ini menjadi fondasi bagi para peneliti untuk mengembangkan solusi AI yang lebih inovatif seiring kompleksitas dan ukuran model AI yang terus meningkat
Komitmen Meta terhadap open source dan open compute dapat mendorong inovasi di seluruh industri dan membantu organisasi lain memanfaatkan teknologi ini untuk mengembangkan solusi AI mereka sendiri
Namun, klaster berskala besar seperti ini juga perlu mempertimbangkan dampak lingkungan yang terkait dengan konsumsi energi yang sangat besar, yang dapat menjadi pertimbangan penting dalam aspek keberlanjutan
Pengumuman Meta ini memberikan wawasan menarik tentang masa depan teknologi AI dan membuka kesempatan untuk memikirkan lebih dalam dampak kemajuan AI terhadap masyarakat dan industri

1 komentar

GN⁺ 2024-03-13

Opini Hacker News

Penyebutan float8 dan peningkatan FLOPs
- float8 disebutkan, dan karena itu FLOPs meningkat 2x.
- xformers kini mendukung sparsity 2:4 sehingga FLOPs dapat meningkat 2x lagi.
- Llama3 juga dapat menggunakan 4x FLOPs H100 float16 dengan memakai float8 dan sparsity 2:4 pada MLP.
- PyTorch mendukung fp8 secara eksperimental, tetapi melakukan attention pada float8 masih rumit karena masalah presisi.
- Mungkin attention diproses dengan float16, RoPE/layernorms dengan float16/float32, dan semua hal lain dengan float8.
Perbandingan era dot-com dan era AI
- Seseorang yang mengalami era dot-com merasa agak kecewa dengan era AI karena biaya modal yang sangat besar untuk pelatihan model.
- Pada awal era dot-com, siapa pun bisa memulai situs e-commerce dengan biaya infrastruktur yang relatif kecil.
- Saat ini, tampaknya hanya perusahaan besar seperti Meta, Google, Microsoft, dan OpenAI yang bisa membangun model AI.
Hubungan antara daya komputasi dan waktu engineering
- Ada ketertarikan pada apakah jika Facebook bisa meningkatkan daya komputasi 10x, seluruh stack perlu didesain ulang, dan bagaimana jika 100x.
- Muncul pertanyaan apakah setiap redesain itu perubahan sederhana atau pekerjaan yang jauh lebih kompleks.
- Karena pemahaman teknis tentang bagian dalam cluster masih di tingkat permukaan, ada rasa ingin tahu terhadap pendapat orang yang punya pengalaman terkait.
Ketertarikan pada pekerjaan optimasi pipeline
- Ada pertanyaan tentang bagaimana memulai bagi orang yang ingin terlibat dalam pekerjaan optimasi pipeline.
- Ada rasa ingin tahu apakah ini berarti ilmuwan machine learning yang punya pengetahuan C/C++ dan infrastruktur lalu "turun" ke sistem saat diperlukan, atau pakar CUDA/SIMD yang "naik" untuk mengerjakan machine learning.
Kemampuan engineering Meta
- Meta menunjukkan hasil yang kuat di bidang engineering meskipun ada tekanan negatif.
- Muncul pertanyaan bagaimana Meta berencana memonetisasi kemampuan engineering ini.
Perspektif historis tentang engineering dan infrastruktur
- Ada penyebutan makalah DLRM serta rack terdisagregasi awal dan SDN milik Facebook.
- Bahkan pada 2018, mereka sudah menjalankan sistem rekomendasi dan ranking dengan jaringan saraf besar sambil menempatkan SSD dan DRAM di bagian lain dari rack.
- Ada penyebutan model prediksi klik dan rasa kagum terhadap metode pelatihan HOGWILD yang menggunakan Intel AVX-2.
- Hal ini menekankan bahwa Meta masih memiliki kemampuan terbaik dalam desain infrastruktur dan desain SKU.
Kemungkinan Meta bersaing dalam workload AI
- Ada rasa ingin tahu apakah Meta bisa bersaing dengan AWS, MSFT, dan GOOG di bidang workload AI.
Biaya GPU H100
- Ada perkiraan tentang berapa harga yang dibayar Meta untuk GPU H100.
- Jika membeli 350.000 NVIDIA H100 seharga $10k, total biayanya akan menjadi $3.5b.
Sikap terbuka Meta terhadap inovasi AI
- Ada pengakuan bahwa Meta menunjukkan sikap terbuka terhadap inovasi AI.
Visi jangka panjang Meta dan AGI
- Visi jangka panjang Meta adalah membangun artificial general intelligence (AGI).

Membangun Infrastruktur GenAI Meta

Wawasan tentang klaster AI berskala besar Meta

Struktur internal

Jaringan

Komputasi

Penyimpanan

Performa

Komitmen terhadap inovasi AI terbuka

Masa depan infrastruktur AI Meta

Opini GN⁺

Bacaan terkait

1 komentar

Opini Hacker News