6 poin oleh GN⁺ 2024-10-18 | 1 komentar | Bagikan ke WhatsApp

Meta mengungkap desain hardware AI terbarunya di Open Compute Project (OCP) Global Summit 2024

  • Menampilkan inovasi seperti platform AI baru, desain open rack mutakhir, network fabric dan komponen canggih
  • Dengan membagikan desainnya, Meta ingin mendorong kolaborasi dan mempercepat inovasi

Inovasi pemodelan AI dan kemajuan infrastruktur Meta

  • Selama bertahun-tahun, Meta telah mengoptimalkan dan meningkatkan fungsi seperti feed dan sistem iklan melalui inovasi pemodelan AI
  • Seiring pengembangan dan peluncuran model AI yang baru dan lebih canggih, Meta juga berfokus pada pengembangan infrastruktur untuk mendukung workload AI baru
  • Sebagai contoh, untuk melatih model Llama 3.1 405B, Meta melakukan optimasi besar pada seluruh training stack sehingga dapat berjalan di lebih dari 16.000 GPU NVIDIA H100
  • Sepanjang 2023, Meta dengan cepat memperluas training cluster dari 1K menjadi 16K GPU, dan kini melatih model pada cluster 24K-GPU
  • Jumlah komputasi yang dibutuhkan untuk pelatihan AI diperkirakan akan terus meningkat secara signifikan di masa depan

Pentingnya networking dan bandwidth untuk membangun cluster AI

  • Selain GPU, networking dan bandwidth memainkan peran penting dalam menjamin performa cluster
  • Sistem Meta terdiri dari jaringan komputasi bandwidth tinggi yang menghubungkan sistem komputasi HPC dengan GPU dan akselerator khusus domain
  • Ke depan, bandwidth injeksi per akselerator diperkirakan meningkat ke level terabyte per detik, lebih dari 10 kali lipat dibanding jaringan saat ini
  • Untuk mendukung hal ini, dibutuhkan network fabric berkinerja tinggi, multilapis, dan non-blocking agar potensi cluster AI dapat dimanfaatkan sepenuhnya

Menjamin skalabilitas AI melalui hardware terbuka

  • Untuk menskalakan AI pada kecepatan seperti ini, dibutuhkan solusi hardware terbuka
  • Pengembangan arsitektur baru, network fabric, dan desain sistem berdasarkan prinsip keterbukaan adalah pendekatan yang paling efisien dan berdampak
  • Dengan berinvestasi pada hardware terbuka, potensi penuh AI dapat diwujudkan dan inovasi berkelanjutan di bidang AI dapat terus didorong

Memperkenalkan arsitektur terbuka "Catalina" untuk infrastruktur AI

  • Meta mengumumkan kepada komunitas OCP rencana peluncuran Catalina, rack berkinerja tinggi untuk workload AI
  • Catalina berbasis solusi skala rack penuh dari platform NVIDIA Blackwell, dengan fokus pada modularitas dan fleksibilitas
  • Dirancang untuk mendukung superchip NVIDIA GB200 Grace Blackwell terbaru guna memenuhi kebutuhan infrastruktur AI modern yang terus berkembang
  • Karena kebutuhan daya GPU terus meningkat, solusi open rack harus mendukung kemampuan daya yang lebih tinggi
  • Di Catalina, Meta memperkenalkan Orv3 high-power rack (HPR) yang dapat mendukung hingga 140kW
  • Solusinya sepenuhnya menggunakan pendinginan cair dan terdiri dari berbagai komponen
  • Desain modular Catalina memungkinkan rack disesuaikan dengan workload AI tertentu

Dukungan akselerator AMD pada platform Grand Teton

  • Grand Teton adalah platform AI generasi berikutnya dari Meta, dirancang untuk mendukung kebutuhan workload yang terikat bandwidth memori maupun workload yang terikat komputasi
  • Kini platform Grand Teton telah diperluas untuk mendukung AMD Instinct MI300X, dan Meta berencana menyumbangkan versi baru ini ke OCP
  • Seperti versi sebelumnya, Grand Teton mengusung desain sistem monolitik tunggal dengan daya, kontrol, komputasi, dan antarmuka fabric yang terintegrasi penuh
  • Selain mendukung berbagai desain akselerator termasuk AMD Instinct MI300x, platform ini juga menawarkan kapasitas komputasi lebih besar, memori yang diperluas, dan bandwidth jaringan yang meningkat

Open Disaggregated Scheduled Fabric (DSF)

  • Untuk terus meningkatkan performa cluster pelatihan AI, pengembangan backend networking terbuka yang netral vendor akan memainkan peran penting
  • Dengan memisahkan jaringan, Meta dapat bekerja sama dengan pemasok di seluruh industri untuk merancang sistem yang inovatif, skalabel, fleksibel, dan efisien
  • DSF baru Meta untuk cluster AI generasi berikutnya menawarkan berbagai keunggulan dibanding switch tradisional
  • DSF dijalankan oleh standar OCP-SAI yang terbuka dan sistem operasi jaringan milik Meta sendiri, FBOSS
  • DSF mendukung antarmuka RoCE berbasis Ethernet yang terbuka dan standar untuk endpoint dan akselerator di berbagai GPU dan NIC dari banyak pemasok seperti NVIDIA, Broadcom, dan AMD
  • Selain DSF, Meta juga telah mengembangkan dan membangun fabric switch 51T baru berbasis ASIC Broadcom dan Cisco, serta membagikan modul NIC baru bernama FBNIC yang mencakup ASIC jaringan rancangan internal pertama Meta

Kolaborasi Meta dan Microsoft untuk mendorong inovasi terbuka

  • Meta dan Microsoft telah menjalin kemitraan panjang di dalam OCP, dimulai dari pengembangan Switch Abstraction Interface (SAI) untuk data center pada 2018
  • Keduanya telah berkontribusi pada inisiatif penting seperti standar Open Accelerator Module (OAM) dan standardisasi SSD
  • Saat ini, kolaborasi kedua perusahaan berfokus pada Mount Diablo, rack daya terpisah baru
  • Mount Diablo adalah solusi mutakhir dengan perangkat 400VDC yang skalabel untuk meningkatkan efisiensi dan skalabilitas, serta memajukan infrastruktur AI secara signifikan

Masa depan terbuka untuk infrastruktur AI

  • Meta berkomitmen pada open source AI dan percaya bahwa open source akan membawa manfaat serta peluang AI ke tangan masyarakat di seluruh dunia
  • Tanpa kolaborasi, AI tidak akan mampu mewujudkan potensinya
  • Diperlukan framework software terbuka untuk mendorong inovasi model, menjamin portabilitas, dan meningkatkan transparansi pengembangan AI
  • Model yang terbuka dan terstandardisasi harus diprioritaskan untuk memanfaatkan keahlian kolektif, membuat AI lebih mudah diakses, dan meminimalkan bias dalam sistem
  • Sistem hardware AI terbuka juga dibutuhkan untuk menyediakan infrastruktur yang berkinerja tinggi, hemat biaya, dan adaptif bagi kemajuan AI
  • Meta mendorong siapa pun yang ingin berkontribusi pada perkembangan masa depan sistem hardware AI untuk bergabung dengan komunitas OCP
  • Dengan bersama-sama menyelesaikan kebutuhan infrastruktur AI, janji sejati AI terbuka untuk semua orang dapat diwujudkan

Opini GN⁺

  • Teknologi jaringan terbuka yang mencakup banyak pemasok GPU dan NIC dapat membantu mengatasi vendor lock-in serta meningkatkan skalabilitas dan fleksibilitas cluster pelatihan AI
  • Kolaborasi Meta dan Microsoft dapat memainkan peran penting dalam mempercepat inovasi infrastruktur AI terbuka. Berdasarkan kemitraan panjang yang telah dibangun keduanya melalui OCP, keduanya diperkirakan akan mempercepat pengembangan standar dan solusi baru
  • Dukungan kuat Meta terhadap open source AI sangat menggembirakan. Open source adalah jalan untuk mendemokratisasi potensi AI dan memperluas peluang AI ke seluruh masyarakat
  • Dalam proses membangun infrastruktur AI terbuka, hal-hal seperti transparansi, explainability, dan pertimbangan etis juga perlu dibahas bersama. Membangun kepercayaan sosial terhadap AI sama pentingnya dengan kemajuan teknologinya
  • Agar ekosistem hardware dan software AI dapat tumbuh bersama, dibutuhkan kolaborasi lintas industri serta partisipasi dari berbagai pemangku kepentingan seperti akademisi dan pembuat kebijakan. OCP diharapkan menjadi platform kunci untuk itu

1 komentar

 
GN⁺ 2024-10-18
Opini Hacker News
  • Ada pendapat yang melihat persaingan antara OpenAI dan Meta AI sebagai persaingan platform seperti macOS vs Windows, iOS vs Android

    • Diamati bahwa Meta cenderung membuka platform untuk merebut pangsa pasar
    • Dipertanyakan apakah Meta akan tetap membuka platform jika berhasil menang
  • Zuckerberg dan Facebook banyak menerima kritik, tetapi mereka juga banyak berinvestasi dalam rekayasa teknik dan open source

  • Meta menggunakan lebih dari 16.000 GPU NVIDIA H100 untuk melatih model Llama 3.1 405B, yang menunjukkan investasi berskala besar

    • Disebutkan bahwa harga saham Meta naik tajam setelah peluncuran model open source
  • Ada pendapat bahwa LLM open source Meta akan menarik bagi banyak pengguna

    • Ada kemungkinan OpenAI dan Anthropic akan ikut membahas model terbuka
  • Muncul pertanyaan apakah Meta, Microsoft, dan OpenAI bisa bekerja sama dalam desain chip terbuka untuk bersaing dengan NVIDIA

  • Disebutkan kemungkinan Meta membangun pusat data AI di dekat lokasi produksi energi seperti pembangkit listrik fusi nuklir

    • Mengutip pendapat Yann LeCun bahwa penggunaan listrik berbiaya rendah yang berkelanjutan merupakan sebuah keunggulan
  • Dipertanyakan apakah Meta, setelah OpenAI, juga sedang membidik NVIDIA

  • Disebutkan bahwa konsep "Open" kini sudah menjadi meme