6 poin oleh GN⁺ 2024-06-13 | 1 komentar | Bagikan ke WhatsApp
  • Meta membutuhkan kapasitas komputasi berskala besar untuk melatih model bahasa besar (LLM)
  • Pelatihan model AI tradisional melibatkan pelatihan banyak model, tetapi membutuhkan jumlah GPU yang relatif lebih sedikit
  • Dengan munculnya AI generatif (GenAI), jumlah pekerjaan berkurang, tetapi diperlukan pekerjaan yang sangat besar

Tantangan dalam pelatihan model skala besar

  • Keandalan perangkat keras: Diperlukan pengujian ketat dan kontrol kualitas untuk meminimalkan penghentian pelatihan akibat kegagalan perangkat keras.
  • Pemulihan cepat saat terjadi kegagalan: Jika kegagalan perangkat keras terjadi, pemulihan harus dapat dilakukan dengan cepat. Diperlukan pengurangan overhead penjadwalan ulang dan reinisialisasi pelatihan yang cepat.
  • Penyimpanan status pelatihan yang efisien: Saat terjadi kegagalan, status pelatihan harus dapat disimpan dan dipulihkan secara efisien.
  • Konektivitas optimal antar-GPU: Dalam pelatihan model skala besar, transfer data antar-GPU sangat penting. Untuk itu dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.

Penting untuk meningkatkan setiap lapisan dalam stack infrastruktur

Perangkat lunak pelatihan

  • Mendukung para peneliti agar dapat dengan cepat beralih dari riset ke produksi menggunakan open source seperti PyTorch.
  • Mengembangkan algoritme dan teknik baru untuk pelatihan skala besar serta mengintegrasikan alat dan framework perangkat lunak baru.

Penjadwalan

  • Menggunakan algoritme kompleks untuk mengalokasikan sumber daya sesuai kebutuhan pekerjaan dan melakukan penjadwalan dinamis guna mengoptimalkan sumber daya.

Perangkat keras

  • Diperlukan perangkat keras berperforma tinggi untuk menangani pelatihan model skala besar.
  • Mengoptimalkan perangkat keras yang ada, serta memodifikasi platform Grand Teton yang menggunakan GPU NVIDIA H100 dengan meningkatkan TDP GPU menjadi 700W dan beralih ke HBM3.

Penempatan pusat data

  • Menempatkan GPU dan sistem secara optimal di pusat data untuk mengoptimalkan sumber daya (daya, pendinginan, jaringan, dan lain-lain).
  • Menempatkan sebanyak mungkin rak GPU untuk mencapai kepadatan komputasi maksimum.

Keandalan

  • Menyusun rencana deteksi dan pemulihan untuk meminimalkan downtime saat terjadi kegagalan perangkat keras.
  • Mode kegagalan yang sering terjadi: GPU tidak terdeteksi, UCE DRAM & SRAM, masalah kabel jaringan perangkat keras.

Jaringan

  • Untuk pelatihan model skala besar, dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.
  • Membangun dua klaster jaringan, RoCE dan InfiniBand, lalu belajar dari pengalaman operasionalnya.

Penyimpanan

  • Berinvestasi pada teknologi penyimpanan berkapasitas besar dan berkecepatan tinggi untuk penyimpanan data skala besar, serta mengembangkan solusi penyimpanan data baru yang sesuai untuk pekerjaan tertentu.

Prospek ke depan

  • Akan menggunakan ratusan ribu GPU untuk memproses lebih banyak data serta menangani jarak yang lebih jauh dan latensi yang lebih tinggi.
  • Berencana mengadopsi teknologi perangkat keras baru dan arsitektur GPU baru serta terus mengembangkan infrastruktur.
  • Akan terus menjelajahi lanskap AI yang terus berkembang dan berupaya melampaui batas dari apa yang mungkin dilakukan.

1 komentar

 
GN⁺ 2024-06-13
Komentar Hacker News
  • Masalah koneksi GPU: Disebutkan adanya masalah GPU yang tidak terdeteksi di bus PCIe.
  • Infrastruktur pendinginan: Mereka harus mengubah desain mekanis dan termal sambil tetap mempertahankan lingkungan pendinginan udara yang sudah ada.
  • Keterbatasan waktu: Keterbatasan waktu memengaruhi kualitas model secara keseluruhan.
  • Fitur pencarian Meta: Ada pendapat bahwa Meta sebaiknya meningkatkan fitur pencarian daripada melatih LLM baru.
  • Metode pengumpulan data: Ada rasa ingin tahu tentang bagaimana Meta mengumpulkan dan menyiapkan data, terutama bagaimana mereka membersihkan PII (informasi identitas pribadi).
  • Masalah biaya: Disebutkan bahwa LLM bisa jadi tidak realistis untuk aplikasi di luar cloud karena masalah biaya.
  • Pembangunan klaster: Upaya membangun dua klaster 24k untuk mempelajari pengalaman operasional dianggap mengesankan.
  • Penjadwalan pekerjaan: Kurang ada informasi spesifik tentang cara menjadwalkan pekerjaan di susunan mesin berskala besar.
  • Monetisasi: Tidak jelas bagaimana Meta akan menghasilkan uang dengan memanfaatkan LLM dalam skala besar.
  • Keunggulan AI Google: Ada pendapat bahwa Google unggul di bidang AI berkat silikon kustomnya.
  • Nama domain: Menarik bahwa domain Meta masih engineering.fb.com.