Metode Meta untuk Melatih Model Bahasa Skala Besar

(engineering.fb.com)

6 poin oleh GN⁺ 2024-06-13 | 1 komentar | Bagikan ke WhatsApp

Meta membutuhkan kapasitas komputasi berskala besar untuk melatih model bahasa besar (LLM)
Pelatihan model AI tradisional melibatkan pelatihan banyak model, tetapi membutuhkan jumlah GPU yang relatif lebih sedikit
Dengan munculnya AI generatif (GenAI), jumlah pekerjaan berkurang, tetapi diperlukan pekerjaan yang sangat besar

Keandalan perangkat keras: Diperlukan pengujian ketat dan kontrol kualitas untuk meminimalkan penghentian pelatihan akibat kegagalan perangkat keras.
Pemulihan cepat saat terjadi kegagalan: Jika kegagalan perangkat keras terjadi, pemulihan harus dapat dilakukan dengan cepat. Diperlukan pengurangan overhead penjadwalan ulang dan reinisialisasi pelatihan yang cepat.
Penyimpanan status pelatihan yang efisien: Saat terjadi kegagalan, status pelatihan harus dapat disimpan dan dipulihkan secara efisien.
Konektivitas optimal antar-GPU: Dalam pelatihan model skala besar, transfer data antar-GPU sangat penting. Untuk itu dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.

Mendukung para peneliti agar dapat dengan cepat beralih dari riset ke produksi menggunakan open source seperti PyTorch.
Mengembangkan algoritme dan teknik baru untuk pelatihan skala besar serta mengintegrasikan alat dan framework perangkat lunak baru.

Menggunakan algoritme kompleks untuk mengalokasikan sumber daya sesuai kebutuhan pekerjaan dan melakukan penjadwalan dinamis guna mengoptimalkan sumber daya.

Diperlukan perangkat keras berperforma tinggi untuk menangani pelatihan model skala besar.
Mengoptimalkan perangkat keras yang ada, serta memodifikasi platform Grand Teton yang menggunakan GPU NVIDIA H100 dengan meningkatkan TDP GPU menjadi 700W dan beralih ke HBM3.

Menempatkan GPU dan sistem secara optimal di pusat data untuk mengoptimalkan sumber daya (daya, pendinginan, jaringan, dan lain-lain).
Menempatkan sebanyak mungkin rak GPU untuk mencapai kepadatan komputasi maksimum.

Menyusun rencana deteksi dan pemulihan untuk meminimalkan downtime saat terjadi kegagalan perangkat keras.
Mode kegagalan yang sering terjadi: GPU tidak terdeteksi, UCE DRAM & SRAM, masalah kabel jaringan perangkat keras.

Untuk pelatihan model skala besar, dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.
Membangun dua klaster jaringan, RoCE dan InfiniBand, lalu belajar dari pengalaman operasionalnya.

Berinvestasi pada teknologi penyimpanan berkapasitas besar dan berkecepatan tinggi untuk penyimpanan data skala besar, serta mengembangkan solusi penyimpanan data baru yang sesuai untuk pekerjaan tertentu.

Akan menggunakan ratusan ribu GPU untuk memproses lebih banyak data serta menangani jarak yang lebih jauh dan latensi yang lebih tinggi.
Berencana mengadopsi teknologi perangkat keras baru dan arsitektur GPU baru serta terus mengembangkan infrastruktur.
Akan terus menjelajahi lanskap AI yang terus berkembang dan berupaya melampaui batas dari apa yang mungkin dilakukan.

1 komentar

GN⁺ 2024-06-13

Masalah koneksi GPU: Disebutkan adanya masalah GPU yang tidak terdeteksi di bus PCIe.
Infrastruktur pendinginan: Mereka harus mengubah desain mekanis dan termal sambil tetap mempertahankan lingkungan pendinginan udara yang sudah ada.
Keterbatasan waktu: Keterbatasan waktu memengaruhi kualitas model secara keseluruhan.
Fitur pencarian Meta: Ada pendapat bahwa Meta sebaiknya meningkatkan fitur pencarian daripada melatih LLM baru.
Metode pengumpulan data: Ada rasa ingin tahu tentang bagaimana Meta mengumpulkan dan menyiapkan data, terutama bagaimana mereka membersihkan PII (informasi identitas pribadi).
Masalah biaya: Disebutkan bahwa LLM bisa jadi tidak realistis untuk aplikasi di luar cloud karena masalah biaya.
Pembangunan klaster: Upaya membangun dua klaster 24k untuk mempelajari pengalaman operasional dianggap mengesankan.
Penjadwalan pekerjaan: Kurang ada informasi spesifik tentang cara menjadwalkan pekerjaan di susunan mesin berskala besar.
Monetisasi: Tidak jelas bagaimana Meta akan menghasilkan uang dengan memanfaatkan LLM dalam skala besar.
Keunggulan AI Google: Ada pendapat bahwa Google unggul di bidang AI berkat silikon kustomnya.
Nama domain: Menarik bahwa domain Meta masih engineering.fb.com.