- Meta membutuhkan kapasitas komputasi berskala besar untuk melatih model bahasa besar (LLM)
- Pelatihan model AI tradisional melibatkan pelatihan banyak model, tetapi membutuhkan jumlah GPU yang relatif lebih sedikit
- Dengan munculnya AI generatif (GenAI), jumlah pekerjaan berkurang, tetapi diperlukan pekerjaan yang sangat besar
Tantangan dalam pelatihan model skala besar
- Keandalan perangkat keras: Diperlukan pengujian ketat dan kontrol kualitas untuk meminimalkan penghentian pelatihan akibat kegagalan perangkat keras.
- Pemulihan cepat saat terjadi kegagalan: Jika kegagalan perangkat keras terjadi, pemulihan harus dapat dilakukan dengan cepat. Diperlukan pengurangan overhead penjadwalan ulang dan reinisialisasi pelatihan yang cepat.
- Penyimpanan status pelatihan yang efisien: Saat terjadi kegagalan, status pelatihan harus dapat disimpan dan dipulihkan secara efisien.
- Konektivitas optimal antar-GPU: Dalam pelatihan model skala besar, transfer data antar-GPU sangat penting. Untuk itu dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.
Penting untuk meningkatkan setiap lapisan dalam stack infrastruktur
Perangkat lunak pelatihan
- Mendukung para peneliti agar dapat dengan cepat beralih dari riset ke produksi menggunakan open source seperti PyTorch.
- Mengembangkan algoritme dan teknik baru untuk pelatihan skala besar serta mengintegrasikan alat dan framework perangkat lunak baru.
Penjadwalan
- Menggunakan algoritme kompleks untuk mengalokasikan sumber daya sesuai kebutuhan pekerjaan dan melakukan penjadwalan dinamis guna mengoptimalkan sumber daya.
Perangkat keras
- Diperlukan perangkat keras berperforma tinggi untuk menangani pelatihan model skala besar.
- Mengoptimalkan perangkat keras yang ada, serta memodifikasi platform Grand Teton yang menggunakan GPU NVIDIA H100 dengan meningkatkan TDP GPU menjadi 700W dan beralih ke HBM3.
Penempatan pusat data
- Menempatkan GPU dan sistem secara optimal di pusat data untuk mengoptimalkan sumber daya (daya, pendinginan, jaringan, dan lain-lain).
- Menempatkan sebanyak mungkin rak GPU untuk mencapai kepadatan komputasi maksimum.
Keandalan
- Menyusun rencana deteksi dan pemulihan untuk meminimalkan downtime saat terjadi kegagalan perangkat keras.
- Mode kegagalan yang sering terjadi: GPU tidak terdeteksi, UCE DRAM & SRAM, masalah kabel jaringan perangkat keras.
Jaringan
- Untuk pelatihan model skala besar, dibutuhkan infrastruktur jaringan berkecepatan tinggi dan protokol transfer data yang efisien.
- Membangun dua klaster jaringan, RoCE dan InfiniBand, lalu belajar dari pengalaman operasionalnya.
Penyimpanan
- Berinvestasi pada teknologi penyimpanan berkapasitas besar dan berkecepatan tinggi untuk penyimpanan data skala besar, serta mengembangkan solusi penyimpanan data baru yang sesuai untuk pekerjaan tertentu.
Prospek ke depan
- Akan menggunakan ratusan ribu GPU untuk memproses lebih banyak data serta menangani jarak yang lebih jauh dan latensi yang lebih tinggi.
- Berencana mengadopsi teknologi perangkat keras baru dan arsitektur GPU baru serta terus mengembangkan infrastruktur.
- Akan terus menjelajahi lanskap AI yang terus berkembang dan berupaya melampaui batas dari apa yang mungkin dilakukan.
1 komentar
Komentar Hacker News