4 poin oleh GN⁺ 2024-01-25 | 1 komentar | Bagikan ke WhatsApp
  • Rekayasa Pertempuran Kecerdasan Buatan - Hal-hal yang Perlu Diketahui

    • Koleksi terbuka yang menghimpun metodologi untuk pelatihan model kecerdasan buatan (ML), khususnya large language model (LLM) dan model multimodal (VLM), agar berhasil.
    • Materi teknis untuk engineer dan operator pelatihan LLM/VLM, dengan banyak skrip dan perintah salin-tempel sehingga pekerjaan yang dibutuhkan bisa dilakukan dengan cepat.
    • Pengalaman dan pengetahuan praktis yang diperoleh saat melatih model open source BLOOM-176B pada 2022 dan model multimodal IDEFICS-80B pada 2023 terus didokumentasikan, dan saat ini sedang mengembangkan/melatih model retrieval-augmented open source di Contextual.AI.
  • Daftar isi

    • Meminta maaf atas tata letak yang belum stabil, karena sedang menulis bab baru dan menyusun ulang isi agar lebih intuitif.
  • Komponen perangkat keras

    • Akselerator - Kuda kerja ML, termasuk GPU, TPU, IPU, FPGA, HPU, QPU, RDU, dan lainnya.
    • Jaringan - Konektivitas di dalam node dan antar-node, serta perhitungan kebutuhan bandwidth.
    • Penyimpanan - Disk dan sistem file lokal maupun terdistribusi.
    • CPU - Pembahasan tentang CPU dan affinity.
    • Memori CPU - Bab tersingkat tentang seberapa banyak memori CPU yang cukup.
  • Kinerja

    • Toleransi kegagalan
    • Kinerja
    • Jaringan multi-node
    • Paralelisme model
  • Operasi

    • SLURM
    • Hiperparameter pelatihan dan inisialisasi model
    • Ketidakstabilan
  • Pengembangan

    • Debugging kegagalan perangkat lunak dan perangkat keras
    • Lebih banyak debugging
    • Reproduktibilitas
    • Presisi tensor / tipe data
    • Catatan HF Transformers - Tips tentang model kecil, tokenizer, dataset, dan lainnya.
  • Lain-lain

    • Materi - Kronik LLM/VLM.
  • Jalan pintas

    • Alat dan panduan yang sering perlu dicari dengan cepat.
    • Alat: all_reduce_bench.py, torch-distributed-gpu-test.py
    • Panduan: debugging pytorch applications, slurm for users, make tiny models/datasets/tokenizers, LLM/VLM chronicles collection
  • Membuat buku

    • Jika ingin membuat PDF atau memeriksa tautan, lihat bagian 'Membuat buku'.
  • Ucapan terima kasih

    • Bisa mempelajari pengetahuan praktis seperti ini adalah hak istimewa yang hanya dinikmati segelintir orang, karena biaya menyewa klaster komputasi ML skala besar sangat mahal.
    • Menyampaikan terima kasih khusus kepada Thom Wolf dan HuggingFace.
  • Berkontribusi

    • Jika menemukan bug, salah ketik, atau punya usulan perbaikan, disarankan membuka issue atau berkontribusi melalui PR.
  • Lisensi

    • Konten situs ini didistribusikan di bawah lisensi Attribution-ShareAlike 4.0 International.
  • Peta repositori saya

    • Machine learning: ML Engineering Open Book | ML ways | Porting
    • Panduan: The Art of Debugging
    • Aplikasi: ipyexperiments
    • Alat dan cheat sheet: bash | conda | git | jupyter-notebook | make | python | tensorboard | unix

Opini GN⁺

  • Materi ini memberi kontribusi besar bagi komunitas ML dengan menyediakan pengetahuan praktis dan alat yang dibutuhkan untuk melatih large language model dan model multimodal.
  • Dengan membagikan pengetahuan praktis yang diperoleh dari pengalaman proyek nyata, materi ini membantu engineer perangkat lunak pemula memperoleh pengetahuan kerja yang diperlukan untuk pelatihan model ML skala besar.
  • Pendekatan open source mendorong berbagi pengetahuan dan kolaborasi di bidang ML, yang memainkan peran penting dalam mempercepat riset dan inovasi.

1 komentar

 
GN⁺ 2024-01-25
Komentar Hacker News
  • Tulisan ini benar-benar bernilai. Saya bekerja melakukan debugging konfigurasi training LLM untuk mendukung riset, dan akan sangat membantu jika sejak awal ada catatan seperti ini.

    • Mengungkapkan bahwa informasi seperti ini akan berguna jika dimiliki sejak tahap awal bagi seseorang yang bekerja menangani debugging konfigurasi training LLM.
  • Saya bekerja bersama Applied Scientist dan membantu tugas-tugas terkait training serta deployment model; bagaimana orang seperti saya bisa terekspos pada pekerjaan engineering tingkat lebih rendah seperti optimisasi, performa, dan sejenisnya? Kami punya tim infrastruktur ML, tetapi tujuan mereka adalah membangun alat di sekitar platform, bukan selalu menjalankan workload secara optimal.

    • Menunjukkan bahwa seseorang yang mendukung training dan deployment model ingin mendapatkan pengalaman dalam pekerjaan engineering tingkat rendah seperti optimisasi dan performa.
  • Saya ingin mencoba ini, tetapi saya tidak punya GPU yang memadai. Bagaimana kalian menjalankan hal-hal seperti ini?

    • Mengungkapkan kesulitan untuk mulai bereksperimen tanpa GPU yang sesuai.
  • Terima kasih banyak untuk semua yang ada di bagian "Unsolicited Advice" dari AI Battlefield [1]. Ini adalah sudut pandang yang sangat realistis tentang selalu kewalahan mengikuti kemajuan cepat pengembangan AI dan beban emosional yang ditimbulkannya.

    • Mengungkapkan rasa terima kasih atas "Unsolicited Advice" yang memandang secara realistis laju cepat pengembangan AI dan beban emosional yang ditimbulkannya.
  • Seberapa luas Slurm digunakan?

    • Menunjukkan rasa ingin tahu tentang cakupan penggunaan Slurm.
  • Saya mengeklik secara acak dan membaca tentang repeatability, tetapi saya masih penasaran bagaimana hal itu dicapai dalam distributed training. Bukankah sinkronisasi deterministik membuat semuanya lebih lambat? Namun setidaknya saya mendengar bahwa di beberapa perusahaan besar, training mereka bisa diulang.

    • Mengajukan pertanyaan tentang repeatability dalam distributed training dan dampak sinkronisasi deterministik terhadap performa.
  • Bagaimana cara mendapatkan pengalaman dalam hal-hal seperti ini ketika tidak punya pekerjaan?

    • Mengajukan pertanyaan tentang bagaimana memperoleh pengalaman terkait tanpa pekerjaan yang sebenarnya.
  • Apakah ada PDF di suatu tempat? Sepertinya ada cara untuk membangunnya, tetapi tidak ada file jadinya.

    • Menunjukkan bahwa seseorang sedang mencari versi PDF dari dokumen terkait.