Melatih LLM Sepenuhnya dari Awal
- Banyak rasa ingin tahu tentang pengalaman di Reka dalam melatih model bahasa multimodal yang kuat dengan sukses.
- Berbagi tantangan dan pelajaran dari membangun infrastruktur serta melatih model bahasa besar dan multimodal dari nol.
- Berharap tulisan ini menarik dan edukatif bagi banyak orang.
Lotre Perangkat Keras di Era LLM
- Syarat pertama yang mutlak untuk melatih model adalah mendapatkan daya komputasi.
- Terkejut oleh ketidakstabilan penyedia komputasi serta perbedaan kualitas klaster, akselerator, dan konektivitas.
- Perbedaan kualitas perangkat keras sangat besar, dan dalam pelatihan ini benar-benar terasa seperti 'lotre perangkat keras'.
GPU vs TPU
- Di Reka, model terutama dilatih menggunakan GPU.
- Dibandingkan dengan pengalaman menggunakan TPU di Google, tingkat kegagalan GPU cukup mengejutkan.
- Kapabilitas tim perangkat keras sangat penting, dan ini memperkuat konsep 'lotre perangkat keras'.
Penderitaan Menyiapkan Multi-Cluster
- Konsep harus menyiapkan lingkungan baru di beberapa klaster terasa asing.
- Memiliki pool akselerator di banyak klaster tidak dapat dihindari.
- Ada banyak ketidaknyamanan saat menangani data berskala besar, dan replikasi data tidak sederhana pada skala besar.
Kode di Alam Liar
- T5X dan MeshTensorflow adalah codebase favorit, tetapi di luar Google dukungannya minim dan sulit digunakan.
- Memilih PyTorch yang lebih mudah diakses.
- Terasa bahwa kualitas codebase di luar Google tertinggal dibanding lingkungan internal Google.
Kurang Prinsipil, Lebih Yolo
- Secara prinsip model seharusnya diskalakan secara sistematis, tetapi di startup sumber daya komputasi terbatas sehingga banyak eksperimen Yolo dilakukan.
- Melatih model yang kuat dengan percobaan yang terbatas adalah tantangan tersendiri.
Ringkasan
- Pengalaman di alam liar itu menarik, tetapi menyakitkan.
- Kekurangan sumber daya komputasi dan penyedia yang tidak stabil membuatnya lebih sulit dari perkiraan, tetapi hal itu diatasi dengan kekuatan teknis.
- Ini hanya menceritakan sebagian dari proses memulai perusahaan, menggalang dana, membeli chip, lalu bersaing dengan Gemini pro/GPT 3.5 dan melampaui banyak yang lain.
Opini GN⁺
- Artikel ini dengan baik menunjukkan masalah dan tantangan nyata yang dialami startup saat melatih model bahasa besar dari nol. Ini dapat memberi insight yang realistis bagi software engineer pemula.
- Pentingnya pemilihan perangkat keras serta perbedaan tingkat kegagalan dan tingkat dukungan yang menyertainya adalah hal yang wajib dipertimbangkan saat startup atau perusahaan kecil memulai proyek besar.
- Artikel ini menekankan keterbatasan teknis yang dihadapi startup dibandingkan dengan infrastruktur perusahaan besar seperti Google. Ini menunjukkan mengapa startup perlu berhati-hati saat memilih teknologi.
- Artikel ini menyiratkan bahwa proses membangun infrastruktur dan alat yang diperlukan untuk melatih model berskala besar di startup bisa sangat kompleks dan sulit. Ini menjadi pertimbangan penting saat memilih penyedia layanan cloud atau memutuskan membangun perangkat keras sendiri.
- Meski ada masalah dan tantangan teknis, artikel ini menyampaikan pesan positif bahwa startup dapat mengatasi kesulitan dengan kekuatan teknis dan meraih hasil yang sukses.
1 komentar
Opini Hacker News