5 poin oleh GN⁺ 2024-03-08 | 1 komentar | Bagikan ke WhatsApp

Melatih LLM Sepenuhnya dari Awal

  • Banyak rasa ingin tahu tentang pengalaman di Reka dalam melatih model bahasa multimodal yang kuat dengan sukses.
  • Berbagi tantangan dan pelajaran dari membangun infrastruktur serta melatih model bahasa besar dan multimodal dari nol.
  • Berharap tulisan ini menarik dan edukatif bagi banyak orang.

Lotre Perangkat Keras di Era LLM

  • Syarat pertama yang mutlak untuk melatih model adalah mendapatkan daya komputasi.
  • Terkejut oleh ketidakstabilan penyedia komputasi serta perbedaan kualitas klaster, akselerator, dan konektivitas.
  • Perbedaan kualitas perangkat keras sangat besar, dan dalam pelatihan ini benar-benar terasa seperti 'lotre perangkat keras'.

GPU vs TPU

  • Di Reka, model terutama dilatih menggunakan GPU.
  • Dibandingkan dengan pengalaman menggunakan TPU di Google, tingkat kegagalan GPU cukup mengejutkan.
  • Kapabilitas tim perangkat keras sangat penting, dan ini memperkuat konsep 'lotre perangkat keras'.

Penderitaan Menyiapkan Multi-Cluster

  • Konsep harus menyiapkan lingkungan baru di beberapa klaster terasa asing.
  • Memiliki pool akselerator di banyak klaster tidak dapat dihindari.
  • Ada banyak ketidaknyamanan saat menangani data berskala besar, dan replikasi data tidak sederhana pada skala besar.

Kode di Alam Liar

  • T5X dan MeshTensorflow adalah codebase favorit, tetapi di luar Google dukungannya minim dan sulit digunakan.
  • Memilih PyTorch yang lebih mudah diakses.
  • Terasa bahwa kualitas codebase di luar Google tertinggal dibanding lingkungan internal Google.

Kurang Prinsipil, Lebih Yolo

  • Secara prinsip model seharusnya diskalakan secara sistematis, tetapi di startup sumber daya komputasi terbatas sehingga banyak eksperimen Yolo dilakukan.
  • Melatih model yang kuat dengan percobaan yang terbatas adalah tantangan tersendiri.

Ringkasan

  • Pengalaman di alam liar itu menarik, tetapi menyakitkan.
  • Kekurangan sumber daya komputasi dan penyedia yang tidak stabil membuatnya lebih sulit dari perkiraan, tetapi hal itu diatasi dengan kekuatan teknis.
  • Ini hanya menceritakan sebagian dari proses memulai perusahaan, menggalang dana, membeli chip, lalu bersaing dengan Gemini pro/GPT 3.5 dan melampaui banyak yang lain.

Opini GN⁺

  • Artikel ini dengan baik menunjukkan masalah dan tantangan nyata yang dialami startup saat melatih model bahasa besar dari nol. Ini dapat memberi insight yang realistis bagi software engineer pemula.
  • Pentingnya pemilihan perangkat keras serta perbedaan tingkat kegagalan dan tingkat dukungan yang menyertainya adalah hal yang wajib dipertimbangkan saat startup atau perusahaan kecil memulai proyek besar.
  • Artikel ini menekankan keterbatasan teknis yang dihadapi startup dibandingkan dengan infrastruktur perusahaan besar seperti Google. Ini menunjukkan mengapa startup perlu berhati-hati saat memilih teknologi.
  • Artikel ini menyiratkan bahwa proses membangun infrastruktur dan alat yang diperlukan untuk melatih model berskala besar di startup bisa sangat kompleks dan sulit. Ini menjadi pertimbangan penting saat memilih penyedia layanan cloud atau memutuskan membangun perangkat keras sendiri.
  • Meski ada masalah dan tantangan teknis, artikel ini menyampaikan pesan positif bahwa startup dapat mengatasi kesulitan dengan kekuatan teknis dan meraih hasil yang sukses.

1 komentar

 
GN⁺ 2024-03-08
Opini Hacker News
  • Startup di sini berarti organisasi dengan jumlah orang yang sedikit tetapi memiliki pendanaan besar untuk berinvestasi pada klaster pelatihan. Artikel tersebut menjelaskan bahwa banyak startup maupun perusahaan mapan menyewa server untuk menjalankannya. Sebagian besar pembuat LLM (Large Language Model) melatih model dengan perangkat keras dan data yang serupa, menggunakan data teks dan gambar. Masing-masing LLM punya "saus rahasia" uniknya sendiri yang membuat kualitas outputnya berbeda. Namun secara keseluruhan, proses ini terlihat seperti pekerjaan berulang yang boros energi.
  • Tulisan ini membahas pengalaman Yi Tay, yang pernah menjadi pemimpin teknis untuk PaLM, UL2, Flan, dan Bard di Google, lalu menjadi salah satu pendiri Reka untuk melatih LLM sebagai startup independen. Percakapan yang mendorong Yi Tay menulis postingan ini dicatat di sini.
  • Saya baru mengetahui Reka.ai lewat postingan ini. LLM milik Reka.ai belum banyak dibahas di Hacker News. Karena penasaran, saya mencoba membandingkan antarmuka chat Reka Flash dengan ChatGPT 4, Gemini Advanced, Claude 3, dan Mistral Large. Hasilnya ada di sini. Secara umum, Reka Flash tidak terlihat jauh lebih buruk maupun lebih baik daripada LLM lain. Tentu saja, perlu lebih banyak pengujian untuk bisa menilai dengan pasti.
  • Penulis menganggap pembaca memahami "alam liar" sebagai "di luar Google". Tulisan ini banyak memberi kredit kepada tim infrastruktur dan perangkat keras Google, dan saya tertarik membaca sudut pandang orang dalam Google yang kemudian mengerjakan hal serupa di tempat lain.
  • Halaman utama Reka.AI tampak seperti klon ChatGPT pada umumnya, yaitu LLM yang dibayar per token. Tidak jelas apa yang membedakannya dari perusahaan lain. Harganya tampak mirip dengan ChatGPT 3.5-Turbo.
  • Melatih LLM dari nol adalah persoalan yang sama pentingnya bagi kecepatan dan cakupan evolusi AI seperti halnya peningkatan perangkat keras mentah. Blog ini menarik, tetapi agak dangkal dan tidak terlalu teknis, serta tidak berisi hal yang mengejutkan bagi orang yang pernah menangani klaster GPU. Saya juga tidak benar-benar paham mengapa, di luar Google, Jax direkomendasikan dibanding PyTorch untuk LLM. Saya berharap perusahaan baru ini menerbitkan laporan yang lebih teknis tentang petualangan pelatihannya.
  • Tulisan ini hanya membahas sebagian kecil dari keseluruhan cerita, yaitu memulai perusahaan, menggalang dana, membeli chip, lalu membangun LLM setingkat GPT 3.5 dalam waktu kurang dari setahun dan melampaui banyak produk lain. Saya penasaran berapa anggaran yang dihabiskan untuk chip/GPU cloud. Apakah kira-kira sekitar 2 hingga 5 juta dolar?
  • Pertanyaan besar adalah bagaimana startup kecil tanpa latar belakang atau rekam jejak yang tepat bisa mendapatkan pendanaan untuk produk LLM. Dunia startup LLM tampak mirip dengan dunia hedge fund dan private equity, di mana prasyarat untuk seed/funding adalah riwayat kerja yang bergengsi/rekam jejak yang tepat serta jaringan investor kuat yang siap berinvestasi bahkan sebelum produknya mulai dibuat.
  • Saya bertanya-tanya apakah judulnya seharusnya "from the ground up" alih-alih "ground zero".
  • Bagian tentang proses data pelatihan sangat menarik, tetapi saya ingin mendengar lebih banyak lagi.