Membangun LLM dari Dasar: Workshop Coding 3 Jam

(magazine.sebastianraschka.com)

1 poin oleh GN⁺ 2024-09-01 | 1 komentar | Bagikan ke WhatsApp

Ini adalah workshop yang memungkinkan Anda menelusuri cara kerja LLM lewat kode hanya dengan meluangkan beberapa jam di akhir pekan, sambil melihat alur implementasi, pelatihan, dan penggunaan dalam satu rangkaian
Praktik dimulai dari pengenalan LLM lalu berlanjut secara bertahap ke data input, tokenizer, dan implementasi arsitektur model
Setelah implementasi arsitektur, workshop membahas GPT-2 dan Llama 2, pra-pelatihan, serta pemuatan bobot pra-terlatih, lalu menghubungkannya ke alur penggunaan model nyata
Termasuk penggunaan bobot dengan LitGPT, fine-tuning instruksi, evaluasi benchmark, hingga evaluasi performa percakapan
Buku, repositori GitHub, kode workshop, Lightning Studio, dan repositori LitGPT juga disediakan sehingga mudah untuk langsung diikuti sendiri

Alur video workshop 3 jam

Membahas proses mengimplementasikan, melatih, dan menggunakan LLM dalam satu workshop coding
Tersedia penanda bab yang bisa diklik sehingga Anda dapat langsung berpindah ke topik yang dibutuhkan
Dasar dan pemrosesan input
- 0:00 Gambaran umum workshop
- 2:17 Pengenalan LLM
- 9:14 Materi workshop
- 10:48 Memahami data input LLM
- 23:25 Kelas tokenizer sederhana
Implementasi model dan pelatihan
- 41:03 Coding arsitektur LLM
- 45:01 GPT-2 dan Llama 2
- 1:07:11 Pra-pelatihan
- 1:29:37 Memuat bobot pra-terlatih
- 1:45:12 Menggunakan bobot pra-pelatihan melalui LitGPT
Fine-tuning dan evaluasi
- 1:53:09 Fine-tuning instruksi
- 2:08:21 Fine-tuning instruksi melalui LitGPT
- 2:26:45 Evaluasi benchmark
- 2:36:55 Evaluasi performa percakapan
- 2:42:40 Penutup

Materi yang diperlukan untuk mengikuti

Build an LLM from Scratch book: Buku untuk membuat LLM dari nol
Build an LLM from Scratch GitHub repository: Repositori GitHub terkait buku
GitHub repository with workshop code: Repositori kode workshop
Lightning Studio for this workshop: Lightning Studio untuk workshop ini
LitGPT GitHub repository: Repositori GitHub LitGPT

1 komentar

GN⁺ 2024-09-01

Komentar Hacker News

Mungkin ini pertanyaan bodoh, tapi saya penasaran apakah ini berbeda dengan punya Andrej Karpathy: https://www.youtube.com/watch?v=kCc8FmEb1nY
- Seri Andrej juga luar biasa, dan buku serta video ini dari Sebastian juga sama bagusnya.
  Ada banyak bagian yang tumpang tindih, tetapi masing-masing membahas topik yang berbeda dengan lebih detail atau fokus yang berbeda. Seluruh seri Andrej sangat layak ditonton, dan karya Eureka Labs yang akan datang juga terlihat sangat menjanjikan. Blog dan buku Sebastian juga menurut saya layak diberi waktu dan uang
Tulisan Sebastian bagus dan saya menantikan bukunya. Ada banyak detail tentang cara LLM dibangun, tetapi dalam jangka panjang rasanya medan pertempurannya memang ke arah sana, jadi akan bagus juga kalau dibahas lebih jauh bagaimana Llama dan OpenAI bisa memurnikan dan menyusun data pelatihan mereka
- Kalau tertarik dengan pemurnian dan penataan data pelatihan, ada beberapa bagian yang menarik untuk dibaca di paper Llama.
  https://ai.meta.com/research/publications/the-llama-3-herd-o...
Memakai PyTorch itu bukan membangun LLM dari nol.
Ini tutorial PyTorch yang bagus, tetapi maksud saya jangan berpura-pura seolah ini level rendah
- Untuk membuat pai apel dari nol, pertama-tama Anda harus menciptakan alam semesta
- Konten Sebastian memang sangat bagus, tetapi saya setuju soal ini. Saya baru benar-benar masuk ke deep learning setelah memulai dengan membuat mesin autodiff dari nol seperti di seri Karpathy.
  Sebelumnya saya mencoba belajar lewat fast.ai, tetapi mereka langsung mulai membuat network di PyTorch jadi saya cepat keluar. Rasanya semembosankan belajar Java waktu SMA, dan saya perlu memahami apa sebenarnya objek yang sedang saya kerjakan
- Belajar memainkan Bach: mulai dari membuat piano sendiri
- Dengan ukuran apa ini bukan level rendah? Menulis klien IRC di Python hanya dengan socket API juga bukankah termasuk dari nol?
- Dalam konteks LLM, pytorch.nn juga termasuk level rendah. Dalam pendidikan, penting untuk tidak menangani terlalu banyak lapisan abstraksi sekaligus
Dulu saya menulis panduan praktik untuk melatih nanoGPT dari nol di Azure. Cukup mudah diikuti langsung dengan tangan dan cukup praktis.
https://16x.engineer/2023/12/29/nanoGPT-azure-T4-ubuntu-guid...
- Saya penasaran apakah biayanya benar-benar cuma $200.
  Saya juga penasaran apa yang bisa dilakukan dengan hasil yang dibuat seperti itu, dan bagaimana cara melatihnya dengan kejadian-kejadian terbaru
Mungkin ini tidak rasional, tetapi saya pada dasarnya punya kesan negatif terhadap penggunaan kata coding alih-alih programming atau development
- Rasanya cukup heboh melihat reaksi seperti itu muncul di postingan dari orang yang termasuk paling terobsesi pada bahasa di komunitas ini.
  Kalau mau ditelusuri, "code" adalah sesuatu yang disusun sebagai isi dari medium codex. Latar belakang historisnya bisa dilihat di https://en.wikipedia.org/wiki/Codex, dan berawal dari kumpulan aturan di bidang hukum lalu setidaknya sejak pertengahan abad ke-16 dalam bahasa Inggris meluas pemakaiannya ke ranah lain.
  "program" lebih dekat dengan memublikasikan sesuatu yang memuat sekumpulan niat, misalnya dengan makna seperti "mainkan Bach dulu lalu Mozart sesudahnya". Pemakaian seperti ini muncul beberapa abad setelah code sebagai "kumpulan aturan".
  "develop" berarti mengembangkan atau membentangkan sesuatu, yang bagus, tetapi tidak mengandung makna aturan atau prosedur berurutan seperti dua kata sebelumnya
- Saya orang Brasil, dan lucunya di antara teman atau rekan kerja saya, saat berbicara dalam bahasa Inggris kami biasanya memakai coding, dan di antara sesama orang Brasil kami sering memakai codar seperti kata kerja Portugis.
  Saya tidak tahu pasti alasannya, tetapi tampaknya karena "program" dalam Portugis Brasil punya kaitan yang kuat dengan prostitusi
- Sepenuhnya setuju. Saya juga membahas topik ini setahun lalu: https://news.ycombinator.com/item?id=36924239
- Mungkin sekarang ini pendapat yang tidak populer, tetapi saya setuju meskipun ada suasana di mana penilaian seperti itu dianggap sebagai menghakimi atau gatekeeping
- Ini terasa lebih dekat dengan sensibilitas Eropa
Ini tepat tingkat detail yang saya cari. Saya sudah punya cukup banyak pengalaman dengan deep learning dan pytorch, jadi saya tidak ingin melihat bagian yang mengimplementasikan itu dari nol.
Materi Andrej terlalu rendah levelnya untuk saya, jadi saya cenderung tersesat dalam detail. Ini bukan kritik, lebih seperti komentar yang mungkin membantu orang lain yang situasinya mirip dengan saya
Bagus sekali. Baru kemarin saya penasaran bagaimana tepatnya transformer/attention dan LLM bekerja.
Dulu sekali saya pernah mengikuti cara backpropagation bekerja pada RNN yang dalam, jadi saya pikir akan menarik juga melihat sisanya
- Kalau ingin mendapatkan intuisi, video 3b1b menjelaskannya dengan cukup baik. Hanya saja tidak masuk sampai ke detail yang sangat rinci
Bagus. Akan menyenangkan kalau ini juga berjalan di Windows 11.
Kalau Windows tidak disebutkan secara eksplisit, biasanya itu berarti lingkungannya tidak diuji di sana, dan saya sering melihat kasus di mana karena masalah acak jadi tidak berjalan baik
- Di WSL2 sepertinya akan berjalan baik tanpa masalah karena ada akses ke GPU. Hanya jangan lupa memasang Cuda toolkit, dan NVidia juga menyediakan yang khusus untuk WSL2.
  https://developer.nvidia.com/cuda-downloads?target_os=Linux&...
- Kalau tidak bisa di Windows 11, salah satu cara adalah mencobanya di WSL (Windows Subsystem for Linux)
Halaman ini pada dasarnya cuma kontainer untuk video YouTube. Karena tautan yang sama juga ada di deskripsi halaman, akan lebih baik kalau tautan HN diubah agar langsung menuju videonya
- Malah ini mengurangi langkah tambahan untuk mencari repositori tulisan Sebastian Raschka
- Dia sering membagikan video dan kode, dan materinya benar-benar sangat bernilai. Bukankah tinggal mendukung kreatornya saja?
- Adakah alasan untuk tidak mendukung situs web milik penulisnya sendiri? Situsnya juga terlihat bagus

Membangun LLM dari Dasar: Workshop Coding 3 Jam

Alur video workshop 3 jam

Dasar dan pemrosesan input

Implementasi model dan pelatihan

Fine-tuning dan evaluasi

Materi yang diperlukan untuk mengikuti

Bacaan terkait

1 komentar

Komentar Hacker News