Ringkasan video Andrej Karpathy: "Deep dive ke LLM seperti ChatGPT"

(anfalmushtaq.com)

2 poin oleh GN⁺ 2025-02-11 | 1 komentar | Bagikan ke WhatsApp

Untuk siapa deep dive ini?

Memahami cara kerja nyata LLM: Orang yang ingin mengetahui prinsip kerja LLM, melampaui pemahaman di permukaan.
Memahami istilah fine-tuning yang membingungkan: Orang yang ingin memahami istilah seperti chat_template dan ChatML.
Meningkatkan prompt engineering: Orang yang ingin memahami prompt seperti apa yang bekerja lebih baik.
Mengurangi halusinasi: Orang yang ingin mencegah LLM menghasilkan informasi yang salah.
Memahami pentingnya DeepSeek-R1: Orang yang ingin mengetahui pentingnya DeepSeek-R1 yang sedang menjadi sorotan saat ini.

Data pra-pelatihan

Internet

LLM membangun dataset teks berskala besar dengan melakukan crawling internet.
Data mentah penuh dengan konten duplikat, teks berkualitas rendah, dan informasi yang tidak relevan, sehingga perlu difilter secara menyeluruh sebelum pelatihan.
Sebagai contoh, dataset FineWeb mencakup lebih dari 1,2 miliar halaman web.

Tokenisasi

Tokenisasi adalah cara membagi teks menjadi potongan-potongan kecil (token) sebelum diproses model.
Teknik seperti Byte Pair Encoding (BPE) digunakan.
GPT-4 menggunakan 100.277 token.

Input/output jaringan saraf

Data yang telah ditokenisasi dimasukkan ke jaringan saraf.
Model memprediksi token berikutnya berdasarkan pola yang telah dipelajari.
Bobot disesuaikan untuk mengurangi kesalahan.

Bagian dalam jaringan saraf

Di dalam model, miliaran parameter berinteraksi dengan token input untuk menghasilkan distribusi probabilitas atas token berikutnya.
Arsitektur model dirancang untuk menyeimbangkan kecepatan, akurasi, dan paralelisasi.

Inferensi

LLM tidak menghasilkan output yang deterministik, melainkan bersifat probabilistik.
Output sedikit berbeda setiap kali dijalankan.
Karena unsur acak ini, LLM bisa kreatif tetapi kadang juga menghasilkan informasi yang salah.

GPT-2

GPT-2 yang dirilis OpenAI pada 2019 adalah contoh awal LLM berbasis transformer.
Model ini memiliki 1,6 miliar parameter, panjang konteks 1024 token, dan dilatih dengan sekitar 100 miliar token.
Andrej Karpathy mereproduksi GPT-2 dengan biaya $672 menggunakan llm.c.

Model dasar berbasis open source

Beberapa perusahaan melatih LLM skala besar dan merilis model dasar secara gratis.
Model dasar dilatih dengan teks internet mentah dan dapat menghasilkan completion, tetapi tidak memahami niat manusia.
OpenAI merilis GPT-2 sebagai open source.
Meta merilis Llama 3.1 (405B parameter) sebagai open source.

Dari pra-pelatihan ke pasca-pelatihan

Model dasar menghasilkan banyak halusinasi.
Pasca-pelatihan melakukan fine-tuning agar model memberi respons yang lebih baik.
Pasca-pelatihan jauh lebih murah daripada pra-pelatihan.

Supervised Fine-Tuning (SFT)

Percakapan data

Setelah model dasar dilatih dengan data internet, model kemudian menjalani pasca-pelatihan dengan percakapan manusia/asisten.
Template percakapan digunakan agar model memahami struktur percakapan.

Halusinasi, penggunaan alat, dan memori

Masalah utama LLM adalah halusinasi.
Meta menjelaskan cara meningkatkan factuality dalam paper Llama 3.
Ada juga cara mengurangi halusinasi dengan menggunakan alat.

Reinforcement Learning

Setelah dilatih dengan data internet, model belum tahu cara menggunakan pengetahuannya secara efektif.
Reinforcement Learning (RL) meningkatkan model melalui trial and error.

Cara kerja RL

RL memungkinkan model mencoba berbagai solusi dan menemukan solusi optimal.
Sebagai contoh, model menghasilkan 15 solusi dan hanya 4 yang benar.

Reinforcement Learning from Human Feedback (RLHF)

Di domain yang tidak dapat diverifikasi, manusia perlu dilibatkan.
RLHF menggunakan umpan balik manusia untuk meningkatkan model.

Prospek ke depan

Kemampuan multimodal: Memahami dan menghasilkan bukan hanya teks, tetapi juga gambar, audio, dan video.
Model berbasis agen: Melampaui satu tugas, dengan memori jangka panjang, penalaran, dan kemampuan memperbaiki kesalahan.
AI yang universal dan tak terlihat: Terintegrasi secara alami ke dalam workflow.
AI yang menggunakan komputer: Berinteraksi dengan software dan melakukan tugas lebih dari sekadar menghasilkan teks.

Cara menemukan LLM

Model proprietari: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), dll.
Model open weight: DeepSeek, Meta (Llama), dll.
Menjalankan secara lokal: Menggunakan Ollama atau LM Studio.
Model dasar: Eksplorasi melalui Hyperbolic.

1 komentar

GN⁺ 2025-02-11

Komentar Hacker News

Sedang mencari tempat yang bagus untuk berdiskusi bahkan setelah video aslinya hilang dari halaman depan Hacker News
Muncul beberapa pertanyaan saat menonton videonya
- Matematika dan LLM
  - Bertanya-tanya mengapa contoh yang diberikan Andrej untuk LLM kebanyakan berupa soal perhitungan
  - Kemampuan berhitung LLM memang semakin kuat dan berguna, tetapi saya rasa itu bukan kemampuan dasarnya
  - Akan lebih baik jika prompt yang menunjukkan kemampuan inti LLM dibedakan dari perhitungan matematis
  - Akan bagus jika ada referensi yang baik tentang diskusi kemampuan matematika atau kebijaksanaan LLM dalam melakukan matematika
- Meta
  - Andrej sempat menyinggung secara singkat situasi ketika LLM digunakan untuk melatih dan mengevaluasi LLM lain, tetapi tidak banyak dibahas
  - Ingin tahu lebih banyak tentang keterbatasan dan risiko penggunaan LLM untuk melatih/mengevaluasi LLM lain
  - Terasa mirip dengan Proyek Manhattan dan senjata nuklir, ketika hasil awal dan perkembangan langsung diumpankan kembali untuk mengembangkan teknologi yang lebih kuat
Pendekatan Meta untuk menyelesaikan masalah halusinasi menarik
- Mengekstrak sebagian data pelatihan lalu menggunakan Llama 3 untuk membuat pertanyaan faktual
- Llama 3 menghasilkan jawaban dan diberi skor dengan membandingkannya dengan data asli
- Jika salah, model dilatih untuk mengenali bahwa jawabannya salah dan menolaknya
- Ini berlawanan dengan kecenderungan alami insinyur ML, dan penting untuk mengajarkan model agar mengenali apa yang tidak diketahuinya
Video Andrej sangat bagus, tetapi penjelasan bagian RL terasa agak samar
- Ingin tahu bagaimana pelatihan dilakukan untuk jawaban yang benar
- Penasaran apakah proses penalarannya dikumpulkan lalu dilatih seperti supervised learning, atau skornya dihitung dan digunakan sebagai fungsi loss
- Reward bisa sangat jarang, dan penasaran apa yang terjadi jika masalahnya terlalu sulit sehingga LLM tidak bisa menghasilkan jawaban yang benar
- Pembaruan parameter bersifat berurutan, jadi penasaran bagaimana pelatihan LLM bisa diparalelkan
Pada menit ke-53 video asli, ditunjukkan akurasi LLM dalam mengutip berdasarkan teks yang dipelajarinya
- Penasaran bagaimana perusahaan-perusahaan besar berhasil meyakinkan pengadilan bahwa ini bukan pelanggaran hak cipta
- Jika saya melatih model untuk menggambar karakter Disney, saya membayangkan akan langsung digugat
Agar model menjadi open source secara 'sepenuhnya', selain model itu sendiri dan cara menjalankannya, juga dibutuhkan program untuk melatih data
- Lihat definisi open source AI dari OSI
Saya sudah membaca banyak artikel tentang LLM dan secara umum paham cara kerjanya, tetapi selalu penasaran mengapa model lain tidak bekerja sebaik model SOTA
- Penasaran dengan sejarah dan alasan di balik arsitektur model saat ini
Melihat thread yang bagus hari ini: [tautan]
Agak disayangkan bahwa LLC in C miliknya ternyata hanya batu loncatan untuk kursusnya
Mungkin ini benar-benar ringkasan yang sangat bagus dari kuliah yang sangat bagus
- Sedang mempertimbangkan untuk mengikuti versi aslinya
Belum menonton videonya, tetapi penasaran dengan bagian tokenisasi di TL;DR
- Jika melihat teks yang ditokenisasi di artikel yang ditautkan, itu sebenarnya tanda pipa |, bukan "I View"
- Pada langkah 3 dari tautan yang diposting @miletus di komentar Hacker News, teks yang ditokenisasi adalah "|Viewing Single (Post From) . . ."
- Penggunaan huruf kapital (View, Single) lebih masuk akal saat melihat bagian kalimat ini

Ringkasan video Andrej Karpathy: "Deep dive ke LLM seperti ChatGPT"

Untuk siapa deep dive ini?

Data pra-pelatihan

Internet

Tokenisasi

Input/output jaringan saraf

Bagian dalam jaringan saraf

Inferensi

GPT-2

Model dasar berbasis open source

Dari pra-pelatihan ke pasca-pelatihan

Supervised Fine-Tuning (SFT)

Percakapan data

Halusinasi, penggunaan alat, dan memori

Reinforcement Learning

Cara kerja RL

Reinforcement Learning from Human Feedback (RLHF)

Prospek ke depan

Cara menemukan LLM

Bacaan terkait

1 komentar

Komentar Hacker News