Untuk siapa deep dive ini?
- Memahami cara kerja nyata LLM: Orang yang ingin mengetahui prinsip kerja LLM, melampaui pemahaman di permukaan.
- Memahami istilah fine-tuning yang membingungkan: Orang yang ingin memahami istilah seperti
chat_template dan ChatML.
- Meningkatkan prompt engineering: Orang yang ingin memahami prompt seperti apa yang bekerja lebih baik.
- Mengurangi halusinasi: Orang yang ingin mencegah LLM menghasilkan informasi yang salah.
- Memahami pentingnya DeepSeek-R1: Orang yang ingin mengetahui pentingnya DeepSeek-R1 yang sedang menjadi sorotan saat ini.
Data pra-pelatihan
Internet
- LLM membangun dataset teks berskala besar dengan melakukan crawling internet.
- Data mentah penuh dengan konten duplikat, teks berkualitas rendah, dan informasi yang tidak relevan, sehingga perlu difilter secara menyeluruh sebelum pelatihan.
- Sebagai contoh, dataset FineWeb mencakup lebih dari 1,2 miliar halaman web.
Tokenisasi
- Tokenisasi adalah cara membagi teks menjadi potongan-potongan kecil (token) sebelum diproses model.
- Teknik seperti Byte Pair Encoding (BPE) digunakan.
- GPT-4 menggunakan 100.277 token.
Input/output jaringan saraf
- Data yang telah ditokenisasi dimasukkan ke jaringan saraf.
- Model memprediksi token berikutnya berdasarkan pola yang telah dipelajari.
- Bobot disesuaikan untuk mengurangi kesalahan.
Bagian dalam jaringan saraf
- Di dalam model, miliaran parameter berinteraksi dengan token input untuk menghasilkan distribusi probabilitas atas token berikutnya.
- Arsitektur model dirancang untuk menyeimbangkan kecepatan, akurasi, dan paralelisasi.
Inferensi
- LLM tidak menghasilkan output yang deterministik, melainkan bersifat probabilistik.
- Output sedikit berbeda setiap kali dijalankan.
- Karena unsur acak ini, LLM bisa kreatif tetapi kadang juga menghasilkan informasi yang salah.
GPT-2
- GPT-2 yang dirilis OpenAI pada 2019 adalah contoh awal LLM berbasis transformer.
- Model ini memiliki 1,6 miliar parameter, panjang konteks 1024 token, dan dilatih dengan sekitar 100 miliar token.
- Andrej Karpathy mereproduksi GPT-2 dengan biaya $672 menggunakan llm.c.
Model dasar berbasis open source
- Beberapa perusahaan melatih LLM skala besar dan merilis model dasar secara gratis.
- Model dasar dilatih dengan teks internet mentah dan dapat menghasilkan completion, tetapi tidak memahami niat manusia.
- OpenAI merilis GPT-2 sebagai open source.
- Meta merilis Llama 3.1 (405B parameter) sebagai open source.
Dari pra-pelatihan ke pasca-pelatihan
- Model dasar menghasilkan banyak halusinasi.
- Pasca-pelatihan melakukan fine-tuning agar model memberi respons yang lebih baik.
- Pasca-pelatihan jauh lebih murah daripada pra-pelatihan.
Supervised Fine-Tuning (SFT)
Percakapan data
- Setelah model dasar dilatih dengan data internet, model kemudian menjalani pasca-pelatihan dengan percakapan manusia/asisten.
- Template percakapan digunakan agar model memahami struktur percakapan.
Halusinasi, penggunaan alat, dan memori
- Masalah utama LLM adalah halusinasi.
- Meta menjelaskan cara meningkatkan factuality dalam paper Llama 3.
- Ada juga cara mengurangi halusinasi dengan menggunakan alat.
Reinforcement Learning
- Setelah dilatih dengan data internet, model belum tahu cara menggunakan pengetahuannya secara efektif.
- Reinforcement Learning (RL) meningkatkan model melalui trial and error.
Cara kerja RL
- RL memungkinkan model mencoba berbagai solusi dan menemukan solusi optimal.
- Sebagai contoh, model menghasilkan 15 solusi dan hanya 4 yang benar.
Reinforcement Learning from Human Feedback (RLHF)
- Di domain yang tidak dapat diverifikasi, manusia perlu dilibatkan.
- RLHF menggunakan umpan balik manusia untuk meningkatkan model.
Prospek ke depan
- Kemampuan multimodal: Memahami dan menghasilkan bukan hanya teks, tetapi juga gambar, audio, dan video.
- Model berbasis agen: Melampaui satu tugas, dengan memori jangka panjang, penalaran, dan kemampuan memperbaiki kesalahan.
- AI yang universal dan tak terlihat: Terintegrasi secara alami ke dalam workflow.
- AI yang menggunakan komputer: Berinteraksi dengan software dan melakukan tugas lebih dari sekadar menghasilkan teks.
Cara menemukan LLM
- Model proprietari: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), dll.
- Model open weight: DeepSeek, Meta (Llama), dll.
- Menjalankan secara lokal: Menggunakan Ollama atau LM Studio.
- Model dasar: Eksplorasi melalui Hyperbolic.
1 komentar
Komentar Hacker News
Sedang mencari tempat yang bagus untuk berdiskusi bahkan setelah video aslinya hilang dari halaman depan Hacker News
Muncul beberapa pertanyaan saat menonton videonya
Pendekatan Meta untuk menyelesaikan masalah halusinasi menarik
Video Andrej sangat bagus, tetapi penjelasan bagian RL terasa agak samar
Pada menit ke-53 video asli, ditunjukkan akurasi LLM dalam mengutip berdasarkan teks yang dipelajarinya
Agar model menjadi open source secara 'sepenuhnya', selain model itu sendiri dan cara menjalankannya, juga dibutuhkan program untuk melatih data
Saya sudah membaca banyak artikel tentang LLM dan secara umum paham cara kerjanya, tetapi selalu penasaran mengapa model lain tidak bekerja sebaik model SOTA
Melihat thread yang bagus hari ini: [tautan]
Agak disayangkan bahwa LLC in C miliknya ternyata hanya batu loncatan untuk kursusnya
Mungkin ini benar-benar ringkasan yang sangat bagus dari kuliah yang sangat bagus
Belum menonton videonya, tetapi penasaran dengan bagian tokenisasi di TL;DR
|, bukan "I View"