2 poin oleh GN⁺ 2025-02-11 | 1 komentar | Bagikan ke WhatsApp

Untuk siapa deep dive ini?

  • Memahami cara kerja nyata LLM: Orang yang ingin mengetahui prinsip kerja LLM, melampaui pemahaman di permukaan.
  • Memahami istilah fine-tuning yang membingungkan: Orang yang ingin memahami istilah seperti chat_template dan ChatML.
  • Meningkatkan prompt engineering: Orang yang ingin memahami prompt seperti apa yang bekerja lebih baik.
  • Mengurangi halusinasi: Orang yang ingin mencegah LLM menghasilkan informasi yang salah.
  • Memahami pentingnya DeepSeek-R1: Orang yang ingin mengetahui pentingnya DeepSeek-R1 yang sedang menjadi sorotan saat ini.

Data pra-pelatihan

Internet

  • LLM membangun dataset teks berskala besar dengan melakukan crawling internet.
  • Data mentah penuh dengan konten duplikat, teks berkualitas rendah, dan informasi yang tidak relevan, sehingga perlu difilter secara menyeluruh sebelum pelatihan.
  • Sebagai contoh, dataset FineWeb mencakup lebih dari 1,2 miliar halaman web.

Tokenisasi

  • Tokenisasi adalah cara membagi teks menjadi potongan-potongan kecil (token) sebelum diproses model.
  • Teknik seperti Byte Pair Encoding (BPE) digunakan.
  • GPT-4 menggunakan 100.277 token.

Input/output jaringan saraf

  • Data yang telah ditokenisasi dimasukkan ke jaringan saraf.
  • Model memprediksi token berikutnya berdasarkan pola yang telah dipelajari.
  • Bobot disesuaikan untuk mengurangi kesalahan.

Bagian dalam jaringan saraf

  • Di dalam model, miliaran parameter berinteraksi dengan token input untuk menghasilkan distribusi probabilitas atas token berikutnya.
  • Arsitektur model dirancang untuk menyeimbangkan kecepatan, akurasi, dan paralelisasi.

Inferensi

  • LLM tidak menghasilkan output yang deterministik, melainkan bersifat probabilistik.
  • Output sedikit berbeda setiap kali dijalankan.
  • Karena unsur acak ini, LLM bisa kreatif tetapi kadang juga menghasilkan informasi yang salah.

GPT-2

  • GPT-2 yang dirilis OpenAI pada 2019 adalah contoh awal LLM berbasis transformer.
  • Model ini memiliki 1,6 miliar parameter, panjang konteks 1024 token, dan dilatih dengan sekitar 100 miliar token.
  • Andrej Karpathy mereproduksi GPT-2 dengan biaya $672 menggunakan llm.c.

Model dasar berbasis open source

  • Beberapa perusahaan melatih LLM skala besar dan merilis model dasar secara gratis.
  • Model dasar dilatih dengan teks internet mentah dan dapat menghasilkan completion, tetapi tidak memahami niat manusia.
  • OpenAI merilis GPT-2 sebagai open source.
  • Meta merilis Llama 3.1 (405B parameter) sebagai open source.

Dari pra-pelatihan ke pasca-pelatihan

  • Model dasar menghasilkan banyak halusinasi.
  • Pasca-pelatihan melakukan fine-tuning agar model memberi respons yang lebih baik.
  • Pasca-pelatihan jauh lebih murah daripada pra-pelatihan.

Supervised Fine-Tuning (SFT)

Percakapan data

  • Setelah model dasar dilatih dengan data internet, model kemudian menjalani pasca-pelatihan dengan percakapan manusia/asisten.
  • Template percakapan digunakan agar model memahami struktur percakapan.

Halusinasi, penggunaan alat, dan memori

  • Masalah utama LLM adalah halusinasi.
  • Meta menjelaskan cara meningkatkan factuality dalam paper Llama 3.
  • Ada juga cara mengurangi halusinasi dengan menggunakan alat.

Reinforcement Learning

  • Setelah dilatih dengan data internet, model belum tahu cara menggunakan pengetahuannya secara efektif.
  • Reinforcement Learning (RL) meningkatkan model melalui trial and error.

Cara kerja RL

  • RL memungkinkan model mencoba berbagai solusi dan menemukan solusi optimal.
  • Sebagai contoh, model menghasilkan 15 solusi dan hanya 4 yang benar.

Reinforcement Learning from Human Feedback (RLHF)

  • Di domain yang tidak dapat diverifikasi, manusia perlu dilibatkan.
  • RLHF menggunakan umpan balik manusia untuk meningkatkan model.

Prospek ke depan

  • Kemampuan multimodal: Memahami dan menghasilkan bukan hanya teks, tetapi juga gambar, audio, dan video.
  • Model berbasis agen: Melampaui satu tugas, dengan memori jangka panjang, penalaran, dan kemampuan memperbaiki kesalahan.
  • AI yang universal dan tak terlihat: Terintegrasi secara alami ke dalam workflow.
  • AI yang menggunakan komputer: Berinteraksi dengan software dan melakukan tugas lebih dari sekadar menghasilkan teks.

Cara menemukan LLM

  • Model proprietari: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude), dll.
  • Model open weight: DeepSeek, Meta (Llama), dll.
  • Menjalankan secara lokal: Menggunakan Ollama atau LM Studio.
  • Model dasar: Eksplorasi melalui Hyperbolic.

1 komentar

 
GN⁺ 2025-02-11
Komentar Hacker News
  • Sedang mencari tempat yang bagus untuk berdiskusi bahkan setelah video aslinya hilang dari halaman depan Hacker News

  • Muncul beberapa pertanyaan saat menonton videonya

    • Matematika dan LLM
      • Bertanya-tanya mengapa contoh yang diberikan Andrej untuk LLM kebanyakan berupa soal perhitungan
      • Kemampuan berhitung LLM memang semakin kuat dan berguna, tetapi saya rasa itu bukan kemampuan dasarnya
      • Akan lebih baik jika prompt yang menunjukkan kemampuan inti LLM dibedakan dari perhitungan matematis
      • Akan bagus jika ada referensi yang baik tentang diskusi kemampuan matematika atau kebijaksanaan LLM dalam melakukan matematika
    • Meta
      • Andrej sempat menyinggung secara singkat situasi ketika LLM digunakan untuk melatih dan mengevaluasi LLM lain, tetapi tidak banyak dibahas
      • Ingin tahu lebih banyak tentang keterbatasan dan risiko penggunaan LLM untuk melatih/mengevaluasi LLM lain
      • Terasa mirip dengan Proyek Manhattan dan senjata nuklir, ketika hasil awal dan perkembangan langsung diumpankan kembali untuk mengembangkan teknologi yang lebih kuat
  • Pendekatan Meta untuk menyelesaikan masalah halusinasi menarik

    • Mengekstrak sebagian data pelatihan lalu menggunakan Llama 3 untuk membuat pertanyaan faktual
    • Llama 3 menghasilkan jawaban dan diberi skor dengan membandingkannya dengan data asli
    • Jika salah, model dilatih untuk mengenali bahwa jawabannya salah dan menolaknya
    • Ini berlawanan dengan kecenderungan alami insinyur ML, dan penting untuk mengajarkan model agar mengenali apa yang tidak diketahuinya
  • Video Andrej sangat bagus, tetapi penjelasan bagian RL terasa agak samar

    • Ingin tahu bagaimana pelatihan dilakukan untuk jawaban yang benar
    • Penasaran apakah proses penalarannya dikumpulkan lalu dilatih seperti supervised learning, atau skornya dihitung dan digunakan sebagai fungsi loss
    • Reward bisa sangat jarang, dan penasaran apa yang terjadi jika masalahnya terlalu sulit sehingga LLM tidak bisa menghasilkan jawaban yang benar
    • Pembaruan parameter bersifat berurutan, jadi penasaran bagaimana pelatihan LLM bisa diparalelkan
  • Pada menit ke-53 video asli, ditunjukkan akurasi LLM dalam mengutip berdasarkan teks yang dipelajarinya

    • Penasaran bagaimana perusahaan-perusahaan besar berhasil meyakinkan pengadilan bahwa ini bukan pelanggaran hak cipta
    • Jika saya melatih model untuk menggambar karakter Disney, saya membayangkan akan langsung digugat
  • Agar model menjadi open source secara 'sepenuhnya', selain model itu sendiri dan cara menjalankannya, juga dibutuhkan program untuk melatih data

    • Lihat definisi open source AI dari OSI
  • Saya sudah membaca banyak artikel tentang LLM dan secara umum paham cara kerjanya, tetapi selalu penasaran mengapa model lain tidak bekerja sebaik model SOTA

    • Penasaran dengan sejarah dan alasan di balik arsitektur model saat ini
  • Melihat thread yang bagus hari ini: [tautan]

  • Agak disayangkan bahwa LLC in C miliknya ternyata hanya batu loncatan untuk kursusnya

  • Mungkin ini benar-benar ringkasan yang sangat bagus dari kuliah yang sangat bagus

    • Sedang mempertimbangkan untuk mengikuti versi aslinya
  • Belum menonton videonya, tetapi penasaran dengan bagian tokenisasi di TL;DR

    • Jika melihat teks yang ditokenisasi di artikel yang ditautkan, itu sebenarnya tanda pipa |, bukan "I View"
    • Pada langkah 3 dari tautan yang diposting @miletus di komentar Hacker News, teks yang ditokenisasi adalah "|Viewing Single (Post From) . . ."
    • Penggunaan huruf kapital (View, Single) lebih masuk akal saat melihat bagian kalimat ini