2 poin oleh GN⁺ 2025-02-11 | Belum ada komentar. | Bagikan ke WhatsApp
  • Ini adalah ringkasan bagi pembaca yang ingin memahami sekaligus video mendalam tentang LLM berdurasi 3 jam 31 menit dari Andrej Karpathy secara singkat, mencakup prinsip kerja, istilah fine-tuning, prompt, halusinasi, hingga DeepSeek-R1
  • LLM dilatih untuk memprediksi token berikutnya di dalam context window setelah teks web skala besar dibersihkan lalu ditokenisasi, dan konteks yang panjang dapat mencerminkan lebih banyak informasi tetapi meningkatkan biaya komputasi
  • Base model yang telah dipra-latih pada dasarnya mirip autocomplete probabilistik yang melanjutkan teks bergaya internet, dan agar menjadi asisten percakapan diperlukan post-training seperti SFT dan alignment
  • Untuk mengurangi halusinasi, model perlu dibuat menolak pertanyaan yang tidak diketahuinya atau merujuk ke informasi terbaru melalui penggunaan alat dan RAG, sedangkan untuk soal matematika dan logika, generasi bertahap serta alat eksternal lebih cocok
  • Reinforcement learning membuat model belajar dari beberapa jawaban yang dicoba lalu memilih solusi yang berhasil, tetapi dalam RLHF, reward model hanya merupakan pendekatan atas preferensi manusia sehingga tetap ada risiko over-optimization dan eksploitasi reward model

Pembaca yang dituju ringkasan ini

  • "Deep dive into LLMs like ChatGPT" karya Andrej Karpathy adalah video berdurasi 3 jam 31 menit, dan ini adalah TL;DR bagi pembaca yang ingin menangkap intinya tanpa menghabiskan waktu menonton sepanjang itu
  • Cocok terutama untuk pembaca berikut
    • Orang yang ingin memahami bagaimana LLM benar-benar bekerja, bukan hanya di permukaan
    • Orang yang ingin memahami istilah fine-tuning seperti chat_template dan ChatML
    • Orang yang ingin memperbaiki prompt engineering dengan memahami mengapa sebuah prompt bekerja dengan baik atau gagal
    • Orang yang ingin mengurangi halusinasi pada LLM
    • Orang yang ingin memahami mengapa DeepSeek-R1 mendapat banyak perhatian
  • Diagram Excalidraw yang digunakan dalam video dapat diunduh lewat tautan unduhan yang di-host terpisah di CDN

Data pra-pelatihan dan tokenisasi

  • LLM membangun dataset teks skala besar dengan melakukan crawling internet, tetapi data mentahnya mengandung banyak konten duplikat, teks berkualitas rendah, dan informasi yang tidak relevan sehingga perlu penyaringan ketat sebelum pelatihan
    • Jika ingin membuat model khusus bahasa Inggris, diperlukan heuristik untuk hanya menyisakan teks yang kemungkinan besar berbahasa Inggris
    • Contoh dataset, FineWeb, mencakup lebih dari 1,2 miliar halaman web
  • Teks yang telah dibersihkan tidak masuk ke model dalam bentuk aslinya, tetapi diubah menjadi token, yaitu ID yang merepresentasikan pola berulang
    • Teknik yang umum dipakai adalah Byte Pair Encoding (BPE)
    • GPT-4 menggunakan 100.277 token, dan jumlah token bergantung pada keputusan pembuat model
    • Proses tokenisasi dapat divisualisasikan dengan Tiktokenizer

Input-output jaringan saraf dan cara kerja internal

  • Data yang telah ditokenisasi dimasukkan ke jaringan saraf, dan model memprediksi token berikutnya di dalam context window yang telah ditentukan
    • Beberapa model memakai 8.000 token, sedangkan GPT-4 mendukung konteks hingga 128k
    • Model memprediksi token berikutnya berdasarkan pola yang dipelajari, lalu menyesuaikan bobot agar kesalahan berkurang melalui backpropagation
    • Context window yang panjang memungkinkan model merefleksikan lebih banyak isi dari input, tetapi menaikkan biaya komputasi
  • Di dalam model, miliaran parameter berinteraksi dengan token input untuk menghasilkan distribusi probabilitas bagi token berikutnya
    • Proses ini didefinisikan oleh persamaan matematika kompleks yang dioptimalkan demi efisiensi
    • Arsitekturnya dirancang untuk menyeimbangkan kecepatan, akurasi, dan paralelisasi
    • Contoh arsitektur LLM tingkat produksi dapat dilihat di bbycroft.net/llm
  • Hasil inferensi LLM tidak deterministik, melainkan probabilistik
    • Menjalankan model yang sama pun dapat menghasilkan keluaran yang sedikit berbeda
    • Dalam kebanyakan kasus model menghasilkan teks baru yang mengikuti pola mirip data latih, tetapi dalam kasus tertentu dapat sama persis dengan sebagian data latih
    • Keacakan ini menjadi sumber keluaran kreatif, tetapi juga dapat memicu halusinasi yang menghasilkan informasi salah

GPT-2 dan perubahan biaya pelatihan

  • GPT-2 yang dirilis OpenAI pada 2019 adalah contoh LLM awal berbasis Transformer
    • 1,6 miliar parameter

    • Panjang konteks 1024 token

      • Dilatih dengan sekitar 100 miliar token
      • Biaya pelatihan awalnya 40 ribu dolar
      • Efisiensi kemudian meningkat drastis
      • Andrej Karpathy mereproduksi GPT-2 dengan biaya 672 dolar menggunakan llm.c
      • Dengan pipeline yang dioptimalkan, biaya pelatihan bisa turun lagi hingga sekitar 100 dolar
      • Penurunan biaya ini berasal dari data yang lebih bersih dan lingkungan eksekusi yang lebih baik
      • Dengan teknik ekstraksi data pra-pelatihan yang lebih baik, dataset menjadi lebih rapi sehingga model belajar lebih cepat
      • Berkat perangkat keras yang lebih kuat dan perangkat lunak yang dioptimalkan, jumlah komputasi yang dibutuhkan untuk hasil yang sama berkurang

Open base model dan keterbatasan base model

  • Open base model di sini tidak berarti model yang sepenuhnya mengikuti definisi AI open source dari OSI, melainkan model yang bobotnya dibuka tetapi data pelatihan dan reproduktibilitas penuh belum tentu tersedia
    • GPT-2 dari OpenAI adalah model open-weight dan source-available, tetapi bukan open source sepenuhnya menurut definisi OSI karena data latihnya tidak dipublikasikan
    • Llama 3.1 405B dari Meta adalah model open-weight, tetapi bukan model open source
  • Base model adalah model bahasa mentah hasil pra-pelatihan, dan agar praktis digunakan perlu fine-tuning atau alignment
    • Model ini dilatih dengan data internet skala besar yang tidak difilter sepenuhnya, sehingga menghasilkan kelanjutan teks yang mentah
    • Alignment terhadap niat manusia masih kurang
  • Untuk merilis base model, biasanya dibutuhkan dua hal
    • Kode inferensi: mendefinisikan prosedur model menghasilkan teks
    • Bobot model: miliaran parameter yang menyimpan pengetahuan model
  • Karakteristik perilaku base model adalah sebagai berikut
    • Menghasilkan teks bergaya internet pada tingkat token
    • Keluaran sedikit berbeda setiap kali dijalankan
    • Dapat mereproduksi apa adanya sebagian data latih
    • Parameternya bisa dipandang seperti file zip kompresi lossy untuk pengetahuan internet
    • Dapat dipakai untuk terjemahan dengan contoh in-context atau asisten dasar berbasis prompt terstruktur
  • Llama 3 405B base model bisa dicoba langsung, dan pada intinya base model mendekati autocomplete mahal

Dari pra-pelatihan ke post-training

  • Base model hanyalah generator teks hasil pra-pelatihan, dan untuk membuat asisten nyata diperlukan post-training
  • Model bisa menghasilkan teks, tetapi tidak selalu memberikan jawaban yang berguna dan juga sering mengalami halusinasi
  • Post-training adalah proses fine-tuning agar model memberikan respons yang lebih baik
  • Pra-pelatihan bisa memakan waktu berbulan-bulan, tetapi post-training jauh lebih murah hingga bisa selesai dalam hitungan jam

Supervised fine-tuning dan data percakapan

  • Setelah pra-pelatihan, model di-post-train menggunakan data percakapan manusia/asisten alih-alih dataset internet agar menjadi lebih percakapan dan berguna
    • Algoritme model tetap sama, hanya parameter yang sudah ada yang di-fine-tune
    • Dataset post-training awalnya dipilih langsung oleh manusia, tetapi model seperti UltraChat dapat menghasilkan percakapan sintetis
  • Untuk mengajarkan struktur percakapan digunakan chat template
    • Ini mendefinisikan struktur yang membedakan input pengguna dan respons asisten
    • Dokumentasi chat templating dari Hugging Face menjelaskannya lebih lanjut
  • Contoh template adalah sebagai berikut
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
  • <|im_start|>, <|im_end|> adalah token khusus yang membantu struktur percakapan
    • Model tidak melihat token baru ini saat pra-pelatihan, dan token tersebut diperkenalkan saat post-training
    • Makalah InstructGPT dari OpenAI membahas fine-tuning LLM untuk percakapan
  • Contoh dataset post-training adalah OASST1, dan dataset sintetis dapat divisualisasikan di Nomic Atlas

Halusinasi, penggunaan alat, dan memori

  • Salah satu masalah utama LLM adalah halusinasi, yaitu menghasilkan informasi yang salah atau dibuat-buat dengan penuh percaya diri
    • Dalam proses post-training, model bisa belajar bahwa ia harus selalu menjawab
    • Bahkan jika pertanyaannya tidak masuk akal, model cenderung mencoba memberi respons alih-alih mengatakan “tidak tahu”
  • Makalah Llama 3 dari Meta menggunakan prosedur berikut untuk meningkatkan factuality
    • Mengekstrak sebagian data pelatihan
    • Menggunakan Llama 3 untuk membuat pertanyaan faktual tentang data itu
    • Llama 3 menghasilkan jawaban
    • Jawaban itu dinilai dengan membandingkannya terhadap data asli
    • Jika salah, model dilatih untuk mengenali respons yang keliru dan menolaknya
  • Salah satu cara mengurangi halusinasi adalah melatih model agar menggunakan alat ketika tidak mengetahui jawabannya
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>

[...search results...]

<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
  • Melalui pelatihan berulang, model belajar untuk melakukan pencarian daripada mengarang hal yang tidak diketahuinya
  • Parameter model menyimpan memori samar seperti mengingat kabur sesuatu dari sebulan lalu, sedangkan token konteks bekerja seperti working memory yang menampung informasi terbaru
  • RAG bekerja baik karena model tidak perlu banyak menebak saat bisa mengakses dokumen yang relevan secara langsung

Kesadaran diri model dan token penalaran

  • Jika kita bertanya “siapa dirimu” pada base model yang belum di-tune, model itu bisa berhalusinasi
    • Meski bukan dibuat oleh OpenAI, model bisa menjawab bahwa pembuatnya OpenAI karena pada data internet, model AI sering dikaitkan dengan OpenAI
  • Ada dua cara untuk memperbaikinya
  • Tanpa pelatihan tambahan, LLM akan kembali ke respons AI yang umum tanpa pengetahuan nyata tentang dirinya sendiri
  • LLM tidak bernalar seperti manusia, melainkan menghasilkan token secara berurutan, sehingga untuk “berpikir” dengan baik ia memerlukan generasi yang terstruktur
    • Jika langsung melompat ke jawaban, hasilnya bisa mendekati tebakan
    • Jika solusi diuraikan langkah demi langkah, hasilnya lebih dapat diandalkan
    • Karena jumlah layer model terbatas, satu keluaran token tidak bisa diproses tanpa batas, sehingga memecah masalah menjadi langkah-langkah kecil meningkatkan peluang jawaban benar
  • Untuk tugas matematika dan logika, lebih baik membuat model memakai alat eksternal daripada hanya mengandalkan penalarannya sendiri

Reinforcement learning dan DeepSeek

  • Model yang telah dipra-latih bisa saja memiliki pengetahuan, tetapi belum tahu cara menggunakan pengetahuan itu secara efektif
    • Supervised fine-tuning mengajarkan model meniru respons manusia
    • Reinforcement learning membuat model menemukan solusi yang lebih baik melalui trial and error
  • Contoh prosedur reinforcement learning adalah sebagai berikut
    • Menghasilkan 15 solusi untuk masalah yang sama
    • Jika hanya 4 yang benar, pilih solusi terbaik yang benar dan singkat
    • Belajar dari solusi yang dipilih itu dan mengulangi proses ini berkali-kali
  • Tidak ada manusia yang terlibat langsung dalam proses ini; model membuat banyak jawaban untuk masalah yang sama lalu memilih jawaban yang mencapai solusi benar untuk dipelajari
  • Pra-pelatihan dan post-training sudah cukup terdefinisi, tetapi proses reinforcement learning masih menjadi area riset aktif
    • Perusahaan seperti OpenAI juga banyak menelitinya, tetapi ada bagian yang belum dipublikasikan
    • Makalah DeepSeek membahas RL dan FT untuk LLM secara terbuka, termasuk cara memunculkan kemampuan penalaran
  • Dalam contoh pada makalah DeepSeek, seiring waktu model menggunakan lebih banyak token untuk meningkatkan penalarannya
    • Momen yang disebut “aha” sulit diajarkan secara eksplisit hanya dengan pembelajaran dataset biasa, dan lebih merupakan sesuatu yang harus ditemukan sendiri oleh model melalui reinforcement learning
    • Kelebihannya adalah penalaran menjadi lebih baik, tetapi kekurangannya adalah konsumsi token menjadi lebih besar

AlphaGo dan potensi reinforcement learning

  • Dalam riset yang menguasai Go, reinforcement learning membuat model tidak hanya meniru manusia, tetapi juga menemukan strateginya sendiri lewat trial and error
  • Move 37 yang muncul dalam pertandingan AlphaGo diperkenalkan sebagai strategi untuk menang yang tidak berasal dari langkah di data pelatihan
    • Para peneliti memperkirakan peluang langkah itu muncul dari manusia hanya 1 banding 10.000
  • Reinforcement learning masih memiliki banyak wilayah yang belum dieksplorasi dan risetnya terus berlangsung
  • Jika LLM menilai bahwa itu adalah cara terbaik untuk mengekspresikan pikiran dan ide, model bahkan bisa menciptakan bahasanya sendiri

Area yang tidak dapat diverifikasi dan RLHF

  • Pada area yang dapat diverifikasi, lebih mudah mengeluarkan manusia dari proses reinforcement learning, dan LLM dapat berfungsi seperti penilai atas performanya sendiri
  • Dalam area yang tidak dapat diverifikasi seperti membuat lelucon atau ringkasan, manusia perlu tetap berada di dalam loop
    • Prompt seperti Write a joke about pelicans sulit dinilai kualitas leluconnya secara otomatis
    • LLM dapat membuat lelucon, tetapi sulit menilai kualitasnya dalam skala besar
  • Karena sulit juga melibatkan manusia dalam skala besar, dibutuhkan pendekatan seperti yang dibahas dalam makalah RLHF
  • RLHF melatih reward model terpisah untuk menilai kualitas respons dalam skala besar
    • Manusia menilai peringkat beberapa respons
    • Dari penilaian itu, reward model dilatih hingga mencapai tingkat yang diinginkan
    • Setelah itu reward model menilai kualitas respons LLM dalam skala besar

Kelebihan dan keterbatasan RLHF

  • Kelebihan RLHF adalah sebagai berikut
    • Memungkinkan reinforcement learning bahkan pada area yang tidak dapat diverifikasi seperti membuat lelucon atau ringkasan
    • Sering membantu memperbaiki model dengan mengurangi halusinasi dan membuat respons lebih mirip manusia
    • Memanfaatkan discriminator-generator gap, yaitu manusia lebih mudah menilai daripada menghasilkan jawaban
      • Contoh: lebih mudah memilih “mana puisi terbaik dari 5 puisi ini” daripada “tulislah sebuah puisi”
  • Keterbatasan RLHF juga jelas
    • Reward model bukan manusia sungguhan, melainkan simulasi preferensi manusia
    • Reinforcement learning dapat membuat contoh adversarial yang mengeksploitasi kelemahan reward model
    • Misalnya, setelah 1.000 kali update, “lelucon terbaik tentang pelikan” bisa berubah menjadi hasil tak bermakna seperti the the the the the the the the
  • Masalah seperti ini dikenal sebagai Adversarial Machine Learning
  • Karena cara mengeksploitasi sistem bisa tak terbatas, menyaring respons buruk bukan hal sederhana
  • Untuk mencegah over-optimization dan penurunan performa, pelatihan reward model dibatasi hanya sampai beberapa ratus iterasi

Arah LLM ke depan

  • Ke depan, LLM dapat berkembang ke berbagai arah
    • Kemampuan multimodal: memahami dan menghasilkan bukan hanya teks, tetapi juga gambar, audio, dan video
    • Model berbasis agen: bergerak melampaui tugas tunggal menuju memori jangka panjang, penalaran, dan perbaikan kesalahan
    • AI yang sehari-hari dan tak terlihat: terintegrasi secara alami ke dalam workflow
    • AI pengguna komputer: bukan hanya menghasilkan teks, tetapi juga berinteraksi dengan perangkat lunak dan melakukan tindakan
    • Test-time learning: beradaptasi secara real time untuk meningkatkan akurasi saat itu juga

Tempat mengikuti dan bereksperimen dengan LLM

  • Sumber daya untuk melacak perkembangan LLM
    • LM Arena: benchmarking model bahasa baru
    • AI News: newsletter tentang riset AI
    • X (Twitter): banyak peneliti membagikan pembaruan di sana
  • Tempat untuk mencoba berbagai LLM
    • Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude, dan lainnya
    • Open-Weight Models: DeepSeek, Meta Llama, dan lainnya, tersedia di Together.ai
    • Menjalankan secara lokal: gunakan Ollama atau LM Studio
    • Base Models: dapat dieksplorasi di Hyperbolic

Belum ada komentar.

Belum ada komentar.