- Ringkasan dengan tangkapan layar dari How I use LLMs, kuliah AI untuk masyarakat umum oleh Andrej Karpathy, salah satu pendiri OpenAI, yang diunggah pada 28/2
- Dibuat karena nilai utamanya ada pada berbagai materi visualisasi dan contoh penggunaan nyata dari Karpathy, sehingga rangkuman teks saja tidak cukup menangkap nuansa videonya
Ada berbagai jenis LLM
ChatGPT adalah yang paling terkenal dan memiliki fitur paling banyak. Selain itu, yang terkenal antara lain
- Gemini dari Google
- Meta AI dari Meta
- Copilot dari MS
- Claude dari Anthropic
- Grok dari xAI
- Perplexity
- DeepSeek dari Tiongkok
- Le Chat dari Mistral, Prancis
Bagaimana ChatGPT bekerja
LLM mirip seperti file zip hasil kompresi lossy sebesar 1TB yang merangkum seluruh dokumen internet. Di dalamnya ada jaringan saraf buatan dengan triliunan parameter yang secara probabilistik mengeluarkan “karakter berikutnya”.
File kompresi ini dibuat melalui dua jenis pelatihan besar
Pre-training: memerlukan puluhan juta dolar + lebih dari 3 bulan. Karena sangat mahal, ini tidak bisa sering dilakukan, sehingga muncul knowledge cutoff
Post-training: fine-tuning dengan biaya jauh lebih rendah. Tujuannya agar model tidak sekadar memuntahkan dokumen internet, tetapi bertindak seperti Assistant yang menjawab pertanyaan pengguna
- supervised learning yang menunjukkan jawaban teladan (Supervised Fine-Tuning)
- reinforcement learning berdasarkan preferensi manusia terhadap jawaban yang dihasilkan (Reinforcement Learning from Human Feedback)
- reinforcement learning berdasarkan jawaban ideal Assistant terhadap pertanyaan manusia (Reinforcement Learning on Conversation)
Saat membuat sesi baru di ChatGPT dan pengguna memasukkan pesan, pesan itu ditokenisasi lalu masuk sebagai input model, dan dari sana LLM membuat token berikutnya. Seluruh percakapan ini (input pengguna, output ChatGPT) disimpan di dalam Context Window.
Context Window mirip dengan working memory pada manusia, dan seperti manusia, ia juga punya batas. Semakin panjang Context Window, semakin besar sedikit kemungkinan model memberi informasi yang tidak akurat, dan biaya untuk menghasilkan jawaban berikutnya juga sedikit lebih mahal (= lebih lambat).
Karena itu, jika tidak benar-benar perlu, mempertahankan satu sesi terlalu lama bukan pilihan yang terlalu baik
Kapan harus memakai model 'Thinking'?
Ini adalah model yang, di atas LLM yang sudah melalui pre-training/post-training biasa, diberi reinforcement learning tambahan agar bisa menjawab masalah STEM yang kompleks (sains, teknologi, rekayasa, matematika) melalui proses penalaran yang panjang
Karena model ini “berpikir” sambil mengeluarkan banyak token, biaya dan waktunya lebih besar, tetapi akurasi jawaban untuk masalah kompleks meningkat tajam
Perlu dicatat bahwa model yang “berpikir” tidak selalu menyelesaikan masalah dengan benar, dan sebaliknya model tanpa “thinking” juga bisa menyelesaikannya dengan tepat (pada soal debugging kompleks yang diberikan Karpathy, semua model thinking berhasil dan ChatGPT-4o gagal, tetapi Sonnet 3.5, Gemini 2.0 Pro, dan Grok 3 juga berhasil tanpa Thinking)
Karpathy mengatakan ia biasanya lebih dulu mencoba model non-thinking yang jawabannya cepat keluar, lalu jika jawabannya terasa meragukan, baru memakai Thinking
Alat bantu untuk membantu LLM
Pencarian internet
Ada model yang bisa melakukan pencarian internet dan ada yang tidak. (Bahkan jika bukan pencarian sekalipun) kita selalu harus tahu model ini bisa melakukan apa sebelum memakainya
Pencarian dibutuhkan paling dasar karena adanya Knowledge Cutoff, sehingga model tidak bisa menjawab berdasarkan data terbaru. Di masa awal ChatGPT belum bisa melakukan ini, dan Perplexity berhasil menembus celah itu lalu mengumpulkan banyak pengguna
Sistem menilai dari kueri pengguna bahwa “ini perlu dicari”, lalu hasil pencarian internet ditokenisasi dan dimasukkan ke Context Window sebelum menjawab. (Kadang kita perlu secara eksplisit meminta agar model mencari dan memberi tahu hasilnya)
Belakangan ini Karpathy cukup sering bertanya ke Perplexity alih-alih googling. Ia mulai punya kebiasaan berpikir, “informasi seperti ini sebaiknya ditanyakan ke Perplexity”
- Rasanya bisa diketahui dengan googling dan membuka beberapa tautan teratas (apakah pasar saham buka hari ini, kapan White Lotus season 3 syuting, dll.)
- Informasinya terus berubah dan butuh data terbaru (apakah Vercel mendukung Postgresql, para pemeran Singles Inferno season 4 sekarang sedang apa, dll.)
Deep Research
Sederhananya ini adalah pencarian internet + Thinking. Jika panjang, model bisa mencari selama puluhan menit, lalu merangkum informasi yang didapat melalui Thinking dan menyusunnya menjadi laporan.
Ciri ChatGPT Deep Research adalah, demi membuat laporan yang lebih baik, ia memulai dengan menanyakan apa sebenarnya maksud penanya dan fokus apa yang diinginkan. Fitur serupa juga ada di Perplexity sebagai deep research, dan di Grok3 sebagai “deep search”. Masing-masing berbeda dalam kecepatan dan kualitas.
Seperti pencarian internet, di sini pun jawabannya bisa saja tidak akurat. Sumbernya perlu dicek langsung, tetapi tetap merupakan “draf yang sangat berguna”
Karpathy sudah mencoba sekitar 20-an deep research, dan menurutnya jawaban ChatGPT adalah yang terbaik karena paling panjang dalam arti berisi informasi yang bermakna. Topik yang ia lempar antara lain:
- memahami bahan tertentu dalam suplemen kesehatan
- mana yang lebih baik untuk keamanan dan privasi antara Brave Browser dan Arc Browser
- apa teknologi terbaru untuk meningkatkan usia hidup tikus? Intervensi seperti apa yang sudah dicoba? Saya berasal dari bidang ML dan terbiasa menetapkan serta meningkatkan metrik evaluasi. Apakah usia hidup tikus juga dievaluasi dengan cara seperti itu?
- buatkan tabel semua lab riset LLM besar di AS. Kapan didirikan, berapa banyak orang yang bekerja, dan apakah pendanaannya kuat.
Code Interpreter
LLM menulis lalu menjalankan kode, kemudian memasukkan hasil eksekusi kode itu ke konteks untuk menjawab. Ada Python dan JavaScript. Jika dipakai dengan baik, ini sangat kuat. Anggap saja seperti punya satu junior yang sangat cakap
- analisis data dengan ChatGPT 4o
- membuat aplikasi flashcard yang merangkum isi buku dengan Claude
- membuat diagram Mermaid yang memvisualisasikan isi buku dengan Claude
- membuat game tic-tac-toe dengan Cursor lalu meningkatkan efek pemenang hanya lewat chat
Modalitas
Interaksi dengan LLM tidak hanya lewat teks, tetapi juga audio, gambar, dan video
Input/output audio
Untuk input audio, Karpathy memanfaatkan aplikasi dikte di Mac seperti SuperWhisper, WisprFlow, MacWhisper. Ia mengatakan sekitar setengah dari hal yang dulu akan ia ketik, sekarang ia ucapkan.
Untuk output audio, biasanya fiturnya disediakan di dalam aplikasi. Bisa juga memakai screen dictation
Namun pada dasarnya ini tetap pertukaran berbasis teks. Karena harus melalui Speech-to-Text lalu Text-to-Speech lagi, prosesnya lambat.
Kita juga bisa benar-benar berinteraksi dengan LLM hanya lewat audio. Informasi audio itu sendiri ditokenisasi. Karpathy menyebut ini True Audio, dan di ChatGPT disebut Advanced Voice Mode.
- video demo percakapan yang memperlihatkan berbagai intonasi dan kecepatan bicara, bahkan menirukan suara hewan
Grok3 juga menyediakan Advanced Voice Mode di aplikasi mobile. Ada mode seksi, mode makian, dan model lain yang tanpa rem, sehingga dalam beberapa hal terasa lebih seru dan menarik
- video demo percakapan Grok3 versi Karpathy
NotebookLM juga bisa menganalisis file yang diunggah, lalu berdasarkan isinya membuat beberapa pembawa acara membawakan podcast dengan suara yang natural. Kita juga bisa menyela di tengah untuk bertanya dengan bebas (Interactive Mode).
- Karpathy sering membuat podcast untuk bidang-bidang yang rasa ingin tahunya tinggi tetapi kepakarannya tidak terlalu kuat. Podcast yang ia buat seperti itu juga ia unggah ke Spotify dengan nama Histories of Mysteris
Input/output gambar
Saat memakai OCR, Karpathy selalu punya kebiasaan mengecek dulu apakah teksnya terbaca dengan benar, baru kemudian menanyakan isinya. Alasannya, selalu ada kemungkinan model salah membaca.
Contoh penggunaan nyata: memeriksa kandungan nutrisi suplemen kesehatan, hasil tes darah dan interpretasinya, mendapatkan versi LaTeX dari rumus, menafsirkan meme, dll.
Untuk output gambar digunakan DALLE, IdeoGram, dll. Pembuatan gambar bukan fitur bawaan LLM, melainkan model terpisah yang menerima prompt lalu mengembalikan gambar hasilnya.
Input/output video
Seperti audio, Advanced Voice + Video bisa dipakai sebagai input untuk meminta jawaban. Ini tersedia di aplikasi mobile. Kemungkinan besar LLM tidak benar-benar menerima video utuh sebagai input, melainkan mengambil frame-frame tertentu lalu mengubahnya menjadi input gambar
Karpathy sendiri tidak terlalu sering memakainya, tetapi menurutnya ini bagus karena orang seperti generasi orang tuanya yang kurang punya latar belakang teknis pun bisa langsung bertanya dan mendapat jawaban
Untuk output video ada berbagai model termasuk Sora. Saat ini Karpathy merasa Google Veo 2 adalah yang paling realistis
Fitur tambahan
Memory
- Saat berdialog dengan pengguna, hal-hal yang dirasa “jika ini diingat, jawabannya akan lebih baik”, atau hal yang secara eksplisit diminta pengguna untuk diingat, akan disimpan bersama label Memory Updated
= Anggap saja semua ini akan masuk ke Context Window setiap kali membuat chat baru. Daftar lengkapnya juga bisa dilihat dan dikelola
Customize
- Jika menyimpan hal-hal seperti ingin dipanggil apa, bekerja di bidang apa, dan ingin dijawab dengan gaya seperti apa, semua itu juga akan dimasukkan ke context window saat model menjawab
- Karena Karpathy sedang belajar bahasa Korea akhir-akhir ini, ia sedang bereksperimen dengan memasukkan informasi terkait itu
Custom GPTs
Karpathy membuat dan memanfaatkan beberapa GPTs untuk belajar bahasa Korea. Ia memakai prompt sederhana dengan few-shot.
Korean Vocabulary Extractor: memecah kalimat Korea dan mengekstrak istilah-istilahnya
Korean Detailed Translator: mirip dengan yang di atas, tetapi menerjemahkan dengan pencocokan kata demi kata
KoreanCap: jika diberi tangkapan layar, model melakukan OCR lalu menerjemahkan, dan juga memecah per kata beserta pelafalannya
3 komentar
> Secara probabilistik memuntahkan 'huruf berikutnya'
Saya rasa sulit menemukan penjelasan yang lebih tepat daripada ini.
Menarik ya belajar bahasa Korea.
https://youtube.com/watch/… Tonton dengan subtitle