Cara pendiri OpenAI memanfaatkan AI dalam kehidupan sehari-hari dan pekerjaan

(stdy.blog)

46 poin oleh spilist2 2025-03-04 | 3 komentar | Bagikan ke WhatsApp

Ringkasan dengan tangkapan layar dari How I use LLMs, kuliah AI untuk masyarakat umum oleh Andrej Karpathy, salah satu pendiri OpenAI, yang diunggah pada 28/2
Dibuat karena nilai utamanya ada pada berbagai materi visualisasi dan contoh penggunaan nyata dari Karpathy, sehingga rangkuman teks saja tidak cukup menangkap nuansa videonya

Ada berbagai jenis LLM

ChatGPT adalah yang paling terkenal dan memiliki fitur paling banyak. Selain itu, yang terkenal antara lain

Gemini dari Google
Meta AI dari Meta
Copilot dari MS
Claude dari Anthropic
Grok dari xAI
Perplexity
DeepSeek dari Tiongkok
Le Chat dari Mistral, Prancis

Bagaimana ChatGPT bekerja

LLM mirip seperti file zip hasil kompresi lossy sebesar 1TB yang merangkum seluruh dokumen internet. Di dalamnya ada jaringan saraf buatan dengan triliunan parameter yang secara probabilistik mengeluarkan “karakter berikutnya”.

File kompresi ini dibuat melalui dua jenis pelatihan besar

Pre-training: memerlukan puluhan juta dolar + lebih dari 3 bulan. Karena sangat mahal, ini tidak bisa sering dilakukan, sehingga muncul knowledge cutoff

Post-training: fine-tuning dengan biaya jauh lebih rendah. Tujuannya agar model tidak sekadar memuntahkan dokumen internet, tetapi bertindak seperti Assistant yang menjawab pertanyaan pengguna

supervised learning yang menunjukkan jawaban teladan (Supervised Fine-Tuning)
reinforcement learning berdasarkan preferensi manusia terhadap jawaban yang dihasilkan (Reinforcement Learning from Human Feedback)
reinforcement learning berdasarkan jawaban ideal Assistant terhadap pertanyaan manusia (Reinforcement Learning on Conversation)

Saat membuat sesi baru di ChatGPT dan pengguna memasukkan pesan, pesan itu ditokenisasi lalu masuk sebagai input model, dan dari sana LLM membuat token berikutnya. Seluruh percakapan ini (input pengguna, output ChatGPT) disimpan di dalam Context Window.

Context Window mirip dengan working memory pada manusia, dan seperti manusia, ia juga punya batas. Semakin panjang Context Window, semakin besar sedikit kemungkinan model memberi informasi yang tidak akurat, dan biaya untuk menghasilkan jawaban berikutnya juga sedikit lebih mahal (= lebih lambat).

Karena itu, jika tidak benar-benar perlu, mempertahankan satu sesi terlalu lama bukan pilihan yang terlalu baik

Kapan harus memakai model 'Thinking'?

Ini adalah model yang, di atas LLM yang sudah melalui pre-training/post-training biasa, diberi reinforcement learning tambahan agar bisa menjawab masalah STEM yang kompleks (sains, teknologi, rekayasa, matematika) melalui proses penalaran yang panjang

Karena model ini “berpikir” sambil mengeluarkan banyak token, biaya dan waktunya lebih besar, tetapi akurasi jawaban untuk masalah kompleks meningkat tajam

Perlu dicatat bahwa model yang “berpikir” tidak selalu menyelesaikan masalah dengan benar, dan sebaliknya model tanpa “thinking” juga bisa menyelesaikannya dengan tepat (pada soal debugging kompleks yang diberikan Karpathy, semua model thinking berhasil dan ChatGPT-4o gagal, tetapi Sonnet 3.5, Gemini 2.0 Pro, dan Grok 3 juga berhasil tanpa Thinking)

Karpathy mengatakan ia biasanya lebih dulu mencoba model non-thinking yang jawabannya cepat keluar, lalu jika jawabannya terasa meragukan, baru memakai Thinking

Alat bantu untuk membantu LLM

Pencarian internet

Ada model yang bisa melakukan pencarian internet dan ada yang tidak. (Bahkan jika bukan pencarian sekalipun) kita selalu harus tahu model ini bisa melakukan apa sebelum memakainya

Pencarian dibutuhkan paling dasar karena adanya Knowledge Cutoff, sehingga model tidak bisa menjawab berdasarkan data terbaru. Di masa awal ChatGPT belum bisa melakukan ini, dan Perplexity berhasil menembus celah itu lalu mengumpulkan banyak pengguna

Sistem menilai dari kueri pengguna bahwa “ini perlu dicari”, lalu hasil pencarian internet ditokenisasi dan dimasukkan ke Context Window sebelum menjawab. (Kadang kita perlu secara eksplisit meminta agar model mencari dan memberi tahu hasilnya)

Belakangan ini Karpathy cukup sering bertanya ke Perplexity alih-alih googling. Ia mulai punya kebiasaan berpikir, “informasi seperti ini sebaiknya ditanyakan ke Perplexity”

Rasanya bisa diketahui dengan googling dan membuka beberapa tautan teratas (apakah pasar saham buka hari ini, kapan White Lotus season 3 syuting, dll.)
Informasinya terus berubah dan butuh data terbaru (apakah Vercel mendukung Postgresql, para pemeran Singles Inferno season 4 sekarang sedang apa, dll.)

Deep Research

Sederhananya ini adalah pencarian internet + Thinking. Jika panjang, model bisa mencari selama puluhan menit, lalu merangkum informasi yang didapat melalui Thinking dan menyusunnya menjadi laporan.

Ciri ChatGPT Deep Research adalah, demi membuat laporan yang lebih baik, ia memulai dengan menanyakan apa sebenarnya maksud penanya dan fokus apa yang diinginkan. Fitur serupa juga ada di Perplexity sebagai deep research, dan di Grok3 sebagai “deep search”. Masing-masing berbeda dalam kecepatan dan kualitas.

Seperti pencarian internet, di sini pun jawabannya bisa saja tidak akurat. Sumbernya perlu dicek langsung, tetapi tetap merupakan “draf yang sangat berguna”

Karpathy sudah mencoba sekitar 20-an deep research, dan menurutnya jawaban ChatGPT adalah yang terbaik karena paling panjang dalam arti berisi informasi yang bermakna. Topik yang ia lempar antara lain:

memahami bahan tertentu dalam suplemen kesehatan
mana yang lebih baik untuk keamanan dan privasi antara Brave Browser dan Arc Browser
apa teknologi terbaru untuk meningkatkan usia hidup tikus? Intervensi seperti apa yang sudah dicoba? Saya berasal dari bidang ML dan terbiasa menetapkan serta meningkatkan metrik evaluasi. Apakah usia hidup tikus juga dievaluasi dengan cara seperti itu?
buatkan tabel semua lab riset LLM besar di AS. Kapan didirikan, berapa banyak orang yang bekerja, dan apakah pendanaannya kuat.

Code Interpreter

LLM menulis lalu menjalankan kode, kemudian memasukkan hasil eksekusi kode itu ke konteks untuk menjawab. Ada Python dan JavaScript. Jika dipakai dengan baik, ini sangat kuat. Anggap saja seperti punya satu junior yang sangat cakap

analisis data dengan ChatGPT 4o
membuat aplikasi flashcard yang merangkum isi buku dengan Claude
membuat diagram Mermaid yang memvisualisasikan isi buku dengan Claude
membuat game tic-tac-toe dengan Cursor lalu meningkatkan efek pemenang hanya lewat chat

Modalitas

Interaksi dengan LLM tidak hanya lewat teks, tetapi juga audio, gambar, dan video

Input/output audio

Untuk input audio, Karpathy memanfaatkan aplikasi dikte di Mac seperti SuperWhisper, WisprFlow, MacWhisper. Ia mengatakan sekitar setengah dari hal yang dulu akan ia ketik, sekarang ia ucapkan.

Untuk output audio, biasanya fiturnya disediakan di dalam aplikasi. Bisa juga memakai screen dictation

Namun pada dasarnya ini tetap pertukaran berbasis teks. Karena harus melalui Speech-to-Text lalu Text-to-Speech lagi, prosesnya lambat.

Kita juga bisa benar-benar berinteraksi dengan LLM hanya lewat audio. Informasi audio itu sendiri ditokenisasi. Karpathy menyebut ini True Audio, dan di ChatGPT disebut Advanced Voice Mode.

video demo percakapan yang memperlihatkan berbagai intonasi dan kecepatan bicara, bahkan menirukan suara hewan

Grok3 juga menyediakan Advanced Voice Mode di aplikasi mobile. Ada mode seksi, mode makian, dan model lain yang tanpa rem, sehingga dalam beberapa hal terasa lebih seru dan menarik

video demo percakapan Grok3 versi Karpathy

NotebookLM juga bisa menganalisis file yang diunggah, lalu berdasarkan isinya membuat beberapa pembawa acara membawakan podcast dengan suara yang natural. Kita juga bisa menyela di tengah untuk bertanya dengan bebas (Interactive Mode).

Karpathy sering membuat podcast untuk bidang-bidang yang rasa ingin tahunya tinggi tetapi kepakarannya tidak terlalu kuat. Podcast yang ia buat seperti itu juga ia unggah ke Spotify dengan nama Histories of Mysteris

Input/output gambar

Saat memakai OCR, Karpathy selalu punya kebiasaan mengecek dulu apakah teksnya terbaca dengan benar, baru kemudian menanyakan isinya. Alasannya, selalu ada kemungkinan model salah membaca.

Contoh penggunaan nyata: memeriksa kandungan nutrisi suplemen kesehatan, hasil tes darah dan interpretasinya, mendapatkan versi LaTeX dari rumus, menafsirkan meme, dll.

Untuk output gambar digunakan DALLE, IdeoGram, dll. Pembuatan gambar bukan fitur bawaan LLM, melainkan model terpisah yang menerima prompt lalu mengembalikan gambar hasilnya.

Input/output video

Seperti audio, Advanced Voice + Video bisa dipakai sebagai input untuk meminta jawaban. Ini tersedia di aplikasi mobile. Kemungkinan besar LLM tidak benar-benar menerima video utuh sebagai input, melainkan mengambil frame-frame tertentu lalu mengubahnya menjadi input gambar

Karpathy sendiri tidak terlalu sering memakainya, tetapi menurutnya ini bagus karena orang seperti generasi orang tuanya yang kurang punya latar belakang teknis pun bisa langsung bertanya dan mendapat jawaban

video demo

Untuk output video ada berbagai model termasuk Sora. Saat ini Karpathy merasa Google Veo 2 adalah yang paling realistis

perbandingan 9 model video

Fitur tambahan

Memory

Saat berdialog dengan pengguna, hal-hal yang dirasa “jika ini diingat, jawabannya akan lebih baik”, atau hal yang secara eksplisit diminta pengguna untuk diingat, akan disimpan bersama label Memory Updated
= Anggap saja semua ini akan masuk ke Context Window setiap kali membuat chat baru. Daftar lengkapnya juga bisa dilihat dan dikelola

Customize

Jika menyimpan hal-hal seperti ingin dipanggil apa, bekerja di bidang apa, dan ingin dijawab dengan gaya seperti apa, semua itu juga akan dimasukkan ke context window saat model menjawab
Karena Karpathy sedang belajar bahasa Korea akhir-akhir ini, ia sedang bereksperimen dengan memasukkan informasi terkait itu

Custom GPTs

Karpathy membuat dan memanfaatkan beberapa GPTs untuk belajar bahasa Korea. Ia memakai prompt sederhana dengan few-shot.

Korean Vocabulary Extractor: memecah kalimat Korea dan mengekstrak istilah-istilahnya

Korean Detailed Translator: mirip dengan yang di atas, tetapi menerjemahkan dengan pencocokan kata demi kata

KoreanCap: jika diberi tangkapan layar, model melakukan OCR lalu menerjemahkan, dan juga memecah per kata beserta pelafalannya

3 komentar

halfenif 2025-03-06

> Secara probabilistik memuntahkan 'huruf berikutnya'

Saya rasa sulit menemukan penjelasan yang lebih tepat daripada ini.

ned0909 2025-03-05

Menarik ya belajar bahasa Korea.

stadia 2025-03-04

https://youtube.com/watch/… Tonton dengan subtitle