- Tahun 2025 menandai munculnya reinforcement learning dari reward yang dapat diverifikasi (RLVR) sebagai tahap inti baru dalam pelatihan LLM, ditambahkan ke pipeline pretraining-SFT-RLHF yang sudah ada
- LLM mengembangkan sendiri strategi penalaran di lingkungan yang dapat diverifikasi seperti teka-teki matematika dan kode, lalu mempelajari cara memecahkan masalah yang bagi manusia tampak seperti "berpikir"
- Cursor mendefinisikan lapisan baru aplikasi LLM, dengan pendekatan yang melakukan context engineering dan orkestrasi pemanggilan LLM yang kompleks di vertikal tertentu
- Claude Code muncul sebagai contoh pertama yang benar-benar meyakinkan dari agen LLM yang berjalan di komputer lokal pengguna, menghadirkan paradigma interaksi baru dengan AI
- Vibe Coding memungkinkan nonspesialis membuat program hanya dengan bahasa Inggris, menandai demokratisasi pengembangan perangkat lunak dan perubahan definisi pekerjaan
1. Kebangkitan reinforcement learning dari reward yang dapat diverifikasi (RLVR)
- Hingga awal 2025, stack produksi LLM memiliki struktur tiga tahap: pretraining, supervised fine-tuning (SFT), dan reinforcement learning from human feedback (RLHF)
- RLVR (Reinforcement Learning from Verifiable Rewards) ditambahkan sebagai tahap utama baru, yang melatih LLM terhadap reward yang bisa diverifikasi secara otomatis untuk hal-hal seperti matematika dan teka-teki kode
- LLM secara spontan memperoleh perilaku mirip "penalaran", yaitu memecah masalah menjadi langkah perhitungan menengah dan mengembangkan berbagai strategi pemecahan masalah
- Strategi seperti ini sulit dicapai dalam paradigma sebelumnya karena tidak jelas seperti apa trace penalaran yang optimal
- LLM harus menemukan sendiri cara yang paling cocok untuk dirinya melalui optimasi reward
- Berbeda dengan SFT/RLHF, RLVR memungkinkan optimasi yang jauh lebih panjang terhadap fungsi reward yang objektif dan tidak mudah dimanipulasi
- Karena capability/$ RLVR sangat tinggi, sumber daya komputasi yang semula dialokasikan untuk pretraining dipindahkan ke RLVR
- Sebagian besar kemajuan kapabilitas pada 2025 ditentukan oleh penerapan run RL yang lebih panjang pada LLM dengan ukuran serupa
- Muncul knob baru untuk mengatur test-time compute (beserta scaling law baru), sehingga kapabilitas bisa diatur dengan membuat trace penalaran lebih panjang dan menambah "waktu berpikir"
- OpenAI o1 (akhir 2024) adalah demonstrasi pertama model RLVR, dan rilis o3 (awal 2025) menjadi titik belok ketika perbedaannya mulai terasa jelas secara intuitif
2. Hantu vs. hewan / kecerdasan yang tidak merata (Jagged Intelligence)
- Pada 2025, kita mulai memahami "bentuk" kecerdasan LLM dengan lebih intuitif
- LLM bukan seperti "membiakkan atau menumbuhkan hewan", melainkan "memanggil hantu"
- Arsitektur saraf, data pelatihan, algoritme pelatihan, dan tekanan optimasinya semuanya berbeda, sehingga menghasilkan entitas yang sangat berbeda dalam ruang kecerdasan
- Jaringan saraf manusia dioptimalkan untuk kelangsungan hidup spesies di hutan, sedangkan jaringan saraf LLM dioptimalkan untuk meniru teks umat manusia, mengumpulkan reward dari teka-teki matematika, dan mendapatkan upvote di LM Arena
- Ketika RLVR menjadi mungkin di domain yang dapat diverifikasi, kapabilitas LLM di area tersebut menjadi "melonjak" dan menunjukkan karakteristik performa yang tidak merata
- Pada saat yang sama ia bisa bertindak seperti jenius serbabisa, tetapi juga seperti murid SD yang bingung, dan bisa tertipu jailbreak dalam hitungan detik hingga membocorkan data
- Muncul hilangnya kepercayaan dan ketertarikan terhadap benchmark
- Benchmark, hampir secara definisi, adalah lingkungan yang dapat diverifikasi, sehingga langsung rentan terhadap RLVR dan bentuk lemah dari pembuatan data sintetis
- Dalam proses benchmaxxing, tim membangun lingkungan di sekitar ruang embedding benchmark dan menutup area sekitarnya
- Belajar dari test set menjadi teknik baru
- Akan seperti apa situasi ketika "semua benchmark terlampaui tetapi AGI masih belum tercapai"?
- Artikel terkait
3. Cursor / lapisan baru aplikasi LLM
- Seiring pertumbuhan Cursor yang sangat cepat, terlihat jelas lapisan baru dari "aplikasi LLM"
- Ungkapan "Cursor for X" mulai dipakai
- Aplikasi LLM seperti Cursor membundel dan mengorkestrasi pemanggilan LLM untuk vertikal tertentu
1. Melakukan context engineering
2. Mengorkestrasi banyak pemanggilan LLM dalam DAG yang makin kompleks sambil menyeimbangkan performa dan biaya
3. Menyediakan GUI khusus aplikasi untuk human in the loop
4. Menyediakan "slider otonomi"
- Muncul perdebatan aktif tentang seberapa "tebal" lapisan aplikasi baru ini
- Apakah lab LLM akan menguasai semua aplikasi, atau masih ada ruang peluang bagi aplikasi LLM?
- Lab LLM umumnya cenderung menghasilkan lulusan kampus yang kompeten, tetapi aplikasi LLM diperkirakan akan mengaktifkan mereka menjadi ahli nyata dengan menyuplai data privat, sensor, aktuator, dan loop umpan balik di vertikal tertentu, lalu mengorganisasi serta menyetel mereka dengan hal itu
4. Claude Code / AI yang tinggal di komputer
- Claude Code (CC) muncul sebagai demonstrasi meyakinkan pertama dari agen LLM
- Penggunaan tool dan penalaran dirangkai dalam loop untuk menangani pemecahan masalah yang lebih luas
- CC berjalan di komputer pengguna dengan lingkungan, data, dan konteks privat
- OpenAI salah arah dengan memfokuskan upaya Codex/agen awal pada deployment container cloud yang diorkestrasi dari ChatGPT
- Fokus ke cloud, bukan sekadar
localhost
- Swarm agen yang berjalan di cloud terasa seperti "endgame AGI", tetapi saat ini dunia masih berupa lompatan menengah yang lambat dengan kapabilitas yang tidak merata
- Menjalankan agen langsung di komputer developer lebih masuk akal
- Pembedaan penting bukanlah di mana "pekerjaan AI" dijalankan, melainkan soal komputer yang sudah ada dan sudah menyala, instalasi, konteks, data, secret, konfigurasi, dan interaksi berlatensi rendah
- Anthropic memahami prioritas ini dengan tepat dan mengemas CC dalam form factor CLI yang ringkas
- Ini menghadirkan paradigma interaksi baru: AI bukan situs web seperti Google yang kita kunjungi, melainkan roh/hantu kecil yang "tinggal" di komputer
5. Vibe Coding
- Tahun 2025 adalah tahun ketika AI melewati ambang kapabilitas untuk membuat beragam program yang mengesankan hanya dengan bahasa Inggris
- Orang bisa memprogram sambil melupakan bahwa kode itu sendiri ada
- Ia menciptakan istilah "vibe coding" lewat sebuah tweet, tetapi tidak menyangka istilah itu akan menyebar sejauh ini
- Dengan vibe coding, pemrograman berubah dari ranah para spesialis yang sangat terlatih menjadi sesuatu yang bisa dilakukan siapa saja
- Tidak seperti teknologi lain, LLM menjadi kasus di mana orang biasa mendapat manfaat jauh lebih besar daripada para ahli, perusahaan, atau pemerintah
- Vibe coding bukan hanya membuka akses pemrograman bagi orang biasa, tetapi juga membuat profesional terlatih menulis jauh lebih banyak perangkat lunak yang kalau tidak, tidak akan pernah ditulis
- Contoh konkret:
- Di nanochat, ia melakukan vibe coding untuk tokenizer BPE kustom berperforma tinggi dalam Rust tanpa harus mengadopsi library yang ada atau mendalami Rust
- Ia melakukan vibe coding untuk hal-hal yang ia harap ada, menjadi demo aplikasi cepat seperti menugen, llm-council, reader3, dan HN time capsule
- Ia melakukan vibe coding untuk seluruh aplikasi sekali pakai hanya demi menemukan satu bug — kode tiba-tiba menjadi gratis, sementara, lentur, dan sekali pakai
- Vibe coding akan menterraform perangkat lunak dan mengubah definisi pekerjaan
6. Nano Banana / GUI LLM
- Google Gemini Nano Banana adalah salah satu model dengan perubahan paradigma paling mengejutkan pada 2025
- Dalam pandangan bahwa LLM adalah paradigma komputasi besar berikutnya yang mirip dengan komputer pada 1970-an dan 1980-an, maka inovasi serupa akan muncul karena alasan yang pada dasarnya mirip
- Akan ada padanan dari personal computing, microcontroller (inti kognitif), internet (untuk agen), dan sebagainya
- Dari sisi UIUX, "mengobrol" dengan LLM mirip dengan memberi perintah ke konsol komputer era 1980-an
- Teks adalah representasi data mentah yang disukai komputer (dan LLM), tetapi bukan format yang disukai manusia
- Terutama untuk input, orang tidak suka membaca teks — lambat dan butuh usaha
- Manusia suka mengonsumsi informasi secara visual dan spasial, itulah sebabnya GUI ditemukan dalam komputasi tradisional
- Dengan cara yang sama, LLM seharusnya berkomunikasi dalam format yang disukai manusia seperti gambar, infografik, slide, whiteboard, animasi/video, aplikasi web, dan lainnya
- Versi awal saat ini adalah hal-hal seperti emoji dan Markdown — menata teks dengan "hiasan visual" seperti judul, bold, italic, daftar, dan tabel
- Nano Banana memberi petunjuk awal pertama tentang seperti apa GUI LLM nantinya
- Yang penting bukan hanya pembuatan gambar itu sendiri, tetapi kapabilitas gabungan di mana pembuatan teks, pembuatan gambar, dan pengetahuan dunia semuanya terjalin dalam bobot model
TLDR; ringkasan
- Tahun 2025 adalah tahun yang menarik dan agak mengejutkan bagi LLM
- LLM muncul sebagai jenis kecerdasan baru yang jauh lebih pintar dari perkiraan, sekaligus jauh lebih bodoh dari perkiraan
- Bagaimanapun, LLM sangat berguna, dan ia merasa bahwa bahkan pada level teknologi saat ini pun industri belum memanfaatkan 10% dari potensinya
- Ada tak terhitung banyaknya ide yang layak dicoba, dan secara konseptual bidang ini masih tampak punya jalan yang sangat panjang
- (Meski tampak paradoks) ia percaya akan ada kemajuan yang cepat dan berkelanjutan ke depan, sambil tetap merasa bahwa masih banyak pekerjaan yang harus dilakukan
Belum ada komentar.