21 poin oleh GN⁺ 2025-12-21 | 2 komentar | Bagikan ke WhatsApp
  • Tahun 2025 menandai munculnya reinforcement learning dari reward yang dapat diverifikasi (RLVR) sebagai tahap inti baru dalam pelatihan LLM, ditambahkan ke pipeline pretraining-SFT-RLHF yang sudah ada
  • LLM mengembangkan sendiri strategi penalaran di lingkungan yang dapat diverifikasi seperti teka-teki matematika dan kode, lalu mempelajari cara memecahkan masalah yang bagi manusia tampak seperti "berpikir"
  • Cursor mendefinisikan lapisan baru aplikasi LLM, dengan pendekatan yang melakukan context engineering dan orkestrasi pemanggilan LLM yang kompleks di vertikal tertentu
  • Claude Code muncul sebagai contoh pertama yang benar-benar meyakinkan dari agen LLM yang berjalan di komputer lokal pengguna, menghadirkan paradigma interaksi baru dengan AI
  • Vibe Coding memungkinkan nonspesialis membuat program hanya dengan bahasa Inggris, menandai demokratisasi pengembangan perangkat lunak dan perubahan definisi pekerjaan

1. Kebangkitan reinforcement learning dari reward yang dapat diverifikasi (RLVR)

  • Hingga awal 2025, stack produksi LLM memiliki struktur tiga tahap: pretraining, supervised fine-tuning (SFT), dan reinforcement learning from human feedback (RLHF)
  • RLVR (Reinforcement Learning from Verifiable Rewards) ditambahkan sebagai tahap utama baru, yang melatih LLM terhadap reward yang bisa diverifikasi secara otomatis untuk hal-hal seperti matematika dan teka-teki kode
  • LLM secara spontan memperoleh perilaku mirip "penalaran", yaitu memecah masalah menjadi langkah perhitungan menengah dan mengembangkan berbagai strategi pemecahan masalah
    • Strategi seperti ini sulit dicapai dalam paradigma sebelumnya karena tidak jelas seperti apa trace penalaran yang optimal
    • LLM harus menemukan sendiri cara yang paling cocok untuk dirinya melalui optimasi reward
  • Berbeda dengan SFT/RLHF, RLVR memungkinkan optimasi yang jauh lebih panjang terhadap fungsi reward yang objektif dan tidak mudah dimanipulasi
  • Karena capability/$ RLVR sangat tinggi, sumber daya komputasi yang semula dialokasikan untuk pretraining dipindahkan ke RLVR
    • Sebagian besar kemajuan kapabilitas pada 2025 ditentukan oleh penerapan run RL yang lebih panjang pada LLM dengan ukuran serupa
  • Muncul knob baru untuk mengatur test-time compute (beserta scaling law baru), sehingga kapabilitas bisa diatur dengan membuat trace penalaran lebih panjang dan menambah "waktu berpikir"
  • OpenAI o1 (akhir 2024) adalah demonstrasi pertama model RLVR, dan rilis o3 (awal 2025) menjadi titik belok ketika perbedaannya mulai terasa jelas secara intuitif

2. Hantu vs. hewan / kecerdasan yang tidak merata (Jagged Intelligence)

  • Pada 2025, kita mulai memahami "bentuk" kecerdasan LLM dengan lebih intuitif
  • LLM bukan seperti "membiakkan atau menumbuhkan hewan", melainkan "memanggil hantu"
    • Arsitektur saraf, data pelatihan, algoritme pelatihan, dan tekanan optimasinya semuanya berbeda, sehingga menghasilkan entitas yang sangat berbeda dalam ruang kecerdasan
  • Jaringan saraf manusia dioptimalkan untuk kelangsungan hidup spesies di hutan, sedangkan jaringan saraf LLM dioptimalkan untuk meniru teks umat manusia, mengumpulkan reward dari teka-teki matematika, dan mendapatkan upvote di LM Arena
  • Ketika RLVR menjadi mungkin di domain yang dapat diverifikasi, kapabilitas LLM di area tersebut menjadi "melonjak" dan menunjukkan karakteristik performa yang tidak merata
    • Pada saat yang sama ia bisa bertindak seperti jenius serbabisa, tetapi juga seperti murid SD yang bingung, dan bisa tertipu jailbreak dalam hitungan detik hingga membocorkan data
    Iklan
  • Muncul hilangnya kepercayaan dan ketertarikan terhadap benchmark
    • Benchmark, hampir secara definisi, adalah lingkungan yang dapat diverifikasi, sehingga langsung rentan terhadap RLVR dan bentuk lemah dari pembuatan data sintetis
    • Dalam proses benchmaxxing, tim membangun lingkungan di sekitar ruang embedding benchmark dan menutup area sekitarnya
    • Belajar dari test set menjadi teknik baru
  • Akan seperti apa situasi ketika "semua benchmark terlampaui tetapi AGI masih belum tercapai"?
  • Artikel terkait

3. Cursor / lapisan baru aplikasi LLM

  • Seiring pertumbuhan Cursor yang sangat cepat, terlihat jelas lapisan baru dari "aplikasi LLM"
    • Ungkapan "Cursor for X" mulai dipakai
  • Aplikasi LLM seperti Cursor membundel dan mengorkestrasi pemanggilan LLM untuk vertikal tertentu
    1. Melakukan context engineering
    2. Mengorkestrasi banyak pemanggilan LLM dalam DAG yang makin kompleks sambil menyeimbangkan performa dan biaya
    3. Menyediakan GUI khusus aplikasi untuk human in the loop
    4. Menyediakan "slider otonomi"
  • Muncul perdebatan aktif tentang seberapa "tebal" lapisan aplikasi baru ini
    • Apakah lab LLM akan menguasai semua aplikasi, atau masih ada ruang peluang bagi aplikasi LLM?
  • Lab LLM umumnya cenderung menghasilkan lulusan kampus yang kompeten, tetapi aplikasi LLM diperkirakan akan mengaktifkan mereka menjadi ahli nyata dengan menyuplai data privat, sensor, aktuator, dan loop umpan balik di vertikal tertentu, lalu mengorganisasi serta menyetel mereka dengan hal itu

4. Claude Code / AI yang tinggal di komputer

  • Claude Code (CC) muncul sebagai demonstrasi meyakinkan pertama dari agen LLM
    • Penggunaan tool dan penalaran dirangkai dalam loop untuk menangani pemecahan masalah yang lebih luas
    Iklan
  • CC berjalan di komputer pengguna dengan lingkungan, data, dan konteks privat
  • OpenAI salah arah dengan memfokuskan upaya Codex/agen awal pada deployment container cloud yang diorkestrasi dari ChatGPT
    • Fokus ke cloud, bukan sekadar localhost
  • Swarm agen yang berjalan di cloud terasa seperti "endgame AGI", tetapi saat ini dunia masih berupa lompatan menengah yang lambat dengan kapabilitas yang tidak merata
    • Menjalankan agen langsung di komputer developer lebih masuk akal
  • Pembedaan penting bukanlah di mana "pekerjaan AI" dijalankan, melainkan soal komputer yang sudah ada dan sudah menyala, instalasi, konteks, data, secret, konfigurasi, dan interaksi berlatensi rendah
  • Anthropic memahami prioritas ini dengan tepat dan mengemas CC dalam form factor CLI yang ringkas
    • Ini menghadirkan paradigma interaksi baru: AI bukan situs web seperti Google yang kita kunjungi, melainkan roh/hantu kecil yang "tinggal" di komputer

5. Vibe Coding

  • Tahun 2025 adalah tahun ketika AI melewati ambang kapabilitas untuk membuat beragam program yang mengesankan hanya dengan bahasa Inggris
    • Orang bisa memprogram sambil melupakan bahwa kode itu sendiri ada
  • Ia menciptakan istilah "vibe coding" lewat sebuah tweet, tetapi tidak menyangka istilah itu akan menyebar sejauh ini
  • Dengan vibe coding, pemrograman berubah dari ranah para spesialis yang sangat terlatih menjadi sesuatu yang bisa dilakukan siapa saja
  • Tidak seperti teknologi lain, LLM menjadi kasus di mana orang biasa mendapat manfaat jauh lebih besar daripada para ahli, perusahaan, atau pemerintah
  • Vibe coding bukan hanya membuka akses pemrograman bagi orang biasa, tetapi juga membuat profesional terlatih menulis jauh lebih banyak perangkat lunak yang kalau tidak, tidak akan pernah ditulis
  • Contoh konkret:
    • Di nanochat, ia melakukan vibe coding untuk tokenizer BPE kustom berperforma tinggi dalam Rust tanpa harus mengadopsi library yang ada atau mendalami Rust
    • Ia melakukan vibe coding untuk hal-hal yang ia harap ada, menjadi demo aplikasi cepat seperti menugen, llm-council, reader3, dan HN time capsule
    • Ia melakukan vibe coding untuk seluruh aplikasi sekali pakai hanya demi menemukan satu bug — kode tiba-tiba menjadi gratis, sementara, lentur, dan sekali pakai
    Iklan
  • Vibe coding akan menterraform perangkat lunak dan mengubah definisi pekerjaan

6. Nano Banana / GUI LLM

  • Google Gemini Nano Banana adalah salah satu model dengan perubahan paradigma paling mengejutkan pada 2025
  • Dalam pandangan bahwa LLM adalah paradigma komputasi besar berikutnya yang mirip dengan komputer pada 1970-an dan 1980-an, maka inovasi serupa akan muncul karena alasan yang pada dasarnya mirip
    • Akan ada padanan dari personal computing, microcontroller (inti kognitif), internet (untuk agen), dan sebagainya
  • Dari sisi UIUX, "mengobrol" dengan LLM mirip dengan memberi perintah ke konsol komputer era 1980-an
  • Teks adalah representasi data mentah yang disukai komputer (dan LLM), tetapi bukan format yang disukai manusia
    • Terutama untuk input, orang tidak suka membaca teks — lambat dan butuh usaha
  • Manusia suka mengonsumsi informasi secara visual dan spasial, itulah sebabnya GUI ditemukan dalam komputasi tradisional
  • Dengan cara yang sama, LLM seharusnya berkomunikasi dalam format yang disukai manusia seperti gambar, infografik, slide, whiteboard, animasi/video, aplikasi web, dan lainnya
  • Versi awal saat ini adalah hal-hal seperti emoji dan Markdown — menata teks dengan "hiasan visual" seperti judul, bold, italic, daftar, dan tabel
  • Nano Banana memberi petunjuk awal pertama tentang seperti apa GUI LLM nantinya
    • Yang penting bukan hanya pembuatan gambar itu sendiri, tetapi kapabilitas gabungan di mana pembuatan teks, pembuatan gambar, dan pengetahuan dunia semuanya terjalin dalam bobot model

TLDR; ringkasan

  • Tahun 2025 adalah tahun yang menarik dan agak mengejutkan bagi LLM
  • LLM muncul sebagai jenis kecerdasan baru yang jauh lebih pintar dari perkiraan, sekaligus jauh lebih bodoh dari perkiraan
  • Bagaimanapun, LLM sangat berguna, dan ia merasa bahwa bahkan pada level teknologi saat ini pun industri belum memanfaatkan 10% dari potensinya
  • Ada tak terhitung banyaknya ide yang layak dicoba, dan secara konseptual bidang ini masih tampak punya jalan yang sangat panjang
  • (Meski tampak paradoks) ia percaya akan ada kemajuan yang cepat dan berkelanjutan ke depan, sambil tetap merasa bahwa masih banyak pekerjaan yang harus dilakukan

2 komentar

 
laeyoung 2025-12-21

"vibe coding" untuk membuat demo aplikasi cepat dari hal-hal yang ingin ada seperti menugen, llm-council, reader3, dan kapsul waktu HN.


Sesuai julukannya sebagai bapak vibe coding, hal-hal yang ia buat dengan vibe coding benar-benar sangat berbeda dari hal-hal kecil yang saya buat. 🤣

 
GN⁺ 2025-12-21
Komentar Hacker News
  • Inovasi yang paling mengesankan bagiku tahun ini adalah Claude Code
    Cursor adalah pembuktian konsep yang bagus, tetapi yang benar-benar membuatku memakai LLM untuk coding adalah Claude Code
    Kode yang dihasilkan Claude hampir seperti kode yang kutulis sendiri, seolah-olah ia membaca pikiranku
    Karena itu, kode buatan Claude juga mudah dipelihara
    Aku bisa memprediksi gaya kodenya sekitar 90~95%, dan ia menulis jauh lebih cepat dariku
    Gemini juga mengesankan, terutama Nano Banana yang berguna untuk desain grafis
    Aku belum mencoba Gemini untuk coding. Claude Code sudah terlalu bagus, jadi kalau coding jadi lebih cepat lagi malah rasanya bisa menimbulkan kelelahan mengambil keputusan
    Aku cenderung tidak terburu-buru dalam mengambil keputusan arsitektur atau UX, dan biasanya mulai implementasi setelah memikirkannya satu atau dua hari. Begitu mulai bergerak ke satu arah, sulit untuk mundur, dan kita jadi mudah bersikeras pada pilihan yang salah karena sunk cost fallacy

    • Sekarang aku hampir tidak merasa punya alasan untuk memakai Cursor
      Aku memasang plugin Claude Code di IntelliJ IDEA, lalu memakai IDE hanya untuk menelusuri atau me-review kode
      Aku bahkan tidak ingat kapan terakhir kali menulis lebih dari dua baris kode sendiri
      Berkat Claude Code, produktivitasku meningkat setidaknya 5 kali lipat, dan karena biaya menulis test hampir nol, cakupan test juga jauh lebih baik
      Aku memakai workflow AI agent penuh: membuat rencana bersama Claude, bertanya, menyuruhnya mengimplementasikan, me-review, lalu meminta revisi
      Tidak ada coding manual sama sekali. Benar-benar nol
    • Nano Banana Pro benar-benar alat yang gila kalau tahu cara memakainya dengan benar
      Aku masih susah percaya hal seperti ini dirilis ke publik
    • Awalnya aku masuk ke agentic coding lewat paket coding GLM yang murah (sekitar 2 dolar per bulan)
      Tapi karena setiap kali aku selalu meminta Claude membuat kode menjadi lebih elegan dan mudah dibaca, akhirnya aku langsung pindah ke Claude Code
      GLM juga cukup mendekati kalau prompt-nya bagus, tetapi kalau dengan 0,6 dolar per hari aku tidak perlu memikirkan hal itu, rasanya tidak ada yang perlu diperdebatkan
    • Aku menetap di Cursor karena tidak punya waktu untuk mengevaluasi tool baru setiap bulan
      Aku penasaran apa yang kulewatkan, padahal memakai model yang sama
  • Aku suka tulisan Karpathy, tetapi belakangan ini ketika melihat struktur kalimat ala LLM seperti “It’s not X, it’s Y”, aku langsung refleks merasa terganggu
    Tiga tahun lalu tidak terasa aneh, tetapi sekarang gaya seperti ini terasa benar-benar rusak

    • Benar, sekarang setelah ada yang menyorotinya, gaya itu jadi terus mengganggu mataku dan tidak bisa tidak kulihat
    • Dulu aku sering memakai em dash (—) dalam kalimat, tetapi orang-orang bilang tulisanku “terlihat seperti ditulis AI”, jadi aku harus mengubah cara menulis
    • Aku datang untuk membaca tulisan Karpathy, tetapi sekarang malah terasa mungkin lebih baik langsung bertanya ke LLM saja
    • Aku sudah membenci kalimat seperti ini bahkan sebelum era LLM
      Kalimat seperti “It’s not just a website…” kusebut lemak retoris (rhetorical fat)
      Kalau lemak semacam ini dibuang, hasilnya memang jadi datar, tetapi jelas
      Ekspresi seperti “little spirit” khususnya terasa terlalu berlebihan sampai bikin aku memutar mata
      Tentu penulis mungkin menghiasinya untuk memberi penekanan, tetapi itu tidak cocok dengan ideal penulisanku sehingga menimbulkan penolakan
      Kalimat seperti “It’s not just about image generation…” memberi ketegangan konseptual yang tidak perlu
      Menurutku lebih baik langsung menulis “pembuatan gambar menjadi lebih keren ketika digabungkan dengan pembuatan teks”
    • Sekarang gaya itu begitu menonjol sampai rasanya sulit menikmati internet
  • Itu review yang bagus dan realistis
    Ucapan bahwa “LLM lebih pintar dari perkiraan sekaligus juga bodoh pada saat yang sama” terasa mengkhawatirkan
    Bagaimana kita tahu sisi mana yang akan kita hadapi?
    Dalam coding, kesalahan bisa mudah dideteksi, tetapi di ranah umum bukankah lebih sulit?
    Lalu soal klaim bahwa “orang biasa mendapat lebih banyak manfaat dari LLM dibanding para ahli”, dulu AppleScript, VB, dan pemrograman visual juga pernah memunculkan harapan serupa, tetapi pada akhirnya AI sekarang dipakai seperti mesin pencari pintar
    Masalahnya, justru di area itulah halusinasi (hallucination) paling parah. Aku penasaran apa solusinya

  • Aku suka sikap optimistis Andrej, tetapi aku juga ingin mendengar pandangannya tentang bagaimana konsentrasi kekuasaan industri berubah pada 2025, serta topik seperti open source, inferensi lokal, dan keterbatasan hardware
    Misalnya, ia menyebut Claude Code “berjalan secara lokal”, padahal kenyataannya hanya TUI yang lokal dan inferensinya terjadi di cloud
    Aku penasaran bagaimana struktur seperti ini akan berkembang setelah 2026

    • Inti dari CC adalah soal data dan konteks lingkungan, bukan soal lokasi komputasi
      Alasan setup cloud tidak nyaman bukan karena perhitungannya, tetapi karena UI/UX dan loop pengguna
    • llama.cpp sekarang mendukung format pesan Anthropic, jadi bisa dipakai bersama Claude Code
    • Salah satu coding agent menarik yang bisa dijalankan secara lokal adalah OpenAI Codex
      Ia bisa dijalankan bersama model gpt-oss yang di-host di Ollama
      Misalnya seperti codex --oss -m gpt-oss:20b, dan model yang lebih besar (120b) juga memungkinkan
    • Yang dimaksud Karpathy dengan “agent yang berjalan secara lokal” bukan layanan web seperti LangChain, melainkan wrapper perangkat lunak (harness) yang memanggil API LLM
      Agent ini memanggil Bash, menangani file system, dan bisa melakukan hampir semua hal di OS
      Jadi, model adalah otak yang jauh di sana, sedangkan agent adalah semacam baju zirah mekanis
    • Menurutku bagian tentang Claude Code ditulis agak ambigu
      Tampaknya ia bermaksud bahwa agent-nya berjalan secara lokal, bukan inferensinya
      Dibanding OpenAI yang mendesain Codex berpusat pada cloud, CC tampaknya menekankan pendekatan yang local-first
      Tetapi pembedaan seperti ini memang perlu dijelaskan jauh lebih jelas
  • Aku merasa analogi RLVR dari Karpathy tentang “memelihara hewan vs memanggil hantu” adalah model yang sempurna untuk menjelaskan jagged intelligence saat ini
    Kita bukan sedang membuat penyintas umum, melainkan mengoptimalkan berlebihan hanya domain tertentu sesuai reward yang bisa diverifikasi
    Aku juga merasa konsep “perangkat lunak sekali pakai” akibat vibe coding sangat mengena
    Alur membuat aplikasi sementara hanya untuk men-debug satu masalah lalu langsung menghapusnya terasa seperti perubahan yang nyata

    • Tapi aku tidak merasa analogi “hewan vs hantu” itu begitu berwawasan
      Manusia dan hewan adalah makhluk yang benar-benar cerdas, sedangkan LLM hanya menggemakan keluaran manusia dalam lingkup sempit
      Untuk menjadi kecerdasan buatan yang sesungguhnya, perlu sifat seperti otonomi, pembelajaran berkelanjutan, rasa ingin tahu, dan embodied-ness virtual
      Kebanyakan hewan memang bertindak berdasarkan insting, tetapi hanya makhluk dengan kemampuan belajar tergeneralisasi seperti manusia yang memiliki kecerdasan sejati
    • Meski begitu, penggunaan LLM saat ini dimungkinkan karena adanya subsidi
      Kita masih harus melihat apakah pembuatan aplikasi sekali pakai seperti ini akan terus berlangsung ketika orang harus membayar biaya sebenarnya
    • Aku sudah memakainya seperti itu selama beberapa bulan, dan benar-benar menyenangkan
      Aku merangkumnya di tulisanku, ini semacam stack yang menyelesaikan apa yang dulu dimulai Jupyter
      Strukturnya berupa fence fungsional, dapat dipanggil dan dapat dikomposisikan
      Bentuknya mirip MCP, dan cukup mempelajari polanya tanpa pelatihan tambahan
      Bahkan ada functor yang menghubungkan metode pengajaran piano abad ke-18 dengan context engineering
  • Bagian ketika Karpathy mengatakan bahwa LLM harus berkomunikasi dalam format yang disukai pengguna seperti gambar, slide, atau whiteboard terasa menarik
    Tetapi jika LLM membuat UX baru untuk setiap pengguna setiap saat, itu juga bisa menjadi neraka antarmuka yang tidak dapat diprediksi
    Kita bisa sampai pada situasi seperti, “Di aplikasi ini, Command-W akan melakukan apa?”

    • Sebaliknya, beberapa agent belakangan ini justru mulai memperhatikan aksesibilitas (accessibility)
      Dalam kasus Codex, bahkan lebih teliti daripada manusia
    • Kalau melihat cara manusia benar-benar berkomunikasi, menurutku peringkat pertama adalah teks/suara, dan kedua adalah gambar
    • Tetapi sebenarnya LLM sudah menyelesaikan masalah itu
      LLM itu sendiri adalah UI terbaik
      Karena ia memahami berbagai bahasa dan konsep abstrak, tidak perlu membuat UI acak segala
      Aku pengguna non-Inggris, dan bahkan kalau mencampur kata-kata Jerman pun ia tetap memahaminya dengan baik
  • Banyak AI influencer yakin bahwa “text UI akan menghilang”, tetapi kenyataannya antarmuka teks masih tetap menjadi pusat

    • Beberapa hari lalu aku mencoba membatalkan langganan tool pemodelan 3D AI, tetapi selama 5 menit tidak bisa menemukan tombolnya
      Ternyata tombol itu disembunyikan di dalam menu tiga titik berkontras rendah pada kartu paket harga, dan ketika diklik justru membuka jendela percakapan chatbot AI
      Tombolnya baru muncul setelah aku memasukkan prompt “unsubscribe”
      Menurutku mengadopsi UX ala telepon otomatis seperti ini ke aplikasi adalah hal yang mengerikan
      Sebagai frontend engineer, tren seperti ini terasa menakutkan
    • Sepanjang hidupku, rasanya orang justru semakin sering mengetik daripada berbicara
  • Aku penasaran bagaimana pendapat Andrej tentang model-model cepat tahun ini (Gemini 3 Flash, Grok 4 Fast)
    Model-model yang secepat, semurah, dan sebagus itu sudah muncul, tetapi komunitas tampaknya hampir tidak memberi perhatian
    Kalau visi LLM untuk antarmuka visual ingin terwujud, model seperti ini rasanya wajib

    • Mungkin model-model kecil seperti ini besar kemungkinan adalah versi distilasi (distillation) dari model besar
      Dugaanku, mereka dilatih dengan reasoning traces yang dihasilkan model besar
    • Aku sarankan melihat riset dari Sasha Luccioni
  • 2025 juga merupakan tahun ketika hantu mulai menghuni data pelatihan
    Sekarang setengah dari X (Twitter) adalah struktur di mana LLM menjawab LLM
    Dengan kata lain, pemanggilan terjadi di dalam dataset itu sendiri

    • Kalau ada tips untuk membedakan akun-akun LLM seperti ini, aku ingin tahu. Aku tidak ingin berdebat dengan bot
  • Aku setuju bahwa o3 adalah titik balik
    Ada yang bilang o3 atau o4-mini pada dasarnya sudah setara tingkat gpt-5
    Tetapi karena namanya terasa asing, model-model itu tidak mendapat perhatian, sementara gpt-5 justru mengecewakan karena hanya menunjukkan peningkatan bertahap
    o4-mini mungkin tidak cocok sebagai model default karena bahasa percakapannya terasa canggung, tetapi seandainya dimasukkan ke paket 20 dolar dengan nama seperti “gpt-5 pro”, rasanya itu akan lebih baik

    • Aku juga setuju. Waktu itu hampir tidak ada yang mencoba o3, dan namanya aneh sehingga tidak menarik perhatian
      Kalau dipikir-pikir sekarang, menurutku saat itulah waktu yang tepat untuk rilis besar