- November 2025 menjadi titik acuan untuk perubahan terbaru LLM, dengan kunci utamanya adalah makin praktisnya agen coding dan pesatnya kemajuan model yang bisa dijalankan di laptop
- Setelah Claude Sonnet 4.5, GPT-5.1, Gemini 3, dan Claude Opus 4.5 bersaing dengan cepat, dan Opus 4.5 tampak memimpin selama beberapa bulan
- Reinforcement learning berbasis reward yang dapat diverifikasi dari OpenAI dan Anthropic terlihat meningkatkan kualitas kode dalam harness seperti Codex dan Claude Code
- Eksperimen saat musim liburan menghasilkan temuan menarik seperti micro-javascript, tetapi kebutuhan nyatanya terbatas karena bug, kecepatan, dan keamanan
- Model open-weight seperti Gemma 4, GLM-5.1, dan Qwen3.6-35B-A3B mulai jauh melampaui ekspektasi meski masih lebih lemah daripada model frontier
Dua arus yang membelah 6 bulan terakhir
- Titik belok November 2025 adalah acuan yang baik untuk melihat perubahan LLM selama 6 bulan terakhir, dan khususnya merupakan bulan penting di ranah coding
- Perubahan inti selama 6 bulan terakhir bisa diringkas menjadi dua hal
- Agen coding menjadi cukup baik untuk dipakai dalam pekerjaan harian nyata
- Model yang bisa dijalankan di laptop, walaupun lebih lemah daripada model frontier, mulai melampaui ekspektasi secara besar
- Untuk membandingkan model, digunakan uji membuat SVG pelikan yang sedang mengendarai sepeda
- Latar belakang tes ini adalah karena pelikan sulit digambar, sepeda juga sulit digambar, pelikan tidak bisa mengendarai sepeda, dan kecil kemungkinan ada lab AI yang melatih model untuk tugas seperti ini
Persaingan model frontier di bulan November
- Pada awal November, model yang secara luas dianggap “terbaik” adalah Claude Sonnet 4.5, yang dirilis pada 29 September
- Setelah itu, posisi model “terbaik” berubah cepat di antara tiga penyedia besar
- Gemini 3 menggambar pelikan terbaik di kelompok perbandingan ini, tetapi tes pelikan saja tidak cukup untuk menilai keseluruhan kemampuan model
- Claude Opus 4.5 tampak sebagai model yang mempertahankan posisi terdepan selama beberapa bulan setelahnya
Menembus ambang kualitas agen coding
- Perubahan yang benar-benar penting di bulan November adalah peningkatan kualitas agen coding
- OpenAI dan Anthropic menghabiskan sebagian besar tahun 2025 untuk reinforcement learning berbasis reward yang dapat diverifikasi(Reinforcement Learning from Verifiable Rewards) demi meningkatkan kualitas kode yang ditulis model
- Peningkatan ini особенно menonjol saat dipadukan dengan agent harness seperti Codex dan Claude Code
- Pada bulan November, agen coding beralih dari level “sering kali berhasil” menjadi “umumnya berhasil”
- Agen ini mencapai level alat harian yang memungkinkan pengguna benar-benar menyerahkan pekerjaan tanpa harus menghabiskan sebagian besar waktunya memperbaiki kesalahan bodoh
Eksperimen musim liburan dan euforia berlebihan
- Dari Desember hingga Januari, banyak pengguna memanfaatkan masa liburan untuk bereksperimen dengan model baru dan kemampuan agen coding
- Model dan agen tersebut berhasil mengerjakan banyak hal, dan sebagian pengguna mulai membuat proyek ambisius dengan cepat
- micro-javascript adalah implementasi JavaScript yang merupakan port longgar dari MicroQuickJS ke Python
- Playground browser memiliki struktur di mana kode JavaScript dijalankan oleh library micro-javascript, lalu kode Python itu berjalan di dalam Pyodide, di dalam WebAssembly, di dalam JavaScript, di dalam browser
- Hasilnya memang menarik, tetapi tidak ada yang benar-benar membutuhkan implementasi Python untuk JavaScript setengah jadi yang penuh bug, lambat, dan tidak aman, dan proyek lain yang dibuat pada periode yang sama juga diam-diam dipensiunkan
OpenClaw dan demam asisten AI pribadi
- Repositori “Warelay”, yang saat commit pertamanya muncul pada akhir November masih belum dikenal, kemudian cepat menarik perhatian
- Setelah berganti nama beberapa kali antara Desember dan Januari, pada Februari repositori ini menarik perhatian besar dengan nama akhirnya, OpenClaw
- OpenClaw adalah “asisten AI pribadi”, dan istilah umum Claws mulai muncul untuk menyebut kategori yang juga mencakup proyek seperti NanoClaw dan ZeroClaw
- Di sekitar Silicon Valley, orang-orang mulai membeli Mac Mini untuk menjalankan Claw sampai Mac Mini mulai kehabisan stok
- Drew Breunig menyamakan Claw dengan hewan peliharaan digital baru, sambil bercanda bahwa Mac Mini adalah akuarium yang sempurna untuk Claw
- Sebagai metafora untuk Claws, digunakan Doc Ock yang diperankan Alfred Molina dalam film Spider-Man 2 tahun 2004
- Cakarnya digerakkan oleh AI dan aman selama chip pengendalinya tidak rusak, tetapi setelah chip itu rusak, cakar tersebut menjadi jahat dan mengambil alih dirinya
Gemini 3.1 Pro dan perluasan tes pelikan
- Pada Februari, Gemini 3.1 Pro dirilis dan menggambar pelikan yang sedang mengendarai sepeda dengan sangat baik
- Hasilnya bahkan menyertakan ikan di dalam keranjang
- Jeff Dean dari Google mengunggah video animasi pelikan yang mengendarai sepeda
- Video yang sama juga berisi katak yang mengendarai penny-farthing, jerapah yang menyetir mobil kecil, burung unta bersepatu roda, kura-kura yang melakukan kickflip di skateboard, dan dachshund yang mengemudikan limusin panjang
- Hasil ini secara bercanda memunculkan gagasan bahwa lab AI mungkin mulai memberi perhatian bahkan pada tugas aneh seperti tes pelikan
Model open-weight di bulan April
- Google merilis seri model Gemma 4
- Gemma 4 dinilai sebagai model open-weight paling mumpuni yang pernah dilihat dari perusahaan AS
- Lab AI Tiongkok GLM merilis GLM-5.1
- GLM-5.1 adalah model open-weight berukuran 1.5TB
- Jika Anda mampu menyediakan hardware untuk menjalankannya, model ini sangat efektif
- GLM-5.1 cukup mahir menggambar pelikan yang mengendarai sepeda, tetapi dalam percobaan animasi sepedanya melompat ke atas dan terdistorsi
- Dalam tugas “North Virginia Opossum yang mengendarai skuter listrik” yang diusulkan Charles di Bluesky, hasilnya jauh melampaui model lain
- Frasa “Cruising the commonwealth since dusk” muncul di hasilnya
- Hasil tersebut juga tersedia dalam bentuk animasi
Model yang berjalan di laptop melampaui ekspektasi
- Model open-weight Tiongkok lain yang menonjol di bulan April datang dari Qwen
- Qwen3.6-35B-A3B menggambar pelikan yang lebih baik daripada Claude Opus 4.7 di laptop
- Model ini adalah model open-weight 20.9GB dan bisa dijalankan di laptop
- Hasil ini juga menunjukkan bahwa “pelikan yang mengendarai sepeda” sudah melewati batas kegunaannya sebagai benchmark yang bermanfaat
- Model yang dapat dijalankan di laptop masih jauh lebih lemah daripada model frontier, tetapi selama 6 bulan terakhir mulai menghasilkan capaian yang jauh melampaui ekspektasi
1 komentar
Komentar Hacker News
Banyak yang bilang tes pelikan naik sepeda ini metrik yang konyol, tetapi orang tampaknya tidak terlalu ingat bahwa ini sebenarnya diperkenalkan sekitar 3 tahun lalu dalam laporan awal GPT dari Microsoft, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Setelah itu langsung disebarkan oleh jaringan akun promosi, lalu menjadi sesuatu yang dipakai orang-orang pembesar-besar AI setiap kali mereka “menguji” model
100% marketing, 0% sains
[1] https://arxiv.org/pdf/2303.12712
Saya tidak tahu ada contoh spesifik di makalah yang benar-benar menguji prompt “pelikan mengendarai sepeda”, tetapi makalah GPT itu memang punya berbagai tes SVG dan tikz, dan gambar konkretnya sendiri cukup arbitrer
Mengoptimalkan untuk satu gambar tertentu memang tidak ideal, tetapi kalau pelatihannya cukup benar, pelikan yang naik sepeda seharusnya tidak sesulit itu, dan kalau melihat beberapa halaman di [0], ada cukup banyak contoh yang lumayan bagus
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Karena Simon cukup terkenal, sepertinya pasti ada di suatu tempat
Baru saja saya jalankan dengan model default ChatGPT (5.5), dan hasilnya pria tua itu mengendarai sepeda tua, sepedanya berada di atas tali yang longgar, tali itu membentang di atas sungai, dan ada desa abad pertengahan di latar belakang
Intinya adalah prompt itu punya ambiguitas halus. Pada bagian “bagaimana pria tua itu menyeberangi sungai?”, kebanyakan manusia kemungkinan langsung membayangkan jembatan biasa dengan jalan melintasi sungai, dan latar sungai di wilayah yang cukup berkembang hingga punya jembatan seperti itu
Jadi menurut saya model-model ini memang makin bagus dalam menemukan atau menghasilkan sesuatu yang kira-kira memenuhi syarat, tetapi masih ada titik di mana mereka melewatkan asumsi akal sehat yang akan ditarik secara alami oleh manusia
Saya penasaran apakah “titik belok” ini benar-benar fenomena nyata atau cuma marketing
Memang modelnya membaik sampai taraf tertentu, tetapi bahkan sekarang pun kalau mencoba vibe coding game dengan model terbaru (kombinasi Codex + gpt5.5, gpt5.3-codex), mereka masih cukup kesulitan
Mereka jelas bisa membuat kerangkanya dan menjalankannya, tetapi masih jauh dari aplikasi yang matang
Saya memang pernah menulis sesuatu sendiri untuk belajar cara kerja mesin sandi Enigma, tetapi itu untuk tujuan belajar
Untuk pekerjaan, pada dasarnya saya berhenti coding sejak November
Karena begitu ada ambang cukup bagus untuk kegunaan tertentu terlewati, kemampuan baru bisa tiba-tiba terbuka
Nail gun dulu berat, butuh kabel listrik tebal, dan sangat mahal
Saat kemudian jadi lebih ringan, lebih murah, dan memakai battery pack, pada satu titik alat itu menyatu secara alami ke alur kerja tukang atap dan secara dramatis menambah jumlah pekerjaan yang bisa mereka lakukan
Peningkatan marginal setelah itu mungkin tidak lagi menciptakan “unlock” sebesar itu. Ambangnya sudah terlewati
Kuncinya adalah menghabiskan cukup banyak waktu di awal untuk dokumen desain menyeluruh, lalu memecahnya menjadi langkah-langkah yang konkret dan terbatas
Dokumen itu saya bolak-balikkan antara dua model sampai keduanya puas
Untuk setiap langkah, saya buat rencana implementasi, lalu setelah selesai saya tinggalkan dokumen ringkasan tentang apa yang disampaikan dan apa yang ditemukan. Itu menjadi input langkah berikutnya
Dokumen dan isi pekerjaan aktual saya cek, saya lihat juga tesnya dan sebagian saya periksa lebih teliti. Saya juga mengecek sebagian apakah struktur kodenya saya suka
Saya terutama memakai Claude untuk coding, dan Codex untuk desain serta review kode per langkah, lalu di akhir tiap langkah saya minta keduanya memeriksa cakupan tes
Dengan cara ini saya bisa mengimplementasikan tool dan library tanpa menulis satu baris kode pun sendiri, dan hasilnya benar-benar cukup berguna
Karena berjalan secara asinkron, saat model memproses dengan lambat saya bisa mengerjakan hal lain
Tetapi menurut saya ini tidak universal. Ini sangat mengesankan pada pekerjaan yang mudah diuji, di mana saya benar-benar paham tujuan yang ingin dicapai tetapi metode persisnya belum ditentukan
Saya memakai LLM untuk mengeruk data event tak terstruktur yang mencampur teks/gambar dari website dan media sosial, dan untuk mendapatkan hasil yang 100% konsisten dengan biaya masuk akal, satu-satunya cara adalah memecah pekerjaan jadi potongan yang sangat kecil agar radius kesalahannya jauh berkurang
Pada pekerjaan yang agak kompleks saat ini, Codex/Claude dengan senang hati bisa mengodekan pengguna ke dalam jalan buntu yang mahal
GPT 5.5 memang jauh membaik dibanding GPT 5.4, tetapi saya tidak akan menyebutnya titik belok
Saat orang bilang “agen coding benar-benar sudah jauh lebih bagus”, bahkan setelah apa yang disebut “titik belok” November 2025, saya masih penasaran sebenarnya buat siapa mereka jadi sangat bagus
Dari pengamatan saya, mereka membaik dalam tool calling dan menjawab pertanyaan tentang codebase besar, terutama pertanyaan dengan pola yang dicari masih samar, dan untuk kegunaan itu mereka sangat bermanfaat
Tetapi bahkan dengan banyak instruksi dan perhatian, ini sama sekali belum sampai ke level menghasilkan kode production, dan dalam pengalaman pribadi saya, bahkan belum mendekati
Di tengah overheat marketing, kita perlu berhenti membicarakannya seolah 1 dan 0. Kemampuan agen ada di spektrum kontinu, dan sangat bergantung pada kompleksitas codebase yang sedang dikerjakan
Menurut saya semua orang masih sedang mencari cara menerapkan tool ini dengan lebih baik ke pekerjaan sehari-hari
Namun ini berbenturan dengan narasi saat ini. Narasi itu meratakan pekerjaan kita seolah selalu sama dan mudah diotomatisasi, padahal kenyataannya tidak begitu
Karena itu menurut saya perdebatan jadi sangat terpolarisasi. Tidak ada pengalaman bersama
Misalnya pengalaman saya justru kebalikannya, dan saya membuat pekerjaan berkualitas sangat tinggi dengan Claude(https://github.com/kstenerud/yoloai)
Saat menghadapi bug dan keanehan dari teknologi yang dipakai, agen sangat membantu dalam menemukan dan mencatat hal-hal itu agar implementasi tidak terus tersandung: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Agen terus membaik. Bahkan hanya dalam sebulan terakhir, kemampuan mereka mengantisipasi masalah dan menalar implikasi dengan benar saat membuat dokumen riset, desain, arsitektur, dan perencanaan sudah sangat bagus
Ketika masuk tahap coding, sebagian besar itu proses mekanis, dan bahkan kalau dilempar ke Sonnet tingkat cacatnya nyaris tak berarti
Dalam pengalaman saya, Claude Code, terutama Opus 4.6, fantastis untuk pekerjaan itu. Setidaknya untuk JS, TS, Elixir, dan Ruby
Tentu tetap perlu perhatian, dan model mental saya bukan “junior developer” melainkan lebih mirip exoskeleton. Tetapi rasanya ini exoskeleton yang sangat kuat, sehingga untuk sebagian besar pekerjaan dengan mudah memberi peningkatan kecepatan 10x
Saya juga tidak memakai
--dangerously-skip-permissions, dan tidak memakai mode otomatis Claude Code. Saya meninjau ringan tiap baris yang ditulis dan mengelolanya dengan detail, jadi sesi yang berjalan paralel biasanya tidak lebih dari 2Saya curiga kekecewaan banyak muncul ketika orang mencoba mendelegasikan ini lalu berharap ia tidak akan keluar jalur. Itu belum mendapat tingkat kepercayaan seperti itu dari saya, dan sejauh ini memang belum perlu
Namun saya kebanyakan bekerja pada codebase kecil hingga menengah sekitar 20 ribu–30 ribu baris termasuk tes. Saya penasaran apakah itu faktor yang membuat pengalaman saya positif
Kenyataannya, (a) cara orang bekerja dengan AI sangat beragam seperti banyak pulau kecil terpisah, dan (b) bottleneck sangat berbeda-beda tergantung developer dan codebase/tugas
Selain itu saya rasa di zaman kita ada bias bawaan bahwa perubahan = kemajuan, produktivitas
Kalau melihat “revolusi network computing” 1990~2000, komputer masuk ke setiap meja dan kantong, dan sangat kuat untuk pekerjaan administratif
Tetapi hasil akhirnya adalah “perubahan”. Kita mengirim email jauh lebih banyak daripada surat, berkomunikasi jauh lebih banyak, sekretaris menghilang, tetapi “administrasi” sendiri justru bertambah
Fakultas universitas biasanya punya lebih banyak staf administrasi, dan perusahaan mempekerjakan lebih banyak akuntan, HR, dan project manager
Mungkin sejak awal administrasi bukan bottleneck yang sesungguhnya
Kode juga punya sisi seperti ini. Semua orang punya roadmap dan wishlist, jadi “kapasitas produksi kode” terlihat seperti bottleneck
Tetapi mungkin bagi kebanyakan perusahaan, membuat lebih banyak software tidak berarti menciptakan lebih banyak nilai
Rasanya banyak perusahaan kelas menengah sedang mengerjakan hal seperti migrasi stack atau modernisasi. Saya jarang mendengar cerita tentang membanjiri fitur lalu menaikkan harga atau pendapatan
Kebanyakan bottleneck hanya berada di hulu bottleneck lain, dan “bendungan” yang benar-benar utama itu jarang
Proyek pribadi saya belakangan adalah transpiler yang mengubah Wasm ke Go, dan sangat mengesankan bahwa model-model terbaru (saya pakai Sonnet, Opus, Gemini, dan hasilnya jauh lebih sukses daripada GPT) bisa menangkap proyeknya dan menangani banyak lapisan berbeda
Mulai dari kode Go yang mengimplementasikan transpiler (parsing Wasm, membangun AST), kode Go yang dihasilkan dengan menserialisasikan AST ke file
.go, kode Go yang memanipulasi AST untuk optimisasi dan dampaknya pada kode hasil generate, kode Go yang ditempelkan ke kode hasil generate untuk mengimplementasikan instruksi tingkat lebih tinggi beserta interaksinya di AST, alur di mana kode C dikompilasi ke Wasm lalu diterjemahkan ke Go dan dipanggil dari Go, kode Go yang dipanggil dari kode C itu untuk mengimplementasikan pustaka standar C, sampai file WAT/WAST yang mengimplementasikan tes spesifikasi WasmUntuk memikirkan semua lapisan ini saya sendiri harus cukup memeras otak, dan saya rasa banyak programmer juga akan merasa sulit, jadi ini mengesankan
Dan sering kali jauh lebih mudah menulis “saya ingin menghasilkan kode ini, jadi buatkan AST yang melakukannya” daripada menghitung tanda kurung dalam kode Go. Bahkan dengan sedikit pengalaman LISP pun tetap terasa lebih mudah begitu
Review kode atau kritik sangat saya sambut. Ini bukan vibe coding, tetapi sangat banyak dibantu generative AI
https://github.com/ncruces/wasm2go
Ini browser game kecil jadi tuntutan keamanan dan kesempurnaannya sangat rendah, tetapi tuntutan untuk “benar-benar mencobanya” dan “menyenangkan” sangat tinggi, jadi bisa dibilang semacam kode production
Kode yang dihasilkan punya 0 compile error, dan bahkan ketika saya menjelaskan 10 todo untuk satu tugas, semuanya tetap dikerjakan
Untuk menjadi berguna, ini tidak perlu jauh lebih baik lagi. Buat orang-orang yang seperti peneliti yang tetap harus memverifikasi matematika, tetapi tidak jago menulis kode untuk filtering, transformasi, dan eksekusi data uji, ini sudah sangat berguna
Untuk kegunaan seperti website kecil, proyek seru, atau tool bantu, ini juga sudah bagus sekarang
Sementara itu di belakang layar terus ada lebih banyak komputasi, algoritme yang lebih baik, lebih banyak reinforcement learning, dan sebagainya
Bisa jadi tanpa kita sadari kita sudah mencapai titik 95% dari “AI akan mengambil pekerjaan coding”, justru karena sisa 5%-nya terlalu penting
Sepertinya di suatu tempat sekarang ada seniman manusia yang sedang menggambar pelikan naik sepeda untuk dipakai sebagai data pelatihan lab AI besar
Inti tes ini adalah menghasilkan teks SVG yang merepresentasikan gambar, dan itu lebih rumit
Memang ada cara mengubah gambar raster menjadi SVG untuk dipakai sebagai data pelatihan, tetapi itu bukan penggunaan waktu yang bagus bagi siapa pun
Hanya saja saya tidak tahu apakah mereka secara spesifik menargetkan pelikan, atau hanya menargetkan SVG
Enam bulan terakhir ini terlihat seperti masa ketika umat manusia kehilangan kendali atas LLM
Walaupun muncul model terbuka yang hebat dan bisa meredakan adopsi AI lokal, yang terjadi justru penguasaan pasar memori, dan alat kebocoran kekayaan intelektual dengan cepat meresap ke perusahaan-perusahaan di seluruh dunia
Para developer menghasilkan lebih banyak kode daripada yang bisa mereka baca
Agen otonom menyedot ekonomi perhatian, membunuh open source, merusak komunitas online (termasuk HN), dan juga dipakai untuk perang (penargetan, propaganda, dll.)
Kerentanan luas ditemukan, serangan supply chain skala besar terus terjadi
Ketimpangan meningkat, persepsi terpecah, metrik hijau berdampingan dengan realitas yang suram
Tetapi secara pribadi saya melihat hal-hal gila terjadi di biotech. Sulit dipercaya bahwa kita mungkin benar-benar hidup di masa depan seperti ini
Obat nyata yang dikembangkan memakai AlphaFold sudah diuji dalam uji klinis nyata, dan generasi berikutnya yang akan masuk ke klinis dalam 3~5 tahun ke depan akan luar biasa
Kelak kita mungkin akan melihat kedokteran saat ini seperti kita melihat Abad Pertengahan sekarang
Idealnya, setelah melewati siklus hype ini kita keluar dengan praktik yang lebih baik
“Alat kebocoran kekayaan intelektual dengan cepat meresap ke perusahaan-perusahaan di seluruh dunia” menurut saya justru masuk sisi kelebihan
Kalau hal-hal yang terkait ekonomi perhatian lenyap, bagi saya itu hampir semuanya “selamat tinggal” saja
Saya penasaran seperti apa enam bulan terakhir ini dari sudut pandang non-programmer
Di bidang lain, alat kolaborasi atau optimisasi serupa apa yang dialami orang?
Baru-baru ini dia bergabung ke tim kami untuk mengajar, ikut serta dalam kursus 2 minggu, dan pada hari pertama dia diberi instruksi untuk membiarkan AI menulis semua rencana pelajaran, lalu memasukkan rencana itu kembali ke AI untuk membuat slide
Saya berharap dia menolak mentah-mentah, karena kalau tidak, para trainee tidak akan mendapat apa pun dari pengalaman, sisi manusia, dan hal-hal yang bisa dia wariskan
Sebagai pengajar saya dievaluasi tiap 6 bulan, dan setiap kali saya mendengar hal yang sama. “Bagaimana kita bisa memakai AI di kelas?”
Mereka bahkan merasa tidak perlu menjelaskan kenapa itu diinginkan atau dibutuhkan. Ini murni ikut tren
Sulit dipercaya, sebagian besar rekan kerja saya sangat positif terhadap AI, tetapi tidak ada satu pun yang menjelaskan mereka memakainya untuk apa selain menyiapkan pelajaran. Mereka memakainya hanya agar tidak perlu berpikir atau menyiapkan, padahal itu satu-satunya hal yang penting dalam pekerjaan ini
Bagi saya ini sama sekali tidak masuk akal
Orang-orang pintar memang bisa mendapatkan hasil sampai taraf tertentu dari model, tetapi selalu butuh masalah yang sangat cocok dan pekerjaan yang sungguh serius
Tentu ia bisa menyelesaikan soal PR, tetapi dari sisi pengajaran justru terasa lebih seperti kekurangan
Setelah GPT-5.4 (Maret 2026), rasanya itu rilis yang bikin “wow”. Tiba-tiba ia mulai menjawab soal level MathOverflow yang sebelumnya membuat para ahli buntu
Halusinasi masih ada, tetapi ia cukup pintar untuk memakai kemampuan Python bawaannya untuk mencoba memverifikasi klaim dengan contoh kecil jika memungkinkan
Sepertinya ia jauh lebih kuat pada matematika yang banyak formulanya ketimbang matematika yang abstrak dan “filosofis”
GPT-5.5 memberi pembuktian bergaya buku teks untuk persoalan sulit level MO yang memikat, cukup nontrivial, dan sangat edukatif, dan sekarang saya sedang menuliskannya
Mungkin itu karena keberuntungan dan prompting yang bagus. Tidak terasa seperti lompatan kualitatif dari 5.4, tetapi peningkatan kuantitatif tetap selalu disambut baik
Masih butuh masalah yang cocok, tetapi sekarang jauh lebih sulit menolaknya mentah-mentah sejak awal sebagai tidak cocok
Claude dan Gemini tetap berada di lapis kedua, dan sekarang pun masih begitu. Claude saya pakai untuk tugas-tugas seperti asisten, dan kadang juga menemukan pembuktian mudah, biasanya karena saya melewatkan sesuatu yang jelas
Dan GPT, juga Claude walau lebih sedikit, sangat bagus dalam menemukan kesalahan matematika. Mungkin 90% prompt saya sejauh ini justru untuk mengoreksi tulisan saya sendiri
Pegawai kantoran rata-rata terkesan dengan Copilot. Bukan Copilot di dalam IDE, melainkan aplikasi yang dibundel dengan Windows
Mereka terutama copy-paste materi ke ChatGPT/Gemini yang disediakan perusahaan, lalu mendapat tip dari Facebook/Instagram seperti “5 prompt terbaik untuk produktivitas kerja”
Kalau Anda tunjukkan agen yang mengotomatisasi pekerjaan dalam skala besar, mereka menerimanya hampir seperti sulap
Sekarang slide deck semua orang jadi rapi, dan tim keuangan jauh lebih jarang butuh bantuan BI. Cukup mengesankan
Secara pribadi, istri saya mengajar bahasa ibunya kepada murid SD sampai SMA yang bukan penutur asli, dan sekarang anak-anak itu semua memakai tool seperti ini untuk menghasilkan materi latihan baru yang sesuai rencana pelajaran sekolah
Kemampuan mereka berkembang jauh lebih cepat daripada beberapa bulan lalu
Mengingat betapa terkenalnya blog Simon, sekarang makin sulit yakin bahwa tidak ada lab AI yang melatih modelnya untuk tugas konyol seperti itu
Sekarang giliran opossum naik skuter listrik
Membaca thread ini, tampaknya cukup banyak perdebatan soal titik belok berasal dari orang-orang yang saling bicara silang tentang apa sebenarnya yang membaik
Interpretasi saya adalah sekitar November kemampuan model itu sendiri tidak melonjak besar, melainkan harness di sekitarnya menjadi jauh lebih stabil, dan pekerjaan RLVR di awal 2025 sudah melatih model untuk berperilaku baik di dalam harness itu
Jadi ketika keduanya bertemu, masing-masing secara terpisah mungkin tidak dramatis, tetapi efek gabungannya bisa terasa seperti perubahan bertahap yang melonjak
Itu juga tampaknya menjelaskan kenapa pengalaman di thread ini begitu berbeda. Orang yang alurnya sekadar bertanya kode ke model lalu copy-paste hasilnya mungkin melihat peningkatan yang landai, dan wajar bertanya kenapa semua orang ribut sekali
Sebaliknya, orang yang sudah menjalankan agen dalam loop 20 langkah mungkin merasakan perubahan jauh lebih besar. Dulu masalahnya kegagalan di langkah 12 menyebar jadi sampah di langkah 20, dan bagian itu banyak membaik
Ucapan Simon sekilas tentang model lokal juga menarik karena alasan yang sama. Model 20GB yang bisa menggambar pelikan lumayan bagus di laptop, sendirian, hanya data point lucu
Yang penting adalah model lokal yang kompeten dalam harness yang bagus sekarang makin dekat ke performa frontier dibanding menjalankan model frontier tanpa harness
Saya meminta Gemini membuat video “pelikan naik unicycle di Hyde Park”, dan saya sangat terkejut dengan hasilnya
https://gemini.google.com/share/55e250c99693
Pada titik ini saya justru berpikir, kenapa lab AI pesaing tidak akan melatih “tes” yang sekarang sudah terkenal ini?
Pusat gravitasi pelikan itu jelas berada di belakang roda. Seharusnya berada di atas roda atau sedikit di depannya
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
Menarik bahwa pada pembuatan video, pelikan yang mengayuh pedal tampaknya lebih berhasil daripada pada pembuatan gambar
Saya pernah meminta Claude menambahkan mulsa ke foto lanskap, dan hasilnya terlihat seperti dicat dengan alat semprot oranye di MS Paint
Nano Banana menghasilkan sesuatu yang jauh lebih dekat ke kenyataan
Disebutkan “saya membuat slide beranotasi untuk lightning talk sekitar 5 menit di PyCon US 2026”, jadi saya penasaran apakah ada video atau audio dari presentasi ini