Melihat 6 bulan terakhir LLM dalam 5 menit

(simonwillison.net)

9 poin oleh GN⁺ 2026-05-20 | 1 komentar | Bagikan ke WhatsApp

November 2025 menjadi titik acuan untuk perubahan terbaru LLM, dengan kunci utamanya adalah makin praktisnya agen coding dan pesatnya kemajuan model yang bisa dijalankan di laptop
Setelah Claude Sonnet 4.5, GPT-5.1, Gemini 3, dan Claude Opus 4.5 bersaing dengan cepat, dan Opus 4.5 tampak memimpin selama beberapa bulan
Reinforcement learning berbasis reward yang dapat diverifikasi dari OpenAI dan Anthropic terlihat meningkatkan kualitas kode dalam harness seperti Codex dan Claude Code
Eksperimen saat musim liburan menghasilkan temuan menarik seperti micro-javascript, tetapi kebutuhan nyatanya terbatas karena bug, kecepatan, dan keamanan
Model open-weight seperti Gemma 4, GLM-5.1, dan Qwen3.6-35B-A3B mulai jauh melampaui ekspektasi meski masih lebih lemah daripada model frontier

Dua arus yang membelah 6 bulan terakhir

Titik belok November 2025 adalah acuan yang baik untuk melihat perubahan LLM selama 6 bulan terakhir, dan khususnya merupakan bulan penting di ranah coding
Perubahan inti selama 6 bulan terakhir bisa diringkas menjadi dua hal
- Agen coding menjadi cukup baik untuk dipakai dalam pekerjaan harian nyata
- Model yang bisa dijalankan di laptop, walaupun lebih lemah daripada model frontier, mulai melampaui ekspektasi secara besar
Untuk membandingkan model, digunakan uji membuat SVG pelikan yang sedang mengendarai sepeda
- Latar belakang tes ini adalah karena pelikan sulit digambar, sepeda juga sulit digambar, pelikan tidak bisa mengendarai sepeda, dan kecil kemungkinan ada lab AI yang melatih model untuk tugas seperti ini

Persaingan model frontier di bulan November

Pada awal November, model yang secara luas dianggap “terbaik” adalah Claude Sonnet 4.5, yang dirilis pada 29 September
Setelah itu, posisi model “terbaik” berubah cepat di antara tiga penyedia besar
Gemini 3 menggambar pelikan terbaik di kelompok perbandingan ini, tetapi tes pelikan saja tidak cukup untuk menilai keseluruhan kemampuan model
Claude Opus 4.5 tampak sebagai model yang mempertahankan posisi terdepan selama beberapa bulan setelahnya

Menembus ambang kualitas agen coding

Perubahan yang benar-benar penting di bulan November adalah peningkatan kualitas agen coding
OpenAI dan Anthropic menghabiskan sebagian besar tahun 2025 untuk reinforcement learning berbasis reward yang dapat diverifikasi(Reinforcement Learning from Verifiable Rewards) demi meningkatkan kualitas kode yang ditulis model
Peningkatan ini особенно menonjol saat dipadukan dengan agent harness seperti Codex dan Claude Code
Pada bulan November, agen coding beralih dari level “sering kali berhasil” menjadi “umumnya berhasil”
Agen ini mencapai level alat harian yang memungkinkan pengguna benar-benar menyerahkan pekerjaan tanpa harus menghabiskan sebagian besar waktunya memperbaiki kesalahan bodoh

Eksperimen musim liburan dan euforia berlebihan

Dari Desember hingga Januari, banyak pengguna memanfaatkan masa liburan untuk bereksperimen dengan model baru dan kemampuan agen coding
Model dan agen tersebut berhasil mengerjakan banyak hal, dan sebagian pengguna mulai membuat proyek ambisius dengan cepat
micro-javascript adalah implementasi JavaScript yang merupakan port longgar dari MicroQuickJS ke Python
Playground browser memiliki struktur di mana kode JavaScript dijalankan oleh library micro-javascript, lalu kode Python itu berjalan di dalam Pyodide, di dalam WebAssembly, di dalam JavaScript, di dalam browser
Hasilnya memang menarik, tetapi tidak ada yang benar-benar membutuhkan implementasi Python untuk JavaScript setengah jadi yang penuh bug, lambat, dan tidak aman, dan proyek lain yang dibuat pada periode yang sama juga diam-diam dipensiunkan

OpenClaw dan demam asisten AI pribadi

Repositori “Warelay”, yang saat commit pertamanya muncul pada akhir November masih belum dikenal, kemudian cepat menarik perhatian
Setelah berganti nama beberapa kali antara Desember dan Januari, pada Februari repositori ini menarik perhatian besar dengan nama akhirnya, OpenClaw
OpenClaw adalah “asisten AI pribadi”, dan istilah umum Claws mulai muncul untuk menyebut kategori yang juga mencakup proyek seperti NanoClaw dan ZeroClaw
Di sekitar Silicon Valley, orang-orang mulai membeli Mac Mini untuk menjalankan Claw sampai Mac Mini mulai kehabisan stok
Drew Breunig menyamakan Claw dengan hewan peliharaan digital baru, sambil bercanda bahwa Mac Mini adalah akuarium yang sempurna untuk Claw
Sebagai metafora untuk Claws, digunakan Doc Ock yang diperankan Alfred Molina dalam film Spider-Man 2 tahun 2004
- Cakarnya digerakkan oleh AI dan aman selama chip pengendalinya tidak rusak, tetapi setelah chip itu rusak, cakar tersebut menjadi jahat dan mengambil alih dirinya

Gemini 3.1 Pro dan perluasan tes pelikan

Pada Februari, Gemini 3.1 Pro dirilis dan menggambar pelikan yang sedang mengendarai sepeda dengan sangat baik
Hasilnya bahkan menyertakan ikan di dalam keranjang
Jeff Dean dari Google mengunggah video animasi pelikan yang mengendarai sepeda
Video yang sama juga berisi katak yang mengendarai penny-farthing, jerapah yang menyetir mobil kecil, burung unta bersepatu roda, kura-kura yang melakukan kickflip di skateboard, dan dachshund yang mengemudikan limusin panjang
Hasil ini secara bercanda memunculkan gagasan bahwa lab AI mungkin mulai memberi perhatian bahkan pada tugas aneh seperti tes pelikan

Model open-weight di bulan April

Google merilis seri model Gemma 4
Gemma 4 dinilai sebagai model open-weight paling mumpuni yang pernah dilihat dari perusahaan AS
Lab AI Tiongkok GLM merilis GLM-5.1
- GLM-5.1 adalah model open-weight berukuran 1.5TB
- Jika Anda mampu menyediakan hardware untuk menjalankannya, model ini sangat efektif
GLM-5.1 cukup mahir menggambar pelikan yang mengendarai sepeda, tetapi dalam percobaan animasi sepedanya melompat ke atas dan terdistorsi
Dalam tugas “North Virginia Opossum yang mengendarai skuter listrik” yang diusulkan Charles di Bluesky, hasilnya jauh melampaui model lain
- Frasa “Cruising the commonwealth since dusk” muncul di hasilnya
- Hasil tersebut juga tersedia dalam bentuk animasi

Model yang berjalan di laptop melampaui ekspektasi

Model open-weight Tiongkok lain yang menonjol di bulan April datang dari Qwen
Qwen3.6-35B-A3B menggambar pelikan yang lebih baik daripada Claude Opus 4.7 di laptop
Model ini adalah model open-weight 20.9GB dan bisa dijalankan di laptop
Hasil ini juga menunjukkan bahwa “pelikan yang mengendarai sepeda” sudah melewati batas kegunaannya sebagai benchmark yang bermanfaat
Model yang dapat dijalankan di laptop masih jauh lebih lemah daripada model frontier, tetapi selama 6 bulan terakhir mulai menghasilkan capaian yang jauh melampaui ekspektasi

1 komentar

GN⁺ 2026-05-20

Komentar Hacker News

Banyak yang bilang tes pelikan naik sepeda ini metrik yang konyol, tetapi orang tampaknya tidak terlalu ingat bahwa ini sebenarnya diperkenalkan sekitar 3 tahun lalu dalam laporan awal GPT dari Microsoft, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Setelah itu langsung disebarkan oleh jaringan akun promosi, lalu menjadi sesuatu yang dipakai orang-orang pembesar-besar AI setiap kali mereka “menguji” model
100% marketing, 0% sains
[1] https://arxiv.org/pdf/2303.12712
- Sebagai tambahan bagi yang penasaran, Simon tampaknya pertama kali memakai ini secara publik pada 25 Oktober 2024[0]
  Saya tidak tahu ada contoh spesifik di makalah yang benar-benar menguji prompt “pelikan mengendarai sepeda”, tetapi makalah GPT itu memang punya berbagai tes SVG dan tikz, dan gambar konkretnya sendiri cukup arbitrer
  Mengoptimalkan untuk satu gambar tertentu memang tidak ideal, tetapi kalau pelatihannya cukup benar, pelikan yang naik sepeda seharusnya tidak sesulit itu, dan kalau melihat beberapa halaman di [0], ada cukup banyak contoh yang lumayan bagus
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Karena Simon cukup terkenal, sepertinya pasti ada di suatu tempat
- Tes informal yang saya pribadi pakai sejak generative AI muncul adalah “gambar seorang pria tua yang mengendarai sepeda di atas sungai”
  Baru saja saya jalankan dengan model default ChatGPT (5.5), dan hasilnya pria tua itu mengendarai sepeda tua, sepedanya berada di atas tali yang longgar, tali itu membentang di atas sungai, dan ada desa abad pertengahan di latar belakang
  Intinya adalah prompt itu punya ambiguitas halus. Pada bagian “bagaimana pria tua itu menyeberangi sungai?”, kebanyakan manusia kemungkinan langsung membayangkan jembatan biasa dengan jalan melintasi sungai, dan latar sungai di wilayah yang cukup berkembang hingga punya jembatan seperti itu
  Jadi menurut saya model-model ini memang makin bagus dalam menemukan atau menghasilkan sesuatu yang kira-kira memenuhi syarat, tetapi masih ada titik di mana mereka melewatkan asumsi akal sehat yang akan ditarik secara alami oleh manusia
Saya penasaran apakah “titik belok” ini benar-benar fenomena nyata atau cuma marketing
Memang modelnya membaik sampai taraf tertentu, tetapi bahkan sekarang pun kalau mencoba vibe coding game dengan model terbaru (kombinasi Codex + gpt5.5, gpt5.3-codex), mereka masih cukup kesulitan
Mereka jelas bisa membuat kerangkanya dan menjalankannya, tetapi masih jauh dari aplikasi yang matang
- Sebelum Opus 4.5 saya harus banyak membimbing dan juga banyak menulis kode sendiri, tetapi saya ingat sangat jelas bahwa sejak hari itu saya praktis tidak lagi menulis kode
  Saya memang pernah menulis sesuatu sendiri untuk belajar cara kerja mesin sandi Enigma, tetapi itu untuk tujuan belajar
  Untuk pekerjaan, pada dasarnya saya berhenti coding sejak November
- Secara paradoks, bahkan ketika manfaat marjinal dari kemampuan inti mulai menurun, menurut saya tetap bisa ada beberapa titik belok
  Karena begitu ada ambang cukup bagus untuk kegunaan tertentu terlewati, kemampuan baru bisa tiba-tiba terbuka
  Nail gun dulu berat, butuh kabel listrik tebal, dan sangat mahal
  Saat kemudian jadi lebih ringan, lebih murah, dan memakai battery pack, pada satu titik alat itu menyatu secara alami ke alur kerja tukang atap dan secara dramatis menambah jumlah pekerjaan yang bisa mereka lakukan
  Peningkatan marginal setelah itu mungkin tidak lagi menciptakan “unlock” sebesar itu. Ambangnya sudah terlewati
- Baru-baru ini saya menggabungkan Codex 5.5 dan Claude Code Opus 4.7 untuk membuat hal-hal yang cukup kompleks secara “vibe”
  Kuncinya adalah menghabiskan cukup banyak waktu di awal untuk dokumen desain menyeluruh, lalu memecahnya menjadi langkah-langkah yang konkret dan terbatas
  Dokumen itu saya bolak-balikkan antara dua model sampai keduanya puas
  Untuk setiap langkah, saya buat rencana implementasi, lalu setelah selesai saya tinggalkan dokumen ringkasan tentang apa yang disampaikan dan apa yang ditemukan. Itu menjadi input langkah berikutnya
  Dokumen dan isi pekerjaan aktual saya cek, saya lihat juga tesnya dan sebagian saya periksa lebih teliti. Saya juga mengecek sebagian apakah struktur kodenya saya suka
  Saya terutama memakai Claude untuk coding, dan Codex untuk desain serta review kode per langkah, lalu di akhir tiap langkah saya minta keduanya memeriksa cakupan tes
  Dengan cara ini saya bisa mengimplementasikan tool dan library tanpa menulis satu baris kode pun sendiri, dan hasilnya benar-benar cukup berguna
  Karena berjalan secara asinkron, saat model memproses dengan lambat saya bisa mengerjakan hal lain
  Tetapi menurut saya ini tidak universal. Ini sangat mengesankan pada pekerjaan yang mudah diuji, di mana saya benar-benar paham tujuan yang ingin dicapai tetapi metode persisnya belum ditentukan
- Mereka memang bisa memberimu start, tetapi saat melihat kodenya isinya kode duplikat, tanggung jawab yang campur aduk, struktur buruk, file 10 ribu baris yang memakan token, dan kekacauan lain
  Saya memakai LLM untuk mengeruk data event tak terstruktur yang mencampur teks/gambar dari website dan media sosial, dan untuk mendapatkan hasil yang 100% konsisten dengan biaya masuk akal, satu-satunya cara adalah memecah pekerjaan jadi potongan yang sangat kecil agar radius kesalahannya jauh berkurang
  Pada pekerjaan yang agak kompleks saat ini, Codex/Claude dengan senang hati bisa mengodekan pengguna ke dalam jalan buntu yang mahal
- Opus 4.5 pada November 2025 benar-benar, tanpa sarkasme, adalah titik belok, dan menurut saya itu satu-satunya alasan ledakan sekarang terjadi
  GPT 5.5 memang jauh membaik dibanding GPT 5.4, tetapi saya tidak akan menyebutnya titik belok
Saat orang bilang “agen coding benar-benar sudah jauh lebih bagus”, bahkan setelah apa yang disebut “titik belok” November 2025, saya masih penasaran sebenarnya buat siapa mereka jadi sangat bagus
Dari pengamatan saya, mereka membaik dalam tool calling dan menjawab pertanyaan tentang codebase besar, terutama pertanyaan dengan pola yang dicari masih samar, dan untuk kegunaan itu mereka sangat bermanfaat
Tetapi bahkan dengan banyak instruksi dan perhatian, ini sama sekali belum sampai ke level menghasilkan kode production, dan dalam pengalaman pribadi saya, bahkan belum mendekati
Di tengah overheat marketing, kita perlu berhenti membicarakannya seolah 1 dan 0. Kemampuan agen ada di spektrum kontinu, dan sangat bergantung pada kompleksitas codebase yang sedang dikerjakan
Menurut saya semua orang masih sedang mencari cara menerapkan tool ini dengan lebih baik ke pekerjaan sehari-hari
Namun ini berbenturan dengan narasi saat ini. Narasi itu meratakan pekerjaan kita seolah selalu sama dan mudah diotomatisasi, padahal kenyataannya tidak begitu
Karena itu menurut saya perdebatan jadi sangat terpolarisasi. Tidak ada pengalaman bersama
- Polarisasi muncul karena orang yang berbeda bertemu pengalaman coding dan kualitas output yang sangat berbeda ketika memakai tool ini
  Misalnya pengalaman saya justru kebalikannya, dan saya membuat pekerjaan berkualitas sangat tinggi dengan Claude(https://github.com/kstenerud/yoloai)
  Saat menghadapi bug dan keanehan dari teknologi yang dipakai, agen sangat membantu dalam menemukan dan mencatat hal-hal itu agar implementasi tidak terus tersandung: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Agen terus membaik. Bahkan hanya dalam sebulan terakhir, kemampuan mereka mengantisipasi masalah dan menalar implikasi dengan benar saat membuat dokumen riset, desain, arsitektur, dan perencanaan sudah sangat bagus
  Ketika masuk tahap coding, sebagian besar itu proses mekanis, dan bahkan kalau dilempar ke Sonnet tingkat cacatnya nyaris tak berarti
- Saya cukup terkejut mendengar ada yang merasa model terbaru masih belum cukup bagus untuk membuat kode production meski sudah diberi instruksi dan perhatian
  Dalam pengalaman saya, Claude Code, terutama Opus 4.6, fantastis untuk pekerjaan itu. Setidaknya untuk JS, TS, Elixir, dan Ruby
  Tentu tetap perlu perhatian, dan model mental saya bukan “junior developer” melainkan lebih mirip exoskeleton. Tetapi rasanya ini exoskeleton yang sangat kuat, sehingga untuk sebagian besar pekerjaan dengan mudah memberi peningkatan kecepatan 10x
  Saya juga tidak memakai --dangerously-skip-permissions, dan tidak memakai mode otomatis Claude Code. Saya meninjau ringan tiap baris yang ditulis dan mengelolanya dengan detail, jadi sesi yang berjalan paralel biasanya tidak lebih dari 2
  Saya curiga kekecewaan banyak muncul ketika orang mencoba mendelegasikan ini lalu berharap ia tidak akan keluar jalur. Itu belum mendapat tingkat kepercayaan seperti itu dari saya, dan sejauh ini memang belum perlu
  Namun saya kebanyakan bekerja pada codebase kecil hingga menengah sekitar 20 ribu–30 ribu baris termasuk tes. Saya penasaran apakah itu faktor yang membuat pengalaman saya positif
- Dalam coding, hal yang bagus itu memang terdistribusi tidak merata
  Kenyataannya, (a) cara orang bekerja dengan AI sangat beragam seperti banyak pulau kecil terpisah, dan (b) bottleneck sangat berbeda-beda tergantung developer dan codebase/tugas
  Selain itu saya rasa di zaman kita ada bias bawaan bahwa perubahan = kemajuan, produktivitas
  Kalau melihat “revolusi network computing” 1990~2000, komputer masuk ke setiap meja dan kantong, dan sangat kuat untuk pekerjaan administratif
  Tetapi hasil akhirnya adalah “perubahan”. Kita mengirim email jauh lebih banyak daripada surat, berkomunikasi jauh lebih banyak, sekretaris menghilang, tetapi “administrasi” sendiri justru bertambah
  Fakultas universitas biasanya punya lebih banyak staf administrasi, dan perusahaan mempekerjakan lebih banyak akuntan, HR, dan project manager
  Mungkin sejak awal administrasi bukan bottleneck yang sesungguhnya
  Kode juga punya sisi seperti ini. Semua orang punya roadmap dan wishlist, jadi “kapasitas produksi kode” terlihat seperti bottleneck
  Tetapi mungkin bagi kebanyakan perusahaan, membuat lebih banyak software tidak berarti menciptakan lebih banyak nilai
  Rasanya banyak perusahaan kelas menengah sedang mengerjakan hal seperti migrasi stack atau modernisasi. Saya jarang mendengar cerita tentang membanjiri fitur lalu menaikkan harga atau pendapatan
  Kebanyakan bottleneck hanya berada di hulu bottleneck lain, dan “bendungan” yang benar-benar utama itu jarang
- Saya tidak tahu apakah ada titik belok, tetapi selama setahun terakhir ini jelas makin berguna untuk hal-hal di luar autocomplete
  Proyek pribadi saya belakangan adalah transpiler yang mengubah Wasm ke Go, dan sangat mengesankan bahwa model-model terbaru (saya pakai Sonnet, Opus, Gemini, dan hasilnya jauh lebih sukses daripada GPT) bisa menangkap proyeknya dan menangani banyak lapisan berbeda
  Mulai dari kode Go yang mengimplementasikan transpiler (parsing Wasm, membangun AST), kode Go yang dihasilkan dengan menserialisasikan AST ke file .go, kode Go yang memanipulasi AST untuk optimisasi dan dampaknya pada kode hasil generate, kode Go yang ditempelkan ke kode hasil generate untuk mengimplementasikan instruksi tingkat lebih tinggi beserta interaksinya di AST, alur di mana kode C dikompilasi ke Wasm lalu diterjemahkan ke Go dan dipanggil dari Go, kode Go yang dipanggil dari kode C itu untuk mengimplementasikan pustaka standar C, sampai file WAT/WAST yang mengimplementasikan tes spesifikasi Wasm
  Untuk memikirkan semua lapisan ini saya sendiri harus cukup memeras otak, dan saya rasa banyak programmer juga akan merasa sulit, jadi ini mengesankan
  Dan sering kali jauh lebih mudah menulis “saya ingin menghasilkan kode ini, jadi buatkan AST yang melakukannya” daripada menghitung tanda kurung dalam kode Go. Bahkan dengan sedikit pengalaman LISP pun tetap terasa lebih mudah begitu
  Review kode atau kritik sangat saya sambut. Ini bukan vibe coding, tetapi sangat banyak dibantu generative AI
  https://github.com/ncruces/wasm2go
- Kemarin sangat menyenangkan karena batas langganan Anthropic reguler $20 memungkinkan saya bermain sepanjang hari tanpa kena limit
  Ini browser game kecil jadi tuntutan keamanan dan kesempurnaannya sangat rendah, tetapi tuntutan untuk “benar-benar mencobanya” dan “menyenangkan” sangat tinggi, jadi bisa dibilang semacam kode production
  Kode yang dihasilkan punya 0 compile error, dan bahkan ketika saya menjelaskan 10 todo untuk satu tugas, semuanya tetap dikerjakan
  Untuk menjadi berguna, ini tidak perlu jauh lebih baik lagi. Buat orang-orang yang seperti peneliti yang tetap harus memverifikasi matematika, tetapi tidak jago menulis kode untuk filtering, transformasi, dan eksekusi data uji, ini sudah sangat berguna
  Untuk kegunaan seperti website kecil, proyek seru, atau tool bantu, ini juga sudah bagus sekarang
  Sementara itu di belakang layar terus ada lebih banyak komputasi, algoritme yang lebih baik, lebih banyak reinforcement learning, dan sebagainya
  Bisa jadi tanpa kita sadari kita sudah mencapai titik 95% dari “AI akan mengambil pekerjaan coding”, justru karena sisa 5%-nya terlalu penting
Sepertinya di suatu tempat sekarang ada seniman manusia yang sedang menggambar pelikan naik sepeda untuk dipakai sebagai data pelatihan lab AI besar
- Semua model image generation modern bisa dengan mudah menghasilkan pelikan di atas sepeda
  Inti tes ini adalah menghasilkan teks SVG yang merepresentasikan gambar, dan itu lebih rumit
  Memang ada cara mengubah gambar raster menjadi SVG untuk dipakai sebagai data pelatihan, tetapi itu bukan penggunaan waktu yang bagus bagi siapa pun
- Kualitas pelikan dari Gemini melonjak terlalu besar dalam satu iterasi, sementara benchmark lain tetap cukup datar, jadi menurut saya bisa saja benar
  Hanya saja saya tidak tahu apakah mereka secara spesifik menargetkan pelikan, atau hanya menargetkan SVG
Enam bulan terakhir ini terlihat seperti masa ketika umat manusia kehilangan kendali atas LLM
Walaupun muncul model terbuka yang hebat dan bisa meredakan adopsi AI lokal, yang terjadi justru penguasaan pasar memori, dan alat kebocoran kekayaan intelektual dengan cepat meresap ke perusahaan-perusahaan di seluruh dunia
Para developer menghasilkan lebih banyak kode daripada yang bisa mereka baca
Agen otonom menyedot ekonomi perhatian, membunuh open source, merusak komunitas online (termasuk HN), dan juga dipakai untuk perang (penargetan, propaganda, dll.)
Kerentanan luas ditemukan, serangan supply chain skala besar terus terjadi
Ketimpangan meningkat, persepsi terpecah, metrik hijau berdampingan dengan realitas yang suram
- Kalau hanya membaca berita buruk, apalagi yang cuma mengejar yang paling laku seperti berita umum sekarang, memang bisa terlihat begitu
  Tetapi secara pribadi saya melihat hal-hal gila terjadi di biotech. Sulit dipercaya bahwa kita mungkin benar-benar hidup di masa depan seperti ini
  Obat nyata yang dikembangkan memakai AlphaFold sudah diuji dalam uji klinis nyata, dan generasi berikutnya yang akan masuk ke klinis dalam 3~5 tahun ke depan akan luar biasa
  Kelak kita mungkin akan melihat kedokteran saat ini seperti kita melihat Abad Pertengahan sekarang
- Menurut saya overheat AI hanya makin menampakkan retakan software engineering yang memang sudah selalu ada
  Idealnya, setelah melewati siklus hype ini kita keluar dengan praktik yang lebih baik
- Ditemukannya kerentanan secara luas itu hal yang baik
- Metal Gear Solid 2 sampai 2025 adalah karya yang aneh dan lucu
- “Penguasaan pasar memori”, tunggu, itu maksudnya apa?
  “Alat kebocoran kekayaan intelektual dengan cepat meresap ke perusahaan-perusahaan di seluruh dunia” menurut saya justru masuk sisi kelebihan
  Kalau hal-hal yang terkait ekonomi perhatian lenyap, bagi saya itu hampir semuanya “selamat tinggal” saja
Saya penasaran seperti apa enam bulan terakhir ini dari sudut pandang non-programmer
Di bidang lain, alat kolaborasi atau optimisasi serupa apa yang dialami orang?
- Saya pengajar yang menjalankan program apprenticeship, dan atasan baru saya sudah sekitar 20 tahun di industri ini serta salah satu orang yang paling dihormati di perusahaan
  Baru-baru ini dia bergabung ke tim kami untuk mengajar, ikut serta dalam kursus 2 minggu, dan pada hari pertama dia diberi instruksi untuk membiarkan AI menulis semua rencana pelajaran, lalu memasukkan rencana itu kembali ke AI untuk membuat slide
  Saya berharap dia menolak mentah-mentah, karena kalau tidak, para trainee tidak akan mendapat apa pun dari pengalaman, sisi manusia, dan hal-hal yang bisa dia wariskan
  Sebagai pengajar saya dievaluasi tiap 6 bulan, dan setiap kali saya mendengar hal yang sama. “Bagaimana kita bisa memakai AI di kelas?”
  Mereka bahkan merasa tidak perlu menjelaskan kenapa itu diinginkan atau dibutuhkan. Ini murni ikut tren
  Sulit dipercaya, sebagian besar rekan kerja saya sangat positif terhadap AI, tetapi tidak ada satu pun yang menjelaskan mereka memakainya untuk apa selain menyiapkan pelajaran. Mereka memakainya hanya agar tidak perlu berpikir atau menyiapkan, padahal itu satu-satunya hal yang penting dalam pekerjaan ini
  Bagi saya ini sama sekali tidak masuk akal
- Di matematika murni, sebelum GPT-5.4 kegunaannya sangat terbatas
  Orang-orang pintar memang bisa mendapatkan hasil sampai taraf tertentu dari model, tetapi selalu butuh masalah yang sangat cocok dan pekerjaan yang sungguh serius
  Tentu ia bisa menyelesaikan soal PR, tetapi dari sisi pengajaran justru terasa lebih seperti kekurangan
  Setelah GPT-5.4 (Maret 2026), rasanya itu rilis yang bikin “wow”. Tiba-tiba ia mulai menjawab soal level MathOverflow yang sebelumnya membuat para ahli buntu
  Halusinasi masih ada, tetapi ia cukup pintar untuk memakai kemampuan Python bawaannya untuk mencoba memverifikasi klaim dengan contoh kecil jika memungkinkan
  Sepertinya ia jauh lebih kuat pada matematika yang banyak formulanya ketimbang matematika yang abstrak dan “filosofis”
  GPT-5.5 memberi pembuktian bergaya buku teks untuk persoalan sulit level MO yang memikat, cukup nontrivial, dan sangat edukatif, dan sekarang saya sedang menuliskannya
  Mungkin itu karena keberuntungan dan prompting yang bagus. Tidak terasa seperti lompatan kualitatif dari 5.4, tetapi peningkatan kuantitatif tetap selalu disambut baik
  Masih butuh masalah yang cocok, tetapi sekarang jauh lebih sulit menolaknya mentah-mentah sejak awal sebagai tidak cocok
  Claude dan Gemini tetap berada di lapis kedua, dan sekarang pun masih begitu. Claude saya pakai untuk tugas-tugas seperti asisten, dan kadang juga menemukan pembuktian mudah, biasanya karena saya melewatkan sesuatu yang jelas
  Dan GPT, juga Claude walau lebih sedikit, sangat bagus dalam menemukan kesalahan matematika. Mungkin 90% prompt saya sejauh ini justru untuk mengoreksi tulisan saya sendiri
- Saya bekerja di perusahaan yang menerapkan AI ke korporasi
  Pegawai kantoran rata-rata terkesan dengan Copilot. Bukan Copilot di dalam IDE, melainkan aplikasi yang dibundel dengan Windows
  Mereka terutama copy-paste materi ke ChatGPT/Gemini yang disediakan perusahaan, lalu mendapat tip dari Facebook/Instagram seperti “5 prompt terbaik untuk produktivitas kerja”
  Kalau Anda tunjukkan agen yang mengotomatisasi pekerjaan dalam skala besar, mereka menerimanya hampir seperti sulap
- Di sekitar saya, bagi orang nonteknis, Claude in Office adalah titik baliknya
  Sekarang slide deck semua orang jadi rapi, dan tim keuangan jauh lebih jarang butuh bantuan BI. Cukup mengesankan
- Dalam bisnis, kami memakai tool kolaborasi untuk meninjau email dan menyarankan cara pengarsipan, mengelola file dan folder, serta setiap hari menyisir intranet untuk hal-hal yang menarik dan relevan
  Secara pribadi, istri saya mengajar bahasa ibunya kepada murid SD sampai SMA yang bukan penutur asli, dan sekarang anak-anak itu semua memakai tool seperti ini untuk menghasilkan materi latihan baru yang sesuai rencana pelajaran sekolah
  Kemampuan mereka berkembang jauh lebih cepat daripada beberapa bulan lalu
Mengingat betapa terkenalnya blog Simon, sekarang makin sulit yakin bahwa tidak ada lab AI yang melatih modelnya untuk tugas konyol seperti itu
- Di tulisan itu sendiri juga diakui bahwa “lab AI mungkin pada akhirnya memang memperhatikannya”, dan bahwa “pelikan naik sepeda jelas sudah melampaui batasnya sebagai benchmark yang berguna”
- Di bagian belakang tulisannya, Simon mengatakan bahwa melihat Jeff Dean menyebut tugas pelikan naik sepeda, dan melihat seberapa bagus model-model saat ini melakukannya, ini sekarang bukan benchmark yang bagus lagi
  Sekarang giliran opossum naik skuter listrik
- Bagian itu mungkin akan lebih kena dalam presentasi. Itu semacam build-up untuk lelucon yang muncul belakangan
- Ini pada dasarnya sudah menjadi benchmark. Beberapa teman saya secara spesifik melatih model untuk menghitung jumlah huruf R dalam “strawberry”
Membaca thread ini, tampaknya cukup banyak perdebatan soal titik belok berasal dari orang-orang yang saling bicara silang tentang apa sebenarnya yang membaik
Interpretasi saya adalah sekitar November kemampuan model itu sendiri tidak melonjak besar, melainkan harness di sekitarnya menjadi jauh lebih stabil, dan pekerjaan RLVR di awal 2025 sudah melatih model untuk berperilaku baik di dalam harness itu
Jadi ketika keduanya bertemu, masing-masing secara terpisah mungkin tidak dramatis, tetapi efek gabungannya bisa terasa seperti perubahan bertahap yang melonjak
Itu juga tampaknya menjelaskan kenapa pengalaman di thread ini begitu berbeda. Orang yang alurnya sekadar bertanya kode ke model lalu copy-paste hasilnya mungkin melihat peningkatan yang landai, dan wajar bertanya kenapa semua orang ribut sekali
Sebaliknya, orang yang sudah menjalankan agen dalam loop 20 langkah mungkin merasakan perubahan jauh lebih besar. Dulu masalahnya kegagalan di langkah 12 menyebar jadi sampah di langkah 20, dan bagian itu banyak membaik
Ucapan Simon sekilas tentang model lokal juga menarik karena alasan yang sama. Model 20GB yang bisa menggambar pelikan lumayan bagus di laptop, sendirian, hanya data point lucu
Yang penting adalah model lokal yang kompeten dalam harness yang bagus sekarang makin dekat ke performa frontier dibanding menjalankan model frontier tanpa harness
Saya meminta Gemini membuat video “pelikan naik unicycle di Hyde Park”, dan saya sangat terkejut dengan hasilnya
https://gemini.google.com/share/55e250c99693
- Menurut penjelasan penulis asli, alasan tes ini dipakai adalah karena pelikan sulit digambar, sepeda juga sulit digambar, pelikan tidak bisa naik sepeda, dan tidak mungkin ada lab AI yang melatih model untuk tugas seaneh ini
  Pada titik ini saya justru berpikir, kenapa lab AI pesaing tidak akan melatih “tes” yang sekarang sudah terkenal ini?
- Secara grafis sempurna, tetapi secara isi tidak masuk akal
  Pusat gravitasi pelikan itu jelas berada di belakang roda. Seharusnya berada di atas roda atau sedikit di depannya
- Grok juga mengejutkan
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  Menarik bahwa pada pembuatan video, pelikan yang mengayuh pedal tampaknya lebih berhasil daripada pada pembuatan gambar
- Google/Gemini punya kemampuan audiovisual yang cukup mengesankan
  Saya pernah meminta Claude menambahkan mulsa ke foto lanskap, dan hasilnya terlihat seperti dicat dengan alat semprot oranye di MS Paint
  Nano Banana menghasilkan sesuatu yang jauh lebih dekat ke kenyataan
- Benar-benar mengesankan, dan agak mengkhawatirkan bagi para kreator di bidang film, animasi, dan modeling
Disebutkan “saya membuat slide beranotasi untuk lightning talk sekitar 5 menit di PyCon US 2026”, jadi saya penasaran apakah ada video atau audio dari presentasi ini

Melihat 6 bulan terakhir LLM dalam 5 menit

Dua arus yang membelah 6 bulan terakhir

Persaingan model frontier di bulan November

Menembus ambang kualitas agen coding

Eksperimen musim liburan dan euforia berlebihan

OpenClaw dan demam asisten AI pribadi

Gemini 3.1 Pro dan perluasan tes pelikan

Model open-weight di bulan April

Model yang berjalan di laptop melampaui ekspektasi

Bacaan terkait

1 komentar

Komentar Hacker News