‘Eksperimen browser’ terbaru Cursor menyiratkan keberhasilan tanpa bukti

(embedding-shapes.github.io)

5 poin oleh GN⁺ 2026-01-17 | 5 komentar | Bagikan ke WhatsApp

Cursor mengumumkan bahwa mereka menjalankan eksperimen di mana ‘agen coding otonom’ bekerja selama berminggu-minggu, untuk mengeksplorasi apakah proyek yang biasanya memerlukan waktu berbulan-bulan oleh tim manusia dapat diotomatisasi
Untuk memverifikasi sistem ini, mereka menetapkan target ‘membangun browser web dari nol’ dan mengklaim para agen menulis lebih dari 1 juta baris kode selama sekitar satu minggu
Namun, repositori GitHub yang dipublikasikan (fastrender) menunjukkan banyak error kompilasi dan kegagalan CI, sehingga dipastikan bukan browser yang dapat dijalankan
Cursor tidak menyajikan apakah hasilnya benar-benar berfungsi, demo yang dapat direproduksi, atau commit yang bisa di-build, dan juga tidak ada dasar keberhasilan eksperimen yang spesifik
Meski begitu, Cursor tetap menyatakan bahwa “agen mencapai kemajuan yang berarti pada proyek besar”, sehingga meninggalkan kesan sukses tanpa verifikasi performa yang nyata

Gambaran eksperimen di blog Cursor

Pada 14 Januari 2026, Cursor memublikasikan tulisan blog berjudul “Scaling long-running autonomous coding”
- Tujuannya adalah mengeksplorasi “sejauh mana proyek yang memerlukan waktu berbulan-bulan bagi tim manusia dapat diskalakan dengan agen coding otonom”
Setelah mencoba beberapa pendekatan, mereka menjelaskan telah mencapai sistem yang “menyelesaikan masalah koordinasi dan dapat diskalakan ke proyek besar tanpa agen tunggal”
Untuk verifikasi, mereka melakukan eksperimen ‘membangun browser web dari nol’, dan menyatakan para agen menulis lebih dari 1 juta baris kode di 1.000 file selama sekitar satu minggu
- Kode sumber dipublikasikan di repositori GitHub wilsonzlin/fastrender

Ketidakjelasan hasil eksperimen

Cursor mengklaim “agen baru memahami codebase dan mencapai kemajuan yang berarti”, serta “ratusan worker melakukan push ke branch yang sama secara bersamaan”
- Namun, mereka tidak menyatakan secara eksplisit apakah browser itu benar-benar berfungsi
Tulisan tersebut menyertakan video tangkapan layar, tetapi tidak ada demo yang bisa dijalankan atau penjelasan hasil yang konkret
Selain kalimat “membangun browser dari nol itu sangat sulit”, tidak ada bukti bahwa hasilnya berfungsi

Hasil verifikasi codebase

Saat repositori di-build secara langsung, terjadi kegagalan kompilasi pada library ‘fastrender’ (34 error, 94 peringatan)
Dari hasil eksekusi GitHub Actions terbaru juga terlihat error workflow dan banyak kegagalan kompilasi
- Dari 100 commit terbaru, tidak ada satu pun commit yang berhasil di-build dengan normal
Bagian dalam kode dinilai sebagai keluaran setingkat ‘AI slop’ tanpa maksud atau struktur yang jelas
- Tampaknya bahkan perintah cargo build maupun cargo check tidak pernah dijalankan
- Isu terkait #98 juga masih terbuka saat ini

Masalah reproduksibilitas dan keandalan

Blog Cursor sama sekali tidak menjelaskan cara menjalankan, hasil yang diharapkan, maupun bagaimana cara kerjanya
Demo yang dapat direproduksi, petunjuk build, dan commit terverifikasi (tag/release/commit) tidak disediakan
Meski begitu, susunan dan ungkapan dalam tulisan tersebut membuatnya terlihat seperti “prototipe yang berfungsi”
Cursor tidak secara eksplisit mengatakan “ini berfungsi”, jadi ini bukan pernyataan palsu, tetapi tetap memberi kesan yang menyiratkan keberhasilan

Kesimpulan dan penilaian

Cursor tidak mengklaim ini sebagai “browser tingkat produksi”, tetapi melalui ungkapan seperti ‘kemajuan yang berarti’ dan ‘membangun browser’, eksperimen ini terlihat seperti eksperimen yang sukses
Namun, tidak ada bukti bahwa hasilnya berfungsi, tidak ada kode yang bisa di-build, dan tidak ada hasil yang dapat direproduksi
Klaim bahwa “ratusan agen berkolaborasi dan membuat kemajuan pada proyek besar” adalah klaim tanpa bukti apa pun
- Bahkan standar minimum berupa “dapat dikompilasi dan mampu merender file HTML sederhana” pun tidak terpenuhi
Pada akhirnya, eksperimen Cursor ini lebih menunjukkan batasan dari pembuatan kode skala besar, alih-alih kemungkinan perluasan coding otonom

5 komentar

sinbumu 2026-01-19

Artinya, ini berhasil menunjukkan bahwa para developer sebenarnya masih belum bisa digantikan~

jjw9512151 2026-01-18

Hasil yang sukses = hei para eksekutif, itu artinya kalian masih belum bisa memecat kami

GN⁺ 2026-01-17

Komentar Hacker News

Poin yang seharusnya paling atas adalah bahwa eksperimen minggu ini pada akhirnya hanya sebatas wrapper yang tidak berfungsi untuk Servo (browser berbasis Rust)
Komentar terkait ada di sini
- Saya jadi penasaran apakah ada yang pernah mencoba menulis ulang dengan AI proyek open source populer
  Dengan LLM terbaru, ini sepertinya juga bisa cukup efektif untuk pencucian lisensi atau plagiarisme dependensi. Terasa menarik sebagai benchmark baru
- Saya benar-benar melihat tweet dari seseorang yang katanya berhasil mengompilasinya
- Hasil negatif juga punya nilai. Kalau sengaja dipublikasikan itu patut dihormati, kalau ketahuan tanpa sengaja itu lucu
  Salut untuk Cursor yang memberi hiburan hari ini
- Awalnya saya sempat merasa pekerjaan saya terancam saat melihat screenshot itu
  Tapi ternyata bahkan tidak punya engine dan kondisinya benar-benar rusak, Cursor benar-benar memalukan
Posting blog resmi dari Cursor ditulis dengan nada yang cukup konservatif, tetapi
di Twitter kesannya dibesar-besarkan seolah mereka “membuat browser dengan GPT-5.2”
Padahal kenyataannya mereka hanya memisahkan ribuan agen dan membiarkan commit menumpuk selama berminggu-minggu, tetapi hasilnya masih belum berjalan
- Ungkapan “menyelesaikan merge conflict” tidak terlalu berarti. Bahkan dengan strategi ours atau theirs saja konflik selalu bisa diselesaikan
- Kalau begitu, apakah ada orang yang benar-benar berhasil menjalankannya? Screenshot itu berasal dari mana? Di kodenya ada terlalu banyak error
- Kalau melihat isi tautannya, browser itu terlihat seperti benar-benar berfungsi, jadi saya penasaran bagaimana itu bisa disebut “konservatif”
Saya mencoba memeriksanya sendiri dengan menjalankan cargo check pada 100 commit terakhir
Hasilnya semuanya gagal. Lihat log hasil
- Sekarang ada komentar baru yang mengatakan itu sudah bisa dikompilasi
- Sebenarnya screenshot itu juga bisa saja dimanipulasi. Dengan pisau cukur Occam, itu penjelasan yang paling sederhana
Promosi seperti ini pada akhirnya terlihat sebagai bagian dari strategi fundraising
Sebelumnya mereka juga beberapa kali mengunggah posting yang samar, misalnya tentang seberapa banyak kode yang ditulis model internal mereka
Bukan berarti isinya sama sekali tidak substansial, tetapi tetap disayangkan bahwa hasilnya tidak dibagikan secara terbuka
- Tidak seperti penyedia model lain, saya selalu kecewa karena mereka tidak mempublikasikan benchmark
  Cursor sempat sangat ramai dibicarakan, tetapi sekarang agen berbasis terminal yang lebih dominan
  Perusahaan kami juga sedang bersiap mengakhiri kontrak Cursor dan beralih ke Claude Code
  Mungkin proyek browser ini adalah upaya untuk menarik perhatian lagi
- Pembesaran seperti ini pada akhirnya hanya menggelembungkan valuasi pasar. Itu tidak bisa dibenarkan
- Belakangan semua perusahaan LLM tampaknya lebih bergantung pada pemasaran ‘vibe-coded’ daripada kebenaran
  Saat pengumuman GPT-5 juga mirip. Kemajuan yang nyata sedang melambat
- Dulu saya benci pembesaran seperti ini, tetapi sekarang saya mulai menerimanya sebagai realitas dunia
  Pada akhirnya jawabannya adalah verifikasi, bukan kepercayaan
Cursor juga sedang membuat klon Excel lewat eksperimen serupa
Menurut repositori GitHub,
dari 160 ribu workflow hanya 247 yang berhasil, dan sebagian besar gagal karena melebihi anggaran
Agen-agen itu sama sekali tidak peduli pada batasan semacam itu
Commit terbaru sekarang sudah bisa build dan dijalankan (setidaknya di Mac)
Tetapi tetap saja ini kekacauan 3 juta baris kode
Halaman yang muncul dalam video promosi Cursor tidak dirender. Mungkin mereka memakai build yang berbeda
- cargo check memang lolos, tetapi kalau melihat git log, ada sesuatu yang mencurigakan
  Ada jejak bahwa bukan agen, melainkan manusia yang memperbaikinya langsung
  Lihat analisis log commit
Saya rasa artikel aslinya hanyalah headline pemancing klik
Frasa “ribuan agen AI membuat browser” terlalu sensasional
- Sekarang kalau ada yang bilang “AI membuat browser”, kita bisa menautkan kasus ini
- Proyek-proyek yang sebenarnya tidak berfungsi berputar cepat dalam siklus berita
  Sayang istilah “berita palsu” sudah tercemar secara politis. Padahal itu ungkapan yang sangat pas untuk bidang ini
CEO Cursor mengklaim bahwa mereka “membuat rendering engine dan JS VM dari nol dengan Rust”, tetapi
jika melihat daftar dependensi yang sebenarnya,
mereka tetap memakai library berbasis Servo seperti html5ever, cssparser, dan rquickjs
Pada akhirnya ini hanya sebatas membungkus Servo, dan bahkan tidak bisa dikompilasi
- Saya tidak paham kenapa mereka sampai mengklaim telah mengimplementasikan CSS dan JS sendiri
  Kebanyakan orang mestinya langsung tahu hanya dengan melihat kodenya, jadi mungkin mereka mengira publik tidak akan memeriksa
  Dengan cara seperti ini persepsi yang salah menyebar, dan saat nanti dikoreksi pun tidak ada yang peduli
- Faktanya ini tersusun dari library yang sudah ada seperti parser HTML/CSS milik Servo, QuickJS, resvg, egui, dan wgpu
  Lucu juga kalau itu dibilang 3M line
- selectors dan taffy juga ikut dipakai, dan beberapa memakai dependensi versi lama
- Engine JS itu ternyata hanya proyek pribadi yang disalin ke folder vendor
  Detail terkait ada di sini
- Saya penasaran apakah kode layout-nya memakai milik Servo, atau benar-benar ditulis sendiri oleh Cursor
  Bagian itu adalah area paling sulit dalam browser
Saya justru merasa pendekatan pemasaran seperti ini menjadi bumerang
Desain dan UX Cursor memang bagus, tetapi untuk pekerjaan yang mendalam bug-nya terlalu banyak
Setelah menambahkan model Claude memang sedikit membaik, tetapi tetap masih kalah dari Antigravity
Ditambah lagi batas langganan $20 cepat habis. Kecil kemungkinan model akan jadi 10 kali lebih baik dan 10 kali lebih murah
- Setelah memakai aplikasi penuh bug dari berbagai perusahaan AI, saya merasa bahwa untuk pekerjaan nyata tetap dibutuhkan keahlian manusia
  Melihat model bisnis OpenAI yang berubah menjadi berpusat pada iklan,
  saya jadi merasa Google sebenarnya memahami teknologi ini dengan lebih realistis
Cerita-cerita seperti ini pada akhirnya ditujukan untuk ‘penjual sekop’
CEO yang kurang paham bisa saja tertipu oleh berita seperti ini lalu benar-benar memecat karyawan manusia

kimjoin2 2026-01-18

wkwkwk

laeyoung 2026-01-17

Artikel terkait - 장시간 실행되는 자율 코딩의 확장