5 poin oleh GN⁺ 2026-01-17 | 5 komentar | Bagikan ke WhatsApp
  • Cursor mengumumkan bahwa mereka menjalankan eksperimen di mana ‘agen coding otonom’ bekerja selama berminggu-minggu, untuk mengeksplorasi apakah proyek yang biasanya memerlukan waktu berbulan-bulan oleh tim manusia dapat diotomatisasi
  • Untuk memverifikasi sistem ini, mereka menetapkan target ‘membangun browser web dari nol’ dan mengklaim para agen menulis lebih dari 1 juta baris kode selama sekitar satu minggu
  • Namun, repositori GitHub yang dipublikasikan (fastrender) menunjukkan banyak error kompilasi dan kegagalan CI, sehingga dipastikan bukan browser yang dapat dijalankan
  • Cursor tidak menyajikan apakah hasilnya benar-benar berfungsi, demo yang dapat direproduksi, atau commit yang bisa di-build, dan juga tidak ada dasar keberhasilan eksperimen yang spesifik
  • Meski begitu, Cursor tetap menyatakan bahwa “agen mencapai kemajuan yang berarti pada proyek besar”, sehingga meninggalkan kesan sukses tanpa verifikasi performa yang nyata

Gambaran eksperimen di blog Cursor

  • Pada 14 Januari 2026, Cursor memublikasikan tulisan blog berjudul Scaling long-running autonomous coding
    • Tujuannya adalah mengeksplorasi “sejauh mana proyek yang memerlukan waktu berbulan-bulan bagi tim manusia dapat diskalakan dengan agen coding otonom”
  • Setelah mencoba beberapa pendekatan, mereka menjelaskan telah mencapai sistem yang “menyelesaikan masalah koordinasi dan dapat diskalakan ke proyek besar tanpa agen tunggal”
  • Untuk verifikasi, mereka melakukan eksperimen ‘membangun browser web dari nol’, dan menyatakan para agen menulis lebih dari 1 juta baris kode di 1.000 file selama sekitar satu minggu

Ketidakjelasan hasil eksperimen

  • Cursor mengklaim “agen baru memahami codebase dan mencapai kemajuan yang berarti”, serta “ratusan worker melakukan push ke branch yang sama secara bersamaan”
    • Namun, mereka tidak menyatakan secara eksplisit apakah browser itu benar-benar berfungsi
  • Tulisan tersebut menyertakan video tangkapan layar, tetapi tidak ada demo yang bisa dijalankan atau penjelasan hasil yang konkret
  • Selain kalimat “membangun browser dari nol itu sangat sulit”, tidak ada bukti bahwa hasilnya berfungsi

Hasil verifikasi codebase

  • Saat repositori di-build secara langsung, terjadi kegagalan kompilasi pada library ‘fastrender’ (34 error, 94 peringatan)
  • Dari hasil eksekusi GitHub Actions terbaru juga terlihat error workflow dan banyak kegagalan kompilasi
    • Dari 100 commit terbaru, tidak ada satu pun commit yang berhasil di-build dengan normal
  • Bagian dalam kode dinilai sebagai keluaran setingkat ‘AI slop’ tanpa maksud atau struktur yang jelas
    • Tampaknya bahkan perintah cargo build maupun cargo check tidak pernah dijalankan
    • Isu terkait #98 juga masih terbuka saat ini

Masalah reproduksibilitas dan keandalan

  • Blog Cursor sama sekali tidak menjelaskan cara menjalankan, hasil yang diharapkan, maupun bagaimana cara kerjanya
  • Demo yang dapat direproduksi, petunjuk build, dan commit terverifikasi (tag/release/commit) tidak disediakan
  • Meski begitu, susunan dan ungkapan dalam tulisan tersebut membuatnya terlihat seperti “prototipe yang berfungsi”
  • Cursor tidak secara eksplisit mengatakan “ini berfungsi”, jadi ini bukan pernyataan palsu, tetapi tetap memberi kesan yang menyiratkan keberhasilan

Kesimpulan dan penilaian

  • Cursor tidak mengklaim ini sebagai “browser tingkat produksi”, tetapi melalui ungkapan seperti ‘kemajuan yang berarti’ dan ‘membangun browser’, eksperimen ini terlihat seperti eksperimen yang sukses
  • Namun, tidak ada bukti bahwa hasilnya berfungsi, tidak ada kode yang bisa di-build, dan tidak ada hasil yang dapat direproduksi
  • Klaim bahwa “ratusan agen berkolaborasi dan membuat kemajuan pada proyek besar” adalah klaim tanpa bukti apa pun
    • Bahkan standar minimum berupa “dapat dikompilasi dan mampu merender file HTML sederhana” pun tidak terpenuhi
  • Pada akhirnya, eksperimen Cursor ini lebih menunjukkan batasan dari pembuatan kode skala besar, alih-alih kemungkinan perluasan coding otonom

5 komentar

 
kimjoin2 2026-01-18

wkwkwk

 
sinbumu 2026-01-19

Artinya, ini berhasil menunjukkan bahwa para developer sebenarnya masih belum bisa digantikan~

 
jjw9512151 2026-01-18

Hasil yang sukses = hei para eksekutif, itu artinya kalian masih belum bisa memecat kami

 
GN⁺ 2026-01-17
Komentar Hacker News
  • Poin yang seharusnya paling atas adalah bahwa eksperimen minggu ini pada akhirnya hanya sebatas wrapper yang tidak berfungsi untuk Servo (browser berbasis Rust)
    Komentar terkait ada di sini

    • Saya jadi penasaran apakah ada yang pernah mencoba menulis ulang dengan AI proyek open source populer
      Dengan LLM terbaru, ini sepertinya juga bisa cukup efektif untuk pencucian lisensi atau plagiarisme dependensi. Terasa menarik sebagai benchmark baru
    • Saya benar-benar melihat tweet dari seseorang yang katanya berhasil mengompilasinya
    • Hasil negatif juga punya nilai. Kalau sengaja dipublikasikan itu patut dihormati, kalau ketahuan tanpa sengaja itu lucu
      Salut untuk Cursor yang memberi hiburan hari ini
    • Awalnya saya sempat merasa pekerjaan saya terancam saat melihat screenshot itu
      Tapi ternyata bahkan tidak punya engine dan kondisinya benar-benar rusak, Cursor benar-benar memalukan
  • Posting blog resmi dari Cursor ditulis dengan nada yang cukup konservatif, tetapi
    di Twitter kesannya dibesar-besarkan seolah mereka “membuat browser dengan GPT-5.2”
    Padahal kenyataannya mereka hanya memisahkan ribuan agen dan membiarkan commit menumpuk selama berminggu-minggu, tetapi hasilnya masih belum berjalan

    • Ungkapan “menyelesaikan merge conflict” tidak terlalu berarti. Bahkan dengan strategi ours atau theirs saja konflik selalu bisa diselesaikan
    • Kalau begitu, apakah ada orang yang benar-benar berhasil menjalankannya? Screenshot itu berasal dari mana? Di kodenya ada terlalu banyak error
    • Kalau melihat isi tautannya, browser itu terlihat seperti benar-benar berfungsi, jadi saya penasaran bagaimana itu bisa disebut “konservatif”
  • Saya mencoba memeriksanya sendiri dengan menjalankan cargo check pada 100 commit terakhir
    Hasilnya semuanya gagal. Lihat log hasil

    • Sekarang ada komentar baru yang mengatakan itu sudah bisa dikompilasi
    • Sebenarnya screenshot itu juga bisa saja dimanipulasi. Dengan pisau cukur Occam, itu penjelasan yang paling sederhana
  • Promosi seperti ini pada akhirnya terlihat sebagai bagian dari strategi fundraising
    Sebelumnya mereka juga beberapa kali mengunggah posting yang samar, misalnya tentang seberapa banyak kode yang ditulis model internal mereka
    Bukan berarti isinya sama sekali tidak substansial, tetapi tetap disayangkan bahwa hasilnya tidak dibagikan secara terbuka

    • Tidak seperti penyedia model lain, saya selalu kecewa karena mereka tidak mempublikasikan benchmark
      Cursor sempat sangat ramai dibicarakan, tetapi sekarang agen berbasis terminal yang lebih dominan
      Perusahaan kami juga sedang bersiap mengakhiri kontrak Cursor dan beralih ke Claude Code
      Mungkin proyek browser ini adalah upaya untuk menarik perhatian lagi
    • Pembesaran seperti ini pada akhirnya hanya menggelembungkan valuasi pasar. Itu tidak bisa dibenarkan
    • Belakangan semua perusahaan LLM tampaknya lebih bergantung pada pemasaran ‘vibe-coded’ daripada kebenaran
      Saat pengumuman GPT-5 juga mirip. Kemajuan yang nyata sedang melambat
    • Dulu saya benci pembesaran seperti ini, tetapi sekarang saya mulai menerimanya sebagai realitas dunia
      Pada akhirnya jawabannya adalah verifikasi, bukan kepercayaan
  • Cursor juga sedang membuat klon Excel lewat eksperimen serupa
    Menurut repositori GitHub,
    dari 160 ribu workflow hanya 247 yang berhasil, dan sebagian besar gagal karena melebihi anggaran
    Agen-agen itu sama sekali tidak peduli pada batasan semacam itu

  • Commit terbaru sekarang sudah bisa build dan dijalankan (setidaknya di Mac)
    Tetapi tetap saja ini kekacauan 3 juta baris kode
    Halaman yang muncul dalam video promosi Cursor tidak dirender. Mungkin mereka memakai build yang berbeda

    • cargo check memang lolos, tetapi kalau melihat git log, ada sesuatu yang mencurigakan
      Ada jejak bahwa bukan agen, melainkan manusia yang memperbaikinya langsung
      Lihat analisis log commit
  • Saya rasa artikel aslinya hanyalah headline pemancing klik
    Frasa “ribuan agen AI membuat browser” terlalu sensasional

    • Sekarang kalau ada yang bilang “AI membuat browser”, kita bisa menautkan kasus ini
    • Proyek-proyek yang sebenarnya tidak berfungsi berputar cepat dalam siklus berita
      Sayang istilah “berita palsu” sudah tercemar secara politis. Padahal itu ungkapan yang sangat pas untuk bidang ini
  • CEO Cursor mengklaim bahwa mereka “membuat rendering engine dan JS VM dari nol dengan Rust”, tetapi
    jika melihat daftar dependensi yang sebenarnya,
    mereka tetap memakai library berbasis Servo seperti html5ever, cssparser, dan rquickjs
    Pada akhirnya ini hanya sebatas membungkus Servo, dan bahkan tidak bisa dikompilasi

    • Saya tidak paham kenapa mereka sampai mengklaim telah mengimplementasikan CSS dan JS sendiri
      Kebanyakan orang mestinya langsung tahu hanya dengan melihat kodenya, jadi mungkin mereka mengira publik tidak akan memeriksa
      Dengan cara seperti ini persepsi yang salah menyebar, dan saat nanti dikoreksi pun tidak ada yang peduli
    • Faktanya ini tersusun dari library yang sudah ada seperti parser HTML/CSS milik Servo, QuickJS, resvg, egui, dan wgpu
      Lucu juga kalau itu dibilang 3M line
    • selectors dan taffy juga ikut dipakai, dan beberapa memakai dependensi versi lama
    • Engine JS itu ternyata hanya proyek pribadi yang disalin ke folder vendor
      Detail terkait ada di sini
    • Saya penasaran apakah kode layout-nya memakai milik Servo, atau benar-benar ditulis sendiri oleh Cursor
      Bagian itu adalah area paling sulit dalam browser
  • Saya justru merasa pendekatan pemasaran seperti ini menjadi bumerang
    Desain dan UX Cursor memang bagus, tetapi untuk pekerjaan yang mendalam bug-nya terlalu banyak
    Setelah menambahkan model Claude memang sedikit membaik, tetapi tetap masih kalah dari Antigravity
    Ditambah lagi batas langganan $20 cepat habis. Kecil kemungkinan model akan jadi 10 kali lebih baik dan 10 kali lebih murah

    • Setelah memakai aplikasi penuh bug dari berbagai perusahaan AI, saya merasa bahwa untuk pekerjaan nyata tetap dibutuhkan keahlian manusia
      Melihat model bisnis OpenAI yang berubah menjadi berpusat pada iklan,
      saya jadi merasa Google sebenarnya memahami teknologi ini dengan lebih realistis
  • Cerita-cerita seperti ini pada akhirnya ditujukan untuk ‘penjual sekop’
    CEO yang kurang paham bisa saja tertipu oleh berita seperti ini lalu benar-benar memecat karyawan manusia