Hasil Evaluasi Model CursorBench 3.1

(cursor.com)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Dalam tabel evaluasi model coding Cursor, Fable 5 Max menempati peringkat 1 dengan 72.9%, menjadi tolok ukur persaingan di papan atas
Seri Fable 5 menguasai peringkat 1 hingga 4 dengan Max, Extra High, High, dan Medium, menunjukkan jarak yang jelas dibanding keluarga model lain
Setelah 5 besar, disusul oleh Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, dan Composer 2.5 63.2%
CursorBench 3.1 menambahkan tugas yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review, serta memperbaiki kriteria penilaian untuk sebagian tugas editing
Biaya rata-rata per tugas dihitung dari harga token publik dan jumlah token yang digunakan per tugas, dan selisih skor kecil mungkin tidak bermakna secara statistik

Papan atas didominasi Fable 5

Tabel CursorBench 3.1 membandingkan peringkat, skor, biaya rata-rata per tugas, dan metrik penggunaan untuk tiap model
Peringkat 1 sampai 4 semuanya ditempati seri Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
Di rentang peringkat 5~10, model Opus, GPT-5.5, Fable, dan Composer bercampur
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40

Skor model di papan tengah dan bawah

Peringkat 11~20 terutama diisi oleh model Opus, Sonnet, dan GPT-5.5
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
Peringkat 21~36 mencakup GLM, Kimi, Gemini, Sonnet, Composer, dan lainnya
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30

Cakupan evaluasi CursorBench 3.1

CursorBench 3.1 memperkenalkan soal yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review
Kriteria penilaian untuk sebagian tugas editing juga diperbaiki
CursorBench 3.0 adalah set tugas awal yang berfokus pada editing, refactoring, dan perbaikan bug

Perhitungan biaya dan batasan interpretasi

Biaya rata-rata per tugas dihitung menggunakan per-million-token pricing publik untuk tiap model
Mencakup harga input, pembacaan cache, penulisan cache, dan output
Harga diterapkan pada token yang digunakan masing-masing model dalam tugas CursorBench 3.1, lalu dirata-ratakan untuk seluruh tugas
Hasilnya masih memiliki variabilitas, dan selisih skor kecil mungkin tidak bermakna secara statistik

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Agak skeptis
Dalam benchmark Cursor, model Cursor Composer 2.5 disebut sama bagusnya dengan Opus 4.8 max dan GPT-5.5 xhigh, tetapi harganya jauh lebih rendah
Namun dalam pengujian Artificial Analysis, Composer 2.5 tertinggal cukup jauh: https://artificialanalysis.ai/agents/coding-agents
Jika melihat benchmark DeepSWE, GPT-5.5 xhigh mendapat 64, Opus 4.8 max 56, dan Cursor 2.5 16
Saya tidak meragukan bahwa Cursor bisa cocok untuk sebagian orang, tetapi klaim bahwa ia adalah pesaing Opus 4.8 atau GPT-5.5 terasa meragukan. Terlalu nyaman kalau hasilnya bagus di benchmark sendiri tetapi tertinggal jauh di benchmark pihak ketiga
- Saya bekerja di Cursor. Saat Composer 2.5 dirilis, seingat saya hasilnya cukup kompetitif di benchmark agregat AA, dan berada di peringkat ke-3 secara keseluruhan
  Baru-baru ini AA beralih menggunakan DeepSWE, dan benchmark ini lebih berfokus pada tugas dengan rentang yang sangat panjang. Composer belum kuat untuk tugas seperti itu, jadi kami sedang berupaya memperbaikinya di model berikutnya
  Secara umum, Composer tampil baik di beberapa benchmark, dan tidak begitu di tempat lain. Namun pada kisaran harga saat ini, saya melihatnya sebagai model yang sangat kapabel. Jika melihat perilaku tertentu atau titik lemah, beri tahu di sini atau kirim email ke lrobinson at cursor.com
- Tidak sulit memahami apa yang terjadi. Karena mereka melakukan reinforcement learning agar sesuai dengan pola dan kemampuan tertentu pada data mereka sendiri, wajar saja jika mereka membuat benchmark yang selaras dengan set pelatihannya
  Ironisnya, untuk cakupan sempit yang benar-benar dipedulikan “pelanggan unik” Cursor, benchmark itu mungkin lebih akurat daripada Artificial Analysis. Di luar itu, anggap saja sebagai satu titik data lagi
- DeepSWE agak cacat karena hanya menggunakan harness eksekusi miliknya sendiri, dan model yang tidak didukung dengan baik oleh harness itu akan bermasalah
  Ada banyak bukti bahwa harness sangat memengaruhi cara model-model ini bekerja, tetapi DeepSWE sepenuhnya menghilangkan faktor itu. Kemungkinan besar mereka hanya memastikan benchmark itu berjalan baik pada beberapa model yang mereka sukai
  Seperti yang juga dilaporkan di issue GitHub, harness yang tidak memakai cache itu juga bermasalah dalam perhitungan biaya. Tidak ada benchmark yang sempurna, tetapi ini cukup menjelaskan variasi antar-benchmark
- Sesi Cursor hampir sama dengan target reinforcement learning untuk model Composer. Benchmark ini dan data pelatihannya pada dasarnya harus berasal dari distribusi yang sama
- Saya tidak begitu paham soal benchmark, tetapi saya sudah banyak memakai Composer 2.5 dan dalam pekerjaan nyata ia bekerja cukup baik
Pilihan penentuan sumbunya cukup membingungkan. Saya kira sisi kiri adalah yang paling murah, tetapi ternyata justru yang paling mahal
Saya paham tata letak yang membuat kanan atas menjadi posisi terbaik, tetapi sumbu biaya yang terbalik tetap tidak intuitif
Terlepas dari itu, saya setiap hari sepanjang hari mengerjakan implementasi yang sangat sulit, pada tingkat yang nyaris hanya bisa dilakukan agen, dan untuk pekerjaan yang membutuhkan “validasi nyata”, saya harus mempertahankan Opus di max untuk sementara waktu. Rasanya itu praktis satu-satunya cara agar Opus bisa bekerja setidaknya mendekati GPT-5.5 xhigh
Jika memakai GPT-5.5 lewat langganan, jendela konteksnya kecil; meski 400k, efektifnya sekitar 258k, jadi saya memakai Opus
Perbedaannya adalah GPT-5.5 xhigh sangat cepat dalam sebagian besar kasus nyata. Implementasi keseluruhannya juga efisien, dan untuk pertanyaan yang tidak perlu pemikiran mendalam, ia menjawab cepat secara adaptif
Sebaliknya Opus 4.8 Max mengunyah semuanya terlalu lama tanpa perlu, dan implementasi sederhana pun bisa memakan waktu berjam-jam, sehingga saya terutama memakainya hanya untuk perencanaan dan review
Fable jauh lebih baik dalam pemikiran adaptif dan respons cepat, tetapi mungkin masih kalah dari GPT-5.5 xhigh. Sepertinya semua orang sudah cukup membahas kelebihan dan kekurangannya, dan sayangnya untuk pekerjaan sulit saya, ia belum menjadi implementer yang bisa dipercaya. Itu masih wilayah GPT, dan Fable cenderung meninggalkan lubang besar dan berbahaya di dalam implementasi jika tidak diasuh dengan sangat cermat
- Apakah ada satu pun hal yang bisa dibuktikan dari pernyataan “setiap hari sepanjang hari mengerjakan implementasi yang sangat sulit, pada tingkat yang nyaris hanya bisa dilakukan agen”? Atau kami hanya harus percaya saja? Semuanya terdengar sangat subjektif sampai lucu
- Jika Fable meninggalkan lubang berbahaya dalam implementasi, terpikir bahwa GLM atau DeepSeek bisa dicampurkan dan diintegrasikan untuk red teaming kode
  Fable secara desain buta terhadap keamanan[0], sementara model-model terbuka cukup bagus di area itu
  [0] Belum jelas GPT-5.6 akan seperti apa, tetapi dari blognya tampaknya akan ada filter keamanan yang sama-sama terlalu berhati-hati
  Yang menarik, tulisan rilis Opus baru-baru ini justru membanggakan bahwa mereka sengaja menurunkan kemampuan keamanan. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
- Ini gaya Gartner. Kanan atas adalah posisi yang ingin dituju
- Saya setuju soal mengapa sumbu x dibalik. Grafik ini menjadi sangat sulit dipahami oleh pengamat umum
- Saya penasaran apakah “jendela konteks kecil jika memakai GPT-5.5 lewat langganan” terasa membuat perbedaan dalam pekerjaan nyata
  Saya memakai 5.5 high/xhigh untuk mengoptimalkan dan melakukan benchmark pada codebase C, dan hanya dengan membaca kode awal saja jendela konteks pertama hampir penuh
  Sesi melakukan kompresi otomatis sekitar 5–15 kali, tetapi karena pekerjaan setiap kali terutama terfokus pada jendela terbaru, hasilnya masih lumayan baik
  Dalam pemrograman, kekuatan GPT lebih besar daripada Opus, sehingga tampaknya mampu mengalahkan perbedaan jendela konteks
Sulit dipercaya bahwa Composer 2.5 sebagus itu. Saya membandingkannya dengan GLM 5.2 atau Opus 4.6, dan ia kurang dalam kedalaman berpikir atas masalah serta penalaran kritis
Ia bagus untuk mengeksekusi rencana yang dibuat model lain, tetapi bahkan saat itu pun sering melakukan manipulasi kode aneh yang sangat berbeda dari cara file-file di sekitarnya sebenarnya bekerja
- Saya sekarang tidak memakai Cursor, tetapi pengalaman saya saat memakainya beberapa waktu lalu mirip. Saya membuat rencana dengan Opus, mengimplementasikannya dengan Composer, lalu merapikannya dengan Opus
  Composer kompeten jika ada rencana yang bagus, tetapi bukan sampai tingkat yang mengejutkan. Meski begitu, yang benar-benar saya sukai adalah kecepatannya
  Pekerjaan yang butuh 30 menit dengan Opus diselesaikan Composer dalam 5–10 menit. Tentu hasilnya tidak sempurna, jadi saya melewati tahap perapian dengan Opus atau Codex
  Pada akhirnya ini soal keseimbangan, terus berubah, dan sepenuhnya bergantung pada masalah yang sedang dipecahkan. Saya tetap fleksibel dan menyesuaikan diri dengan proses yang paling efektif pada saat itu
- Melihat hal seperti ini, rasanya ini hanya batas yang tidak rata. Saya tidak meragukan pengalaman pribadi. Bulan lalu saya mencoba Composer 2.5 dengan kredit akun premium Grok dan X
  Memang bukan untuk membuat roket, tetapi cukup mengesankan. Semua model kadang melakukan hal bodoh, tetapi untuk tugas yang saya minta, ia melakukannya cukup baik dan juga menunjukkan hasil yang mengesankan
  Di Grok, ia cepat, dan dibanding model-model lain yang banyak saya pakai, menurut saya lebih baik daripada gemini 3.1. Menurut standar saya, 3.5 dan antigravity lebih buruk daripada gemini cli sebelumnya. Kira-kira setara dengan Opus 4.6. Saya belum mencoba model yang lebih baru di Claude Code
Jika saya memahami grafiknya dengan benar, Fable memakai lebih sedikit token untuk menyelesaikan pekerjaan yang sama dibanding sonet dan opus. Kalau begitu itu hal yang bagus
Selama beberapa waktu rasanya model-model hanya memuntahkan token sebanyak-banyaknya demi hasil yang lebih baik, jadi kalau modelnya sendiri membaik tanpa menghasilkan lebih banyak token, itu terasa seperti pencapaian nyata
Pertanyaan 1: Mengapa jumlah langkah penting dalam grafik ini? Apa yang diberitahukannya?
Pertanyaan 2: Mengapa sumbu horizontal dibalik sehingga 0 berada di kanan, bukan di titik asal? Apakah ini cara cerdas baru? Rasanya saya belum pernah melihatnya sebelumnya
Menarik bahwa Opus 4.7 tampil lebih baik daripada 4.8. Akan bagus kalau 4.6 juga diuji. Kemarin saya melihat seseorang di sini diejek karena bersikeras bahwa 4.6 lebih baik daripada model penerusnya
Namun benchmark selalu tricky. Di DeepSWE, GPT-5.5 mengalahkan Opus-4.8 dengan selisih cukup besar, tetapi di FrontierCode kebalikannya
Satu-satunya benchmark yang bisa dipercaya adalah beban kerja nyata milik Anda sendiri
Setiap kali benchmark baru keluar, model-model Tiongkok tampil jauh di bawah tingkat yang diharapkan berdasarkan benchmark lama, lalu seiring waktu pulih lagi
- Itu sihir distilasi
Saya berharap semua situs seperti ini menampilkan grafik frontier Pareto biaya/performa. Yang penting biasanya dua hal itu. Parameter kecepatan juga bisa dimasukkan untuk membuatnya 3 dimensi
https://paraplouis.github.io/llm-pareto-frontier/ adalah grafik terbaik yang pernah saya lihat, tetapi tidak diperbarui sesering yang saya inginkan
- Situs itu tidak terlalu berguna. Karena tidak mencerminkan token berpikir, caching, dan efisiensinya
  GLM5.2 dipromosikan di internet oleh semua wumao yang bisa dikerahkan PLA, tetapi proses berpikirnya terlalu bertele-tele sehingga kekurangannya terlihat
  Model-model Anthropic juga punya masalah yang sama, tetapi berangkat dari basis kecerdasan nyata yang jauh lebih tinggi
  Karena itulah perbandingan yang tepercaya sekarang ditampilkan berdasarkan biaya total untuk menyelesaikan tugas, bukan biaya token input/output yang arbitrer
Saya sudah banyak memakai Composer 2.5 dan GPT 5.5 di Cursor maupun Codex, dan klaim bahwa performa Composer 2.5 mendekati GPT 5.5 benar-benar tidak masuk akal
Memang lebih cepat, tetapi kualitasnya sama sekali tidak di level itu
Selain itu, Composer hanya bisa dipakai jika punya langganan bulanan Cursor, jadi perbandingan biaya juga tidak bermakna. Dengan langganan OpenAI yang harganya mirip, Anda bisa memakai model yang lebih baik sebanyak itu
Bagian paling menarik adalah biayanya. GPT 5.5 dan sonnet 5 biayanya sama dengan GLM 5.2, tetapi merupakan model yang lebih mumpuni
Model Cursor unggul di benchmark Cursor, berita jam 11 malam
Namun model-model lain semuanya berada pada posisi yang cukup masuk akal berdasarkan pengalaman saya memakainya langsung
Fable biayanya 10 kali lipat, tetapi mengungguli model-model lain di sebagian besar hal. Namun terkadang pilihannya bukan antara yang murah dan yang mahal, melainkan antara yang mahal tapi memungkinkan dan yang sama sekali tidak mungkin. Seperti model-model lain, kita harus mempelajari di mana batas itu berada

Hasil Evaluasi Model CursorBench 3.1

Papan atas didominasi Fable 5

Skor model di papan tengah dan bawah

Cakupan evaluasi CursorBench 3.1

Perhitungan biaya dan batasan interpretasi

Bacaan terkait

1 komentar

Komentar Hacker News