Hasil Evaluasi Model CursorBench 3.1
(cursor.com)- Dalam tabel evaluasi model coding Cursor, Fable 5 Max menempati peringkat 1 dengan 72.9%, menjadi tolok ukur persaingan di papan atas
- Seri Fable 5 menguasai peringkat 1 hingga 4 dengan Max, Extra High, High, dan Medium, menunjukkan jarak yang jelas dibanding keluarga model lain
- Setelah 5 besar, disusul oleh Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, dan Composer 2.5 63.2%
- CursorBench 3.1 menambahkan tugas yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review, serta memperbaiki kriteria penilaian untuk sebagian tugas editing
- Biaya rata-rata per tugas dihitung dari harga token publik dan jumlah token yang digunakan per tugas, dan selisih skor kecil mungkin tidak bermakna secara statistik
Papan atas didominasi Fable 5
- Tabel CursorBench 3.1 membandingkan peringkat, skor, biaya rata-rata per tugas, dan metrik penggunaan untuk tiap model
- Peringkat 1 sampai 4 semuanya ditempati seri Fable 5
- Fable 5 Max: 72.9%, $18.02, 63,842, 76
- Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
- Fable 5 High: 70.6%, $10.81, 37,173, 54
- Fable 5 Medium: 69.8%, $8.27, 28,507, 47
- Di rentang peringkat 5~10, model Opus, GPT-5.5, Fable, dan Composer bercampur
- Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
- GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
- Fable 5 Low: 64.2%, $5.70, 18,882, 36
- Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
- Composer 2.5: 63.2%, $0.55, 15,152, 37
- GPT-5.5 High: 62.6%, $3.59, 13,329, 40
Skor model di papan tengah dan bawah
- Peringkat 11~20 terutama diisi oleh model Opus, Sonnet, dan GPT-5.5
- Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
- Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
- Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
- Opus 4.7 High: 59.4%, $5.01, 32,227, 59
- GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
- Opus 4.8 High: 58.4%, $4.41, 36,788, 45
- Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
- Sonnet 5 High: 57.0%, $3.74, 41,735, 66
- Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
- Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
- Peringkat 21~36 mencakup GLM, Kimi, Gemini, Sonnet, Composer, dan lainnya
- GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
- Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
- Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
- Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
- Composer 2: 52.2%, $0.56, 14,163, 40
- GLM 5.2 High: 50.7%, $2.46, 30,621, 76
- Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
- Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
- GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
- Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
- Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
- Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
- Kimi 2.6: 47.6%, $1.27, 24,783, 56
- Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
- Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
- Kimi 2.5: 31.9%, $0.87, 9,446, 30
Cakupan evaluasi CursorBench 3.1
- CursorBench 3.1 memperkenalkan soal yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review
- Kriteria penilaian untuk sebagian tugas editing juga diperbaiki
- CursorBench 3.0 adalah set tugas awal yang berfokus pada editing, refactoring, dan perbaikan bug
Perhitungan biaya dan batasan interpretasi
- Biaya rata-rata per tugas dihitung menggunakan per-million-token pricing publik untuk tiap model
- Mencakup harga input, pembacaan cache, penulisan cache, dan output
- Harga diterapkan pada token yang digunakan masing-masing model dalam tugas CursorBench 3.1, lalu dirata-ratakan untuk seluruh tugas
- Hasilnya masih memiliki variabilitas, dan selisih skor kecil mungkin tidak bermakna secara statistik
1 komentar
Komentar Hacker News
Agak skeptis
Dalam benchmark Cursor, model Cursor Composer 2.5 disebut sama bagusnya dengan Opus 4.8 max dan GPT-5.5 xhigh, tetapi harganya jauh lebih rendah
Namun dalam pengujian Artificial Analysis, Composer 2.5 tertinggal cukup jauh: https://artificialanalysis.ai/agents/coding-agents
Jika melihat benchmark DeepSWE, GPT-5.5 xhigh mendapat 64, Opus 4.8 max 56, dan Cursor 2.5 16
Saya tidak meragukan bahwa Cursor bisa cocok untuk sebagian orang, tetapi klaim bahwa ia adalah pesaing Opus 4.8 atau GPT-5.5 terasa meragukan. Terlalu nyaman kalau hasilnya bagus di benchmark sendiri tetapi tertinggal jauh di benchmark pihak ketiga
Baru-baru ini AA beralih menggunakan DeepSWE, dan benchmark ini lebih berfokus pada tugas dengan rentang yang sangat panjang. Composer belum kuat untuk tugas seperti itu, jadi kami sedang berupaya memperbaikinya di model berikutnya
Secara umum, Composer tampil baik di beberapa benchmark, dan tidak begitu di tempat lain. Namun pada kisaran harga saat ini, saya melihatnya sebagai model yang sangat kapabel. Jika melihat perilaku tertentu atau titik lemah, beri tahu di sini atau kirim email ke lrobinson at cursor.com
Ironisnya, untuk cakupan sempit yang benar-benar dipedulikan “pelanggan unik” Cursor, benchmark itu mungkin lebih akurat daripada Artificial Analysis. Di luar itu, anggap saja sebagai satu titik data lagi
Ada banyak bukti bahwa harness sangat memengaruhi cara model-model ini bekerja, tetapi DeepSWE sepenuhnya menghilangkan faktor itu. Kemungkinan besar mereka hanya memastikan benchmark itu berjalan baik pada beberapa model yang mereka sukai
Seperti yang juga dilaporkan di issue GitHub, harness yang tidak memakai cache itu juga bermasalah dalam perhitungan biaya. Tidak ada benchmark yang sempurna, tetapi ini cukup menjelaskan variasi antar-benchmark
Pilihan penentuan sumbunya cukup membingungkan. Saya kira sisi kiri adalah yang paling murah, tetapi ternyata justru yang paling mahal
Saya paham tata letak yang membuat kanan atas menjadi posisi terbaik, tetapi sumbu biaya yang terbalik tetap tidak intuitif
Terlepas dari itu, saya setiap hari sepanjang hari mengerjakan implementasi yang sangat sulit, pada tingkat yang nyaris hanya bisa dilakukan agen, dan untuk pekerjaan yang membutuhkan “validasi nyata”, saya harus mempertahankan Opus di max untuk sementara waktu. Rasanya itu praktis satu-satunya cara agar Opus bisa bekerja setidaknya mendekati GPT-5.5 xhigh
Jika memakai GPT-5.5 lewat langganan, jendela konteksnya kecil; meski 400k, efektifnya sekitar 258k, jadi saya memakai Opus
Perbedaannya adalah GPT-5.5 xhigh sangat cepat dalam sebagian besar kasus nyata. Implementasi keseluruhannya juga efisien, dan untuk pertanyaan yang tidak perlu pemikiran mendalam, ia menjawab cepat secara adaptif
Sebaliknya Opus 4.8 Max mengunyah semuanya terlalu lama tanpa perlu, dan implementasi sederhana pun bisa memakan waktu berjam-jam, sehingga saya terutama memakainya hanya untuk perencanaan dan review
Fable jauh lebih baik dalam pemikiran adaptif dan respons cepat, tetapi mungkin masih kalah dari GPT-5.5 xhigh. Sepertinya semua orang sudah cukup membahas kelebihan dan kekurangannya, dan sayangnya untuk pekerjaan sulit saya, ia belum menjadi implementer yang bisa dipercaya. Itu masih wilayah GPT, dan Fable cenderung meninggalkan lubang besar dan berbahaya di dalam implementasi jika tidak diasuh dengan sangat cermat
Fable secara desain buta terhadap keamanan[0], sementara model-model terbuka cukup bagus di area itu
[0] Belum jelas GPT-5.6 akan seperti apa, tetapi dari blognya tampaknya akan ada filter keamanan yang sama-sama terlalu berhati-hati
Yang menarik, tulisan rilis Opus baru-baru ini justru membanggakan bahwa mereka sengaja menurunkan kemampuan keamanan. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
Saya memakai 5.5 high/xhigh untuk mengoptimalkan dan melakukan benchmark pada codebase C, dan hanya dengan membaca kode awal saja jendela konteks pertama hampir penuh
Sesi melakukan kompresi otomatis sekitar 5–15 kali, tetapi karena pekerjaan setiap kali terutama terfokus pada jendela terbaru, hasilnya masih lumayan baik
Dalam pemrograman, kekuatan GPT lebih besar daripada Opus, sehingga tampaknya mampu mengalahkan perbedaan jendela konteks
Sulit dipercaya bahwa Composer 2.5 sebagus itu. Saya membandingkannya dengan GLM 5.2 atau Opus 4.6, dan ia kurang dalam kedalaman berpikir atas masalah serta penalaran kritis
Ia bagus untuk mengeksekusi rencana yang dibuat model lain, tetapi bahkan saat itu pun sering melakukan manipulasi kode aneh yang sangat berbeda dari cara file-file di sekitarnya sebenarnya bekerja
Composer kompeten jika ada rencana yang bagus, tetapi bukan sampai tingkat yang mengejutkan. Meski begitu, yang benar-benar saya sukai adalah kecepatannya
Pekerjaan yang butuh 30 menit dengan Opus diselesaikan Composer dalam 5–10 menit. Tentu hasilnya tidak sempurna, jadi saya melewati tahap perapian dengan Opus atau Codex
Pada akhirnya ini soal keseimbangan, terus berubah, dan sepenuhnya bergantung pada masalah yang sedang dipecahkan. Saya tetap fleksibel dan menyesuaikan diri dengan proses yang paling efektif pada saat itu
Memang bukan untuk membuat roket, tetapi cukup mengesankan. Semua model kadang melakukan hal bodoh, tetapi untuk tugas yang saya minta, ia melakukannya cukup baik dan juga menunjukkan hasil yang mengesankan
Di Grok, ia cepat, dan dibanding model-model lain yang banyak saya pakai, menurut saya lebih baik daripada gemini 3.1. Menurut standar saya, 3.5 dan antigravity lebih buruk daripada gemini cli sebelumnya. Kira-kira setara dengan Opus 4.6. Saya belum mencoba model yang lebih baru di Claude Code
Jika saya memahami grafiknya dengan benar, Fable memakai lebih sedikit token untuk menyelesaikan pekerjaan yang sama dibanding sonet dan opus. Kalau begitu itu hal yang bagus
Selama beberapa waktu rasanya model-model hanya memuntahkan token sebanyak-banyaknya demi hasil yang lebih baik, jadi kalau modelnya sendiri membaik tanpa menghasilkan lebih banyak token, itu terasa seperti pencapaian nyata
Pertanyaan 1: Mengapa jumlah langkah penting dalam grafik ini? Apa yang diberitahukannya?
Pertanyaan 2: Mengapa sumbu horizontal dibalik sehingga 0 berada di kanan, bukan di titik asal? Apakah ini cara cerdas baru? Rasanya saya belum pernah melihatnya sebelumnya
Menarik bahwa Opus 4.7 tampil lebih baik daripada 4.8. Akan bagus kalau 4.6 juga diuji. Kemarin saya melihat seseorang di sini diejek karena bersikeras bahwa 4.6 lebih baik daripada model penerusnya
Namun benchmark selalu tricky. Di DeepSWE, GPT-5.5 mengalahkan Opus-4.8 dengan selisih cukup besar, tetapi di FrontierCode kebalikannya
Satu-satunya benchmark yang bisa dipercaya adalah beban kerja nyata milik Anda sendiri
Setiap kali benchmark baru keluar, model-model Tiongkok tampil jauh di bawah tingkat yang diharapkan berdasarkan benchmark lama, lalu seiring waktu pulih lagi
Saya berharap semua situs seperti ini menampilkan grafik frontier Pareto biaya/performa. Yang penting biasanya dua hal itu. Parameter kecepatan juga bisa dimasukkan untuk membuatnya 3 dimensi
https://paraplouis.github.io/llm-pareto-frontier/ adalah grafik terbaik yang pernah saya lihat, tetapi tidak diperbarui sesering yang saya inginkan
GLM5.2 dipromosikan di internet oleh semua wumao yang bisa dikerahkan PLA, tetapi proses berpikirnya terlalu bertele-tele sehingga kekurangannya terlihat
Model-model Anthropic juga punya masalah yang sama, tetapi berangkat dari basis kecerdasan nyata yang jauh lebih tinggi
Karena itulah perbandingan yang tepercaya sekarang ditampilkan berdasarkan biaya total untuk menyelesaikan tugas, bukan biaya token input/output yang arbitrer
Saya sudah banyak memakai Composer 2.5 dan GPT 5.5 di Cursor maupun Codex, dan klaim bahwa performa Composer 2.5 mendekati GPT 5.5 benar-benar tidak masuk akal
Memang lebih cepat, tetapi kualitasnya sama sekali tidak di level itu
Selain itu, Composer hanya bisa dipakai jika punya langganan bulanan Cursor, jadi perbandingan biaya juga tidak bermakna. Dengan langganan OpenAI yang harganya mirip, Anda bisa memakai model yang lebih baik sebanyak itu
Bagian paling menarik adalah biayanya. GPT 5.5 dan sonnet 5 biayanya sama dengan GLM 5.2, tetapi merupakan model yang lebih mumpuni
Model Cursor unggul di benchmark Cursor, berita jam 11 malam
Namun model-model lain semuanya berada pada posisi yang cukup masuk akal berdasarkan pengalaman saya memakainya langsung
Fable biayanya 10 kali lipat, tetapi mengungguli model-model lain di sebagian besar hal. Namun terkadang pilihannya bukan antara yang murah dan yang mahal, melainkan antara yang mahal tapi memungkinkan dan yang sama sekali tidak mungkin. Seperti model-model lain, kita harus mempelajari di mana batas itu berada