1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Dalam tabel evaluasi model coding Cursor, Fable 5 Max menempati peringkat 1 dengan 72.9%, menjadi tolok ukur persaingan di papan atas
  • Seri Fable 5 menguasai peringkat 1 hingga 4 dengan Max, Extra High, High, dan Medium, menunjukkan jarak yang jelas dibanding keluarga model lain
  • Setelah 5 besar, disusul oleh Opus 4.7 Max 64.8%, GPT-5.5 Extra High 64.3%, Fable 5 Low 64.2%, Opus 4.8 Max 63.8%, dan Composer 2.5 63.2%
  • CursorBench 3.1 menambahkan tugas yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review, serta memperbaiki kriteria penilaian untuk sebagian tugas editing
  • Biaya rata-rata per tugas dihitung dari harga token publik dan jumlah token yang digunakan per tugas, dan selisih skor kecil mungkin tidak bermakna secara statistik

Papan atas didominasi Fable 5

  • Tabel CursorBench 3.1 membandingkan peringkat, skor, biaya rata-rata per tugas, dan metrik penggunaan untuk tiap model
  • Peringkat 1 sampai 4 semuanya ditempati seri Fable 5
    • Fable 5 Max: 72.9%, $18.02, 63,842, 76
    • Fable 5 Extra High: 72.0%, $13.74, 48,754, 63
    • Fable 5 High: 70.6%, $10.81, 37,173, 54
    • Fable 5 Medium: 69.8%, $8.27, 28,507, 47
  • Di rentang peringkat 5~10, model Opus, GPT-5.5, Fable, dan Composer bercampur
    • Opus 4.7 Max: 64.8%, $11.02, 62,989, 96
    • GPT-5.5 Extra High: 64.3%, $4.37, 17,905, 46
    • Fable 5 Low: 64.2%, $5.70, 18,882, 36
    • Opus 4.8 Max: 63.8%, $7.59, 77,370, 60
    • Composer 2.5: 63.2%, $0.55, 15,152, 37
    • GPT-5.5 High: 62.6%, $3.59, 13,329, 40

Skor model di papan tengah dan bawah

  • Peringkat 11~20 terutama diisi oleh model Opus, Sonnet, dan GPT-5.5
    • Opus 4.8 Extra High: 62.1%, $6.14, 55,622, 54
    • Opus 4.7 Extra High: 61.6%, $7.11, 43,942, 72
    • Sonnet 5 Max: 61.2%, $6.87, 93,485, 93
    • Opus 4.7 High: 59.4%, $5.01, 32,227, 59
    • GPT-5.5 Medium: 59.2%, $2.22, 9,065, 35
    • Opus 4.8 High: 58.4%, $4.41, 36,788, 45
    • Sonnet 5 Extra High: 58.4%, $5.23, 58,228, 86
    • Sonnet 5 High: 57.0%, $3.74, 41,735, 66
    • Opus 4.8 Medium: 56.6%, $3.83, 31,684, 41
    • Sonnet 5 Medium: 54.9%, $2.57, 27,469, 53
  • Peringkat 21~36 mencakup GLM, Kimi, Gemini, Sonnet, Composer, dan lainnya
    • GLM 5.2 Max: 54.6%, $3.11, 51,312, 83
    • Opus 4.8 Low: 54.3%, $2.93, 22,726, 36
    • Opus 4.7 Medium: 52.7%, $2.93, 19,193, 41
    • Kimi K2.7 Code: 52.7%, $1.92, 32,902, 70
    • Composer 2: 52.2%, $0.56, 14,163, 40
    • GLM 5.2 High: 50.7%, $2.46, 30,621, 76
    • Gemini 3.5 Flash: 49.8%, $1.94, 35,105, 79
    • Sonnet 4.6 Max: 49.0%, $3.09, 40,280, 55
    • GPT-5.5 Low: 48.8%, $1.19, 4,923, 24
    • Sonnet 4.6 High: 48.8%, $3.06, 37,352, 57
    • Opus 4.7 Low: 48.3%, $1.87, 13,164, 29
    • Sonnet 5 Low: 47.7%, $1.46, 17,028, 37
    • Kimi 2.6: 47.6%, $1.27, 24,783, 56
    • Sonnet 4.6 Medium: 46.0%, $2.64, 31,360, 50
    • Sonnet 4.6 Low: 41.5%, $1.89, 21,211, 50
    • Kimi 2.5: 31.9%, $0.87, 9,446, 30

Cakupan evaluasi CursorBench 3.1

  • CursorBench 3.1 memperkenalkan soal yang berfokus pada pemahaman codebase, pencarian bug, perencanaan, dan code review
  • Kriteria penilaian untuk sebagian tugas editing juga diperbaiki
  • CursorBench 3.0 adalah set tugas awal yang berfokus pada editing, refactoring, dan perbaikan bug

Perhitungan biaya dan batasan interpretasi

  • Biaya rata-rata per tugas dihitung menggunakan per-million-token pricing publik untuk tiap model
  • Mencakup harga input, pembacaan cache, penulisan cache, dan output
  • Harga diterapkan pada token yang digunakan masing-masing model dalam tugas CursorBench 3.1, lalu dirata-ratakan untuk seluruh tugas
  • Hasilnya masih memiliki variabilitas, dan selisih skor kecil mungkin tidak bermakna secara statistik

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Agak skeptis
    Dalam benchmark Cursor, model Cursor Composer 2.5 disebut sama bagusnya dengan Opus 4.8 max dan GPT-5.5 xhigh, tetapi harganya jauh lebih rendah
    Namun dalam pengujian Artificial Analysis, Composer 2.5 tertinggal cukup jauh: https://artificialanalysis.ai/agents/coding-agents
    Jika melihat benchmark DeepSWE, GPT-5.5 xhigh mendapat 64, Opus 4.8 max 56, dan Cursor 2.5 16
    Saya tidak meragukan bahwa Cursor bisa cocok untuk sebagian orang, tetapi klaim bahwa ia adalah pesaing Opus 4.8 atau GPT-5.5 terasa meragukan. Terlalu nyaman kalau hasilnya bagus di benchmark sendiri tetapi tertinggal jauh di benchmark pihak ketiga

    • Saya bekerja di Cursor. Saat Composer 2.5 dirilis, seingat saya hasilnya cukup kompetitif di benchmark agregat AA, dan berada di peringkat ke-3 secara keseluruhan
      Baru-baru ini AA beralih menggunakan DeepSWE, dan benchmark ini lebih berfokus pada tugas dengan rentang yang sangat panjang. Composer belum kuat untuk tugas seperti itu, jadi kami sedang berupaya memperbaikinya di model berikutnya
      Secara umum, Composer tampil baik di beberapa benchmark, dan tidak begitu di tempat lain. Namun pada kisaran harga saat ini, saya melihatnya sebagai model yang sangat kapabel. Jika melihat perilaku tertentu atau titik lemah, beri tahu di sini atau kirim email ke lrobinson at cursor.com
    • Tidak sulit memahami apa yang terjadi. Karena mereka melakukan reinforcement learning agar sesuai dengan pola dan kemampuan tertentu pada data mereka sendiri, wajar saja jika mereka membuat benchmark yang selaras dengan set pelatihannya
      Ironisnya, untuk cakupan sempit yang benar-benar dipedulikan “pelanggan unik” Cursor, benchmark itu mungkin lebih akurat daripada Artificial Analysis. Di luar itu, anggap saja sebagai satu titik data lagi
    • DeepSWE agak cacat karena hanya menggunakan harness eksekusi miliknya sendiri, dan model yang tidak didukung dengan baik oleh harness itu akan bermasalah
      Ada banyak bukti bahwa harness sangat memengaruhi cara model-model ini bekerja, tetapi DeepSWE sepenuhnya menghilangkan faktor itu. Kemungkinan besar mereka hanya memastikan benchmark itu berjalan baik pada beberapa model yang mereka sukai
      Seperti yang juga dilaporkan di issue GitHub, harness yang tidak memakai cache itu juga bermasalah dalam perhitungan biaya. Tidak ada benchmark yang sempurna, tetapi ini cukup menjelaskan variasi antar-benchmark
    • Sesi Cursor hampir sama dengan target reinforcement learning untuk model Composer. Benchmark ini dan data pelatihannya pada dasarnya harus berasal dari distribusi yang sama
    • Saya tidak begitu paham soal benchmark, tetapi saya sudah banyak memakai Composer 2.5 dan dalam pekerjaan nyata ia bekerja cukup baik
  • Pilihan penentuan sumbunya cukup membingungkan. Saya kira sisi kiri adalah yang paling murah, tetapi ternyata justru yang paling mahal
    Saya paham tata letak yang membuat kanan atas menjadi posisi terbaik, tetapi sumbu biaya yang terbalik tetap tidak intuitif
    Terlepas dari itu, saya setiap hari sepanjang hari mengerjakan implementasi yang sangat sulit, pada tingkat yang nyaris hanya bisa dilakukan agen, dan untuk pekerjaan yang membutuhkan “validasi nyata”, saya harus mempertahankan Opus di max untuk sementara waktu. Rasanya itu praktis satu-satunya cara agar Opus bisa bekerja setidaknya mendekati GPT-5.5 xhigh
    Jika memakai GPT-5.5 lewat langganan, jendela konteksnya kecil; meski 400k, efektifnya sekitar 258k, jadi saya memakai Opus
    Perbedaannya adalah GPT-5.5 xhigh sangat cepat dalam sebagian besar kasus nyata. Implementasi keseluruhannya juga efisien, dan untuk pertanyaan yang tidak perlu pemikiran mendalam, ia menjawab cepat secara adaptif
    Sebaliknya Opus 4.8 Max mengunyah semuanya terlalu lama tanpa perlu, dan implementasi sederhana pun bisa memakan waktu berjam-jam, sehingga saya terutama memakainya hanya untuk perencanaan dan review
    Fable jauh lebih baik dalam pemikiran adaptif dan respons cepat, tetapi mungkin masih kalah dari GPT-5.5 xhigh. Sepertinya semua orang sudah cukup membahas kelebihan dan kekurangannya, dan sayangnya untuk pekerjaan sulit saya, ia belum menjadi implementer yang bisa dipercaya. Itu masih wilayah GPT, dan Fable cenderung meninggalkan lubang besar dan berbahaya di dalam implementasi jika tidak diasuh dengan sangat cermat

    • Apakah ada satu pun hal yang bisa dibuktikan dari pernyataan “setiap hari sepanjang hari mengerjakan implementasi yang sangat sulit, pada tingkat yang nyaris hanya bisa dilakukan agen”? Atau kami hanya harus percaya saja? Semuanya terdengar sangat subjektif sampai lucu
    • Jika Fable meninggalkan lubang berbahaya dalam implementasi, terpikir bahwa GLM atau DeepSeek bisa dicampurkan dan diintegrasikan untuk red teaming kode
      Fable secara desain buta terhadap keamanan[0], sementara model-model terbuka cukup bagus di area itu
      [0] Belum jelas GPT-5.6 akan seperti apa, tetapi dari blognya tampaknya akan ada filter keamanan yang sama-sama terlalu berhati-hati
      Yang menarik, tulisan rilis Opus baru-baru ini justru membanggakan bahwa mereka sengaja menurunkan kemampuan keamanan. “during its [Opus 4.7] training we experimented with efforts to differentially reduce these ["cyber"] capabilities”
    • Ini gaya Gartner. Kanan atas adalah posisi yang ingin dituju
    • Saya setuju soal mengapa sumbu x dibalik. Grafik ini menjadi sangat sulit dipahami oleh pengamat umum
    • Saya penasaran apakah “jendela konteks kecil jika memakai GPT-5.5 lewat langganan” terasa membuat perbedaan dalam pekerjaan nyata
      Saya memakai 5.5 high/xhigh untuk mengoptimalkan dan melakukan benchmark pada codebase C, dan hanya dengan membaca kode awal saja jendela konteks pertama hampir penuh
      Sesi melakukan kompresi otomatis sekitar 5–15 kali, tetapi karena pekerjaan setiap kali terutama terfokus pada jendela terbaru, hasilnya masih lumayan baik
      Dalam pemrograman, kekuatan GPT lebih besar daripada Opus, sehingga tampaknya mampu mengalahkan perbedaan jendela konteks
  • Sulit dipercaya bahwa Composer 2.5 sebagus itu. Saya membandingkannya dengan GLM 5.2 atau Opus 4.6, dan ia kurang dalam kedalaman berpikir atas masalah serta penalaran kritis
    Ia bagus untuk mengeksekusi rencana yang dibuat model lain, tetapi bahkan saat itu pun sering melakukan manipulasi kode aneh yang sangat berbeda dari cara file-file di sekitarnya sebenarnya bekerja

    • Saya sekarang tidak memakai Cursor, tetapi pengalaman saya saat memakainya beberapa waktu lalu mirip. Saya membuat rencana dengan Opus, mengimplementasikannya dengan Composer, lalu merapikannya dengan Opus
      Composer kompeten jika ada rencana yang bagus, tetapi bukan sampai tingkat yang mengejutkan. Meski begitu, yang benar-benar saya sukai adalah kecepatannya
      Pekerjaan yang butuh 30 menit dengan Opus diselesaikan Composer dalam 5–10 menit. Tentu hasilnya tidak sempurna, jadi saya melewati tahap perapian dengan Opus atau Codex
      Pada akhirnya ini soal keseimbangan, terus berubah, dan sepenuhnya bergantung pada masalah yang sedang dipecahkan. Saya tetap fleksibel dan menyesuaikan diri dengan proses yang paling efektif pada saat itu
    • Melihat hal seperti ini, rasanya ini hanya batas yang tidak rata. Saya tidak meragukan pengalaman pribadi. Bulan lalu saya mencoba Composer 2.5 dengan kredit akun premium Grok dan X
      Memang bukan untuk membuat roket, tetapi cukup mengesankan. Semua model kadang melakukan hal bodoh, tetapi untuk tugas yang saya minta, ia melakukannya cukup baik dan juga menunjukkan hasil yang mengesankan
      Di Grok, ia cepat, dan dibanding model-model lain yang banyak saya pakai, menurut saya lebih baik daripada gemini 3.1. Menurut standar saya, 3.5 dan antigravity lebih buruk daripada gemini cli sebelumnya. Kira-kira setara dengan Opus 4.6. Saya belum mencoba model yang lebih baru di Claude Code
  • Jika saya memahami grafiknya dengan benar, Fable memakai lebih sedikit token untuk menyelesaikan pekerjaan yang sama dibanding sonet dan opus. Kalau begitu itu hal yang bagus
    Selama beberapa waktu rasanya model-model hanya memuntahkan token sebanyak-banyaknya demi hasil yang lebih baik, jadi kalau modelnya sendiri membaik tanpa menghasilkan lebih banyak token, itu terasa seperti pencapaian nyata
    Pertanyaan 1: Mengapa jumlah langkah penting dalam grafik ini? Apa yang diberitahukannya?
    Pertanyaan 2: Mengapa sumbu horizontal dibalik sehingga 0 berada di kanan, bukan di titik asal? Apakah ini cara cerdas baru? Rasanya saya belum pernah melihatnya sebelumnya

  • Menarik bahwa Opus 4.7 tampil lebih baik daripada 4.8. Akan bagus kalau 4.6 juga diuji. Kemarin saya melihat seseorang di sini diejek karena bersikeras bahwa 4.6 lebih baik daripada model penerusnya
    Namun benchmark selalu tricky. Di DeepSWE, GPT-5.5 mengalahkan Opus-4.8 dengan selisih cukup besar, tetapi di FrontierCode kebalikannya
    Satu-satunya benchmark yang bisa dipercaya adalah beban kerja nyata milik Anda sendiri

  • Setiap kali benchmark baru keluar, model-model Tiongkok tampil jauh di bawah tingkat yang diharapkan berdasarkan benchmark lama, lalu seiring waktu pulih lagi

    • Itu sihir distilasi
  • Saya berharap semua situs seperti ini menampilkan grafik frontier Pareto biaya/performa. Yang penting biasanya dua hal itu. Parameter kecepatan juga bisa dimasukkan untuk membuatnya 3 dimensi
    https://paraplouis.github.io/llm-pareto-frontier/ adalah grafik terbaik yang pernah saya lihat, tetapi tidak diperbarui sesering yang saya inginkan

    • Situs itu tidak terlalu berguna. Karena tidak mencerminkan token berpikir, caching, dan efisiensinya
      GLM5.2 dipromosikan di internet oleh semua wumao yang bisa dikerahkan PLA, tetapi proses berpikirnya terlalu bertele-tele sehingga kekurangannya terlihat
      Model-model Anthropic juga punya masalah yang sama, tetapi berangkat dari basis kecerdasan nyata yang jauh lebih tinggi
      Karena itulah perbandingan yang tepercaya sekarang ditampilkan berdasarkan biaya total untuk menyelesaikan tugas, bukan biaya token input/output yang arbitrer
  • Saya sudah banyak memakai Composer 2.5 dan GPT 5.5 di Cursor maupun Codex, dan klaim bahwa performa Composer 2.5 mendekati GPT 5.5 benar-benar tidak masuk akal
    Memang lebih cepat, tetapi kualitasnya sama sekali tidak di level itu
    Selain itu, Composer hanya bisa dipakai jika punya langganan bulanan Cursor, jadi perbandingan biaya juga tidak bermakna. Dengan langganan OpenAI yang harganya mirip, Anda bisa memakai model yang lebih baik sebanyak itu

  • Bagian paling menarik adalah biayanya. GPT 5.5 dan sonnet 5 biayanya sama dengan GLM 5.2, tetapi merupakan model yang lebih mumpuni

  • Model Cursor unggul di benchmark Cursor, berita jam 11 malam
    Namun model-model lain semuanya berada pada posisi yang cukup masuk akal berdasarkan pengalaman saya memakainya langsung
    Fable biayanya 10 kali lipat, tetapi mengungguli model-model lain di sebagian besar hal. Namun terkadang pilihannya bukan antara yang murah dan yang mahal, melainkan antara yang mahal tapi memungkinkan dan yang sama sekali tidak mungkin. Seperti model-model lain, kita harus mempelajari di mana batas itu berada