Cursor merilis Composer 2, model AI khusus coding
(cursor.com)Cursor telah memperkenalkan Composer 2, model AI khusus coding dengan performa kelas frontier dan harga terjangkau.
Performa
Model ini mencatat peningkatan besar dibanding pendahulunya di semua benchmark utama.
Model dievaluasi lewat tiga pengujian.
CursorBench — benchmark tugas coding nyata buatan Cursor sendiri. Skornya naik dari 38.0 → 44.2 → 61.3 saat beralih dari Composer 1 → 1.5 → 2. Dari 1 ke 2, performanya meningkat sekitar 61%, dan khususnya pada rentang 1.5 → 2 terjadi lonjakan sekitar 17 poin, menjadikannya lompatan terbesar di generasi ini.
Terminal-Bench 2.0 — evaluasi agen berbasis terminal yang dikelola Laude Institute. Ini mengukur kemampuan menyelesaikan tugas dengan menjalankan perintah nyata di terminal. Skornya 40.0 → 47.9 → 61.7, menunjukkan pola kenaikan yang hampir sama dengan CursorBench.
SWE-bench Multilingual — versi multibahasa dari benchmark rekayasa perangkat lunak terkenal yang menyelesaikan issue GitHub nyata lewat kode. Skornya naik 56.9 → 65.9 → 73.7. Sejak Composer 1, skor awalnya sudah berada di kisaran 56, lebih tinggi daripada dua benchmark lain, yang mengindikasikan kemampuan menulis patch kode relatif kuat sejak awal.
Poin utama
Di ketiga benchmark, kenaikan pada rentang 1 → 1.5 jauh lebih kecil dibanding 1.5 → 2, dan inilah inti dari pengumuman kali ini. Kombinasi continual pretraining + reinforcement learning menunjukkan efektivitasnya tepat di fase ini. Angka 73.7 pada SWE-bench Multilingual menempatkannya di jajaran teratas model publik saat ini.
Versi standar: input $0.50 / output $2.50 (per sejuta token)
Versi cepat (fast): input $1.50 / output $7.50 (per sejuta token)
Versi cepat akan disediakan sebagai opsi default, dan keunggulannya adalah harga yang lebih rendah dibanding model cepat sekelas. Untuk pengguna paket personal, juga disertakan kuota dasar yang cukup besar dalam pool penggunaan terpisah.
Komentar
Sangat menarik melihat Cursor benar-benar beralih dari lapisan yang memakai model eksternal seperti Claude dan GPT ke arah melatih modelnya sendiri secara langsung. Khususnya, positioning performa per harga terlihat agresif, dan ini dapat dibaca sebagai strategi untuk melakukan integrasi vertikal hingga ke lapisan model di pasar coding agent. Bagi pengguna yang selama ini memakai Claude Sonnet atau GPT-4o di Cursor, Composer 2 layak dicoba.
5 komentar
Diketahui sebagai model yang menjalankan pembelajaran penguatan pada model Kimi k2
Dari sudut pandang value for money karena saya memakai Kiro dan Cursor,
menurut saya Cursor sedikit lebih unggul untuk hal yang lebih mendalam.
Kecepatannya juga lebih cepat
Untuk rangkuman terkait, silakan lihat Cursor Composer 2 dipastikan merupakan model yang menerapkan RL pada Kimi K2.5.
Terkait:
Saya telah menyesuaikan judul agar sesuai dengan isi ini.