3 poin oleh princox 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • CEO Cursor, Michael Truell, mengumumkan di X bahwa “Composer 2.5 telah menjadi model yang paling banyak dipilih di Cursor. Selama satu hari, semua pengguna akan mendapat penggunaan 10x”
  • Ini adalah sinyal bahwa tingkat adopsinya naik cepat segera setelah rilis, dengan model internal mulai dipilih sebagai default di tengah persaingan dengan model Anthropic/OpenAI

Ringkasan inti Composer 2.5
• Model agentic coding internal generasi ke-3 milik Cursor yang resmi dirilis pada 18 Mei
• Menggunakan Kimi K2.5 open source dari Moonshot AI sebagai basis yang sama seperti Composer 2, dan kali ini dinyatakan secara eksplisit di paragraf pertama pengumuman (langkah yang tampaknya menyadari kritik pada bulan Maret karena tidak mengungkapkan dengan jelas basis Kimi)
• 85% dari total compute dialokasikan ke pipeline reinforcement learning internal Cursor dan post-training, dengan penggunaan synthetic coding tasks 25x lebih banyak dibanding Composer 2
• Untuk meningkatkan keandalan pada pekerjaan long-horizon, diperkenalkan “targeted RL berbasis text feedback” — alih-alih hanya memberi satu reward setelah rollout panjang selesai, sistem ini langsung menyuntikkan petunjuk pada titik spesifik tempat tool call yang salah terjadi agar credit assignment menjadi lebih presisi
Benchmark (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7% — secara praktis imbang dengan Opus 4.7, tetapi tertinggal sekitar 13 poin dari GPT-5.5
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7% — selisih 0,7 poin dari Opus 4.7, unggul atas GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2% — pada pengaturan default yang benar-benar dipakai developer, mengungguli kedua frontier model tersebut
Harga — senjata terkuat
• Standard tier: input $0.50/M, output $2.50/M. Fast tier (default interaktif): input $3.00/M, output $15.00/M
• Di SWE-Bench Multilingual, memberikan performa setara Opus 4.7 dengan harga sekitar 1/10 dari Anthropic
• Berdasarkan CursorBench, mencapai akurasi 63% dengan biaya rata-rata per task di bawah $1 — Opus/GPT dengan performa setara beberapa dolar lebih mahal per task
Gambaran besar yang diumumkan bersama
• Terpisah dari Composer 2.5, Cursor juga mengumumkan bahwa mereka sedang melatih model 10x lebih besar dari awal dengan memanfaatkan sekitar 1 juta GPU kelas H100 dari Colossus 2 bersama infrastruktur xAI (SpaceXAI) (tanggal rilis belum ditentukan)
• Menurut CEO Michael Truell, saat ini 35% PR yang di-merge di internal Cursor dibuat oleh autonomous agent
• Di tengah tekanan dari Claude Code, yang telah menembus ARR $2,5 miliar dan 300 ribu pelanggan bisnis, Cursor kini terlihat melakukan serangan balik dengan model internalnya sendiri
Batasan penggunaan / komentar
• Composer 2.5 hanya dapat digunakan di Cursor IDE, Cursor CLI, dan web Cursor — tidak ada API eksternal, mirror HuggingFace, atau gateway pihak ketiga
• Fakta bahwa model ini berbasis Kimi K2.5 tetap menjadi faktor pertimbangan untuk industri yang diatur ketat atau pekerjaan terkait federal
• Rilis ini menunjukkan bahwa Cursor, yang bermula sebagai “IDE wrapper”, sedang bertransformasi serius menjadi model lab. Ini juga menjadi data point yang baik tentang sejauh mana “vertical RL” bisa mengungguli raw scale, karena hanya dengan post-training pada basis yang sama mereka mampu meningkatkan lebih dari +6 poin
• Sumber: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai

1 komentar

 
neneka 3 jam lalu

Baru keluar dan saya sudah mencobanya; Composer 2.5 cukup layak dipakai.