- Composer yang diperkenalkan Cursor adalah model agen cerdas berkecepatan tinggi untuk rekayasa perangkat lunak, yang mencapai kecepatan pembuatan kode 4 kali lebih cepat dibanding model serupa
- Model ini dilatih untuk memecahkan masalah nyata pada codebase skala besar, dan menggunakan alat pencarian serta penyuntingan untuk menangani tugas dengan berbagai tingkat kesulitan
- Dengan menggabungkan arsitektur Mixture-of-Experts(MoE) dan pembelajaran penguatan(RL), model ini mendukung pemahaman dan generasi konteks panjang untuk penyuntingan kode, perencanaan, dan pemberian jawaban
- Melalui evaluasi Cursor Bench, diukur bukan hanya akurasi model tetapi juga konsistensi codebase serta kepatuhan pada praktik rekayasa
- Dengan memanfaatkan infrastruktur RL asinkron berbasis PyTorch·Ray dan pelatihan presisi rendah MXFP8, pelatihan efisien di ribuan GPU serta peningkatan kecepatan inferensi dapat dicapai
Ikhtisar Composer
- Composer adalah model agen baru yang dikembangkan dengan tujuan kecerdasan dan kecepatan untuk rekayasa perangkat lunak
- Dalam benchmark, model ini mencatat kecepatan pembuatan kode 4 kali lebih cepat dibanding model serupa
- Di dalam Cursor, model ini dioptimalkan sebagai agen untuk menyelesaikan masalah pada codebase skala besar
- Model ini dilatih untuk menyelesaikan masalah dengan berbagai tingkat kesulitan menggunakan alat pencarian dan penyuntingan di lingkungan nyata
- Melalui hal ini, model memberikan pengalaman pengembangan interaktif berkecepatan tinggi
Latar belakang pengembangan
- Composer berawal dari pengalaman Cursor mengembangkan model autocomplete kode kustom (Cursor Tab)
- Mereka menemukan bahwa pengembang lebih menyukai model yang cerdas sekaligus responsif
- Berdasarkan model eksperimen awal Cheetah, Composer dirancang sebagai versi yang lebih cepat dan lebih pintar
- Tujuannya adalah membangun model yang memberi respons instan sambil mempertahankan alur kerja pengembangan
Arsitektur model dan metode pelatihan
- Composer adalah model bahasa Mixture-of-Experts(MoE) yang mendukung pemahaman dan generasi konteks panjang
- Melalui pembelajaran penguatan(RL), model ini dispesialisasikan untuk berbagai lingkungan pengembangan
- Pada setiap tahap pelatihan, model menerima deskripsi masalah lalu menghasilkan perbaikan kode, rencana, dan jawaban yang optimal
- Model memanfaatkan alat seperti membaca dan mengedit file, menjalankan perintah terminal, dan pencarian semantik di seluruh codebase
- Dalam proses RL, model belajar sendiri perilaku yang berguna seperti melakukan pencarian kompleks, memperbaiki error linter, menulis dan menjalankan unit test
Evaluasi dan benchmark
- Cursor Bench adalah set evaluasi internal yang mencakup permintaan rekayasa nyata dan jawaban optimal
- Ini mengukur akurasi model, kepatuhan terhadap abstraksi codebase, dan kesesuaian dengan praktik rekayasa perangkat lunak
- Composer diklasifikasikan sebagai model “Fast Frontier”, dan dibandingkan dengan model yang menargetkan inferensi efisien seperti Haiku 4.5 dan Gemini Flash 2.5
- Walau lebih lambat daripada model Frontier papan atas seperti GPT-5 dan Sonnet 4.5, model ini memiliki efisiensi tinggi dibanding kecepatannya
Infrastruktur dan desain sistem
- Untuk melatih model MoE skala besar, dibangun infrastruktur RL asinkron berbasis PyTorch dan Ray
- Infrastruktur ini menggabungkan kernel MXFP8 MoE, paralelisasi expert, dan paralelisme data hybrid sharding
- Pelatihan diskalakan di ribuan GPU NVIDIA sambil meminimalkan biaya komunikasi
- Melalui pelatihan presisi rendah MXFP8, diperoleh peningkatan kecepatan inferensi serta tidak diperlukan kuantisasi pascapemrosesan
- Selama RL, model dapat memanggil semua alat milik Cursor Agent
- Mendukung penyuntingan kode, pencarian semantik, string grep, eksekusi perintah terminal, dan lainnya
- Untuk itu, ratusan ribu lingkungan sandbox cloud dijalankan secara paralel
- Dengan memperluas infrastruktur Background Agents yang sudah ada, beban pelatihan burst dapat ditangani
Pemanfaatan internal dan peluncuran
- Tim Cursor secara aktif memanfaatkan Composer untuk pekerjaan pengembangan internal mereka sendiri
- Banyak engineer menggunakan Composer dalam pengembangan perangkat lunak sehari-hari
- Melalui peluncuran ini, mereka berharap pengembang lain juga dapat memanfaatkannya secara berguna
Lampiran: klasifikasi benchmark internal
- Fast Frontier: model inferensi efisien (Haiku 4.5, Gemini Flash 2.5, dll.)
- Best Open: model berbobot terbuka (Qwen Coder, GLM 4.6, dll.)
- Frontier 7/2025: model terbaik per Juli 2025
- Best Frontier: model dengan performa lebih tinggi daripada Composer seperti GPT-5 dan Sonnet 4.5
- Perhitungan Tokens per Second distandardisasi berdasarkan tokenizer Anthropic terbaru
1 komentar
Komentar Hacker News
Rasanya transparansinya terlalu kurang
Performa model hanya dipublikasikan lewat benchmark internal, dan bahkan datanya sendiri tidak dibuka, jadi sulit dipercaya
Mereka memang membahas pelatihan RL, tetapi sama sekali tidak ada informasi inti seperti apakah ada pre-training atau fine-tuning
Sampai detailnya dibuka atau ada benchmark independen dari pihak luar, saya tetap skeptis terhadap semua klaimnya
Kalau dipublikasikan, data itu bisa masuk ke set pelatihan LLM lain dan validitas ilmiahnya hilang
Tetapi kalau tidak dipublikasikan, sebaliknya juga muncul kemungkinan mereka hanya memilih data yang menguntungkan diri sendiri
Pada akhirnya ini memang dilema yang sulit diselesaikan
Cursor mengumpulkan ribuan data accept/reject secara real-time, jadi itu adalah loop umpan balik terbaik
Reaksi pengguna nyata jauh lebih berguna daripada benchmark, dan lewat itu model bisa ditingkatkan dengan cepat
Belakangan bahkan ditambahkan fitur integrasi multi-agent + git tree, sehingga perilaku pengguna bisa dimanfaatkan sebagai sinyal pembelajaran
Menurut saya, persaingan seperti ini meningkatkan kualitas pasar secara keseluruhan dan menciptakan siklus positif yang juga menurunkan biaya penggunaan
Saya merasa model Tab milik Cursor masih yang terbaik
Penjelasannya dirangkum dengan baik di posting blog resmi
Akan sangat menarik kalau pendekatan ini juga bisa diterapkan ke model coding agentic
Motivasi proyek ini sendiri berangkat dari ide membuat agen seperti Tab
Saya hampir selalu menjalankan Claude Code, dan Tab hanya ikut campur saat model benar-benar buntu
Mengesankan melihat situasi gagal seperti itu makin lama makin berkurang
Andai diganti menjadi sesuatu seperti shift+tab
Tiap kali saya menulis kode sendiri, rasanya seperti bersaing soal indentasi dengan AI, jadi agak mengganggu
Saya peneliti ML di Cursor dan ikut terlibat dalam proyek ini
Saya menyambut masukan untuk model maupun posting blog
Namun jika Composer adalah model terbuka yang di-fine-tune dengan RL, saya penasaran kenapa bobot modelnya tetap ditutup
Keunggulan performa kecil biasanya cepat hilang, jadi menurut saya justru strategi terbuka akan lebih menguntungkan untuk membangun kepercayaan pengembang
Secara pribadi, saya kurang tertarik pada model tertutup
Dulu saya sempat mencoba Cursor lalu berhenti memakainya, tetapi Composer1 kali ini jauh lebih cepat dan akurat dibanding GPT5 Codex
Kecepatan dan kualitasnya sama-sama bagus, jadi saya berniat mencobanya lagi
Akan terasa lebih adil kalau ada versi yang menampilkan nama model satu per satu tanpa pengelompokan
Untuk tahap perencanaan saya memakai Claude, tetapi pada tahap eksekusi Composer jauh lebih efisien
Bagi saya, Sonnet 4.5 adalah batas kualitas minimum yang masih bisa saya terima
Yang lebih penting daripada kecepatan adalah tidak perlu bergulat untuk mendapatkan output yang diinginkan
Mungkin saya salah paham, tetapi saya penasaran apakah model yang dibandingkan dalam tulisan ini semuanya model internal Cursor
Yang satu ingin model menangani tugas panjang secara otonom,
yang lain ingin berinteraksi dan berkolaborasi dengan model
Untuk tipe kedua, kecepatan jauh lebih penting, sedangkan untuk tipe pertama, kecerdasan lebih penting
Bagi saya, kurangnya pemahaman konteks lebih jadi masalah, jadi tergantung situasinya
Saat memakai model selain Claude, biaya token jadi lebih tinggi dan efisiensinya turun
Claude 4.5 Sonnet menyelesaikan pekerjaan yang sama dengan setengah biaya
Saya pribadi lebih memilih umpan balik cepat daripada akurasi maksimal
Senang ada model baru, tetapi sulit dipercaya karena angka dan nama model tidak ada di grafik
Detail pelatihannya sulit diungkap, tetapi mereka mengatakan telah mendapatkan hasil bahwa RL dapat diskalakan dengan baik
Banyak orang kritis terhadap Cursor, tetapi setelah saya mencoba Copilot, Claude Code, Codex, Gemini CLI, Cline, dan lainnya, kematangan produk Cursor tetap yang paling tinggi
Kecepatan dan stabilitasnya sangat menonjol, dan benar-benar terasa seperti produk yang matang
Permintaan sering macet lebih dari 30 detik, sementara Claude Code jauh lebih cepat dan stabil
Hari ini saya mencoba model barunya lagi, dan Composer1 memang cepat tetapi masih ada error koneksi
Untuk mewujudkan apa yang saya inginkan dengan cepat, Cursor adalah yang terbaik
Autocomplete-nya juga cukup berguna saat refactoring
Di antara para pesaing, hanya Cursor yang benar-benar serius menangani waktu hingga respons selesai
Cursor sepenuhnya unggul di aspek itu
Saya mencoba sistem barunya, tetapi justru terasa performanya menurun
Bahkan aplikasi dasar pun tidak berjalan dengan baik, dan pemrosesan konteks CSS maupun terminal juga gagal
Kecepatannya juga makin lambat, dan akhirnya saya kembali ke Sonnet
Semoga ini memang belum versi yang sudah distabilkan
Saya benar-benar suka Cursor
Saya sudah mencoba Copilot, Claude, dan berbagai alat lain, tetapi pada akhirnya selalu kembali ke Cursor
Terutama autocomplete Tab yang sangat akurat saat pekerjaan refactoring
Lambat dan kualitas sarannya rendah
Cursor jauh lebih cepat dan sarannya berguna
Hanya saja karena terlalu cepat, kadang ia terus memunculkan saran yang tidak perlu
Untungnya itu bisa diatasi dengan fitur snooze
Ada gambar pelikan bersepeda untuk Composer 1
Tautan gambar