2 poin oleh GN⁺ 2025-10-30 | 1 komentar | Bagikan ke WhatsApp
  • Composer yang diperkenalkan Cursor adalah model agen cerdas berkecepatan tinggi untuk rekayasa perangkat lunak, yang mencapai kecepatan pembuatan kode 4 kali lebih cepat dibanding model serupa
  • Model ini dilatih untuk memecahkan masalah nyata pada codebase skala besar, dan menggunakan alat pencarian serta penyuntingan untuk menangani tugas dengan berbagai tingkat kesulitan
  • Dengan menggabungkan arsitektur Mixture-of-Experts(MoE) dan pembelajaran penguatan(RL), model ini mendukung pemahaman dan generasi konteks panjang untuk penyuntingan kode, perencanaan, dan pemberian jawaban
  • Melalui evaluasi Cursor Bench, diukur bukan hanya akurasi model tetapi juga konsistensi codebase serta kepatuhan pada praktik rekayasa
  • Dengan memanfaatkan infrastruktur RL asinkron berbasis PyTorch·Ray dan pelatihan presisi rendah MXFP8, pelatihan efisien di ribuan GPU serta peningkatan kecepatan inferensi dapat dicapai

Ikhtisar Composer

  • Composer adalah model agen baru yang dikembangkan dengan tujuan kecerdasan dan kecepatan untuk rekayasa perangkat lunak
    • Dalam benchmark, model ini mencatat kecepatan pembuatan kode 4 kali lebih cepat dibanding model serupa
    • Di dalam Cursor, model ini dioptimalkan sebagai agen untuk menyelesaikan masalah pada codebase skala besar
  • Model ini dilatih untuk menyelesaikan masalah dengan berbagai tingkat kesulitan menggunakan alat pencarian dan penyuntingan di lingkungan nyata
    • Melalui hal ini, model memberikan pengalaman pengembangan interaktif berkecepatan tinggi

Latar belakang pengembangan

  • Composer berawal dari pengalaman Cursor mengembangkan model autocomplete kode kustom (Cursor Tab)
    • Mereka menemukan bahwa pengembang lebih menyukai model yang cerdas sekaligus responsif
    Iklan
  • Berdasarkan model eksperimen awal Cheetah, Composer dirancang sebagai versi yang lebih cepat dan lebih pintar
    • Tujuannya adalah membangun model yang memberi respons instan sambil mempertahankan alur kerja pengembangan

Arsitektur model dan metode pelatihan

  • Composer adalah model bahasa Mixture-of-Experts(MoE) yang mendukung pemahaman dan generasi konteks panjang
  • Melalui pembelajaran penguatan(RL), model ini dispesialisasikan untuk berbagai lingkungan pengembangan
    • Pada setiap tahap pelatihan, model menerima deskripsi masalah lalu menghasilkan perbaikan kode, rencana, dan jawaban yang optimal
    • Model memanfaatkan alat seperti membaca dan mengedit file, menjalankan perintah terminal, dan pencarian semantik di seluruh codebase
  • Dalam proses RL, model belajar sendiri perilaku yang berguna seperti melakukan pencarian kompleks, memperbaiki error linter, menulis dan menjalankan unit test
Iklan

Evaluasi dan benchmark

  • Cursor Bench adalah set evaluasi internal yang mencakup permintaan rekayasa nyata dan jawaban optimal
    • Ini mengukur akurasi model, kepatuhan terhadap abstraksi codebase, dan kesesuaian dengan praktik rekayasa perangkat lunak
  • Composer diklasifikasikan sebagai model “Fast Frontier”, dan dibandingkan dengan model yang menargetkan inferensi efisien seperti Haiku 4.5 dan Gemini Flash 2.5
    • Walau lebih lambat daripada model Frontier papan atas seperti GPT-5 dan Sonnet 4.5, model ini memiliki efisiensi tinggi dibanding kecepatannya

Infrastruktur dan desain sistem

  • Untuk melatih model MoE skala besar, dibangun infrastruktur RL asinkron berbasis PyTorch dan Ray
    • Infrastruktur ini menggabungkan kernel MXFP8 MoE, paralelisasi expert, dan paralelisme data hybrid sharding
    • Pelatihan diskalakan di ribuan GPU NVIDIA sambil meminimalkan biaya komunikasi
  • Melalui pelatihan presisi rendah MXFP8, diperoleh peningkatan kecepatan inferensi serta tidak diperlukan kuantisasi pascapemrosesan
  • Selama RL, model dapat memanggil semua alat milik Cursor Agent
    • Mendukung penyuntingan kode, pencarian semantik, string grep, eksekusi perintah terminal, dan lainnya
    • Untuk itu, ratusan ribu lingkungan sandbox cloud dijalankan secara paralel
    • Dengan memperluas infrastruktur Background Agents yang sudah ada, beban pelatihan burst dapat ditangani
    Iklan

Pemanfaatan internal dan peluncuran

  • Tim Cursor secara aktif memanfaatkan Composer untuk pekerjaan pengembangan internal mereka sendiri
    • Banyak engineer menggunakan Composer dalam pengembangan perangkat lunak sehari-hari
  • Melalui peluncuran ini, mereka berharap pengembang lain juga dapat memanfaatkannya secara berguna

Lampiran: klasifikasi benchmark internal

  • Fast Frontier: model inferensi efisien (Haiku 4.5, Gemini Flash 2.5, dll.)
  • Best Open: model berbobot terbuka (Qwen Coder, GLM 4.6, dll.)
  • Frontier 7/2025: model terbaik per Juli 2025
  • Best Frontier: model dengan performa lebih tinggi daripada Composer seperti GPT-5 dan Sonnet 4.5
  • Perhitungan Tokens per Second distandardisasi berdasarkan tokenizer Anthropic terbaru

1 komentar

 
GN⁺ 2025-10-30
Komentar Hacker News
  • Rasanya transparansinya terlalu kurang
    Performa model hanya dipublikasikan lewat benchmark internal, dan bahkan datanya sendiri tidak dibuka, jadi sulit dipercaya
    Mereka memang membahas pelatihan RL, tetapi sama sekali tidak ada informasi inti seperti apakah ada pre-training atau fine-tuning
    Sampai detailnya dibuka atau ada benchmark independen dari pihak luar, saya tetap skeptis terhadap semua klaimnya

    • Saya paham alasan benchmark internal tidak dipublikasikan
      Kalau dipublikasikan, data itu bisa masuk ke set pelatihan LLM lain dan validitas ilmiahnya hilang
      Tetapi kalau tidak dipublikasikan, sebaliknya juga muncul kemungkinan mereka hanya memilih data yang menguntungkan diri sendiri
      Pada akhirnya ini memang dilema yang sulit diselesaikan
    • Sebenarnya yang penting adalah data pengguna nyata
      Cursor mengumpulkan ribuan data accept/reject secara real-time, jadi itu adalah loop umpan balik terbaik
      Reaksi pengguna nyata jauh lebih berguna daripada benchmark, dan lewat itu model bisa ditingkatkan dengan cepat
      Belakangan bahkan ditambahkan fitur integrasi multi-agent + git tree, sehingga perilaku pengguna bisa dimanfaatkan sebagai sinyal pembelajaran
      Menurut saya, persaingan seperti ini meningkatkan kualitas pasar secara keseluruhan dan menciptakan siklus positif yang juga menurunkan biaya penggunaan
  • Saya merasa model Tab milik Cursor masih yang terbaik
    Penjelasannya dirangkum dengan baik di posting blog resmi
    Akan sangat menarik kalau pendekatan ini juga bisa diterapkan ke model coding agentic

    • Tim kami juga banyak memakai Tab
      Motivasi proyek ini sendiri berangkat dari ide membuat agen seperti Tab
    • Penasaran apakah Anda pernah mencoba Windsurfs
    • Model Tab memang bagus, tetapi kadang terasa seperti kompetisi membuat cambuk kuda yang lebih baik
      Saya hampir selalu menjalankan Claude Code, dan Tab hanya ikut campur saat model benar-benar buntu
      Mengesankan melihat situasi gagal seperti itu makin lama makin berkurang
    • Model Tab luar biasa, tetapi sayang belum bisa memahami konteks sesi chat AI yang sedang berlangsung
    • Fiturnya bagus, tetapi shortcut-nya kurang pas
      Andai diganti menjadi sesuatu seperti shift+tab
      Tiap kali saya menulis kode sendiri, rasanya seperti bersaing soal indentasi dengan AI, jadi agak mengganggu
  • Saya peneliti ML di Cursor dan ikut terlibat dalam proyek ini
    Saya menyambut masukan untuk model maupun posting blog

    • Penjelasan sistemnya sangat mengesankan
      Namun jika Composer adalah model terbuka yang di-fine-tune dengan RL, saya penasaran kenapa bobot modelnya tetap ditutup
      Keunggulan performa kecil biasanya cepat hilang, jadi menurut saya justru strategi terbuka akan lebih menguntungkan untuk membangun kepercayaan pengembang
      Secara pribadi, saya kurang tertarik pada model tertutup
    • Benar-benar mengejutkan
      Dulu saya sempat mencoba Cursor lalu berhenti memakainya, tetapi Composer1 kali ini jauh lebih cepat dan akurat dibanding GPT5 Codex
      Kecepatan dan kualitasnya sama-sama bagus, jadi saya berniat mencobanya lagi
    • Grafik pertama di blog terlalu samar
      Akan terasa lebih adil kalau ada versi yang menampilkan nama model satu per satu tanpa pengelompokan
    • Hari ini saya memakai Composer, Sonnet 4.5, dan Gemini 2.5 Pro bersamaan, dan kombinasi kecepatan dan kualitas Composer paling memuaskan
      Untuk tahap perencanaan saya memakai Claude, tetapi pada tahap eksekusi Composer jauh lebih efisien
    • Melihat grafik log-nya, sepertinya untuk mencapai model frontier dibutuhkan sekitar 50% komputasi tambahan; saya penasaran kenapa pelatihannya dihentikan di situ
  • Bagi saya, Sonnet 4.5 adalah batas kualitas minimum yang masih bisa saya terima
    Yang lebih penting daripada kecepatan adalah tidak perlu bergulat untuk mendapatkan output yang diinginkan
    Mungkin saya salah paham, tetapi saya penasaran apakah model yang dibandingkan dalam tulisan ini semuanya model internal Cursor

    • Menarik bahwa Sonnet 4.5 baru dirilis sebulan lalu tetapi sekarang sudah dianggap sebagai ‘batas minimum’
    • Menurut saya ada dua tipe pengguna
      Yang satu ingin model menangani tugas panjang secara otonom,
      yang lain ingin berinteraksi dan berkolaborasi dengan model
      Untuk tipe kedua, kecepatan jauh lebih penting, sedangkan untuk tipe pertama, kecerdasan lebih penting
      Bagi saya, kurangnya pemahaman konteks lebih jadi masalah, jadi tergantung situasinya
    • Sonnet 4.5 memang hebat, tetapi saya penasaran apakah Anda juga sudah mencoba Composer
    • Saya juga mirip
      Saat memakai model selain Claude, biaya token jadi lebih tinggi dan efisiensinya turun
      Claude 4.5 Sonnet menyelesaikan pekerjaan yang sama dengan setengah biaya
    • Alasan saya membandingkannya adalah untuk menunjukkan seberapa serius Cursor menangani pengalaman pengguna yang berfokus pada kecepatan
      Saya pribadi lebih memilih umpan balik cepat daripada akurasi maksimal
  • Senang ada model baru, tetapi sulit dipercaya karena angka dan nama model tidak ada di grafik

    • Ada penjelasan tentang model di catatan kaki
      Detail pelatihannya sulit diungkap, tetapi mereka mengatakan telah mendapatkan hasil bahwa RL dapat diskalakan dengan baik
  • Banyak orang kritis terhadap Cursor, tetapi setelah saya mencoba Copilot, Claude Code, Codex, Gemini CLI, Cline, dan lainnya, kematangan produk Cursor tetap yang paling tinggi
    Kecepatan dan stabilitasnya sangat menonjol, dan benar-benar terasa seperti produk yang matang

    • Saya juga pernah memakai Cursor, tetapi berhenti karena masalah keandalan
      Permintaan sering macet lebih dari 30 detik, sementara Claude Code jauh lebih cepat dan stabil
      Hari ini saya mencoba model barunya lagi, dan Composer1 memang cepat tetapi masih ada error koneksi
    • Saya juga sudah mencoba banyak alat, tetapi pada akhirnya kembali ke Cursor
      Untuk mewujudkan apa yang saya inginkan dengan cepat, Cursor adalah yang terbaik
    • Cursor memang kadang macet, tetapi mudah di-rollback dari UI, jadi tidak terlalu mengganggu
      Autocomplete-nya juga cukup berguna saat refactoring
    • Katanya sudah mencoba banyak alternatif, tetapi apakah Anda belum mencoba Zed?
    • Menarik bahwa setelah mencoba Claude pun Anda tetap lebih memilih Cursor
  • Di antara para pesaing, hanya Cursor yang benar-benar serius menangani waktu hingga respons selesai
    Cursor sepenuhnya unggul di aspek itu

    • Kami juga menyukai berbagai model, tetapi menurut kami yang penting adalah menemukan titik keseimbangan antara cepat dan pintar (peneliti Cursor)
  • Saya mencoba sistem barunya, tetapi justru terasa performanya menurun
    Bahkan aplikasi dasar pun tidak berjalan dengan baik, dan pemrosesan konteks CSS maupun terminal juga gagal
    Kecepatannya juga makin lambat, dan akhirnya saya kembali ke Sonnet
    Semoga ini memang belum versi yang sudah distabilkan

  • Saya benar-benar suka Cursor
    Saya sudah mencoba Copilot, Claude, dan berbagai alat lain, tetapi pada akhirnya selalu kembali ke Cursor
    Terutama autocomplete Tab yang sangat akurat saat pekerjaan refactoring

    • Sebulan lalu saya sempat kembali ke VS Code + Copilot, tetapi menyerah setelah 4 hari
      Lambat dan kualitas sarannya rendah
      Cursor jauh lebih cepat dan sarannya berguna
      Hanya saja karena terlalu cepat, kadang ia terus memunculkan saran yang tidak perlu
      Untungnya itu bisa diatasi dengan fitur snooze
  • Ada gambar pelikan bersepeda untuk Composer 1
    Tautan gambar

    • Hasilnya jauh lebih bagus daripada yang saya kira