Mercury - Model bahasa ultra-cepat berbasis Diffusion

(arxiv.org)

10 poin oleh GN⁺ 2025-07-08 | 1 komentar | Bagikan ke WhatsApp

Mercury adalah model bahasa besar (LLM) komersial baru yang memanfaatkan pendekatan diffusion
Model ini berbasis arsitektur Transformer dan memiliki karakteristik memprediksi banyak token secara paralel
Mercury Coder adalah rangkaian diffusion LLM pertama, dikembangkan untuk penulisan kode, dan tersedia dalam dua ukuran: Mini dan Small
Pada GPU NVIDIA H100, model ini mencatat throughput 1109 (Mini) dan 737 (Small) token/detik, serta menunjukkan performa hingga 10 kali lebih cepat dibanding model berfokus kecepatan yang ada pada kualitas yang sama
Dalam benchmark penggunaan nyata dan evaluasi pengembang seperti Copilot Arena, model ini juga mencatat kualitas peringkat 2 dan kecepatan tertinggi, serta menyediakan API publik dan playground

Gambaran umum

Mercury adalah seri baru model bahasa besar berbasis diffusion yang merupakan LLM generasi baru yang berjalan pada skala komersial
Semua model diparameterisasi dengan arsitektur Transformer dan dilatih untuk memprediksi beberapa token secara paralel
Laporan ini terutama memperkenalkan lini pertama Mercury Coder, yang dirancang untuk aplikasi pembuatan kode
Mercury Coder saat ini tersedia dalam dua ukuran model: Mini dan Small

Kontribusi utama

Mercury Coder mencapai tingkat state-of-the-art baru dalam keseimbangan antara kecepatan dan kualitas
Berdasarkan Artificial Analysis, lembaga evaluasi eksternal:
- Mercury Coder Mini: 1109 token per detik
- Mercury Coder Small: 737 token per detik pada GPU NVIDIA H100
- Menunjukkan kualitas serupa dengan rata-rata hingga 10 kali lebih cepat dibanding model frontier tercepat
Disediakan juga hasil evaluasi tambahan pada benchmark kode untuk berbagai bahasa pemrograman dan kasus penggunaan
Di lingkungan pengembang nyata (Copilot Arena) juga:
- Peringkat 2 berdasarkan kualitas
- Peringkat 1 keseluruhan berdasarkan kecepatan
Mendukung API publik ( platform.inceptionlabs.ai ) dan playground chat gratis ( chat.inceptionlabs.ai ) yang dapat digunakan siapa saja

Penjelasan struktur daftar isi

Introduction (pengantar)
- Kontribusi utama (Contributions)
Inception Mercury Model Family (penjelasan keluarga model)
- Proses pelatihan (Training)
- Metode inferensi (Inference)
Capabilities (kemampuan model)
- Performa baseline (Baselines)
- Kemampuan pembuatan kode (Coding Capabilities)
  - Benchmark evaluasi (Evaluation Benchmarks)

Ringkasan

Mercury menggabungkan desain LLM inovatif berbasis diffusion dengan struktur prediksi paralel untuk mewujudkan kecepatan luar biasa dan kualitas tinggi di bidang pembuatan kode
Melalui model dengan berbagai ukuran, benchmark layanan nyata yang kuat, dan aksesibilitas yang mudah, model ini menawarkan opsi yang kompetitif untuk lingkungan komersial maupun pengembangan

1 komentar

GN⁺ 2025-07-08

Komentar Hacker News

Ditekankan bahwa ketika agen LLM diadopsi, performa pengujian kemungkinan akan berubah menjadi bottleneck CPU yang lebih parah, dan bahkan sekarang pun semua tim sudah mengalami hambatan karena kecepatan CI
Meski agen menulis kode 100 kali lebih cepat daripada manusia, kalau pengujian butuh satu jam maka itu jadi tidak banyak berarti
Di banyak proyek tempat saya pernah bekerja, ada banyak waktu developer yang terbuang hanya karena menunggu perubahan diterapkan, dan banyak eksekusi tersendat karena I/O atau kurangnya worker
Saat agen coding dengan cepat mengubah tiket sederhana menjadi PR dan memperbaikinya secara real-time sebagai respons terhadap kegagalan tes, bottleneck CI akan makin memburuk
Sebagian besar lingkungan pengujian proyek sebenarnya masih sangat bisa ditingkatkan, tetapi dalam praktiknya orang-orang sudah terbiasa menganggap CI lambat dan biaya tinggi sebagai hal normal selama bertahun-tahun tanpa banyak kemajuan
CI malah menjadi lebih lambat saat caching dimatikan demi mengisolasi build sepenuhnya, atau saat pindah dari on-premise ke cloud VM yang lebih lambat
Kecepatan Mercury terasa gila, dan setelah saya mengujinya beberapa kali, kualitas kodenya juga sangat baik dan akurat, tetapi sekarang tantangannya adalah membuat eksekusi tes bisa mengikuti kecepatan ini
- Saya kurang bisa menerima gagasan bahwa di sebagian besar proyek tempat saya bekerja, waktu developer terbuang karena menunggu persetujuan PR
  Dari sudut pandang perusahaan, waktu developer jauh lebih mahal daripada waktu mesin, jadi kalau developer mulai mengeluh, ini masalah yang bisa diselesaikan dengan menggandakan jumlah worker CI
  Di Google, saat mendebug flaky test, ada kasus menjalankan satu tes 10 ribu kali di 10 ribu mesin untuk menemukan kegagalan langka
  Tempat kerja saya saat ini juga menyediakan pendekatan serupa, dengan tujuan memberi umpan balik untuk proyek 1M LOC dalam waktu kurang dari 5 menit lewat satu perintah yang menjalankan semua tes secara paralel di 1.000 worker
  Mengisolasi build sepenuhnya dan tidak menggunakan caching adalah dua hal berbeda; build harus benar-benar terisolasi sambil tetap memanfaatkan semua cache semaksimal mungkin
- Jika kecepatan implementasi meningkat, bottleneck akan bergeser ke sisi PM, dan dalam kasus ini diperkirakan konflik akan jauh berkurang karena perubahan diproses lebih serial
  Ada juga kemungkinan kebangkitan bahasa definisi spesifikasi (seperti TLA+), karena agen bisa menulis dan memverifikasinya dengan cepat, sehingga jumlah integration test secara keseluruhan bisa berkurang
  Ketika agen background merapikan kode duplikat, ada kemungkinan tes yang duplikat ikut dirapikan
  AI tampaknya akan bekerja lebih efisien dalam struktur monolitik dibanding tim engineer manusia, dan ini bisa meningkatkan cakupan tes yang dapat dijalankan secara lokal, sehingga flaky berkurang dan beban CI menurun
  Meski AI meningkatkan efisiensi, saya yakin itu juga akan terus memunculkan masalah baru melalui lebih banyak kode, pembuatan kode yang lebih cepat, dan eksekusi yang lebih cepat, sehingga akan selalu ada masalah baru yang perlu diselesaikan engineer manusia
- LLM masih oke untuk perbaikan kecil di bawah 100 baris, atau sekadar jadi rubber duck, tetapi jika langsung dimasukkan ke pipeline CI proyek besar, ada kekhawatiran penurunan produktivitas hingga ratusan jam
  Kalau pada akhirnya waktu yang seharusnya dipakai untuk meningkatkan kemampuan menulis kode malah habis untuk prompt tuning dan mengatur konteks, itu tidak ada artinya
  Saya merasa kepercayaan diri terhadap tooling LLM terlalu besar, dan menurut saya itu tidak cocok untuk sistem yang kompleks
  Ada ketidakpercayaan yang sangat besar sampai-sampai LLM tidak mungkin dibiarkan tanpa pengawasan di repositori penting, kecuali "dengan todongan senjata"
  Pada akhirnya hasil LLM sering tetap harus diedit ulang setengahnya, dan kalau begitu lebih baik dikerjakan sendiri dari awal
- Sebelum ada mobil, hampir tidak ada biaya untuk bensin, oli, perawatan, dan sebagainya, tetapi ketika sistem berkembang, infrastruktur pendukung dan biayanya ikut muncul
  Ada semacam siklus di mana bottleneck diselesaikan dengan AI atau lebih banyak fitur dibuat untuk memaksimalkan pendapatan, lalu pendapatan tambahan itu dipakai untuk menambah resource CI
  AI pada dasarnya tidak berbeda dengan menambah 10 developer, jadi wajar jika biaya pendukung ikut naik
  Sudut pandangnya adalah meninjau kembali apakah Anda bisa meyakinkan secara logis soal efisiensi untuk memperoleh lebih banyak resource CI atau mengusulkan arah optimisasi
  Saya penasaran berapa biaya per mesin resource CI
- Di aplikasi Python, saya pernah sangat mempercepat CI dengan toolchain astral.sh serta instalasi paket uv + pemanfaatan caching
  Dalam waktu dekat saya berencana pindah dari mypy ke type checker milik astral, yang kemungkinan akan membuatnya lebih cepat lagi
  Untuk aplikasi dengan frontend, tes Playwright mungkin akan jadi bagian paling lambat, tetapi bahkan itu tidak relevan di aplikasi lain
  (P.S.: kalau Mike yang dimaksud memang orang yang benar, saya ingat dia sebagai SRE yang pernah bekerja bersama di Google Maps pada awal 2000-an, jadi pendapatnya terasa meyakinkan)
Saat saya meminta pola regex di Mercury playground, model itu sendiri mulai membuat rencana, menulis polanya, lalu mulai membuat tes
Namun model itu terus menambah tes tanpa henti sampai akhirnya mencapai batas konteks dan responsnya terputus
Setelah sekitar 30 tes, model mulai salah memberi anotasi pada komentar hasil tes, dan setelah melewati 120 tes, input tesnya sendiri mulai aneh dengan banyak karakter acak
Polanya sendiri juga bukan jawaban yang benar, tetapi fenomena "loop tak berujung" ini justru jadi isu yang lebih menarik
- Sebagai referensi, saya ingat sampai belum lama ini LLM biasa pun sering menghasilkan keluaran berulang yang tampak seperti "hampir loop tak berujung"
  Terjebak dalam pola keluaran yang hanya berubah sedikit demi sedikit
- Saya menganggap kasus ini sebagai bukti representatif bahwa "hanya dengan prediksi token tidak mungkin membuat kode secara akurat"
  LLM sejak awal memang tidak dirancang agar cocok untuk penalaran kode
Dari hasil membaca technical report, saya memastikan bahwa Mercury berbasis paper Lou et al. 2023, SEDD
Saya (mungkin) orang pertama yang mengimplementasikan ulang SEDD dari nol, dan kodenya saya buka
Saya juga mengimplementasikan sendiri metode denoising yang kompleks
Saya merancangnya agar lebih rapi dan mudah dibaca dibanding SEDD yang ada, dan bisa dijalankan dalam beberapa jam pada satu GPU untuk dataset mainan
Sebagai catatan, DeepMind juga punya model Gemini berbasis diffusion (tautan)
Setelah saya coba sendiri, kecepatannya memang segila Mercury, tetapi kualitas jawabannya terasa jauh lebih buruk dibanding Gemini lainnya
- Dari pemakaian singkat saya juga setuju bahwa kecepatannya mengesankan, tetapi tingkat jawaban benarnya turun cukup banyak
- Saya penasaran apakah demo Gemini Diffusion gratis
  Saya sudah beberapa hari ada di waiting list jadi belum sempat benar-benar mencobanya
Secara pribadi saya sangat menantikan perkembangan seperti ini
Belakangan saya membuat game sederhana dengan AI saat game jam, dan lebih dari separuh waktu habis hanya untuk menunggu hasil
Kalau dibanding kondisi sekarang yang butuh 1–2 menit per prompt, menunggu hanya 10 detik akan memungkinkan lima sampai sepuluh kali eksperimen dalam waktu yang sebelumnya hanya cukup untuk satu kali tes
Mercury memang belum cukup matang untuk dipakai secara praktis, tetapi Claude 3.0 pun setahun lalu masih belum matang, jadi ke depan kemungkinan akan makin baik
Rasanya ini benar-benar momen yang sangat layak dinantikan
Setelah mencoba Mercury playground, kecepatannya memang luar biasa
Visualisasi diffusion mode juga terasa segar, tetapi secara praktis tampaknya itu memperlihatkan proses pemurnian bertahap dari noise garis yang divisualisasikan menuju keadaan yang makin akurat
Dalam praktiknya, saya melihatnya sebagai proses konvergensi bertahap di ruang vektor acak menuju token yang makin pasti
- Beberapa model text diffusion memang menggunakan latent space kontinu, tetapi performanya kurang bagus
  Belakangan kebanyakan berfokus pada prediksi keluaran token yang sebenarnya sambil merevisi nilai sebelumnya di tiap langkah hingga konvergen ke hasil akhir
  Saya merekomendasikan tautan penjelasan cara kerja text diffusion yang saya tulis
- Tautan: https://chat.inceptionlabs.ai/
- Rasanya benar-benar cepat sekali sampai sulit dipercaya
Sebagian besar kode yang dekat dengan GPU masih punya ruang sangat besar untuk optimisasi performa
Namun ada pertanyaan apakah paper arXiv ini lebih mirip pemasaran daripada riset sungguhan
Pendapat lain sangat diterima
- Itu bukan poin yang sepenuhnya salah, tetapi kasus seperti ini juga bukan pertama kalinya di arXiv
Kebijakan harga model Mercury
1 dolar per 1 juta token output, 0,25 dolar per 1 juta token input
Untuk detail harga, lihat di sini
- Harganya agak mahal
  Untuk kasus yang sensitif terhadap performa, saat membandingkan Mercury dan Groq (Llama 3.1 8b, Llama 4 Scout), performanya mirip tetapi harga Groq jauh lebih menguntungkan
  Saya tertarik dan terus mengamati sambil berharap muncul model diffusion open-source
Di kode playground dan respons API terlihat item gpt-3.5-turbo dan "openai": true, jadi saya penasaran apakah sebenarnya ini memanggil OpenAI, bukan dLLM mereka sendiri
Fitur diffusion effect di kanan atas tampak seperti sekadar efek animasi
- Karena kecepatannya terasa seperti real-time, rasanya terlalu cepat kalau benar memakai backend OpenAI
Semuanya memang terdengar keren, tetapi
Syarat layanannya menyatakan bahwa ketika pengguna mengirim posting ke layanan, mereka memberi Inception lisensi yang tidak eksklusif secara global, permanen, bebas royalti, gratis, dan dapat dialihkan sepenuhnya
Artinya, konten pengguna bisa dipakai untuk tujuan pelatihan model AI
(Namun, ada klausul pengecualian bahwa akses melalui OpenRouter tidak digunakan untuk pelatihan)

Mercury - Model bahasa ultra-cepat berbasis Diffusion

Gambaran umum

Kontribusi utama

Penjelasan struktur daftar isi

Ringkasan

Bacaan terkait

1 komentar

Komentar Hacker News