- Mercury adalah model bahasa besar (LLM) komersial baru yang memanfaatkan pendekatan diffusion
- Model ini berbasis arsitektur Transformer dan memiliki karakteristik memprediksi banyak token secara paralel
- Mercury Coder adalah rangkaian diffusion LLM pertama, dikembangkan untuk penulisan kode, dan tersedia dalam dua ukuran: Mini dan Small
- Pada GPU NVIDIA H100, model ini mencatat throughput 1109 (Mini) dan 737 (Small) token/detik, serta menunjukkan performa hingga 10 kali lebih cepat dibanding model berfokus kecepatan yang ada pada kualitas yang sama
- Dalam benchmark penggunaan nyata dan evaluasi pengembang seperti Copilot Arena, model ini juga mencatat kualitas peringkat 2 dan kecepatan tertinggi, serta menyediakan API publik dan playground
Gambaran umum
- Mercury adalah seri baru model bahasa besar berbasis diffusion yang merupakan LLM generasi baru yang berjalan pada skala komersial
- Semua model diparameterisasi dengan arsitektur Transformer dan dilatih untuk memprediksi beberapa token secara paralel
- Laporan ini terutama memperkenalkan lini pertama Mercury Coder, yang dirancang untuk aplikasi pembuatan kode
- Mercury Coder saat ini tersedia dalam dua ukuran model: Mini dan Small
Kontribusi utama
- Mercury Coder mencapai tingkat state-of-the-art baru dalam keseimbangan antara kecepatan dan kualitas
- Berdasarkan Artificial Analysis, lembaga evaluasi eksternal:
- Mercury Coder Mini: 1109 token per detik
- Mercury Coder Small: 737 token per detik pada GPU NVIDIA H100
- Menunjukkan kualitas serupa dengan rata-rata hingga 10 kali lebih cepat dibanding model frontier tercepat
- Disediakan juga hasil evaluasi tambahan pada benchmark kode untuk berbagai bahasa pemrograman dan kasus penggunaan
- Di lingkungan pengembang nyata (Copilot Arena) juga:
- Peringkat 2 berdasarkan kualitas
- Peringkat 1 keseluruhan berdasarkan kecepatan
- Mendukung API publik ( platform.inceptionlabs.ai ) dan playground chat gratis ( chat.inceptionlabs.ai ) yang dapat digunakan siapa saja
Penjelasan struktur daftar isi
- Introduction (pengantar)
- Kontribusi utama (Contributions)
- Inception Mercury Model Family (penjelasan keluarga model)
- Proses pelatihan (Training)
- Metode inferensi (Inference)
- Capabilities (kemampuan model)
- Performa baseline (Baselines)
- Kemampuan pembuatan kode (Coding Capabilities)
- Benchmark evaluasi (Evaluation Benchmarks)
Ringkasan
- Mercury menggabungkan desain LLM inovatif berbasis diffusion dengan struktur prediksi paralel untuk mewujudkan kecepatan luar biasa dan kualitas tinggi di bidang pembuatan kode
- Melalui model dengan berbagai ukuran, benchmark layanan nyata yang kuat, dan aksesibilitas yang mudah, model ini menawarkan opsi yang kompetitif untuk lingkungan komersial maupun pengembangan
1 komentar
Komentar Hacker News
Ditekankan bahwa ketika agen LLM diadopsi, performa pengujian kemungkinan akan berubah menjadi bottleneck CPU yang lebih parah, dan bahkan sekarang pun semua tim sudah mengalami hambatan karena kecepatan CI
Meski agen menulis kode 100 kali lebih cepat daripada manusia, kalau pengujian butuh satu jam maka itu jadi tidak banyak berarti
Di banyak proyek tempat saya pernah bekerja, ada banyak waktu developer yang terbuang hanya karena menunggu perubahan diterapkan, dan banyak eksekusi tersendat karena I/O atau kurangnya worker
Saat agen coding dengan cepat mengubah tiket sederhana menjadi PR dan memperbaikinya secara real-time sebagai respons terhadap kegagalan tes, bottleneck CI akan makin memburuk
Sebagian besar lingkungan pengujian proyek sebenarnya masih sangat bisa ditingkatkan, tetapi dalam praktiknya orang-orang sudah terbiasa menganggap CI lambat dan biaya tinggi sebagai hal normal selama bertahun-tahun tanpa banyak kemajuan
CI malah menjadi lebih lambat saat caching dimatikan demi mengisolasi build sepenuhnya, atau saat pindah dari on-premise ke cloud VM yang lebih lambat
Kecepatan Mercury terasa gila, dan setelah saya mengujinya beberapa kali, kualitas kodenya juga sangat baik dan akurat, tetapi sekarang tantangannya adalah membuat eksekusi tes bisa mengikuti kecepatan ini
Saya kurang bisa menerima gagasan bahwa di sebagian besar proyek tempat saya bekerja, waktu developer terbuang karena menunggu persetujuan PR
Dari sudut pandang perusahaan, waktu developer jauh lebih mahal daripada waktu mesin, jadi kalau developer mulai mengeluh, ini masalah yang bisa diselesaikan dengan menggandakan jumlah worker CI
Di Google, saat mendebug flaky test, ada kasus menjalankan satu tes 10 ribu kali di 10 ribu mesin untuk menemukan kegagalan langka
Tempat kerja saya saat ini juga menyediakan pendekatan serupa, dengan tujuan memberi umpan balik untuk proyek 1M LOC dalam waktu kurang dari 5 menit lewat satu perintah yang menjalankan semua tes secara paralel di 1.000 worker
Mengisolasi build sepenuhnya dan tidak menggunakan caching adalah dua hal berbeda; build harus benar-benar terisolasi sambil tetap memanfaatkan semua cache semaksimal mungkin
Jika kecepatan implementasi meningkat, bottleneck akan bergeser ke sisi PM, dan dalam kasus ini diperkirakan konflik akan jauh berkurang karena perubahan diproses lebih serial
Ada juga kemungkinan kebangkitan bahasa definisi spesifikasi (seperti TLA+), karena agen bisa menulis dan memverifikasinya dengan cepat, sehingga jumlah integration test secara keseluruhan bisa berkurang
Ketika agen background merapikan kode duplikat, ada kemungkinan tes yang duplikat ikut dirapikan
AI tampaknya akan bekerja lebih efisien dalam struktur monolitik dibanding tim engineer manusia, dan ini bisa meningkatkan cakupan tes yang dapat dijalankan secara lokal, sehingga flaky berkurang dan beban CI menurun
Meski AI meningkatkan efisiensi, saya yakin itu juga akan terus memunculkan masalah baru melalui lebih banyak kode, pembuatan kode yang lebih cepat, dan eksekusi yang lebih cepat, sehingga akan selalu ada masalah baru yang perlu diselesaikan engineer manusia
LLM masih oke untuk perbaikan kecil di bawah 100 baris, atau sekadar jadi rubber duck, tetapi jika langsung dimasukkan ke pipeline CI proyek besar, ada kekhawatiran penurunan produktivitas hingga ratusan jam
Kalau pada akhirnya waktu yang seharusnya dipakai untuk meningkatkan kemampuan menulis kode malah habis untuk prompt tuning dan mengatur konteks, itu tidak ada artinya
Saya merasa kepercayaan diri terhadap tooling LLM terlalu besar, dan menurut saya itu tidak cocok untuk sistem yang kompleks
Ada ketidakpercayaan yang sangat besar sampai-sampai LLM tidak mungkin dibiarkan tanpa pengawasan di repositori penting, kecuali "dengan todongan senjata"
Pada akhirnya hasil LLM sering tetap harus diedit ulang setengahnya, dan kalau begitu lebih baik dikerjakan sendiri dari awal
Sebelum ada mobil, hampir tidak ada biaya untuk bensin, oli, perawatan, dan sebagainya, tetapi ketika sistem berkembang, infrastruktur pendukung dan biayanya ikut muncul
Ada semacam siklus di mana bottleneck diselesaikan dengan AI atau lebih banyak fitur dibuat untuk memaksimalkan pendapatan, lalu pendapatan tambahan itu dipakai untuk menambah resource CI
AI pada dasarnya tidak berbeda dengan menambah 10 developer, jadi wajar jika biaya pendukung ikut naik
Sudut pandangnya adalah meninjau kembali apakah Anda bisa meyakinkan secara logis soal efisiensi untuk memperoleh lebih banyak resource CI atau mengusulkan arah optimisasi
Saya penasaran berapa biaya per mesin resource CI
Di aplikasi Python, saya pernah sangat mempercepat CI dengan toolchain astral.sh serta instalasi paket
uv+ pemanfaatan cachingDalam waktu dekat saya berencana pindah dari mypy ke type checker milik astral, yang kemungkinan akan membuatnya lebih cepat lagi
Untuk aplikasi dengan frontend, tes Playwright mungkin akan jadi bagian paling lambat, tetapi bahkan itu tidak relevan di aplikasi lain
(P.S.: kalau Mike yang dimaksud memang orang yang benar, saya ingat dia sebagai SRE yang pernah bekerja bersama di Google Maps pada awal 2000-an, jadi pendapatnya terasa meyakinkan)
Saat saya meminta pola regex di Mercury playground, model itu sendiri mulai membuat rencana, menulis polanya, lalu mulai membuat tes
Namun model itu terus menambah tes tanpa henti sampai akhirnya mencapai batas konteks dan responsnya terputus
Setelah sekitar 30 tes, model mulai salah memberi anotasi pada komentar hasil tes, dan setelah melewati 120 tes, input tesnya sendiri mulai aneh dengan banyak karakter acak
Polanya sendiri juga bukan jawaban yang benar, tetapi fenomena "loop tak berujung" ini justru jadi isu yang lebih menarik
Sebagai referensi, saya ingat sampai belum lama ini LLM biasa pun sering menghasilkan keluaran berulang yang tampak seperti "hampir loop tak berujung"
Terjebak dalam pola keluaran yang hanya berubah sedikit demi sedikit
Saya menganggap kasus ini sebagai bukti representatif bahwa "hanya dengan prediksi token tidak mungkin membuat kode secara akurat"
LLM sejak awal memang tidak dirancang agar cocok untuk penalaran kode
Dari hasil membaca technical report, saya memastikan bahwa Mercury berbasis paper Lou et al. 2023, SEDD
Saya (mungkin) orang pertama yang mengimplementasikan ulang SEDD dari nol, dan kodenya saya buka
Saya juga mengimplementasikan sendiri metode denoising yang kompleks
Saya merancangnya agar lebih rapi dan mudah dibaca dibanding SEDD yang ada, dan bisa dijalankan dalam beberapa jam pada satu GPU untuk dataset mainan
Sebagai catatan, DeepMind juga punya model Gemini berbasis diffusion (tautan)
Setelah saya coba sendiri, kecepatannya memang segila Mercury, tetapi kualitas jawabannya terasa jauh lebih buruk dibanding Gemini lainnya
Dari pemakaian singkat saya juga setuju bahwa kecepatannya mengesankan, tetapi tingkat jawaban benarnya turun cukup banyak
Saya penasaran apakah demo Gemini Diffusion gratis
Saya sudah beberapa hari ada di waiting list jadi belum sempat benar-benar mencobanya
Secara pribadi saya sangat menantikan perkembangan seperti ini
Belakangan saya membuat game sederhana dengan AI saat game jam, dan lebih dari separuh waktu habis hanya untuk menunggu hasil
Kalau dibanding kondisi sekarang yang butuh 1–2 menit per prompt, menunggu hanya 10 detik akan memungkinkan lima sampai sepuluh kali eksperimen dalam waktu yang sebelumnya hanya cukup untuk satu kali tes
Mercury memang belum cukup matang untuk dipakai secara praktis, tetapi Claude 3.0 pun setahun lalu masih belum matang, jadi ke depan kemungkinan akan makin baik
Rasanya ini benar-benar momen yang sangat layak dinantikan
Setelah mencoba Mercury playground, kecepatannya memang luar biasa
Visualisasi diffusion mode juga terasa segar, tetapi secara praktis tampaknya itu memperlihatkan proses pemurnian bertahap dari noise garis yang divisualisasikan menuju keadaan yang makin akurat
Dalam praktiknya, saya melihatnya sebagai proses konvergensi bertahap di ruang vektor acak menuju token yang makin pasti
Beberapa model text diffusion memang menggunakan latent space kontinu, tetapi performanya kurang bagus
Belakangan kebanyakan berfokus pada prediksi keluaran token yang sebenarnya sambil merevisi nilai sebelumnya di tiap langkah hingga konvergen ke hasil akhir
Saya merekomendasikan tautan penjelasan cara kerja text diffusion yang saya tulis
Tautan: https://chat.inceptionlabs.ai/
Rasanya benar-benar cepat sekali sampai sulit dipercaya
Sebagian besar kode yang dekat dengan GPU masih punya ruang sangat besar untuk optimisasi performa
Namun ada pertanyaan apakah paper arXiv ini lebih mirip pemasaran daripada riset sungguhan
Pendapat lain sangat diterima
Kebijakan harga model Mercury
1 dolar per 1 juta token output, 0,25 dolar per 1 juta token input
Untuk detail harga, lihat di sini
Untuk kasus yang sensitif terhadap performa, saat membandingkan Mercury dan Groq (Llama 3.1 8b, Llama 4 Scout), performanya mirip tetapi harga Groq jauh lebih menguntungkan
Saya tertarik dan terus mengamati sambil berharap muncul model diffusion open-source
Di kode playground dan respons API terlihat item
gpt-3.5-turbodan"openai": true, jadi saya penasaran apakah sebenarnya ini memanggil OpenAI, bukan dLLM mereka sendiriFitur diffusion effect di kanan atas tampak seperti sekadar efek animasi
Semuanya memang terdengar keren, tetapi
Syarat layanannya menyatakan bahwa ketika pengguna mengirim posting ke layanan, mereka memberi Inception lisensi yang tidak eksklusif secara global, permanen, bebas royalti, gratis, dan dapat dialihkan sepenuhnya
Artinya, konten pengguna bisa dipakai untuk tujuan pelatihan model AI
(Namun, ada klausul pengecualian bahwa akses melalui OpenRouter tidak digunakan untuk pelatihan)