10 poin oleh GN⁺ 2025-07-08 | 1 komentar | Bagikan ke WhatsApp
  • Mercury adalah model bahasa besar (LLM) komersial baru yang memanfaatkan pendekatan diffusion
  • Model ini berbasis arsitektur Transformer dan memiliki karakteristik memprediksi banyak token secara paralel
  • Mercury Coder adalah rangkaian diffusion LLM pertama, dikembangkan untuk penulisan kode, dan tersedia dalam dua ukuran: Mini dan Small
  • Pada GPU NVIDIA H100, model ini mencatat throughput 1109 (Mini) dan 737 (Small) token/detik, serta menunjukkan performa hingga 10 kali lebih cepat dibanding model berfokus kecepatan yang ada pada kualitas yang sama
  • Dalam benchmark penggunaan nyata dan evaluasi pengembang seperti Copilot Arena, model ini juga mencatat kualitas peringkat 2 dan kecepatan tertinggi, serta menyediakan API publik dan playground

Gambaran umum

  • Mercury adalah seri baru model bahasa besar berbasis diffusion yang merupakan LLM generasi baru yang berjalan pada skala komersial
  • Semua model diparameterisasi dengan arsitektur Transformer dan dilatih untuk memprediksi beberapa token secara paralel
  • Laporan ini terutama memperkenalkan lini pertama Mercury Coder, yang dirancang untuk aplikasi pembuatan kode
  • Mercury Coder saat ini tersedia dalam dua ukuran model: Mini dan Small

Kontribusi utama

  • Mercury Coder mencapai tingkat state-of-the-art baru dalam keseimbangan antara kecepatan dan kualitas
  • Berdasarkan Artificial Analysis, lembaga evaluasi eksternal:
    • Mercury Coder Mini: 1109 token per detik
    • Mercury Coder Small: 737 token per detik pada GPU NVIDIA H100
    • Menunjukkan kualitas serupa dengan rata-rata hingga 10 kali lebih cepat dibanding model frontier tercepat
  • Disediakan juga hasil evaluasi tambahan pada benchmark kode untuk berbagai bahasa pemrograman dan kasus penggunaan
  • Di lingkungan pengembang nyata (Copilot Arena) juga:
    • Peringkat 2 berdasarkan kualitas
    • Peringkat 1 keseluruhan berdasarkan kecepatan
  • Mendukung API publik ( platform.inceptionlabs.ai ) dan playground chat gratis ( chat.inceptionlabs.ai ) yang dapat digunakan siapa saja

Penjelasan struktur daftar isi

  • Introduction (pengantar)
    • Kontribusi utama (Contributions)
  • Inception Mercury Model Family (penjelasan keluarga model)
    • Proses pelatihan (Training)
    • Metode inferensi (Inference)
  • Capabilities (kemampuan model)
    • Performa baseline (Baselines)
    • Kemampuan pembuatan kode (Coding Capabilities)
      • Benchmark evaluasi (Evaluation Benchmarks)

Ringkasan

  • Mercury menggabungkan desain LLM inovatif berbasis diffusion dengan struktur prediksi paralel untuk mewujudkan kecepatan luar biasa dan kualitas tinggi di bidang pembuatan kode
  • Melalui model dengan berbagai ukuran, benchmark layanan nyata yang kuat, dan aksesibilitas yang mudah, model ini menawarkan opsi yang kompetitif untuk lingkungan komersial maupun pengembangan

1 komentar

 
GN⁺ 2025-07-08
Komentar Hacker News
  • Ditekankan bahwa ketika agen LLM diadopsi, performa pengujian kemungkinan akan berubah menjadi bottleneck CPU yang lebih parah, dan bahkan sekarang pun semua tim sudah mengalami hambatan karena kecepatan CI
    Meski agen menulis kode 100 kali lebih cepat daripada manusia, kalau pengujian butuh satu jam maka itu jadi tidak banyak berarti
    Di banyak proyek tempat saya pernah bekerja, ada banyak waktu developer yang terbuang hanya karena menunggu perubahan diterapkan, dan banyak eksekusi tersendat karena I/O atau kurangnya worker
    Saat agen coding dengan cepat mengubah tiket sederhana menjadi PR dan memperbaikinya secara real-time sebagai respons terhadap kegagalan tes, bottleneck CI akan makin memburuk
    Sebagian besar lingkungan pengujian proyek sebenarnya masih sangat bisa ditingkatkan, tetapi dalam praktiknya orang-orang sudah terbiasa menganggap CI lambat dan biaya tinggi sebagai hal normal selama bertahun-tahun tanpa banyak kemajuan
    CI malah menjadi lebih lambat saat caching dimatikan demi mengisolasi build sepenuhnya, atau saat pindah dari on-premise ke cloud VM yang lebih lambat
    Kecepatan Mercury terasa gila, dan setelah saya mengujinya beberapa kali, kualitas kodenya juga sangat baik dan akurat, tetapi sekarang tantangannya adalah membuat eksekusi tes bisa mengikuti kecepatan ini

    • Saya kurang bisa menerima gagasan bahwa di sebagian besar proyek tempat saya bekerja, waktu developer terbuang karena menunggu persetujuan PR
      Dari sudut pandang perusahaan, waktu developer jauh lebih mahal daripada waktu mesin, jadi kalau developer mulai mengeluh, ini masalah yang bisa diselesaikan dengan menggandakan jumlah worker CI
      Di Google, saat mendebug flaky test, ada kasus menjalankan satu tes 10 ribu kali di 10 ribu mesin untuk menemukan kegagalan langka
      Tempat kerja saya saat ini juga menyediakan pendekatan serupa, dengan tujuan memberi umpan balik untuk proyek 1M LOC dalam waktu kurang dari 5 menit lewat satu perintah yang menjalankan semua tes secara paralel di 1.000 worker
      Mengisolasi build sepenuhnya dan tidak menggunakan caching adalah dua hal berbeda; build harus benar-benar terisolasi sambil tetap memanfaatkan semua cache semaksimal mungkin

    • Jika kecepatan implementasi meningkat, bottleneck akan bergeser ke sisi PM, dan dalam kasus ini diperkirakan konflik akan jauh berkurang karena perubahan diproses lebih serial
      Ada juga kemungkinan kebangkitan bahasa definisi spesifikasi (seperti TLA+), karena agen bisa menulis dan memverifikasinya dengan cepat, sehingga jumlah integration test secara keseluruhan bisa berkurang
      Ketika agen background merapikan kode duplikat, ada kemungkinan tes yang duplikat ikut dirapikan
      AI tampaknya akan bekerja lebih efisien dalam struktur monolitik dibanding tim engineer manusia, dan ini bisa meningkatkan cakupan tes yang dapat dijalankan secara lokal, sehingga flaky berkurang dan beban CI menurun
      Meski AI meningkatkan efisiensi, saya yakin itu juga akan terus memunculkan masalah baru melalui lebih banyak kode, pembuatan kode yang lebih cepat, dan eksekusi yang lebih cepat, sehingga akan selalu ada masalah baru yang perlu diselesaikan engineer manusia

    • LLM masih oke untuk perbaikan kecil di bawah 100 baris, atau sekadar jadi rubber duck, tetapi jika langsung dimasukkan ke pipeline CI proyek besar, ada kekhawatiran penurunan produktivitas hingga ratusan jam
      Kalau pada akhirnya waktu yang seharusnya dipakai untuk meningkatkan kemampuan menulis kode malah habis untuk prompt tuning dan mengatur konteks, itu tidak ada artinya
      Saya merasa kepercayaan diri terhadap tooling LLM terlalu besar, dan menurut saya itu tidak cocok untuk sistem yang kompleks
      Ada ketidakpercayaan yang sangat besar sampai-sampai LLM tidak mungkin dibiarkan tanpa pengawasan di repositori penting, kecuali "dengan todongan senjata"
      Pada akhirnya hasil LLM sering tetap harus diedit ulang setengahnya, dan kalau begitu lebih baik dikerjakan sendiri dari awal

    • Sebelum ada mobil, hampir tidak ada biaya untuk bensin, oli, perawatan, dan sebagainya, tetapi ketika sistem berkembang, infrastruktur pendukung dan biayanya ikut muncul
      Ada semacam siklus di mana bottleneck diselesaikan dengan AI atau lebih banyak fitur dibuat untuk memaksimalkan pendapatan, lalu pendapatan tambahan itu dipakai untuk menambah resource CI
      AI pada dasarnya tidak berbeda dengan menambah 10 developer, jadi wajar jika biaya pendukung ikut naik
      Sudut pandangnya adalah meninjau kembali apakah Anda bisa meyakinkan secara logis soal efisiensi untuk memperoleh lebih banyak resource CI atau mengusulkan arah optimisasi
      Saya penasaran berapa biaya per mesin resource CI

    • Di aplikasi Python, saya pernah sangat mempercepat CI dengan toolchain astral.sh serta instalasi paket uv + pemanfaatan caching
      Dalam waktu dekat saya berencana pindah dari mypy ke type checker milik astral, yang kemungkinan akan membuatnya lebih cepat lagi
      Untuk aplikasi dengan frontend, tes Playwright mungkin akan jadi bagian paling lambat, tetapi bahkan itu tidak relevan di aplikasi lain
      (P.S.: kalau Mike yang dimaksud memang orang yang benar, saya ingat dia sebagai SRE yang pernah bekerja bersama di Google Maps pada awal 2000-an, jadi pendapatnya terasa meyakinkan)

  • Saat saya meminta pola regex di Mercury playground, model itu sendiri mulai membuat rencana, menulis polanya, lalu mulai membuat tes
    Namun model itu terus menambah tes tanpa henti sampai akhirnya mencapai batas konteks dan responsnya terputus
    Setelah sekitar 30 tes, model mulai salah memberi anotasi pada komentar hasil tes, dan setelah melewati 120 tes, input tesnya sendiri mulai aneh dengan banyak karakter acak
    Polanya sendiri juga bukan jawaban yang benar, tetapi fenomena "loop tak berujung" ini justru jadi isu yang lebih menarik

    • Sebagai referensi, saya ingat sampai belum lama ini LLM biasa pun sering menghasilkan keluaran berulang yang tampak seperti "hampir loop tak berujung"
      Terjebak dalam pola keluaran yang hanya berubah sedikit demi sedikit

    • Saya menganggap kasus ini sebagai bukti representatif bahwa "hanya dengan prediksi token tidak mungkin membuat kode secara akurat"
      LLM sejak awal memang tidak dirancang agar cocok untuk penalaran kode

  • Dari hasil membaca technical report, saya memastikan bahwa Mercury berbasis paper Lou et al. 2023, SEDD
    Saya (mungkin) orang pertama yang mengimplementasikan ulang SEDD dari nol, dan kodenya saya buka
    Saya juga mengimplementasikan sendiri metode denoising yang kompleks
    Saya merancangnya agar lebih rapi dan mudah dibaca dibanding SEDD yang ada, dan bisa dijalankan dalam beberapa jam pada satu GPU untuk dataset mainan

  • Sebagai catatan, DeepMind juga punya model Gemini berbasis diffusion (tautan)
    Setelah saya coba sendiri, kecepatannya memang segila Mercury, tetapi kualitas jawabannya terasa jauh lebih buruk dibanding Gemini lainnya

    • Dari pemakaian singkat saya juga setuju bahwa kecepatannya mengesankan, tetapi tingkat jawaban benarnya turun cukup banyak

    • Saya penasaran apakah demo Gemini Diffusion gratis
      Saya sudah beberapa hari ada di waiting list jadi belum sempat benar-benar mencobanya

  • Secara pribadi saya sangat menantikan perkembangan seperti ini
    Belakangan saya membuat game sederhana dengan AI saat game jam, dan lebih dari separuh waktu habis hanya untuk menunggu hasil
    Kalau dibanding kondisi sekarang yang butuh 1–2 menit per prompt, menunggu hanya 10 detik akan memungkinkan lima sampai sepuluh kali eksperimen dalam waktu yang sebelumnya hanya cukup untuk satu kali tes
    Mercury memang belum cukup matang untuk dipakai secara praktis, tetapi Claude 3.0 pun setahun lalu masih belum matang, jadi ke depan kemungkinan akan makin baik
    Rasanya ini benar-benar momen yang sangat layak dinantikan

  • Setelah mencoba Mercury playground, kecepatannya memang luar biasa
    Visualisasi diffusion mode juga terasa segar, tetapi secara praktis tampaknya itu memperlihatkan proses pemurnian bertahap dari noise garis yang divisualisasikan menuju keadaan yang makin akurat
    Dalam praktiknya, saya melihatnya sebagai proses konvergensi bertahap di ruang vektor acak menuju token yang makin pasti

  • Sebagian besar kode yang dekat dengan GPU masih punya ruang sangat besar untuk optimisasi performa
    Namun ada pertanyaan apakah paper arXiv ini lebih mirip pemasaran daripada riset sungguhan
    Pendapat lain sangat diterima

    • Itu bukan poin yang sepenuhnya salah, tetapi kasus seperti ini juga bukan pertama kalinya di arXiv
  • Kebijakan harga model Mercury
    1 dolar per 1 juta token output, 0,25 dolar per 1 juta token input
    Untuk detail harga, lihat di sini

    • Harganya agak mahal
      Untuk kasus yang sensitif terhadap performa, saat membandingkan Mercury dan Groq (Llama 3.1 8b, Llama 4 Scout), performanya mirip tetapi harga Groq jauh lebih menguntungkan
      Saya tertarik dan terus mengamati sambil berharap muncul model diffusion open-source
  • Di kode playground dan respons API terlihat item gpt-3.5-turbo dan "openai": true, jadi saya penasaran apakah sebenarnya ini memanggil OpenAI, bukan dLLM mereka sendiri
    Fitur diffusion effect di kanan atas tampak seperti sekadar efek animasi

    • Karena kecepatannya terasa seperti real-time, rasanya terlalu cepat kalau benar memakai backend OpenAI
  • Semuanya memang terdengar keren, tetapi
    Syarat layanannya menyatakan bahwa ketika pengguna mengirim posting ke layanan, mereka memberi Inception lisensi yang tidak eksklusif secara global, permanen, bebas royalti, gratis, dan dapat dialihkan sepenuhnya
    Artinya, konten pengguna bisa dipakai untuk tujuan pelatihan model AI
    (Namun, ada klausul pengecualian bahwa akses melalui OpenRouter tidak digunakan untuk pelatihan)