Mercury 2: LLM inferensi ultra-cepat berbasis difusi

(inceptionlabs.ai)

7 poin oleh GN⁺ 2026-02-26 | 1 komentar | Bagikan ke WhatsApp

Model bahasa yang menggunakan metode generasi paralel berbasis diffusion untuk mengatasi batas kecepatan LLM decoding sekuensial yang ada
Dengan arsitektur parallel refinement yang menghasilkan dan merevisi beberapa token sekaligus, model ini mencapai kecepatan respons lebih dari 5x lebih cepat
Dioptimalkan untuk aplikasi real-time dengan 1.009 token/detik, konteks 128K, output JSON, dan kemampuan penggunaan tool
Terbukti efisien di lingkungan yang sensitif terhadap latensi seperti bantuan coding, agent loop, antarmuka suara, serta pipeline pencarian·RAG
Sepenuhnya kompatibel dengan OpenAI API dan dapat langsung diintegrasikan tanpa perubahan pada infrastruktur yang ada

Gambaran umum Mercury 2

Mercury 2 adalah model bahasa inferensi tercepat di dunia
- Tujuannya adalah menghadirkan respons instan di lingkungan AI produksi
Bottleneck pada LLM konvensional terletak pada struktur decoding autoregresif sekuensial (one token at a time)
- Akibatnya, latensi terus terakumulasi pada workflow AI berbentuk loop berulang

Arsitektur inferensi real-time berbasis difusi

Mercury 2 mengadopsi metode parallel refinement alih-alih decoding sekuensial
- Menghasilkan beberapa token secara bersamaan lalu konvergen dalam sedikit tahap
- Bentuknya seperti “editor” yang berulang kali merevisi seluruh draf, bukan “mesin tik”
Hasilnya, model ini mewujudkan kecepatan generasi lebih dari 5x dan kurva kecepatan baru
Inferensi berbasis difusi memungkinkan inferensi berkualitas tinggi sambil meminimalkan latensi dan biaya

Kinerja dan spesifikasi

Kecepatan: 1.009 token/detik pada NVIDIA Blackwell GPU
Harga: $0.25 per 1 juta token input, $0.75 per 1 juta token output
Kualitas: setara kompetitif dengan model utama yang dioptimalkan untuk kecepatan
Fitur: tunable reasoning, konteks 128K, penggunaan tool, output yang selaras dengan skema JSON
Optimasi latensi: latensi p95, respons yang konsisten di lingkungan konkurensi tinggi, dan throughput yang tetap stabil
Seorang pejabat NVIDIA menyebut Mercury 2 melampaui 1.000 token/detik saat dipadukan dengan infrastruktur AI NVIDIA

Contoh penggunaan di produksi

1. Coding dan editing

Memberikan respons instan dalam loop pengembang seperti autocomplete, refactoring, dan code agent
Co-founder Zed, Max Brunsfeld, menekankan “kecepatan saran yang terasa seperti bagian dari pikiran”

2. Agent loop

Mengurangi latensi pemanggilan pada workflow agent yang memerlukan inferensi multi-tahap
Viant memperkuat optimasi kampanye real-time dan sistem iklan otonom dengan memanfaatkan Mercury 2
Wispr Flow sedang mengevaluasi kecepatan Mercury 2 untuk percakapan real-time dan refinement transkripsi
Skyvern menyebut model ini “setidaknya dua kali lebih cepat daripada GPT-5.2”

3. Suara dan interaksi real-time

Antarmuka suara memiliki batas latensi yang paling ketat
Happyverse AI mewujudkan avatar percakapan real-time yang natural dengan Mercury 2
OpenCall menyebut rendahnya latensi dan tingginya kualitas memungkinkan pembangunan voice agent yang lebih responsif

4. Pencarian dan pipeline RAG

Memungkinkan inferensi real-time dengan mengurangi latensi kumulatif dari proses multi-pencarian, reranking, dan peringkasan
SearchBlox, melalui kolaborasi dengan Mercury 2, mewujudkan AI pencarian real-time,
menghadirkan intelijen dalam hitungan detik di berbagai bidang seperti dukungan pelanggan, risiko, dan e-commerce

Deployment dan integrasi

Mercury 2 tersedia sekarang dan sepenuhnya kompatibel dengan OpenAI API
Dapat diintegrasikan ke sistem yang ada tanpa modifikasi kode
Untuk evaluasi enterprise, tersedia dukungan untuk kesesuaian workload, validasi kinerja, dan desain evaluasi
Pernyataan resmi: “Mercury 2 is live. Welcome to diffusion.”

1 komentar

GN⁺ 2026-02-26

Komentar Hacker News

Konsep mengukur kecerdasan (metric) per detik terasa menarik
Misalnya dengan mempertimbangkan kecerdasan per token, sekaligus jumlah token per detik
Secara pribadi, jika Sonnet 4.6 5 kali lebih cepat daripada Opus 4.6, saya kemungkinan besar akan lebih sering memakai Sonnet
Di generasi sebelumnya, lini Sonnet belum cukup bagus, tetapi sekarang keuntungan iterasi (iteration) dari kecepatan jadi jauh lebih besar sehingga situasinya berubah
Dulu saya memakai OpenAI Deep Research, tetapi o3-thinking + pencarian web jauh lebih cepat sambil tetap cukup pintar
- Saya menganggap bahwa “kecepatan itu sendiri adalah salah satu dimensi kualitas”
  Jika mengembangkan API dengan hardware seperti Cereberas atau Groq, kecepatan iterasi dan biaya berada di level yang benar-benar berbeda
  Dalam catatan riset yang baru saya tulis juga ditunjukkan bahwa performa meningkat besar jika perencanaan adalah model AR, sedangkan generasi menggunakan model diffusion
- Akan lebih realistis jika metrik ini menambahkan efisiensi per unit hardware
  Misalnya kalau 5 ton batu bara sudah cukup, tetapi memakai 30 ton untuk peningkatan 0.0000000001%, itu bukan kemajuan yang nyata
- Kini mulai muncul keluarga model baru yang menargetkan iterasi agen yang cepat
  Model Composer atau versi Flash adalah contohnya, dan Mercury 2 juga diposisikan sebagai model yang kuat dalam kategori ini
- Sepertinya kita segera bisa melakukan benchmark nyata
  Model cepat unggul dalam iterasi, sementara model besar lebih akurat pada percobaan pertama
  Saat ini saya suka Opus 4.6, tetapi saya ingin melihat perbedaan efisiensi dibanding Sonnet dalam bentuk data
- Saya sangat menyukai konsep “Intelligence per second”
  Itu juga alasan saya menyukai Gemini 3 Flash — cukup pintar sambil sangat cepat sampai sulit dipercaya
Saya mencoba tes sederhana; saat ditanya tentang “pencapaian Maradona”, Mercury 2 salah ketik menjadi “Dieadona”
Bahkan model lokal 3B pun bisa menjawab pertanyaan ini dengan sempurna, tetapi Mercury 2 lambat dan banyak error
Mercury 2 menghasilkan respons dengan metode parallel refinement (penyempurnaan paralel)
Strukturnya menghasilkan beberapa token sekaligus lalu konvergen dalam beberapa tahap, jadi bukan seperti mesin tik melainkan memoles draf utuh seperti editor
Sedang ada riset yang menyatukan DDPM dan SGM lewat SDE, dan saya penasaran apakah setiap layer transformer bisa dipandang sebagai langkah diffusion
Jika L layer pada transformer berkorespondensi dengan L tahap penyempurnaan pada diffusion, mungkin saja fitting timbal balik antara kedua model bisa dilakukan
Sebagai co-founder Inception dan Chief Scientist, saya terbuka untuk pertanyaan teknis tentang Mercury 2 atau diffusion LM
- Saya penasaran bagaimana KV cache bekerja pada model diffusion
  Saya ingin tahu apakah itu bisa mengurangi latency atau biaya, apakah kurvanya mirip dengan caching autoregressive, atau justru sama sekali tidak berlaku
- Model diffusion tampak seperti melakukan reasoning pada unit blok teks; saya penasaran bagaimana penanganannya saat ada ketergantungan informasi antarbIok
  Menarik juga apakah panjang blok dinamis dapat diterapkan
- Saya penasaran dengan cara kerja nyata dari Voice AI yang disebutkan dalam presentasi
  Pada sebagian besar sistem suara, yang penting bukan total latensi respons melainkan TTFT(time-to-first-token)
  Saya ingin tahu seberapa besar peningkatan angka TTFT Mercury 2 dibanding model reasoning lain
- Saya pernah mengalami fenomena terjebak dalam loop seperti model transformer yang lemah
  Lihat tautan kasus
  Saya penasaran apa penyebab fenomena ini
- Saya juga ingin tahu apakah ada rencana berkembang ke drifting model demi kecepatan yang lebih tinggi
Hal yang paling menarik adalah munculnya model yang menghasilkan ribuan token per detik
Dengan begitu, sekalipun dilakukan multi-shot prompting atau nudging, pengguna mungkin tidak akan merasakannya, sehingga masalah halusinasi atau respons non-deterministik bisa berkurang
- Kami juga berpikir demikian
  Mercury 2 memungkinkan iterasi cepat pada pekerjaan agen
  Satu kali percobaan mungkin kurang akurat, tetapi karena waktu eksekusinya singkat, perbaikan bisa dilakukan jauh lebih cepat
- Model umum juga cukup cepat jika memakai batch inference
  Misalnya GPT-OSS 20B pada satu 3090 bisa mencapai sekitar 2k tok/s dengan bs=64
Saya masih belum yakin dengan model diffusion
Google dan lainnya juga sudah mencoba, tetapi dalam banyak kasus mereka tertinggal di Pareto frontier
Lihat tautan perbandingan harga/kinerja
- Ada sanggahan terhadap sudut pandang Pareto itu
  Dengan standar kualitas yang sama, Mercury lebih dari 5 kali lebih cepat daripada model AR serupa
  Kecerdasan absolutnya masih di bawah Opus atau Gemini Pro, tetapi dari sisi kecepatan inferensi ada keunggulan besar
- Text diffusion masih punya banyak ruang untuk berkembang
  Ini wilayah yang jauh lebih belum terjamah dibanding transformer autoregressive, jadi headroom teknis-nya besar
- Model ini tampaknya sempurna untuk use case edit yang cepat
  Kalau ada versi “Mercury Edit” seperti Fast Apply dari Morph, saya pasti ingin mencobanya
Pendekatan berbasis diffusion sangat menarik
Transformer tradisional menghasilkan token secara berurutan, tetapi diffusion dapat secara berulang menyempurnakan (refine) seluruh output
Jika masalah latency berhasil diatasi, ini bisa membuka kemungkinan baru untuk tugas reasoning yang kompleks
Saya penasaran apakah ada open-weight diffusion LLM yang bisa dijalankan di hardware lokal
Saya ingin langsung melihat perbedaan performanya di lingkungan GPU konsumen
Mercury 2 gagal pada Car Wash Test
Daripada sebagai model reasoning umum, mungkin lebih baik fokus pada use case tertentu (misalnya agen coding) dan membandingkannya dengan model SOTA di bidang itu seperti Qwen3-Coder-Next
- Secara pribadi saya lebih memilih model yang lambat tetapi akurat daripada model yang cepat tetapi banyak error
  Bahkan jika harus menjalankan sesi panjang, akurasi tetap lebih penting
Jika model ini dipasang pada chip Talaas, saya penasaran apakah ia bisa menghasilkan lebih dari 50.000 token per detik
- Jika ditanamkan sebagai sirkuit bergaya ASIC tanpa latensi memori, rasanya model apa pun bisa memperoleh peningkatan kecepatan yang luar biasa

Mercury 2: LLM inferensi ultra-cepat berbasis difusi

Gambaran umum Mercury 2

Arsitektur inferensi real-time berbasis difusi

Kinerja dan spesifikasi

Contoh penggunaan di produksi

1. Coding dan editing

2. Agent loop

3. Suara dan interaksi real-time

4. Pencarian dan pipeline RAG

Deployment dan integrasi

Bacaan terkait

1 komentar

Komentar Hacker News