- Model bahasa yang menggunakan metode generasi paralel berbasis diffusion untuk mengatasi batas kecepatan LLM decoding sekuensial yang ada
- Dengan arsitektur parallel refinement yang menghasilkan dan merevisi beberapa token sekaligus, model ini mencapai kecepatan respons lebih dari 5x lebih cepat
- Dioptimalkan untuk aplikasi real-time dengan 1.009 token/detik, konteks 128K, output JSON, dan kemampuan penggunaan tool
- Terbukti efisien di lingkungan yang sensitif terhadap latensi seperti bantuan coding, agent loop, antarmuka suara, serta pipeline pencarian·RAG
- Sepenuhnya kompatibel dengan OpenAI API dan dapat langsung diintegrasikan tanpa perubahan pada infrastruktur yang ada
Gambaran umum Mercury 2
- Mercury 2 adalah model bahasa inferensi tercepat di dunia
- Tujuannya adalah menghadirkan respons instan di lingkungan AI produksi
- Bottleneck pada LLM konvensional terletak pada struktur decoding autoregresif sekuensial (one token at a time)
- Akibatnya, latensi terus terakumulasi pada workflow AI berbentuk loop berulang
Arsitektur inferensi real-time berbasis difusi
- Mercury 2 mengadopsi metode parallel refinement alih-alih decoding sekuensial
- Menghasilkan beberapa token secara bersamaan lalu konvergen dalam sedikit tahap
- Bentuknya seperti “editor” yang berulang kali merevisi seluruh draf, bukan “mesin tik”
- Hasilnya, model ini mewujudkan kecepatan generasi lebih dari 5x dan kurva kecepatan baru
- Inferensi berbasis difusi memungkinkan inferensi berkualitas tinggi sambil meminimalkan latensi dan biaya
Kinerja dan spesifikasi
- Kecepatan: 1.009 token/detik pada NVIDIA Blackwell GPU
- Harga: $0.25 per 1 juta token input, $0.75 per 1 juta token output
- Kualitas: setara kompetitif dengan model utama yang dioptimalkan untuk kecepatan
- Fitur: tunable reasoning, konteks 128K, penggunaan tool, output yang selaras dengan skema JSON
- Optimasi latensi: latensi p95, respons yang konsisten di lingkungan konkurensi tinggi, dan throughput yang tetap stabil
- Seorang pejabat NVIDIA menyebut Mercury 2 melampaui 1.000 token/detik saat dipadukan dengan infrastruktur AI NVIDIA
Contoh penggunaan di produksi
1. Coding dan editing
- Memberikan respons instan dalam loop pengembang seperti autocomplete, refactoring, dan code agent
- Co-founder Zed, Max Brunsfeld, menekankan “kecepatan saran yang terasa seperti bagian dari pikiran”
2. Agent loop
- Mengurangi latensi pemanggilan pada workflow agent yang memerlukan inferensi multi-tahap
- Viant memperkuat optimasi kampanye real-time dan sistem iklan otonom dengan memanfaatkan Mercury 2
- Wispr Flow sedang mengevaluasi kecepatan Mercury 2 untuk percakapan real-time dan refinement transkripsi
- Skyvern menyebut model ini “setidaknya dua kali lebih cepat daripada GPT-5.2”
3. Suara dan interaksi real-time
- Antarmuka suara memiliki batas latensi yang paling ketat
- Happyverse AI mewujudkan avatar percakapan real-time yang natural dengan Mercury 2
- OpenCall menyebut rendahnya latensi dan tingginya kualitas memungkinkan pembangunan voice agent yang lebih responsif
4. Pencarian dan pipeline RAG
- Memungkinkan inferensi real-time dengan mengurangi latensi kumulatif dari proses multi-pencarian, reranking, dan peringkasan
- SearchBlox, melalui kolaborasi dengan Mercury 2, mewujudkan AI pencarian real-time,
menghadirkan intelijen dalam hitungan detik di berbagai bidang seperti dukungan pelanggan, risiko, dan e-commerce
Deployment dan integrasi
- Mercury 2 tersedia sekarang dan sepenuhnya kompatibel dengan OpenAI API
- Dapat diintegrasikan ke sistem yang ada tanpa modifikasi kode
- Untuk evaluasi enterprise, tersedia dukungan untuk kesesuaian workload, validasi kinerja, dan desain evaluasi
- Pernyataan resmi: “Mercury 2 is live. Welcome to diffusion.”
1 komentar
Komentar Hacker News
Konsep mengukur kecerdasan (metric) per detik terasa menarik
Misalnya dengan mempertimbangkan kecerdasan per token, sekaligus jumlah token per detik
Secara pribadi, jika Sonnet 4.6 5 kali lebih cepat daripada Opus 4.6, saya kemungkinan besar akan lebih sering memakai Sonnet
Di generasi sebelumnya, lini Sonnet belum cukup bagus, tetapi sekarang keuntungan iterasi (iteration) dari kecepatan jadi jauh lebih besar sehingga situasinya berubah
Dulu saya memakai OpenAI Deep Research, tetapi o3-thinking + pencarian web jauh lebih cepat sambil tetap cukup pintar
Jika mengembangkan API dengan hardware seperti Cereberas atau Groq, kecepatan iterasi dan biaya berada di level yang benar-benar berbeda
Dalam catatan riset yang baru saya tulis juga ditunjukkan bahwa performa meningkat besar jika perencanaan adalah model AR, sedangkan generasi menggunakan model diffusion
Misalnya kalau 5 ton batu bara sudah cukup, tetapi memakai 30 ton untuk peningkatan 0.0000000001%, itu bukan kemajuan yang nyata
Model Composer atau versi Flash adalah contohnya, dan Mercury 2 juga diposisikan sebagai model yang kuat dalam kategori ini
Model cepat unggul dalam iterasi, sementara model besar lebih akurat pada percobaan pertama
Saat ini saya suka Opus 4.6, tetapi saya ingin melihat perbedaan efisiensi dibanding Sonnet dalam bentuk data
Itu juga alasan saya menyukai Gemini 3 Flash — cukup pintar sambil sangat cepat sampai sulit dipercaya
Saya mencoba tes sederhana; saat ditanya tentang “pencapaian Maradona”, Mercury 2 salah ketik menjadi “Dieadona”
Bahkan model lokal 3B pun bisa menjawab pertanyaan ini dengan sempurna, tetapi Mercury 2 lambat dan banyak error
Mercury 2 menghasilkan respons dengan metode parallel refinement (penyempurnaan paralel)
Strukturnya menghasilkan beberapa token sekaligus lalu konvergen dalam beberapa tahap, jadi bukan seperti mesin tik melainkan memoles draf utuh seperti editor
Sedang ada riset yang menyatukan DDPM dan SGM lewat SDE, dan saya penasaran apakah setiap layer transformer bisa dipandang sebagai langkah diffusion
Jika L layer pada transformer berkorespondensi dengan L tahap penyempurnaan pada diffusion, mungkin saja fitting timbal balik antara kedua model bisa dilakukan
Sebagai co-founder Inception dan Chief Scientist, saya terbuka untuk pertanyaan teknis tentang Mercury 2 atau diffusion LM
Saya ingin tahu apakah itu bisa mengurangi latency atau biaya, apakah kurvanya mirip dengan caching autoregressive, atau justru sama sekali tidak berlaku
Menarik juga apakah panjang blok dinamis dapat diterapkan
Pada sebagian besar sistem suara, yang penting bukan total latensi respons melainkan TTFT(time-to-first-token)
Saya ingin tahu seberapa besar peningkatan angka TTFT Mercury 2 dibanding model reasoning lain
Lihat tautan kasus
Saya penasaran apa penyebab fenomena ini
Hal yang paling menarik adalah munculnya model yang menghasilkan ribuan token per detik
Dengan begitu, sekalipun dilakukan multi-shot prompting atau nudging, pengguna mungkin tidak akan merasakannya, sehingga masalah halusinasi atau respons non-deterministik bisa berkurang
Mercury 2 memungkinkan iterasi cepat pada pekerjaan agen
Satu kali percobaan mungkin kurang akurat, tetapi karena waktu eksekusinya singkat, perbaikan bisa dilakukan jauh lebih cepat
Misalnya GPT-OSS 20B pada satu 3090 bisa mencapai sekitar 2k tok/s dengan bs=64
Saya masih belum yakin dengan model diffusion
Google dan lainnya juga sudah mencoba, tetapi dalam banyak kasus mereka tertinggal di Pareto frontier
Lihat tautan perbandingan harga/kinerja
Dengan standar kualitas yang sama, Mercury lebih dari 5 kali lebih cepat daripada model AR serupa
Kecerdasan absolutnya masih di bawah Opus atau Gemini Pro, tetapi dari sisi kecepatan inferensi ada keunggulan besar
Ini wilayah yang jauh lebih belum terjamah dibanding transformer autoregressive, jadi headroom teknis-nya besar
Kalau ada versi “Mercury Edit” seperti Fast Apply dari Morph, saya pasti ingin mencobanya
Pendekatan berbasis diffusion sangat menarik
Transformer tradisional menghasilkan token secara berurutan, tetapi diffusion dapat secara berulang menyempurnakan (refine) seluruh output
Jika masalah latency berhasil diatasi, ini bisa membuka kemungkinan baru untuk tugas reasoning yang kompleks
Saya penasaran apakah ada open-weight diffusion LLM yang bisa dijalankan di hardware lokal
Saya ingin langsung melihat perbedaan performanya di lingkungan GPU konsumen
Mercury 2 gagal pada Car Wash Test
Daripada sebagai model reasoning umum, mungkin lebih baik fokus pada use case tertentu (misalnya agen coding) dan membandingkannya dengan model SOTA di bidang itu seperti Qwen3-Coder-Next
Bahkan jika harus menjalankan sesi panjang, akurasi tetap lebih penting
Jika model ini dipasang pada chip Talaas, saya penasaran apakah ia bisa menghasilkan lebih dari 50.000 token per detik