7 poin oleh GN⁺ 2026-02-26 | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa yang menggunakan metode generasi paralel berbasis diffusion untuk mengatasi batas kecepatan LLM decoding sekuensial yang ada
  • Dengan arsitektur parallel refinement yang menghasilkan dan merevisi beberapa token sekaligus, model ini mencapai kecepatan respons lebih dari 5x lebih cepat
  • Dioptimalkan untuk aplikasi real-time dengan 1.009 token/detik, konteks 128K, output JSON, dan kemampuan penggunaan tool
  • Terbukti efisien di lingkungan yang sensitif terhadap latensi seperti bantuan coding, agent loop, antarmuka suara, serta pipeline pencarian·RAG
  • Sepenuhnya kompatibel dengan OpenAI API dan dapat langsung diintegrasikan tanpa perubahan pada infrastruktur yang ada

Gambaran umum Mercury 2

  • Mercury 2 adalah model bahasa inferensi tercepat di dunia
    • Tujuannya adalah menghadirkan respons instan di lingkungan AI produksi
  • Bottleneck pada LLM konvensional terletak pada struktur decoding autoregresif sekuensial (one token at a time)
    • Akibatnya, latensi terus terakumulasi pada workflow AI berbentuk loop berulang

Arsitektur inferensi real-time berbasis difusi

  • Mercury 2 mengadopsi metode parallel refinement alih-alih decoding sekuensial
    • Menghasilkan beberapa token secara bersamaan lalu konvergen dalam sedikit tahap
    • Bentuknya seperti “editor” yang berulang kali merevisi seluruh draf, bukan “mesin tik”
  • Hasilnya, model ini mewujudkan kecepatan generasi lebih dari 5x dan kurva kecepatan baru
  • Inferensi berbasis difusi memungkinkan inferensi berkualitas tinggi sambil meminimalkan latensi dan biaya

Kinerja dan spesifikasi

  • Kecepatan: 1.009 token/detik pada NVIDIA Blackwell GPU
  • Harga: $0.25 per 1 juta token input, $0.75 per 1 juta token output
  • Kualitas: setara kompetitif dengan model utama yang dioptimalkan untuk kecepatan
  • Fitur: tunable reasoning, konteks 128K, penggunaan tool, output yang selaras dengan skema JSON
  • Optimasi latensi: latensi p95, respons yang konsisten di lingkungan konkurensi tinggi, dan throughput yang tetap stabil
  • Seorang pejabat NVIDIA menyebut Mercury 2 melampaui 1.000 token/detik saat dipadukan dengan infrastruktur AI NVIDIA

Contoh penggunaan di produksi

1. Coding dan editing

  • Memberikan respons instan dalam loop pengembang seperti autocomplete, refactoring, dan code agent
  • Co-founder Zed, Max Brunsfeld, menekankan “kecepatan saran yang terasa seperti bagian dari pikiran

2. Agent loop

  • Mengurangi latensi pemanggilan pada workflow agent yang memerlukan inferensi multi-tahap
  • Viant memperkuat optimasi kampanye real-time dan sistem iklan otonom dengan memanfaatkan Mercury 2
  • Wispr Flow sedang mengevaluasi kecepatan Mercury 2 untuk percakapan real-time dan refinement transkripsi
  • Skyvern menyebut model ini “setidaknya dua kali lebih cepat daripada GPT-5.2

3. Suara dan interaksi real-time

  • Antarmuka suara memiliki batas latensi yang paling ketat
  • Happyverse AI mewujudkan avatar percakapan real-time yang natural dengan Mercury 2
  • OpenCall menyebut rendahnya latensi dan tingginya kualitas memungkinkan pembangunan voice agent yang lebih responsif

4. Pencarian dan pipeline RAG

  • Memungkinkan inferensi real-time dengan mengurangi latensi kumulatif dari proses multi-pencarian, reranking, dan peringkasan
  • SearchBlox, melalui kolaborasi dengan Mercury 2, mewujudkan AI pencarian real-time,
    menghadirkan intelijen dalam hitungan detik di berbagai bidang seperti dukungan pelanggan, risiko, dan e-commerce

Deployment dan integrasi

  • Mercury 2 tersedia sekarang dan sepenuhnya kompatibel dengan OpenAI API
  • Dapat diintegrasikan ke sistem yang ada tanpa modifikasi kode
  • Untuk evaluasi enterprise, tersedia dukungan untuk kesesuaian workload, validasi kinerja, dan desain evaluasi
  • Pernyataan resmi: “Mercury 2 is live. Welcome to diffusion.

1 komentar

 
GN⁺ 2026-02-26
Komentar Hacker News
  • Konsep mengukur kecerdasan (metric) per detik terasa menarik
    Misalnya dengan mempertimbangkan kecerdasan per token, sekaligus jumlah token per detik
    Secara pribadi, jika Sonnet 4.6 5 kali lebih cepat daripada Opus 4.6, saya kemungkinan besar akan lebih sering memakai Sonnet
    Di generasi sebelumnya, lini Sonnet belum cukup bagus, tetapi sekarang keuntungan iterasi (iteration) dari kecepatan jadi jauh lebih besar sehingga situasinya berubah
    Dulu saya memakai OpenAI Deep Research, tetapi o3-thinking + pencarian web jauh lebih cepat sambil tetap cukup pintar

    • Saya menganggap bahwa “kecepatan itu sendiri adalah salah satu dimensi kualitas
      Jika mengembangkan API dengan hardware seperti Cereberas atau Groq, kecepatan iterasi dan biaya berada di level yang benar-benar berbeda
      Dalam catatan riset yang baru saya tulis juga ditunjukkan bahwa performa meningkat besar jika perencanaan adalah model AR, sedangkan generasi menggunakan model diffusion
    • Akan lebih realistis jika metrik ini menambahkan efisiensi per unit hardware
      Misalnya kalau 5 ton batu bara sudah cukup, tetapi memakai 30 ton untuk peningkatan 0.0000000001%, itu bukan kemajuan yang nyata
    • Kini mulai muncul keluarga model baru yang menargetkan iterasi agen yang cepat
      Model Composer atau versi Flash adalah contohnya, dan Mercury 2 juga diposisikan sebagai model yang kuat dalam kategori ini
    • Sepertinya kita segera bisa melakukan benchmark nyata
      Model cepat unggul dalam iterasi, sementara model besar lebih akurat pada percobaan pertama
      Saat ini saya suka Opus 4.6, tetapi saya ingin melihat perbedaan efisiensi dibanding Sonnet dalam bentuk data
    • Saya sangat menyukai konsep “Intelligence per second”
      Itu juga alasan saya menyukai Gemini 3 Flash — cukup pintar sambil sangat cepat sampai sulit dipercaya
  • Saya mencoba tes sederhana; saat ditanya tentang “pencapaian Maradona”, Mercury 2 salah ketik menjadi “Dieadona”
    Bahkan model lokal 3B pun bisa menjawab pertanyaan ini dengan sempurna, tetapi Mercury 2 lambat dan banyak error

  • Mercury 2 menghasilkan respons dengan metode parallel refinement (penyempurnaan paralel)
    Strukturnya menghasilkan beberapa token sekaligus lalu konvergen dalam beberapa tahap, jadi bukan seperti mesin tik melainkan memoles draf utuh seperti editor
    Sedang ada riset yang menyatukan DDPM dan SGM lewat SDE, dan saya penasaran apakah setiap layer transformer bisa dipandang sebagai langkah diffusion
    Jika L layer pada transformer berkorespondensi dengan L tahap penyempurnaan pada diffusion, mungkin saja fitting timbal balik antara kedua model bisa dilakukan

  • Sebagai co-founder Inception dan Chief Scientist, saya terbuka untuk pertanyaan teknis tentang Mercury 2 atau diffusion LM

    • Saya penasaran bagaimana KV cache bekerja pada model diffusion
      Saya ingin tahu apakah itu bisa mengurangi latency atau biaya, apakah kurvanya mirip dengan caching autoregressive, atau justru sama sekali tidak berlaku
    • Model diffusion tampak seperti melakukan reasoning pada unit blok teks; saya penasaran bagaimana penanganannya saat ada ketergantungan informasi antarbIok
      Menarik juga apakah panjang blok dinamis dapat diterapkan
    • Saya penasaran dengan cara kerja nyata dari Voice AI yang disebutkan dalam presentasi
      Pada sebagian besar sistem suara, yang penting bukan total latensi respons melainkan TTFT(time-to-first-token)
      Saya ingin tahu seberapa besar peningkatan angka TTFT Mercury 2 dibanding model reasoning lain
    • Saya pernah mengalami fenomena terjebak dalam loop seperti model transformer yang lemah
      Lihat tautan kasus
      Saya penasaran apa penyebab fenomena ini
    • Saya juga ingin tahu apakah ada rencana berkembang ke drifting model demi kecepatan yang lebih tinggi
  • Hal yang paling menarik adalah munculnya model yang menghasilkan ribuan token per detik
    Dengan begitu, sekalipun dilakukan multi-shot prompting atau nudging, pengguna mungkin tidak akan merasakannya, sehingga masalah halusinasi atau respons non-deterministik bisa berkurang

    • Kami juga berpikir demikian
      Mercury 2 memungkinkan iterasi cepat pada pekerjaan agen
      Satu kali percobaan mungkin kurang akurat, tetapi karena waktu eksekusinya singkat, perbaikan bisa dilakukan jauh lebih cepat
    • Model umum juga cukup cepat jika memakai batch inference
      Misalnya GPT-OSS 20B pada satu 3090 bisa mencapai sekitar 2k tok/s dengan bs=64
  • Saya masih belum yakin dengan model diffusion
    Google dan lainnya juga sudah mencoba, tetapi dalam banyak kasus mereka tertinggal di Pareto frontier
    Lihat tautan perbandingan harga/kinerja

    • Ada sanggahan terhadap sudut pandang Pareto itu
      Dengan standar kualitas yang sama, Mercury lebih dari 5 kali lebih cepat daripada model AR serupa
      Kecerdasan absolutnya masih di bawah Opus atau Gemini Pro, tetapi dari sisi kecepatan inferensi ada keunggulan besar
    • Text diffusion masih punya banyak ruang untuk berkembang
      Ini wilayah yang jauh lebih belum terjamah dibanding transformer autoregressive, jadi headroom teknis-nya besar
    • Model ini tampaknya sempurna untuk use case edit yang cepat
      Kalau ada versi “Mercury Edit” seperti Fast Apply dari Morph, saya pasti ingin mencobanya
  • Pendekatan berbasis diffusion sangat menarik
    Transformer tradisional menghasilkan token secara berurutan, tetapi diffusion dapat secara berulang menyempurnakan (refine) seluruh output
    Jika masalah latency berhasil diatasi, ini bisa membuka kemungkinan baru untuk tugas reasoning yang kompleks

  • Saya penasaran apakah ada open-weight diffusion LLM yang bisa dijalankan di hardware lokal
    Saya ingin langsung melihat perbedaan performanya di lingkungan GPU konsumen

  • Mercury 2 gagal pada Car Wash Test
    Daripada sebagai model reasoning umum, mungkin lebih baik fokus pada use case tertentu (misalnya agen coding) dan membandingkannya dengan model SOTA di bidang itu seperti Qwen3-Coder-Next

    • Secara pribadi saya lebih memilih model yang lambat tetapi akurat daripada model yang cepat tetapi banyak error
      Bahkan jika harus menjalankan sesi panjang, akurasi tetap lebih penting
  • Jika model ini dipasang pada chip Talaas, saya penasaran apakah ia bisa menghasilkan lebih dari 50.000 token per detik

    • Jika ditanamkan sebagai sirkuit bergaya ASIC tanpa latensi memori, rasanya model apa pun bisa memperoleh peningkatan kecepatan yang luar biasa