MiMo-V2.5-Pro-UltraSpeed: model 1T yang menghasilkan 1000 token per detik

(mimo.xiaomi.com)

4 poin oleh GN⁺ 2026-06-09 | 1 komentar | Bagikan ke WhatsApp

Model pertama yang menembus kecepatan decoding 1000 tokens/s pada model berparameter 1 triliun (1T)
Mencapai kecepatan tersebut hanya dengan commodity GPU, bukan perangkat keras khusus, dan mewujudkan output 1000+ tps pada satu node 8-GPU standar
Teknologi kuncinya adalah codesign model-sistem yang menggabungkan kuantisasi FP4 dan DFlash speculative decoding
API disediakan berdasarkan pengajuan dan untuk waktu terbatas, dengan klaim sekitar 10x kecepatan generasi dengan harga 3x
Tembusnya 1000 tps bukan sekadar peningkatan kecepatan, tetapi titik balik yang mengubah paradigma aplikasi AI itu sendiri seperti Coding Agent dan pengambilan keputusan real-time

Peluncuran Xiaomi MiMo-V2.5-Pro-UltraSpeed

Bekerja sama dengan TileRT, model ini menjadi yang pertama menembus kecepatan decoding 1000 tokens/s pada model 1 triliun parameter, menghadirkan tingkat kecepatan yang memungkinkan respons real-time dan iterasi seketika
Dalam perbandingan kecepatan generasi real-time, mencapai hingga sekitar 1200 tokens/s
Mengajukan pandangan bahwa ketika model menjadi cukup cepat, ia tidak lagi menjadi alat yang harus ditunggu, melainkan berfungsi sebagai extension of thinking

Tersedia terbatas · berdasarkan pengajuan

API diluncurkan dengan harga promosi terbatas, menawarkan sekitar 10x kecepatan generasi dengan biaya 3x dibanding MiMo-V2.5-Pro (khusus API, tidak mendukung Token Plan)
Karena keterbatasan sumber daya inferensi berkecepatan tinggi, layanan dijalankan berdasarkan pengajuan dan untuk periode terbatas; hanya pengguna yang disetujui yang dapat menggunakan API selama 9 Juni 2026–23 Juni 2026 23:59 (UTC+8)
Cara mengajukan
- Platform API adalah platform.xiaomimimo.com/ultraspeed; pengajuan tidak menjamin persetujuan, dan prioritas diberikan kepada perusahaan serta pengembang profesional dengan kebutuhan bisnis nyata
- Akses ke model standar disediakan melalui seri MiMo-V2.5
Pengalaman Chat (gratis selama trial)
- Pengguna yang disetujui mendapatkan akses Chat gratis selama 2 minggu, dengan titik masuk di ultraspeed.xiaomimimo.com
- Maksimal 10 kali masuk antrean per hari per akun, maksimal 30 menit per sesi, dan akan dilepas otomatis jika idle lebih dari 5 menit

1000 tokens/s — pergeseran paradigma melampaui kecepatan

Menembus 1000 tps pada skala 1T bukan sekadar mesin ketik yang lebih cepat, melainkan perubahan yang secara mendasar mengguncang paradigma aplikasi AI itu sendiri
Kecepatan berubah menjadi kecerdasan
- Dalam waktu nyata yang sama (wall-clock), puluhan jalur inferensi dapat dijalankan secara paralel (Best-of-N / Tree Search), sambil melakukan verifikasi otomatis dan self-correction di latar belakang untuk langsung meningkatkan kualitas penalaran
Membuka batas produktivitas Coding Agent
- Sebelumnya, latency inferensi menjadi bottleneck sehingga pengembang harus menunggu di depan layar; pada 1000 tps, kecepatan pembuatan kode dan efisiensi produktivitas dipercepat pada level paradigma
Memasuki loop pengambilan keputusan real-time
- Dengan siklus "think-respond" pada skala milidetik, model flagship 1T dapat dipadukan ke skenario yang sensitif terhadap waktu seperti pembuatan sinyal quant trading frekuensi tinggi, pemblokiran transaksi anomali secara instan, intelligent bidding, dan percakapan real-time
- Untuk aplikasi seperti bantuan operasi dan analisis citra medis dalam situasi hidup-mati, dikemukakan pandangan bahwa setiap detik yang dihemat untuk analisis lesi dan prediksi risiko memberi fleksibilitas tambahan bagi ahli bedah

Codesign model-sistem yang ekstrem

1000+ tps pada model 1T bukan hasil dari satu teknik tunggal, melainkan hasil codesign ekstrem antara tim model MiMo dan tim sistem TileRT
Berbeda dari ketergantungan industri pada perangkat keras khusus untuk mencapai kecepatan serupa—seperti Wafer-Scale milik Cerebras dan arsitektur kustom on-chip SRAM milik Groq—pencapaian ini diraih hanya melalui codesign model-sistem di atas commodity GPU
Di sisi model, kuantisasi FP4 yang menargetkan bottleneck bandwidth mengurangi ukuran model dan beban akses memori; pada saat yang sama, DFlash berbasis prediksi paralel masked per blok diperkenalkan untuk meningkatkan panjang token yang diterima per tahap verifikasi
Di sisi sistem, TileRT menyediakan mesin kompilasi dan kernel komputasi yang disesuaikan dengan karakteristik algoritme tersebut, sehingga mewujudkan output 1000+ tps pada satu node commodity 8-GPU standar
3.1 FP4 Quantization
- Pada skala 1T, inferensi 8-bit (FP8/INT8) dan 16-bit yang ada menimbulkan tekanan berlebihan pada penggunaan memori dan bandwidth, sehingga pengurangan lebar bit berkontribusi langsung pada kecepatan decoding
- Mengadopsi format FP4 (MXFP4) yang telah terbukti secara praktis lossless, tetapi penerapan sederhana ke seluruh model menyebabkan penurunan performa pada inferensi kompleks, logika, dan generasi kode
- Pada arsitektur MoE(Mixture of Experts), hanya Experts yang secara selektif dikuantisasi ke FP4—karena mencakup sebagian besar parameter dan paling tahan terhadap kuantisasi—sementara modul lain mempertahankan presisi aslinya
- Dengan FP4 QAT(Quantization-Aware Training), ukuran model diperkecil dan pemanfaatan bandwidth perangkat keras dimaksimalkan, sambil mempertahankan performa keseluruhan yang secara praktis setara dengan model asli
3.2 DFlash Speculative Decoding
- Speculative decoding tradisional bekerja dengan model draft kecil yang menebak token berikutnya lalu diverifikasi oleh model besar; kualitas draft menentukan acceptance rate, tetapi draft yang lebih kuat juga meningkatkan biaya komputasi, sehingga ada ketegangan mendasar
- DFlash memungkinkan model draft mengisi seluruh blok yang dimasking dalam satu forward pass, sehingga menghilangkan batasan serial dari "autoregressive drafting"
- Dengan menggunakan optimizer orde dua Muon dan self-distillation model, overhead pada tahap draft dipadatkan hingga mendekati minimum teoretis
  - Model draft hanya menggunakan Sliding Window Attention(SWA), selaras secara alami dengan desain SWA dari seri MiMo-V2 dan sepenuhnya menghilangkan ketergantungan prefix, sehingga komputasi per prediksi turun dari proporsional terhadap panjang context menjadi konstan
  - Selama pelatihan, sampling mask-signal diturunkan ke shard lokal GPU, sehingga satu sequence dapat menghasilkan puluhan ribu sinyal pelatihan independen dalam satu step sambil menghindari overhead komunikasi antar-perangkat
- Ukuran blok dibatasi ke 8 untuk mengurangi overhead verifikasi dan meningkatkan konkurensi, sehingga acceptance length yang tinggi langsung diterjemahkan menjadi throughput inferensi yang tinggi
- Rata-rata acceptance length per skenario
  - Coding 6.30 (beberapa sampel mencapai maksimum 7.14, dengan 6–7 dari 8 draft token diterima)
  - Math / Reasoning 5.56
  - Agent 4.29
- Pada skenario percakapan umum yang secara semantik lebih tersebar dan memiliki ketidakpastian lebih tinggi, acceptance rate saat ini masih rendah dan terus dioptimalkan
3.3 Kernel / sistem inferensi ultra-low-latency TileRT
- Pada frekuensi operasi 1000 tokens/s, umur setiap operator terkompresi ke skala mikrodetik, sehingga "operator boundaries" pada sistem inferensi tradisional muncul sebagai bottleneck utama
- Setiap kali eksekusi operator dimulai, sinkronisasi perangkat keras terjadi, atau ada round-trip ke memori global, alur eksekusi terputus dan menghasilkan "Execution Gaps" yang terlihat
- Inovasi model eksekusi kelas paradigma dari TileRT
  - Persistent Engine Kernel: meninggalkan pendekatan start eksekusi per operator, dan menjaga seluruh pipeline komputasi terus berada serta mengalir di dalam GPU untuk mencapai overlap ekstrem antara perpindahan data dan komputasi
  - Warp Specialization(kerja sama pipeline heterogen): pada level tile, komunikasi, perpindahan data, dan komputasi tensor dipecah secara fisik dengan lebih rinci, mematahkan model lock-step homogen dan mengubah GPU menjadi sistem eksekusi heterogen yang dituning secara presisi
- Fusi mendalam hardware-software pada skala mikrodetik (Codesign)
  - Di level model, diadopsi kuantisasi FP4 campuran untuk MoE Experts dan DFlash speculative decoding yang selaras dengan SWA untuk arsitektur 1 triliun parameter; TileRT terikat erat dengan karakteristik algoritme dan metode kuantisasi ini untuk menyediakan mesin kompilasi dan kernel komputasi khusus
  - Kedua tim melakukan trade-off rekayasa bersama berdasarkan fisika perangkat keras untuk membuat tekanan eksekusi berkumpul secara mulus di dalam batas perangkat keras
  - TileRT adalah tim arsitektur sistem yang berfokus pada infrastruktur AI generasi berikutnya dan inferensi ultra-low-latency, serta mencapai pemanfaatan komputasi ekstrem di lingkungan heterogen yang kompleks melalui terobosan full-stack pada persistent kernel, tile pipeline, dan kolaborasi heterogen

Demo tambahan

Demo membuat game Snake hanya dalam 10 detik
Demo merekonstruksi antarmuka MacOS dalam 1 menit

Open source dan prospek

Checkpoint MiMo-V2.5-Pro-FP4-DFlash dibuka sebagai open source di HuggingFace, termasuk bobot kuantisasi FP4 dan parameter model DFlash
Dukungan UltraSpeed untuk MiMo-V2.5 sedang dipersiapkan

1 komentar

GN⁺ 2026-06-09

Pendapat Hacker News

AI yang cepat memang sangat menarik, tetapi juga cukup mengkhawatirkan. Bahkan sekarang Claude sudah lebih cepat daripada saya untuk beberapa tugas, meski masih kurang lebih setara
Saya sudah menjalankan prompt perapian PR selama 1 jam dan sepertinya masih akan butuh beberapa jam lagi, jadi sulit membayangkan bagaimana alur kerja akan berubah jika ini hampir selesai seketika. Ada juga saat ketika saya mulai multitasking karena prompt yang lama, lalu menyesal belakangan. Sebaliknya, jika ada AI yang bisa menyelesaikan pekerjaan yang biasanya butuh beberapa jam atau hari dalam hitungan detik sampai menit, itu mengubah permainan sepenuhnya, dan saya tidak tahu kita akan berada di posisi mana
- Saya memakai Deepseek-v4-pro sebagai model utama, dan kadang cukup menyebalkan. Saya menyerahkan pekerjaan remeh, berpikir “biar agen yang kerjakan lalu saya tidur siang saja”, tetapi bahkan sebelum saya sempat beranjak dari depan komputer, dia sudah menulis semua kodenya
- Saya pernah memakai groq dan GPT OSS, dan 20B berjalan di 1000 TPS, 120B di 800 TPS, jadi kecepatannya terasa cukup seperti sihir
  Saya belum mencoba 3000 TPS dari Cerebras, tetapi pernah mencoba demo model 15.000 TPS yang saya lupa namanya. Saya tidak tahu apakah itu memberi perbedaan yang berarti untuk pekerjaan nyata, tetapi melihat teks memenuhi layar dalam sekejap benar-benar mengejutkan. Ini sangat berguna untuk validasi kecil seperti menampilkan diff dan memeriksa apakah perubahan sesuai niat, dan jika pengecekan seperti ini bisa dilakukan cepat berkali-kali, itu membantu karena kita bisa melakukan banyak pemeriksaan terfokus tanpa mengganggu konsentrasi
- Jika latensi cukup rendah, tidak ada alasan untuk multitasking. Tinggal beri tugas satu per satu lalu langsung lihat hasilnya, dan itu cara kerja yang cukup baik
  Untuk pekerjaan yang tidak terlalu intensif komputasi, UI interaktif pada dasarnya memang seperti ini. Program kebanyakan diam menunggu pengguna menekan tombol. Kita tidak perlu menunggu program atau membuat diri sibuk memutar banyak piring sekaligus. Hanya saja, LLM yang lebih cepat saja tidak cukup; kita juga butuh kompilasi dan pengujian yang cepat
- Hambatan berikutnya adalah kompiler, dan itu juga bisa dimodelkan dengan LLM. Cuma salah sekitar 15% :)
  Seriusnya, memakai Cerebras di sekitar 2k tokens/s dengan latensi yang sangat rendah terasa seperti mengintip masa depan. Saya jadi menyusun ulang alur kerja agar berpusat pada pekerjaan yang bisa berlangsung tanpa tinjauan manual yang memberatkan, misalnya dengan menyatakan kondisi keberhasilan secara eksplisit. Masalah saya yang benar-benar cocok untuk ini masih sedikit, tetapi rasanya ke depan arahnya memang ke sini. Tentu, model cepat biasanya bukan model dengan performa terbaik, tetapi jika pemikiran berkualitas tinggi yang hampir instan menjadi mungkin, itu akan menjadi game changer yang benar-benar belum siap kita hadapi
- Ada dua sisi. Jika saya meminta sesuatu pada Gemini 3.5 Flash, dia hampir langsung memberi hasil dan bekerja dengan baik, dan kecepatannya kadang sedikit menakutkan
  Tetapi untuk tugas lain, dia bisa melenceng jauh. Dulu saya masih bisa menyela dengan “tunggu, itu bukan yang saya maksud”, tetapi saat teks sudah muncul di layar dan saya sempat bereaksi, dia mungkin sudah melakukan perubahan besar. Kecuali dipaksa commit pada setiap edit, sulit mencegahnya salah secepat saat dia benar, dan jika izinnya banyak, dia juga bisa membuat kesalahan lewat API jarak jauh
Saya kurang paham dengan pembicaraan soal produktivitas. Dari sudut pandang karyawan biasa, tidak terlalu penting kalau pekerjaan yang dulu butuh 2 hari sekarang bisa selesai dalam 2 jam. Soalnya sisa waktunya bukan bisa dipakai sesuka hati; kita tetap harus bekerja 8 jam sehari
Dulu ada kesenangan mendalami masalah selama 2 hari saat membuat sesuatu, tetapi sekarang berubah menjadi pola menarik mesin slot sambil berharap jawaban yang benar keluar dari prompt yang tepat. Menurut saya ini justru lebih buruk untuk kita. Tentu, bagi perusahaan dan eksekutif situasinya sepenuhnya kebalikan, dan mereka pasti sangat menyukai kondisi AI saat ini
- Jika pekerjaan untuk AI dipecah menjadi bagian-bagian kecil, kita bisa mempertahankan kendali atas arsitektur dan itu tidak menjadi seperti mesin slot. Saya tetap membaca kode dan kadang juga menulisnya sendiri
  Saya tidak sering melakukannya, tetapi itu harga yang harus dibayar demi kecepatan yang lebih tinggi. Jika Anda melempar tugas besar ke AI lalu kembali satu jam kemudian, Anda bisa mendapati satu jam terbuang dan tidak mendapatkan apa-apa
- Dalam kasus saya, model yang lambat membuat pengelolaan konteks dan paralelisme tugas jadi sulit. Jauh lebih baik menyelesaikan satu tugas, istirahat, lalu lanjut ke tugas berikutnya
  Sekarang saya menjalankan tiga tugas paralel di tiga tab, dan harus terus berpindah konteks, jadi jauh lebih menyiksa. Kalau modelnya lebih cepat, saya tidak perlu memulai tugas baru hanya untuk mengisi waktu tunggu
- Dalam teknologi apa pun, selalu ada cara bodoh dan cara cerdas untuk memakainya. Memperlakukan ini seperti “mesin slot yang memberi jawaban benar” adalah cara yang bodoh. Mungkin berhasil sebentar, tetapi tidak akan bertahan lama karena semua orang bisa melakukan hal yang sama
  Tidak ada yang menghalangi kita memakai teknologi ini untuk menggali masalah lebih dalam daripada sebelumnya. Itulah cara memakai yang cerdas
- Saya tidak tahu di dunia mana karyawan bekerja 8 jam sehari. Mungkin mereka mencatat hadir selama 8 jam, tetapi bukan berarti mereka benar-benar bekerja sepanjang waktu itu
- Kemampuan kita untuk menilai kualitas hasil makin tertinggal dibanding kemampuan kita untuk menghasilkan hasil itu sendiri. Saya rasa “jawaban yang benar” tidak bisa begitu saja dianggap sebagai hasil yang paling tampak meyakinkan
Jika optimasi harga·kecepatan dari penyedia Tiongkok digabungkan dengan kenaikan harga dari perusahaan AS, peta persaingan kemungkinan akan segera berubah. Sudah banyak perusahaan yang mengalami masalah dengan tagihan AI
- Model Tiongkok sudah cukup bagus dan murah
  Saya memakai langganan tahunan GitHub Copilot, dan Microsoft baru-baru ini mengubah penagihan menjadi berbasis token. Saat ini masih ditagih per unit permintaan premium, tetapi GPT 5.4 yang dulu 1x sekarang menjadi 6x
- Karena dana saya tidak terlalu longgar, belakangan ini saya sebisa mungkin memakai DeepSeek v4 Flash, GLM 5.1, dan lainnya alih-alih Claude atau GPT
- Masalah lainnya adalah semua model AS merupakan closed source. Jika Anda perusahaan besar, organisasi Anda mungkin tidak ingin disandera oleh OpenAI atau Anthropic
  Saya benar-benar tidak paham moat apa yang dimiliki lab model AS. Jika mereka bilang recursive self-improvement sudah di depan mata, dan lab Tiongkok hanya sedikit tertinggal dari model AS terdepan, lalu apa moat lab AS? Apakah model AS lebih baik dalam recursive self-improvement daripada model open source Tiongkok? Saya mungkin sepenuhnya salah, tetapi jika saya menaruh uang di OpenAI atau Anthropic, saya ingin menarik semuanya sekarang. Saya melihat kemungkinan yang cukup besar bahwa nilainya akan mendekati 0 dalam beberapa tahun ke depan
- Masalah yang lebih besar adalah konsistensi model. Tidak jelas apakah Anthropic akan menagih harga Opus sambil merutekan permintaan ke model yang lebih murah
  Karena itu, biaya pekerjaan tidak bisa diprediksi. Anda mungkin harus memulai ulang beberapa kali dan membayar setiap kali. Selain itu, Anda juga harus memasukkan prompt lagi untuk menilai apakah modelnya asli atau palsu, sehingga penggunaan token pun meningkat
- Saya penasaran dengan struktur ekonomi yang mendorong keputusan harga seperti ini. Saya tidak tahu apakah perusahaan Tiongkok mensubsidi model mereka lebih besar daripada AS, atau apakah ini hasil dari perbedaan kebijakan energi antarnegara
Jika MiMo semurah Deepseek, maka menurut pembahasan sebelumnya https://news.ycombinator.com/item?id=48282814, bahkan jika dikalikan 3 untuk kecepatan ultra, harganya tetap sangat mengejutkan murah
- Bukan MiMo dan DeepSeek yang murah, melainkan Anthropic dan OpenAI yang mahal dibandingkan nilai yang mereka berikan
Versi kecepatan normal MiMo V2.5 Pro masih yang terkuat di antara model coding agen open weight yang kami uji. Menarik bahwa model ini mendapat perhatian jauh lebih sedikit daripada rilis dengan performa lebih rendah
Harga “fast mode” di sini juga sangat kompetitif. Datanya ada di https://gertlabs.com/rankings
- Kenapa deepseek v4 pro berada jauh di bawah flash? mimo 2.5 ada di mana?
Ini mungkin terdengar seperti promosi, tetapi ada yang namanya pertumbuhan eksponensial. Kita akan sampai pada tahap di mana kita hampir seketika membuat banyak software dari prompt lalu memilih yang terbaik di antaranya
Diskusi tentang memilih library dengan nama metode syntactic sugar terbaik akan terlihat seaneh usulan untuk memasukkan semuanya dalam assembly
- Ini terdengar seperti pertumbuhan eksponensial perangkat lunak buruk. Bukan berarti sebelumnya tidak ada sampah hasil produksi massal dalam software engineering, tetapi sekarang jumlahnya akan meledak
- Dulu ada masa ketika framework frontend baru muncul setiap 3 bulan. Sekarang hampir berhenti dan tidak ada yang peduli
- Saya kurang yakin. Engineer masih bisa membuat software dengan cara lama. Misalnya, membuat sesuatu seperti Obsidian atau Ghostty selama berbulan-bulan, sambil menjaga setiap baris kode, dependensi, dan arsitektur yang baik
  Itu benar-benar cara lama, dan kalau produknya bagus, itu akan berhasil
- Saya melihatnya lebih optimistis. Jika AI makin bagus dan cepat, kita bisa memperbaiki kode yang dulu dihindari karena beban kerja, dengan lebih cepat dan iteratif
  Faktanya, berkat AI saya telah beberapa kali melakukan refactoring pada tingkat yang tadinya terasa mustahil. Bukan hanya karena beban kerja, terkadang juga karena kita bahkan tidak tahu apakah itu akan berhasil, jadi ada friksi ganda. Dengan AI, Anda bisa melemparkan refactoring sambil minum secangkir kopi lalu melihat di mana ia macet. Secara keseluruhan, AI akan membuat umat manusia menampakkan dirinya dengan cara yang lebih ekstrem. Baik dalam sisi baik maupun buruk. Hanya saja saya rasa sisi buruknya akan lebih banyak
- Arus eksponensial ini dalam beberapa tahun akan menuju komputasi in-memory penuh, dan itu akan 100x lebih efisien. Artinya model yang setidaknya 10x lebih besar akan menjadi mungkin, jauh lebih pintar, sekaligus sangat cepat
  Di bisnis kecil, orang akan melewati kode sepenuhnya dan langsung merender UI pada kecepatan interaktif dari data konteks dan prompt. Bentuknya akan mirip dengan yang dilakukan Google Genie dalam game, tetapi jauh lebih akurat
Ini akan sangat kuat di suara. Berkat kemampuan penalaran, LLM akan menjadi jauh lebih pintar, tetapi suara biasanya punya anggaran latensi yang terlalu ketat sehingga waktu itu tidak bisa dipakai
Cerebras sedang menguji Kimi K2.6 pada 3000t/s, khusus undangan. Saya menantikan saat hardware cepat menjadi lebih umum untuk model frontier
Model yang dirancang oleh Nvidia agar sesuai dengan kecepatan bisa menjadi tambahan yang baik untuk menutup kesenjangan itu
- Teks aslinya mengatakan bahwa sampai sekarang, untuk mencapai kecepatan seperti ini dibutuhkan hardware khusus yang sangat mahal seperti Cerebras
  Hal baru dari hasil ini adalah bahwa pada hardware standar, yakni hanya dengan satu server berisi 8 GPU, mereka berhasil melampaui 1000 token/s pada model dengan lebih dari 1 triliun parameter
- Saya penasaran dengan sumbernya. Di situs Cerebras tertulis 1000t/s https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
- Cerebras beruntung karena IPO bulan lalu. Kalau sekarang, hasilnya mungkin akan berbeda
- Cerebras saat ini tidak menawarkan diskon prefix caching, jadi untuk workload agen, biaya penggunaannya menjadi lebih mahal sebesar sqr(n_turns)
Menarik. Model frontier sudah menjadi cukup mengesankan, tetapi semuanya masih agak lambat untuk coding human-in-the-loop yang interaktif. Karena itu, arahnya jadi mendorong vibe coding dan menjalankan banyak agen secara paralel. Agen yang cepat terasa lebih seperti partner
Selama beberapa waktu saya memakai Cerebras GLM 4.7 untuk berbagai tugas. Memang bukan model yang sangat pintar, tetapi pengalaman membiarkan prototipe live situs tetap terbuka lalu mengetik “besarkan sedikit fontnya. eh, jangan sebanyak itu” dan melihatnya berubah secara real-time itu luar biasa. Dan MiMo 2.5 jauh lebih mumpuni daripada GLM 4.7
- Saya pernah mencoba GLM 4.7 untuk agen penulisan kode, dan hasilnya sangat buruk bahkan pada skrip sederhana sepanjang 200~1000 baris. Saya akhirnya harus menyerah pada model yang disediakan Cerebras, dan model yang pintar hanya ada di paket enterprise
- MiMo 2.5 bukan model yang sama dengan MiMo 2.5 Pro
  GLM 5.1 adalah iterasi terbaru dari z.ai dan salah satu model coding open-weight yang populer. Kalau pernah mencobanya, saya penasaran bagaimana perbandingan GLM 5.1—yang kini lebih mahal daripada MiMo 2.5 Pro bahkan setelah penurunan harga 70% baru-baru ini
1k TPS memang hebat, tetapi yang lebih menarik adalah berapa banyak komentar yang dihasilkan AI di thread ini

MiMo-V2.5-Pro-UltraSpeed: model 1T yang menghasilkan 1000 token per detik

Peluncuran Xiaomi MiMo-V2.5-Pro-UltraSpeed

Tersedia terbatas · berdasarkan pengajuan

Cara mengajukan

Pengalaman Chat (gratis selama trial)

1000 tokens/s — pergeseran paradigma melampaui kecepatan

Kecepatan berubah menjadi kecerdasan

Membuka batas produktivitas Coding Agent

Memasuki loop pengambilan keputusan real-time

Codesign model-sistem yang ekstrem

3.1 FP4 Quantization

3.2 DFlash Speculative Decoding

3.3 Kernel / sistem inferensi ultra-low-latency TileRT

Inovasi model eksekusi kelas paradigma dari TileRT

Fusi mendalam hardware-software pada skala mikrodetik (Codesign)

Demo tambahan

Open source dan prospek

Bacaan terkait

1 komentar

Pendapat Hacker News