Performa per dolar menjadi lebih cepat dan lebih murah

(wafer.ai)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Di tengah permintaan inferensi yang melampaui pasokan serta kenaikan biaya GPU NVIDIA dan token, AMD MI355X muncul sebagai alternatif inferensi berbiaya rendah karena rata-rata sekitar 2,75 kali lebih murah per GPU dibanding B300
Seri AMD Instinct MI350 bersaing dengan Blackwell di level silikon, tetapi keunggulan perangkat lunak NVIDIA dan dukungan day-0 menentukan kecepatan serving nyata serta tingkat kesulitan adopsi
Wafer mengoptimalkan GLM-5.2 di MI355X dan mencapai 2626 tok/s/node serta 2,4 rps pada beban kerja dengan input 20k/output 1k dan cache hit rate 60%, setara sekitar 80% dari performa B200 yang diukur
Untuk aliran tunggal, sistem mencatat 213 tok/s pada 10k token input/1,5k token output; meski bukan yang tertinggi di leaderboard, dinilai unggul dalam biaya per performa
Hasil ini dicapai tanpa kernel kustom, melainkan lewat perbaikan bug framework, kuantisasi, speculative decode, dan tuning pemilihan kernel MoE, sehingga tantangan AMD kini makin mendekati masalah dukungan alih-alih perangkat lunak itu sendiri

Biaya inferensi AMD dan kesenjangan perangkat lunak NVIDIA

Permintaan inferensi tumbuh cepat dan melampaui pasokan, sementara model frontier seperti Claude Fable, GLM-5.2, dan Minimax M3 muncul hampir tiap dua minggu, sehingga permintaan token juga terus meningkat
Pasokan Blackwell belum memadai, sehingga harga GPU NVIDIA dan biaya token ikut naik
AMD MI355X rata-rata sekitar 2,75 kali lebih murah per GPU dibanding B300, dengan spesifikasi perangkat keras yang berada di tingkat yang sebanding
Seri AMD Instinct MI350 bersaing dengan Blackwell di level silikon, tetapi berkat dukungan day-0 dan ekosistem perangkat lunaknya, NVIDIA dapat melayani inferensi model terbaru dengan lebih cepat dan friksi yang lebih kecil
Pada MI355X dan stack ROCm, performa SOTA untuk model frontier terbaru sering kali tidak langsung tersedia, dan bahkan image yang bisa dijalankan pun bisa sulit ditemukan
Tanpa dukungan day-0, membangun dan mengoptimalkan model terbaru membutuhkan beberapa minggu rekayasa dan komputasi, dan selama itu model yang lebih baru bisa muncul lagi sehingga AMD terus berada dalam posisi mengejar

Performa GLM-5.2 di MI355X

Wafer menilai kesenjangan performa nyata antara AMD dan NVIDIA semakin menyempit seiring agen makin baik dalam optimasi kernel dan model
Pada beban kerja dengan input 20k/output 1k dan cache hit rate 60%, sistem mencapai 2626 tok/s/node
- RPS berkelanjutan: 2,4 rps
- Knee yang didefinisikan: TTFT di bawah 5 detik
- Setara 80% dari performa yang diukur pada B200
- MI355X lebih dari 2 kali lebih murah

RPS berkelanjutan	Total tok/s/node	TTFT p50 / p95	Tingkat keberhasilan
0.5	449	0.59s / 0.60s	100%
1.0	974	0.60s / 0.81s	100%
1.5	1913	0.62s / 1.03s	100%
2.0	1944	0.62s / 1.05s	100%
2.25	2089	0.63s / 1.23s	100%
2.4 jenuh	2626	0.81s / 2.22s	100%

Berdasarkan metodologi Artificial Analysis, GLM-5.2 mencapai 213 tok/s pada aliran tunggal dengan 10k token input dan 1,5k token output
Angka ini bukan yang tertinggi di leaderboard Artificial Analysis, tetapi dinilai unggul dalam biaya per performa
Pengujian dijalankan pada kapasitas AMD MI355X milik TensorWave

Kuantisasi dan pemilihan framework inferensi

Langkah pertama adalah memilih kuantisasi dan framework, dan Wafer mengkuantisasi GLM-5.2 berbasis bf16 menjadi MXFP4 dengan AMD Quark
Dibanding kuantisasi FP8 resmi dari z-ai, MXFP4 dinilai nyaris tanpa kehilangan pada GPQA-Diamond, tau2, dan GSM8K

Evaluasi	Patokan FP8	MXFP4	Δ
GSM8K, 200 soal, 5-shot, greedy	0.965 ± 0.013	0.955 ± 0.014	−0.010
GPQA-Diamond, 198 soal × 2 seeds, temp 1.0	0.9217 ± 0.027	0.9026 ± 0.029	−0.019
tau2 macro	0.819	0.834	+0.015

Kandidat framework inferensi ada 3: vLLM, ATOM, dan sglang
- vLLM tidak dapat menjalankan jalur MXFP4 + GlmMoeDsa, sehingga tidak bisa memanfaatkan keunggulan bobot MXFP4
- ATOM mengalami penurunan kualitas output pada konteks panjang
- sglang memiliki friksi paling kecil hingga dukungan native, dan tetap mempertahankan output yang konsisten sambil memanfaatkan kuantisasi

Dua masalah yang menghambat speculative decode

Untuk meningkatkan throughput, mereka mencoba mengaktifkan speculative decode di sglang, tetapi image ROCm sglang tidak mendukungnya secara bawaan
Agar MTP berfungsi dengan benar, dibutuhkan dua perbaikan
Masalah pertama adalah shared expert pada head MTP disimpan sebagai bf16, tetapi lookup kuantisasi di sglang mencoba membangunnya sebagai MXFP4 karena ketidakcocokan prefix modul
- Quark menamai bf16 shared expert sebagai model.layers.78.mlp.shared_experts.*
- Prefix aktual pada layer MTP adalah model.decoder.*
- Karena ketidakcocokan ini, saat load sistem mencoba membaca bobot bf16 full-width ke slot 4-bit half-width, sehingga inisialisasi gagal akibat shape mismatch
- Wafer menyalin entri layer 78 sekali lagi ke nama decoder yang benar-benar digunakan sglang untuk membuka speculative decode, dan throughput aliran tunggal meningkat hampir 3 kali
Masalah kedua adalah speculative decode dalam yang diusulkan z-ai, seperti konfigurasi 5/1/6, terhambat
- Kernel metadata fused multi-step yang dibutuhkan untuk draft depth 4 atau lebih menulis #include <cuda_runtime.h> tanpa guard ROCm
- Ini diperbaiki dengan satu guard #ifdef USE_ROCM
Setelah speculative decode berjalan normal, mereka menambahkan optimasi konfigurasi seperti --kv-cache-dtype fp8_e4m3 dan --enable-aiter-allreduce-fusion, lalu mencapai 213 tok/s untuk decode aliran tunggal

Bottleneck throughput agregat dan tuning MoE

Pada beban kerja yang didefinisikan, optimasi decode saja tidak cukup, dan pada kondisi input 20k serta cache 60%, bottleneck utamanya adalah prefill
Dalam konfigurasi TP8 yang disesuaikan untuk decode aliran tunggal, MI355X menjalankan GLM-5.2-MXFP4 pada 1461 tok/s/node
Setelah beralih ke TP4×DP2, sistem mencapai 1944 tok/s/node dan 2,0 RPS pada beban kerja yang sama
Namun, performa Blackwell yang diukur Wafer adalah 3192 tok/s/node pada 3,0 RPS, dan performa prefill MI355X relatif lebih lambat
Salah satu penyebab utamanya adalah fp4 MoE pada GLM-5.2 di image sglang diam-diam jatuh ke fallback heuristik FlyDSL yang lambat
- aiter hanya menyediakan konfigurasi yang dituning untuk jalur a8w8/fp8
- Wafer menyesuaikan sendiri pemilihan kernel MoE agar cocok dengan shape fp4 milik GLM
- Shape targetnya adalah model_dim 6144, moe_inter 2048, E=256, topk=8
Dengan tuning ini, throughput agregat mencapai 2626 tok/s/node dan 2,4 RPS

Apa yang dibutuhkan untuk mencapai performa SOTA di AMD

Proses mencapai biaya per performa terbaik di MI355X memang memiliki sejumlah friksi, tetapi dinilai tidak terlalu sulit
Berbeda dari pekerjaan Qwen3.5 397B, kali ini mereka tidak menulis kernel kustom
Studi ini tidak mempertimbangkan performa multi-node, tetapi deployment single-node masih sangat umum digunakan di lingkungan nyata
Masalah mencapai performa SOTA di AMD semakin menjadi masalah dukungan ketimbang masalah perangkat lunak itu sendiri
Kesimpulannya, moat CUDA sedang melemah secara nyata

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Saya berharap perbandingan seperti ini juga memasukkan performa per watt sebagai metrik. Saya ingin tahu posisi AMD dalam biaya dibanding performa nyata.
Dari obrolan dengan perusahaan yang ingin membangun pusat data di luar AS, katanya sulit mendapatkan pasokan Nvidia dalam skala yang cukup.
Jika AMD kompetitif dalam performa per watt dan dukungan software-nya secara umum bisa dipercaya, itu cukup penting karena tarif listrik di luar AS sering kali relatif mahal.
Kalau AMD bisa memungkinkan pusat data kecil dengan harga yang masuk akal, tampaknya AMD bisa menjadi bagian dari stack di wilayah yang pasokan Nvidia-nya terbatas.
Namun saya tidak begitu tahu seperti apa pengadaan GPU AMD sebenarnya, dan selain Wafer di AS serta beberapa perusahaan, saya hampir tidak pernah melihat perusahaan yang memakai AMD, jadi mungkin saja saya terjebak di dalam gelembung Nvidia.
- DGX B200 kira-kira berharga 500 ribu dolar dan memakai daya sekitar 14 kW.
  Jika diasumsikan dijalankan terus-menerus 100% selama 8 tahun, totalnya sekitar 1 GWh; bahkan di tempat dengan listrik mahal seperti Jerman, biayanya sekitar 100 ribu euro, jadi dibanding harga awal perangkat 500 ribu dolar, biaya selama 8 tahun itu tidak besar.
  Masalah sebenarnya dari konsumsi daya tinggi bukan tarif listrik, melainkan batas pasokan listrik yang bisa ditarik ke pusat data. Konfigurasi yang lebih efisien berarti bisa memasukkan lebih banyak perangkat dalam batas daya masuk yang terbatas.
- Ada beberapa tempat yang memakai AMD, dan lebih banyak lagi yang mulai bereksperimen. Namun AMD sudah lama mengecewakan di bidang ini, jadi saya berhati-hati untuk optimistis bahwa akhirnya akan ada persaingan.
  Pasar benar-benar membutuhkan pesaing nyata untuk Nvidia, terutama dalam performa/watt.
- Meta memakai AMD: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
  OpenAI juga: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
- Perlu juga diingat bahwa selama bertahun-tahun AMD pada dasarnya menguasai sisi hardware konsol video game. Tidak ada tanda-tanda itu akan segera berakhir.
- Biasanya, jika sebuah perusahaan tidak bisa dipenuhi semua pesanannya oleh Nvidia, setidaknya mereka punya sebagian GPU AMD.
Keren, tetapi dalam penggunaan nyata, kuantisasi FP4 hampir tidak pernah benar-benar lossless. Banyak penyedia mengiklankan jumlah token per detik yang tinggi untuk Kimi dan GLM, tetapi modelnya menjadi terkekang secara fungsional dan tidak lagi mendekati kualitas garis depan.
Saya berharap ini tidak benar.
- Kimi memakai INT4 sebagai format default, jadi untuk model itu tidak ada konsep “lebih baik dari presisi 4-bit”.
  Ini berbeda dari GLM, yang default-nya presisi 16-bit dan 8-bit juga umum dipakai.
- MI355X dapat melakukan operasi FP6 dengan kecepatan yang sama seperti FP4. Ini ciri khas AMD.
  Karena itu, orang seharusnya membuat kuantisasi MXFP6 yang hampir lossless dan performanya jauh lebih dekat ke FP4 daripada FP8.
- Bukankah Nvidia juga mengklaim NVFP4 itu lossless?
  Saya belum cukup menguji model yang dikonversi Nvidia ke NVFP4 selain GLM 5.2, tetapi menurut saya hasilnya baik-baik saja.
  Dari pengalaman langsung saya, hasilnya sangat bervariasi tergantung model.
- Itu juga bagian pertama yang langsung menarik perhatian saya.
- Sepingat saya akurasinya sekitar 96~98%.
Saya kira tulisan ini akan membahas jalur peningkatan agar lebih cepat dan murah, tetapi di sini tampaknya versi terkuantisasi ditawarkan dengan harga yang sama seperti versi penuh, sementara versi cepat dijual jauh lebih mahal.
Bukankah ini hampir sudah sewajarnya? Performa per dolar seharusnya membaik satu arah seperti ratchet. Bagaimana sesuatu yang lebih mahal bisa menggantikan yang lebih murah?
Menurut saya judul seperti ini seharusnya dibuat ilegal jika tidak mencantumkan metode kuantisasi.
- MXFP4.
- Saya juga berharap penggunaan “Why this matters” di judul dilarang.
- Filter yang bagus adalah mengecek apakah akhiran domainnya .ai. Jika terlihat, kemungkinan besar itu tulisan minim usaha, clickbait, dangkal, tidak berguna, atau menipu.
Komputasi di dalam memori dan paradigma neuromorfik kemungkinan besar akan mendorong tren ini jauh lebih kuat dalam 10 tahun ke depan.
Saat peningkatan yang lebih radikal keluar dari laboratorium, pada akhirnya material baru dan perangkat nano akan masuk, dan efisiensi bisa membaik beberapa orde besaran.
Bahkan hanya dengan memperbesar teknologi yang sudah ada seperti MRAM pun masih ada ruang.
Saat beralih dari fp8 ke mxfp4, penurunan akurasi menjadi terlihat.
- Wafer menghentikan Wafer Pass, paket coding flagship mereka sendiri, hanya beberapa minggu setelah diluncurkan, dan bahkan harus memberikan pengembalian dana prorata.
  Meski begitu, mereka membanggakan bahwa biaya diturunkan lagi lewat kuantisasi, padahal implementasinya jelas kurang memadai.
  [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
- Meski begitu, entah bagaimana mereka mengklaimnya “lossless”.
Ini bukan fenomena baru. Performa per dolar sudah meningkat secara eksponensial dengan cukup konsisten sejak sekitar 1900.
1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...
Tidak mengherankan jika bersaing dengan Blackwell. Rubin 5 kali lebih cepat daripada Blackwell untuk inferensi, dan Blackwell adalah generasi terakhir Nvidia yang belum dioptimalkan secara khusus untuk inferensi.
Kalau ada yang saya lewatkan, beri tahu saya.
- Sangat tidak jelas apa hal khusus pada Rubin yang bisa disebut dioptimalkan untuk inferensi.
  Saya melihat konfigurasi terpisah yang memisahkan node prefill dan node decoding, tetapi di luar itu saya tidak tahu apa lagi.
- Jika inferensi terikat pada bandwidth memori, bagaimana inferensi bisa dibuat 5 kali lebih cepat? Mendapatkan bandwidth memori 5 kali H100 tampaknya sulit secara fisik.
Apalagi ketika beberapa mata uang sedang melemah.

Performa per dolar menjadi lebih cepat dan lebih murah

Biaya inferensi AMD dan kesenjangan perangkat lunak NVIDIA

Performa GLM-5.2 di MI355X

Kuantisasi dan pemilihan framework inferensi

Dua masalah yang menghambat speculative decode

Bottleneck throughput agregat dan tuning MoE

Apa yang dibutuhkan untuk mencapai performa SOTA di AMD

Bacaan terkait

1 komentar

Komentar Hacker News