1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Di tengah permintaan inferensi yang melampaui pasokan serta kenaikan biaya GPU NVIDIA dan token, AMD MI355X muncul sebagai alternatif inferensi berbiaya rendah karena rata-rata sekitar 2,75 kali lebih murah per GPU dibanding B300
  • Seri AMD Instinct MI350 bersaing dengan Blackwell di level silikon, tetapi keunggulan perangkat lunak NVIDIA dan dukungan day-0 menentukan kecepatan serving nyata serta tingkat kesulitan adopsi
  • Wafer mengoptimalkan GLM-5.2 di MI355X dan mencapai 2626 tok/s/node serta 2,4 rps pada beban kerja dengan input 20k/output 1k dan cache hit rate 60%, setara sekitar 80% dari performa B200 yang diukur
  • Untuk aliran tunggal, sistem mencatat 213 tok/s pada 10k token input/1,5k token output; meski bukan yang tertinggi di leaderboard, dinilai unggul dalam biaya per performa
  • Hasil ini dicapai tanpa kernel kustom, melainkan lewat perbaikan bug framework, kuantisasi, speculative decode, dan tuning pemilihan kernel MoE, sehingga tantangan AMD kini makin mendekati masalah dukungan alih-alih perangkat lunak itu sendiri

Biaya inferensi AMD dan kesenjangan perangkat lunak NVIDIA

  • Permintaan inferensi tumbuh cepat dan melampaui pasokan, sementara model frontier seperti Claude Fable, GLM-5.2, dan Minimax M3 muncul hampir tiap dua minggu, sehingga permintaan token juga terus meningkat
  • Pasokan Blackwell belum memadai, sehingga harga GPU NVIDIA dan biaya token ikut naik
  • AMD MI355X rata-rata sekitar 2,75 kali lebih murah per GPU dibanding B300, dengan spesifikasi perangkat keras yang berada di tingkat yang sebanding
  • Seri AMD Instinct MI350 bersaing dengan Blackwell di level silikon, tetapi berkat dukungan day-0 dan ekosistem perangkat lunaknya, NVIDIA dapat melayani inferensi model terbaru dengan lebih cepat dan friksi yang lebih kecil
  • Pada MI355X dan stack ROCm, performa SOTA untuk model frontier terbaru sering kali tidak langsung tersedia, dan bahkan image yang bisa dijalankan pun bisa sulit ditemukan
  • Tanpa dukungan day-0, membangun dan mengoptimalkan model terbaru membutuhkan beberapa minggu rekayasa dan komputasi, dan selama itu model yang lebih baru bisa muncul lagi sehingga AMD terus berada dalam posisi mengejar

Performa GLM-5.2 di MI355X

  • Wafer menilai kesenjangan performa nyata antara AMD dan NVIDIA semakin menyempit seiring agen makin baik dalam optimasi kernel dan model
  • Pada beban kerja dengan input 20k/output 1k dan cache hit rate 60%, sistem mencapai 2626 tok/s/node
    • RPS berkelanjutan: 2,4 rps
    • Knee yang didefinisikan: TTFT di bawah 5 detik
    • Setara 80% dari performa yang diukur pada B200
    • MI355X lebih dari 2 kali lebih murah
RPS berkelanjutan Total tok/s/node TTFT p50 / p95 Tingkat keberhasilan
0.5 449 0.59s / 0.60s 100%
1.0 974 0.60s / 0.81s 100%
1.5 1913 0.62s / 1.03s 100%
2.0 1944 0.62s / 1.05s 100%
2.25 2089 0.63s / 1.23s 100%
2.4 jenuh 2626 0.81s / 2.22s 100%
  • Berdasarkan metodologi Artificial Analysis, GLM-5.2 mencapai 213 tok/s pada aliran tunggal dengan 10k token input dan 1,5k token output
  • Angka ini bukan yang tertinggi di leaderboard Artificial Analysis, tetapi dinilai unggul dalam biaya per performa
  • Pengujian dijalankan pada kapasitas AMD MI355X milik TensorWave

Kuantisasi dan pemilihan framework inferensi

  • Langkah pertama adalah memilih kuantisasi dan framework, dan Wafer mengkuantisasi GLM-5.2 berbasis bf16 menjadi MXFP4 dengan AMD Quark
  • Dibanding kuantisasi FP8 resmi dari z-ai, MXFP4 dinilai nyaris tanpa kehilangan pada GPQA-Diamond, tau2, dan GSM8K
Evaluasi Patokan FP8 MXFP4 Δ
GSM8K, 200 soal, 5-shot, greedy 0.965 ± 0.013 0.955 ± 0.014 −0.010
GPQA-Diamond, 198 soal × 2 seeds, temp 1.0 0.9217 ± 0.027 0.9026 ± 0.029 −0.019
tau2 macro 0.819 0.834 +0.015
  • Kandidat framework inferensi ada 3: vLLM, ATOM, dan sglang
    • vLLM tidak dapat menjalankan jalur MXFP4 + GlmMoeDsa, sehingga tidak bisa memanfaatkan keunggulan bobot MXFP4
    • ATOM mengalami penurunan kualitas output pada konteks panjang
    • sglang memiliki friksi paling kecil hingga dukungan native, dan tetap mempertahankan output yang konsisten sambil memanfaatkan kuantisasi

Dua masalah yang menghambat speculative decode

  • Untuk meningkatkan throughput, mereka mencoba mengaktifkan speculative decode di sglang, tetapi image ROCm sglang tidak mendukungnya secara bawaan
  • Agar MTP berfungsi dengan benar, dibutuhkan dua perbaikan
  • Masalah pertama adalah shared expert pada head MTP disimpan sebagai bf16, tetapi lookup kuantisasi di sglang mencoba membangunnya sebagai MXFP4 karena ketidakcocokan prefix modul
    • Quark menamai bf16 shared expert sebagai model.layers.78.mlp.shared_experts.*
    • Prefix aktual pada layer MTP adalah model.decoder.*
    • Karena ketidakcocokan ini, saat load sistem mencoba membaca bobot bf16 full-width ke slot 4-bit half-width, sehingga inisialisasi gagal akibat shape mismatch
    • Wafer menyalin entri layer 78 sekali lagi ke nama decoder yang benar-benar digunakan sglang untuk membuka speculative decode, dan throughput aliran tunggal meningkat hampir 3 kali
  • Masalah kedua adalah speculative decode dalam yang diusulkan z-ai, seperti konfigurasi 5/1/6, terhambat
    • Kernel metadata fused multi-step yang dibutuhkan untuk draft depth 4 atau lebih menulis #include <cuda_runtime.h> tanpa guard ROCm
    • Ini diperbaiki dengan satu guard #ifdef USE_ROCM
  • Setelah speculative decode berjalan normal, mereka menambahkan optimasi konfigurasi seperti --kv-cache-dtype fp8_e4m3 dan --enable-aiter-allreduce-fusion, lalu mencapai 213 tok/s untuk decode aliran tunggal

Bottleneck throughput agregat dan tuning MoE

  • Pada beban kerja yang didefinisikan, optimasi decode saja tidak cukup, dan pada kondisi input 20k serta cache 60%, bottleneck utamanya adalah prefill
  • Dalam konfigurasi TP8 yang disesuaikan untuk decode aliran tunggal, MI355X menjalankan GLM-5.2-MXFP4 pada 1461 tok/s/node
  • Setelah beralih ke TP4×DP2, sistem mencapai 1944 tok/s/node dan 2,0 RPS pada beban kerja yang sama
  • Namun, performa Blackwell yang diukur Wafer adalah 3192 tok/s/node pada 3,0 RPS, dan performa prefill MI355X relatif lebih lambat
  • Salah satu penyebab utamanya adalah fp4 MoE pada GLM-5.2 di image sglang diam-diam jatuh ke fallback heuristik FlyDSL yang lambat
    • aiter hanya menyediakan konfigurasi yang dituning untuk jalur a8w8/fp8
    • Wafer menyesuaikan sendiri pemilihan kernel MoE agar cocok dengan shape fp4 milik GLM
    • Shape targetnya adalah model_dim 6144, moe_inter 2048, E=256, topk=8
  • Dengan tuning ini, throughput agregat mencapai 2626 tok/s/node dan 2,4 RPS

Apa yang dibutuhkan untuk mencapai performa SOTA di AMD

  • Proses mencapai biaya per performa terbaik di MI355X memang memiliki sejumlah friksi, tetapi dinilai tidak terlalu sulit
  • Berbeda dari pekerjaan Qwen3.5 397B, kali ini mereka tidak menulis kernel kustom
  • Studi ini tidak mempertimbangkan performa multi-node, tetapi deployment single-node masih sangat umum digunakan di lingkungan nyata
  • Masalah mencapai performa SOTA di AMD semakin menjadi masalah dukungan ketimbang masalah perangkat lunak itu sendiri
  • Kesimpulannya, moat CUDA sedang melemah secara nyata

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Saya berharap perbandingan seperti ini juga memasukkan performa per watt sebagai metrik. Saya ingin tahu posisi AMD dalam biaya dibanding performa nyata.
    Dari obrolan dengan perusahaan yang ingin membangun pusat data di luar AS, katanya sulit mendapatkan pasokan Nvidia dalam skala yang cukup.
    Jika AMD kompetitif dalam performa per watt dan dukungan software-nya secara umum bisa dipercaya, itu cukup penting karena tarif listrik di luar AS sering kali relatif mahal.
    Kalau AMD bisa memungkinkan pusat data kecil dengan harga yang masuk akal, tampaknya AMD bisa menjadi bagian dari stack di wilayah yang pasokan Nvidia-nya terbatas.
    Namun saya tidak begitu tahu seperti apa pengadaan GPU AMD sebenarnya, dan selain Wafer di AS serta beberapa perusahaan, saya hampir tidak pernah melihat perusahaan yang memakai AMD, jadi mungkin saja saya terjebak di dalam gelembung Nvidia.

    • DGX B200 kira-kira berharga 500 ribu dolar dan memakai daya sekitar 14 kW.
      Jika diasumsikan dijalankan terus-menerus 100% selama 8 tahun, totalnya sekitar 1 GWh; bahkan di tempat dengan listrik mahal seperti Jerman, biayanya sekitar 100 ribu euro, jadi dibanding harga awal perangkat 500 ribu dolar, biaya selama 8 tahun itu tidak besar.
      Masalah sebenarnya dari konsumsi daya tinggi bukan tarif listrik, melainkan batas pasokan listrik yang bisa ditarik ke pusat data. Konfigurasi yang lebih efisien berarti bisa memasukkan lebih banyak perangkat dalam batas daya masuk yang terbatas.
    • Ada beberapa tempat yang memakai AMD, dan lebih banyak lagi yang mulai bereksperimen. Namun AMD sudah lama mengecewakan di bidang ini, jadi saya berhati-hati untuk optimistis bahwa akhirnya akan ada persaingan.
      Pasar benar-benar membutuhkan pesaing nyata untuk Nvidia, terutama dalam performa/watt.
    • Meta memakai AMD: https://www.amd.com/en/newsroom/press-releases/2026-2-24-amd...
      OpenAI juga: https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd...
    • Perlu juga diingat bahwa selama bertahun-tahun AMD pada dasarnya menguasai sisi hardware konsol video game. Tidak ada tanda-tanda itu akan segera berakhir.
    • Biasanya, jika sebuah perusahaan tidak bisa dipenuhi semua pesanannya oleh Nvidia, setidaknya mereka punya sebagian GPU AMD.
  • Keren, tetapi dalam penggunaan nyata, kuantisasi FP4 hampir tidak pernah benar-benar lossless. Banyak penyedia mengiklankan jumlah token per detik yang tinggi untuk Kimi dan GLM, tetapi modelnya menjadi terkekang secara fungsional dan tidak lagi mendekati kualitas garis depan.
    Saya berharap ini tidak benar.

    • Kimi memakai INT4 sebagai format default, jadi untuk model itu tidak ada konsep “lebih baik dari presisi 4-bit”.
      Ini berbeda dari GLM, yang default-nya presisi 16-bit dan 8-bit juga umum dipakai.
    • MI355X dapat melakukan operasi FP6 dengan kecepatan yang sama seperti FP4. Ini ciri khas AMD.
      Karena itu, orang seharusnya membuat kuantisasi MXFP6 yang hampir lossless dan performanya jauh lebih dekat ke FP4 daripada FP8.
    • Bukankah Nvidia juga mengklaim NVFP4 itu lossless?
      Saya belum cukup menguji model yang dikonversi Nvidia ke NVFP4 selain GLM 5.2, tetapi menurut saya hasilnya baik-baik saja.
      Dari pengalaman langsung saya, hasilnya sangat bervariasi tergantung model.
    • Itu juga bagian pertama yang langsung menarik perhatian saya.
    • Sepingat saya akurasinya sekitar 96~98%.
  • Saya kira tulisan ini akan membahas jalur peningkatan agar lebih cepat dan murah, tetapi di sini tampaknya versi terkuantisasi ditawarkan dengan harga yang sama seperti versi penuh, sementara versi cepat dijual jauh lebih mahal.

  • Bukankah ini hampir sudah sewajarnya? Performa per dolar seharusnya membaik satu arah seperti ratchet. Bagaimana sesuatu yang lebih mahal bisa menggantikan yang lebih murah?

  • Menurut saya judul seperti ini seharusnya dibuat ilegal jika tidak mencantumkan metode kuantisasi.

    • MXFP4.
    • Saya juga berharap penggunaan “Why this matters” di judul dilarang.
    • Filter yang bagus adalah mengecek apakah akhiran domainnya .ai. Jika terlihat, kemungkinan besar itu tulisan minim usaha, clickbait, dangkal, tidak berguna, atau menipu.
  • Komputasi di dalam memori dan paradigma neuromorfik kemungkinan besar akan mendorong tren ini jauh lebih kuat dalam 10 tahun ke depan.
    Saat peningkatan yang lebih radikal keluar dari laboratorium, pada akhirnya material baru dan perangkat nano akan masuk, dan efisiensi bisa membaik beberapa orde besaran.
    Bahkan hanya dengan memperbesar teknologi yang sudah ada seperti MRAM pun masih ada ruang.

  • Saat beralih dari fp8 ke mxfp4, penurunan akurasi menjadi terlihat.

    • Wafer menghentikan Wafer Pass, paket coding flagship mereka sendiri, hanya beberapa minggu setelah diluncurkan, dan bahkan harus memberikan pengembalian dana prorata.
      Meski begitu, mereka membanggakan bahwa biaya diturunkan lagi lewat kuantisasi, padahal implementasinya jelas kurang memadai.
      [1] https://www.ycombinator.com/launches/Q9i-wafer-pass-flat-rat...
    • Meski begitu, entah bagaimana mereka mengklaimnya “lossless”.
  • Ini bukan fenomena baru. Performa per dolar sudah meningkat secara eksponensial dengan cukup konsisten sejak sekitar 1900.
    1900~2010: https://www.thekurzweillibrary.com/exponential-growth-of-com...
    1939~2023: https://medium.com/@timventura/kurzweils-law-for-the-ai-age-...

  • Tidak mengherankan jika bersaing dengan Blackwell. Rubin 5 kali lebih cepat daripada Blackwell untuk inferensi, dan Blackwell adalah generasi terakhir Nvidia yang belum dioptimalkan secara khusus untuk inferensi.
    Kalau ada yang saya lewatkan, beri tahu saya.

    • Sangat tidak jelas apa hal khusus pada Rubin yang bisa disebut dioptimalkan untuk inferensi.
      Saya melihat konfigurasi terpisah yang memisahkan node prefill dan node decoding, tetapi di luar itu saya tidak tahu apa lagi.
    • Jika inferensi terikat pada bandwidth memori, bagaimana inferensi bisa dibuat 5 kali lebih cepat? Mendapatkan bandwidth memori 5 kali H100 tampaknya sulit secara fisik.
  • Apalagi ketika beberapa mata uang sedang melemah.