- AMD baru-baru ini mengumumkan akselerator grafis MI300X dan mengklaim performa hingga 1,6x lebih tinggi dibanding H100 milik Nvidia
- Menanggapi hal ini, Nvidia membantah dengan menyatakan bahwa AMD tidak menggunakan optimisasi milik mereka saat membandingkan dengan H100
- AMD menyoroti bahwa Nvidia menampilkan hanya performa throughput yang tidak meniru kondisi nyata, tanpa mempertimbangkan latensi yang umum terjadi pada workload server
- AMD juga mengklaim bahwa Nvidia membenchmark sekumpulan workload inferensi terpilih dengan menggunakan TensorRT-LLM internal H100
- AMD menyatakan pengujian dilakukan menggunakan vLLM yang banyak dipakai dan tipe data FP16, serta menekankan bahwa vLLM tidak mendukung FP8
- AMD mengkritik Nvidia karena menyajikan performa throughput tanpa mempertimbangkan latensi dan tanpa mencerminkan lingkungan server nyata
Hasil uji terbaru AMD dengan optimisasi dan mempertimbangkan latensi
- AMD melakukan tiga kali uji performa menggunakan TensorRT-LLM milik Nvidia
- Uji pertama membandingkan kedua perusahaan dengan sama-sama memakai vLLM pada dataset FP16: MI300X 2,1x lebih cepat
- Pada uji kedua, performa vLLM MI300X dibandingkan dengan TensorRT-LLM: MI300X 1,3x lebih cepat
- Pada uji ketiga, vLLM(FP16) pada MI300X dibandingkan dengan TensorRT-LLM(FP8): 1,7 detik vs 1,6 detik, sehingga H100 sedikit lebih cepat
- AMD juga mengakui bahwa untuk menggunakan FP8, pengguna harus meninggalkan FP16 bersama sistem tertutup TensorRT-LLM, yang pada dasarnya berarti harus meninggalkan vLLM secara permanen
Belum ada komentar.