5 poin oleh xguru 2023-12-20 | Belum ada komentar. | Bagikan ke WhatsApp
  • AMD baru-baru ini mengumumkan akselerator grafis MI300X dan mengklaim performa hingga 1,6x lebih tinggi dibanding H100 milik Nvidia
    • Menanggapi hal ini, Nvidia membantah dengan menyatakan bahwa AMD tidak menggunakan optimisasi milik mereka saat membandingkan dengan H100
  • AMD menyoroti bahwa Nvidia menampilkan hanya performa throughput yang tidak meniru kondisi nyata, tanpa mempertimbangkan latensi yang umum terjadi pada workload server
    • AMD juga mengklaim bahwa Nvidia membenchmark sekumpulan workload inferensi terpilih dengan menggunakan TensorRT-LLM internal H100
  • AMD menyatakan pengujian dilakukan menggunakan vLLM yang banyak dipakai dan tipe data FP16, serta menekankan bahwa vLLM tidak mendukung FP8
  • AMD mengkritik Nvidia karena menyajikan performa throughput tanpa mempertimbangkan latensi dan tanpa mencerminkan lingkungan server nyata

Hasil uji terbaru AMD dengan optimisasi dan mempertimbangkan latensi

  • AMD melakukan tiga kali uji performa menggunakan TensorRT-LLM milik Nvidia
  • Uji pertama membandingkan kedua perusahaan dengan sama-sama memakai vLLM pada dataset FP16: MI300X 2,1x lebih cepat
  • Pada uji kedua, performa vLLM MI300X dibandingkan dengan TensorRT-LLM: MI300X 1,3x lebih cepat
  • Pada uji ketiga, vLLM(FP16) pada MI300X dibandingkan dengan TensorRT-LLM(FP8): 1,7 detik vs 1,6 detik, sehingga H100 sedikit lebih cepat
  • AMD juga mengakui bahwa untuk menggunakan FP8, pengguna harus meninggalkan FP16 bersama sistem tertutup TensorRT-LLM, yang pada dasarnya berarti harus meninggalkan vLLM secara permanen

Belum ada komentar.

Belum ada komentar.