nvidia-smi dan nvtop hanya memeriksa apakah kernel berjalan di GPU, sehingga meskipun hanya sebagian sangat kecil dari kapasitas perangkat keras yang digunakan, keduanya bisa menampilkan utilisasi 100%
- Utilyze membaca langsung penghitung performa GPU untuk menampilkan penggunaan sumber daya yang nyata secara live, dengan overhead yang dapat diabaikan
- Menghitung batas atas Attainable SOL, yaitu utilisasi maksimum yang secara realistis dapat dicapai pada kombinasi beban kerja·model·perangkat keras, sehingga bisa diketahui seberapa jauh lagi performa dapat didorong
- Mendeteksi otomatis server inferensi yang sedang berjalan dan mengenali model yang dimuat pada tiap GPU; backend saat ini hanya mendukung vLLM (SGLang dan lainnya direncanakan akan ditambahkan nanti)
- Perangkat keras yang didukung adalah NVIDIA Ampere ke atas (A100, H100, H200, B200, RTX 3000+), saat ini mendukung sebagian model pada konfigurasi hingga 8 GPU dalam satu node di H100-80G dan A100-80G
- Di Linux, server profiling dijalankan secara lokal, sementara di macOS/Windows terhubung melalui klien jarak jauh berbasis WebSocket
- Satu ID perangkat hanya dapat dipantau oleh satu instans — keterbatasan dari cara Perf SDK API NVIDIA mengakses perangkat
- Untuk menjalankannya tanpa sudo, perlu mengatur
NVreg_RestrictProfilingToAdminUsers=0 lalu reboot
- Lisensi Apache-2.0
Belum ada komentar.