Utilyze - alat untuk mengukur seberapa efisien GPU benar-benar menjalankan pekerjaan yang berguna

xguru · 2026-05-22T09:31:03+09:00

nvidia-smi dan nvtop hanya memeriksa apakah kernel berjalan di GPU, sehingga meskipun hanya sebagian sangat kecil dari kapasitas perangkat keras yang digunakan, keduanya bisa menampilkan utilisasi 100% Utilyze membaca langsung penghitung performa GPU untuk menampilkan penggunaan sumber daya yang nyata secara live, dengan overhead yang dapat diabaikan Menghitung batas atas Attainable SOL, yaitu utilisasi maksimum yang secara realistis dapat dicapai pada kombinasi beban kerja·model·perangkat keras, sehingga bisa diketahui seberapa jauh lagi performa dapat didorong Mendeteksi otomatis server inferensi yang sedang berjalan dan mengenali model yang dimuat pada tiap GPU; backend saat ini hanya mendukung vLLM (SGLang dan lainnya direncanakan akan ditambahkan nanti) Perangkat keras yang didukung adalah NVIDIA Ampere ke atas (A100, H100, H200, B200, RTX 3000+), saat ini mendukung sebagian model pada konfigurasi hingga 8 GPU dalam satu node di H100-80G dan A100-80G Di Linux, server profiling dijalankan secara lokal, sementara di macOS/Windows terhubung melalui klien jarak jauh berbasis WebSocket Satu ID perangkat hanya dapat dipantau oleh satu instans — keterbatasan dari cara Perf SDK API NVIDIA mengakses perangkat Untuk menjalankannya tanpa sudo, perlu mengatur NVreg_RestrictProfilingToAdminUsers=0 lalu reboot Lisensi Apache-2.0

(github.com/systalyze)

4 poin oleh xguru 2026-05-22 | Belum ada komentar. | Bagikan ke WhatsApp

nvidia-smi dan nvtop hanya memeriksa apakah kernel berjalan di GPU, sehingga meskipun hanya sebagian sangat kecil dari kapasitas perangkat keras yang digunakan, keduanya bisa menampilkan utilisasi 100%
Utilyze membaca langsung penghitung performa GPU untuk menampilkan penggunaan sumber daya yang nyata secara live, dengan overhead yang dapat diabaikan
Menghitung batas atas Attainable SOL, yaitu utilisasi maksimum yang secara realistis dapat dicapai pada kombinasi beban kerja·model·perangkat keras, sehingga bisa diketahui seberapa jauh lagi performa dapat didorong
Mendeteksi otomatis server inferensi yang sedang berjalan dan mengenali model yang dimuat pada tiap GPU; backend saat ini hanya mendukung vLLM (SGLang dan lainnya direncanakan akan ditambahkan nanti)
Perangkat keras yang didukung adalah NVIDIA Ampere ke atas (A100, H100, H200, B200, RTX 3000+), saat ini mendukung sebagian model pada konfigurasi hingga 8 GPU dalam satu node di H100-80G dan A100-80G
Di Linux, server profiling dijalankan secara lokal, sementara di macOS/Windows terhubung melalui klien jarak jauh berbasis WebSocket
Satu ID perangkat hanya dapat dipantau oleh satu instans — keterbatasan dari cara Perf SDK API NVIDIA mengakses perangkat
Untuk menjalankannya tanpa sudo, perlu mengatur NVreg_RestrictProfilingToAdminUsers=0 lalu reboot
Lisensi Apache-2.0

Utilyze - alat untuk mengukur seberapa efisien GPU benar-benar menjalankan pekerjaan yang berguna

Bacaan terkait

Belum ada komentar.