- Mencakup compiler deep learning TensorRT dan kernel yang dioptimalkan, tahap prapemrosesan/pascapemrosesan, serta komponen dasar komunikasi multi-GPU/multi-node
- Memungkinkan penyediaan performa terbaik dan fitur kustom untuk LLM dengan cepat tanpa pengetahuan mendalam tentang C++ atau CUDA
- Menyediakan API Python modular open source untuk kemudahan penggunaan dan skalabilitas
- Mendukung GPU Ampere, Lovelace, dan Hopper
- Saat diuji dengan menerapkan TensorRT-LLM berbasis H100
- GPT-J-6B meningkatkan performa inferensi 8x, menurunkan TCO 5,3x, dan mengurangi konsumsi energi 5,6x
- Llama2 70B meningkatkan performa inferensi 4,6x, menurunkan TCO 3x, dan mengurangi konsumsi energi 3,2x
- Mencakup teknik penjadwalan yang dioptimalkan yang disebut In-flight Batching
- GPU NVIDIA H100 yang dilengkapi TensorRT-LLM memberi pengguna kemampuan untuk dengan mudah mengonversi bobot model ke format FP8 baru dan mengompilasi model agar otomatis memanfaatkan kernel FP8 yang dioptimalkan
- Hal ini dimungkinkan melalui teknologi Hopper Transformer Engine, tanpa perlu mengubah kode model
- Saat ini tersedia dalam early access, dan dijadwalkan rilis dalam beberapa minggu ke depan
Belum ada komentar.