NVIDIA merilis open source TensorRT-LLM untuk mempercepat inferensi LLM

xguru · 2023-09-13T10:17:02+09:00

Mencakup compiler deep learning TensorRT dan kernel yang dioptimalkan, tahap prapemrosesan/pascapemrosesan, serta komponen dasar komunikasi multi-GPU/multi-node Memungkinkan penyediaan performa terbaik dan fitur kustom untuk LLM dengan cepat tanpa pengetahuan mendalam tentang C++ atau CUDA Menyediakan API Python modular open source untuk kemudahan penggunaan dan skalabilitas Mendukung GPU Ampere, Lovelace, dan Hopper Saat diuji dengan menerapkan TensorRT-LLM berbasis H100 GPT-J-6B meningkatkan performa inferensi 8x, menurunkan TCO 5,3x, dan mengurangi konsumsi energi 5,6x Llama2 70B meningkatkan performa inferensi 4,6x, menurunkan TCO 3x, dan mengurangi konsumsi energi 3,2x Mencakup teknik penjadwalan yang dioptimalkan yang disebut In-flight Batching GPU NVIDIA H100 yang dilengkapi TensorRT-LLM memberi pengguna kemampuan untuk dengan mudah mengonversi bobot model ke format FP8 baru dan mengompilasi model agar otomatis memanfaatkan kernel FP8 yang dioptimalkan Hal ini dimungkinkan melalui teknologi Hopper Transformer Engine, tanpa perlu mengubah kode model Saat ini tersedia dalam early access, dan dijadwalkan rilis dalam beberapa minggu ke depan

(developer.nvidia.com)

9 poin oleh xguru 2023-09-13 | Belum ada komentar. | Bagikan ke WhatsApp

Mencakup compiler deep learning TensorRT dan kernel yang dioptimalkan, tahap prapemrosesan/pascapemrosesan, serta komponen dasar komunikasi multi-GPU/multi-node
Memungkinkan penyediaan performa terbaik dan fitur kustom untuk LLM dengan cepat tanpa pengetahuan mendalam tentang C++ atau CUDA
Menyediakan API Python modular open source untuk kemudahan penggunaan dan skalabilitas
Mendukung GPU Ampere, Lovelace, dan Hopper
Saat diuji dengan menerapkan TensorRT-LLM berbasis H100
- GPT-J-6B meningkatkan performa inferensi 8x, menurunkan TCO 5,3x, dan mengurangi konsumsi energi 5,6x
- Llama2 70B meningkatkan performa inferensi 4,6x, menurunkan TCO 3x, dan mengurangi konsumsi energi 3,2x
Mencakup teknik penjadwalan yang dioptimalkan yang disebut In-flight Batching
GPU NVIDIA H100 yang dilengkapi TensorRT-LLM memberi pengguna kemampuan untuk dengan mudah mengonversi bobot model ke format FP8 baru dan mengompilasi model agar otomatis memanfaatkan kernel FP8 yang dioptimalkan
- Hal ini dimungkinkan melalui teknologi Hopper Transformer Engine, tanpa perlu mengubah kode model
Saat ini tersedia dalam early access, dan dijadwalkan rilis dalam beberapa minggu ke depan

NVIDIA merilis open source TensorRT-LLM untuk mempercepat inferensi LLM

Bacaan terkait

Belum ada komentar.