9 poin oleh xguru 2023-09-13 | Belum ada komentar. | Bagikan ke WhatsApp
  • Mencakup compiler deep learning TensorRT dan kernel yang dioptimalkan, tahap prapemrosesan/pascapemrosesan, serta komponen dasar komunikasi multi-GPU/multi-node
  • Memungkinkan penyediaan performa terbaik dan fitur kustom untuk LLM dengan cepat tanpa pengetahuan mendalam tentang C++ atau CUDA
  • Menyediakan API Python modular open source untuk kemudahan penggunaan dan skalabilitas
  • Mendukung GPU Ampere, Lovelace, dan Hopper
  • Saat diuji dengan menerapkan TensorRT-LLM berbasis H100
    • GPT-J-6B meningkatkan performa inferensi 8x, menurunkan TCO 5,3x, dan mengurangi konsumsi energi 5,6x
    • Llama2 70B meningkatkan performa inferensi 4,6x, menurunkan TCO 3x, dan mengurangi konsumsi energi 3,2x
  • Mencakup teknik penjadwalan yang dioptimalkan yang disebut In-flight Batching
  • GPU NVIDIA H100 yang dilengkapi TensorRT-LLM memberi pengguna kemampuan untuk dengan mudah mengonversi bobot model ke format FP8 baru dan mengompilasi model agar otomatis memanfaatkan kernel FP8 yang dioptimalkan
    • Hal ini dimungkinkan melalui teknologi Hopper Transformer Engine, tanpa perlu mengubah kode model
  • Saat ini tersedia dalam early access, dan dijadwalkan rilis dalam beberapa minggu ke depan

Belum ada komentar.

Belum ada komentar.